Linked Data

- autor: tsissput

Potrzeba jest matką wynalazku. To powiedzenie sprawdza się w przypadku każdej dziedziny, każdego problemu, o każdym czasie. Ponad 20 lat temu pewien fizyk poczuł frustrację pracując jako inżynier oprogramowania. Najrozmaitsze formaty danych, wszelkiego rodzaju systemy dokumentacji, cała ta różnorodność powodowała, że poczuł potrzebę złożenia czegoś z fragmentów różnych źródeł. Każde zadanie jakiego się podjął powodowało, że musiał korzystać z innego komputera, programu, formatu danych. Fizyk wyobraził je sobie jako część wielkiego systemu dokumentacji w chmurach. Tym fizykiem był Tim Berners Lee, a z jego pomysłu, nazwanego WorldWideWeb, czerpiemy dziś wszyscy.

Można pokusić się o stwierdzenie, że tak naprawdę idea Sieci Semantycznej poprzedza World Wide Web. Być może dokładniejszym stwierdzeniem byłoby, że to Sieć Semantyczna jest oryginalną wizją Pajęczyny. Do takich wniosków można dojść analizując diagram Tima Bernersa Lee stworzony w roku 1989, pokazujący propozycję WWW.

Widać na nim zasoby połączone relacjami, które z kolei też również coś oznaczają – dokument coś opisuje, odnosi się do czegoś, coś zawiera. Z perspektywy czasu wiemy, że Sieć nie podążyła w kierunku, jaki wyobraził sobie Berners Lee.

Przez kolejne lata ludzie umieszczali w Internecie dokumenty oraz dane. Dziś z pewnością możemy powiedzieć, że zostały zgromadzone ich ogromne ilości. Proces ten nabrał szczególnie szybkiego tempa po rozpoczęciu projektu Wiki, „rewolucji Web 2.0” oraz rozwoju serwisów społecznościowych. Dziś dane wyobrażamy sobie jako nudne, głęboko zakopane skrzynki, które jednak można eksplorować, wydobywać ciekawe informacje, łączyć je oraz prezentować w interesujący sposób. Należy jednak podkreślić, że konieczne w tym procesie jest istnienie ogromnej ilości danych.

Warto zauważyć, że pobierając dane z Internetu otrzymujemy je w pewnej ustandaryzowanej postaci. Organizacja W3C (World Wide Web Consortium) czuwa nad ustanawianiem standardów pisania i przesyłu stron WWW. Niestety w praktyce okazało się, że wiele ustanowionych przez nią standardów jest niewygodnych oraz czasochłonnych w implementacji. Okazało się jednak, że prywatne i komercyjne inicjatywy stworzyły wiele API publikowanych przez rosnącą liczbę usług sieciowych, czyli metod do komunikacji jednego komputera/usługi sieciowej z inną.

Jest jeszcze jedna rzecz, która staje się oczywista, gdy się o niej powie, choć niekoniecznie od razu widoczna. Dane są połączone. Szukając informacji o jakiejś osobie możemy się dowiedzieć, że mieszka w Warszawie. Następnie przejdziemy do opisu Warszawy, skąd dowiemy się, że jest stolicą Polski. Polska jest krajem leżącym w Europie Środkowo-Wschodniej itd., itd. Dane to relacje pozwalające poruszać się między nimi.

Chris Bizer z Freie Universitat w Berlinie stworzył DBpedię, prezentującą powiązane dane z Wikipedii. Projekt ten pozwala na wydawanie zapytań do Wikipedii oraz łączenie danych znajdujących się w sieci WWW z danymi Wikipedii. Poniższy diagram przedstawia powiązanie DBpedii z innymi źródłami danych, jakie ona wykorzystuje.

Niestety w praktyce dane w Internecie w bardzo wielu

przypadkach nie są połączone z wielu różnych powodów. Istnieją dane naukowe, meteorologiczne, osobiste, rządowe, informacje o wydarzeniach itd. – wszystkie one w większości przypadkach są od siebie oderwane. Masa danych jest uwięziona, będąc w posiadaniu jednej organizacji, przedsiębiorstwa czy instytucji. Ich połączenie pozwoliłoby na zadawanie nowych pytań i otrzymywanie na nie odpowiedzi. W przypadku Sieci, jaką znamy obecnie jest to niemożliwe – nie uzyskamy odpowiedzi na pytanie, dopóki ktoś go nie postawi.

W każdym serwisie społecznościowym istnieją powiązane dane. Oglądamy profil pewnej osoby i oznaczamy ją jako swojego znajomego. Tworzymy nową relację. Przeglądamy album zdjęciowy i oznaczamy znajdujące się na niej osoby. Jednak przechodząc do innego portalu, np. o podróżach, pojawiają się mury – niemożliwe jest zarekomendowanie wybranej przez nas wycieczki wszystkim osobom z poprzedniego serwisu.

Okazuje się jednak, że te trzy reguły – duża ilość danych, standardowy format ich przedstawiania oraz ich powiązanie –  wystarczą do stworzenia pełnowartościowej Sieci Semantycznej. Od pewnego czasu daje się zauważyć zwiększoną aktywność konsorcjum W3C na rzecz Sieci Semantycznej. Przeznaczone zostały na to znaczne środki z Unii Europejskiej i innych źródeł. Rozpoczęto liczne warsztaty, wydarzenia oraz projekty ją promujące. Wynikiem tych wysiłków są liczne specyfikacje oraz wytyczne, które miały stać się podstawą technologii Sieci Semantycznej. Podstawowe elementy zostały przedstawione na poniższym diagramie.

Oryginalnie Tim Berners-Lee przedstawił ideę Sieci Semantycznej jako Sieci, w której komputery są w stanie analizować znajdujące się w niej dane. Należy w tym miejscu odróżnić składnię od semantyki. To pierwsze określa sposób, w jaki coś mówimy, podczas gdy to drugie odnosi się do znaczenia. Jeśli w zdaniu „I love technology” słowo „love” zamienimy na symbol serca, zmieni się składnia zdania, ale semantyka pozostanie taka sama. Komputery wykorzystują pewną składnię (HTML), dzięki czemu bez problemu możemy pobrać z sieci wybrany obrazek i zostanie on poprawnie wyświetlony na monitorze. Nie rozumieją jednak znaczenia tego, co przetwarzają. Gdyby komputery rozumiały wyświetlaną treść, mogłyby nauczyć się, jakimi tematami jesteśmy zainteresowani.  Mając z kolei taką wiedzę, mogłyby aktywnie pomagać nam wyszukiwać informacje, a nie tylko biernie przedstawiać to, czego zażądamy.

Sieć Semantyczna działa w obrębie rzeczy, a nie dokumentów. Tymi rzeczami może być wszystko, co jesteśmy w stanie sobie wyobrazić – wydarzenia, ludzie, przedmioty, miejsca. Jeśli dodatkowo będą one ze sobą połączone, będziemy znali powiązania. Tim Bernes-Lee wyobrażał sobie, że handel, biurokracja oraz nasze codzienne życie będą obsługiwane przez komputery rozmawiające z komputerami. Jeśli komputer zrozumie czym jest dane miejsce, wydarzenie oraz osoba, może pomóc w interakcjach pomiędzy nimi. Jeśli impreza urodzinowa została oznaczona w pewnym miejscu i czasie, możesz powiedzieć komputerowi, żeby zapisał informację o wydarzeniu w kalendarzu oraz pomógł w zorganizowaniu dojazdu.

Teraźniejszość jednak jest inna. Po wielu latach oczekiwań Sieć Semantyczna ciągle czeka na lepsze czasy. Wyszukiwarki internetowe starają się uporządkować panujący w Internecie chaos i tak naprawdę są z tego chaosu bardzo zadowolone. Jak jednak zostało to opisane na jednym z poprzednich wpisów na tym blogu, bardzo często nie dają zadowalającej odpowiedzi na zadawane im pytania. Z technologicznego punktu widzenia Internet okazał się wielkim sukcesem, pozwalającym przeglądarce pobrać dane z serwera znajdującego się na drugim końcu świata. Ponadto znajdują się w niej ogromne ilości zasobów, danych, informacji. Kolejnym krokiem jest stworzenie systemów, które będą w stanie wnioskować na ich podstawie, rozwiązywać problemy, odpowiadać na skomplikowane pytania. Jaka będzie przyszłość Sieci? Niestety na to pytanie nie jest łatwo odpowiedzieć. Wiele zależy od ekonomii, polityki, kultury, technologii. Niektórzy uważają, że Sieć Semantyczna nigdy nie powstanie. Miejmy jednak nadzieję, że nie jest to tak nieprawdopodobna wizja.

Literatura:

http://info.cern.ch/

http://www.w3.org/DesignIssues/LinkedData

http://pl.wikipedia.org/wiki/Tim_Berners-Lee

http://en.wikipedia.org/wiki/History_of_the_World_Wide_Web

http://en.wikipedia.org/wiki/Linked_data

84811

idi?naps

Reklamy

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj / Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj / Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj / Zmień )

Connecting to %s

%d blogerów lubi to: