Dlaczego niektórzy uważają, że “Sieć Semantyczna nigdy nie zadziała”

- autor: tsissput

Ci którzy tak mówią, nie mają tego do końca na myśli. James Hendler, jeden z ojców sieci semantycznych postanowił przeprowadzić wykład pod wyżej wymienionym tytułem. Miał on na celu zwrócenie uwagi na rzecz nad którą wszyscy powinniśmy ubolewać.

Ile krów jest w Teksasie?

Zdaniem autora dzisiejsze funkcjonowanie Web’u nie spełnia praktycznych oczekiwań jakie były względem niego postawione kiedy powstawał. Sir Timothy Berners-Lee, jeden z pionierów usługi WWW, opisując wiele lat temu jej przyszłościową wizję działania mówił w dzisiejszym rozumieniu o sieci semantycznej. Punkty sieci miały reprezentować realne obiekty powiązane relacjami, a komputer miał dawać użytkownikowi odpowiedź na nurtujące pytania. W którymś miejscu zboczono z tego kursu i szukając czegokolwiek w Internecie jesteśmy świadkami konkursu wyszukiwania – potyczki polegającej na tym, kto lepiej wypozycjonuje swoją stronę i znajdzie się wyżej w rankingu. Punkty sieci reprezentują niewiele więcej niż tekst połączony linkami. Hendler podał przykład sformułowania zapytania „Ile krów jest w Teksasie?” i odpowiedzi w postaci 200000 pozycji w Google zamiast uzyskania interesującej go informacji lub zawiadomieniu o jej potencjalnym braku. Podejście skierowane stricte na znalezienie informacji jest zrozumiałe, szczególnie w świetle trudności i ograniczeń w transferze danych z jakimi się wówczas borykano. Płacąc parę złotych za każdy megabajt nie można pozwolić sobie na błądzenie. Brak tego problemu dzisiaj stał się podstawą marketingu i zmienił ekonomię Internetu. Już nie strony pornograficzne, ale reklamy są tym co produkuje największe pieniądze. Nie wiadomo jednakże, czy ta zmiana jest pozytywna.

Zastosowanie sieci semantycznych przerosło najśmielsze oczekiwania

Oczekując efektu kuli śnieżnej nie podejrzewano, że potoczy się ona w tą stronę. Oczekiwano czegoś wielkiego, co byłoby w stanie analizować semantykę, ontologię i dawać odpowiedzi. Uzyskano natomiast niezaprzeczalnie równie wielką rzecz, ale w innej niż oczekiwana formie. Kiedyś Hendler mówił na wykładzie, że należy myśleć o milionie jak o małej liczbie na co cała sala drżała śmiechem. Dzisiaj nawet jego najśmielsze oczekiwania zostały przekroczone. Rozmiar danych, ilość stron internetowych i funkcjonalność Internetu są oszałamiające. Ale aby iść dalej należy cofnąć się przypominając sobie pierwotną koncepcję i nie bać się podjąć wyzwania zmieniania tego co do tej pory nie funkcjonuje jak powinno.
Zastosowanie sieci semantycznych przerosło najśmielsze oczekiwania. Używane są one w większości dużych firm. Swoje zastosowanie znajdują przede wszystkim na rynku reklamy, który jest łańcuchem powiązań pomiędzy producentem i konsumentem.

Wysyp danych

Rozwój Internetu spowodował istny wysyp danych i sprawił, że są one powszechnie dostępne. Nigdy nie będzie można jednak stworzyć ontologii na tak wielką skalę jak globalna sieć, ponieważ niemożliwe jest przekształcenie wszystkich tych danych w sieć semantyczną. Ma to związek z faktem, że logika nie jest wystarczająco potężna aby zamodelować choćby rozbieżności zdań pomiędzy ludźmi. Problem związany jest również z przeszukaniem tak dużej liczby danych. Na chwilę obecną nie lada wyzwanie stanowi wnioskowanie i przeszukiwanie ontologii złożonych z miliardów trójek (np. w projekcie Open Government Data znajduje się ich 17 miliardów). Niedawno jednak, poprzez zastosowanie rozproszonego / równoległego podejścia do przeszukiwania i wnioskowania w sieciach semantycznych udowodniono, że jest to możliwe.

Linked data

W ostatnich czasach technologie RDF dojrzewają jako narzędzia do modelowania „linked data”, czyli danych charakteryzujących się pewnymi zależnościami / połączeniami. Semantyka jest w nich bardzo ograniczona, są one przechowywane głównie w systemach zarządzania bazami danych, a nie tzw. „triple stores”. Ponadto nie jest dokonywane żadne wnioskowanie na danych. RDF, którego Hendler nie chce nazywać ontologią, jest zalecany przez Facebooka jego developerom. Używa się go w 10-15% przypadków. Przy liczbie kliknięć „like” dziennie w liczbie 3 milionów powstaje tak ogromna liczba trójek, jakiej nie spodziewano się, że kiedykolwiek powstanie. „Like” na Facebooku produkuje nieprzebrane ilości danych. Bardzo często nie jesteśmy już w stanie przedrzeć się przez wszystko co lubią nasi znajomi. Nadanie mniej ogólnikowej semantyki wydarzeniom zachodzącym w sieci ułatwi surfowanie po niej. Obecnie analiza akcji wykonywanych w sieci dostarcza bardzo wielu informacji kompaniom zajmującym się ich gromadzeniem w celach komercyjnych. Co ciekawe te dostarczane przez Facebooka są jedynie małym procentem.

Semantyczny biznes

W realnym świecie pomiędzy producentem a osobą kupującą finalny produkt istnieje łańcuch na którym naliczana jest największa marża. Analogiczna sytuacja ma miejsce w sieci, gdzie pomiędzy docelową stroną internetową, np. jakiegoś sklepu, a osobą szukającą jakiś towar istnieje długa droga, złożona często z linków i dająca pole do popisu porównywarkom cen czy innym firmom. Wielu ludzi zarabia pieniądze przekazując samą informację dalej. Sprowadza się do wydobycia jak największej ilości kliknięć, podsuwając surfującym po sieci jak najwięcej linków które de facto generują pieniądze. Jest to zrozumiałe z ekonomicznego punktu widzenia ale cały przetaczający się przez nasz monitor szum informacyjny potrafi często być bezużyteczny.

Podsumowanie

Według Hendlera ontologie są rzeczą bardzo potężną, ale przez to, że bazują na logice deskrypcyjnej wystarczy jedna mała niespójność by wszystko się zawaliło. Systemy oparte na OWL i Pellet bardzo dobrze się sprawują (głównie w sektorze bankowym ale w dalszym ciągu są jeszcze w fazie prototypów i swym działaniem są zbyt zbliżone do systemów eksperckich). Dojrzewanie technologii RDF (która pracuje dobrze z dzisiejszymi paradygmatami wyszukiwania) spowodowało zaskakująco mały krok w przód w stosunku do oczekiwań względem idei sieci semantycznych. Na jednym ze slajdów na pytanie z tematu wykładu czytamy więc odpowiedź, że nie ma żadnego powodu by sieć semantyczna nie działała, gdyż istnieją przypadki gdzie funkcjonuje, robi to dobrze i będzie działać dalej. Pytaniem natomiast jest co należy zrobić by przenieść ją na wyższy poziom i rozpowszechnić, co przy dobrej współpracy jako społeczność powinniśmy próbować zrobić. W tym celu musimy przedsięwziąć pewne poważne kroki, które mogą być bardzo trudne do wykonania ze względu na potrzeby runku i ekonomię, która nie lubi przestoju. Nie ma czasu na tworzenie czegoś od podstaw. A należałoby ponownie przyjrzeć się pierwotnym założeniom i spróbować aktualizować wcześniejsze rozwiązania do kompatybilnych i odpowiednich dla nowoczesnych sieci. Powinniśmy zjednoczyć konkurencyjne modele „linked-data” i semantyki zrozumiałej dla komputerów oraz podejść do niektórych kluczowych wyzwań badawczych. Oczywiście w dzisiejszych czas bardzo szybko oczekuje się efektów i nie sposób zatrzymać kuli śnieżnej która mknie już w innym kierunku, ale by być w stanie osiągnąć postęp koniecznie należy chociaż spróbować spełnić powyższe.

Technologie, które powstały dotychczas działają dobrze ale ich z racji komercyjnego zastosowania nie wychodzą naprzeciw oczekiwań środowisk akademickich, gdyż w dalszym ciągu odbiegają od pierwotnej koncepcji. Należy myśleć i starać się dalej a nie być usatysfakcjonowanym wprawdzie dobrymi, ale czasowymi rozwiązaniami.

Jarosław Szymczak

Reklamy

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj / Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj / Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj / Zmień )

Connecting to %s

%d blogerów lubi to: