Trudności na drodze rozwoju sieci semantycznych.

- autor: tsissput

Każdy z nas słyszał już kiedyś stwierdzenie, że sieć semantyczna to przyszłość Internetu. Śledząc ostatnie nowinki ze świata IT widać, że sieci semantyczne znajdują coraz to nowe zastosowania, przykładem mogą być tu systemy eksperckie czy także działania jednego z gigantów świata IT firmy Oracle która udostępnia swoim klientom zbiór narzędzi pozwalających na przetwarzanie danych semantycznych bezpośrednio w systemach baz danych Oracle. Dzisiejszy model „sieci” opartej na dokumentach zaczyna powoli być wypierany przez „sieć” skoncentrowaną na zawartości tych dokumentów. Z perspektywy użytkowników jest to trend jak najbardziej pożądany. Większa dokładność wyszukiwań, selekcja danych najlepiej dopasowanych do naszego zapytania. To wszystko sprawia, że rozwój technologii semantycznych z pewnością będzie postępował, pytanie brzmi jednak jak poradzić sobie z trudnościami które napotkamy na drodze rozwoju tych technologii?

Stan obecny to problem z odczytaniem danych z sieci przez maszyny. Chyba każdy z nas zgodzi się z tym, że Internet to ogromne zasoby informacji. Problem w tym że dane publikowane w sieci Web w większości prezentowane są w sposób czytelny dla innych ludzi, a co za tym idzie nie zawsze czytelny dla maszyn analizująco-wnioskujących. Ludzie czytając zasoby Internetu potrafią łatwo powiązać informacje umieszczone na stronie internetowej z innymi danymi w sieci. Tu dochodzimy do ważnego problemu, to co dla ludzi wydaję się być czynnością dosyć prostą jest natomiast największą trudnością dla algorytmów analizujących sensowne informacje spośród miliardów witryn publikowanych w Internecie. Główną przeszkodą w analizowaniu, przetwarzaniu i rozumieniu zapytań jest fakt, że informacje przechowywane w sieci Web są dziś w setkach tysiącach formatów, przez co ich porównywanie i wnioskowanie na ich podstawie staje się zadaniem trudnym, żeby nie powiedzieć niemożliwym.

Co może być sposobem rozwiązania? Zmiana sposobu przechowywania informacji. Gromadzenie nowych danych w usystematyzowanych strukturach. Rozpatrując ten aspekt od strony technicznej nie jest to trudne do zrealizowania, pod warunkiem że mówimy tu o nowo powstających dokumentach i o standardzie działającym na przykład dla wszystkich dokumentów publikowanych w sieci Web od 1 stycznia 2012 roku. Problem zaczyna się jednak kiedy zastanowimy się co zrobić z obecnymi zasobami informacji dodanymi do światowej sieci internetowej przed wprowadzeniem jednego standardu. Rozwiązaniem może okazać się sztuczna inteligencja jak również lingwistyka komputerowa. Żeby było to możliwe, sieć semantyczna oprócz tylko danych powinna zawierać również dodatkowe informacje o relacjach pomiędzy nimi. Umieszcza się je w formie tekstowej, jako tak zwane metadane. Przykład takiej ontologii został zaprezentowany na obrazku poniżej.

Opis przykładu z obrazka „Ontologia: umożliwienie opisywania złożonych relacji”:
Powyżej zaprezentowano przykład ontologii przy opisie dzieł sztuki. Gdy poruszamy się pionowo poprzez strukturę, dochodzimy do przyporządkowania własności (według systematyki). Każdy malarz jest artystą, każde muzeum jest budynkiem. Pomiędzy elementami mogą wystąpić prawie niezliczone relacje. Obraz namalowany przez malarza przy użyciu danej techniki jest zawieszony w budynku architekta To może być muzeum, ale też salon w domu artysty.

Przetwarzanie języka naturalnego (z angielskiego NLU – Natural Language Processing) to między innymi metody obejmujące rozbiór wypowiadanych przez człowieka tekstów. Zazwyczaj polega to na podziale całej wypowiedzi na pojedyncze zdania i ich dalszą analizę. Dodatkowo wykorzystanie przez maszyny wiedzy o budowie zdań (podmiot -> predykat -> obiekt) sprawia że semantyczny rozkład treści zdania wydaje się być łatwy. Pozwala to na identyfikowanie osób, zdarzeń oraz lokalizacji i tworzenie powiązań między nimi, co w rezultacie podczas przeszukiwania minimalizuje liczbę błędnych rezultatów zapytań. Analizy te dążą do zbliżenia analiz dokonywanych przez ludzkich mózg, po usłyszeniu wypowiedzi. Ciągle jeszcze na tym polu analizy wypowiadanych tekstów pozostała długa droga, jednak z pewnością zostały już stworzone solidne podwaliny dla dalszego rozwoju.

Jakich trudności możemy się jeszcze spodziewać? Rozważmy wątek ekonomiczny. Czy firmom typu Google czy Yahoo opłaca się stworzenie idealnej wyszukiwarki semantycznej, która na zadane przez użytkownika pytanie udzieli tylko jednej odpowiedzi która z bardzo wysokim prawdopodobieństwem okaże się tą właśnie szukaną informacją? Odpowiedź wcale nie jest jednoznaczna. Obecne wyszukiwarki internetowe są darmowe, każdy użytkownik z dostępem do Internetu po wpisaniu w pasku przeglądarki adresu google.com czy też bing.com może po już po paru sekundach uzyskać do nich dostęp i wykorzystać w celu wyszukania interesującej go informacji. Współczesne silniki wyszukiwarek zaprezentują nam posegregowaną listę poszukiwanych fraz uzyskaną za pomocą metod statystycznych. Wśród wyświetlonych rezultatów znajdą się linki sponsorowane, reklamy różnych produktów w jakimś stopniu związanych z zadanym przez nas zapytaniem. Powstaje tu kluczowe pytanie jak duże są zyski czerpią właściciele wyszukiwarek internetowych z tych właśnie reklam oraz linków sponsorowanych. W wyszukiwarce semantycznej gdzie wyświetlany będzie jeden konkretny wynik, nie będzie już raczej miejsca na reklamy do jakich mogliśmy przywyknąć w ostatnich latach. Dlatego naturalnym wydaje się fakt, że dopóki bilans zysków i strat nie zostanie wyrównany, tacy giganci jak Google nie będą starali się za wszelką cenę przejść tylko i wyłącznie na wykorzystanie wyszukiwarek semantycznych. Specjaliści do spraw marketingu IT jednej z amerykańskich firm konsultingowych przewidują, że będzie to stopować rozwój wyszukiwarek semantycznych.

Sieci semantyczne dostarczają całego zestawu rozwiązań umożliwiającego bardziej efektywne wyszukiwanie informacji spośród zasobów stron internetowych oraz ich integrację z innymi źródłami. Wspólny standard opisu danych jak również wspólny sposób ich prezentacji z pewnością przyspieszy rozwój sieci semantycznych. Również Unia Europejska i współfinansowanie projektów związanych z technologiami semantycznymi z budżetu 7 Programu Ramowego przyczynia się do poszerzania możliwości zastosowań tej techniki w sieci Web, a co za tym idzie także w życiu ludzi. Do narzędzi finansowanych z budżetu Unii należy między innymi LarKC (Large Knowledge Collider). Głównym założeniem projektu jest skalowalność sieci semantycznej WWW do rozmiarów obecnego Internetu. Więcej informacji o narzędziu jakim jest Large Knowledge Collider znajdziemy w filmiku zamieszczonym pod linkiem (http://www.youtube.com/watch?v=hjUbbl4cnAE&feature=player_embedded). Należy jednak pamiętać, że sieci semantyczne mogą działać jedynie jeśli zapewniony będzie dostęp do bardzo zróżnicowanych treści. Co więcej, zawartość stron sieci internetowej powinna być łatwa do znalezienia i połączenia, natomiast relacje między danymi lepiej opisane, niż ma to miejsce do tej pory w Internecie. Można jednak założyć, że rewolucja polegająca na przejściu od szukania fraz w wyszukiwarkach typu Google czy Yahoo do odpowiedzi na pytania zadane w języku naturalnym dokona się w najbliższych latach, jeśli oczywiście twórcy wyszukiwarek znajdą sposób żeby uzyskać zysk finansowy, który będzie równie wysoki jak reklamy i linki sponsorowane wyświetlane obecnie razem z rezultatami zapytań. Do tej chwili alternatywą może być dla nas wyszukiwarka Wolfram Alpha.

 

źródła:

http://www.chip.pl/artykuly/porady/2009/06/semantyczna-siec-boty-ucza-sie-kojarzyc?b_start:int=0

http://www.ploug.org.pl/konf_09/materialy/pdf/17_Semantic_Web_-_technologie.pdf

 

Autor: Łukasz Kujaciński (83712)

Reklamy

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d blogerów lubi to: