Posts tagged ‘semantic web’

Listopad 20, 2014

Rewolucja, czy zwykła zmiana – Semantic Web w oczach użytkowników Internetu

- autor: tsissput

Streszczenie

Celem niniejszego opracowania jest zbadanie podejścia użytkowników do zmian jakie wynikają z zastosowania Semanic web i nazwania ich mianem Web 3.0. Sprawdzenie jak w ich oczach będą wyglądały zmiany, które od kilku lat są skutecznie rozwijane. Celami szczegółowymi są też: konfrontacja użytkowników z osobami na co dzień zajmujących się branżą IT i nowymi technologiami, co do nadchodzących zmian; porównanie spojrzeń na kwestie techniczne obu stron; a także zbadanie poziomu zadowolenia z tego co aktualnie istnieje. Dzięki temu możliwe będzie porównanie i ocena jak do proponowanej zmiany odnoszą się przeciętni użytkownicy, a jak ludzie, którzy na co dzień wykorzystują, a nawet tworzą Internet.

read more »

Reklamy
Tagi:
Listopad 10, 2013

Wprowadzenie do Linked Data

- autor: tsissput

Wstęp

Sieć WWW (World Wide Web) radykalnie zmieniła nasz sposób dzielenia się wiedzą poprzez obniżenie bariery w publikowaniu i dostępie do dokumentów w ramach globalnej przestrzeni informacji. Przeglądarki i linki hipertekstowe pozwalają użytkownikom na przeglądanie tej przestrzeni, a indeksowanie dokumentów i analiza struktur powiązań między nimi na wnioskowanie na temat potencjalnego znaczenia dla zapytania zadanego przez użytkownika. Jest to możliwe przez ogólny, otwarty i elastyczny charakter sieci, który jest postrzegany jako kluczowy element nieograniczonego wzrostu. Tradycyjnie dane publikowane w sieci były dostępne jako surowe wpisy w formatach CSV, XML lub oznaczone jako tabele HTML tracąc wiele z ich struktury oraz znaczenia. Konwencja hipertekstowych powiązań narzuca niejawny charakter relacji między powiązanymi dokumentami. Taki stan rzeczy uniemożliwia połączenie poszczególnych danych z określonego dokumentu z innymi powiązanymi danymi.

W ostatnich latach sieć ewoluowała z globalnej przestrzeni informacji powiązanych dokumentów w przestrzeń gdzie powiązane są zarówno dokumenty jak i dane. U podstaw tej ewolucji znalazł się zestaw najlepszych praktyk, w zakresie publikowania i łączenia danych strukturalnych, nazywany Linked Data. Zaadaptowanie zestawu najlepszych praktyk doprowadziło do rozszerzenia globalnej sieci połączonych danych o różne dziedziny, takie jak społeczeństwo, firmy, książki, publikacje naukowe, filmy, muzyka, programy telewizyjne i radiowe, genetyka, lekarstwa i próby medyczne, społeczności internetowe, statystyka i dane naukowe, opinie.

Ta sieć danych umożliwia powstanie nowego typu aplikacji. Istnieją ogólne przeglądarki powiązanych danych, które umożliwiają ich przeglądanie i nawigowanie pomiędzy źródłami wzdłuż połączeń między danymi. Są to mechanizmy przemierzające sieć powiązanych danych między różnymi źródłami umożliwiając wykonywanie ekspresyjnych zapytań o szerokich możliwościach na zagregowanych danych, podobnie jak dziś odbywa się to w lokalnych bazach danych. Sieć powiązanych danych otwiera też nowe możliwości dla aplikacji specjalizowanych. W przeciwieństwie do rozwiązań typu mashup 2.0 działających na stałym, określonym zbiorze źródeł aplikacje oparte na Linked Data działają na samej górze globalnej przestrzeni danych, co umożliwia dostarczenie wyczerpujących odpowiedzi.

Co to jest Linked Data?

graphSą to najlepsze praktyki na temat tworzenia w sieci powiązań pomiędzy danymi pochodzącymi z różnych źródeł. Dane mogą być tak różne jak bazy danych prowadzonych przez dwie organizacje w różnych lokalizacjach geograficznych lub systemy heterogeniczne w obrębie pewnej firmy, które trudno dopasować aby współpracowały na poziome danych. Technicznie Linked Data odnosi się do danych opublikowanych w sieci w taki sposób, że są one możliwe do odczytywania przez maszyny, a ich znaczenie jest wyraźnie określone, są związane z innym zewnętrznym zbiorem danych, a ten z kolei może być powiązany z kolejnym zewnętrznym źródłem.

Chociaż podstawową jednostką w sieci są dokumenty HTML połączone bez typowymi łączami, Linked Data opiera się na dokumentach zawierających dane w formacie RDF (Resource Description Framework), które przy pomocy wyrażeń łączą dowolne byty na świecie. Wynikiem tego jest nazywana przez nas sieć danych, którą można dokładnie określić jako sieć bytów na świecie opisanych przez dane w sieci.

Berners-Lee w 2006 roku przedstawił zestaw zasad publikowania danych w sieci w taki sposób, że wszystkie publikowane dane stają się częścią jednej globalnej przestrzeni danych:

  • Użyj URI jako nazwa bytu
  • Użyj http URI tak aby ludzie mogli wyszukać nazwy bytu
  • Gdy ktoś wyszukuje URI dostarcz użyteczne informacje przy pomocy standardów (RDF, SPARQL)
  • Zamieszczaj powiązania do innych URI tak aby można było znaleźć więcej informacji

Reguł te stały się znane jako ‚Linked Data principles’ i zapewniają podstawę dla publikowania i łączenia danych wykorzystując strukturę sieci Web zachowując jej architekturę i standardy.

Technologie wykorzystywane w Linked Data

Linked Data opiera się na dwóch technologiach, które są podstawą sieci WWW: URI (Uniform Resource Identifiers) i HTTP (HyperText Transfer Protocol). Chociaż URL (Uniform Resource Locator) stał się znany jako adres dokumentów i innych jednostek, które mogą znajdować się w sieci to URI zapewnia bardziej ogólny sposób rozpoznawania bytów, które istnieją na świecie. URI i HTTP są uzupełniającymi się technologiami i mają kluczowe znaczenie dla sieci danych – RDF. Podczas gdy HTTP zapewnia środki do konstrukcji i powiązania dokumentów w sieci WWW, RDF zapewnia ogólny, grafowy, oparty na danych model do konstrukcji i powiązania bytów opisujących rzeczywistość.

rdf_w3c_icon.128

Dla przykładu trójka RDF może stwierdzać, że dwie osoby A i B, każda identyfikowana przez URI, związane są faktem, że A zna B. Podobnie trójka RDF może wiązać osobę C z artykułem naukowym D w bibliograficznej bazie danych, stwierdzając, że C jest autorem D. Dwa zasoby powiązane w ten sposób można wyciągnąć z dwóch różnych zbiorów danych w sieci, dzięki czemu dane z jednego źródła są powiązane z danymi z innego źródła, tworząc w ten sposób sieć danych. W ten sposób możliwe jest, że trójka RDF łączy dwa różne zbiory danych analogicznie jak link łączy dokumenty w sieci Web.

RDF Vocabulary Definition Language (RDFS) i Web Ontology Language (OWL) stanowią podstawę do tworzenia słowników, które mogą być używane do opisania bytów występujących w rzeczywistości i opisu związków występujących między nimi. Słownictwo jest zbiorem klas i właściwości. Słowniki same są wyrażone za pomocą RDF, używając RDFS i OWL, które zapewniają różne stopnie ekspresyjności w modelowaniu domeny zainteresowania. Każdy może opublikować słownik w sieci danych, które z kolei mogą być powiązane przy mocy trójek RDF w taki sposób, że klasy i własności z jednego słownika są powiązane z innymi, wyrażają w ten sposób mapowania pomiędzy powiązanymi słownikami.

Przez zastosowanie URI do określania zasobów, HTTP jako mechanizmu wyszukiwania i RDF jako reprezentacja opisu zasobów, Linked Data bezpośrednio opiera się na ogólnej architekturze sieci Web. Sieć danych może więc być postrzegana jako dodatkowa warstwa, która ściśle przeplata się z klasyczną siecią dokumentów i ma wiele tych samych właściwości:

  • Sieć danych jest ogólna i może zawierać dane dowolnego typu.
  • Każdy może publikować dane.
  • Wydawcy danych nie są ograniczeni w wyborze słowników do opisu reprezentacji danych.
  • Byty są połączone przez RDF tworząc globalny graf danych, który obejmuje źródła danych i pozwala na odkrywanie nowych źródeł danych.

Z punktu tworzenia aplikacji sieć danych ma następujące cechy:

  • Dane są ściśle oddzielone od formatowania i graficznej reprezentacji.
  • Dane są samo opisujące. Jeśli aplikacja wykorzystująca Linked Data napotka na dane opisane nieznanym słownictwem aplikacja może odwołać się do URI, które identyfikują wykorzystane słownictwo w celu znalezienia ich definicji.
  • Zastosowanie HTTP jako standardowego mechanizmu dostępu do danych i RDF jako standardowego modelu danych upraszcza dostęp do danych w stosunku do sieci Web, która opiera się na różnorodnych modelach danych i interfejsach dostępowych.
  • Sieć danych jest otwarta, co oznacza, że aplikacje nie muszą nie muszą mieć ściśle określonego zestawu źródeł danych ale w czasie wykonywania programu można odkrywać nowe źródła danych za pomocą powiązań RDF.

Podsumowanie

Rozwinięcie globalnej sieci danych opartej na technologiach podstawowych dla obecnej sieci WWW oraz otwartość tego rozwiązania ułatwia wprowadzenie Linked Data w życie. Nowe aplikacje bazujące na tej technologii mogą korzystać z niezliczonej ilości źródeł danych, które to nie muszą być definiowane w trakcje wytwarzania oprogramowania. Zastosowana przez Linked Data reprezentacja danych umożliwia bezpośrednie ich przetwarzanie przez maszyny. Możliwe staje się nawigowanie wzdłuż połączeń między danymi, niezależnie od źródeł ich pochodzenia. Linked Data może okazać się rewolucyjnym rozwiązaniem propagującym Semantic Web i przyspieszającym ewolucję Web 2.0 do Web 3.0.

Christian Bizer, Tom Heath, & Tim Berners-Lee (2009). Linked Data – The story so far International Journal on Semantic Web and Information Systems DOI: 10.4018/jswis.2009081901

Autor: Łukasz Grzybowski

Luty 19, 2013

Semantic WoW

- autor: tsissput

Cel projektu

Celem projektu było stworzenie i wizualizacja grafu powiązań pomiędzy graczami World of Warcraft – jednej z najpopularniejszych gier MMORPG w sieci. Niezbędne dane pobrano korzystając z WoW API do bazy danych, przetworzono i uzyskano graf w formacie Netdraw VNA. Wizualizacji dokonano z użyciem programu Gephi.

Zastosowane technologie

Informacje z WoW API pobrano z użyciem aplikacji konsolowej napisanej w języku Java. Dane przechowywano w bazie MongoDB, zaś przetwarzanie odbywało się przy pomocy wspomnianej aplikacji oraz skryptów JavaScript. Dalszych operacji na grafie oraz wizualizacji dokonano w programie Gephi.

Zaimplementowana aplikacja

Jak wspomniano aplikacja jest konsolowa, umożliwia następujące operacje:

  • wczytanie pliku z nazwami gildii,
  • pobieranie nie ściągniętych gildii (na podstawie wczytanej listy nazw),
  • pobieranie nie ściągniętych postaci (na podstawie listy nazw członków gildii),
  • oba powyższe,
  • usunięcie zawartości bazy danych,
  • wygenerowanie pliku z grafem na podstawie pobranych danych przetworzonych za pomocą skryptów JS.

cmd

Architektura aplikacji

Ze względu na sposób udostępniania danych przez WoW Api, aplikacja wymaga nazw gildii, których ma dotyczyć analiza (względnie nazw wszystkich gildii na serwerze). Informację tę uzyzkano z serwisu WoW Progress i wczytywano z plików.
arch

Model ORM

Do mapowania obiektowo relacyjnego wykrorzystano bibliotekę Morphia współpracującą ze biblioteką Java sterowników bazy MongoDB.
orm

Uzyskane dane

Pobrano informację o graczach serwera Arathor-EU należących do gildii uzyskanych z WoW Progress. Dane pobierano na przestrzeni 5 dni w pierwszej połowie stycznia 2013. Po zapisie do bazy danych jej rozmiar wynosił ponad 35GB.

Pobrano informacje o 302 gildiach oraz 38 629 postaciach. Ze względu na rozmiary danych i przyjęty sposób analizy połączeń zdecydowano się przetworzyć jedynie postaci z 5 najlepszych (pod względem liczby punktów osiągnięć):

  • Alliance of Destiny
  • Maligned
  • Velvet Glove
  • Retired
  • Blacksail Pirates

Do tych gildii należy 1760 postaci powiązanych łącznie z 650 kontami graczy.

Graf uzyskany na podstawie top 5 gildii

Postaci są opisane takimi atrybutami jak: średni poziom przedmiotów, klasa, rasa, płeć, poziom postaci, oraz informacją czy jest to główna postać gracza. Wiele postaci gracza udało się identyfikować na podstawie identycznej listy osiągnięć zdobywanych w tym samym momencie. Za główną uznawano tę o najwyższym poziomie w danej gildii (tak więc gracz mógł mieć więcej niż jedną główną postać). Krawędź przechowuje również informację o tym, czy łączy dwie główne postaci, oraz o minimalnej rozbieżności czasowej w zdobyciu osiągnięcia przez obie postaci.

Jako że WoW API nie udostępnia bezpośrednio informacji o tym jak gracze dobierają się w drużyny, dwie postaci połączono krawędzie jeżeli zdobyli osiągnięcie w podobnym czasie (założono, że zdobywali go wspólnie), lub są w tej samej drużynie pvp. Wagą krawędzi ustanowiono liczbę osiągnięć, które zostały zdobyte w podobnym (w odstępie pięciu minut) czasie.

W rezultacie otrzymano:

  • 48792 Krawędzi
  • 36859 krawędzi między głównymi postaciami
  • 153 krawędzie pvp

W pierwszym pliku  krawędzie poprowadzono jedynie pomiędzy głównymi postaciami, oraz pomiędzy wszystkimi postaciami danego gracza. W drugim  umieszczono wszystkie krawędzie.

Wizualizacja

Poniższe rysunki przedstawiają grafy, w którym krawędzie poprowadzono jedynie między głównymi postaciami. Pierwsze dwie ilustrują wspólne zdobywanie osiągnięć, podczas gdy w trzecim zawarto informacje o grze arenowej. Na dwóch początkowych obrazkach pozostawiono jedynie krawędzie między postaciami, które przynajmniej jedno osiągnięcie zdobyły w tym samym momencie, i to tylko te, których waga przekraczała 40. Wielkość wierzchołka odpowiada jego wartości pagerank, zaś kolor wskazuje przynależność do gildii (na pierwszym), poziom posiadanego ekwipunku (na drugim).

guilds_circle_2guilds_circlepvp

Grudzień 3, 2012

„Why the Semantic Web will never work”

- autor: tsissput

Zebranie i analiza informacji przedstawionych na wykładzie Jim’a Hendler’a
pt.: „Why the Semantic Web will never work”

Jim Hendler

Ideą organizowanej od 2011 konferencji Extended Semantic Web Conference (ESWC) jest zebranie osób zaangażowanych w różne aspekty technologii semantycznych, a także innych obszarów Informatyki, które wiążą się z pojęciem Semantic Web. Ma ona na celu sprowokowanie wymiany informacji pomiędzy różnymi społecznościami wewnątrz i spoza dziedzin Informatyki i Telekomunikacji.

Konferencja ta powstała jako rozwinięcie European Semantic Web Conference. Wykład wprowadzający, tzw. keynote,  prowadził profesor Jim Hendler, znany ze swojego znaczącego wkładu w zakresie Semantic Web, a także całej dziedziny Informatyki oraz Kognitywistyki. Zapowiadający nazywa go nawet Papieżem Semantic Web. Aktualnie pełni stanowisko Tetherless World Senior Constellation Professor na wydziałach Department of Computer Science oraz Cognitive Science Department  Rensselaer Polytechnic Institute (RPI), w Troy w Nowym Yorku.

Tytuł wykładu ma prowokacyjne brzmienie i został celowo umieszczony w cudzysłowie, ze względu na dwuznaczność. Jim Hendler dokonuje przeglądu aktualnych sukcesów technologii semantycznych względem wczesnej wizji Semantic Web oraz identyfikuje problemy dotyczące aktualnych rozwiązań oraz najnowszych próbach ich rozwiązania. Pokazuje więc aktualne dokonania z dwóch perspektyw:

wyjaśnienie tytułu

Początkowa wizja

W 1994 roku  na konwencji WWW Tim Berners-Lee dokonał prezentacji, w której pokazał swoją wizję sieci web. Część tego czym sieć jest określił w następujący sposób: „Dokumenty w sieci web opisują prawdziwe obiekty i wyimaginowane pojęcia oraz nadają szczególne związki pomiędzy nimi”. Tim Berners-Lee wymyślił więc to, co dzisiaj nazywamy Semantic Web, a hyperlinki nie miały być zwykłymi wskaźnikami na inne strony internetowe, lecz miały reprezentować relacje pomiędzy stronami.

Innm pomysłem, zaprezentowanym w 1999 roku przez Jim’a Hendler’a, był Agent markup language, który polegał na zbudowaniu semantycznego języka, który wiązałby informacje na stronie internetowej z semantyką (ontologią) odczytywalną maszynowo. Obecnie pomysł ten rozwijany jest w ramach projektów OWL, SHOE, I3 lub ARPI.

Co wiąże oba te pomysły, to koncepcja, by pewne elementy na stronach web opisywały jakie treści one zawierają i co one znaczą.

schemat współdziałania ontologii sieciowych

schemat współdziałania ontologii sieciowych

Wyobrażano sobie również, że ontologie webowe, czy też semantyka umieszczona na stronach web będzie miała charakter zgoła inny od tradycyjnych systemów reprezentacji wiedzy (KR). Różne dokumenty sieci web, mogły by być opisywane przez różne słowniki, które były by wobec siebie w różnym stopniu mapowalne. Częściowa mapowalność i niespójność tychże ontologii powodowała by więc błędy takie błędy jakie można spotkać przeglądając strony internetowe, np. 409, lecz taki schemat umożliwiałby dużą skalowalność, elastyczność, a w rezultacie dużą ilość użytkowników i duży wpływ na sieć web.

Do innych wczesnych koncepcji dotyczących Semantich Web należały:

  • przeszukiwanie sieci w poszukiwaniu konkretnej odpowiedzi, nie w poszukiwaniu dokumentu, który wydaje się adekwatny
  • użycie istniejących ontologii w ramach
  • use x ontology on webpages
  • aspekt usługi
  • active notion – a way of exchanging information “This term came from here” linking

Zwycięstwo Semantic Web

Gdy Semantic Web dopiero się rozwijało, myśl o tym, że rząd wielkości o jakim należy myśleć w przypadku technologii semantycznych to przynajmniej miliony, wzbudzała śmiech.  Aktualnie liczba stron internetowych, które zawierają informację semantyczną i liczba trójek semantycznych – triple (URI obiektu, URI obiektu, URI związku), które są generowane oraz zbiorów danych które są dostępne przekroczyła nawet najśmielsze oczekiwania.

Aktualnie wiele z dużych firm zajmuje się technologiami semantycznymi. Są one pozytywną siłą dla rozwoju pewnych obszarów Semantic Web, przykładowo semantycznego wyszukiwania (np. Google Knowledge Graph) o którym szerzej mówi Peter Mika w swojej prezentacji Making the Web searchable, a także dla promocji, reklamy i marketingu. W szczególności, bardzo prężnie rozwijają się nowe firmy, które służą jako pośrednicy pomiędzy jednostkami dostarczającymi usługi lub produkty (w szczególności treści), a konsumentami. Pośrednictwo to polega na budowaniu informacji preferencyjnej użytkowników na podstawie danych semantycznych i kierowaniu do nich odpowiednich ofert.

Innym dużym czynnikiem wpływającym na postęp Semantic Web są implementacje idei o nazwi Open Data, przykładowo  Facebook Open Graph lub Open Goverment Data. W przypadku Facebook Open Graph, jedną z możliwości umieszczenia przycisku „Lubię to” na stronie internetowej jest użycie RDF’a, który generuje trójki danych semantycznych. W Październiku 2010 Facebook zarejestrował około 3 miliony „Lubię to” dziennie pochodzące z tego źródła, gdzie pojedyńcze kliknięcie może generować więcej niż 1 trójkę semantyczną (triple). Estymowano wtedy, że jedynie około 10%-15% przycisków „Lubię to” na stronach było umieszczone w postaci RDF’a, a Facebook bardzo silnie stara się, by zachęcić jak największą ilość osób do zmiany na ten typ przycisków. Okazuje się, że przyciski Facebook’a same generują więcej trójek z informacją semantyczną niż  kiedykolwiek przewidywano dla całej sieci, a zyski z reklamy przeprowadzanej na podstawie tej informacji są głównym źródłem dochodów Facebook’a, a także innych firm – np. Zynga, która zarabia więcej pieniędzy niż jakakolwiek inna firma wytwarzająca gry komputerowe, ponieważ jako pierwsza znalazła sposób na wykorzystanie tej informacji.

Krytyka Semantic Web

Pomimo zaangażowania ze strony dużych graczy na rynku wyszukiwarek internetowych, aktualnie nadal wyszukiwanie wykonywane jest w tradycyjny sposób, po słowach kluczowych, w celu znalezienia dokumentów, które wydają się adekwatne i mogą zawierać wyszukiwaną odpowiedź.

Początkowo wydawało się, że folksonomia okaże się najlepsza do umieszczania informacji semantycznej, jednak w dużej mierze technologie związane z tagowaniem zawiodły poza zastosowaniami w sieciach społecznościowych. Podstawowym problemem, dla tagowania był brak kontekstu, a więc zatracenie znaczenia wśród wielu innych obiektów otagowanych w ten sam sposób. W przypadku sieci społecznościowej tag, przykładowo imię i nazwisko, będzie miał konkretne znaczenie ponieważ będzie on na stronie osoby, która mówi o osobie ze swojej listy znajomych.

most used

Zarzuty dotyczące braku skalowalności, elastyczności i stabilności Semantic Web okazały się nieuzasadnione, co potwierdzają wcześniejsze przykłady. Co więcej, liczba ogólnie dostępnych URI, które mają swoją semantykę, przykładowo z Open Goverment Data rośnie bardzo szybko.

Pewnym problemem aktualnego rozwoju Semantic Web, jest to, że większość zastosowań korzysta głównie z technologii semantycznych „niższego poziomu”, podczas gdy wiele z ciekawych, użytecznych, a co więcej ustandaryzowanych z nich nie jest znana lub nie jest używana przez większość osób.

Konkluzja

Dlaczego Semantic Web miało by nigdy nie działać? Jim Hendler odpowiada, że nie ma żadnego powodu, aby tak było – Semantic Web istnieje, działa i będzie działać. Nie jest to jednak Semantic Web, z pierwotnej wizji. Konieczny jest powrót i uaktulanienie do pierwotnych pomysłów i unifikacja aktualnie konkurujących ze sobą modeli powiązanych danych (linked-data) i odczytywalnych maszynowo słowników. W szczególności problemem, który musi zostać rozwiązany jest integracja ontologii i rozój mechanizmów pracy z danymi, które mogą zawierać poważne, nierozwiązywalne sprzeczności.

Wg mojej oceny sukces Semantic Web jest potwierdzony przez, to z jakim zaangażowaniem zajmują się technologiami semantycznymi duże firmy takie jak Facebook, Google, Oracle, Amazon, czy też Microsoft, a w szczególności w jaki sposób użytkownicy zarówno generują i konsumują informację semantyczną, poprzez korzystanie z aplikacji społecznościowych, aplikacji mobilnych i webowych (w tym np. gier na Facebook’u). Innym aspektem, który w dużym stopniu napędzia rozwój Semantic Web jest sposób w jaki niektóre z firm zaangażowane w tworzenie i gromadzenie informacji semantycznej współpracują z innymi firmami – przykładowo umieszczanie przycisków „Lubię to” na stronie udostępnia informacje, zarówno dla Facebook’a, jak i dla właściciela strony internetowej. Innym przykładem jest sposób w jaki Facebook i Google umożliwiają deweloperom publikowanie aplikacji, które potencjalnie mogą być agentami przetwarzającymi lub generującymi informację semantyczną.

Autor: Michał Turek

Źródła: opisywany wykład, strona Jim’a Hendler’a, artykuł o Google Knowledge Graph, strona konferencji ESWC , artykuł wiki o Clay’u Shirky, artykuł wiki o KR, artykuł o Open Data, Facebook Open Graph, Open Government Data.

 

Grudzień 31, 2011

Semantic Web w muzeum

- autor: tsissput

Technologia Semantic Web trafiła do muzeum już przed kilkoma laty, jednak nie w charakterze eksponatu, a jako narzędzie do prezentacji tychże osobom, które wolą się nie ruszać sprzed monitorów. Oczywiście takie „zwiedzanie” nie zastąpi prawdziwego kontaktu z eksponatem, choćby przez szybę, ale ma też swoje zalety. Dzięki grupie Finów, twórców portalu MuseoSuomi ( http://www.museosuomi.fi ), nie musimy jeździć do Finlandii, aby przeglądać zasoby Muzeum Narodowego w Helsinkach oraz muzeów miejskich w Espoo i Lahti. Przeglądanie to jest atrakcyjniejsze za sprawą możliwości poruszania się po międzymuzealnej „wystawie” za pomocą semantycznych powiązań między obiektami.

Dlaczego?

Dane o muzealnych kolekcjach zawierają bogate semantycznie informacje – eksponaty są na różne sposoby powiązane z otoczeniem, społeczeństwem i innymi eksponatami. Na przykład krzesło może być wykonane z dębu i skóry, może być w określonym stylu, może być zaprojektowane przez znanego projektanta, produkowane przez pewną firmę w pewnym przedziale czasowym, użyte w pewnym budynku razem z innymi meblami itd. Inne eksponaty, miejsca, przedziały czasowe, projektanci, firmy itp. mogą być związane z krzesłem poprzez ich własności, tworząc skomplikowaną, semantyczną sieć powiązań. Ta sieć nie jest ograniczona do pojedynczej kolekcji, ale rozciąga się na inne, powiązane kolekcje w innych muzeach.
Technologia Semantic Web daje nowe możliwości związane z publikacją muzealnych kolekcji w sieci: standardy języków i ontologii sprawiają, że niejednorodne kolekcje różnego rodzaju są zdolne do współdziałania – to pozwala np. na tworzenie dużych, międzymuzealnych „wystaw”. Ponadto, aplikacje bazujące na semantyce kolekcji mogą być bardziej użyteczne i wszechstronne.

MuseoSuomi – Fińskie Muzea w Semantic Web

Portal MuseoSuomi stanowi międzymuzealną „wystawę” ponad 4000 kulturalnych artefaktów (w 2005 r.), takich jak tkaniny, meble, narzędzia itp., a także metadane dotyczące 260 historycznych miejsc w Finlandii.
Celem jego rozwijania były:
– globalny wgląd w rozproszone, niejednorodne kolekcje tak, jakby były w jednym, jednolitym repozytorium,
– wyszukiwanie informacji na podstawie pojęć ontologicznych, a nie tylko słów kluczowych,
– pokazywanie użytkownikowi semantycznych powiązań między elementami kolekcji, kolekcjami i kontekstem,
– zapewnienie muzeom środka łatwej publikacji danych o lokalnych eksponatach.
Muzea używają różnych baz danych i różnych schematów. Stanowi to poważną przeszkodę w wyszukiwaniu informacji. Można byłoby oczywiście stworzyć interfejs webowy, który rozesłałby zapytania do poszczególnych baz i scalił wyniki, jednakże przy przetwarzaniu zapytań lokalnie w każdej bazie, globalne zależności mogą być trudne do znalezienia. Jako że wyeksponowanie tych semantycznych powiązań stanowiło jeden z głównych celów MuseoSuomi, zastosowano inne rozwiązanie: lokalne kolekcje są najpierw łączone w globalnym repozytorium, w oparciu o które przetwarzane są zapytania. Aby umożliwić współdziałanie kolekcji, stosuje się w nich te same ontologie.
Elementy kolekcji są reprezentowane jako strony WWW, a ich semantyczne powiązania jako odnośniki. Wyzwaniem w takim podejściu jest połączenie danych z lokalnych (różnych) baz w globalnym repozytorium.

Proces tworzenia zawartości

Dane, które posłużyły do stworzenia MuseoSuomi pochodziły z czterech baz używających różnych systemów (Ingress, MS Server, MS Access). Częścią projektu było stworzenie procesu transformacji lokalnych, niejednorodnych baz danych w globalną bazę wiedzy w formacie RDF, dostosowaną do używanych ontologii. Proces ten był projektowany tak, aby nowe muzealne kolekcje były importowane do portalu MuseoSuomi jak najłatwiej, a muzea miały maksymalną możliwą swobodę, dostosowując się tylko do niezbędnych ograniczeń nakładanych przez portal czy innych dostawców zawartości. Na przykład dwa muzea mogą używać różnych terminów do określenia tej samej rzeczy – system powinien zaakceptować różne terminy, jeśli są konsekwentnie używane oraz dostarczono ich znaczenie łączące je z globalnymi ontologiami.

Proces tworzenia zawartości w MuseoSuomi

Jak przedstawia ilustracja, proces ten składa się z trzech części. Najpierw dane z baz relacyjnych są transformowane do języka XML (zgodnie z przyjętym schematem XML, dzięki czemu stają się jednorodne składniowo). Następnie na podstawie danych w XML tworzone są definicje terminologii w języku RDF. Identyfikatory z poziomu XML są mapowane na URI w muzealnych ontologiach. Trzeci etap stanowi transformacja danych w XML otrzymanych w pierwszym etapie, za pomocą definicji wytworzonych w drugim etapie, do postaci RDF zgodnej z globalnymi ontologiami muzealnymi.

Podczas mapowania wartości ontologicznych na URI, pojawiają się dwa problemy: nieznane wartości i homonimy. W przypadku nieznanych wartości, mapuje się daną wartość na bardziej ogólne pojęcie albo na zasób uznawany za nieznany. Na przykład, jeśli wiadomo, że dany artefakt został wyprodukowany w jakimś mieście w Laponii, można stworzyć „nieznaną” instancję klasy Miasto i wskazać, że jest ona częścią Laponii oraz miejscem wytworzenia danego artefaktu.
Problem homonimów pojawia się, kiedy pojęcia z różnych ontologii o innym znaczeniu zostały nazwane tak samo. Na przykład fińskie słowo „kilvet”, jako wartość właściwości „typ artefaktu” może oznaczać zarówno szyld jak i herb. W MuseoSuomi rozwiązano to tak, że uznawane są wszystkie możliwości, a poinformowany o problemie człowiek usuwa fałszywe interpretacje ręcznie (stwierdzono, że – przynajmniej w języku fińskim – problem ten nie występuje zbyt często, jako że homonimami zazwyczaj są słowa występujące w ontologiach o różnych dziedzinach; jednak w przypadku języków mających więcej homonimów, takich jak angielski, może to być bardziej kłopotliwe).

Interfejs użytkownika

Znaczna część zawartości Semantic Web jest publikowana poprzez portale udostępniające użytkownikowi dwie podstawowe usługi: wyszukiwanie oparte na semantyce zawartości i dynamiczne tworzenie odnośników między stronami oparte na semantycznych zależnościach. Jest tak również w przypadku MuseoSuomi.
Wyszukiwarka tego portalu jest oparta na wieloaspektowym paradygmacie wyszukiwania. Kategorie użyte do sklasyfikowania obiektów są zorganizowane w hierarchie zwane aspektami. Hierarchie te są pokazywane użytkownikowi, aby dać mu pogląd na to, jakiego rodzaju informacje znajdują się w repozytorium i dostarczyć właściwego słownictwa do wydawania zapytań. Są także wykorzystywane do przedstawienia zawartości repozytorium i wyników zapytań w różnych kontekstach. Stanowią także pomoc przy przeglądaniu zawartości repozytorium. Liczba obiektów należących do danej kategorii jest wyświetlana przy jej nazwie, co może zapobiec wybraniu przez użytkownika kategorii, do której nic nie należy.


Powyższa ilustracja przedstawia interfejs wyszukiwania MuseoSuomi. Po lewej widnieje dziewięć aspektów (np. Esinetyyppi – Typ artefaktu, Materiaali – Materiał). Odnośniki pod nazwą aspektu stanowią kolejny poziom podkategorii. Zapytanie jest wydawane poprzez kliknięcie nazwy kategorii. Po wybraniu kategorii wyniki są ograniczane tylko do obiektów należących do tej kategorii bądź którejś z jej podkategorii. Na przykład wybierając kategorię „Krzesła” z aspektu „Typ artefaktu” i kategorię „Helsinki” z aspektu „Miejsce wytworzenia”, użytkownik może wyszukać wszystkie krzesła (dowolnego podtypu) wyprodukowane w Helsinkach (włączając wszystkie bardziej szczegółowe lokalizacje znajdujące się w Helsinkach).
Wyszukiwanie według słów kluczowych również jest możliwe – są one dopasowywane najpierw do nazw kategorii, a następnie do danych dotyczących artefaktów. Tworzony jest dynamicznie dodatkowy aspekt – zawiera on wszystkie dopasowane do słowa kluczowego kategorie.

 

 

Klikając na artefakt należący do wyników zapytania, użytkownik uzyskuje dostęp do danych go opisujących (patrz ilustracja). Oprócz odnośników ułatwiających poruszanie się po wynikach zapytania (u góry) oraz po całej strukturze hierarchii (na dole), po prawej stronie znajdują się odnośniki do artefaktów na swój sposób podobnych do aktualnie oglądanego, np. wykonanych z tego samego materiału, w tej samej lokalizacji czy przedziale czasowym lub związanych z podobnymi wydarzeniami. To właśnie one dają użytkownikowi niezwykłą swobodę poruszania się po kolekcji.

 

Źródło: „MuseumFinland – Finnish Museums on the Semantic Web” – Eero Hyvönen, Eetu Mäkelä, Mirva Salminen, Arttu Valo, Kim Viljanen, Samppa Saarela, Miikka Junnila, and Suvi Kettula

Autor: Krzysztof T. Pawlak, 84864

Październik 31, 2011

RMonto: ontologiczne rozszerzenie dla RapidMiner

- autor: tsissput

Wprowadzenie

Historia systemów do eksploracji danych zaczyna się wraz z tzw. systemami pierwszej generacji, które wspierały tylko dane w postaci tabeli atrybut-wartość i wspierały niewielki zakres algorytmów. Przykładowym rozwiązaniem tego typu jest Statistica Neural Networks, obecnie już dość wiekowe oprogramowanie umożliwiające przetwarzanie danych tabularycznych z wykorzystaniem różnych rodzajów sieci neuronowych. Systemy drugiej generacji, takie jak np. Weka, rozwiązują dodatkowo problemy związane ze skalowalnością, umożliwiające wykorzystywanie języków zapytań i dostęp do hurtowni danych. Zadanie, które stoi przed systemami trzeciej generacji, to rozwiązanie problemu umożliwienia dostępu do różnorodnych źródeł danych przy jednoczesnym zapewnieniu wygody w używaniu oprogramowania. RapidMiner stara się zapewnić użytkownikom możliwie wygodny interfejs, jednak nadal wspiera wyłącznie dane w postaci atrybut-wartość. W celu rozszerzenia możliwości RapidMiner i umożliwienia mu wykorzystywania danych w postaci strukturalnej, w szczególności danych z informacjami semantycznymi, zapisanych w postaci RDF, stworzono RMonto.

Powiązane prace

Dotychczasowe działania w dziedzinie stworzenia narzędzi do uczenia maszynowego z danymi semantycznymi zaowocowało stworzeniem kilku narzędzi i propozycji standardów, które jednak nie są tak rozbudowane jak RMonto. Prawdopodobnie najważniejszą pozycją jest DL-Learner, narzędzie służące do odkrywania reguł decyzyjnych dotyczących ontologicznych baz wiedzy. Umożliwia on odkrywanie reguł zapisanych w języku ALC na podstawie danej listy przykładów pozytywnych i negatywnych, będących identyfikatorami zasobów w bazie wiedzy.

Narzędziem, również będącym ontologicznym rozszerzeniem dla RapidMiner, jest rapidminer-semweb. Umożliwia on transformację grafu RDF na postać tabeli atrybut-wartość przez konstrukcję odpowiednich cech oraz wizualizację tej transformacji. Niestety, nie umożliwia on bezpośredniego wykorzystania bazy wiedzy, bez kroku transformacji.

Zaproponowano również rozszerzenie języka SPARQL, nazywające się SPARQL-ML. Ma ono na celu rozszerzenie języka SPARQL o wsparcie dla algorytmów uczenia maszynowego i w efekcie rozszerzenia możliwego zbioru wyników o np. model grupujący wyniki.

Założenia projektowe

Projekt takiego systemu musi uwzględniać kilka niezwykle ważnych cech. Przede wszystkim trzeba zauważyć, że obecnie nie istnieje jeden słuszny system wnioskujący. Wśród nich dominują dwa nurty:

  • Oparty na metodzie tableau, zapewniający wyciągnięcie wszystkich możliwych wniosków, jednak kosztem bardzo wysokiej złożoności obliczeniowej. Przykładem takiego systemu jest Pellet.
  • Oparty na regułach, generalnie prowadzący do wnioskowania przybliżonego i niekompletnego, jednak zapewniający wysoką wydajność wnioskowania. Przykładowym takim systemem jest OWLim.
Drugim ważnym spostrzeżeniem jest fakt, że również w dziedzinie przechowywania danych istnieje duża różnorodność. Nie dość, że występuje wiele formatów plików (np. RDF/XML, N3, Turtle), to dane mogą być również pobierane bezpośrednio z końcówki SPARQL za pomocą zapytania typu CONSTRUCT. Dodatkowo użytkownik może posiadać część danych w bazie danych bądź pliku tekstowym, zapisane po prostu jako kolejne trójki RDF.
Problem różnorodności systemów wnioskujących został rozwiązany przez zapewnienie modułowej budowy. Wszystkie implementacje interfejsów do systemów wnioskujących implementują wspólny zbiór interfejsów, nazwany PutOntoAPI. Z kolei implementacje algorytmów i operatory RapidMiner mogą wykorzystywać systemy wnioskujące wyłącznie przez wspomniane API. Umożliwia to łatwą wymianę wtyczek, zapewnia wybór użytkownikowi oraz możliwość samodzielnego rozszerzania. Z rozmysłem nie zastosowano tutaj OSGi, by nie wprowadzać dodatkowej skomplikowanej biblioteki do systemu.
Drugie wymaganie, dotyczące różnorodności źródeł danych, na szczęście daje się łatwo rozwiązać, gdyż systemy wnioskujące generalnie wspierają wczytywanie danych z różnych formatów, a RapidMiner posiada dobre wsparcie dla wczytywania danych z plików i baz danych.

Możliwości

RMonto skonstruowane jest w formie kilkunastu operatorów, podzielonych w zależności od funkcjonalności na wiele grup, dostępnych w drzewie operatorów w RapidMiner. Poniższy opis jest podzielony zgodnie z tymi grupami.

  • Loading Zawiera trzy operatory: Load from file, Load from SPARQL endpoint oraz Build knowledge base. Pierwsze dwa działają na zasadzie wykonania zwrotnego i służą zdefiniowaniu parametrów operacji, która jest wykonywana w kontekście bazy wiedzy definiowanej przez ostatni z nich. Load from file  wspiera ładowanie danych z dowolnej lokacji dostępnej za pomocą standardowych metod dostępu do plików (a więc plików lokalnych oraz dostępnych w zasobach sieciowych), zapisanych w formatach RDF/XML, Turtle, N3, N-Triple. Load from SPARQL endpoint umożliwia ściąganie grafów RDF bezpośrednio z końcówek SPARQL przy wykorzystaniu zapytań typu CONSTRUCT.
  • ABox Operatory SPARQL selector oraz ABox extractor umożliwiają pobranie z bazy wiedzy listy występujących tam indywiduuów. Pierwszy z nich umożliwia to poprzez zapytanie SPARQL SELECT oraz wskazanie nazwy zmiennej z tego zapytania, zawierającej
  • TBox Zawiera dwa operatory, służące konstrukcji cech na potrzeby jednej z miar podobieństwa, Epistemic kernel. Oba dostarczają wyników w postaci tabeli zawierającej opisy klas zgodnie ze składnią Manchester. Pierwszy z nich, All known classes zwraca listę wszystkich nazwanych klas występujących w bazie wiedzy, natomiast drugi, Feature selector umożliwia ręczną konstrukcję cech przez łączenie nazwanych klas zgodnie z wyżej wskazaną składnią. Jego zaletą jest dostarczenie edytora wspierającego tworzenie tych cech przez odpowiednie kolorowanie składni.
  • Kernels W tej grupie znajdują się operatory umożliwiające budowanie macierzy niepodobieństwa dla wybranej grupy indywiduuów. Wszystkie z nich jako parametry wejściowe przyjmują listę indywiduuów (o długości n, pochodzącą np. z operatorów z grupy ABox bądź z pliku czy bazy danych) oraz bazę wiedzy. Na wyjściu znajduje się macierz typu n*n, będąca macierzą Grama dla danego zbioru indywiduuów. Aktualnie dostarczane są trzy operatory: Identity uwzględniający jedynie równoważność indywiduuów, Common classes opierający się na liczbie wspólnych nazwanych klas oraz Epistemic kernel, wykorzystujący zbiór cech, skonstruowany np. przy pomocy operatorów z TBox bądź wczytanych z pliku.
  • Clustering Aglomerative hierarchical clustering oraz Semantical k-Medoids wykorzystują macierze niepodobieństwa (uzyskane np. przez zastosowanie operatorów z poprzedniego punktu) oraz informacje z bazy wiedzy w celu wykonania grupowania. Pierwszy z nich buduje hierarchię opisanych grup, natomiast drugi buduje jeden poziom grup i opisuje je zgodnie z elementami centralnymi tych grup.
  • Pattern mining Fr-Ont-Qu  służy do wyszukiwania w bazie wiedzy wzorców, wyrażonych jako wzorce SPARQL, zgodnie ze wskazaną miarą podobieństwa. Wykorzystując miarę nienadzorowaną Support on KB uzyskuje się operator odkrywający częste wzorce, natomiast wykorzystując miary nadzorowane (np. Info gain), w wyniku otrzymuje się wzorce rozróżniające przykłady pozytywne od negatywnych.
  • Data transformation Operatory Propositionalisation oraz Add label from KB służą do transformacji danych uzyskanych z innych operatorów. Pierwszy z nich pozwala przetransformować bazę wiedzy z postaci grafu na postać binarnej tabeli. Oczywiście, jest to transformacja stratna. Wejściem dla tego operatora jest indywiduuów, które mają stanowić kolejne obiekty w uzyskanej tabeli oraz lista wzorców odkrytych przez Fr-Ont-Qu (bądź uzyskanych z innego źródła), stanowiąca listę atrybutów. Tak przetransformowane dane mogą później posłużyć jako wejście dla normalnych algorytmów uczenia maszynowego, np. indukcji drzew decyzyjnych. Operatorem o technicznym znaczeniu jest Add label from KB, który pozwala rozszerzyć listę indywiduuów o odpowiadające im wartości wskazanej cechy z bazy wiedzy.

Dalsze informacje

Powyższy wpis powstał w oparciu o artykuł „RMonto – towards KDD workflows for ontology-based data mining” (J. Potoniec, A. Ławrynowicz), dostępny w ramach materiałów z warsztatu PlanSoKD2011 i tam też można szukać dalszych informacji. Dodatkowe informacje dostępne są również na oficjalnej stronie projektu http://semantic.cs.put.poznan.pl/RMonto/, gdzie można znaleźć między innymi tutoriale wideo dotyczące sztandarowych zadań możliwych do wykonania z wykorzystaniem RMonto.

Autor: Jędrzej Potoniec (84868)

Październik 5, 2011

Dobre relacje w Web3.0, czyli SEO++

- autor: tsissput
GoodRelations - The Web Vocabulary for E-Commerce

Twórcy serwisów Internetowych, począwszy od bloggerów, takich jak nasza nadwarciańska ekipa, a skończywszy na rekinach e-commerce znają dobrze akronim SEO. Wielu uważa tę sztukę za alchemię, łączącą w sobie tajniki “oszukania” algorytmu PageRank z odrobiną marketingu – wszystko po to, aby nasza strona windowała się coraz wyżej w wynikach ulubionej wyszukiwarki. W końcu im wyżej, tym więcej gości – im więcej gości, tym większy zysk – czyli zmieniamy posiadany ołów w złoto 🙂

Pamiętam jak skrupulatnie uzupełniałem tagi META, m.in. keywords na tworzonych stronach, właściwie tylko po to, aby za jakiś czas dowiedzieć się, że robot Google już nie zwraca na nie uwagi. Dlaczego? Na blogach Google czytamy, że tagi META pozwalały na spore nadużycia i nie zawsze odpowiadały temu, co znajdowało się na stronach. No i racja – w keywords pisało się wszystko co przyszło na myśl webmasterowi w momencie tworzenia strony, tylko po to żeby uzyskać lepszą pozycję strony w wynikach wyszukiwania. Właściwie, takie użycie było wręcz antysemantyczne, prawda? Nie dość, że znacznik META nie dostarczał żadnej konkretnej wiedzy o zawartości strony, to faktycznie mógł działać na niekorzyść jakości wyników wyszukiwania.

Straciliśmy jedno narzędzie – właściwie dla wspólnego dobra. Czyli został nam oręż od h1 do h6, którym na upartego można dokonać tyle samo. Wystarczy, że “specjalista” od black-hat SEO wymaluje biało na białym lub czarno na czarnym nagłówki, które chce promować. Z dodatkiem sztucznie tworzonych linków i tzw. precli, czyli sponsorowanych artykułów, tenże “specjalista” zmajstruje kolejną antysemantyczną broń – Google Bomb (aby się przekonać o bezsensowności tych zabiegów, wystarczy poszukać ile takich ładunków wybuchło na podwórkach polityków – zdaje się, że ostatnio premier Tusk stał się definicją kłamcy według Google). Oczywiście firma Google grozi banowaniem stron wykorzystujących podejrzane techniki, ale zdaje się, że nie zna jeszcze całkowicie skutecznego sposobu oddzielenia treści wartościowych od śmieci. Zmierzam do tego, by uświadomić Was, że zwykłe SEO nie prowadzi dziś do poprawienia jakości znajdowania danych w Internecie, dlatego Web 3.0 potrzebuje czegoś więcej, na miarę SEO++ :).

Niezależnie od tego czy strona jest wizytówką firmy, blogiem, czy sklepem internetowym, wśród wyników każda z nich prezentowana jest w taki sam sposób. I co nam po tym, że promowany sklep pojawi się na pierwszym miejscu w wynikach, jeśli nie będzie tym, czego szukał użytkownik? Z resztą wystarczy, że nasz sklep będzie miał nazwę zbieżną z jakimś istniejącym bytem. Jako żywy przykład przytoczę poznaną niegdyś firmę zajmującą się urządzeniami sieciowymi o wdzięcznej nazwie “Telnet”. Osobom z branży nietrudno sobie wyobrazić trudność znalezienia tej jednej strony w gąszczu opisów protokołu komunikacyjnego…

Optymalizacja stron pod kątem wyszukiwarek nie kończy się na zgrabnym dopasowaniu treści do ram ich algorytmów. Na progu Web 3.0 chcielibyśmy, aby wyszukiwarka rozumiała kontekst zapytania i na jego podstawie prezentowała wyniki w bardziej usystematyzowany sposób, np. klastrując dane tematycznie i prezentując wyniki w bardziej informatywnej formie. Tak więc nasza telekomunikacyjna firma najlepiej prezentowałaby się obok innych przedsiębiorstw, okraszona mapką z Google Places, numerem telefonu pod który można zadzwonić jednym kliknięciem, informacjami o dostępności i cenach produktów, czy też opinią klientów.

Takie narzędzia istnieją i coraz więcej firm dostrzega ich biznesowy potencjał. Jedną z ontologii, którą zainteresowali się ostatnio giganci e-biznesu jest GoodRelations. Jej podstawowym celem jest dostarczenie słowników dla e-commerce. Całkiem obszerna dziedzina opisywana przez GoodRelations przydaje się m.in. sklepom internetowym. Wystarczy zobaczyć efekt uzyskany poprzez dodanie kilku linijek RDFa. Wyszukiwarka wydziela klaster tematyczny “Shopping Results”, a w nim dostajemy porównanie ofert, recenzje i powiązane zdjęcia produktu, w formie nazwanej przez Google “Rich Snippet”. Stąd już tylko jeden klik do skorzystania z najlepszej oferty…

Google Rich Snippet

Google Rich Snippet

Poza cennikami, GoodRelations pozwala na zawarcie wizytówki z adresami, współrzędnymi dla GPS, godzinami otwarcia i zdjęciami – ma to ogromny potencjał w świecie smartfonów.

Wyciągnięcie wniosków dotyczących pozytywnego wpływu stosowania ontologii GoodRelations w pozycjonowaniu e-commerce wymaga długotrwałych obserwacji. W ramach eksperymentu dodałem już odpowiednie wpisy na kilku komercyjnych stronach i obiecuję podzielić się własnymi spostrzeżeniami. Obecnie jednak musimy zadowolić się tym, co wykazały badania zza oceanu, otóż:

BestBuy, market branży RTV i AGD, odnotował wzrost ruchu organicznego na poszczególnych witrynach sklepów o blisko 1/3, a także zaobserwowano wzrost wskaźnika PageRank dla stron produktowych zawierających semantyczny opis zawartości.

Co więcej, poza wyszukiwarką Google, z ontologii GoodRelations korzystają różne porównywarki ofert, w tym także te mobilne, których rosnącego udziału w rynku nie wolno zlekceważyć. Z drugiej strony GoodRelations nie jest jedynym sposobem wprowadzenia semantycznego opisu produktów do wyników wyszukiwania, jednak na tle microformat’ów daje on dużo większe możliwości w swojej dziedzinie (odsyłam do porównania dostępnego pod adresem http://www.google.com/support/webmasters/bin/answer.py?answer=186036).

Dodanie wpisów wspomnianej ontologii jest bardzo proste. Do przygotowania podstawowych struktur można posłużyć się generatorem snippet’ów, które wystarczy wkleić wewnątrz <body> pozycjonowanej strony (http://www.ebusiness-unibw.org/tools/grsnippetgen/). Nic nie stoi na przeszkodzie, aby napisać kod ręcznie – dokumentacja ontologii jest całkiem dobra i poparta licznymi przykładami. W sieci można znaleźć też kilka pomocnych tutoriali, m.in. na blogu poświęconym sieciom semantycznym. Dodatkowo, dla popularnych open-source’owych silników sklepów internetowych istnieją gotowe wtyczki dodające owe znaczniki. Zachęcam wszystkich, którzy prowadzą, lub zamierzają prowadzić e-biznes, by uczynili ten mały krok w kierunku Web 3.0. Inwestycja jest niewielka, a może przyczynić się do wzrostu liczby odwiedzin w serwisie. Zapraszam także do lektury materiałów przygotowanych przez twórców GoodRelations.

Warto zajrzeć:
http://www.heppresearch.com/gr4google
http://www.google.com/support/webmasters/bin/answer.py?answer=186036

Jakub Kalina (84306)