Posts tagged ‘microformats’

Styczeń 26, 2012

Wojna w mikroświecie

- autor: tsissput

Internet cały czas rośnie. Nie tylko dochodzą nowe strony ale istniejące mają coraz więcej treści. Oczywistym stał się fakt, że jeśli komputery nie pomogą nam przefiltrować tego ogromu słów, nic wartościowego nie znajdziemy w relatywnie krótkim czasie. Jeszcze kilka lat temu poważnym problemem był fakt, że maszyny nie rozumiały znaczenia tego całego zlepku literek. Wtedy powstał boom na Semantic Web i powstały technologie dające możliwość programom na rozumienie treści witryn internetowych.

Sztandarowym przykładem może tu być internetowa odmiana RDF, czyli RDFa. Istniejąca już od 2004 roku. Problem polega na tym, że dla zwykłych web developerów jest to zbyt skomplikowana technologia.

<p xmlns:dc="http://purl.org/dc/elements/1.1/"
   about="http://www.example.com/books/wikinomics">
  In his latest book
  <cite property="dc:title">Wikinomics</cite>,
  <span property="dc:creator">Don Tapscott</span>
  explains deep changes in technology,
  demographics and business.
  The book is due to be published in
  <span property="dc:date" content="2006-10-01">October 2006</span>.
</p>

Przeładowanie informacji potrzebnych do opisu wartości sprawiło, że programiści zapragnęli  prostszego rozwiązania. Znaleźli je w postci mikroformatów. Nie będę się o nich rozpisywał bo temat ten został już poruszony na tym blogu tutaj. Nie da się ukryć, że są one niezwykle proste i nie wymagają tworzenia żadnych dodatkowych atrybutów HTML’owych. Ten ich niewątpliwy plus staje się również ich wadą. Co prawda specyfikacja HTML 4.1 odnoście atrybutu class mówi, że może on zostać wykorzystany dla ogólnych potrzeb przetwarzania jednak w powszechnym użyciu funkcjonuje jako selektor arkuszy stylów. Nakłada to większą ostrożność dla projektantów storn i osób odpowiedzialnych za pisanie CSS’ów. Jest to również problem dla parserów, które muszą się domyślić czy dana wartość jest selektorem czy mikroformatem.

Warto się przyjrzeć co w takiej sytuacji zrobili najbardziej zainteresowani a zarazem najwięksi gracze na rynku. Google, Bing i Yahoo!, czyli firmy które czerpią największe zyski z wiedzy o tym co jest czym w sieci. Żeby zapewnić jeszcze lepsze wyniki wyszukiwania, ale również żeby je lepiej opisać wybrali mikrodane. Właśnie o tą technologię Google oparło swoje Rich snippets. Dodatkowo uruchomiono stronę Schema.org, która zawiera kolekcje schematów, gotowych do użycia.

Mikrodane definiowane są poprzez atrybuty HTMLa (szerszy opis i przykłady tu)

  • itemscope – definiuje grupę  par nazwa-wartość, nazywaną item
  • itemprop – dodaje właściwość do item’a (nazwa może być tekstem lub url’em, wartością jest zawartość elementu)
  • itemref – item może zawierać niedziedziczone właściwości poprzez referencje do nich
  • itemtype – definiuje typ item’u  jeśli jest użyte w tym samym elemencie co itemscope
  • itemid – pozwala słownikowi zdefiniować globalny identyfikator dla item’u

Mikrodane są częścią specyrikacji HTML5, rozdział im poświęcony znajduje się tutaj. Dodatkowym plusem, przemawiającym za mikrodanymi jest specyfikacja microdata DOM API. Pozawala ona na używanie skryptów do manipulowania mikrodanymi, udostępnianie ich innym aplikacjią, itp. Możliwości są ograniczone jedynie przez potrzeby twórców aplikacji internetowych. Niestety jedyną przeglądarką, która implementuje microdata DOM API jest Opera. Na szczęście na podstawie specyfikacji powstały już co najmniej dwie biblioteki JavaScript’owe MicrodataJS oraz Microdata-JS. Dodatkowo istnieje też projekt Live Microdata, który pozwala obserwować jak nasz kod HTML wygląda oraz podejrzeć zawarte w nim mikrodane w postaci JSONa.

Jedną z wad mikrodanych jest niemożliwość używania wielu typów jeśli nie pochodzą one z tego samego słownika (mowa o tym tutaj). Można jednak osiągnąć taki efekt w nietrywialny sposób, jak zaprezentowano to tu. W trakcie powstawania jest specyfikacja rozszerzająca która ma dać możliwość łączenia słowników, która nie zmienia składni mikrodanych.

Na blogu Jeni Tennison można znaleźć dużo informacji na temat mikrodanych, jak również i RDFa. Ciekawą serię stanowią artykuły o mapowaniu mikrodanych do RDFa i RDFa do mikrodanych.

<section itemscope itemtype=”http://schema.org/Person”&gt;
<span itemprop=”name”>Dawid Jankowiak</span>
<section itemprop=”affiliation” itemscope itemtype=”http://schema.org/Organization”&gt;
<span itemprop=”name”>Politechnika Poznańska</span>
</section>
<span itemscope>
<time itemprop=”date” datetime=”2012-01-26″>26 stycznia 2012</time>
</span>
</section>

Dawid Jankowiak

Politechnika Poznańska

26 stycznia 2012

Reklamy
Październik 5, 2011

Dobre relacje w Web3.0, czyli SEO++

- autor: tsissput
GoodRelations - The Web Vocabulary for E-Commerce

Twórcy serwisów Internetowych, począwszy od bloggerów, takich jak nasza nadwarciańska ekipa, a skończywszy na rekinach e-commerce znają dobrze akronim SEO. Wielu uważa tę sztukę za alchemię, łączącą w sobie tajniki “oszukania” algorytmu PageRank z odrobiną marketingu – wszystko po to, aby nasza strona windowała się coraz wyżej w wynikach ulubionej wyszukiwarki. W końcu im wyżej, tym więcej gości – im więcej gości, tym większy zysk – czyli zmieniamy posiadany ołów w złoto 🙂

Pamiętam jak skrupulatnie uzupełniałem tagi META, m.in. keywords na tworzonych stronach, właściwie tylko po to, aby za jakiś czas dowiedzieć się, że robot Google już nie zwraca na nie uwagi. Dlaczego? Na blogach Google czytamy, że tagi META pozwalały na spore nadużycia i nie zawsze odpowiadały temu, co znajdowało się na stronach. No i racja – w keywords pisało się wszystko co przyszło na myśl webmasterowi w momencie tworzenia strony, tylko po to żeby uzyskać lepszą pozycję strony w wynikach wyszukiwania. Właściwie, takie użycie było wręcz antysemantyczne, prawda? Nie dość, że znacznik META nie dostarczał żadnej konkretnej wiedzy o zawartości strony, to faktycznie mógł działać na niekorzyść jakości wyników wyszukiwania.

Straciliśmy jedno narzędzie – właściwie dla wspólnego dobra. Czyli został nam oręż od h1 do h6, którym na upartego można dokonać tyle samo. Wystarczy, że “specjalista” od black-hat SEO wymaluje biało na białym lub czarno na czarnym nagłówki, które chce promować. Z dodatkiem sztucznie tworzonych linków i tzw. precli, czyli sponsorowanych artykułów, tenże “specjalista” zmajstruje kolejną antysemantyczną broń – Google Bomb (aby się przekonać o bezsensowności tych zabiegów, wystarczy poszukać ile takich ładunków wybuchło na podwórkach polityków – zdaje się, że ostatnio premier Tusk stał się definicją kłamcy według Google). Oczywiście firma Google grozi banowaniem stron wykorzystujących podejrzane techniki, ale zdaje się, że nie zna jeszcze całkowicie skutecznego sposobu oddzielenia treści wartościowych od śmieci. Zmierzam do tego, by uświadomić Was, że zwykłe SEO nie prowadzi dziś do poprawienia jakości znajdowania danych w Internecie, dlatego Web 3.0 potrzebuje czegoś więcej, na miarę SEO++ :).

Niezależnie od tego czy strona jest wizytówką firmy, blogiem, czy sklepem internetowym, wśród wyników każda z nich prezentowana jest w taki sam sposób. I co nam po tym, że promowany sklep pojawi się na pierwszym miejscu w wynikach, jeśli nie będzie tym, czego szukał użytkownik? Z resztą wystarczy, że nasz sklep będzie miał nazwę zbieżną z jakimś istniejącym bytem. Jako żywy przykład przytoczę poznaną niegdyś firmę zajmującą się urządzeniami sieciowymi o wdzięcznej nazwie “Telnet”. Osobom z branży nietrudno sobie wyobrazić trudność znalezienia tej jednej strony w gąszczu opisów protokołu komunikacyjnego…

Optymalizacja stron pod kątem wyszukiwarek nie kończy się na zgrabnym dopasowaniu treści do ram ich algorytmów. Na progu Web 3.0 chcielibyśmy, aby wyszukiwarka rozumiała kontekst zapytania i na jego podstawie prezentowała wyniki w bardziej usystematyzowany sposób, np. klastrując dane tematycznie i prezentując wyniki w bardziej informatywnej formie. Tak więc nasza telekomunikacyjna firma najlepiej prezentowałaby się obok innych przedsiębiorstw, okraszona mapką z Google Places, numerem telefonu pod który można zadzwonić jednym kliknięciem, informacjami o dostępności i cenach produktów, czy też opinią klientów.

Takie narzędzia istnieją i coraz więcej firm dostrzega ich biznesowy potencjał. Jedną z ontologii, którą zainteresowali się ostatnio giganci e-biznesu jest GoodRelations. Jej podstawowym celem jest dostarczenie słowników dla e-commerce. Całkiem obszerna dziedzina opisywana przez GoodRelations przydaje się m.in. sklepom internetowym. Wystarczy zobaczyć efekt uzyskany poprzez dodanie kilku linijek RDFa. Wyszukiwarka wydziela klaster tematyczny “Shopping Results”, a w nim dostajemy porównanie ofert, recenzje i powiązane zdjęcia produktu, w formie nazwanej przez Google “Rich Snippet”. Stąd już tylko jeden klik do skorzystania z najlepszej oferty…

Google Rich Snippet

Google Rich Snippet

Poza cennikami, GoodRelations pozwala na zawarcie wizytówki z adresami, współrzędnymi dla GPS, godzinami otwarcia i zdjęciami – ma to ogromny potencjał w świecie smartfonów.

Wyciągnięcie wniosków dotyczących pozytywnego wpływu stosowania ontologii GoodRelations w pozycjonowaniu e-commerce wymaga długotrwałych obserwacji. W ramach eksperymentu dodałem już odpowiednie wpisy na kilku komercyjnych stronach i obiecuję podzielić się własnymi spostrzeżeniami. Obecnie jednak musimy zadowolić się tym, co wykazały badania zza oceanu, otóż:

BestBuy, market branży RTV i AGD, odnotował wzrost ruchu organicznego na poszczególnych witrynach sklepów o blisko 1/3, a także zaobserwowano wzrost wskaźnika PageRank dla stron produktowych zawierających semantyczny opis zawartości.

Co więcej, poza wyszukiwarką Google, z ontologii GoodRelations korzystają różne porównywarki ofert, w tym także te mobilne, których rosnącego udziału w rynku nie wolno zlekceważyć. Z drugiej strony GoodRelations nie jest jedynym sposobem wprowadzenia semantycznego opisu produktów do wyników wyszukiwania, jednak na tle microformat’ów daje on dużo większe możliwości w swojej dziedzinie (odsyłam do porównania dostępnego pod adresem http://www.google.com/support/webmasters/bin/answer.py?answer=186036).

Dodanie wpisów wspomnianej ontologii jest bardzo proste. Do przygotowania podstawowych struktur można posłużyć się generatorem snippet’ów, które wystarczy wkleić wewnątrz <body> pozycjonowanej strony (http://www.ebusiness-unibw.org/tools/grsnippetgen/). Nic nie stoi na przeszkodzie, aby napisać kod ręcznie – dokumentacja ontologii jest całkiem dobra i poparta licznymi przykładami. W sieci można znaleźć też kilka pomocnych tutoriali, m.in. na blogu poświęconym sieciom semantycznym. Dodatkowo, dla popularnych open-source’owych silników sklepów internetowych istnieją gotowe wtyczki dodające owe znaczniki. Zachęcam wszystkich, którzy prowadzą, lub zamierzają prowadzić e-biznes, by uczynili ten mały krok w kierunku Web 3.0. Inwestycja jest niewielka, a może przyczynić się do wzrostu liczby odwiedzin w serwisie. Zapraszam także do lektury materiałów przygotowanych przez twórców GoodRelations.

Warto zajrzeć:
http://www.heppresearch.com/gr4google
http://www.google.com/support/webmasters/bin/answer.py?answer=186036

Jakub Kalina (84306)