Archive for ‘Semantic Web’

Grudzień 1, 2014

Platforma VIVO – sposób na Ontologie internetową

- autor: tsissput

Z uwagi na szybki rozwój technologii , aby podejść do wyzwań
i problemów badawczych , wymagana jest w większym stopniu współpraca
zespołów specjalistów z różnych dziedzin i instytucji , aby wspólnymi
siłami wypracować innowacyjne rozwiązania w trakcie prowadzonych prac,
minimalizować niepowodzenia i w optymalny sposób wykorzystywać sukcesy
oraz rozpowszechniać zdobytą wiedzę.

Jednym ze sposóbów jest wykorzystanie platformy VIVO ;
semantycznej, sieciowej aplikacji o otwartym kodzie źródłowym ,
zaprojektowanej  aby ułatwiać wyszukiwanie informacji o realizowanych
badaniach , stypendiach , naukowcach, i wspierać tworzenie sieci badawczych.

Technologia VIVO

VIVO to aplikacja zbudowana na technologii Semantic Web ,
łączy Ontologie internetową i instancje edytora ,
zawartość narzędzia integracyjnego i lekki system zarządzania treścią.

Ontologia rdzenia VIVO zapewnia framework do modelowania naukowcom
i ich działalności w sposób spójny.

Zawartość VIVO zapewnia opiekunom systemu zarządzania witryną ,
dodatkową kontrolę nad architekturą informacji
i funkcje wyświetlania, jak również branding.
VIVO jest implementowany jako aplikacja sieci web Java,
a wersje VIVO są zaprojektowane do pracy z Apache Tomcat ( servlet cointainer ).

VIVO obsługuje ontologie OWL,
które są reprezentowane w systemie przy starcie jako modele obiektów Jena.
Ontologie te mogą być opracowane z wykorzystaniem na zewnętrznym edytorze,
jak na przykład Protégé , lub mogą być rozwijane w samej VIVO.

Podstawowe zasady VIVO

  • Open software
  • Open data
  • Open ontology
  • Open community
  • Zdecentralizowanie infrastruktury – sterowanie lokalne

Jakie zadania pełni VIVO?

  • Integracja danych z wielu źródeł

– Systemy rekordu

– Raportowanie aktywności – Wydział

– Zewnętrzne źródła (np, Scopus, PubMed, NIH Reporter)

  • Zapewnia interfejs przeglądu i edycji

Krótka chatakteryztyka działania :

Gdy dane są dostępne, VIVO tworzy publiczną stronę internetową,
z stronami pokazującymi profil informacyjny,
przynależności do osób fizycznych i członkostwo,
powiązania oraz inne informacje dla jednostek organizacyjnych.

 

Wyświetlanie informacji jest tematem pełni napędzanym konfigurowalnie.
Informacje serwisu są indeksowane przy użyciu Lucene
do tworzenia wybranych wniosków z dostępnych danych.
Poziom wnioskowania może być wybrany w konfiguracji VIVO.
VIVO obsługuje uwierzytelnianie samodzielnej edycji
podzbioru informacji o osobie.
Pozwala to, na przykład – wydziału przesyłać obrazy,
nawiązanie do osobistych danych i projektów stron internetowych,
oraz dostarczenie oświadczeń badań lub listy zainteresowań badawczych.
Autoryzacja może być poprzez Shibboleth ,
a strona jest w pełni przeszukiwana.

ONTOLOGIA VIVO

Rozwój ontologii VIVO następuje w czterech zasadach:
1. • Rdzeń i lokalizacja:
Konstrukcja rdzenia VIVO i lokalizacji łączy zalety
standaryzacji.
2. • Modularny projekt:
Wyróżnia się niezależny system
lecz połączone moduły, mogą być
stosowane w różnych kontekstach,
aby umożliwić wiele funkcji.
3. • Wyrównywanie z innymi ontologii:
Ontologia VIVO dostosowuje się do innych ontologii.
4. • Modelowanie złożonych relacji jako klas:
W ontologii VIVO, złożone relacje są modelowane
jako jednostki, w celu dodania właściwości tych związków.

Przykład ontologii pokazuje koncepcje mapy VIVO w wersji 1.3 czyli główne klasy i obiektywne właściwości.

vivo

Bąbelki w różnych kolorach reprezentują różne źródła klas.
Linie między bąbelkami wskazują ich związki, które są właściwościami obiektu w ontologii VIVO.

 

Interoperacyjność

Kluczową kwestią w budowaniu ontologii VIVO
jest umożliwienie interoperacyjności pomiędzy różnymi ontologiami.
Ontologia interoperacyjności jest kluczowym czynnikiem
niezbędnym do ujednolicenia
i integracji rozproszonych zasobów ontologii poprzez Internet.

Istnieją różnorodne działania związane z projektem VIVO,
podkreślając agencje federalne, instytucje akademickie,
stowarzyszenia zawodowe, na zysk wydawców i dostawców danych,
jak również dokonanie wielu starań w sieci semantycznej i ontologii w rozwoju społeczności.

Główni Partnerzy to :
CASRAI (Consortium Advancing Standards in Research Administration Information)
EuroCRIS ( Current Research Information Systems)
ORCID (Open Researcher and Contributor ID )

 

Odwołując się do podsumowania blogu
autora Dominika Piotrowskiego – który nawiązał do VIVO
jako semantyczna baza wiedzy , można powiedzieć że
silne dane i inteligentne aplikacje internetowe mogą wspierać
partnerstwo pomiędzy instytucjami i tym samym zwiększyć
możliwości ponownego wykorzystania zgromadzonych danych ”,
a zachętą jest aby „ polskie biblioteki akademickie
mogłyby przyjrzeć się bliżej temu semantycznemu narzędziu,
celem wsparcia swoich instytucji macierzystych ”.

 

+++ Bibliografia +++

http://www.vivoweb.org

http://www.ideals.illinois.edu/bitstream/handle/2142/42085/460.pdf?sequence=2

http://www.semanticweb.com/symplectic-takes-another-step-helping-universities-engage-research-collaboration-discovery_b44557#more-44557

http://www.cmswbibliotekach.umk.pl/baza-wiedzy/vivo-czyli-semantyczna-baza-wiedzy/

=========================

Wojtek-Beniamin Wolski [ 119972 ]

=========================

Reklamy
Listopad 20, 2014

Rewolucja, czy zwykła zmiana – Semantic Web w oczach użytkowników Internetu

- autor: tsissput

Streszczenie

Celem niniejszego opracowania jest zbadanie podejścia użytkowników do zmian jakie wynikają z zastosowania Semanic web i nazwania ich mianem Web 3.0. Sprawdzenie jak w ich oczach będą wyglądały zmiany, które od kilku lat są skutecznie rozwijane. Celami szczegółowymi są też: konfrontacja użytkowników z osobami na co dzień zajmujących się branżą IT i nowymi technologiami, co do nadchodzących zmian; porównanie spojrzeń na kwestie techniczne obu stron; a także zbadanie poziomu zadowolenia z tego co aktualnie istnieje. Dzięki temu możliwe będzie porównanie i ocena jak do proponowanej zmiany odnoszą się przeciętni użytkownicy, a jak ludzie, którzy na co dzień wykorzystują, a nawet tworzą Internet.

read more »

Tagi:
Listopad 24, 2013

Graph Search, czyli semantyczna wyszukiwarka Facebooka.

- autor: tsissput

graph-search_320x197Graph Search – wyszukiwanie w socjogramie jako trzeci filar Facebooka.

Pierwszy filar to nasza nieśmiertelna ściana z wiadomościami (News Feed). Drugi – wprowadzona pod koniec 2011 roku oś czasu (Timeline).

Wyszukiwarka — bo tym właśnie z punktu widzenia użytkownika będzie Graph Search — ma pomóc odkryć coś nowego lub usprawnić poruszanie się na Facebooku.

Graph Search ma mieć mnóstwo zastosowań. Będzie można znaleźć na przykład wszystkie osoby, które mieszkają w jakimś mieście i lubią jakąś aktywność. Dzięki temu można będzie bez odrywania oczu od serwisu odkryć coś nowego, przede wszystkim nowych znajomych, na przykład znajomych naszych znajomych, z którymi mamy szansę się spotkać i mamy coś wspólnego. Ułatwi to też trafienie do popularnej wśród pewnych grup restauracji lub polecanego przez znajomych dentysty.

Facebook rozrasta się – codziennie dochodzą nowi użytkownicy, a starzy dorzucają nowe lajki, zdjęcia, linki i komentarze. Baza informacji rośnie w niesłychanym tempie. Do tej pory jednak nie było zbytniej możliwości przeszukiwania jej przez użytkowników. W efekcie Facebook jest nastawiony bardzo na to, co dzieje się „teraz” – większość osób jest przykuta do swojego strumienia aktualności, nie wychodzi poza niego. Powód jest prosty – znalezienie czegoś na Facebooku starszego niż kilka tygodni, szczególnie jeśli nie dotyczy jednej osoby i nie jest zdjęciem, jest strasznie wkurzające.

Graph Search upraszczając – jest to wyszukiwarka, która pozwala przeszukiwać bazy Facebooka. Ale to uproszczenie, porównanie do zwykłej wyszukiwarki, byłoby (szczególnie zdaniem Marka Zuckerberga) bardzo krzywdzące. Rozbijmy więc nowość na kilka punktów:

1. Uprzedzając wszelkie wątpliwości, Zuckerberg na samym początku powiedział, że użytkownicy mogą przeszukiwać jedynie te rzeczy, które zostały im udostępnione. Do tej pory bowiem wiele rzeczy było zbyt starych, żeby je wygrzebać. Teraz łatwiej będzie je znaleźć.

2. Graph Search nie opiera się o słowa kluczowe, jak robi to np. wyszukiwarka Google’a. Facebook, szczególnie w fazie beta Socjogramu, bardziej polega na elementach w swojej bazie danych – użytkownikach, fanowskich stronach czy wpisanych zainteresowaniach – i ich powiązaniach ze sobą. Dlatego jeśli będziemy szukać znajomych, którzy lubią Grę o tron, Graph Search poinformuje nas przede wszystkim o osobach, które polubiły taką stronę, a nie o tych, które gdzieś tam wspomniały o „tronie” i „grze” w jednym poście. W efekcie co prawda silnik wyszukiwania może pominąć część wartościowych informacji, odsiewa jednak wiele śmieciowych wyników.

3. Całość działa w oparciu o frazy. „Znajomi, którzy lubią…”, „Zdjęcia ze mną i …”, „Restauracje w pobliżu … lubiane przez znajomych z kraju …”, a nawet „singielki mieszkające w … i interesujące się …” – łączy się to z poprzednim punktem. Znowu, tak skonstruowane wyszukiwanie jest nieco ograniczające i może pomijać niektóre informacje, docelowo jednak ma szansę zapewnić znacznie bardziej wartościowe wyniki. Pytanie, czy się to nie zmieni w miarę rozwoju usługi i jej wychodzenia z fazy bety.

4. Całość jest zintegrowana ze stroną główną. Główna belka serwisu została całkowicie zdominowana przez pasek wyszukiwania, podczas gdy ikonki notyfikacji oraz ustawienia zostały zepchnięte do prawej strony. Wpisywane w pole frazy dynamicznie zmieniają stronę. Z punktu widzenia użytkownika to istotna cecha serwisu – upraszcza cały proces.

Graph Search ma umożliwić użytkownikowi przeszukiwanie zapisów aktywności własnej i znajomych. Będzie więc można poprosić o listę zdjęć, które użytkownik polubił, listę zdjęć konkretnych znajomych zrobionych w wybranym mieście 5 lat temu, listę zespołów, których słuchają współpracownicy, listę miast, w których mamy rodzinę i tak dalej. Na razie można zapisać się do zamkniętych testów wyszukiwarki, które prowadzone będą w tylko języku angielskim. Graph Search ma ponadto szanować ustawienia prywatności użytkowników.

Facebook chce, aby dzięki temu wyszukiwaniu życie było łatwiejsze, a świat mniejszy. Możliwe, że jest ot kolejny sposób aby użytkownicy Facebooka nie rezygnowali z serwisu, a chętniej z niego korzystali oraz pojawiali się także nowi internauci. Wall Street Journal przekazał informację, że zmniejsza się zainteresowanie Facebookiem. Analiza dotyczyła Stanów Zjednoczonych, gdzie w grudniu z serwisu przestało korzystać (czyli w ciągu miesiąca wcale go nie odwiedziło) 1,4 miliona użytkowników. W sumie używa go jeszcze ponad 167 milionów Amerykanów, ale strata jest spora i cieszy zwłaszcza w kontekście wiadomości z poniedziałku, kiedy to Guardian powiadomił, że z serwisu Zuckerberga uciekło 600 tysięcy Brytyjczyków z ponad 33 milionów, a w tym miesiącu nie zalogowało się już kolejnych 300 tysięcy. Statystyki można znaleźć na stronie czeskiej firmy SocialBakers.

Według tych samych danych, w Polsce w ciągu ostatniego miesiąca aktywnych użytkowników Facebooka przybyło prawie 400 tysięcy (171 tysięcy w ciągu ostatnich dwóch tygodni). W sumie korzysta z niego lekko ponad 10 milionów Polaków, co daje nam 23 pozycję na Świecie (z 212 monitorowanych państw). W ogólnym rozrachunku liczba użytkowników serwisu nadal rośnie i nieubłaganie zbliża się do symbolicznej granicy miliarda. W niektórych krajach użytkowników Facebook już znudził. Według analityków przytłaczające są reklamy, promowane posty i ciągłe zmiany. Pole do rozwoju nadal jednak jest — głównie w krajach Azji, gdzie z szacowanych 4 miliardów mieszkańców Facebooka używa zaledwie 7%.

Decyzja o masowym przejściu na nowy silnik zapadła w Palo Altro w lipcu 2013, a pierwszymi królikami doświadczalnymi są amerykańscy użytkownicy. Usługa została uruchomiona na kilkuset milionach kont. Zmiana jakościowa będzie ogromna. Jeśli jednak pamiętacie przepychanki ze słynną osią czasu – nie wszystkim przypadnie do gustu, bo nie wszyscy kochają super hiper mega innowacje.

Nowa funkcja jest na razie w Polsce jeszcze nie aktywna. Na tej stronie możemy się zapisać na listę oczekującą – choć część materiałów o Socjogramie (tak będzie się usługa nazywać w Polsce) została zlokalizowana, to wersja beta jest tylko dostępna dla użytkowników serwisu korzystających z amerykańskiej wersji językowej.

Firma zamierza upublicznić wyszukiwarkę w ciągu tygodni/miesięcy. W przyszłości ma się pojawić wsparcie dla aplikacji mobilnych, obsługa wszystkich języków, przeszukiwanie statusów i Open Graph.

Open Graph, czyli połączenie Graph Search z wyszukiwaniem lajków na stronach zewnętrznych. Zaprezentowano go już 3 lata temu:

Open Graph umożliwia indeksowanie stron internetowych pod względem ich „popularności” wśród użytkowników.

Tym samym firma przypomniała niejako, że jej starania o zbudowanie własnej, specyficznej wyszukiwarki trwają już od kilku lat. Zapewne to właśnie Graph Search miał na myśli Zuckerberg we wrześniu zeszłego roku.

Socjogram może okazać się jedną z najważniejszych funkcji Facebooka. Owszem, ktoś powie, że wyszukiwarka technologicznie wcale nie jest bardziej zaawansowana od rozwiązań konkurencji, szczególnie Google’a. Warto jednak pamiętać, że sam algorytm jest tylko jednym elementem całej układanki. Elementem najmniej ważnym, z punktu widzenia użytkownika. Użytkownik bowiem szuka określonych treści, jeśli więc baza danych jest uboga o nie, to nawet najlepszy algorytm nie zatuszuje tego faktu.

Źródła:

http://en.wikipedia.org/wiki/Facebook_Graph_Search

http://www.dobreprogramy.pl/

https://www.facebook.com/about/graphsearch

http://www.gazeta.pl/

http://actualfacebookgraphsearches.tumblr.com/

http://www.komputerswiat.pl

http://www.insidefacebook.com/

 Kamil Pludra, 94470

Listopad 24, 2013

Semantyka stron WWW, czyli co nowego w HTML5?

- autor: tsissput

Od dosyć dawna możemy projektować strony według standardu HTML5, jednakże nie wszystkie przeglądarki wspierają ten standard w równym stopniu. Także przed użyciem którejś z właściwości HTML5 warto sprawdzić, jakie przeglądarki obsługują daną opcję i na jakim poziomie.

Wracając do sedna, czyli do standardu HTML5, daje on wiele nowych możliwości, między innymi wprowadza elementy semantyczne, które nadają znaczenie sekcjom kodu dokumentu HTML, a użyte we właściwy sposób, mogą usprawnić działanie przeglądarek, wyszukiwarek i czytników ekranów dla osób niedowidzących i właśnie tymi elementami będę zajmował się w dalszej części artykułu.

Większość stron internetowych przed standardem HTML5 opierała się na elementach <div>, które nic nie mówią o zawartości znajdującej się wewnątrz elementu. Elementy te są proste w użyciu, a sposób wyświetlania i funkcję jaką pełnią możemy definiować arkuszami styli. Przyglądając się bardziej złożonemu dokumentowi HTML i elementom <div> trudno stwierdzić jaką funkcję one pełnią, tym bardziej, jeżeli nie ma żadnych komentarzy twórcy dokumentu, a klasy czy identyfikatory styli są nazwane w sposób nic nie mówiący człowiekowi. Dlatego aby odpowiedzieć sobie na to pytanie, jaką funkcję dany element <div> spełnia, należy zagłębić się w arkuszach styli, sprawdzając, jakie style są przypisane do danego elementu. Ale czy wiedza gdzie dany element jest umiejscowiony i w jaki sposób jest wyświetlany na stronie definiuję to jaką rolę pełni? Czy <div> umieszczony w dolnej części strony zawsze jest stopką? Albo czy menu zawsze znajduje się po lewej stronie strony? Dlatego HTML5 wprowadza nowe elementy semantyczne, które jednoznacznie mówią jaki element jaką pełni funkcję na stronie i zastępują zbyt ogólne elementy <div>, dzięki temu kod dokumentu jest łatwiejszy do edytowania i utrzymania, i to jest jeden z kilku powodów, aby używać nowe znaczniki. Drugim z powodów jest dostępność.  Strony dostępne to strony po których można nawigować za pomocą czynników ekranów, których używają osoby niedowidzące, dzięki elementom semantycznym łatwiej przychodzi znalezienie interesujących elementów strony. Kolejnym powodem jest optymalizacja pod kątem wyszukiwarek. Roboty przeszukujące sieć biorą pod uwagę elementy semantyczne dokumentu HTML, odpowiednie ich użycie może pomóc Twojej stronie znaleźć się na początku listy wyników wyszukiwania.

Nowe elementy semantyczne wprowadzają nową jakość w strukturze dokumentu, dzięki nim można oddzielić najpopularniejsze sekcje dokumentu a ponadto nadać znaczenie treściom w nich zawartych. Poza tym, nowe znaczniki nic nie zmieniają, nie są nim przypisane żadne style.

Jednym z najbardziej wyspecjalizowanych znaczników jest element <time>, w którym powinna być właściwie sformatowana  godzina bądź data na przykład <time>2013-11-24</time>.

Kolejnym elementem opisującym strukturę dokumentu jest element <header>,  w którym zawieramy nagłówek strony, czy też rozbudowany nagłówek artykułu. Pewnie teraz zastanawiasz się, co w wypadku, gdy na stronie będą występować oba nagłówki. Standard HTML5 nie zabrania kilkukrotnego użycia tego samego elementu semantycznego w obrębie jednej strony, jednakże im jest ich mniej i są bardziej przemyślane i właściwie użyte tym lepiej, ponieważ zbyt pochopne używanie nowych znaczników spowoduje powrót do tej samej sytuacji jak w wypadku ogólnych elementów <div>.

Następnym jest element <footer>, w której zawieramy stopkę dokumentu HTML.  Oczywiście każdy z tych elementów może zawierać inne elementy, także <div>.  Możemy na przykład umieścić informacje o autorze, menu nawigacyjne z poznanym już znacznikiem <nav>. Oczywiście wszystkich elementów nie powinnyśmy zawierać w elemencie <footer>, mogą być zawarte przed lub po tym znaczniku, ale w obrębie tego samego znacznika <div>, w którym jest zawarty element <footer>.

Niestety w HTML5 nie wprowadzono elementu <content>, w którym byłaby zawarta główna treść strony. Za to istnieje element <article> reprezentujący pewien oddzielny fragment treści, może to być wpis blogowy, czy to jakaś wiadomość. Oczywiście, w znaczniku <article> możemy zawrzeć poprzednie elementy takie jak <header> i  <footer>, w ten sposób otrzymamy artykuł z nagłówkiem, w którym będzie tytuł,  a może także podtytuł, notka o autorze.  Następnie zawieramy treść artykułu, w elemencie <div> lub <spam> a na koniec poznany także prędzej element <footer> w którym mogą być zawarte tak zwane copyrighty, czy odnośniki do innych stron. Tylko co w przypadku kiedy artykuł jest podzielony na kilka podstron? W takim przypadku, lepszym rozwiązaniem będzie, gdy każdy z części artykułu umieścimy w oddzielnym elemencie <article>.

Wyżej wspomniałem o artykule, w którego nagłówku występował także nagłówek, HTML5 wyróżnia element <hgroup>,  w którym możemy zawrzeć tytuł w elemencie <h1> a podtytuł w elemencie <h2>, jeżeli chcemy zawrzeć coś więcej, to lepiej zrobić to poza znacznikiem <hgroup>.

Mamy już zdefiniowany cały tekstowy artykuł, ale co jeśli wewnątrz tekstu będziemy chcieli zawrzeć jakiś obraz? Analogicznie jak w książkach, każdy z obrazów powinien być jednoznacznie związany z tekstem, dlatego będziemy go zawierać w elemencie <figure>. Dobrym pomysłem, jest także opis każdego z obrazu, taki opis powinien być umieszczany wewnątrz elementu <figcaption> i może on zastąpić atrybut alt ze znacznika <img>.

HTML5 wyróżnia także element <aside>, można w nim zawierać treść, który w jakiś sposób odnosi się do zawartości znacznika <article>. Może to być rozszerzenie jakiegoś zagadnienia, cytat, czy odnośnik zewnętrzny.

Elementy nawigacyjne powinniśmy zawierać w nowym elemencie <nav>, dlatego w tym znaczniku będziemy umieszczać odnośniki w obrębie danej strony lub do innych zewnętrznych stron.

Kolejnym nowym znacznikiem będzie element <section>, w którym zostają zwarte treści, nie pasujące do pozostałych elementów semantycznych.  Można w nim umieścić skróconą informację o nas, czy zestaw informacji kontaktowych, a także zbór treści na przykład lista newsów, czy też samoistne treści, które nie można nazwać artykułem. Może to być na przykład lista produktów na stronie sklepu.

Podsumowując, HTML5 wprowadza kilka nowych elementów semantycznych, przy pomocy których można zbudować strukturę semantyczną dokumentu, która niesie za sobą jednoznaczne informacje semantyczne, nie tylko dla autorów, ale także użytkowników przeglądających strony przy pomocy czytników ekranów dla osób niedowidzących a także dla robotów wyszukiwarek indeksujących stron, które biorą pod uwagę zwartość elementów semantycznych, gdzie zysk jest obopólny, użytkownicy wyszukiwarek otrzymują lepiej dopasowane wyniki a twórcy stron wyższą pozycję w wynikach wyszukiwania.

Oczywiście, zasób znaczników jest dość ubogi, z jednej strony to wada, ponieważ nie do końca możemy dopasować semantykę do prezentowanej zawartości na stronie, a z drugiej zaleta, ponieważ twórcy stron internetowych nie muszą uczyć się mnóstwa nowych znaczników, które pewnie i tak nie oddadzą całej semantyki jaką można spotkać na stronie internetowej. Reasumując, elementy semantyczne to pierwszy krok, do stworzenia w pełni semantycznych sieci WWW.

Piotr Michalak

Listopad 10, 2013

Wprowadzenie do Linked Data

- autor: tsissput

Wstęp

Sieć WWW (World Wide Web) radykalnie zmieniła nasz sposób dzielenia się wiedzą poprzez obniżenie bariery w publikowaniu i dostępie do dokumentów w ramach globalnej przestrzeni informacji. Przeglądarki i linki hipertekstowe pozwalają użytkownikom na przeglądanie tej przestrzeni, a indeksowanie dokumentów i analiza struktur powiązań między nimi na wnioskowanie na temat potencjalnego znaczenia dla zapytania zadanego przez użytkownika. Jest to możliwe przez ogólny, otwarty i elastyczny charakter sieci, który jest postrzegany jako kluczowy element nieograniczonego wzrostu. Tradycyjnie dane publikowane w sieci były dostępne jako surowe wpisy w formatach CSV, XML lub oznaczone jako tabele HTML tracąc wiele z ich struktury oraz znaczenia. Konwencja hipertekstowych powiązań narzuca niejawny charakter relacji między powiązanymi dokumentami. Taki stan rzeczy uniemożliwia połączenie poszczególnych danych z określonego dokumentu z innymi powiązanymi danymi.

W ostatnich latach sieć ewoluowała z globalnej przestrzeni informacji powiązanych dokumentów w przestrzeń gdzie powiązane są zarówno dokumenty jak i dane. U podstaw tej ewolucji znalazł się zestaw najlepszych praktyk, w zakresie publikowania i łączenia danych strukturalnych, nazywany Linked Data. Zaadaptowanie zestawu najlepszych praktyk doprowadziło do rozszerzenia globalnej sieci połączonych danych o różne dziedziny, takie jak społeczeństwo, firmy, książki, publikacje naukowe, filmy, muzyka, programy telewizyjne i radiowe, genetyka, lekarstwa i próby medyczne, społeczności internetowe, statystyka i dane naukowe, opinie.

Ta sieć danych umożliwia powstanie nowego typu aplikacji. Istnieją ogólne przeglądarki powiązanych danych, które umożliwiają ich przeglądanie i nawigowanie pomiędzy źródłami wzdłuż połączeń między danymi. Są to mechanizmy przemierzające sieć powiązanych danych między różnymi źródłami umożliwiając wykonywanie ekspresyjnych zapytań o szerokich możliwościach na zagregowanych danych, podobnie jak dziś odbywa się to w lokalnych bazach danych. Sieć powiązanych danych otwiera też nowe możliwości dla aplikacji specjalizowanych. W przeciwieństwie do rozwiązań typu mashup 2.0 działających na stałym, określonym zbiorze źródeł aplikacje oparte na Linked Data działają na samej górze globalnej przestrzeni danych, co umożliwia dostarczenie wyczerpujących odpowiedzi.

Co to jest Linked Data?

graphSą to najlepsze praktyki na temat tworzenia w sieci powiązań pomiędzy danymi pochodzącymi z różnych źródeł. Dane mogą być tak różne jak bazy danych prowadzonych przez dwie organizacje w różnych lokalizacjach geograficznych lub systemy heterogeniczne w obrębie pewnej firmy, które trudno dopasować aby współpracowały na poziome danych. Technicznie Linked Data odnosi się do danych opublikowanych w sieci w taki sposób, że są one możliwe do odczytywania przez maszyny, a ich znaczenie jest wyraźnie określone, są związane z innym zewnętrznym zbiorem danych, a ten z kolei może być powiązany z kolejnym zewnętrznym źródłem.

Chociaż podstawową jednostką w sieci są dokumenty HTML połączone bez typowymi łączami, Linked Data opiera się na dokumentach zawierających dane w formacie RDF (Resource Description Framework), które przy pomocy wyrażeń łączą dowolne byty na świecie. Wynikiem tego jest nazywana przez nas sieć danych, którą można dokładnie określić jako sieć bytów na świecie opisanych przez dane w sieci.

Berners-Lee w 2006 roku przedstawił zestaw zasad publikowania danych w sieci w taki sposób, że wszystkie publikowane dane stają się częścią jednej globalnej przestrzeni danych:

  • Użyj URI jako nazwa bytu
  • Użyj http URI tak aby ludzie mogli wyszukać nazwy bytu
  • Gdy ktoś wyszukuje URI dostarcz użyteczne informacje przy pomocy standardów (RDF, SPARQL)
  • Zamieszczaj powiązania do innych URI tak aby można było znaleźć więcej informacji

Reguł te stały się znane jako ‚Linked Data principles’ i zapewniają podstawę dla publikowania i łączenia danych wykorzystując strukturę sieci Web zachowując jej architekturę i standardy.

Technologie wykorzystywane w Linked Data

Linked Data opiera się na dwóch technologiach, które są podstawą sieci WWW: URI (Uniform Resource Identifiers) i HTTP (HyperText Transfer Protocol). Chociaż URL (Uniform Resource Locator) stał się znany jako adres dokumentów i innych jednostek, które mogą znajdować się w sieci to URI zapewnia bardziej ogólny sposób rozpoznawania bytów, które istnieją na świecie. URI i HTTP są uzupełniającymi się technologiami i mają kluczowe znaczenie dla sieci danych – RDF. Podczas gdy HTTP zapewnia środki do konstrukcji i powiązania dokumentów w sieci WWW, RDF zapewnia ogólny, grafowy, oparty na danych model do konstrukcji i powiązania bytów opisujących rzeczywistość.

rdf_w3c_icon.128

Dla przykładu trójka RDF może stwierdzać, że dwie osoby A i B, każda identyfikowana przez URI, związane są faktem, że A zna B. Podobnie trójka RDF może wiązać osobę C z artykułem naukowym D w bibliograficznej bazie danych, stwierdzając, że C jest autorem D. Dwa zasoby powiązane w ten sposób można wyciągnąć z dwóch różnych zbiorów danych w sieci, dzięki czemu dane z jednego źródła są powiązane z danymi z innego źródła, tworząc w ten sposób sieć danych. W ten sposób możliwe jest, że trójka RDF łączy dwa różne zbiory danych analogicznie jak link łączy dokumenty w sieci Web.

RDF Vocabulary Definition Language (RDFS) i Web Ontology Language (OWL) stanowią podstawę do tworzenia słowników, które mogą być używane do opisania bytów występujących w rzeczywistości i opisu związków występujących między nimi. Słownictwo jest zbiorem klas i właściwości. Słowniki same są wyrażone za pomocą RDF, używając RDFS i OWL, które zapewniają różne stopnie ekspresyjności w modelowaniu domeny zainteresowania. Każdy może opublikować słownik w sieci danych, które z kolei mogą być powiązane przy mocy trójek RDF w taki sposób, że klasy i własności z jednego słownika są powiązane z innymi, wyrażają w ten sposób mapowania pomiędzy powiązanymi słownikami.

Przez zastosowanie URI do określania zasobów, HTTP jako mechanizmu wyszukiwania i RDF jako reprezentacja opisu zasobów, Linked Data bezpośrednio opiera się na ogólnej architekturze sieci Web. Sieć danych może więc być postrzegana jako dodatkowa warstwa, która ściśle przeplata się z klasyczną siecią dokumentów i ma wiele tych samych właściwości:

  • Sieć danych jest ogólna i może zawierać dane dowolnego typu.
  • Każdy może publikować dane.
  • Wydawcy danych nie są ograniczeni w wyborze słowników do opisu reprezentacji danych.
  • Byty są połączone przez RDF tworząc globalny graf danych, który obejmuje źródła danych i pozwala na odkrywanie nowych źródeł danych.

Z punktu tworzenia aplikacji sieć danych ma następujące cechy:

  • Dane są ściśle oddzielone od formatowania i graficznej reprezentacji.
  • Dane są samo opisujące. Jeśli aplikacja wykorzystująca Linked Data napotka na dane opisane nieznanym słownictwem aplikacja może odwołać się do URI, które identyfikują wykorzystane słownictwo w celu znalezienia ich definicji.
  • Zastosowanie HTTP jako standardowego mechanizmu dostępu do danych i RDF jako standardowego modelu danych upraszcza dostęp do danych w stosunku do sieci Web, która opiera się na różnorodnych modelach danych i interfejsach dostępowych.
  • Sieć danych jest otwarta, co oznacza, że aplikacje nie muszą nie muszą mieć ściśle określonego zestawu źródeł danych ale w czasie wykonywania programu można odkrywać nowe źródła danych za pomocą powiązań RDF.

Podsumowanie

Rozwinięcie globalnej sieci danych opartej na technologiach podstawowych dla obecnej sieci WWW oraz otwartość tego rozwiązania ułatwia wprowadzenie Linked Data w życie. Nowe aplikacje bazujące na tej technologii mogą korzystać z niezliczonej ilości źródeł danych, które to nie muszą być definiowane w trakcje wytwarzania oprogramowania. Zastosowana przez Linked Data reprezentacja danych umożliwia bezpośrednie ich przetwarzanie przez maszyny. Możliwe staje się nawigowanie wzdłuż połączeń między danymi, niezależnie od źródeł ich pochodzenia. Linked Data może okazać się rewolucyjnym rozwiązaniem propagującym Semantic Web i przyspieszającym ewolucję Web 2.0 do Web 3.0.

Christian Bizer, Tom Heath, & Tim Berners-Lee (2009). Linked Data – The story so far International Journal on Semantic Web and Information Systems DOI: 10.4018/jswis.2009081901

Autor: Łukasz Grzybowski

Grudzień 3, 2012

„Why the Semantic Web will never work”

- autor: tsissput

Zebranie i analiza informacji przedstawionych na wykładzie Jim’a Hendler’a
pt.: „Why the Semantic Web will never work”

Jim Hendler

Ideą organizowanej od 2011 konferencji Extended Semantic Web Conference (ESWC) jest zebranie osób zaangażowanych w różne aspekty technologii semantycznych, a także innych obszarów Informatyki, które wiążą się z pojęciem Semantic Web. Ma ona na celu sprowokowanie wymiany informacji pomiędzy różnymi społecznościami wewnątrz i spoza dziedzin Informatyki i Telekomunikacji.

Konferencja ta powstała jako rozwinięcie European Semantic Web Conference. Wykład wprowadzający, tzw. keynote,  prowadził profesor Jim Hendler, znany ze swojego znaczącego wkładu w zakresie Semantic Web, a także całej dziedziny Informatyki oraz Kognitywistyki. Zapowiadający nazywa go nawet Papieżem Semantic Web. Aktualnie pełni stanowisko Tetherless World Senior Constellation Professor na wydziałach Department of Computer Science oraz Cognitive Science Department  Rensselaer Polytechnic Institute (RPI), w Troy w Nowym Yorku.

Tytuł wykładu ma prowokacyjne brzmienie i został celowo umieszczony w cudzysłowie, ze względu na dwuznaczność. Jim Hendler dokonuje przeglądu aktualnych sukcesów technologii semantycznych względem wczesnej wizji Semantic Web oraz identyfikuje problemy dotyczące aktualnych rozwiązań oraz najnowszych próbach ich rozwiązania. Pokazuje więc aktualne dokonania z dwóch perspektyw:

wyjaśnienie tytułu

Początkowa wizja

W 1994 roku  na konwencji WWW Tim Berners-Lee dokonał prezentacji, w której pokazał swoją wizję sieci web. Część tego czym sieć jest określił w następujący sposób: „Dokumenty w sieci web opisują prawdziwe obiekty i wyimaginowane pojęcia oraz nadają szczególne związki pomiędzy nimi”. Tim Berners-Lee wymyślił więc to, co dzisiaj nazywamy Semantic Web, a hyperlinki nie miały być zwykłymi wskaźnikami na inne strony internetowe, lecz miały reprezentować relacje pomiędzy stronami.

Innm pomysłem, zaprezentowanym w 1999 roku przez Jim’a Hendler’a, był Agent markup language, który polegał na zbudowaniu semantycznego języka, który wiązałby informacje na stronie internetowej z semantyką (ontologią) odczytywalną maszynowo. Obecnie pomysł ten rozwijany jest w ramach projektów OWL, SHOE, I3 lub ARPI.

Co wiąże oba te pomysły, to koncepcja, by pewne elementy na stronach web opisywały jakie treści one zawierają i co one znaczą.

schemat współdziałania ontologii sieciowych

schemat współdziałania ontologii sieciowych

Wyobrażano sobie również, że ontologie webowe, czy też semantyka umieszczona na stronach web będzie miała charakter zgoła inny od tradycyjnych systemów reprezentacji wiedzy (KR). Różne dokumenty sieci web, mogły by być opisywane przez różne słowniki, które były by wobec siebie w różnym stopniu mapowalne. Częściowa mapowalność i niespójność tychże ontologii powodowała by więc błędy takie błędy jakie można spotkać przeglądając strony internetowe, np. 409, lecz taki schemat umożliwiałby dużą skalowalność, elastyczność, a w rezultacie dużą ilość użytkowników i duży wpływ na sieć web.

Do innych wczesnych koncepcji dotyczących Semantich Web należały:

  • przeszukiwanie sieci w poszukiwaniu konkretnej odpowiedzi, nie w poszukiwaniu dokumentu, który wydaje się adekwatny
  • użycie istniejących ontologii w ramach
  • use x ontology on webpages
  • aspekt usługi
  • active notion – a way of exchanging information “This term came from here” linking

Zwycięstwo Semantic Web

Gdy Semantic Web dopiero się rozwijało, myśl o tym, że rząd wielkości o jakim należy myśleć w przypadku technologii semantycznych to przynajmniej miliony, wzbudzała śmiech.  Aktualnie liczba stron internetowych, które zawierają informację semantyczną i liczba trójek semantycznych – triple (URI obiektu, URI obiektu, URI związku), które są generowane oraz zbiorów danych które są dostępne przekroczyła nawet najśmielsze oczekiwania.

Aktualnie wiele z dużych firm zajmuje się technologiami semantycznymi. Są one pozytywną siłą dla rozwoju pewnych obszarów Semantic Web, przykładowo semantycznego wyszukiwania (np. Google Knowledge Graph) o którym szerzej mówi Peter Mika w swojej prezentacji Making the Web searchable, a także dla promocji, reklamy i marketingu. W szczególności, bardzo prężnie rozwijają się nowe firmy, które służą jako pośrednicy pomiędzy jednostkami dostarczającymi usługi lub produkty (w szczególności treści), a konsumentami. Pośrednictwo to polega na budowaniu informacji preferencyjnej użytkowników na podstawie danych semantycznych i kierowaniu do nich odpowiednich ofert.

Innym dużym czynnikiem wpływającym na postęp Semantic Web są implementacje idei o nazwi Open Data, przykładowo  Facebook Open Graph lub Open Goverment Data. W przypadku Facebook Open Graph, jedną z możliwości umieszczenia przycisku „Lubię to” na stronie internetowej jest użycie RDF’a, który generuje trójki danych semantycznych. W Październiku 2010 Facebook zarejestrował około 3 miliony „Lubię to” dziennie pochodzące z tego źródła, gdzie pojedyńcze kliknięcie może generować więcej niż 1 trójkę semantyczną (triple). Estymowano wtedy, że jedynie około 10%-15% przycisków „Lubię to” na stronach było umieszczone w postaci RDF’a, a Facebook bardzo silnie stara się, by zachęcić jak największą ilość osób do zmiany na ten typ przycisków. Okazuje się, że przyciski Facebook’a same generują więcej trójek z informacją semantyczną niż  kiedykolwiek przewidywano dla całej sieci, a zyski z reklamy przeprowadzanej na podstawie tej informacji są głównym źródłem dochodów Facebook’a, a także innych firm – np. Zynga, która zarabia więcej pieniędzy niż jakakolwiek inna firma wytwarzająca gry komputerowe, ponieważ jako pierwsza znalazła sposób na wykorzystanie tej informacji.

Krytyka Semantic Web

Pomimo zaangażowania ze strony dużych graczy na rynku wyszukiwarek internetowych, aktualnie nadal wyszukiwanie wykonywane jest w tradycyjny sposób, po słowach kluczowych, w celu znalezienia dokumentów, które wydają się adekwatne i mogą zawierać wyszukiwaną odpowiedź.

Początkowo wydawało się, że folksonomia okaże się najlepsza do umieszczania informacji semantycznej, jednak w dużej mierze technologie związane z tagowaniem zawiodły poza zastosowaniami w sieciach społecznościowych. Podstawowym problemem, dla tagowania był brak kontekstu, a więc zatracenie znaczenia wśród wielu innych obiektów otagowanych w ten sam sposób. W przypadku sieci społecznościowej tag, przykładowo imię i nazwisko, będzie miał konkretne znaczenie ponieważ będzie on na stronie osoby, która mówi o osobie ze swojej listy znajomych.

most used

Zarzuty dotyczące braku skalowalności, elastyczności i stabilności Semantic Web okazały się nieuzasadnione, co potwierdzają wcześniejsze przykłady. Co więcej, liczba ogólnie dostępnych URI, które mają swoją semantykę, przykładowo z Open Goverment Data rośnie bardzo szybko.

Pewnym problemem aktualnego rozwoju Semantic Web, jest to, że większość zastosowań korzysta głównie z technologii semantycznych „niższego poziomu”, podczas gdy wiele z ciekawych, użytecznych, a co więcej ustandaryzowanych z nich nie jest znana lub nie jest używana przez większość osób.

Konkluzja

Dlaczego Semantic Web miało by nigdy nie działać? Jim Hendler odpowiada, że nie ma żadnego powodu, aby tak było – Semantic Web istnieje, działa i będzie działać. Nie jest to jednak Semantic Web, z pierwotnej wizji. Konieczny jest powrót i uaktulanienie do pierwotnych pomysłów i unifikacja aktualnie konkurujących ze sobą modeli powiązanych danych (linked-data) i odczytywalnych maszynowo słowników. W szczególności problemem, który musi zostać rozwiązany jest integracja ontologii i rozój mechanizmów pracy z danymi, które mogą zawierać poważne, nierozwiązywalne sprzeczności.

Wg mojej oceny sukces Semantic Web jest potwierdzony przez, to z jakim zaangażowaniem zajmują się technologiami semantycznymi duże firmy takie jak Facebook, Google, Oracle, Amazon, czy też Microsoft, a w szczególności w jaki sposób użytkownicy zarówno generują i konsumują informację semantyczną, poprzez korzystanie z aplikacji społecznościowych, aplikacji mobilnych i webowych (w tym np. gier na Facebook’u). Innym aspektem, który w dużym stopniu napędzia rozwój Semantic Web jest sposób w jaki niektóre z firm zaangażowane w tworzenie i gromadzenie informacji semantycznej współpracują z innymi firmami – przykładowo umieszczanie przycisków „Lubię to” na stronie udostępnia informacje, zarówno dla Facebook’a, jak i dla właściciela strony internetowej. Innym przykładem jest sposób w jaki Facebook i Google umożliwiają deweloperom publikowanie aplikacji, które potencjalnie mogą być agentami przetwarzającymi lub generującymi informację semantyczną.

Autor: Michał Turek

Źródła: opisywany wykład, strona Jim’a Hendler’a, artykuł o Google Knowledge Graph, strona konferencji ESWC , artykuł wiki o Clay’u Shirky, artykuł wiki o KR, artykuł o Open Data, Facebook Open Graph, Open Government Data.

 

Grudzień 3, 2012

Wolfram Mathematica 9: co nowego?

- autor: tsissput

Nowa wersja Wolfram Mathematica 9

W ostatnich dniach miała miejsce premiera nowej wersji znanego oprogramowania obliczeniowego firmy Wolfram – Mathematica 9®. Jak informuje  producent, w wersji dziewiątej możemy znaleźć garść interesujących nowinek. Wśród nich z punktu widzenia naszego przedmiotu bardzo ciekawe wydaje się dodanie wsparcia dla analizy sieci społecznościowych.

Nowości

Wśród nowości producent wymienia na swojej stronie internetowej m.in.

  • Rozbudowane podpowiedzi do wprowadzanych komend jak i sugestie dalszych kroków po otrzymaniu wyniku
  • Wspomniane już wsparcie dla analizy sieci społecznościowych
  • Wbudowane jednostki miar
  • Rozwinięta możliwość tworzenia losowych zbiorów danych o podanym rozkładzie
  • Integracja z językiem R
  • Ulepszone przetwarzanie obrazów, dodanie m.in. wyszukiwanie twarzy, przetwarzanie obrazów 3D
  • Przetwarzanie sygnałów

Pełna lista zmian jest znacznie większa. Pełna lista zmian znajduje się pod adresem [1]

Analiza sieci społecznościowych

W dalszej części wpisu skupimy się na możliwościach programu Mathematica w kwestii analizy sieci społecznościowych.

Dostępne możliwości

Program Mathematica umożliwia import danych z bardzo szerokiej gamy formatów. Jednocześnie dla sieci społecznościowych istotne jest pobieranie danych „żywcem” z serwisu funkcjonującego w Internecie. Od wersji dziewiątej otrzymujemy taką możliwość w przypadku chociażby najbardziej popularnych portali społecznościowych, jakimi niewątpliwie są Facebook i Twitter.

Przy wizualizacji danych otrzymujemy możliwość wyszukiwania różnorakich wspólnot, czy też punktów centralnych w grafach. Oznaczanie klik, obliczanie homofilii i podobieństwa również nie powinno sprawiać problemów. Istnieje możliwość wszelakiego ograniczania danych w celu znalezienia przypadków spełniających określone kryteria.
math9_img1

Dostępne funkcjonalności

Poniżej przedstawiono wykres możliwości programu Mathematica oraz dostępność podobnych funkcjonalności w innych programach zajmujących się tą samą tematyką. Pod uwagę wzięto następujące oprogramowanie:

  • igraph 0.6
  • NetworkX 1.7
  • UCINET 6

Jak możemy odczytać z wykresu, istnieje cała gama funkcjonalności, które oferuje nam wyłącznie najnowsze wydanie pakietu Mathematica.

math9_img2

Wydajność

Chcąc sprawdzić wydajność oprogramowania, wykonano pomiar czasu wykonania następujących czynności:

  • Fast Simulation of Scale-Free Networks
  • Fast Community Detection in Networks
  • Fast Centrality and Prestige Computation

Pod względem wydajności Mathematica nie jest już tak czysto i klarownie lepsza od swojej konkurencji. W większości przypadków wypada ona jednak przynajmniej tak dobrze, lub minimalnie gorzej niż konkurencja.

Dla symulacji „Scale-Free Networks” czasy wykonania operacji przez NetworkX 1.7 są zazwyczaj nawet o ok. 200% gorsze. Program igraph 0.6 jest w tej kwestii znacznie lepszy i przegrywa z Mathematicą jedynie o ok. 30-40%.

math9_img3

„Community Detection” – tutaj trudno już mówić o jednoznacznej przewadze któregokolwiek z programów. Praktycznie tylko dla pojedynczego zbioru danych Mathematica ma sporą przewagę. Da większej ilości danych wyniki uzyskane przez igraph 0.6 są bardzo zbliżone. NetworkX 1.7 w mniejszym lub większym stopniu, ale zawsze przegrywa z konkurencją.
math9_img4

Ostatni test to „Fast Centrality and Prestige Computation”. Podobnie jak w pierwszym przypadku NetworkX 1.7 zostaje daleko w tyle. Wyniki Mathematica 9 oraz igraph 0.6 są bardzo zbliżone jednak zawsze minimalnie lepszym okazuje się pierwszy produkt.

math9_img5

Sprzęt na jakim wykonano obliczenia to Intel Core 2 Duo 3.06 GHz Mac OS X Lion.

Opinia autora artykułu

Mathematica 9 wydaje się bardzo solidnym rozwiązaniem. Wprowadzone w najnowszej wersji innowacje dają pole do popisu w kolejnych już dziedzinach. Mankamentem na pewno jest fakt, że oprogramowanie jest komercyjne. Moim zdaniem warto zapoznać się z omawianym oprogramowaniem podczas przedmiotu Technologie Semantyczne i Sieci Społecznościowe, aby potwierdzić, lub obalić dobre oceny wystawione przez samego producenta.

Ciekawostka

Na koniec ciekawostka odnośnie programu. Nazwę „Mathematica” zasugerował  Stephenowi Wolframowi współzałożyciel firmy Apple, Steve Jobs. Wcześniej Wolfram myślał o takiej nazwie, ale pomysł odrzucił.

Źródła

http://blog.wolfram.com/2012/11/28/mathematica-9-is-released-today/

http://www.wolfram.com/mathematica/new-in-9/social-network-analysis/

Linki

[1] http://www.wolfram.com/mathematica/new-in-9/

Autor: Marcin T.

Styczeń 26, 2012

Wojna w mikroświecie

- autor: tsissput

Internet cały czas rośnie. Nie tylko dochodzą nowe strony ale istniejące mają coraz więcej treści. Oczywistym stał się fakt, że jeśli komputery nie pomogą nam przefiltrować tego ogromu słów, nic wartościowego nie znajdziemy w relatywnie krótkim czasie. Jeszcze kilka lat temu poważnym problemem był fakt, że maszyny nie rozumiały znaczenia tego całego zlepku literek. Wtedy powstał boom na Semantic Web i powstały technologie dające możliwość programom na rozumienie treści witryn internetowych.

Sztandarowym przykładem może tu być internetowa odmiana RDF, czyli RDFa. Istniejąca już od 2004 roku. Problem polega na tym, że dla zwykłych web developerów jest to zbyt skomplikowana technologia.

<p xmlns:dc="http://purl.org/dc/elements/1.1/"
   about="http://www.example.com/books/wikinomics">
  In his latest book
  <cite property="dc:title">Wikinomics</cite>,
  <span property="dc:creator">Don Tapscott</span>
  explains deep changes in technology,
  demographics and business.
  The book is due to be published in
  <span property="dc:date" content="2006-10-01">October 2006</span>.
</p>

Przeładowanie informacji potrzebnych do opisu wartości sprawiło, że programiści zapragnęli  prostszego rozwiązania. Znaleźli je w postci mikroformatów. Nie będę się o nich rozpisywał bo temat ten został już poruszony na tym blogu tutaj. Nie da się ukryć, że są one niezwykle proste i nie wymagają tworzenia żadnych dodatkowych atrybutów HTML’owych. Ten ich niewątpliwy plus staje się również ich wadą. Co prawda specyfikacja HTML 4.1 odnoście atrybutu class mówi, że może on zostać wykorzystany dla ogólnych potrzeb przetwarzania jednak w powszechnym użyciu funkcjonuje jako selektor arkuszy stylów. Nakłada to większą ostrożność dla projektantów storn i osób odpowiedzialnych za pisanie CSS’ów. Jest to również problem dla parserów, które muszą się domyślić czy dana wartość jest selektorem czy mikroformatem.

Warto się przyjrzeć co w takiej sytuacji zrobili najbardziej zainteresowani a zarazem najwięksi gracze na rynku. Google, Bing i Yahoo!, czyli firmy które czerpią największe zyski z wiedzy o tym co jest czym w sieci. Żeby zapewnić jeszcze lepsze wyniki wyszukiwania, ale również żeby je lepiej opisać wybrali mikrodane. Właśnie o tą technologię Google oparło swoje Rich snippets. Dodatkowo uruchomiono stronę Schema.org, która zawiera kolekcje schematów, gotowych do użycia.

Mikrodane definiowane są poprzez atrybuty HTMLa (szerszy opis i przykłady tu)

  • itemscope – definiuje grupę  par nazwa-wartość, nazywaną item
  • itemprop – dodaje właściwość do item’a (nazwa może być tekstem lub url’em, wartością jest zawartość elementu)
  • itemref – item może zawierać niedziedziczone właściwości poprzez referencje do nich
  • itemtype – definiuje typ item’u  jeśli jest użyte w tym samym elemencie co itemscope
  • itemid – pozwala słownikowi zdefiniować globalny identyfikator dla item’u

Mikrodane są częścią specyrikacji HTML5, rozdział im poświęcony znajduje się tutaj. Dodatkowym plusem, przemawiającym za mikrodanymi jest specyfikacja microdata DOM API. Pozawala ona na używanie skryptów do manipulowania mikrodanymi, udostępnianie ich innym aplikacjią, itp. Możliwości są ograniczone jedynie przez potrzeby twórców aplikacji internetowych. Niestety jedyną przeglądarką, która implementuje microdata DOM API jest Opera. Na szczęście na podstawie specyfikacji powstały już co najmniej dwie biblioteki JavaScript’owe MicrodataJS oraz Microdata-JS. Dodatkowo istnieje też projekt Live Microdata, który pozwala obserwować jak nasz kod HTML wygląda oraz podejrzeć zawarte w nim mikrodane w postaci JSONa.

Jedną z wad mikrodanych jest niemożliwość używania wielu typów jeśli nie pochodzą one z tego samego słownika (mowa o tym tutaj). Można jednak osiągnąć taki efekt w nietrywialny sposób, jak zaprezentowano to tu. W trakcie powstawania jest specyfikacja rozszerzająca która ma dać możliwość łączenia słowników, która nie zmienia składni mikrodanych.

Na blogu Jeni Tennison można znaleźć dużo informacji na temat mikrodanych, jak również i RDFa. Ciekawą serię stanowią artykuły o mapowaniu mikrodanych do RDFa i RDFa do mikrodanych.

<section itemscope itemtype=”http://schema.org/Person”&gt;
<span itemprop=”name”>Dawid Jankowiak</span>
<section itemprop=”affiliation” itemscope itemtype=”http://schema.org/Organization”&gt;
<span itemprop=”name”>Politechnika Poznańska</span>
</section>
<span itemscope>
<time itemprop=”date” datetime=”2012-01-26″>26 stycznia 2012</time>
</span>
</section>

Dawid Jankowiak

Politechnika Poznańska

26 stycznia 2012

Styczeń 16, 2012

Szukajcie a znajdziecie… kto szuka nie błądzi…

- autor: tsissput

… czyli o słów kilka o tym czym i jak szukamy.

Jest 6 sierpnia 1991 roku pojawia się pierwsza strona internetowa. Postawiona na serwerze HTTPD. Uruchomionym na komputerze z systemem NeXT STEP. W Szwajcarskim CERNie.
Jest stycznień 2010 internet składa się z 206 741 990 stron internetowych
Listopad 2011 liczba ta rośnie do 525 998 433 dostępnych stron.
Najnowszy raport mówi o istnieniu 582 716 657 aktywnych stron!
[Kogo dziwi tak mały wynik odsyłam do metodologii prowadzenia tych badań, wszystko się wyjaśni]

Nie łatwo odnaleźć się w takim gąszczu informacji. Na szczęście nie zostaliśmy pozostawieni sami sobie. Mamy pomoc.
Znowu trochę historii.
Pierwszą wyszukiwarką był WebCrawler który pojawił się 20 kwietnia 1994 roku. Był on wyjątkowy dlatego, że posiadał szukanie pełnotekstowe. Po nim pojawiły się kolejne takie jak Daum, Excite, HotBotYahoo!.
Jednak dla nas najważniejszy jest Google. Kochany wujek Google 🙂 i jego wspaniały PageRank.
Teraz garść suchych faktów na temat tego jak działa. (możecie to pominąć)
Definicja: PageRank to rozkład prawdopodobieństwa służący do zaprezentowania prawdopodobieństwa, że osoba, która przypadkowo kliknie link dotrze do danej strony.
PageRank danej strony opisuje się wzorem Wzór opisujący PageRank danej strony
Gdzie:
PR(pi) – Waga liczbowa określająca dany dokument (PageRank),
d – współczynnik tłumienia, określa prawdopodobieństwo, że dana osoba przestanie klikać w kolejne linki (szacuje się, że jego wartość jest w okolicach 0.85),
N – ilość dokumentów w kolekcji,
M(pi) – określa zbiór stron które linkują do strony pi,
L(pj) – ilość linków wychodzących ze strony pj.

Ze wzoru wynika, że suma PageRank’u wszystkich storn wynosi jeden. Dodatkowo PageRank storony i zależy od wartości PageRank’ów wszystkich stron ze zbioru M(pi) podzielonych przez ilość linków na każdej z nich.

Znaczy to że lepiej linkować strony o dużej wartości PageRank’a oraz małej ilości linków.

A jak jest teraz?

Niestety dziś PageRank nie określa już jednoznacznie naszej pozycji na liście wyszukań. Nawet nie jest już taki ważny. Wszytko przez to co zaczęła robić „konkurencja”. Przez to co zaczęły wyczyniać rozmaite start upy.

Niespodziewanie kilka lat temu wzrosło zainteresowanie semantyką. Do tego pojawił się Facebook i jego „Lubię to!„.

Jedną z pierwszych jaskółek zapowiadających falę zmian był plugin dla Firefoxa o nazwie Semanti. Nie był on wyszukiwarką samą w sobie. Zamiast tego był nakładką na istniejące już wyszukiwarki takie jak Google i Bing. Dodawał im takie funkcje jak semantyczne znaczenie wpisywanych terminów. Tworzył też swoją własną społeczność. Można było przeglądać wyszukania znajomych, a jak zadaliśmy podobne wyszukanie to wyświetlało nam informacje w jakie linki jacy nasi znajomi klikali.

Jak zauważyliście piszę w czasie przeszłym. Ja o Semanti dowiedziałem się dopiero przy okazji pisania tego wpisu, na podstawie tego artykułu. Próbowałem go znaleźć poprzez Google i Binga, ale zawiodłem (może ja nie potrafię zadawać pytań tak jak one [wyszukiwarki] tego chcą). Obie od razu się domyśliły że zrobiłem literówkę w szukanej frazie (tja jasne) i zaprezentowały wyniki dla „semantic search” dodanie „firefox plugin” całkowicie zignorowały.

Tak właśnie działa semantyka dla Google i Microsoftu  (a raczej samego Google, bo nie oszukujmy się MS ściąga niczym student na egzaminie). Znalezienie synonimów i wyłapanie literówek to wszystko na co je obecnie stać.

Semanti nie był jedynym dodatkiem, który służył jako nakładka semantyczna na dobrze nam znane wyszukiwarki innym przykładem jest SenseBot. Co prawda nie ma on tak ciekawych funkcjonalności jak Semanti ale zawsze coś. Pozatym repozytorium dodatków zarówno Chrome jak i Firefox’a zawiera wiele innych ciekawych addon’ów, które wartoprzetestować (choć nie warto tu o nich pisać).

Podejście gigantów do „semantic search” nie jest na szczęście uważane za prawdę objawioną i istnieją konkurencyjne produkty, które mają własną wizję tego jak semantic web powinien wyglądać. Jednym z najbardziej popularnych przykładów jest Hakia. Jedną z postaci stojących za serwisem jest Victor Raskin, który jest uważany za ojca semantyki ontologicznej. Nie jest ona co prawda ukończona i wiele pracy trzeba jeszcze włożyć żeby można powiedzieć, że mamy do czynienia z czymś wyjątkowym ale jest dobrze. Wyniki są trafione (w większości). Ponadto Hakia ma coś czego nie mają Google i Bing, mianowicie chodzi o opcję „Meet Others”. Pozwala ona przejść na dedykowanego czata, gdzie będziemy mogli porozmawiać z innymi, którzy zadali pytanie podobne do naszego. Przynajmniej tak o tym piszą w internecie. Po raz kolejny wina spada na mnie i moje niewłaściwe pytania. Osobiście nie udało mi się skorzystać z tej opcji bo nikt nie szukał tego co ja. Trudno, może kiedyś się uda.

– Kto wie …? – Ja wiem! Mnie, wybierz mnie!

Tym zgrabnym manewrem przejdziemy do tego co zwykło się nazywać „social search”. Czyli gdzie w tym wszystkim są ludzie i ich wiedza. Niezmiernie popularne przez ostatnie lata portale społecznościowe i ich użytkownicy.

Wszytko to tak na prawdę dzięki Facebook’owi i jego „Like It!„. Jego granicząca z szaleństwem popularność otwarła nowe możliwości. Dzięki niemu moża było określić trafność wyszukanych linków na podstawie tego co myślą o nich nasi znajomi, albo znajomi naszych znajomych, albo ludzie których możemy znać, albo ci, których mogą znać nasi znajomi lub po prostu w zależności od tego ile „lajków” dany artykuł, komentarz dostał. Oczywiście to wszystko przy założeniu, że jesteśmy podobni do naszych znajomych, że dzielimy te same zainteresowanie i mamy wspólne spojrzenie na świat.

Doprowadziło to do tego, że gigant wyszukiwania pokroju Google nie mógł przejść obok tego fenomenu obojętnie. Tak więc pojawiło się +1. Przy okazji wyniki naszych wyszukań stały się spersonalizowane. Teraz każdy znajdzie coś innego, coś co go bardziej zainteresuje, coś co łatwiej będzie mu przyswoić. Po prostu coś bardziej dla niego. Tak działa „social search” by Google.

Nie jest to oczywiście jedyna wizja tego czym jest wyszukiwanie społecznościowe. Ciekawym konceptem jest znalezienie osoby, która może pomóc ci znaleźć to co czego szukasz. Jest to popularny trend w technologiach mobilnych. Zamiast godzinami przesiewać wyplute przez Google czy Binga w poszukiwaniu interesującej nas wiedzy. Zamiast marnować czas programistów na lata implementacji maszynowej analizy tekstu, rozumienie pytań zadanych w języku naturalnym, inteligentnego składania dokumentów. Dlaczego by nie znaleźć po prostu osoby, która nie odpowie nam na nasze pytanie. Mniej więcej tak działał mobilny Aadvark zanim został wykupiony przez Google i zamknięty.

O ile abphone i zook nie potrafią znaleźć dobrych restauracji w Poznaniu o tyle aplikacje mobilne takie jak HayStack daje duże nadzieje, oczywiście dla osób bardziej uspołecznionych niż ja. Jeśli ktoś lubi dołączać do nowych społeczności, które są związane z jego wyszukaniami. Niech się zapozna z HeyStack.

Przy okazji wyszło na jaw, że Facebook dodał do swojego portfolio kolejną funkcjonalność „Ask Question” czyli po prostu „Zadaj Pytanie”. Wiem, wiem, dla was to żadna nowość. Na pewno wszyscy o tym wiecie od dawna i korzystacie. Pomysł ogólnie nie jest nowy, na pewno w codziennej pracy nie raz zdarza wam się przewinąć przez Stack Overflow. Oczywiście Facebook zrobił to z sobie dobrze znanym rozmachem. Nasze pytania wylądują na ścianach naszych znajomych. Na ścianach znajomych tych naszych znajomych, którzy śledzą nasze pytanie. Na ścianach znaj… właściwie to się może propagować daleko w głąb społecznego grafu Facebooka. Wszystko zależy od zaangażowania ludzi.

The appearance of Dr. Know

Pamiętacie scenę z filmu „Sztuczna Inteligencja„, w której David pytał się Dr. Know gdzie znajduje się Niebieska Wróżka? Chcieli byście w ten sposób wyszukiwać informacje? Zadać pytanie tak jakbyście pytali kolegi, prowadzącego zajęcia lub przechodnia i dostać odpowiedź (potocznie mówiąc) prosto na twarz. Tak zwyczajnie. Myślę, że w ostateczności do tego zmierza technologia. Jednak to nie nastąpi szybko. Jeszcze wiele pytań pozostanie z błędymi odpowiedziami, a przynajmniej nie takimi jakich się spodziewamy. Tak właściwie to jak zadajemy obecnie pytania wyszukiwarkom? Czy są to prawdziwe pytania, czy po prostu zlepek słów kluczowych jakie kojarzą się nam z danym problemem? Jednak do takiego sposobu szukania odpowiedzi przyzwyczaiły nas współczesne wyszukiwarki. Wynika z tego, że nie tylko technologia będzie musiała się zmienić ale i nasze podejście do zdobywania wiedzy.

Mnie zadowoliłoby gdybym na pytania „How to…” dostał w odpowiedzi listę kroków, żeby „Why…” odpowiedziało mi dlaczego, żebym na pytanie „In what movie was playing Jude Law?” dostał po prostu listę filmów, a nie jego zdjęcia… Czy to wiele?

Na obecny stan technologi semantycznych tak, ale to zostawia spore pole do popisu nowym start upom, nam.

Jeśli chcemy coś znaleźć to musimy tego poszukać samemu (albo poprosić znajomych).

Dawid Jankowiak

P.S. Przepraszam za literówki.

P.S.S. Oraz za liczne powtórzenia. Sami rozumiecie: pozycjonowanie, text mining, wyszukiwarki, Bing, Google, Hakia, Semantic Search, Social Search, Facebook, Microsoft, mobile apps, PageRank, algorytmy wyszukiwania, ontologia

Styczeń 15, 2012

Semantic Music Discovery. Pandora Radio

- autor: tsissput

Semantic Music Discovery. Pandora Radio. Co to jest i jak z tego korzystać w Polsce?

 ”Writing about music is like dancing about architecture –

it’s a really stupid thing to want to do.” —

Elvis Costello and others.

Biorąc pod uwagę, że istnieją miliony piosenek przez miliony artystów, istnieje potrzeba, aby rozwijać technologie, które pomogą konsumentowi znaleźć muzykę. Możemy wyróżnić dwa odrębne przypadka użycia: wyszukiwanie muzyki i odkrycie muzyki. Wyszukiwanie muzyki jest przydatne, gdy użytkownicy wiedzą które utwory, albumy lub wykonawcy chcą znaleźć. Muzyka odkrycia jest mniej skierowany pościg, w którym użytkownik nie szuka konkretnego utworu lub artysty, ale może mieć pewne ogólne kryteria które chce spełnić przy poszukiwaniu muzyki. Podczas wyszukiwania i odkrycia są często ze sobą powiązane, wyszukiwanie zazwyczaj wiąże pobierania muzyki, który jest znany a priori. Odkrycie polega na znalezieniu muzyki nieznanej wcześniej do słuchacza.

Istnieje wiele podejść do wyszukiwania muzyki i odkrycia muzyki.  Obejmują one:

• Query-by-Metadata – wyszukiwanie (search)

We consider metadata to be factual information associated with music. This includes song titles, album titles, artist or band names, composer names, record labels, awards, and popularity information (e.g., record charts, sales information). We also consider metadata to include any relevant biographical (e.g., “raised by grandmother”), socio-cultural (e.g., “influenced by blues tradition at an early age”), economic (e.g., “busked on the streets to make a living”), chronological (e.g., “born in 1945”), and geographical (e.g., “grew up in London”) information. Music metadata is often stored in a structured database and contains relational data (e.g., “played with the Yardbirds”, “influenced by Robert Johnson”). Query-by-metadata involves retrieving music from a database by specifying a (text-based) query. For example, a user can find “all Eric Clapton songs that were recorded prior to 1991.” The most well-known examples of a query-by-metadata systems are commercial music retailers (e.g., Apple iTunes) and Internet search engines (e.g., Google).

• Query-by-performance – wyszukiwanie (Search)

Based on human performance. However, it can be difficult, especially for an untrained user, to emulate the tempo, pitch, melody, and timbre well enough to make these systems effective.

• Query-by-fingerprint – wyszukiwanie (Search)

Like query-by-humming, query-by-fingerprint is a technology that involves recording an audio sample and matching it to a database of songs. However, a fingerprint must be a recording of the original audio content rather then a human-generated imitation. Companies like Shazam and Gracenote offer services where a customer can use a cellphone to record a song that is playing in a natural environment (e.g., in a bar, at a party, on the radio). The recording is matched against a large database of music fingerprints and the name of the identified song is text-messaged back to the customer’s cellphone.

• Recommendation-by-popularity – odkrycije (Discovery)

The two most common way people discover new music is by listening to AM/FM radio and by watching music television.

• Browse-by-genre – odkrycije (Discovery)

A music genre is an ontological construct that is used to relate songs or artists, usually based on acoustic or socio-cultural similarity. Examples range from broad genres like ‘Rock’ and ‘World’ to more refined genres like ‘Neo-bop’ and ‘Nu Skool Breaks.’ A taxonomy of genres is often represented as a directed asymmetric graph (e.g., graph of jazz influences) or a tree (e.g., hierarchy of genres and subgenres). However, genres can be ill-defined and taxonomies are often organized in an inconsistent manner Despite the shortcomings, they are commonly used by both individuals and music retailers (e.g., Tower Records, Amazon) to organize collections of music. However, as the size of the music collection grows, a taxonomy of genres will become cumbersome in terms of the number of genres and/or the number of songs that are related to each genre.

• Query-by-similarity – odkrycije (Discovery)

One of the more natural paradigms for finding music is to make use of known songs or artists. While music similarity can be accessed in a number of ways, it is helpful to focus on three types of similarity: acoustic similarity, social similarity, and semantic similarity.

Acoustic similarity is accessed through the analysis and comparison of multiple audio signals (e.g., “songs that sound similar to Jimi Hendrix’s ‘Voodoo Chile’ ”).

– Social similarity, also referred to as collaborative filtering, finds music based on the preference ratings or purchase sales records from a large group of users (e.g., “people who like Radiohead also like Coldplay”). This is the approach used by Amazon and Last.fm to recommend music to their customers.

– Semantic similarity uses common semantic information (e.g., common genres, instruments, emotional responses, vocal characteristics, etc.) to measure the similarity between songs or artists. It has the added benefit of allowing users to specify which semantic concepts are most important when determining music similarity. It is important to note that acoustic similarity is generally determined automatically with signal processing and machine learning. Social and semantic similarity requires that these songs be annotated by humans before similarity can be accessed. Pandora’s recommendation engine can be thought of as being half acoustic and half semantic similarity since human experts are used to annotate each music track with musically objective concepts.

• Query-by-description – odkrycije (Discovery)

Individuals often use words to describe music. For example, one might say that “Wild Horses” by the Rolling Stones is “a sad folk-rock tune that features somber strumming of an acoustic guitar and a minimalist use of piano and electric slide guitar.” Such descriptions are full of semantic information that can be useful for music retrieval. More specifically, we can annotate music with tags, which are short text-based tokens, such as ‘sad’, ‘folk-rock’, and ‘electric slide guitar.’ Music tags can be collected from humans and generated automatically using an autotagging system. See Chapter 2 for a description of our autotagging system and Chapter 4 for a comparison of tag collection approaches. Query-bydescription can also include other types of music information such as the number of beats per minute (BPM) or the musical key of a song.

• Heterogeneous Queries – wyszukiwanie  & odkrycije (Search & Discovery)

We can also combine various query paradigms to construct useful new hybrid query paradigms. For example, in this dissertation, we will describe a system that combines metadata, similarity, and description so that a user can find songs that are ‘mellow acoustic Beatles-like music’ or ‘electrified and intense Beatleslike music’.

Pandora Radio to jest automatyczny rekomendacyjny serwis muzyczny Projekta Genome „Music Genome Project”, który jest „dostępny tylko w Stanach Zjednoczonych”. Usługa odgrywa fragmenty muzyczne podobne do sugestii piosenki wprowadzanej przez użytkownika. Użytkownik podaje pozytywne lub negatywne opinie utworów wybranych przez służby, które są brane pod uwagę dla przyszłych wyborów.

Podczas słuchania, użytkownicy uzyskują możliwość zakupu utworów lub albumów online. Ponad 400 różnych muzycznych atrybutów brano pod uwagę przy wyborze następnego utworu. Te ponad 400 atrybutów są łączone w większe grupy. Istnieje 2.000 takich grup. Przykładami są synkopy rytm, klucz tonalności, harmonie wokalne, instrumentalne i wyświetlane biegłości.

Pandora media player (odtwarzacz multimedialny) jest oparty na OpenLaszlo. Również Pandorę można uzyskać przez wiele stand-alone players. W dniu 11 lipca 2008, Pandora uruchomiła mobilną wersję swojego oprogramowania dla Apple iPhone, iPad i iPod Touch przez iTunes App Store. Pandora jest także dostępna dla telefonów z systemem Android, platformy BlackBerry, webOS HP (używane w Palm Pre Palm Pixi, Palm Pre 2, andHP Veer), oraz Windows Mobile. Pandora była dostawcą dla MSN Radio aż MSN przerwał swoje usługi radia internetowego w dniu 18 czerwca 2008 roku.

Usługa ma dwa plany subskrypcji: bezpłatną subskrypcję wspierane przez reklamy, i płatna bez reklam. Reklama jest  też w Pandora Mobile dla telefonów komórkowych i Pandora w urządzeniu domowego komputera. Najwięcej użytkowników wybierają darmową subskrypcję.

Jako  IPO, Pandora miała 80.,000 artystów, 800.000 utworów w swojej bibliotece i 80 milionów użytkowników.

W maju 2010, Pandora została nazwana w liscie firm „2010 Lead411 Hottest San Francisco”. W styczniu 2011 roku, Pandora spotkała się z bankierami o rozważenie ewentualny 100.000.000 dolarów IPO. Przedsiębiorstwo złożyło wniosek z SEC na $ 100mm$ IPO na 11 lutego 2011 i oficjalnie rozpoczęła działalność na New York Stock Exchange z symbolem „P” w dniu 15 czerwca 2011 w cenie $ 16/share. To dało im wyceny prawie 2,6 mld USD. W trakcie 2011 roku fiskalnego, Pandora zgłasiła 138.000.000 dolarów przychodów z których 1,8 milionów dolarów straty netto, bez specjalnych dywidendów związanych z IPO.

Korzystanie

Stacja zaczyna pracę przez podanie wykonawcy lub utworu, lub kombinacji wielu przedmiotów jakiegokolwiek rodzaju w jednej stacji. Słuchacze mogą korzystać z gotowych stacji i stacji innych użytkowników. Każdy odtwarzany utwór może być zaznaczony jako korzystne (kciuk do góry) lub niekorzystne (kciuk w dół) przyciski, które określają czy należy je grać, a ile powinno być klasyfikowanych jako utwory podobne i będą odtwarzane w stacji. Druga negatywna odpowiedź dla tego samego wykonawcy prowadzi do zakazu gry artysty na wybranej stacji, chyba że użytkownik oznaczy artyste pozytywnie przy innej okazji. Brak reakcji aplikuje  do atrybutów muzycznych lub albumów. Niekorzystna reakcja natychmiast przerywa grę utworu.

Ponadto, jest wyposażona w menu wyboru: „Jestem zmęczony tą piosenką”, „Dlaczego ten utwór jest wybrany?”, „Przenieś piosenki do innej stacji”, „ Nowa stacja” i „Zakładki”. Przycisk „Kup” znajduje się na górze każdego bloku piosenki. Stamtąd słuchaczy mogą klikać na linki, aby kupić piosenki z iTunes lub Amazon.

Jak korzystać z Radio Pandora w Polsce?

Po pierwsze musimy posiadać konto na stronie www.pandora.com. Aby Pandora nie wykryła naszej lokalizacji (działa tylko na terenie USA) musimy ukryć nasz adres IP w tym celu popieramy program Ultrasurf (http://ultrasurf.us/download/u.zip). Uruchamiamy.

Teraz uruchamiamy przeglądarkę np. Chrome. Wchodzimy w opcje i sprawdzamy lub konfigurujemy polaczenie proxy.

Powinno być jak poniżej

Jeśli mamy takie parametry zatwierdzamy wszystko i możemy wejść na stronę www.pandora.com i zakładamy konto.

Najważniejsza rzecz przy zakładaniu konta to ze kod pocztowy musi być z terenu USA (najlepiej wyszukać w googlach lub użyć strony http://www.fakeusaaddress.com/.

Po rejestracji i zalogowaniu możemy słuchać Pandory w przeglądarce. Niestety Ulstrasurf czasem gubi polaczenie i wymaga odświeżenia strony. Problem ten rozwiązuje użycie klienta sieci Tor. Zamiast programu Ultra surf.

2. Instalacja Tora.

Wchodzimy na stronę https://www.torproject.org/projects/vidalia.html.en. I pobieramy https://www.torproject.org/dist/vidalia-bundles/vidalia-bundle-0.2.2.35-0.2.15.exe

Albo https://archive.torproject.org/tor-package-archive/technology-preview/vidalia-bundle-0.2.3.1-alpha-0.3.0.exe (dla windows 7)

Po instalacji uruchamiamy Vidalia

Następnie klikamy na „Pokaz siec”

Wyszukujemy kilka Nodow z lokalizacja USA (Patrz obrazek). Prawy przycisk myszy na Nodzie Tora i kopiujemy odcisk palca (najlepiej do notatnika skopiować kilka odcisków maja takie format

$17B82BCC67063E01817E7FD03ED15E345E9FE4A9)

Teraz wchodzimy w „Ustawienia”, zakładka  zaawansowane

Edytujemy plik ustawień tora. Powinien on wyglądać tak:

ControlPort 9051

ExitNodes

Log notice stdout

SocksListenAddress 127.0.0.1

W sekcji ExitNodes wklejamy nasze odciski palców ($A5765767798789798, $A89088798…..)

Zatwierdzamy plik konfiguracyjny.

Zmieniamy ustawienia przeglądarki i serwero proxy na następujące

Zatwierdzamy i możemy słuchać Pandory.

3. Android

Telefon musi zostać z rootowany tzn użytkownik musi mieć pełne prawa administratora. Instrukcję rootwania dla każdego modelu przebiega inaczej. Przykładowe tutaj Samsung Galaxy S2

http://samsungomania.pl/jak-uzyskac-root-w-samsungu-galaxy-s-ii-poradnik.html

Po tej operacji

  • Potrzebujemy aplikacji MarketEnabler. Która umożliwi nam tymczasowa zmianę operatora na USA. Pobieramy z marketu aplikacje Pandora Radio.
  • Pobieramy z android marketu aplikacje Orbot (klient sieci Tor) w ustawieniach Orbota’a ustawiamy (select Apps -> Pandora) oraz w „Exit Nodes” wpisujemy nasze odciski palców (patrz wyżej)
  • Uruchamiamy Orbot potem Pandorze -> logujemy się na swoje konto i słuchamy 🙂

Ekaterina Z.,