Archive for 15 stycznia, 2012

15 stycznia, 2012

Zasada działania systemów rekomendacyjnych. Przegląd technik.

- autor: tsissput

W celu zwrócenia uwagi użytkownika i zwiększenia potencjalnego zysku, twórcy wyszukiwarek, systemów aukcyjnych i sklepów online próbują przewidzieć preferencje użytkownika na podstawie jego dotychczasowego zachowania na stronie. W tym celu tworzone są systemy rekomendacyjne. Są one podklasą systemów filtrujących informacje (ang. Information filtering system), których celem jest automatyczne bądź półautomatyczne usuwanie z strumienia informacji tych danych, które są zbędne lub niechciane. Systemy rekomendacyjne implementowane są na wielu stronach WWW w celu zaproponowania użytkownikom bądź to stron do odwiedzenia bazując na ich historii wyszukiwania, bądź to produktów do kupienia w sklepie. Dla komercyjnych stron internetowych celne propozycje mogą prowadzić do zwiększonej sprzedaży. Można znaleźć jeszcze wiele innych zastosowań systemów rekomendacyjnych. Do głównych funkcji systemów rekomendacyjnych należą analiza danych dotyczących użytkownika i ekstrakcja przydatnych informacji do użycia ich w celu rekomendacji. Wspomnianymi danymi dotyczącymi użytkownika mogą być: historia wyszukiwania w wyszukiwarce, historia zakupów w sklepie internetowym lub systemie aukcyjnym, najczęściej przeglądane przedmioty w sklepie internetowym a nawet informacje o tym co się lubi umieszczane przez użytkowników portali społecznościowych. Systemy rekomendacyjne często są projektowane w celu umożliwienia użytkownikom szybkiego zlokalizowania poszukiwanych, preferowanych przedmiotów i w celu uniknięcia potencjalnego przeładowania informacjami. Ponadto istnieją serwisy proponujące film do obejrzenia, książkę do przeczytania, bazujące na ocenach książek/filmów, których dokonali użytkownicy tych serwisów.

Zasadniczo wyróżnia się dwa główne rodzaje systemów rekomendacyjnych. Pierwsze zwane Content Based Filtering bierze pod uwagę historię zakupów klienta i opis produktu, jego typ, kategoria, itp. Drugie podejście, Collaborative Filtering, rekomenduje użytkownikom produkty, które są ocenione lub kupione przez użytkowników o podobnych zainteresowaniach.

Collaborative Filtering

Zasadniczym założeniem techniki Collaborative Filtering jest to, że jeśli użytkownicy X i Y ocenili n przedmiotów podobnie, albo mają podobne zainteresowania (np. muzyka, filmy, zakupy), to będą podobnie oceniać lub zachowywać się w odniesieniu do innych przedmiotów.
Metody oparte o Collaborative Filtering używają bazy preferencji użytkownika dotyczących przedmiotów w celu zaproponowania nowemu użytkownikowi dodatkowych tematów lub produktów, które mogłyby go zainteresować. W typowym scenariuszu dana jest lista m użytkowników {u1, u2, … , um} oraz lista n przedmiotów {i1, i2, … , in}, każdy z użytkowników ui ma listę przedmiotów Iui, które ocenił, lub które zostały oznaczone jako preferowane bazując na zachowaniu użytkownika w serwisie. Oceny mogą być dokładnymi wskazaniami , przykładowo na skali od 1 do 5 lub niejawnymi jak fakt zakupu lub najczęściej oglądane przedmioty. Warto zauważyć, że Iui może być listą pustą. Istnieje wyróżniony użytkownik ua, zwany aktywnym użytkownikiem, dla którego zadaniem algorytmu rekomendacyjnego jest znalezienie propozycji, która może przyjąć dwie formy:

  • liczbowej wartości, która wyraża przewidywaną wartość oceny wybranego przedmiotu przez aktywnego użytkownika. Ta przewidywana wartość wyrażona jest w tej samej skali (np. od 1 do 5) co wartości opinii dostarczone przez użytkownika.
  • listy N rekomendowanych przedmiotów, które aktywny użytkownik polubiłby najbardziej. Warto zauważyć, że rekomendowane przedmioty nie mogą się znajdować na liście przedmiotów już ocenionych przez użytkownika. Ten typ wyniku algorytmów opartych o Collaborative Filtering zwany jest Top-N recommendation.

Dane dotyczące ocenionych przez użytkowników przedmiotów zazwyczaj reprezentowane są przez macierz ocen A o wymiarach n na m, w której każda wartość ai,j w A reprezentuje ocenę i-tego użytkownika dotyczącą j-tego przedmiotu.
Naukowcy uznali, że algorytmy wykorzystujące podejście Collaborative Filtering mogą być podzielone na dwie główne kategorie – Memory based i Model based. Poniżej zostanie przedstawiony opis wymienionych kategorii.

Algorytmy należące do kategorii Memory based używają całej bazy ocen użytkowników do wygenerowania rekomendacji. Systemy te używają metod statystycznych, takich jak korelacja Pearsona, w celu znalezienia grupy użytkowników zwanych sąsiadami, którzy są podobni do aktywnego użytkownika (ocenili podobnie te same przedmioty, lub mają w zwyczaju kupować podobne zestawy przedmiotów). Kiedy grupa sąsiadów została znaleziona, na podstawie ocenionych przez nich przedmiotów wyliczana jest rekomendacja. Techniki znane jako najbliższy-sąsiad lub Memory based Collaborative Filtering są popularne i szeroko używane w praktyce.

Zasada działania drugiej grupy algorytmów, należących do kategorii  Model based Collaborative Filtering polega na utworzeniu najpierw modelu ocen użytkownika. Posiadając model przewiduje się ocenę użytkownika dotyczącą przedmiotów. Budowanie modelu wykorzystuje  różne techniki uczenia maszynowego, takie jak: sieci Bayesowskie, analiza skupień i reguły asocjacyjne. Model sieci Bayseowskich formułuje model prawdopodobieństwa dla problemu Collaborative Filtering. Wykorzystanie analizy skupień polega na przydzieleniu podobnych użytkowników do jednej grupy, estymacji prawdopodobieństwa, że dany użytkownik będzie przynależał do danej grupy i w końcu wyliczenia prawdopodobnej oceny dla przedmiotów. Podejście regułowe wykorzystuje algorytm odkrywania reguł asocjacyjnych do znalezienia asocjacji pomiędzy zakupionymi przedmiotami a następnie generuje rekomendację bazując na sile asocjacji pomiędzy przedmiotami.

Content Based Filtering

Podejście bazujące na zawartości (Content Based) polega na analizie informacji dotyczących rekomendowanych przedmiotów. Każdy użytkownik jest traktowany indywidualnie. Nie ma w tym podejściu społeczności użytkowników. System rekomendacyjny pracuje analizując przedmioty i podobieństwo wybranych przedmiotów do przedmiotów zakupionych wcześniej przez użytkownika. Po wybraniu przedmiotów podobnych do przedmiotów użytkownika są one rekomendowane użytkownikowi jako potencjalnie mogące go zainteresować.

Problemy

Warto też krótko wspomnieć o problemach, z którymi muszą zmierzyć się autorzy systemów rekomendacyjnych. Jednym z nich jest skalowalność. W przypadku systemów gdzie liczba użytkowników jest liczona w milionach podobnie jak liczba przedmiotów w katalogu użycie standardowych algorytmów rekomendacyjnych jest nieakceptowalne z powodu  braku możliwości uzyskania rekomendacji w krótkim czasie.
Innym problemem jest problem rzadkości. Operując na dużych ilościach produktów (liczonych w milionach) macierz użytkownik-przedmiot (ang. user-item) używana w podejściu collaborative filtering będzie bardzo rzadka i jakość rekomendacji jest wystawiona na próbę. Występuje także problem tak zwanego zimnego startu (ang. cold start). Występuje on w przypadku pojawienia się nowego użytkownika lub dodania nowego przedmiotu do katalogu. Nowe przedmioty nie mogą być rekomendowane dopóki jacyś użytkownicy nie kupią, nie ocenią ich. Nowi użytkownicy nie mogą otrzymać dobrej jakości rekomendacji gdyż dokonali zbyt mało ocen lub mają pustą historię zakupów.

Podsumowanie

Systemy rekomendacyjne są ważną technologią służącą do wydobycia dodatkowej wartości dla biznesu z informacji o użytkownikach. Systemy te pomagają znaleźć użytkownikom przedmioty, które chcieliby kupić lub znaleźć rzeczy, które by polubili. Z drugiej strony systemy rekomendacyjne pozwalają firmom zwiększyć sprzedaż. Systemy te zmierzają się z kłopotami powodowanymi wielką ilością danych  dotyczącą użytkowników, a ilość użytkowników w Internecie będzie wciąż rosła.

84911

Źródła z których korzystałem:
http://en.wikipedia.org/wiki/Information_filtering_system
http://en.wikipedia.org/wiki/Recommender_system
http://imsc-dmim.usc.edu/publications/121new.pdf
http://www.hindawi.com/journals/aai/2009/421425/

15 stycznia, 2012

PORTALE SPOŁECZNOŚCIOWE A BIZNES

- autor: tsissput

Facebook jest najczęściej odwiedzaną stroną internetową w całych Stanach Zjednoczonych. Około 800 milionów użytkowników z całego świata (w tym ponad 130 milionów w Stanach Zjednoczony) ma konta na tym portalu. Badania pokazują, że statystyczny Amerykanin spędza na Facebooku ponad pół godziny dziennie. Zamiast oglądać telewizję czy robić zakupy, użytkownicy portali piszą do przyjaciół i znajomych, oglądają zdjęcia, grają w gry społecznościowe, a także  często kontaktują się z firmami.
Portale społecznościowe zmienią sposób komunikowania się konsumentów z przedsiębiorstwami. Sieci społecznościowe mogą pomóc organizacjom zrealizować cele w różnych obszarach: od pozyskiwania nowych i utrzymania dotychczasowych klientów przez obsługę klienta i rozwój nowych produktów aż po rekrutację pracowników i rozwój sieci dostawców. Firmy, poprzez platformy społecznościowe, mogą budować wizerunek marki bliskiej klientom, szybciej i taniej komunikować się z nimi i śledzić poczynania konkurencji. Sieci są także przydatne do zdobywania opinii na temat produktów czy usług, a także ułatwiają badania potrzeb klientów. Na przykład firma Procter & Gamble stworzyła platformę, na której młode kobiety mogą dyskutować na różne tematy dotyczące dorastania, zdrowia i urody. Dzięki temu koncern, który wcześniej wydawał fortunę na badania konsumenckie, szybciej i taniej poznaje potrzeby swoich klientów i lepiej je zaspokaja.Dzięki platformom można również istotnie podnieść sprzedaż i obniżyć koszty pozyskania klientów. Na przykład amerykańska firma Groupon, wykorzystując sieci społeczne, daje użytkownikom możliwość zakupu produktów lub usług po obniżonej cenie, ale tylko wtedy, gdy zbierze się odpowiednia liczba osób. Jeśli komuś zależy na rabacie, zrobi wszystko, aby jak najszerzej rozreklamować dany produkt czy usługę i zjednać jak największą liczbę osób. W ten sposób to użytkownicy biorą na siebie wysiłek i koszt pozyskania klienta. Firma oszczędza, bo zaoferowana zniżka jest mniejsza, niż wynosi koszt dotarcia do kolejnego użytkownika, a także zyskuje klientów, których normalnie prawdopodobnie nigdy by nie przekonała do swojej oferty.
Niestety przedsiębiorcy często popełniają błąd, który polega na tym, że starają się „dokleić” portale społecznościowe do już istniejących rozwiązań, nie zmieniając nic w swojej dotychczasowej strategii. Gdy założą firmowe konto na Facebooku to myślą, że przyciągną wielu fanów, to automatycznie sprzedaż pójdzie w górę. Wiele spółek zakłada również, że jeśli tylko zacznie rozmawiać za pośrednictwem portali ze swoimi klientami, to oni będą więcej kupować. Te spółki dużo energii i czasu wkładają w tworzenie wpisów i monitorowanie dyskusji, która mimo to często i tak nie odnosi żądanego skutku. Inni menedżerowie wykupują reklamy na portalach społecznościowych w nadziei, że z tak dużej ilości ludzi na pewno wielu uda się przyciągnąć na ich firmowe strony. Z badań wynika jednak, że użytkownicy rzadko klikają na reklamy umieszczane na tych portalach.
Kluczem jest zrozumienie, że użytkownicy tych portali korzystają z nich z dwóch powodów. Po pierwsze po to, aby wzmacniać dotychczasowe relacje z ludźmi. Po drugie dlatego, że chcą poznać nowe osoby. Innymi słowy – portale społecznościowe stanowią dla wielu ludzi szansę na poprawę życia osobistego, często trudną do osiągnięcia w rzeczywistym świecie.
Ale aby osiągnąć sukces, trzeba podejść do klienta w odpowiedni sposób, znacząco różniący się od dotychczasowego. Jednym z przykładów są tzw. produkty uspołecznione, które pomagają użytkownikom portali społecznościowych realizować ich potrzeby związane z relacjami międzyludzkimi, a w tym samym czasie zwiększają cenę, jaką klienci są gotowi płacić przedsiębiorstwom za ich produkty czy usługi. Pewna firma finansowa obiecała najbardziej aktywnym użytkownikom kart kredytowych możliwość spotkania z fanami ich ulubionego zespołu piłkarskiego przed kolejnym ważnym meczem. Okazało się, że klienci chętniej korzystali z kart po to, aby móc spotkać ludzi, którzy mieli taką samą jak oni pasję. Zamiast wydawać pieniądze na reklamę, firma dała klientom możliwość nawiązania kontaktu z ludźmi, których inaczej bardzo trudno byłoby im spotkać, a jednocześnie zrealizowała swoje cele biznesowe. Inna organizacja, oferująca prestiżowe produkty finansowe, zauważyła, że wiele zamożnych kobiet masowo rezygnuje z jej usług. Chcąc przeciwdziałać tej niekorzystnej tendencji, postanowiła wykorzystać fakt, że wiele posiadaczek luksusowego produktu zajmuje wysokie, menedżerskie pozycje. Kobiety te chciałyby poznać inne menedżerki po to, by porozmawiać z nimi o swoich problemach. Wiedząc to, firma zaproponowała najbardziej aktywnym użytkowniczkom możliwość poznania innych posiadaczek tych prestiżowych produktów. Akcja cieszyła się ogromnym powodzeniem. Firma pomogła klientkom zrealizować ich potrzeby związane z relacjami międzyludzkimi, a jednocześnie zwiększyła generowane przez nie przychody. A więc sukces jest możliwy o ile uda się firmom dotrzeć do odpowiednich osób, których potrzeby związane z relacjami z ludźmi będą mogły zostać zaspokojone poprzez produkty lub usługi tych przedsiębiorstw. Na przykład z badań wynika, że aż 25% Amerykanów nie ma żadnych przyjaciół, a więc „obszar” do zagospodarowania jest ogromny. Najpierw jednak trzeba stworzyć jakąś wartość społeczną, a potem wykorzystać ją biznesowo.
Osoby angażujące się w sieci społecznościowe to nie tylko konsumenci czy ewentualni klienci, ale również pracownicy i kandydaci do pracy oraz potencjalni partnerzy biznesowi i dostawcy. W tym zakresie dużą rolę odgrywają serwisy, które są przeznaczone dla profesjonalistów. Za ich pośrednictwem firmy mogą szukać pracowników lub kontrahentów. Zatrudnieni natomiast mogą wejść na rynek pracy i testować go bez obaw, że wzbudzą podejrzenia pracodawcy. Z badań wynika, że na początku menedżerowie obawiają się, że z powodu takich praktyk tracą dobrych pracowników, ale potem bardzo szybko zaczynają sami wykorzystywać możliwości platform i cieszą się, że mogą taniej i łatwiej dotrzeć do odpowiednich ludzi.

52281

15 stycznia, 2012

Czym jest NREN i nie tylko o tym…

- autor: tsissput

Wpis ten zawierał będzie wiele skrótowców, NREN jest jedynie pierwszym z nich.

NRENs are National Research and Education Networks. An NREN is responsible, on a national basis, for the provision of data communications networks and services to the research and education community of its country. The NREN network typically connects other networks at regional or metropolitan level.

Opis taki można znaleźć na stronie organizacji DANTE (czyli Delivery of Advanced Network Technology to Europe). Czym jest NREN w praktyce warto chyba wyjaśnić na przykładzie nieodległym w przestrzeni. W Polsce rolę NREN pełni PIONIER, czyli Polski Internet Optyczny – Konsorcjum Akademickich Sieci Komputerowych i Centrów Komputerów Dużej Mocy. W zasadzie pełna nazwa instytucji oddaje w pełni jej charakter i cele: jest to budowa utrzymanie oraz ciągłe rozwijanie ogólnopolskiej sieci optycznej oraz umożliwienie w oparciu o nią realizacji celów statutowych zrzeszonych jednostek, czyli ośrodków akademickich z całego kraju.
Sieć optyczna PIONIER [1] wykorzystuję technologię DWDM (Dense Wavelength Division Multiplexing), czyli multipleksację wielu sygnałów cyfrowych w jednym łączu światłowodowym polegającą na przydzielaniu każdemu sygnałowi oddzielnej długości fali świetlnej. Postępy w tej dziedzinie pozwalają na stopniowe zwiększanie przepustowości łączy optycznych bez potrzeby modernizacji samych światłowodów – zmiany wymagają jedynie urządzenia nadawczo-odbiorcze.

W ramach konsorcjum PIONIER wdrożono wiele inicjatyw, np. CLUSTERIX, czyli Krajowy Klaster Linuksowy, który jest wykorzystywany m. in. do modelowania zjawisk (np. termomechanicznych), złożonych symulacji (np. przepływu krwi) a także wizualizacji oraz przewidywania struktur białek. Innym przykładem jest projekt PLATON (Platforma Obsługi Nauki). Jak można przeczytać na stronie projektu [2] oferuje następujące usługi:

  • wideokonferencje,
  • usługa eduroam, której celem jest udostępnienie we wszystkich sieciach MAN i centrach KDM (komputerów dużej mocy) prostego i bezpiecznego roamingu osób ze środowiska nauki i szkolnictwa wyższego,
  • usługi kampusowe, w których skład wchodzi m. in. możliwość korzystanie z uruchamianych zdalnie aplikacji takich jak Matlab,
  • usługi powszechnej archiwizacji (warto tutaj zwrócić uwagę, iż wśród adresatów tej usługi znajdują się także szpitale skojarzone z uczelniami medycznymi)
  • naukowa interaktywna telewizja HD (czyli w skrócie Platon TV).

Szczególną rolę w konsorcjum PIONIER pełni PCSS (czyli Poznańskie Centrum Superkomputerowo-Sieciowe). PCSS reprezentuje polskie środowisko naukowe m. in. w organizacji TERENA (Trans-European Research and Education Network Association), której pełnoprawnym członkiem jest od 1999 r.

Czym jest TERENA? Wiele mówi już samo motto tego stowarzyszenia: „networking the networkers”.
Nazwa TERENA przyjęta została w roku 1994 jako nowa nazwa dla RARE (Réseaux Associés pour la Recherche Européenne) w skutek połączenia tej organizacji z EARN (European Academic Research Network). Istnienie równolegle dwóch organizacji o podobnych nazwach może wydawać się co najmniej dziwne, stąd też warto wyjaśnić, że EARN była europejską odnogą sieci BITNET (Because It’s There Network), która przez pewien czas stanowiła swoistą konkurencję dla sieci Internet.

Celem istnienia organizacji TERENA jest promocja i tworzenie infrastruktury sieciowej wysokiej jakości wspierającej europejską naukę i edukację poprzez:

  • badanie, ocenę i wdrażanie nowych technologii sieciowych,
  • wspieranie nowych usług sieciowych w stosownych przypadkach,
  • transfer wiedzy dzięki konferencjom, seminariom i szkoleniom,
  • służenie radą w sprawach sieci rządom oraz innym organizacjom,
  • współpracę z podobnymi organizacjami w innych częściach świata.

Wpis ten mógłby być zatytułowany „W gąszczu organizacji sieciowych” – uważny czytelnik mógłby na przykład zadać pytanie, jaka jest relacja pomiędzy TERENĄ a wspomnianym wcześniej DANTE? Odpowiedź kryje się już w nazwach: o ile TERENA stanowi bardziej platformę dla rozmów o przyszłym kształcie sieci, tak DANTE wprowadza te projekty w życie i zarządza nimi.

DANTE został utworzony jako spółka z ograniczoną odpowiedzialnością w 1993 przez RARE (czyli kiedy ta nie była jeszcze TERENĄ). Rok później własność nad spółką została przekazana grupie kilkunasty NREN.

DANTE zakończył niedawno drugi etap projektu GÉANT (Gigabit European Advanced Network Technology), który jest współfinansowany przez NREN-y oraz Komisję Europejską. Można powiedzieć, że GÉANT to NREN na europejską skalę: łączy sieci narodowe w jedną całość i zapewnia połączenie z odpowiednikami na świecie. Warto zauważyć, iż to właśnie w Poznaniu znajduje się węzeł sieci GÉANT, poprzez który łączą się wszystkie pozostałe węzły sieci PIONIER (dla przypomnienia różne ośrodki akademickie rozlokowane w całym kraju). Można to zobaczyć na mapie [3] przedstawiającej stan sieci w 2009 r. Co ciekawe, w 2004 Polska sieć akademicka była połączona z jej czeskim odpowiednikiem (CESNET) przez Szwecję.

Zgłębiając ten świat można zapomnieć, jaki jest właściwie cel istnienia i ciągłego rozwijania superszybkich sieci dla środowiska naukowego. Truizmem jest stwierdzenie, że wiele dziedzin nauki wymaga dużej mocy obliczeniowej dla rozwiązywania swoich problemów. Nie jest już jednak tak oczywiste, szczególnie dla osób niezwiązanych ze środowiskiem informatycznym, że budowa superkomputerów – rozumianych jako zbiór maszyn ulokowanych w jednym miejscu – nie jest jedynym sposobem na uzyskanie takiej mocy. Alternatywnym rozwiązaniem (choć oczywiście nie w pełni równoważnym) jest połączenie mniejszych i rozproszonych centrów obliczeniowych za pomocą szybkich sieci o dużych przepustowościach.

Kolejną istotną przyczyną dla tworzenia takich sieci jest powstawanie nowych źródeł danych naukowych, takich jak niedawno uruchomiony LHC, czyli Large Hadron Collider w CERN (to samo miejsce, w którym swoje początki miała WWW).  LHC generuje około 15 petabajtów rocznie, którymi naukowcy  z krajów, które mają udział w eksperymencie, są zainteresowani w sposób szczególny.

Innym podobnym przykładem jest planowany radioteleskop SKA [4] (Square Kilometer Array), którego rozpoczęcie budowy jest planowane na 2016 a osiągnięcie pełnej sprawności w roku 2024. Będzie to zbiór radioteleskopów, z których najdalsze będą znajdowały się około 3 tys. kilometrów od rdzenia radioteleskopu. SKA będzie zlokalizowany w Australii bądź RPA – to z południowej półkuli bowiem jest lepszy widok na Drogę Mleczną, zakłócenia radiowe są tam również mniejsze. W RPA powstaje już radioteleskop MeerKAT, który poza wzmocnieniem kandydatury tego państwa jako gospodarza dla SKA stanowi także test bed dla Square Kilometer Array. Warto zauważyć, na niecodzienne wymagania SKA wobec sieci: planowany ruch przekracza aktualny szacowany ruch w sieci Internet.

Innym aspektem działalności NREN-ów jest przeprowadzanie eksperymentów na sieciach jako takich. Zebrane doświadczenia mogą być potem wykorzystywane przez komercyjnych dostawców dostępu do sieci. Jednocześnie konieczne jest zwrócenie uwagi na fakt, iż budowa takich infrastruktur sieciowych, jakich w danym czasie potrzebują jednostki naukowe, nigdy nie jest opłacalne dla tych dostawców, choćby ze względu na brak usług, które by takie sieci były w stanie wykorzystać. Jest to kolejne miejsce, w którym jednostki naukowe pobudzają rozwój dziedziny, która później może być wykorzystana w życiu codziennym… często do celów o rzędy wielkości mniej sensownych niż te pierwotne.

84891

[1] http://www.pionier.net.pl/online/pl/
[2] http://www.platon.pionier.net.pl/online/
[3] 
http://www.geant.net/Media_Centre/Media_Library/Pages/Maps.aspx
[4] http://www.skatelescope.org/

15 stycznia, 2012

Alternatywne zastosowanie sieci społecznościowych

- autor: tsissput

Sieć społecznościowa (z ang. social media) to grupa użytkowników, ludzi i organizacji, którzy mają ze sobą coś wspólnego. Może to być na przykład przyjaźń, pokrewieństwo, praca, hobby, zainteresowania lub, dajmy na to, problem społeczny. Tacy użytkownicy są ze sobą połączeni i wzajemnie wchodzą w interakcje oraz przekazują sobie informacje. Wszystko to przebiega w obszarze Internetu i co ważniejsze nie wymaga żadnych specjalnych bodźców zewnętrznych. A le to tylko teoria, ponieważ zastosowanie sieci społecznościowych jest o wiele bardziej pomysłowe i zaskakujące niż przeciętny użytkownik może to sobie wyobrazić. Wystarczy tylko trochę kreatywności i już dzięki sieciom jesteśmy w stanie złapać najbardziej poszukiwaną osobę na świecie, zgłosić przestępstwo, czy też zwyczajnie wzbudzić przywiązanie setek osób do naszego produktu lub marki. A to tylko z niektórych pomysłów, które w zasadzie zostały już wprowadzone w życie, ale po kolei….

WEB 2.0 STAJE DO WALKI

Niespełna dwa lata temu w większości mediów tematem numer jeden było pojmanie przez amerykańskie oddziały Saddama Husajna. Pierwsza reakcja: „no wreszcie”, druga: „jak to im się udało?” i „skąd wiedzieli, gdzie się ukrywał?”. Jakie duże musiało być zdziwienie wszystkich kiedy połączona pewne dwa fakty i ogłoszono opinii publicznej, że Saddam Husajn został złapany ponieważ amerykański wywiad do jego namierzenia używał metodologii stosowanej w serwisach społecznościowych. Było to trzy miesiące przed startem serwisu Facebook. Zlokalizowanie i złapanie pod koniec 2003 roku Saddama Husajna wymagało od amerykańskiego wywiadu ogromnego zaangażowania. 5-częściowy artykuł w magazynie „Slate” pokazuje, jaką niecodzienną metodę zastosowano podczas polowania na Husajna. Komórka amerykańskiej armii dowodzona przez pułkownika Jamesa Hickeya stworzyła system o nazwie „profil Husajna”, jak żartobliwie go określono. Nie było to nic innego, jak analiza sieci „znajomych Husajna”, a raczej wszystkich jego współpracowników, wojskowych i zaufanych ludzi. Strukturę tego przedsięwzięcia oparto na takich samych schematach, na jakich działają serwisy społecznościowe. W ten sposób udało się rozszyfrować, kto mógł pomóc byłemu dyktatorowi Iraku w ucieczce, z kim mógł on się skontaktować etc. Artykuł w Slate pokazuje innowacyjne podejście do rozszyfrowania tajemnicy Husajna. Zamiast stworzenia profilu, w którym dyktator znajduje się na samym szczycie, a jego ludzie poniżej – zrezygnowano z klasycznej „piramidki”, zastępując ją profilem społecznościowym, w którym Husajn był postrzegany jako jeden z wielu „znajomych”, jakich posiadają inni członkowie „serwisu społecznościowego” (sieci irackich kontaktów dyktatora). Wcześniej sieć zależności dyktatorów wzorowano na analizie systemu zależności z III Rzeszy – na samej górze znalazł się Adolf Hitler, a poniżej jego zaufani ludzie. W przypadku Husajna zastosowano sieci społecznościowe. Takie podejście miało pomóc w znalezieniu dyktatora Iraku. Husajn nie dorobił się własnego profilu społecznościowego, ale nawet bez jego obecności na popularnych serwisach, Web 2.0 pomogło obalić dyktatora. Co ciekawe, taka sama taktyka nie umożliwiłaby znalezienia Osamy bin-Ladena. Jego „sieć znajomych” działa zupełnie inaczej niż sieć Husajna. Po prostu jego sieć kontaktów nie odzwierciedla sposobu działania serwisu społecznościowego[1].

SIECI W SŁUŻBIE SPRAWIEDLIWOŚCI

Wyobraźmy sobie sytuację, kiedy widzimy przez okno jakiegoś podejrzanego typka majstrującego przy samochodzie zaparkowanym po drugiej stronie ulicy. Co robimy? Policja z Essex wymyśliła nowatorskie rozwiązanie i odpowiada na to pytanie w zaskakujący sposób. Otóż brytyjczycy do zgłaszania przestępstw planują wykorzystać poczciwego Twittera.
W wyniku ograniczeń finansowych, z którymi borykają się od lat służby mundurowe policja z Essex postanowiła radykalnie skrócić godziny pracy funkcjonariuszy odpowiedzialnych za bezpośredni kontakt z petentami i przyjmowanie zgłoszeń. Nie oznacza to jednak zamknięcia się na sygnały od mieszkańców. Jak stwierdził komendant policji z Essex, Jim Barker-McCardle, zmiany kulturowe sprawiały, że większość społeczeństwa preferuje kontakt za pomocą telefonu lub internetu: „Nasze badania wykazują, że 96 proc. społeczeństwa woli kontaktować się z nami telefonicznie. (…) Sposób, w jaki ludzie się do nas zwracają, zmienia się. Musimy nadążać za nowymi technologiami” – stwierdził.
Pomysł brytyjskich policjantów sięga jednak znacznie dalej. Zamiast dzwonić ze zgłoszeniem o kradzieży, obywatele mogliby wysłać taką informację za pomocą Twittera. Kilka lat temu wiele służb mundurowych zachwycało się możliwościami, jakie daje zgłaszanie, a zarazem dokumentowanie przestępstw za pomocą MMS-ów ze zdjęciami. Choć w wielu miejscach uruchomiono taki kanał komunikacji, zgłoszenia MMS-owe nie zyskały większej popularności. Czy z Twitterem będzie tak samo[2]?

PROMOCJA PRODUKTÓW

Dziś już jesteśmy w pełni świadomi, że sieci społecznościowe można wykorzystać także do celów marketingowych. Jeśli chcesz, żeby ludzie dowiedzieli się o Twojej stronie, marce czy produkcie, musisz być aktywny również w tego typu sieciach. To w takich serwisach możemy z łatwością zbudować świadomość marki, więzi z naszymi klientami. To także doskonałe źródło komunikacji z potencjalnymi odbiorcami – możemy informować społeczeństwo na bieżąco o różnych wydarzeniach, ofertach czy nowościach.
Produkty można reklamować w sieciach społecznościowych na wiele sposobów:
Można dawać ogłoszenia na YouTube przy każdym wideo (paski tekstu bezpośrednio na oglądanym materiale) – zupełnie jak w przypadku reklam w wyszukiwarkach (SEM) za pomocą linka sponsorowanego. Można również dodać reklamę graficzną, która pojawi się przed, po lub w trakcie wybranego filmu wideo.
Na platformie Facebook można skorzystać z tzw. reklamy ukierunkowanej. Tekst reklamowy wraz z ikonką pojawią się po lewej stronie witryny, ale mogą zobaczyć je tylko te osoby, które sami wybierzemy wcześniej jako grupę docelową. Grupa docelowych odbiorców może być zweryfikowana pod kątem przeróżnych kryteriów: płci, miejsca zamieszkania, wykształcenia, zainteresowań czy hobby. Istnieje jednak jeszcze inny rodzaj reklamy na portalach. Zanim jednak go przybliżę, przytoczę pewną przypowieść.
Ładnych parę lat temu (w legendarnych czasach kiedy jeszcze wysyłano listy) firma Knorr ogłosiła konkurs na treść swojego nowego hasła reklamowego. Wystarczyło bagatela zakupić pięć Gorących Kubków, wyciąć kupony i w raz z wymyślonym przez nas hasłem reklamowym przesłać listownie. Do wygrania, uwaga… dwa samochody i wiele tysięcy zielonych kubeczków Knorra. Jaki był cel konkursu? Oczywiście zwiększenie sprzedaży. Kiedy już szczęśliwy zwycięzca otrzymał jeden z unikalnych kubków, cóż mu pozostało innego jak dalej kupować zupki w proszku, najzwyczajniej w świecie niektórzy mają ogromne opory pić choćby herbate z tego jakże specyficznego naczynia.
A jak sytuacja wygląda dziś? Zaledwie w zaszłym roku przeprowadzono niemal identyczną kampanię, ale tym razem na obecnie ulubionym portalu społecznościowym Polaków – Facebook’u. Aby wziąć udział w konkursie i wygrać kubek wystarczyło wykonać zadanie konkursowe. A zadanie konkursowe polegało na zostaniu fanem profilu Gorący Kubek – Tego mi Trzeba na Facebooku, zaproszeniu do polubienia wyżej wymienionego profilu co najmniej 5 osób oraz odebraniu swojego kubka. No a potem ponowne rozkoszowanie się unikalnym smakiem zupki. Choć promocja niemal identyczna, to tym razem cel marketingowców był jednak nieco bardziej złożony. W momencie, kiedy konsument „polubi” jakąś markę, czy to „Nike”, czy „Gorący Kubek” staje się to wiadome wszem i wobec wszystkim jego znajomym. Taka publiczna „deklaracja” zobowiązuje nie tylko do rzeczywistego lubienia produktu, ale również do wyrażania się o nim w sposób wyłącznie pozytywny. Dodatkowo, kiedy widzimy już te bagatela 2 mln fanów utwierdzamy się w przekonaniu, ze nasz wybór jest słuszny i społecznie akceptowalny. Tak więc przykra, lecz prawdziwa zasada owczego pędu działa na całego.
Takie i inne działania marketingowe na portalach społecznościowych atakują nas już na każdym kroku. Okazuje się, ze są one niemal sto razy efektywniejsze niż klasyczne reklamy w Internecie. Ciekawe tylko jaki będzie następny krok…[3]

NA ZAKOŃCZENIE

Opisane historie znacie prawdopodobnie mniej lub bardziej, ale mam nadzieję, że dały wam choć trochę do myślenia. Celem mojego wywodu było uzmysłowienie jak wiele drzwi otwiera przed nami ten wspaniały wynalazek jakim są sieci społecznościowe. Żyjemy w cudownym czasie zmian, a to, jak wykorzystamy dane nam narzędzia pozostaje tylko w naszej gestii. Kto wie, czy może już za parę lat człowiek będzie należał do tak wielu różnych sieci, że będzie mógł kontaktować się z każdym i ze wszystkim właśnie w taki sposób.

[1] http://www.pligg.jastkow.net
[2] http://vbeta.pl/
[3] http://www.hrtrendy.com/

84915

15 stycznia, 2012

Semantic Music Discovery. Pandora Radio

- autor: tsissput

Semantic Music Discovery. Pandora Radio. Co to jest i jak z tego korzystać w Polsce?

 ”Writing about music is like dancing about architecture –

it’s a really stupid thing to want to do.” —

Elvis Costello and others.

Biorąc pod uwagę, że istnieją miliony piosenek przez miliony artystów, istnieje potrzeba, aby rozwijać technologie, które pomogą konsumentowi znaleźć muzykę. Możemy wyróżnić dwa odrębne przypadka użycia: wyszukiwanie muzyki i odkrycie muzyki. Wyszukiwanie muzyki jest przydatne, gdy użytkownicy wiedzą które utwory, albumy lub wykonawcy chcą znaleźć. Muzyka odkrycia jest mniej skierowany pościg, w którym użytkownik nie szuka konkretnego utworu lub artysty, ale może mieć pewne ogólne kryteria które chce spełnić przy poszukiwaniu muzyki. Podczas wyszukiwania i odkrycia są często ze sobą powiązane, wyszukiwanie zazwyczaj wiąże pobierania muzyki, który jest znany a priori. Odkrycie polega na znalezieniu muzyki nieznanej wcześniej do słuchacza.

Istnieje wiele podejść do wyszukiwania muzyki i odkrycia muzyki.  Obejmują one:

• Query-by-Metadata – wyszukiwanie (search)

We consider metadata to be factual information associated with music. This includes song titles, album titles, artist or band names, composer names, record labels, awards, and popularity information (e.g., record charts, sales information). We also consider metadata to include any relevant biographical (e.g., “raised by grandmother”), socio-cultural (e.g., “influenced by blues tradition at an early age”), economic (e.g., “busked on the streets to make a living”), chronological (e.g., “born in 1945”), and geographical (e.g., “grew up in London”) information. Music metadata is often stored in a structured database and contains relational data (e.g., “played with the Yardbirds”, “influenced by Robert Johnson”). Query-by-metadata involves retrieving music from a database by specifying a (text-based) query. For example, a user can find “all Eric Clapton songs that were recorded prior to 1991.” The most well-known examples of a query-by-metadata systems are commercial music retailers (e.g., Apple iTunes) and Internet search engines (e.g., Google).

• Query-by-performance – wyszukiwanie (Search)

Based on human performance. However, it can be difficult, especially for an untrained user, to emulate the tempo, pitch, melody, and timbre well enough to make these systems effective.

• Query-by-fingerprint – wyszukiwanie (Search)

Like query-by-humming, query-by-fingerprint is a technology that involves recording an audio sample and matching it to a database of songs. However, a fingerprint must be a recording of the original audio content rather then a human-generated imitation. Companies like Shazam and Gracenote offer services where a customer can use a cellphone to record a song that is playing in a natural environment (e.g., in a bar, at a party, on the radio). The recording is matched against a large database of music fingerprints and the name of the identified song is text-messaged back to the customer’s cellphone.

• Recommendation-by-popularity – odkrycije (Discovery)

The two most common way people discover new music is by listening to AM/FM radio and by watching music television.

• Browse-by-genre – odkrycije (Discovery)

A music genre is an ontological construct that is used to relate songs or artists, usually based on acoustic or socio-cultural similarity. Examples range from broad genres like ‘Rock’ and ‘World’ to more refined genres like ‘Neo-bop’ and ‘Nu Skool Breaks.’ A taxonomy of genres is often represented as a directed asymmetric graph (e.g., graph of jazz influences) or a tree (e.g., hierarchy of genres and subgenres). However, genres can be ill-defined and taxonomies are often organized in an inconsistent manner Despite the shortcomings, they are commonly used by both individuals and music retailers (e.g., Tower Records, Amazon) to organize collections of music. However, as the size of the music collection grows, a taxonomy of genres will become cumbersome in terms of the number of genres and/or the number of songs that are related to each genre.

• Query-by-similarity – odkrycije (Discovery)

One of the more natural paradigms for finding music is to make use of known songs or artists. While music similarity can be accessed in a number of ways, it is helpful to focus on three types of similarity: acoustic similarity, social similarity, and semantic similarity.

Acoustic similarity is accessed through the analysis and comparison of multiple audio signals (e.g., “songs that sound similar to Jimi Hendrix’s ‘Voodoo Chile’ ”).

– Social similarity, also referred to as collaborative filtering, finds music based on the preference ratings or purchase sales records from a large group of users (e.g., “people who like Radiohead also like Coldplay”). This is the approach used by Amazon and Last.fm to recommend music to their customers.

– Semantic similarity uses common semantic information (e.g., common genres, instruments, emotional responses, vocal characteristics, etc.) to measure the similarity between songs or artists. It has the added benefit of allowing users to specify which semantic concepts are most important when determining music similarity. It is important to note that acoustic similarity is generally determined automatically with signal processing and machine learning. Social and semantic similarity requires that these songs be annotated by humans before similarity can be accessed. Pandora’s recommendation engine can be thought of as being half acoustic and half semantic similarity since human experts are used to annotate each music track with musically objective concepts.

• Query-by-description – odkrycije (Discovery)

Individuals often use words to describe music. For example, one might say that “Wild Horses” by the Rolling Stones is “a sad folk-rock tune that features somber strumming of an acoustic guitar and a minimalist use of piano and electric slide guitar.” Such descriptions are full of semantic information that can be useful for music retrieval. More specifically, we can annotate music with tags, which are short text-based tokens, such as ‘sad’, ‘folk-rock’, and ‘electric slide guitar.’ Music tags can be collected from humans and generated automatically using an autotagging system. See Chapter 2 for a description of our autotagging system and Chapter 4 for a comparison of tag collection approaches. Query-bydescription can also include other types of music information such as the number of beats per minute (BPM) or the musical key of a song.

• Heterogeneous Queries – wyszukiwanie  & odkrycije (Search & Discovery)

We can also combine various query paradigms to construct useful new hybrid query paradigms. For example, in this dissertation, we will describe a system that combines metadata, similarity, and description so that a user can find songs that are ‘mellow acoustic Beatles-like music’ or ‘electrified and intense Beatleslike music’.

Pandora Radio to jest automatyczny rekomendacyjny serwis muzyczny Projekta Genome „Music Genome Project”, który jest „dostępny tylko w Stanach Zjednoczonych”. Usługa odgrywa fragmenty muzyczne podobne do sugestii piosenki wprowadzanej przez użytkownika. Użytkownik podaje pozytywne lub negatywne opinie utworów wybranych przez służby, które są brane pod uwagę dla przyszłych wyborów.

Podczas słuchania, użytkownicy uzyskują możliwość zakupu utworów lub albumów online. Ponad 400 różnych muzycznych atrybutów brano pod uwagę przy wyborze następnego utworu. Te ponad 400 atrybutów są łączone w większe grupy. Istnieje 2.000 takich grup. Przykładami są synkopy rytm, klucz tonalności, harmonie wokalne, instrumentalne i wyświetlane biegłości.

Pandora media player (odtwarzacz multimedialny) jest oparty na OpenLaszlo. Również Pandorę można uzyskać przez wiele stand-alone players. W dniu 11 lipca 2008, Pandora uruchomiła mobilną wersję swojego oprogramowania dla Apple iPhone, iPad i iPod Touch przez iTunes App Store. Pandora jest także dostępna dla telefonów z systemem Android, platformy BlackBerry, webOS HP (używane w Palm Pre Palm Pixi, Palm Pre 2, andHP Veer), oraz Windows Mobile. Pandora była dostawcą dla MSN Radio aż MSN przerwał swoje usługi radia internetowego w dniu 18 czerwca 2008 roku.

Usługa ma dwa plany subskrypcji: bezpłatną subskrypcję wspierane przez reklamy, i płatna bez reklam. Reklama jest  też w Pandora Mobile dla telefonów komórkowych i Pandora w urządzeniu domowego komputera. Najwięcej użytkowników wybierają darmową subskrypcję.

Jako  IPO, Pandora miała 80.,000 artystów, 800.000 utworów w swojej bibliotece i 80 milionów użytkowników.

W maju 2010, Pandora została nazwana w liscie firm „2010 Lead411 Hottest San Francisco”. W styczniu 2011 roku, Pandora spotkała się z bankierami o rozważenie ewentualny 100.000.000 dolarów IPO. Przedsiębiorstwo złożyło wniosek z SEC na $ 100mm$ IPO na 11 lutego 2011 i oficjalnie rozpoczęła działalność na New York Stock Exchange z symbolem „P” w dniu 15 czerwca 2011 w cenie $ 16/share. To dało im wyceny prawie 2,6 mld USD. W trakcie 2011 roku fiskalnego, Pandora zgłasiła 138.000.000 dolarów przychodów z których 1,8 milionów dolarów straty netto, bez specjalnych dywidendów związanych z IPO.

Korzystanie

Stacja zaczyna pracę przez podanie wykonawcy lub utworu, lub kombinacji wielu przedmiotów jakiegokolwiek rodzaju w jednej stacji. Słuchacze mogą korzystać z gotowych stacji i stacji innych użytkowników. Każdy odtwarzany utwór może być zaznaczony jako korzystne (kciuk do góry) lub niekorzystne (kciuk w dół) przyciski, które określają czy należy je grać, a ile powinno być klasyfikowanych jako utwory podobne i będą odtwarzane w stacji. Druga negatywna odpowiedź dla tego samego wykonawcy prowadzi do zakazu gry artysty na wybranej stacji, chyba że użytkownik oznaczy artyste pozytywnie przy innej okazji. Brak reakcji aplikuje  do atrybutów muzycznych lub albumów. Niekorzystna reakcja natychmiast przerywa grę utworu.

Ponadto, jest wyposażona w menu wyboru: „Jestem zmęczony tą piosenką”, „Dlaczego ten utwór jest wybrany?”, „Przenieś piosenki do innej stacji”, „ Nowa stacja” i „Zakładki”. Przycisk „Kup” znajduje się na górze każdego bloku piosenki. Stamtąd słuchaczy mogą klikać na linki, aby kupić piosenki z iTunes lub Amazon.

Jak korzystać z Radio Pandora w Polsce?

Po pierwsze musimy posiadać konto na stronie www.pandora.com. Aby Pandora nie wykryła naszej lokalizacji (działa tylko na terenie USA) musimy ukryć nasz adres IP w tym celu popieramy program Ultrasurf (http://ultrasurf.us/download/u.zip). Uruchamiamy.

Teraz uruchamiamy przeglądarkę np. Chrome. Wchodzimy w opcje i sprawdzamy lub konfigurujemy polaczenie proxy.

Powinno być jak poniżej

Jeśli mamy takie parametry zatwierdzamy wszystko i możemy wejść na stronę www.pandora.com i zakładamy konto.

Najważniejsza rzecz przy zakładaniu konta to ze kod pocztowy musi być z terenu USA (najlepiej wyszukać w googlach lub użyć strony http://www.fakeusaaddress.com/.

Po rejestracji i zalogowaniu możemy słuchać Pandory w przeglądarce. Niestety Ulstrasurf czasem gubi polaczenie i wymaga odświeżenia strony. Problem ten rozwiązuje użycie klienta sieci Tor. Zamiast programu Ultra surf.

2. Instalacja Tora.

Wchodzimy na stronę https://www.torproject.org/projects/vidalia.html.en. I pobieramy https://www.torproject.org/dist/vidalia-bundles/vidalia-bundle-0.2.2.35-0.2.15.exe

Albo https://archive.torproject.org/tor-package-archive/technology-preview/vidalia-bundle-0.2.3.1-alpha-0.3.0.exe (dla windows 7)

Po instalacji uruchamiamy Vidalia

Następnie klikamy na „Pokaz siec”

Wyszukujemy kilka Nodow z lokalizacja USA (Patrz obrazek). Prawy przycisk myszy na Nodzie Tora i kopiujemy odcisk palca (najlepiej do notatnika skopiować kilka odcisków maja takie format

$17B82BCC67063E01817E7FD03ED15E345E9FE4A9)

Teraz wchodzimy w „Ustawienia”, zakładka  zaawansowane

Edytujemy plik ustawień tora. Powinien on wyglądać tak:

ControlPort 9051

ExitNodes

Log notice stdout

SocksListenAddress 127.0.0.1

W sekcji ExitNodes wklejamy nasze odciski palców ($A5765767798789798, $A89088798…..)

Zatwierdzamy plik konfiguracyjny.

Zmieniamy ustawienia przeglądarki i serwero proxy na następujące

Zatwierdzamy i możemy słuchać Pandory.

3. Android

Telefon musi zostać z rootowany tzn użytkownik musi mieć pełne prawa administratora. Instrukcję rootwania dla każdego modelu przebiega inaczej. Przykładowe tutaj Samsung Galaxy S2

http://samsungomania.pl/jak-uzyskac-root-w-samsungu-galaxy-s-ii-poradnik.html

Po tej operacji

  • Potrzebujemy aplikacji MarketEnabler. Która umożliwi nam tymczasowa zmianę operatora na USA. Pobieramy z marketu aplikacje Pandora Radio.
  • Pobieramy z android marketu aplikacje Orbot (klient sieci Tor) w ustawieniach Orbota’a ustawiamy (select Apps -> Pandora) oraz w „Exit Nodes” wpisujemy nasze odciski palców (patrz wyżej)
  • Uruchamiamy Orbot potem Pandorze -> logujemy się na swoje konto i słuchamy 🙂

Ekaterina Z.,

15 stycznia, 2012

Co to jest SPARQL i do czego służy?

- autor: tsissput

W niedalekiej przeszłości każda baza RDF implementowała swój własny język zapytań na grafie RDF. W takiej sytuacji przeniesienie się z jednego repozytorium do drugiego było bardzo trudne. Ponadto, mimo tego, że niewiele serwisów udostępniało publicznie swoje dane, to bez jednego standardu zapytań, konieczne było tworzenie agentów semantycznych, które potrafiły zadawać pytania w różnych językach. I tak oto powstał wspólny język zapytań stworzony przez konsorcjum W3C. Język SPARQL stał się na tyle popularny, że udostępnienie tzw. końcówki SPARQL (ang. SPARQL endpoint) jest jednym ze standardów funkcjonowania serwisów semantycznych zgodnych z Linked Open Data.

SPARQL (ang. Simple Protocol And RDF Query Language) – jest to język zapytań i protokół dla plików RDF. Dzięki SPARQL można z plików RDF wyciągać zawężone dane według kryteriów określonych poprzez predykat RDF. W styczniu 2008 SPARQL został uznany jako standard W3C. Jest to jeden z kluczowych standardów w technologii sieci semantycznych. Język ten swoją składnią przypomina język SQL, dlatego programiści obeznani z relacyjnymi bazami danych w prosty sposób będą mogli przerzucić się na technologie semantyczne. Ponadto zapytania mogą być zadawane w postaci grafów RDF uwzględniających zawartą w danych wiedzę. Wzorce występujące w zapytaniach mają formę trójek RDF wraz ze słowami kluczowymi języka. Zapytanie SPARQL składa się z trzech części:

  • część prefiksów, w której definiowane są adresy URI danych oraz ontologii lub innych dokumentów
  • część opisująca rodzaj zapytania (SELECT, CONSTRUCT, ASK, DESCRIBE),
  • część składająca się ze wzorca w postaci trójek RDF wraz z dodatkowymi elementami (FILTER, ORDER BY, OPTIONAL itd.).

Oprócz tego, że SPARQL to język zapytań, jest to również protokół przesyłu danych typu RDF poprzez technologie Web Service: WSDL 2.0 i SOAP 1.2. Ponadto rozwijany jest również SPARQL Query Results XML – Format będący specyfikacją standardu dokumentów opisujących rezultaty zapytań typu SELECT i ASK. SPARQL endpoint – jest to zgodny protokół serwisowy, opisany w specyfikacji SPROT. Protokół ten pozwala użytkownikom końcowym (ludziom lub maszynom) na sprawdzenie.

W języku SPARQL są wyspecyfikowane cztery różne warianty zapytania w zależności od potrzeb:

  • Zapytanie SELECT:
    • używane do wyciągnięcia surowych danych z SPARQL endpoint, wyniki są zwracane w formie tabeli.
  • Zapytanie CONSTRUCT
    • służy do pobierania informacji z SPARQL endpoint, transformuje wyniki na graf RDF.
  • Zapytanie ASK
    • służy do sprawdzenia czy podane zapytanie zwróci jakiś wynik – wyrażenie zwraca wynik w postaci Prawda / Fałsz.
  • Zapytanie DESCRIBE
    • używane do wyodrębnienia grafu RDF z SPARQL endpoint, wynikiem będzie najmniejszy możliwy graf opisujący dany zasób.

Każde z wyżej wymienionych rodzajów zapytań musi posiadać blok WHERE który może ograniczać zapytanie. Tylko w przypadku zapytania DESCRIBE zapytanie WHERE jest opcjonalne. Na kilku przykładach zaprezentuje jak wykonywać zapytania w SPARQL.

 

Weźmy pod uwagę prosty graf RDF:

<http://www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/title> "SPARQL – język zapytań grafów RDF".
<http:// www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/creator> "Andrzej Klops".

Jeśli chcemy zapytać się o nazwę artykułu który znajduje się pod adresem <http://www.przykladgrafurdf.com/&gt;  możemy to zrobić tworząc zapytanie:

SELECT ?tytul
WHERE
{
< http://www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/title> ?tytul.
}

Zapytanie w języku SPARQL rozpoczynamy od klauzuli SELECT, po której podajemy listę zmiennych, o które pytamy. Natomiast w sekcji WHERE pomiędzy nawiasami sześciennymi wpisujemy szablon grafu RDF, gdzie pewne elementy grafu są zastępowane zmiennymi rozpoczynającymi się od znaku zapytania. Oczywiście nie musimy za każdym razem wpisywać pełnych URI, aby tego uniknąć możemy skorzystać z prefiksów. Wcześniejsze zapytanie uzupełnione o prefiksy wyglądałoby następująco:

PREFIX dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?tytul
WHERE
{
<http://www.przykladgrafurdf.com/> dc:title ?tytul.
}

A co w przypadku, kiedy chcemy zapytać o więcej informacji o danym zasobie? Poniższy przykład pokazuje, jak w prosty sposób można to zrobić:

<http://www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/title> "SPARQL – język zapytań grafów RDF".
<http://www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/creator> "Andrzej Klops".
<http://www.przykladgrafurdf.com/>
<http://purl.org/dc/elements/1.1/title> „Zastosowanie ontologii w grafach RDF".
<http://www.przykladgrafurdfdwa.com/>
<http://purl.org/dc/elements/1.1/creator>"Andrzej Kobyła".

Zmienione zapytanie wyciągające więcej informacji o danym zasobie:

PREFIX dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?url, ?tytul, ?autor
WHERE
{
?url dc:title ?tytul.
?url dc:creator ?autor.
}

w wyniku zwróci:

url

tytul

autor

http://www.przykladgrafurdf.com

SPARQL – język zapytań grafów RDF

Andrzej Klops

http://www.przykladgrafurdfdwa.com

Zastosowanie ontologii w grafach RDF

Andrzej Kobyła

 

W zapytaniu możemy również wybierać trójki na podstawie literałów w zdaniu. Na przykład dla grafu:

@prefix dc: <http://purl.org/dc/elements/1.1/> .
<http://www.semanticschool.com/> dc:lang "Polski".
<http://semdl.info/> dc:lang "English".
<http://semdl.info/> dc:type "Site"@en.
<http://www.semanticschool.com/> dc:type "Strona"@pl.
<http://www.semanticschool.com/> <http://example.com/articleCount> 43.
<http://blog.knowledgehives.com/> <http://example.com/articleCount> 9.
<http://semdl.info/> dc:date "02/01/2010"^^xsd:date.
<http://www.semanticschool.com/> dc:date "09/19/2009"^^xsd:date.
<http://semdl.info/> <http://example.com/inPolish> "false"^^xsd:boolean.
<http://www.semanticschool.com/> <http://example.com/inPolish> "true"^^xsd:boolean.

Wykonanie poniższego zapytania na powyższym grafie zwróci stronę napisaną po angielsku.

PREFIX dc: <http://purl.org/dc/elements/1.1/> .
SELECT ?url WHERE { ?url dc:lang "English". }

Oczywiście SELECT z klauzulą WHERE to nie jedyna możliwość tworzenia zapytań. Na poniższym grafie zostanie zaprezentowany przykład działania innych klauzuli takich jak:

– CONSTRUCT

– ASK

– DESCRIBE

Na początku zaczniemy od prostego zapytania SELECT, w którym to poszukamy te podgrafy w, których istnieją zasoby będące obiektami w zdaniach, gdzie podmiotem jest :B a predykatem jest :e, oraz są oddalone od zasobu :A o dwa stopnie.

SELECT ?V ?V1 ?e1 ?e2
WHERE
{
:B :e ?V.
:A ?e1 ?V1.
?V1 ?e2 ?V.
}

W wyniku otrzymamy tabelę zawierającą podgrafy spełniający nasz warunek:

 

W kolejnym kroku zostanie przedstawione działanie klauzuli CONSTRUCT. W tym przypadku zadaniem jest stworzenie grafu zawierającego ścieżki prowadzące od zasobu :A i :B do zasobów będących wynikami poprzedniego zapytania, przy czym predykaty na ścieżce od zasobu :A do znalezionego zasobu zostaną zastąpione przez predykat :p.

CONSTRUCT
{
:B :e ?V.
:A :p ?V1.
?V1 :p ?V.
}
WHERE
{
:B :e ?V.
:A ?e1 ?V1.
?V1 ?e2 ?V.
}

To zapytanie zwróci nam następujący wynik w postaci grafu RDF. Poniżej podane rozwiązanie w języku Turtle.

:B :e :F, :E, :G .
:A :p :B .
:B :p :E , :F , :G .
:A :p _:c .
_:c :p :F .
:A :p :D .
:D :p :E .

Za pomocą zapytania ASK możemy sprawdzić np. czy :F znajduje się na ścieżce o długości 2 z :A do :E.

ASK
{
:A ?p1 :F.
:F ?p2 :E.
}

To zapytanie zwróci w wyniku wartość ”FALSE

W ostatnim jest zaprezentowane działanie klauzuli DESCRIBE dla zapytania o zmienną ?a

DESCRIBE ?a
WHERE
{
?a :b :B.
}

Wynikiem tego zapytania jest opis zasobu który został dopasowany pod zmienna a:

:A :a :D ;
:b :B ,
_:c .

Jak widać, język SPARQL jest dostosowany do odpytywania repozytoriów danych zapisanych w formacie RDF i tym różni się od znanego już nam języka SQL. Inspiruje się nim jednak, jeśli chodzi o składnię: podobnie jak on posiada takie klauzule jak SELECT, WHERE itd. Każda osoba zajmująca się na poważnie technologią Semantic Web powinna poznać składnię tego języka.

 

Źródła:

http://www.ploug.org.pl/konf_09/materialy/pdf/17_Semantic_Web_-_technologie.pdf

http://www.w3.org/TR/rdf-sparql-query/

http://www.semanticschool.com/

http://en.wikipedia.org/wiki/SPARQL

Autor: 103890

15 stycznia, 2012

Web 3.0 – czyli semantyczny Internet.

- autor: tsissput

W dzisiejszych czasach technologie informatyczne bardzo szybko wkraczają do naszego codziennego życia. Każdego dnia bez żadnego problemu możemy znaleźć informacje dotyczące otaczającego nas świata, sprawdzić pocztę, a to wszystko bez wychodzenia z domu. Możemy również kupić bilet lotniczy, kolejowy, zapisać się do lekarza, kupić wycieczkę zagraniczną; po prostu dzięki technologii możemy to wszystko załatwić bez wychodzenia z domu. A gdyby te wszystkie codzienne sprawy wykonywał za nas komputer? Według Tima Bernersa-Lee, którego można nazwać twórcą sieci WWW, w swoim artykule z 2001 roku, napisał że w niedalekiej przyszłości powstaną aplikacje, które za nas ludzi będą wykonywać codzienne sprawy. Takie aplikacje kupią za nas bilet lotniczy, zapiszą nas na wizytę u lekarza oraz zarezerwuje bilety do kina na weekend. Taki rozkład zajęć zostanie zsynchronizowany z kalendarzem na naszym laptopie i przesłany do naszego podręcznego urządzenia czy też telefonu.

W chwili obecnej wizja aplikacji, które wykonują za nas codzienne sprawy wcale nie jest aż tak odległa jak by się to mogło wydawać. Dynamiczny rozwój technologii informatycznych może spowodować, że już niedługo takie oprogramowanie będzie można mieć w każdym podręcznym urządzeniu: czy to w telefonie, urządzeniu PDA czy laptopie. Aby zrozumieć, jak mogłyby działać takie aplikacje, należy spojrzeć w inny sposób na Internet. Internet, w którym witryny, linki, elementy multimedialne i bazy danych uzupełnione są o semantyczne informacje, dzięki którym sieć staje się inteligentna, zdolna nie tylko do przechowywania i przesyłania, ale również rozumienia danych i wnioskowania, to właśnie jest obraz Web 3.0.

Technologie Web 3.0 – pozwalają na informowanie sieci, czym są informacje, znajdujące się na dyskach serwerów w postaci baz danych czy stron WWW. Dzięki tworzeniu i publikowaniu metadanych w postaci dokumentów RDF, OWL, oraz odpowiedniego otagowania w kodzie HTML, aplikacje mogą zrozumieć, z jakimi danymi mają do czynienia i mogą umiejętnie je spożytkować. Obecnie najczęściej do opisu zasobów Internetu wykorzystuje się takie standardy jak RDF, OWL czy Mikrotechniki.

RDF (ang. Resource Description Framework) – jest to język opracowany przez konsorcjum W3C, bazujący na składni standardu XML, który pozwala na opisywanie zasobów sieci Web identyfikowanych za pomocą URI. Założeniem standardu RDF jest prezentacja danych zawartych w zasobach Web w sposób łatwo przetwarzany przez programy komputerowe, a nie na ich wyświetlaniu użytkownikom. Strukturę każdego wyrażenia RDF stanowi zbiór trójek. Każdy zbiór składa się z tematu (podmiotu), predykatu i obiektu. Taki zbiór trójek (ang. triples) można zaprezentować w postaci grafu RDF (Rys. 1).

 

Rys. 1 Struktura danych RDF

 

Rys. 2 Przykładowy dokument RDF

Na Rys. 2 przedstawiono przykładowy dokument RDF, w którym podmiot [1] stanowi opisywany zasób, predykat [2] określa, jaka jego własność jest opisywana, zaś obiekt [3] stanowi wartość tej własności. Podstawowym mechanizmem stosowanym w języku RDF do identyfikacji podmiotu, predykatu i obiektu jest URI.

Język OWL – (ang. Web Ontology Language) – również jest standardem konsorcjum W3C i jest przeznaczony do definiowania semantyki dokumentów poprzez specyfikowanie wiedzy dziedzinowej. Innymi słowy jest rozszerzeniem RDF, formalnie mogącym zapisać ontologie. Standard OWL jest dzielony na trzy odmiany:

  • OWL Lite;
  • OWL DL (rozszerzenie OWL Lite);
  • OWL Full (rozszerzenie OWL DL).

Język RDF i OWL są bardzo podobne i dotyczą tego samego problemu, jednak OWL jest językiem bardziej rozbudowanym, z większym słownikiem i mocniejszą składnią.

Oprócz RDF i OWL do opisu zasobów Internetu stosuje się mikroformaty. Mikroformaty – są to wzory kodu HTML, które reprezentują powszechnie publikowane informacje takie jak: informacje adresowe, dane personalne, dane o wydarzeniach, spotkaniach. Taka reprezentacja pozwala w efektywny sposób prezentować i przetwarzać informacje w sieci. Mikroformaty nie są częścią specyfikacji języka HTML czy XHTML, są to zasady stosowania klas i elementów XHTML, w taki sposób, aby informacje zapisywane dzięki nim były czytelne zarówno dla człowieka jak i maszyny. To właśnie mikroformaty są najprostszą i najłatwiejszą drogą do opisu semantycznego zamieszczanych w Internecie danych. Dobrze zapisane mogą zapewnić zgodność informacji z urządzeniami mobilnymi oraz innymi aplikacjami tworzonymi w dziedzinie technologii Semantic Web. Na witrynie poświęconej mikroformatom http://microformats.org/wiki/Main_Page-pl publikowane są na bieżąco najnowsze wiadomości związane z tą technologią. W mikroformatach stosowany jest atrybut class tagów HTML ( często <span> i <div>) w celu przypisania krótkich i opisowych nazw do elementów oraz ich właściwości. Aby przybliżyć działanie mikroformatów, przedstawiono przykład krótkiego bloku HTML zawierającego podstawowe dane kontaktowe w postaci wizytówki osoby Dariusza Boczka i poniżej ten sam kod HTML opisany przy użyciu wizytówki: hCard – jednego z wielu rodzajów mikroformatów.

<div>
   <img src="www.przyklad.pl/dariuszboczek.jpg" />
   <strong>Dariusz Boczek</strong>
   Dyrektor działu Marketingu
   ul. Torowa 15
   Tarnowo, woj. mazowieckie, 65-123
</div>
Ten sam przykład opisany za pomocą hCard.
<div>
   <img src="www.przyklad.pl/dariuszboczek.jpg" />
   <strong>Dariusz Boczek</strong>
   <span> Dyrektor </span> działu
<span>Marketingu</span>
   <span>
      <span> ul. Torowa 15</span>
<span class="locality">Tarnowo</span>,
<span class="region">woj. mazowieckie</span>,
      <span>65-123</span>
   </span>
</div>

hCard – przekłada pola wizytówek w formacie vcard na nazwy klas. Wizytówka musi być zawarta w elemencie z klasą vcard. W tej klasie zawartość poszczególnych elementów z odpowiednimi klasami jest interpretowana jako pola wizytówki. W naszym przykładzie:

  • class=”photo” – wskazuje adres URI do zdjęcia,
  • class=”fn” – imie i nazwisko,
  • class=”title” – opis stanowiska,
  • class=”org” – organizacje,
  • class=”adr” – dane adresowe,
    • class=”street-address” – nazwa ulicy i numer mieszkania
    • class=”locality” – nazwa miejscowości
    • class=”postal-code” – kod pocztowy

I tak dzięki kilku klasom udało nam się zapisać wizytówkę w formacie hCard. Oprócz użytych wyżej elementów w formacie hCard istnieja takie typy jak:

  • class=”email” – adres mailowy (stosowane w znaczniku <a>)
  • class=” country-name” – kraj
  • class=”tel” – może zawierać bezpośrednio numer telefonu albo kilka numerów w elementach określających ich typ (czy domowy/do pracy, czy ma fax)

Elementy, które nie mają nadanej klasy specyficznej dla formatu hCard po prostu nie będą częścią wizytówki. Można to wykorzystać do nadania dodatkowego formatowania, nagłówków pól, itp.

Podsumowując, Web 3.0, czyli semantyczna sieć,  jest dopiero w początkowej fazie rozwoju. Należy jeszcze poczekać aż wszystkie zasoby internetowe będą opisywane w sposób zrozumiały dla maszyn. Aby to było możliwe, należy każdy zasób w Internecie opisać za pomocą takich standardów jak RDF, OWL czy mikroformaty. Niestety, obecnie jest jeszcze wiele stron, które nie są opisywane za pomocą ww. języków, czyli nie mogą być wykorzystywane przez maszyny. Web 3.0 ma pozwalać kreować nową wiedzę z istniejących zasobów Internetu przy pomocy specjalnego oprogramowania wyposażonego w mechanizm wnioskowania. Niestety założenie to nie będzie spełnione, jeśli zasoby nie będą odpowiednio opisane.


Źródła:

http://www.w3.org/RDF/

http://www.w3.org/2004/OWL/

http://microformats.org/wiki/Main_Page-pl

http://pl.wikipedia.org/wiki/Semantic_Web

 

Autor: 103890

15 stycznia, 2012

Dzieci w sieciach społecznościowych

- autor: tsissput

Obecnie aktualizowanie statusów, tagowanie zdjęć i korzystanie z różnego rodzaju gier online dostępnych z konta na danym serwisie społecznościowym nie są używane tylko przez dorosłych i nastolatków.

Badacze, analizujący takie sieci jak Facebook, czy MySpace, mówią o coraz większej liczbie dzieci, które lekceważąc przepisy (wymienione serwisy podkreślają, że minimalny wiek użytkownika to 13 lat) rejestrują się, co umożliwia im łatwy dostęp do zakazanych dla nich treści.

Często świadomie wykorzystują przy tym fakt, iż w praktyce bardzo trudno jest zweryfikować wiek osoby zakładającej nowe konto.

Naukowcy twierdzą, że korzystanie z serwisów społecznościowych przez osoby niedojrzałe, może działać wyniszczająco na ich umiejętności interpersonale. Skutki dla nieletnich mogą zatem obejmować osłabienie lub całkowite zatracenie ich zdolności komunikacyjnych oraz do zawierania nowych kontaktów. Należy bowiem pamiętać, że nadużywanie internetu osłabia więzi społeczne, wywiera destrukcyjny wpływ na relacje międzyludzkie oraz sprzyja tworzeniu się lęków społecznych, a dotyczy to w głównej mierze właśnie osób młodych.

Z drugiej strony istnieje również duża grupa ekspertów, twierdzących, że użytkowanie stron społecznościowo- medialnych w stopniu umiarkowanym może bardzo korzystnie wpływać na rozwój mózgu.

W roku 2006 w dwóch badaniach przeprowadzonych przez Pew Internet Research na grupie około 1000 nastolatków, 38% respondentów w wieku od 12 do 14 lat posiadało profile społecznościowe różnego rodzaju. Aż 61% ankietowanych w wieku 12-17 odpowiedziało, że używają serwisów takich jak Facebook, aby wysyłać wiadomości do przyjaciół i znajomych, zaś 42% przyznało, że robi to codziennie.

Można podejrzewać, że wyniki podobnych badań przeprowadzonych obecnie wskazywałyby na jeszcze większy odsetek nastolatków korzystających z profili społecznościowych, tym bardziej, że często konta zakładane są za zgodą samych rodziców. Brakuje jednak oficjalnych analiz dotyczących samych dzieci, ale istnieją dowody niepoparte naukowymi obserwacjami, że one również posiadają swoje konta.

Jak twierdzi profesor Uniwersytetu w Oxfordzie profesor Susan Greenfield spędzanie zbyt dużej ilości czasu na serwisach typu Facebook może prowadzić do infantylizacji pracy mózgu, wprowadzając młodego użytkownika go w stan małego dziecka, które jest zafascynowane przez jasne i kolorowe obrazy oraz oryginalne dźwięki. Efektem tego może być niewielkie zainteresowanie szarym dniem codziennym, trudność w zachowaniu koncentracji. Dalej, profesor Greenfield uważa, że takie młode osoby mają trudności w rozwiązywaniu problemów oraz planowaniu swojej, nawet niedalekiej, przyszłości.