1 stycznia, 2012

Facebook a rynek e-commerce

- autor: tsissput

Facebook jako niemal nowe medium szybko został dostrzeżony przez marketingowców. To między innymi dzięki temu serwisowi powstał termin social-marketingu. Modny termin, za którym stoi obecnie szerokie grono zwolenników. Jak grzyby po deszczu powstają kolejne strony fanowskie marek, aplikacje konkursowe, czy zwyczajne reklamy, będące owocem różnych kampanii marketingowych. Wszyscy zdążyliśmy się już przyzwyczaić, że nie tylko nasi znajomi angażują naszą uwagę, ale także firmy, widzące w nas potencjalnego klienta.

Potencjał Facebooka

Skoro marketing wdarł się do świata społeczności internetowych, to dlaczego nie pójść o krok dalej, do sprzedaży? Rynek e-commerce ciągle dynamicznie się rozwija. Czy na jego dalszy rozwój będzie zależał od umiejętnego wykorzystania potencjału Facebooka, tak jak to miało miejsce z marketingiem internetowym?

Jak sprzedawać z Facebookiem?

Jedną z przyczyn sukcesu Facebooka jest mnogość dostępnych narzędzi, które oferuje do tzw. „integracji”. Pojawia się zatem pytanie które z nich są najlepsze dla danego zastosowania, co przekłada się na stopień integracji procesu zakupu z serwisem.

Wtyczki społecznościowe

Wtyczki społecznościowe od Facebooka to gotowe fragmenty kodu, które można wykorzystać w ramach własnej witryny do wzbogacenia treści o konkretne funkcjonalności serwisu. Do najpopularniejszych wtyczek należy z pewnością przycisk „lubię to”, który jest już niemal integralną częścią wszystkich nowo powstałych stron i serwisów internetowych.

W kontekście sklepu pozwala na zwiększenie zaufania klienta do produktu przez poczucie rekomendacji ze strony znajomych. Widzimy bowiem kto z naszych znajomych użył wcześniej takiego przycisku, kto poleca nam dany produkt.

Więcej można osiągnąć przy pomocy Open Graph API. Dzięki temu API można, podobnie jak zrobił to Amazon, personalizować listy proponowanych produktów w oparciu o dane użytkownika np. o jego zainteresowaniach, czy ulubionych książkach. Co więcej, można także analizować w ten sposób profile znajomych klienta, co pozwala na jeszcze szersze spektrum możliwych rekomendacji. W przypadku wspomnianego Amazona klientowi przypomina się o urodzinach znajomych, wyświetlając nawet listę produktów, które sami dodali jako warte ich zainteresowania. W kontekście świąt Bożego Narodzenia niszczy to urok wysyłania listu do Świętego Mikołaja, ale poza tym sprawia, że kupno trafionego prezentu bliskiej osobie nigdy nie było tak proste.

Witryna wystawowa na Facebooku

Innym podejściem do wykorzystania sił drzemiących w Facebooku jest użycie go do prezentacji oferty. W takim przypadku aplikacja, bądź strona facebookowa jest jedynie atrakcyjną wizualnie i funkcjonalnie makietą prawdziwego sklepu. Przykładem może być tutaj Best Buy, oferujący płyty CD, gry komputerowe i filmy. Strona na Facebooku pozwala na zapoznanie się z nowościami na rynku, promocjami oraz zachęca do dzielenia się prezentowanymi produktami ze znajomymi. W jaki sposób?

Best Buy wykorzystuje ankiety, które pozwalają potencjalnemu klientowi wyrazić który produkt jego zdaniem jest lepszy. Wynik oczywiście jest dostępny publicznie. Prócz przycisków „lubię to!”, użytkownik ma możliwość poproszenia znajomych o opinię na temat konkretnego produktu. Ten prosty pomysł znów pozwala na umieszczenie informacji o sklepie oraz ofercie na ścianie użytkownika. W dodatku angażuje jego znajomych, co oczywiście ma wymiar marketingowy.

Kiedy jednak użytkownik zdecyduje się na zakup, zostaje przeniesiony poza środowisko Facebooka. To na zewnętrznej stronie dokonuje samej transakcji, a Facebook traktowany jest jedynie jako jedna z bram wejściowych do właściwego sklepu.

E-sklep na Facebooku

Najbardziej oczywistym i bezpośrednim sposobem na integrację internetowej sprzedaży z Facebookiem jest całkowite przeniesienie sklepu w środowisko serwisu społecznościowego. W jaki sposób można tego dokonać?

Można tego dokonać w stosunkowo prosty sposób wykorzystując już istniejący sklep. Wystarczy za pomocą dostępnego Facebook API wykryć wejście przez serwis i zmienić sposób prezentacji sklepu dostosowany do warunków facebookowych aplikacji. W minimalnej wersji oznacza to podmianę graficznego szablonu na węższy. Pozwoli to na dokonywanie zakupów bezpośrednio z Facebooka, ale nic ponad to. Oznacza to wypaczenie idei i marnotrawstwo potencjału dostępnych narzędzi.

W takim przypadku bowiem sklep internetowy pełni rolę pełnoprawnej aplikacji, która może korzystać z całego bogactwa oferowanego w ramach Facebook API. Oznacza to, że możemy np. pobrać dane do zamówienia i wysyłki bezpośrednio z profilu użytkownika, możemy podobnie jak w przypadku wspomnianego Amazona, tworzyć spersonalizowane listy rekomendowanych produktów i wiele więcej.

Nieco inną drogą jest wykorzystanie gotowych systemów e-commerce dedykowanych do sprzedaży jedynie przez Facebooka. To dobre rozwiązanie dla tych, którzy decydują się na sprzedaż jedynie za pośrednictwem Facebooka. Do takich aplikacji należy Shopping Mall, czy ShopTab. Są to zamknięte rozwiązania, a w przypadku ShopTab, także płatne. Z tego względu ich funkcjonalność jest ograniczona. Nie pozwala to na dopasowanie specyfiki sprzedaży do branży, nie daje pełnej kontroli takiej jak bardziej zaawansowane systemy e-commerce działające poza środowiskiem Facebooka.

Czy Facebook to szwajcarski scyzoryk?

Panuje powszechne przekonanie, że Facebook i ogólnie sieci społecznościowe są obecnie niezbędnym narzędziem wspomagającym promocję, czy kreowanie wizerunku. Czy pieniądze pompowane w kolejne kampanie marketingowe przynoszą na koniec dnia realny zysk w postaci nowych klientów, zwiększonych obrotów i tym samym sprzedaży? W przypadku gruntownie przemyślanych i oryginalnych kampanii social-marketingu – niewątpliwie tak. Natomiast w przypadku całej reszty, pozostaje to tajemnicą. Działa tutaj magia samej marki jaką stworzył Facebook.

A jak jest w przypadku rynku e-commerce? Czy opłaca się inwestować środki w nowy kanał sprzedaży? Czy wnosi on nową jakość dla samego klienta? Czy klienci są skłonni kupować równie często jak śledzić nowe zdjęcia na profilach swoich znajomych?

Sukces sprzedaży przez Facebooka w dużej mierze zależy od oferowanych produktów. Jedne są zwyczajnie bardziej przystosowane do środowiska społeczności internetowej. Dyskusja nad zakupem kosiarki między znajomymi jest mniej prawdopodobna niż wybór koncertu, który prowadzi ostatecznie do kupna biletów.

Prócz specyfiki branży ważny jest aspekt techniczny. Facebook może powiedzieć nam kim jest klient. Natomiast w zamian stawia ograniczenia takie jak wspomniana maksymalna szerokość graficznego szablonu, czy nieco wolniejszy czas ładowania strony. Dlatego nie ma większego sensu przenosić sklepu do środowiska Facebooka jeżeli nie ma za tym konkretnego planu jak wykorzystać informację o kliencie do zwiększenia sprzedaży.

Samo logo Facebooka obok naszego może nie wystarczyć.

Artur Polkowski (84866)

1 stycznia, 2012

Czym właściwie są gry typu MMORPG i skąd bierze się ich fenomen?

- autor: tsissput

MMORPG, czyli Massively Multiplayer Online Role Playing Game to gra, w której gracz wciela się w postać (najczęściej fantastyczną) i wykonuje pewne zadania (questy). Typ MMO świadczy o dużej ilości graczy, mogących grać ze sobą w wirtualnym świecie. Rozwój Internetu pozwolił producentom na  stworzenie prawdziwie masowych multiplayerów. Obecnie ocenia się liczbę wszystkich graczy na około 30 milionów. Niezłe party…

Sam pomysł gry RPG w trybie multiplayer powstał stosunkowo dawno, bowiem aż przed rokiem 1990. Pierwszymi tego typu grami były tzw. MUD-y, oparte na formie tekstowej, których serwery początkowo znajdowały się na maszynach akademickich. Pierwsze gry typu MMORPG (płatne) były również tekstowe np. “Island of Kesmai” z 1984 roku. Pierwszą graficzną „masówką” był Neverwinter Nights – gra zakończyła żywota w 1996 roku. Roczny dostęp do gry kosztował 6 dolarów.

Dziś najpopularniejszą grą typu MMORPG jest wszystkim znany World Of Warcraft. Premiera największego hitu firmy Blizzard miała miejsce w 2004 roku. W Europie gra pojawiła się w lutym 2005 roku. Mimo problemów z serwerami (ogromne lagi) gra odniosła bardzo duży sukces. Do dnia dzisiejszego na całym świecie. sprzedano już 13 milionów kopii. Mimo dość wysokich opłat wynoszących około 13 Euro miesięcznie, firma chwali się 9 milionową grupą abonentów z całego globu.

 

Kolejną znaną grą tego typu jest Tibia. Stworzona w 1997 roku przez 4 niemieckich studentów informatyki: Stephan Börzsönyi, Guido Lübke, Ulrich Schlott i Stephan Vogler. Gra istnieje do tej pory i mimo dość topornej grafiki (2D) cieszy się niemałą popularnością. Jej główną zaletą, obok grywalności, jest darmowy dostęp do oficjalnych serwerów gry. Oczywiście istnieje opcja Premium, która umożliwia dostęp do nowych lokacji, typów transportu oraz polepszonych statystyk.

To tak naprawdę bardzo mały fragment rynku gier MMORPG. Gier tego typu jest mnóstwo, zarówno darmowych jak i płatnych. Na stronie www.mmorpg.pl można znaleźć recenzje, opisy oraz nowości z dziedziny internetowych masówek rpg.

Tajemnicą poliszynela jest fakt uzależnienia użytkowników od gier typu MMORPG. Na początku zaczyna się niewinnie, od kilku godzin dziennie. Później zamienia się to w kilkanaście godzin, albo nawet i klika dni z rzędu.

W czym tkwi fenomen tych gier? Na pewno w możliwości spotkania wielu ciekawych ludzi bez wychodzenia z domu. Dodatkowo gry pozwalają oderwać się nam od świata codziennego, od problemów i zmartwień, przenoszą nas w wirtualny świat. W dzisiejszych czasach to bardzo popularne. Co więcej, gry te wprowadzają element współzawodnictwa (klany, sojusze), co tak bardzo pociąga użytkowników.

Każda czynność wykonywana zbyt długo, natarczywie i w sposób odbiegający od normalnego życia jest zagrożeniem i może stać się nałogiem. Im dłużej gracz przebywa w świecie wirtualnym tym bardziej zapomina o świecie realnym. Coraz trudniej jest mu “wrócić”, wyłączyć grę. Dość szeroko swego czasu był komentowany przypadek niemieckiego chłopca, który bardzo nerwowo reagował na zbyt długim czas włączania gry:

http://www.youtube.com/watch?v=M8pR1rZZHEs.

Odrębną sprawą jest możliwość zarobienia na grach MMORPG. Serwisy aukcyjne pełne są ofert, na których można kupić wysoko poziomowe postacie z WoW-a, Tibii czy Lineage-a. Koszt postaci (a w zasadzie konta) wynosi od kilku do kilkuset złotych. Pytanie brzmi, czy gdzieś po drodze nie zatraciło się tego, co najważniejsze w przypadku takich gier – dobrej zabawy.

Nie podlega wątpliwości, że gry typu MMORPG są fascynującą lecz i niebezpieczną rozrywką. Istnieje jednak prosta zasada, aby rozrywka nie spowodowała groźnych problemów medycznych. Jest to kwestia wyboru gracza, wystarczy, aby posiadał odpowiednie podejście do świata stworzonego przez twórców gry.

79169

1 stycznia, 2012

Reklama w Internecie – wirtualny agent

- autor: tsissput

Boty do komunikatorów udające ludzi istnieją już od dawna. Boty to programy komputerowe, których zadaniem jest udawanie zachowań ludzkich. Istnieją boty do gier (np. Quake III Arena – gra wieloosobowa, ale zamiast innych ludzi można grać właśnie z botami; gry MMORPG – ludzie tworzą boty, które nabijają poziom postaci gracza, często stosowanie takich botów jest zabronione na serwerze gry). Innym przykładem są boty do komunikatorów – choćby Infobot na gg (gg:100), który podaje rozkład jazdy autobusów, tłumaczy słowa. W 2003 roku pojawił się program o nazwie Snikers. On również jest botem, którego można zainstalować na własnym komputerze i używać na GG lub IRC. Do 2005 roku pojawiały się jego kolejne wersje. Można go pobrać ze strony http://snikers.pl ale należy najpierw wysłać smsa o podwyższonej cenie. Boty były dalej rozwijane – dostały głos i ciało. Ich rozwój przyczynił się do powstania wirtualnych agentów. Są to również programy (takie same jak boty), ich zadaniem jest doradzanie klientowi podczas pobytu np. w jakimś sklepie internetowym. Udają one pracowników danej firmy i można od nich uzyskać informacje o firmie, produktach, cenach. Przykładem może być wybór ubezpieczenia OC i AC – kiedyś trzeba było wypełniać tabelki, żeby uzyskać orientacyjną cenę ubezpieczenia, natomiast teraz wirtualny agent w rozmowie pyta o potrzebne dane, wyjaśnia, pomaga. Klientowi może się wydawać, że obsługuje go człowiek.

Firma InPost skorzystała z wirtualnych agentów, żeby reklamować swoje produkty, ale zrobili to w sposób dosyć kontrowersyjny. Podstawowa wersja strony nie wnosi nic ciekawego – można wybrać wirtualnego agenta – Anię lub Adama, z którym potem można porozmawiać i dowiedzieć się o świadczonych usługach a przede wszystkim o paczkomatach.

Jednakże za tą reklamą kryje się coś więcej…

Rozbierz Anię (albo Adama)

W Internecie można trafić na informacje o tych agentach, na youtube jest nawet film z rozmowy z jednym z nich. Jeśli się poda hasło rozpoczyna się rozbierany Quiz. W tym czasie sprawdzana jest wiedza użytkownika o paczkomatach. Nietrudno domyślić się jaka jest nagroda za poprawne odpowiedzi. 😉 Tajny kod, który należy podać (paczkomatxxx69) bardzo łatwo znaleźć w Internecie. Na stronie chatbots.org jest podana nawet dokładna instrukcja jakich udzielać odpowiedzi, żeby wygrać. Każde pytanie jest przetłumaczone na język angielski, więc nawet nie znając języka polskiego można sobie bez problemu poradzić.

Po wpisaniu kodu Ania (bądź Adam) zapyta czy masz 18 lat, a po twierdzącej odpowiedzi interfejs się nieco zmienia. Z biurowca przechodzimy do czerwonej sypialni z telewizorem na ścianie.

Od tej chwili należy wykazać się wiedzą o firmie InPost i paczkomatach odpowiadając na zadawane pytania. Wszystkie informacje w łatwy sposób można odnaleźć na stronach InPost. Pytania dotyczą dostępności paczkomatów, rozmiarów i wielkości paczek możliwych do wysłania paczkomatem czy też kosztów takich wysyłek. Po udzieleniu wszystkich poprawnych odpowiedzi Ania (Adam) zrzuca ciuszki a użytkownik może wysłać maila do znajomych z reklamą strony.

Jedna osoba może przyciągnąć kilku swoich znajomych, oni kolejnych znajomych i w efekcie dzięki takiej formie reklamy dużo ludzi ją zobaczy. Gdyby ograniczyć funkcjonalność jedynie do tej oficjalnej części to nie byłoby dużo chętnych do dzielenia się adresem strony, natomiast kontrowersja nagłaśnia sprawę. Pozostaje jeszcze tylko czekać, aż ktoś zacznie mówić, że to nieetyczne, że tak nie wolno – znów więcej ludzi usłyszy o stronie, więcej będzie chciało ją zobaczyć a paczkomaty InPostu staną się bardziej popularne.

83716.

1 stycznia, 2012

Biblioteki cyfrowe

- autor: tsissput

Z jednego z poprzednich postów dowiedzieliśmy się jak technologie Semantic Web umożliwiają zwiedzanie wirtualnych muzeów. Okazuje się, że Internet ofiaruje nam nie tylko dostęp do elektronicznej formy obrazów, ale także innych zasobów związanych z szeroko pojętą kulturą – muzyki, sztuki i, przede wszystkim literatury. W tym poście chciałabym się zająć tematyką bibliotek cyfrowych, ich tworzeniem i wykorzystaniem na świecie i w Polsce.

Czym jest biblioteka cyfrowa?

Kto z nas nigdy nie korzystał z biblioteki? Możemy tam korzystać z ogromnych zbiorów książek, czasopism, czy artykułów. Użytkownik może wypożyczyć książkę, lub przeczytać ją w bibliotecznej czytelni. Także w bibliotekach czuć ducha czasu, pojawienie się nowych trendów skłaniających się ku nowoczesnym technologiom, a wszystko to dzięki wykorzystaniu Internetu. Wpływ wszechogarniającej nas techniki wpłynął na powstanie bibliotek cyfrowych, czyli serwisów, których tak jak w tradycyjna biblioteka udostępniają czytelnikom swoje zasoby. Oczywiście zasoby te nie mają już formy papierowej. W bibliotekach cyfrowych przechowywane są cyfrowe odpowiedniki zasobów papierowych.

Funkcje biblioteki cyfrowej

Główną funkcją biblioteki cyfrowej jest zapewnianie spójnego i wygodnego dostępu dużych liczby cyfrowych zasobów. Zazwyczaj mają formę zintegrowanego zestawu narzędzi służących do:

  • Gromadzenia i przechowywania różnego typu obiektów cyfrowych (artykułów, zdjęć, nagrań itp.)
  • Zarządzania obiektami cyfrowymi znajdującymi się w bibliotece: katalogowanie, umożliwianie edycji, opisywania, przydzielanie do grup, itp.
  • Udostępnianie użytkownikom dokumentów cyfrowych znajdujących się w bibliotece – przeglądanie dokumentów poprzez dedykowany interfejs (np. stronę WWW), wyszukiwanie dokumentów, zabezpieczanie przed kopiowaniem.

Działanie biblioteki cyfrowej

(obrazek za Kurs e-learningowy Federacji Bibliotek Cyfrowych)

Na obrazku jest zilustrowany proces dodawania nowych obiektów do biblioteki cyfrowej. Autor dostarcza zasób w formie papierowej lub cyfrowej. Obiekt w formie cyfrowej może być od razu poddany dalszemu przetwarzaniu, natomiast obiekt w formie papierowej musi zostać poddany przez bibliotekę procesowi digitalizacji. Następnie wykonuję się skatalogowanie publikacji i obiekt (już cyfrowy) trafia do biblioteki cyfrowe,j za pośrednictwem której, mogą z niego korzystać czytelnicy.

Oczywiście najłatwiej umieścić w bibliotece cyfrowej dokumenty natywnie cyfrowe (ang. born digital), czyli takie, które zostały stworzone w formie cyfrowej. Jednak często, mamy do czynienia z zasobami papierowymi, które by umieścić je w bibliotece cyfrowej trzeba najpierw sprowadzić do formy cyfrowej. Dzieje się tak najczęściej w instytucjach posiadających zbiory będące częścią dziedzictwa kulturowego, jak muzea, biblioteki, instytucje naukowe. Dzięki cyfryzacji uzyskujemy dostęp do zasobów, które aktualnie lub w przyszłości mogłyby być niedostępne dla większości czytelników, z powodu ich znacznej wartości, miejsca, w którym są przechowywane i stanu. Dzięki stworzeniu ich cyfrowej reprezentacji dajemy dostęp do publikacji dla szerszego grona odbiorców, oraz umożliwiamy zachowanie dzieła dla przyszłych pokoleń. Obecnie często podczas digitalizacji dokonuje się rozpoznawania tekstu z otrzymanych danych obrazowych, by treść dokumentu była łatwiej dostępna dla automatycznego przetwarzania, np. wyszukiwania.

Metadane, czyli podstawa do semantyki

Metadane to termin wykorzystywany w wielu dziedzinach, w tym informatyce i bibliotekoznawstwie, oznaczający: dane o danych. Termin ten stosowany jest w wielu dziedzinach, w tym w informatyce, bibliotekoznawstwie, ale także w wielu innych. Tutaj meta dane będą stosowane do opisywania obiektów przechowywanych w bibliotekach. Metadane mają dobrze i dokładnie zdefiniowaną strukturę, co ułatwia wykorzystanie, wyszukiwanie i zarządzanie danymi zbiorami. Jeśli dobrze opiszemy obiekty za pomocą metadanych, to obiekt ten będzie użyteczny w przyszłości. Jest to jednak zadanie trudne, ze względu na dużą różnorodność zasobów i zastosowań, do których meta dane są używane. Metadane doskonale nadają się do tworzenia i określania powiązań między zasobami i nadawania znaczeń tym połączeniom, np. poprzez użycie ontologii. Przy dobrze zdefiniowanej strukturze metadanych proces jej tworzenia będzie łatwiejszy, gdyż de facto dokonaliśmy w ten sposób etapu identyfikacji słownictwa. Dodawanie metadanych do zasobów znajdujących się w Internecie przypomina ideę adnotacji semantycznych, mających przekształcić współczesny Internet w Semantyczny Internet. Kiedy mamy takie dane możliwa jest, interoperacyjność, czyli „zdolność danych zasobów do współpracy z innymi, dzięki usługom pozwalającym na wyszukiwanie danych z wielu źródeł, czy też poprzez udostępnianie metadanych innym usługom”*.

Istnieje wiele standardów metadanych. Jednym z nich, szeroko wykorzystywanym w bibliotekach cyfrowych jest Dublin Core, powstały w wyniku starań organizacji Dublin Core Metadata Initiative (DCMI), w kierunku ustanowienia jak najlepszych praktyk w zakresie metadanych. „Pierwotnym założeniem Dublin Core było zdefiniowanie zbioru elementów, które mogłyby być użyte przez autorów do opisu ich własnych zasobów sieciowych. Wobec rozrastania się zasobów elektronicznych i niemożności skatalogowania ich wszystkich przez biblioteki, celem stało się określenie kilku elementów i prostych zasad, które mogłyby stosować osoby niezajmujące się zawodowo katalogowaniem.”. Standard DC zawiera 15 podstawowych elementów i jest stosowany, jako podstawa dla OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), czyli protokółu umożliwiającego bibliotekom cyfrowym współpracę poprzez korzystanie z usługi przeszukiwania wspólnych zasobów. Z biegiem czasu specjaliści uznali, że istnieje zapotrzebowanie na bardziej szczegółowe atrybuty i opracowali rozszerzenie DC – standard DC Terms.

Przykłady bibliotek cyfrowych

Na całym świecie istnieje ogromna ilość bibliotek cyfrowych, kilka zasługuje na szczególną uwagę ze względu na ich rolę historyczną, zasięg geograficzny czy autorytet instytucji zarządzającej. Poniżej przedstawiamy w skrócie niektóre z interesujących inicjatyw związanych z tworzeniem bibliotek cyfrowych.

Projekt Gutenberg (http://www.gutenberg.org/) – uznawany za bibliotekę cyfrową na świecie, zapoczątkowany na początku lat siedemdziesiątych, w założeniu miał zachęcać do tworzenia i udostępniania książek elektronicznych. Ze strony projektu jest dostępnych ok. 33000 darmowych e-book-ów. Dostępne książki nie są chronione prawami autorskimi, ponieważ nigdy nie były tymi prawami obłożone (najstarsze teksty) lub prawa te wygasły.

Europeana (http://www.europeana.eu/) – biblioteka cyfrowa, muzeum i archiwum Europy. Projekt finansowany ze środków i inicjatywy Komisji Europejskiej. Europeana jest miejscem dającym dostęp do milionów książek, obrazów, filmów, archiwów i innych zasobów cyfrowych pochodzących z całej Europy. Ogromna liczba zasobów cyfrowych dostępnych za pośrednictwem Europeany ciągle wzrasta. Pod koniec 2010r. osiągnęła liczbę 15 milionów pozycji.  Serwis jest nieocenionym źródłem informacji o europejskich instytucjach kultury i nauki. Dla instytucji przechowujących obiekty dziedzictwa kulturowego daje możliwość dotarcia do większej liczby użytkowników oraz poszukiwania nowych partnerów. Komisja Europejska wspiera ten projekt w celu promowania rozwoju kreatywnej gospodarki i wspierania turystyki kulturowej.

Federacja Bibliotek Cyfrowych (http://fbc.pionier.net.pl/)nie jest to biblioteka cyfrowa, ale specjalny serwis utrzymywany przez Poznańskie Centrum Superkomputerowo-Sieciowe. Serwis ma ułatwiać wykorzystania zasobów polskich bibliotek cyfrowych i repozytoriów oraz popularyzować zasoby polskich bibliotek cyfrowych w świecie poprzez Internet. Serwis umożliwia wyszukiwanie i lokalizację obiektów cyfrowych wśród publikacji wszystkich bibliotek cyfrowych współpracujących z FBC. Ma także sprawdzać i zapobiegać tworzeniu duplikatów obiektów cyfrowych. Tworzyć statystyki wykorzystania bibliotek cyfrowych. Pełną listę bibliotek wspieranych przez FBC można znaleźć pod adresem: http://fbc.pionier.net.pl/owoc/list-libs.

dLibra – oprogramowanie do tworzenia bibliotek cyfrowych

Oprogramowanie dLibra, wytwarzane przez Poznańskie Centrum Superkomputerowo-Sieciowe. System może nie tylko służyć, jako biblioteka cyfrowa, ale także, jako cyfrowe archiwa albo instytucjonalne repozytoria dokumentów. Umożliwia przechowywanie danych w dowolnym formacie (np.: wieloplikowe strony HTML, dokumenty PDF, nagrania audio i video, itd.), a każdy z obiektów jest opisany za pomocą określonych metadanych. Użytkownicy mają dostęp do biblioteki poprzez specjalną stronę internetową. Biblioteki cyfrowe korzystające z oprogramowania dLibra mogą współpracować z innymi systemami internetowymi przy użyciu otwartych standardów komunikacyjnych takich jak protokół OAI-PMH czy kanały RSS. Repozytoria składają się z trzech podstawowych elementów:

  • Serwera biblioteki cyfrowej, który realizuje wszystkie funkcje biblioteki, niedostępny bezpośrednio dla użytkowników.
  • Aplikacja redaktora i administratora – pozwala na dostęp do repozytorium użytkownikom je tworzącym (wprowadzającym obiekty cyfrowe, opisującym je itp.)
  • Aplikacja czytelnika – dostępna poprzez interfejs WWW, pozwala czytelnikom korzystać z zasobów zgromadzonych w bibliotece cyfrowej.

Zalety korzystania z bibliotek cyfrowych

Poniżej opiszę podstawowe korzyści z używania bibliotek cyfrowych:

  • Praktycznie stały dostęp do zasobów biblioteki, co odróżnia ją od tradycyjnych placówek, otwartych w określonych godzinach. Dowolność miejsca, z którego korzystamy z biblioteki.
  • Łatwość użytkowania, zwłaszcza wyszukiwania – wystarczy użyć prostego formularza na stronie internetowej, (który często oferuje dodatkowe funkcje zawężające zakres wyszukiwania, takie jak korzystanie z indeksów autorów, tytułów, przedmiotowych, itp.), a oprogramowanie resztę robi za nas, oraz przeglądania zasobów.
  • Łatwość utrzymania – w tym aktualizacji informacji – zmiany należy dokonać w jednym miejscu, a będzie ona widoczna dla wszystkich czytelników.
  • Łatwość przechowywania materiałów cyfrowych – dzisiejsze możliwości dysków dają nam możliwość przechowywania ogromnych ilości publikacji, nie zajmując przy tym ogromnych przestrzeni w budynkach. Utrzymanie cyfrowych dokumentów jest zatem tańsze.
  • Możliwość dostępu do danych z zewnątrz (zwłaszcza, gdy użytkownik nie znając wcześniej naszej biblioteki, znajdzie ją, wyszukując publikacji w wyszukiwarce internetowej).

Bibliografia:

http://fbc.pionier.net.pl/elearning/pl/ – kurs e-learningowy dotyczący bibliotek cyfrowych tworzony przez Poznańskie Centrum Superkomputerowo-Sieciowe

http://dl.psnc.pl – blog Zespołu Bibliotek Cyfrowych PCSS, zajmującego się oprogramowaniem dLibra

http://dlibra.psnc.pl – strona domowa oprogramowania dLibra

http://www.wtec.org/loyola/digilibs/04_02.htm

*http://www.jiscdigitalmedia.ac.uk/crossmedia/advice/metadata-standards-and-interoperability/

autor: 84856

1 stycznia, 2012

Brak konta na Facebooku = jesteś gorszy ?

- autor: tsissput

Pewnie każdy już się spotkał ze stwierdzeniem, że „Nie ma Ciebie na Facebooku, to Ciebie nie ma”. Zdanie to ma raczej charakter humorystyczny, ale jednak nie pojawiło się tak zupełnie bez powodu. Wśród niektórych swoich znajomych zauważyłem tendencję, do tego, że wykorzystują ten portal jako jeden z ważniejszych sposobów komunikacji z innymi. Oczywiście w takim postępowaniu nie ma nic złego, dopóki nie jest to jedyny sposób kontaktowania się z ludźmi. Osobiście znam kilka osób, które najszybciej odpiszą na wiadomość wysłaną na portalu Facebook, a na maila lub wiadomość SMS, można nie dostać od nich w ogóle odpowiedzi. Jeżeli z taką osobą chce skontaktować się ktoś nie posiadający konta na Facebooku, może ten fakt nie otrzymania odpowiedzi potraktować jako ignorowanie.

Jednak dla mnie ważniejsze wydaje się traktowanie osób nie posiadających kont przez użytkowników portali społecznościowych.  Po za wymienionym już ignorowaniem wiadomości wysyłanych inną drogą niż portal społecznościowy, można zauważyć pewną tendencję, że o wszelkich wydarzeniach, planach itp. użytkownicy informują dość często tylko znajomych, których mają dodanych do kontaktów na portalu. Jeżeli nikt nie poinformuje osoby nie korzystającej z portalu społecznościowego o planach, a taka osoba dowie się po fakcie, że znajomi poszli na jakieś spotkanie lub gdzieś wyjechali bez niej oraz przed czasami boomu na tego typu portale zawsze była informowana o takich wydarzeniach może dojść do sytuacji, że osoba taka stwierdzi, że ktoś po prostu nie chce z nią utrzymywać kontaktu. Oczywiście raczej dotyczy to częstego występowania takich sytuacji, nikt normalny nie powinien przecież z jednego takiego przypadku wyciągać pochopnie ocen. Przez takie zachowanie może dojść do tego, że portal społecznościowy osłabi rzeczywiste kontakty między ludzkie. W takim przypadku należałoby zastanowić się czy aby na pewno taka znajomość była prawdziwa, ale nie jest to temat na ten post.

Inną sprawą jest ignorowanie przez firmy, stacje radiowe i telewizyjne osób nie korzystających z Facebooka. Chodzi przede wszystkim o organizowane przez te jednostki konkursy i promocje. Zdarzają się sytuacje, żeby skorzystać z jakieś promocji należy polubić fan page danej stacji lub firmy, a następnie tam z wykorzystaniem aplikacji lub przez napisanie posta na tablicy można wziąć udział w konkursie lub otrzymać np. bon zezwalający na skorzystanie ze zniżki w np. sklepie. Osobiście mogę podać kilka przykładów takich akcji promocyjnych, z których mogły skorzystać tylko osoby mające konto na portalu Facebook. Są to:

– otrzymanie bonu rabatowego na zakupy w sieci fastfódów KFC, należało zalogować się na stronę konkursową, ale jedyny sposób zalogowania się to zalogowanie z wykorzystanie konta na facebooku i polubienie oficjalnego fanpage KFC.

– konkurs organizowany przez PostIn w ramach promowania Paczkomatów. Tutaj też należało polubić oficjalny profil organizatora i korzystać z Facebookowej aplikacji, pozwalającej na udział w konkursie.

– oraz przykład z naszego poznańskiego podwórka, bar PyraBar, organizuje co jakiś czas różne konkursy pozwalające na wygranie zniżki. W konkursach należy odpowiedzieć na pytanie lub wykazać się trochę twórczością literacką na zadany temat. Oczywiście pytania umieszczane są na tablicy, a odpowiedzi umieszcza się w komentarzach.

Oczywiście na pewno można by znaleźć więcej takich konkursów, które są skierowane tylko do osób mających konto na facebooku. Jednak należy się zastanowić z czego wynika takie działanie. W pierwszych dwóch przypadkach na pewno nie wynika ona  z braku funduszy na inną formę organizowania konkursu. Raczej jest to podyktowane względami marketingowymi. Po polubieniu strony użytkownik domyślnie będzie informowany o wszystkich postach umieszczonych przez osobę opiekując ą się daną stroną, a co za tym idzie można łatwiej trafić do potencjalnego klienta. Inaczej sprawa ma się z konkursami, w których udział wiąże się z rejestrowaniem na stronie organizatora i podaniem adresu e-mail. Część osób do takich konkursów może wykorzystywać inne adresy, z których korzysta tylko tworzenia kont na różnych portalach. Stąd też pewnie mniejsze zainteresowanie osobami, które nie posiadają konta na Facebooku, osoby te są po prostu mniej atrakcyjnym celem dla marketingowców.

W trzecim przypadku ograniczenie konkursu do użytkowników portalu Facebook raczej jest spowodowane kosztami i wygodą organizatorów, a nie złą wolą lub kwestiami marketingowymi. Starczy porównać liczbę osób lubiących dane fanpage: PyraBar niecałe 2 tysiące, KFC ok. 181 tysięcy, Paczkomaty ok. 200 tysięcy.

Jest jeszcze kwestia odsyłania przez media do swoich fan pageów na Facebooku. O tym temacie było dość głośno w lutym 2011 roku. Zaczęło się od skargi słuchacza I Programu Polskiego Radia, który skarżył się na odsyłanie po dodatkowe informację na profil stacji na Facebooku i jednoczesne reklamowanie tego portalu. Problemem tym zajęła się Krajowa Rada Radiofonii i Telewizji, ostatecznie KRRiT stanęła po stronie osób, które nie korzystają z portali społecznościowych.

Stanowisko rady dostępne także pod adresem http://www.krrit.gov.pl/Data/Files/_public/Portals/0/stanowiska/st2011/110427_st_nadawcy_w_internecie.pdf :

Obecność nadawców w Internecie, w tym na portalach społecznościowych, stanowi dziś oczywisty element kontaktów ze słuchaczami i widzami. Jest to również forma promowania programu i działań związanych z zadaniami realizowanymi przez nadawcę. Nadawcy publiczni powinni jednak zachować kontrolę redakcyjną nad treściami upowszechnianymi w Internecie, przede wszystkim przez umieszczanie ich na własnych portalach (w tym w serwisach społecznościowych). Nie powinni odsyłać odbiorcy do umieszczonych w Internecie treści niezbędnych do zrozumienia audycji. Prezentowanie na antenie faktu obecności nadawcy na innych portalach i w serwisach społecznościowych powinno mieć charakter informacji pozbawionej cech reklamy czy też promocji samych portali bądź serwisów.

Problem odsyłania do portali społecznościowych przez media został zauważony także w innych krajach, między innymi w Szwecji.  We wrześniu ubiegłego roku oświadczenie na ten temat zostało wydane przez szwedzki odpowiednik KRRiT. Co prawda szwedzka komisja nie odnosiła się do tematu ograniczania dostępu do informacji, ale stwierdziła wówczas, że zachęcanie na antenie widzów i słuchaczy do dołączenia do grup na Facebooku narusza Ustawę o Radiu i Telewizji, ponieważ „w niewłaściwy sposób faworyzuje przedsięwzięcie komercyjne”.

Jak widać problem ignorowania osób nie korzystających z Facebooka i innych podobnych portali jest sporym problem i zaczyna dotyczyć  różnych dziedzin naszego życia i coraz częściej będziemy się spotykać z sytuacjami, w których faworyzowani są użytkownicy takich portali i ciężko przeciwdziałać takim sytuacją. Nam jako zwykłym użytkownikom Facebooka zostaje raczej pamiętać przy kontaktach ze znajomymi, że nie każdy ma konto na Facebooku i z niektórymi trzeba  się skontaktować inaczej, a jeśli na przykład w jakimś portalu odsyłano nas po więcej informacji do fan pageu na Facebooku to możemy spróbować się skontaktować z administratorem i spróbować go uświadomić, że nie każdy ma ochotę być po takie informację na inne strony.

 

Wojciech Kuć 84834

1 stycznia, 2012

ASPARAGUS: System do automatycznej agregacji wyników zapytań SPARQL

- autor: tsissput

Wprowadzenie

Każdy wyszukujący informacje w Internecie spotkał się z sytuacją, w której wyszukiwarka internetowa bądź inna usługa indeksująca strony internetowe proponuje np. 45 milionów wyników. Oczywiście nikt nie przegląda wszystkich, na ogół użytkownicy ograniczają się do pierwszych kilku stron. Co gorsza często okazuje się, że na tych kilku stronach (powiedzmy: wśród pierwszych 30 wyników) pojawiają się tak naprawdę dwa-trzy tematy poruszane na różne sposoby przez różnych autorów. Żeby uniknąć takich sytuacji próbowano zastosować różne rozwiązania. Jednym z nich są katalogi stron internetowych, dostarczających taksonomii pozwalających łatwo nawigować zgodnie z naszymi potrzebami informacyjnymi. Oczywiście, są one zupełnie nieprzystosowane do treści tworzonych dynamicznie przez użytkowników zgodnie z paradygmatem Web 2.0. Innym rozwiązaniem jest wykorzystanie algorytmów uczenia maszynowego i odkrywania skupień w wynikach wyszukiwania do utworzenia użytecznie opisanych grup. Implementacją tego pomysłu jest system Carrot² stworzony na Politechnice Poznańskiej. ASPARAGUS jest systemem wprowadzającym możliwość grupowania wyników wyszukiwania do semantycznych danych Web 3.0. Grupowanie wykonywane jest w oparciu o wiedzę dziedzinową zawartą w ontologii opisującej dane.

Podejście naiwne

W pierwszym odruchu można stwierdzić, że przecież RDF to tylko inne przedstawienie tych samych danych, które zawarte są w bazie danych, wystarczy więc zastosować takie samo podejście jak w bazie danych, czyli przenieść polecenia GROUP BY i HAVING z języka SQL do języka SPARQL. Takie podejście prezentuje W3C w SPARQL 1.1, zgodnie ze swoim konsekwentnym czynieniem ze SPARQL klona SQL. Trzeba jednak zauważyć, że danych RDF generalnie nie rozważa się bez wiedzy dziedzinowej zawartej w ontologii. Wtedy można zaobserwować główną wadę tego rozwiązania: bierze pod uwagę wyłącznie równość wartości wskazanego atrybutu. W konsekwencji: ciężko budować taksonomię (a ontologie w OWL z natury swojej są hierarchiczne), ciężko rozważać atrybuty numeryczne.

Prosty przykład: wyobraźmy sobie system agregujący informacje z różnych źródeł dotyczący miejsc, w których można spędzić urlop. Łatwo wyobrazić sobie powiązanie tych danych z hierarchią umiejscowienia na Ziemi, np. na jednym poziomie podział na kontynenty, na kolejnym na kraje itd. Co więcej, naturalnym wydaje się założenie, że takie dane będą posiadały informacje o położeniu geograficznym. Wyobraźmy sobie teraz użytkownika, których zadaje zapytanie do takiej bazy i prosi o pogrupowanie zgodnie z lokalizacją. Wykorzystanie taksonomii okazuje się niemożliwe, ponieważ GROUP BY sobie z nią nie poradzi i wygeneruje np. płaską strukturę grup, za to zawierającą duplikaty. Próba wykorzystania grupowania po położeniu również nie przyniesie nic dobrego, ponieważ nie powstaną grupy miast położonych blisko siebie (np. Zakopane i Chochołów).

Wniosek: zastosowanie GROUP BY nie poprawia jakości wyników wyszukiwania.

Semantyczne grupowanie

Wydaje się, że najprostszym rozwiązaniem jest rozszerzenie GROUP BY o uwzględnianie taksonomii pojęć, do których należą wyniki. Aby wykonać takie grupowanie, dla każdej zmiennej w wyrażeniu grupującym należy obliczyć najbardziej ogólne pojęcie, wywieść z niego taksonomię, a następnie obliczyć część wspólną tak powstałych hierarchii. Poniżej znajduje się szczegółowe omówienie algorytmu:

  1. Dla każdej zmiennej ?v, dla której ma być wykonywanie grupowanie:
    1. Oblicz iloczyn wszystkich typów do których należą wiązania zmiennej ?v w wynikach wyszukiwania.
    2. Jeżeli tak uzyskany iloczyn jest nienazwany, to zastąp go jego najbliższym, nazwanym przodkiem.
    3. Stwórz drzewo Tv ukorzenione w uzyskanym iloczynie i składające się z jego nazwanych podpojęć, zgodnie z hierarchią zawierania.
  2. Jeżeli potrzebne jest grupowanie po więcej niż jednej zmiennej v1, v2, …, vn, niech T będzie iloczynem drzew Tv1, Tv2, …, Tvn. W przeciwnym razie przyjmij T=Tv1. Przez iloczyn drzew A i B rozumie się drzewo C, w którym: korzeniem drzewa C jest para uporządkowana (korzeń(A), korzeń(B)), natomiast jego poddrzewami są poddrzewa stworzone przez tworzenie iloczynów drzew ze zbioru zdefiniowanego jako produkt kartezjański zbiorów drzew powstałych po usunięciu odpowiednio korzenia z drzewa A oraz korzenia z drzewa B.
  3. Krotki wynikowe należy przypisywać do najniżej położonej w hierarchii grupy, dla której spełnione jest założenie, że obiekty występujące w krotce muszą należeć do klas występujących w grupie.

Ten bardzo prosty algorytm zapewnia budowę hierarchii grup przy stosunkowo niskich nakładach obliczeniowych. Rozwiązuje on pierwszy z postawionych problemów, czyli radzi sobie z hierarchią pojęć. Jego słabą stroną pozostają literały, czyli np. wspominane współrzędne geograficzne.

Wywołanie powyżej opisanego algorytmu w ASPARAGUS-ie dokonuje się za pomocą słowa kluczowego CATEGORIZE BY.

Semantyczna analiza skupień

Alternatywnym podejściem w stosunku do przedstawionej powyżej automatycznej budowy taksonomii na podstawie bazy wiedzy, jest wykorzystanie algorytmów analizy skupień w  celu odkrywania prawidłowości w wynikach. Oczywiście dane RDF/OWL to graf obiektów i pojęć, nie możliwym jest więc zastosowanie klasycznych miar odległości stosowanych w uczeniu maszynowym dla danych numerycznych, reprezentowanych typowo jako punkty w przestrzeniach wielowymiarowych. ASPARAGUS implementuje dwie metryki odległości, reprezentujące dość mocno ówczesny stan, jednak obie nie są pozbawione poważnych wad:

  • jedna z nich, nazwana Common Classes, działa wyłącznie dla danych abstrakcyjnych i uwzględnia wyłącznie taksonomię klas, natomiast zapewnia dobrą wydajność;
  • druga, stworzona na Uniwersytecie Bari, zapewnia dobre wykorzystanie całej semantyki, ale jest niezwykle kłopotliwa obliczeniowo, a przy tym traktuje pojęcia, które są oznaczone jako rozłączne (owl:disjointWith) jako zupełnie niepodobne, co jest niezgodne z intuicją (mężczyzna i kobieta, choć są to zdecydowanie klasy rozłączne, prawdopodobnie jednak mają ze sobą więcej wspólnego niż mężczyzna i stół).

Innym, istotnym problemem, zasadniczo nie poruszanym w literaturze, jest problem stworzenia opisów grup. W typowym uczeniu maszynowym istnieją algorytmy (np. COBWEB), budujące opisy grup będące rozkładem prawdopodobieństwa wartości atrybutu w danej grupie. Nie jest to rozwiązanie nadające się do bezpośredniego przeniesienia na grunt Semantic Web, ponadto można polemizować czy opis w postaci rozkładu prawdopodobieństwa w tym wypadku byłby użyteczny dla odbiorcy. Ostatecznie ASPARAGUS oferuje dwa algorytmy grupowania:

  • algorytm k-Medoids, budujący płaską listę grup o narzuconym przez użytkownika rozmiarze i wykorzystujący medoidy jako opisy tychże grup;
  • algorytm aglomeracyjnego grupowania hierarchicznego, budujący dendrogram i wykorzystujący prostą aproksymację najbardziej specyficznego pojęcia (ang. MSC – most specific concept) do tworzenia opisów grup.

Grupowanie z wykorzystaniem miar podobieństwa dostępne jest w ASPARAGUSie z wykorzystaniem konstrukcji CLUSTER BY:

Implementacja

ASPARAGUS został stworzony jako jądro systemu, dokonujące pobierania wyników i grupowania oraz interfejs użytkownika napisany w Google Web Toolkit. Do wnioskowania wykorzystywany jest Pellet, bibliteka implementująca metodę Tableau. Jej zaletą jest kompletność i pełność wnioskowania, ale bardzo wolne działanie poważną wadą. Zainstalowany ASPARAGUS znajduje się pod adresem http://semantic.cs.put.poznan.pl/Asparagus/.

Podsumowanie

ASPARAGUS z założenia stanowi system prototypowy i jako taki spełnił świetnie swoje zadanie. Pozwolił nam wykryć słabe strony pomysłów, ale także odkryć wady zastosowanych technologii.

Powyższy wpis powstał głównie na podstawie moich doświadczeń z tworzenia ASPARAGUSa, ale także na podstawie artykułów „ASPARAGUS – A System for Automatic SPARQL Query Results Aggregation Using Semantics” (A. Ławrynowicz i inni) oraz „Categorize by: Deductive Aggregation of Semantic Web Query Results” (C. d’Amato i inni).

Jędrzej Potoniec, 84868

31 grudnia, 2011

Semantic Web w muzeum

- autor: tsissput

Technologia Semantic Web trafiła do muzeum już przed kilkoma laty, jednak nie w charakterze eksponatu, a jako narzędzie do prezentacji tychże osobom, które wolą się nie ruszać sprzed monitorów. Oczywiście takie „zwiedzanie” nie zastąpi prawdziwego kontaktu z eksponatem, choćby przez szybę, ale ma też swoje zalety. Dzięki grupie Finów, twórców portalu MuseoSuomi ( http://www.museosuomi.fi ), nie musimy jeździć do Finlandii, aby przeglądać zasoby Muzeum Narodowego w Helsinkach oraz muzeów miejskich w Espoo i Lahti. Przeglądanie to jest atrakcyjniejsze za sprawą możliwości poruszania się po międzymuzealnej „wystawie” za pomocą semantycznych powiązań między obiektami.

Dlaczego?

Dane o muzealnych kolekcjach zawierają bogate semantycznie informacje – eksponaty są na różne sposoby powiązane z otoczeniem, społeczeństwem i innymi eksponatami. Na przykład krzesło może być wykonane z dębu i skóry, może być w określonym stylu, może być zaprojektowane przez znanego projektanta, produkowane przez pewną firmę w pewnym przedziale czasowym, użyte w pewnym budynku razem z innymi meblami itd. Inne eksponaty, miejsca, przedziały czasowe, projektanci, firmy itp. mogą być związane z krzesłem poprzez ich własności, tworząc skomplikowaną, semantyczną sieć powiązań. Ta sieć nie jest ograniczona do pojedynczej kolekcji, ale rozciąga się na inne, powiązane kolekcje w innych muzeach.
Technologia Semantic Web daje nowe możliwości związane z publikacją muzealnych kolekcji w sieci: standardy języków i ontologii sprawiają, że niejednorodne kolekcje różnego rodzaju są zdolne do współdziałania – to pozwala np. na tworzenie dużych, międzymuzealnych „wystaw”. Ponadto, aplikacje bazujące na semantyce kolekcji mogą być bardziej użyteczne i wszechstronne.

MuseoSuomi – Fińskie Muzea w Semantic Web

Portal MuseoSuomi stanowi międzymuzealną „wystawę” ponad 4000 kulturalnych artefaktów (w 2005 r.), takich jak tkaniny, meble, narzędzia itp., a także metadane dotyczące 260 historycznych miejsc w Finlandii.
Celem jego rozwijania były:
– globalny wgląd w rozproszone, niejednorodne kolekcje tak, jakby były w jednym, jednolitym repozytorium,
– wyszukiwanie informacji na podstawie pojęć ontologicznych, a nie tylko słów kluczowych,
– pokazywanie użytkownikowi semantycznych powiązań między elementami kolekcji, kolekcjami i kontekstem,
– zapewnienie muzeom środka łatwej publikacji danych o lokalnych eksponatach.
Muzea używają różnych baz danych i różnych schematów. Stanowi to poważną przeszkodę w wyszukiwaniu informacji. Można byłoby oczywiście stworzyć interfejs webowy, który rozesłałby zapytania do poszczególnych baz i scalił wyniki, jednakże przy przetwarzaniu zapytań lokalnie w każdej bazie, globalne zależności mogą być trudne do znalezienia. Jako że wyeksponowanie tych semantycznych powiązań stanowiło jeden z głównych celów MuseoSuomi, zastosowano inne rozwiązanie: lokalne kolekcje są najpierw łączone w globalnym repozytorium, w oparciu o które przetwarzane są zapytania. Aby umożliwić współdziałanie kolekcji, stosuje się w nich te same ontologie.
Elementy kolekcji są reprezentowane jako strony WWW, a ich semantyczne powiązania jako odnośniki. Wyzwaniem w takim podejściu jest połączenie danych z lokalnych (różnych) baz w globalnym repozytorium.

Proces tworzenia zawartości

Dane, które posłużyły do stworzenia MuseoSuomi pochodziły z czterech baz używających różnych systemów (Ingress, MS Server, MS Access). Częścią projektu było stworzenie procesu transformacji lokalnych, niejednorodnych baz danych w globalną bazę wiedzy w formacie RDF, dostosowaną do używanych ontologii. Proces ten był projektowany tak, aby nowe muzealne kolekcje były importowane do portalu MuseoSuomi jak najłatwiej, a muzea miały maksymalną możliwą swobodę, dostosowując się tylko do niezbędnych ograniczeń nakładanych przez portal czy innych dostawców zawartości. Na przykład dwa muzea mogą używać różnych terminów do określenia tej samej rzeczy – system powinien zaakceptować różne terminy, jeśli są konsekwentnie używane oraz dostarczono ich znaczenie łączące je z globalnymi ontologiami.

Proces tworzenia zawartości w MuseoSuomi

Jak przedstawia ilustracja, proces ten składa się z trzech części. Najpierw dane z baz relacyjnych są transformowane do języka XML (zgodnie z przyjętym schematem XML, dzięki czemu stają się jednorodne składniowo). Następnie na podstawie danych w XML tworzone są definicje terminologii w języku RDF. Identyfikatory z poziomu XML są mapowane na URI w muzealnych ontologiach. Trzeci etap stanowi transformacja danych w XML otrzymanych w pierwszym etapie, za pomocą definicji wytworzonych w drugim etapie, do postaci RDF zgodnej z globalnymi ontologiami muzealnymi.

Podczas mapowania wartości ontologicznych na URI, pojawiają się dwa problemy: nieznane wartości i homonimy. W przypadku nieznanych wartości, mapuje się daną wartość na bardziej ogólne pojęcie albo na zasób uznawany za nieznany. Na przykład, jeśli wiadomo, że dany artefakt został wyprodukowany w jakimś mieście w Laponii, można stworzyć „nieznaną” instancję klasy Miasto i wskazać, że jest ona częścią Laponii oraz miejscem wytworzenia danego artefaktu.
Problem homonimów pojawia się, kiedy pojęcia z różnych ontologii o innym znaczeniu zostały nazwane tak samo. Na przykład fińskie słowo „kilvet”, jako wartość właściwości „typ artefaktu” może oznaczać zarówno szyld jak i herb. W MuseoSuomi rozwiązano to tak, że uznawane są wszystkie możliwości, a poinformowany o problemie człowiek usuwa fałszywe interpretacje ręcznie (stwierdzono, że – przynajmniej w języku fińskim – problem ten nie występuje zbyt często, jako że homonimami zazwyczaj są słowa występujące w ontologiach o różnych dziedzinach; jednak w przypadku języków mających więcej homonimów, takich jak angielski, może to być bardziej kłopotliwe).

Interfejs użytkownika

Znaczna część zawartości Semantic Web jest publikowana poprzez portale udostępniające użytkownikowi dwie podstawowe usługi: wyszukiwanie oparte na semantyce zawartości i dynamiczne tworzenie odnośników między stronami oparte na semantycznych zależnościach. Jest tak również w przypadku MuseoSuomi.
Wyszukiwarka tego portalu jest oparta na wieloaspektowym paradygmacie wyszukiwania. Kategorie użyte do sklasyfikowania obiektów są zorganizowane w hierarchie zwane aspektami. Hierarchie te są pokazywane użytkownikowi, aby dać mu pogląd na to, jakiego rodzaju informacje znajdują się w repozytorium i dostarczyć właściwego słownictwa do wydawania zapytań. Są także wykorzystywane do przedstawienia zawartości repozytorium i wyników zapytań w różnych kontekstach. Stanowią także pomoc przy przeglądaniu zawartości repozytorium. Liczba obiektów należących do danej kategorii jest wyświetlana przy jej nazwie, co może zapobiec wybraniu przez użytkownika kategorii, do której nic nie należy.


Powyższa ilustracja przedstawia interfejs wyszukiwania MuseoSuomi. Po lewej widnieje dziewięć aspektów (np. Esinetyyppi – Typ artefaktu, Materiaali – Materiał). Odnośniki pod nazwą aspektu stanowią kolejny poziom podkategorii. Zapytanie jest wydawane poprzez kliknięcie nazwy kategorii. Po wybraniu kategorii wyniki są ograniczane tylko do obiektów należących do tej kategorii bądź którejś z jej podkategorii. Na przykład wybierając kategorię „Krzesła” z aspektu „Typ artefaktu” i kategorię „Helsinki” z aspektu „Miejsce wytworzenia”, użytkownik może wyszukać wszystkie krzesła (dowolnego podtypu) wyprodukowane w Helsinkach (włączając wszystkie bardziej szczegółowe lokalizacje znajdujące się w Helsinkach).
Wyszukiwanie według słów kluczowych również jest możliwe – są one dopasowywane najpierw do nazw kategorii, a następnie do danych dotyczących artefaktów. Tworzony jest dynamicznie dodatkowy aspekt – zawiera on wszystkie dopasowane do słowa kluczowego kategorie.

 

 

Klikając na artefakt należący do wyników zapytania, użytkownik uzyskuje dostęp do danych go opisujących (patrz ilustracja). Oprócz odnośników ułatwiających poruszanie się po wynikach zapytania (u góry) oraz po całej strukturze hierarchii (na dole), po prawej stronie znajdują się odnośniki do artefaktów na swój sposób podobnych do aktualnie oglądanego, np. wykonanych z tego samego materiału, w tej samej lokalizacji czy przedziale czasowym lub związanych z podobnymi wydarzeniami. To właśnie one dają użytkownikowi niezwykłą swobodę poruszania się po kolekcji.

 

Źródło: „MuseumFinland – Finnish Museums on the Semantic Web” – Eero Hyvönen, Eetu Mäkelä, Mirva Salminen, Arttu Valo, Kim Viljanen, Samppa Saarela, Miikka Junnila, and Suvi Kettula

Autor: Krzysztof T. Pawlak, 84864

31 grudnia, 2011

System rekomendacji artystów – RAMA

- autor: tsissput

Chciałbym podzielić się z Wami paroma ciekawymi informacjami o projekcie badawczym o nazwie RAMA (Releational Artist Maps) na który natrafiłem szukając materiałów związanych z systemami przetwarzania i rozpoznawania dźwięków. Narzędzie Releational Artist Maps jest aplikacją internetową do wizualizacji interakcji pomiędzy twórcami muzyki na podstawie informacji zebranych z sieci internetowej. Wykorzystuje ona dane o około 200000 artystów i 3 milionów etykiet, zebrane z Last.fm ‚s API. Dane te obejmują podobieństwa artystów, powiązane z nimi tagi oraz ich popularność.

RAMA zapewnia jednocześnie dwie możliwości wizualizacji informacji:
• Mapę zbudowaną z danych podobieństwo artystów, modelowaną jako system fizyczny za pomocą biblioteki Arbor.js (biblioteka Arbor wykorzystuje technologię jQuery http://arborjs.org/).
• Nakładanie etykiet zawierających zdefiniowane przez użytkownika tagi na wybranych artystów.

RAMA podkreśla podobieństwa, jak również główne różnice między artystami, użytkownicy mogą działać w interakcji do wygenerowanego wykresu na różne sposoby:
• możliwa jest zmiana szczegółowości wykresu, poprzez ograniczenie ilości odnóg
• opcjonalnie użytkownik może edytować wykresy ręcznie, usuwając część artystów i rozszerzając wykres o sąsiednich artystów.

Na wykresach prezentowane są informacje o artyście, długość krawędzi jest wskaźnikiem podobieństwa pomiędzy dwoma artystami, wielkości węzła (rozmiar czcionek) stanowi popularność artysty. Począwszy od konkretnego zapytania użytkownika (na przykład „Coldplay”) lub też ostatniego utworu słuchanego w Last.fm przez konkretnego użytkownika o danej nazwie RAMA zbuduje wykres rekurencyjnie obrazując najbardziej podobnych artystów do artysty podanego w zapytaniu lub też ostatniego przesłuchiwanego utworu.

Na rysunkach poniżej zaprezentowano wygenerowane wykresy dla formacji „Coldplay”.

Rys. 1. Wykres przedstawia minimalny poziom szczegółowości podobieństw artystów w stosunku do formacji „Coldpaly”.

Rys. 2. Wykres przedstawia maksymalny poziom szczegółowości podobieństw artystów w stosunku do formacji „Coldpaly”.

Dzięki wykorzystaniu w narzędziu Releational Artist Maps również YouTube API użytkownicy mogą słuchać muzyki podczas odkrywania mapy i jeśli im się spodoba to, co aktualnie odtwarzają, możliwe jest, aby dodać utwory do listy odtwarzania, które można później swobodnie eksportować do pliku tekstowego, a następnie ponownie załadować do narzędzia RAMA (lub innych aplikacji, które umożliwiają wczytywanie utworów wybranych artystów z zasobów Internetu na podstawie listy zdefiniowanej w pliku tekstowym).

Strategia używana do rysowania wykresu został zainspirowana przez fizyczny model sprężyny: wszyscy artyści mają przypisane „wagi”, które są proporcjonalne do ich popularności a krawędzie łączących artystów mają proporcjonalne do podobieństwa między tymi artystami szacowanego na podstawie przypisanej wagi oraz gatunku muzyki. Procedura tworzenia wykresu w czasie odbywa się w czasie rzeczywistym aż wykres osiąga równowagę. Użytkownik może również za pomocą kliknięcia myszką na wybranego artystę przemieścić go w inne miejsce wykresu z zachowaniem jego wcześniejszych powiązań. Dodatkowo po najechaniu kursorem na wybranego artystę na wykresie podświetlają się tagi związane z gatunkiem muzyki który jest wykonywany przez artystę.

Rysunek 3 pokazuje fragment z możliwych odpowiedzi serwera na zapytanie użytkownika o zespół „Radiohead”. Współrzędne 2D (np. 48.96:44.77, określają bliskość tzn. podobieństwo artystów) podobnych artystów dla „Radiohead” (oryginalny wykonawca) i „Sigur Ros „(jeden z podobnych artystów znalezionych na zasadzie analizy) są wytłuszczone. Tagi, które będą później przedstawione na wykresie są sortowane według znaczenie dla tych konkretnych wykonawców (np. „alternatywny rock” jest bardziej odpowiednie niż „elektronika” dla zespołu „Radiohead”).

Rys. 3. Przykładowa odpowiedź serwera na zapytanie użytkownika.

Podsumowują obecny prototyp stanowi prosty, ale skuteczny interfejs do poruszania się po sieci podobnych artystów, co pozwala użytkownikom na wzbogacanie wiedzy o poszukiwanych artystach, i łatwiejsze odkrywanie nowe zespołów podobnych do poszukiwanych artystów. Z doświadczeń możemy stwierdzić, że system skutecznie pozwala na identyfikację grup ściśle powiązanych zespołów i artystów (takich jak na przykład byłych członków zespół, którzy rozpoczęli swoją własną karierę solową). Dodatkowa procedura wizualizacji podkreśla także główne różnice między artystami, pozwalając użytkownikowi również sprawdzić jakie są najbardziej charakterystyczne cechy artystów. System RAMA powstał na początku 2005 roku obecna wersja jest już 3 prototypem udostępnionym w sieci internetowej. Zespół twórców cały czas rozwija projekt. Ich celem jest stworzenie platformy do rekomendacji muzyki oraz artystów, którego interfejs będzie interesujący a jednocześnie tak prosty jak to tylko możliwe. Materiały oraz postęp prac dotyczący systemu RAMA zostały przedstawione w ostatnim roku na międzynarodowej konferencji ISMIR (The International Society for Music Information Retrieval). Autorami projektu jest grupa sześciu Portugalczyków: Fabien Gouyon, Luis Sarmento, Nuno Cruz, Diogo Costa, Bruno Gustavo Costa, Joana Fernandes Gomes. Projekt rozwijany jest dzięki funduszom Unii Europejskiej oraz grantom przyznamy przez rząd Portugalii.

Gdyby ktoś był zainteresowany dodatkowymi informacjami na temat projektu RAMA zapraszam do odwiedzenia poniższych publikacji dotyczących dostępu prac oraz ewentualne odwołanie się do źródeł podanych na końcu publikacji:

  • Gouyon F., Cruz N., Sarmento L. „A Last.fm and YouTube Mash-up for Music Browsing and Playlist Edition” Late-Breaking Demo Session, International Conference on Music Information Retrieval, Miami, 2011.
  • Costa D., Gouyon F., Sarmento L. „RAMA: An Interactive Artist Network Visualization Tool” Late-Breaking Demo Session, International Conference on Music Information Retrieval, Kobe, 2009.
  • Sarmento L., Gouyon F., Costa B., Oliveira E. „Visualizing Networks of Music Artists with RAMA” International Conference on Web Information Systems and Technologies, Lisbon, 2009.
  • Costa B., Gouyon F., Sarmento L. „A Prototype for Visualizing Music Artist Networks” International Conference on Digital Arts, Porto, 2008.

Źródła:
1. N. Bernardini, X. Serra, M. Leman, G. Widmer, G. DePoli, (eds) “A Roadmap for Sound and Music Computing”, 2007 (http://smcnetwork.org/roadmap)
2. S. Jordà,, M. Kaltenbrunner, G. Geiger and R. Bencina, R. “The Reactable*”, Proceedings of the International Computer Music Conference, 2005
3. E. Pampalk and M. Goto “MusicSun: A New Approach to Artist Recommendation.” Proceedings of the International Conference on Music Information Retrieval, 2007

Autor: Łukasz Kujaciński

31 grudnia, 2011

Identyfikacja wpływowych blogerów

- autor: tsissput

Streszczenie

Blogowanie dla internautów staje się popularną formą publikowania informacji w Sieci. Blogerzy piszą posty, udostępniają ulubione rzeczy, wyrażają opinie, dostarczają sugestii, newsów oraz formułują grupy w blogosferze. Tworzą wirtualne społeczeństwa dotyczące podobnych zainteresowań. Aktywność w blogosferze ma wpływ na świat zewnętrzny. Jednym ze sposobów pozwalających zrozumieć rozwój blogosfery jest znalezienie wpływowych blogów. Jest bardzo wiele niewypływowych blogów, które formują „długi ogon”. Bez względu na to czy strona z blogiem jest wpływowa, czy nie, istnieją wpływowi blogerzy. Podobnie, jak w fizycznym społeczeństwie, mają oni duży wpływ na społeczność.Wpływowi blogerzy mogą wpływać na znajomych blogerów na wiele sposobów…

Wprowadzenie

Nadejście aplikacji Web 2.0 stworzyło media online, które zmieniły byłych odbiorców masowej informacji na twórców tej informacji. Przykładami są blogi, Wiki, sieci społecznościowe, współdzielenie linków, itd. „Blog” to tak naprawdę log na stronie www zawierający wpisy osób (lub tylko jednej osoby) w odwrotnie chronologicznym porządku. Typowy blog może łączyć tekst, obrazy oraz odnośniki do innych blogów i stron. Takimi wpisami mogą być posty lub komentarze (czyli także posty powiązane z innym danym postem, wyświetlone poniżej posta). Blogowanie staje się lubianą formą wyrażania siebie, komunikacji, współdziałania, debaty i refleksji. Blogosfera to wirtualny wszechświat zawierający wszystkie blogi. Blogerzy, czyli autorzy blogów, swobodnie tworzą kręgi zainteresowań, gdzie współdzielą myśli, wyrażają opinie, debatują nad pomysłami. Blogosfera dostarcza platformę do budowania wirtualnych społeczeństw konkretnych interesów – inspiruje np. marketing wirusowy.

W fizycznym świecie 83% Amerykanów woli zapytać rodzinę lub znajomych o restaurację niż uwierzyć tradycyjnej reklamie.71% robi to samo przed wykupieniem recepty lub odwiedzeniem jakiegoś miejsca. 61% zasięga opinii  o filmie u znajomych lub znawców przed pójściem do kina. W skrócie, zanim ludzie coś kupią lub podejmą decyzję, dyskutują i słuchają doświadczeń innych osób, ich opinii i sugestii. Ci drudzy wpływają na podejmowane przez pierwszych decyzje i nazywani są trafnie influentials (bezpośrednio można to przetłumaczyć jako wpływowi jednak nie znalazłem żadnego przyjętego tłumaczenia). Wpływanie na decyzje innych zawsze cieszyło się niesłabnącym zainteresowaniem w biznesie i społeczeństwie. Ponieważ Internet staje się coraz bardziej powszechny oraz łatwy w użyciu, rosnąca liczba ludzi z różną przeszłością napływa do Sieci – wirtualnego świata aby realizować wcześniej niepojęte czynności od zakupów, nawiązywania nowych znajomości po publikowanie. Kiedy autorzy zestawili analogie pomiędzy fizycznymi a wirtualnymi społecznościami, wśród obywateli blogosfery, byli zaintrygowani pytaniami takimi jak czy istnieją influentials w wirtualnej społeczności (blogu), kim oni są i jak ich znaleźć.

Od kiedy blogerzy mogą łączyć się w wirtualne społeczności zawsze i wszędzie, identyfikacja wpływowych blogerów (influentials) może przynieść korzyści w rozwijaniu nowoczesnych możliwości biznesowych, przygotowywaniu programu politycznego, rozwiązywaniu problemów społecznościowych i społecznych oraz prowadzić do wielu interesujących wniosków. Na przykład influentials są często osobami bardzo silnie wpływającymi na rynek (ang. market-movers). Od kiedy mogą wpływać na decyzje śledzących ich blogerów dotyczące kupna dóbr, ich identyfikacja może pomóc firmom lepiej zrozumieć kluczowe zainteresowania i nowe trendy dotyczące produktów ich interesujących. Firmy mogą próbować, przez podsunięcie dodatkowej informacji lub konsultacje z nieoficjalnym rzecznikiem firmy, sprytnie wpłynąć na influentials. 64% firm reklamowych zdało sobie sprawę z tego fenomenu i obecnie przesuwają swoją uwagę na reklamę w blogach.

Influentials mogą oddziaływać na kampanie polityczne, wybory i spowodować reakcję w polityce rządu. Śledzenie wpływowych blogerów może pomóc zrozumieć zmieniające się poglądy, przewidzieć potencjalne upadki lub zyski i dostosować plany w czasie i pro-aktywnie (a nie tylko re-aktywnie). Influentials mogą pomóc także we wsparciu klienta ponieważ ludzie ufają rozwiązaniom przez nich dostarczonym ze względu na autorytet, jaki influentials posiadają. Macromedia (wykupione w 2005 przez Adobe) zbierało, kategoryzowało i przeszukiwało posty 500 osób, które pisały o ich technologii. Zamiast przechodzić przez każdy wpis, doskonałym punktem wyjściowym są posty wpływowych blogerów.

Technorati.com (wyszukiwarka blogów, od 2002 do 2008 zaindeksowała 133 miliony blogów) podało, że rozmiar blogosfery zwiększa się o 100% co 6 miesięcy (1.6 miliona postów dziennie lub około 18.6 postów na sekundę – dane z 2008 roku). Blogosfera w latach 2005-2008 urosła około 60-krotnie. Ponieważ posty generowane są w zaskakującym tempie, musi zostać opracowany nowy sposób śledzenia wszystkiego w blogosferze.

Niezależnie od tego czy blog jest wpływowy czy nie, blog posiadający wielu autorów może posiadać wpływowych blogerów. Wpływają oni na znajomych tak jak w fizycznej społeczności. Pytania, na które autorzy próbowali odpowiedzieć:

  • Czy istnieją wpływowi blogerzy tak jak w fizycznej społeczności? Czy są oni po prostu aktywnymi blogerami?
  • Jakie miary powinny zostać użyte do określenia wpływowych blogerów? Rozwiązanie może być subiektywne w zależności od potrzeby identyfikacji influentials.
  • Jak znaleźć wpływowych blogerów? Ponieważ nie istnieje żaden zbiór danych treningowych mówiący który bloger jest wpływowy a który nie, niemożliwe jest zastosowanie klasyfikacji. Czy, lącząc statystyki zebrane od każdego blogera osobno, można stworzyć solidny model mówiący jak wpływowy jest dany bloger?

Ranking blogów vs. PageRank

Problem nadania rankingu blogom różni się od szukania autorytatywnych stron. Blogi w blogosferze są bardzo rzadko powiązane co powoduje, że algorytmy takie jak PageRank czy HITS nie pasują. Model losowego internauty oceniania stron nie spisuje się dobrze w rzadko powiązanych strukturach. Czasowy aspekt jest najbardziej znaczący w przypadku blogów. Podczas gdy strona możne zbierać swój autorytet w czasie (jej macierz sąsiedztwa staje się coraz gęstsza), post w blogu lub oddziaływanie blogera zmniejsza się z upływem czasu. Dzieje się tak ponieważ macierz sąsiedztwa blogów (jako graf) będzie stawała się rzadsza razem z pojawianiem się każdego dnia nowych, rzadko-połączonych blogów. Niektóre prace sugerują dodanie połączeń w celu zwiększenia gęstości powiązanej informacji bazując na temacie. Jeśli dwa blogi dotyczą tego samego tematu, może zostać dodana krawędź pomiędzy tymi blogami bazując na podobieństwie tematów, jednakże budowanie linków bazujące na temacie ciągle pozostaje w obszarze badań.

 Wpływowe blogi

Poszukiwanie wpływowych blogów w blogosferze jest ważnym problemem badawczym, który bada w jaki sposób niektóre blogi wpływają na świat zewnętrzny oraz na blogosferę. Zagadnienie jest prostopadłe do problemu identyfikacji wpływowych blogerów. Biorąc pod uwagę naturę blogosfery, istnieje kilka wpływowych stron z blogami. Bardzo duża liczba stron należy do długiego ogona. Niektóre badania studiują rozprzestrzenianie się pomiędzy osobami informacji dotyczącej różnych tematów w blogosferze bazując na teorii chorób zakaźnych (został przyjęty ogólny model). Przypisują one każdej krawędzi w grafie blogera prawdopodobieństwo przeczytania oraz prawdopodobieństwo skopiowania oznaczając w ten sposób skłonność do przeczytania (i analogicznie skopiowania) czyjegoś bloga. Badania określają także lepkość każdego tematu co jest analogiczne do wirulencji choroby.

Interesującym problemem związanym z marketingiem wirusowym jest pytanie jak zmaksymalizować całkowite oddziaływanie w sieci (sieci blogów) przez wybranie stałej, określonej liczby wierzchołków tej sieci. Algorytm zachłanny może zostać użyty w celu wyznaczenia najbardziej wpływowego wierzchołka w każdej iteracji po usunięciu wcześniej wybranych.Takie zachłanne podejście przewyższa PageRank, HITS oraz ranking bazujący na liczbie cytować. Sprawdza się także bardzo dobrze w filtrowaniu blogów-spamów.

Autorzy skupili się na identyfikacji wpływowych blogerów w ramach pojedynczej strony, co różni się znacząco od przedstawionych powyżej problemów. Strona z blogiem jest specjalnym rodzajem sieci społecznej, która zawiera: linki wychodzące (odnoszących się do innych postów), przychodzące (inne posty odnoszą się do danego posta) oraz komentarzy, które nie występują w ogólnej sieci społecznej. Identyfikacji wpływowych blogerów na blogu wymaga zintegrowanego użycia informacji specyficznych dla danego bloga.

Wpływowi blogerzy są nie koniecznie aktywnymi na blogu osobami. Wiele stron z blogami przedstawia zestawienia blogerów lub postów w pewnym przedziale czasowym (np. miesięcznym). Zestawienia bazują z reguły na pewnym ruchu sieciowym (wymianie informacji), np. ile postów zamieścił dany bloger lub jak wiele komentarzy otrzymał dany post. Na pewno te statystyki pominęłyby blogerów, którzy nie byli aktywni.

Wpływowi blogerzy

Blogi mogą zostać podzielone na dwie duże kategorie: blogi indywidualne oraz blogi społecznościowe. Blogi indywidualne posiadają jednego autora, który zapisuje swoje myśli, wyraża opinie i proponuje sugestie lub pomysły. Inne osoby mogą komentować posty ale sami posta dodać nie mogą. Stanowią one bardziej wpisy w pamiętniku lub osobiste doświadczenia. Blogi społecznościowe to takie, gdzie każdy bloger może nie tylko komentować cudze wpisy ale także rozpocząć własny topic. Przykładem takiego bloga może być oficjalny blog Gugla. W przypadku indywidualnych blogów, występuje tylko jeden gospodarz, który inicjuje oraz prowadzi rozmowę i jest on w sposób naturalny wpływowym blogerem na swojej stronie. W przypadku bloga społecznościowego, gdzie wiele osób ma takie same możliwości uczestnictwa, autorzy badali kim są influentials w wirtualnych społecznościach. Od tego momentu w dalszej części artykułu przez pojęcie bloga autorzy rozumieją bloga spolecznościowego.

Każdy post na blogu jest często powiązany z pewnymi metadanymi takimi jak autor posta, adnotacje, data i czas wpisu, liczba komentarzy. Dodatkowo, można zebrać także określone statystyki, np. linki wychodzące – posty lub artykuły do których autor się odniósł, linki przychodzące – inne posty, które odnoszą się do danego posta, długość posta; średnią długość komentarzy przypadającą na jeden post; szybkość z jaką pojawiają się komentarze pod postem. Ponieważ długi post może zawierać wiele linków wychodzących, linki te są normalizowane przez długość posta. Linki przychodzące są zbierane używając Technorati API.

W najprostszym przypadku można przybliżyć wpływowego blogera do aktywnego użytkownika, który często zamieszcza posty. Ponieważ w fizycznym świecie gadatliwa osoba jest nie zawsze lub rzadko wpływowa, autorzy są ciekawi czy wyżej wymienione statystyki oraz metadane można zaprząc do identyfikacji wpływowych blogerów. Poszukiwanie wpływowych blogerów sprowadza się do pytania jak ich zdefiniować. Po pierwsze, aktywni blogerzy nie są koniecznie wpływowymi i wpływowi blogerzy mogą być nieaktywni. Stąd autorzy podzielili blogerów na 4 typy: aktywni wpływowi, aktywni niewpływowi, nieaktywni wpływowi oraz nieaktywni niewpływowi. Po drugie, podczas gdy aktywni blogerzy mogą zostać w prosty sposób zdefiniowani przez częstotliwość zamieszczania postów, dużo bardziej złożoną kwestią jest to jak zdefiniować wpływowego blogera przy pomocy wymienionych wyżej statystyk.

Uznając subiektywną naturę definiowania oddziaływania blogera, autorzy proponują wstępny model określenia ilościowego własności wpływowych blogerów przez połączenie różnych statystyk zebranych z bloga do przypisania punktów wpływu do każdego blogera oraz jego postów. Następnie autorzy badają jak te statystyki mogą zostać użyte w rozmaity sposób by dostosować model dla różnych zastosowań. Autorzy budują jako pierwszy intuicyjny model wychodzący poza częstotliwość postów i dopuszczają użycie statystyk. Później demonstrują jak można użyć ten model do identyfikacji wpływowych blogerów, którzy mogą lub nie być aktywni. Dalej badają jak można rozwinąć i ulepszyć wstępny model by służył identyfikacji różnych typów wpływowych blogerów.

Intuicyjną metodą definiowania wpływowego blogera jest sprawdzenie czy posiada on jakikolwiek wpływowy post, np. Bloger jest wpływowy jeśli posiada on więcej niż jeden wpływowy post. Po wzory (nie są skomplikowane) odsyłam do źródłowego artykułu. Sprowadzają się one do wyznaczenia wskaźnika wpływu dla każdego blogera.

Identyfikacja wpływowych blogerów

Początkowy zbiór intuicyjnych własności

Osoba jest wpływowa jeśli jest rozpoznawalna przez współobywateli, potrafi wywołać działania następcze, posiada oryginalne perspektywy lub pomysły i jest często elokwentna. Poniżej autorzy zbadali jak ten początkowy zbiór intuicyjnych własności może zostać aproksymowany przez pewne możliwe do zebrania statystyki.

  • Rozpoznawalność – wpływowy post jest rozpoznawalny przez wielu. Może zostać to przyrównane do przypadku gdy wpływowy post p jest przywoływany w wielu innych postach lub liczba jego linków przychodzących jest duża. Wpływ tych postów, które odnoszą się do p może mieć różny impakt: im bardziej wpływowe są posty, które odnoszą się do p, tym bardziej p staje się wpływowy.
  • Generowanie aktywności – zdolność posta do generowania aktywności może zostać pośrednio zmierzona przez liczbę komentarzy jakie otrzyma, rozmiar dyskusji, którą inicjuje. Innymi słowy, mała liczba lub brak komentarzy sugeruje małe zainteresowanie współblogerów a co za tym idzie – brak wpływu. Duża liczba komentarzy oznacza, że post działa na wielu tak bardzo, że postanawiają zostawić komentarz i dlatego, post może być wpływowy. Rosną starania nad komentarzami spamem, które nie dodają żadnej wartości do posta lub wpływu blogera. Walka ze spamem jest tematem wykraczającym poza ten artykuł.
  • Oryginalność – oryginalne idee wywierają większy wpływ. Liczba linków wychodzących jest wyznacznikiem oryginalności posta. Ich duża liczba może sugerować, że post odnosi się do wielu innych postów lub artykułów, oznaczając mniejsze prawdopodobieństwo bycia oryginalnym. Liczba linków wychodzących jest negatywnie skorelowana z liczbą komentarzy co oznacza, że więcej linków wychodzących zmniejsza uwagę ludzi. Autorom artykułu udało się to potwierdzić.
  • Elokwencja – Influential jest często elokwentny. Ta własność jest najcięższa do aproksymacji używając statystyk. Biorąc pod uwagę nieformalną naturę blogosfery, nie ma żadnych bodźców, oddziałujących na blogerów, skłaniających do napisania przydługiego artykułu nudzącego czytelników. Z tego powodu, długi post często sugeruje pewną konieczność jego powstania. Z tego powodu, autorzy przyjęli długość jako heurystyczną miarę tego czy blog jest wpływowy czy nie. Długość posta jest pozytywnie skorelowana z liczbą komentarzy co oznacza, że dłuższe posty przyciągają uwagę. To także zostało potwierdzone przez autorów.

W dalszej części artykułu, która została tutaj pominięta, autorzy budują graf wpływów czyli wstępny model.

Problemy identyfikacji wpływowych blogerów

Wstępny model prezentuje namacalny sposób identyfikacji wpływowych blogerów i pozwala zmierzyć się z wieloma istotnymi kwestiami takimi jak: skuteczność, efektywność, subiektywność, rozszerzalność.

  • Czy można użyć tego modelu do rozróżnienia wpływowych blogerów od tych aktywnych? Autorzy badają występowanie wpływowych blogerów na stronie bloga przez zastosowanie wstępnego modelu.
  • Jak można ocenić skuteczność modelu w identyfikacji wpływowych blogerów? Czy wpływowe posty różnią się rzeczywiście od tych niewpływowych?
  • Jak można poprawnie określić wagi podczas łączenia czterech wyżej wymienionych cech do wyznaczenia zbioru wpływowych blogerów? Czy zmiana jednej z wag ma znaczący wpływ na kolejność wpływowych blogerów w rankingu? Jak te wagi mogą pomóc odnaleźć specjalnych influentials?
  • Jak należy podejść do subiektywnego aspektu problemu identyfikacji wpływowych blogerów mając na uwadze, że różni ludzie mogą mieć różne preferencje?
  • Czy wszystkie cztery parametry są konieczne? Autorzy badają korelację par parametrów. Niektóre z parametrów mogą być skorelowane co oznacza, że jeden z nich może być nadmiarowy.
  • Jak można rozszerzyć wstępny model? Czy istnieją jakieś inne parametry, które mogą zostać włączone do ulepszonego modelu?

Zebranie danych

Zebranie danych jest jednym z najważniejszych zadań stojących przed autorami. Według ich wiedzy, próba znalezienia wpływowych blogerów jest pierwszą kiedykolwiek podjętą. Z tego powodu, nie ma dostępnych zbiorów danych z blogami na potrzeby eksperymentu. Autorzy muszą zebrać rzeczywiste dane.

Istnieje wiele stron z blogami. Niektóre, takie jak wspomniany wyżej oficjalny blog Google, działają raczej jak tablica powiadomień dla ważnych ogłoszeń niż miejsce dyskusji, wymiany opinii, pomysłów i myśli; niektóre nie dostarczają większości statystyk potrzebnych do tego eksperymentu (jednak mogą one zostać wyekstrahowane dodatkowym wysiłkiem). Kilka publicznie dostępnych zbiorów blogów takich jak np. zbiór BuzzMetric zostały zaprojektowane dla odrębnych eksperymentów badawczych i nie ma możliwości uzyskania z nich kluczowych statystyk.

Z tego powodu autorzy zindeksowali rzeczywiste strony z blogami które dostarczały większość statystyk wymaganych w eksperymencie. Zalety tego podejścia to: minimalny wysiłek potrzebny na zebranie wymaganych statystyk oraz maksymalizacja powtarzalności przy niezależnym przeprowadzeniu eksperymentu. Nieoficjalny weblog Apple (NWA)  jest stroną która spełnia powyższe wymagania. Blog ten dostarcza większość potrzebnych informacji takich jak: identyfikacja blogera, data i czas zamieszczenia posta, liczba komentarzy oraz linków wychodzących. Jedyną brakującą informacją na NWA jest liczba linków przychodzących, która z kolei może zostać wyciągnięta używając API Technorati. Autorzy zindeksowali stronę NWA i wyciągnęli wszystkie posty od momentu powstania strony. Do 31. stycznia 2007 autorzy zgromadzili ponad 10000 postów. Autorzy przechowują kompletną historię postów strony NWA oraz aktualizują ją przyrostowo. Wszystkie uzyskane statystyki przechowywane są w relacyjnej bazie danych (dla późniejszego szybszego dostępu).

Omówienie wyników

Blogerzy wpływowi i blogerzy aktywni

Wiele stron z blogami publikuje ranking blogerów bazując na ich aktywności na stronie. Ranking jest często przygotowywany w odniesieniu do liczby postów, jaką każdy bloger zamieścił w danym okresie. Autorzy nazywają tych blogerów aktywnymi blogerami. Ponieważ aktywni blogerzy na stronie NWA zostali zestawieni na podstawie ostatnich 30 dni, autorzy także definiują czasowy przedział badań na 30 dni. Użycie liczby postów zamieszczonych przez blogera jest oczywiście zbyt uproszczonym wskaźnikiem, który wskazuje najczęściej publikujących blogerów jako wpływowych. W takim przypadku status wpływowego blogera może zostać uzyskany przez zamieszczanie jak największej liczby postów, nawet jeśli są one śmieciami. Z tego powodu aktywny bloger nie musi być wpływowym i dalej – wpływowy bloger  nie musi być aktywny. Innymi słowy, k najbardziej aktywnych blogerów nie muszą być najbardziej wpływowymi i nieaktywny bloger nadal może być wpływowym. W pierwszym eksperymencie autorzy wygenerowali listę najlepszych k blogerów, używając wcześniej wspomnianego wstępnego modelu. Model wskazał osoby będące na liście najaktywniejszych blogerów oraz spoza niej. Bliższe przyjrzenie się wynikom oraz konkretnym osobom potwierdza skuteczność modelu.

 Wpływowe vs. niewpływowe posty

Autorzy przestudiowali kontrast w statystykach dotyczących wpływowych oraz niewypływowych postów. Posługując się wcześniej zdefiniowanym określeniem wpływowego posta autorzy wybrali wpływowe posty zamieszczone przez wpływowych blogerów. Reszta postów została potraktowana jako niewpływowe. Badania pokazują, że wpływowe posty są o wiele dłuższe oraz posiadają dużo więcej komentarzy. Istnieje bardzo wiele linków wskazujących na wpływowe posty (czyli linków przychodzących) jednak liczba linków wychodzących jest słabszym dowodem, ponieważ wpływowe posty zawierają trochę mniej odnośników do innych treści.

W dalszej części artykułu autorzy przeprowadzili także inne eksperymenty oraz próbowali rozwinąć wstępny model. Zainteresowanych odsyłam do źródłowej publikacji.

Wnioski

Blogosfera jest jedną z najszybciej rozwijających się mediów społecznościowych. Wirtualne społeczności w blogosferze nie są ograniczone przez fizyczną bliskość i pozwalają tworzyć nową formę efektywnej komunikacji. Wpływowi blogerzy naturalnie wpływają na innych członków społeczności, kształtują trendy oraz powodują zbiorowe zainteresowanie w społeczności. Są przewodnikami informacji w swoich społecznościach. Razem z wieloma sukcesami aplikacji Web 2.0, coraz więcej ludzi bierze udział w jakiejś formie aktywności w wirtualnej społeczności. Poszukiwanie wpływowych blogerów nie tylko pozwoli lepiej zrozumieć interesujące rzeczy dziejące się w wirtualnym świecie ale stworzy także bezkonkurencyjne możliwości dla przemysłu, sprzedaży i reklamy. Razem z błyskawicznym rozrostem blogosfery, bardzo ważne jest rozwijanie nowatorskich narzędzi, które ułatwią ludziom uczestniczyć, łączyć się i odkrywać.

Autorzy próbują zmierzyć się z nowym problemem identyfikacji wpływowych blogerów przedstawiając wstępny model ich identyfikacji w społeczności bloga. Obszerna, jednak ciągle wstępna praca ukazuje, że:

  • wpływowi blogerzy nie koniecznie są aktywni,
  • model skonstruowany przez autorów może efektywnie znaleźć wpływowych blogerów,
  • dobierając odpowiednio wagi powiązane z parametrami wstępnego modelu można sprawdzić jak różne parametry wpływają na rankingi stworzone dla różnych potrzeb,
  • wstępny model może służyć jako baza do wyszukiwania wpływowych blogerów i może zostać rozszerzony o dodatkowe parametry w celu odkrycia różnych wzorców.
Autorzy oczekują, że wstępny model będzie ewoluował by spełnić wiele nowo pojawiających się potrzeb w prawdziwym (lub raczej wirtualnym świecie).

Poniższy wpis jest w znakomitej części tłumaczeniem (jednak nie zawsze dosłownym i kompletnym) tekstu źródłowego.

Autor:
Krzysztof Kaszkowiak

Żródło:

Nitin Agarwal, Huan Liu, Lei Tang, Philip S. Yu, „Identifying the Influential Bloggers in a Community”

30 grudnia, 2011

Co to jest BIONIC czyli rozwinięcie SETI@home

- autor: tsissput

Wstęp
Ostatnio tj. 13listopada opisałem na naszym blogu co to właściwie jest SETI@home, jak to działa i jak powstało, dzisiaj postaram się przybliżyć projekt, który jest jakby rozwinięciem idei założeń SETI, ale rozciągniętym na inne dziedziny nauki. Projekt SETI powstał tylko po to aby zbadać czy możliwe jest użycie do badań naukowych, w tym przypadku poszukiwanie pozaziemskiej inteligencji, rozproszonych komputerów wolontariuszy oraz celu w samym sobie jakim jest wyszukiwanie sygnałów pochodzących od istot pozaziemskich. Rozwinięciem projektu SETI@home jest projekt BIONIC. Rozwinięcie tego projektu było możliwe tylko dlatego, że jego pierwotna wersja zgromadziła ponad 5 mln uczestników, gdyby jednak zainteresowanie było niewielkie projekt BIONIC prawdopodobnie nigdy by nie powstał. Kolejnym bodźcem w rozwoju tego projektu jest sukces:
15 sierpnia 1977r. Dr. Jerry R. Ehmana w ramach projektu SETI odebrał sygnał radiowy pochodzący z gwiazdozbioru Strzelca. Czas odbioru sygnału trwał 72 sekundy. Czas odbioru sygnału ograniczony był z powodu obracania się ziemi. Po 3 minutach w tym kierunku wycelowano drugi radioteleskop, który jednak nic nie wykrył. Nasłuchiwanie tego obszaru, kontynuowano przez miesiąc, jednak bezskutecznie.
Co to jest BIONIC
BOINC jest to projekt mający na celu wykorzystanie komputerów osobistych do obliczeń związanych z projektami badawczymi. W jego skład jako jeden z wielu projektów badawczych, korzystających z możliwości obliczeniowych komputerów użytkowników domowych, wchodzi rozwinięte SETI@Home. Przyłączenie się do tego projektu umożliwia już nie tylko poszukiwanie istnienia we wszechświecie innych istot inteligentnych, ale wzięcie udziału w rozwijaniu przedsięwzięć naukowych z całego świata i dołożenie własnej cegiełki w kształtowaniu przyszłości. Projekty naukowe należące do BIONIC prowadzą badania nad chyba wszystkimi możliwymi dziedzinami naszego życia. Nie sposób wymieniać wszystkich jednak działające na tej platformie projekty naukowe mogą przyczynić się do np.:
lepszego poznania natury wszechświata (LHC wspierający budowę akceleratora cząsteczek w CERN)
wynalezienia leków na AIDS, raka (WCG)
lepszego poznania kosmosu (MilkyWay@home)
wynalezienia leków na wiele innych chorób (projekty białkowe – Rosetta, SIMAP, Predictor, TANPAKU)
lepszego przewidywania zmian globalnego klimatu (CPDN, SAP)
uzyskania dalszych dowodów na poprawność teorii względności (Einstein, LHC)
rozwoju matematyki (ABC, RCN, Sztaki, PrimeGrid, Riesel Sieve)
rozwoju chemii i nanotechnologii (QMC, Spinhenge, NanoHive)
i wiele wiele więcej…
Jak to działa?
Cytując dosłownie za polską stroną projektu:
Gdy uruchamiasz program BOINC na swoim komputerze, program działa zgodnie z poniższym schematem.

1. Twój komputer otrzymuje zestaw instrukcji z serwera projektu. Instrukcje te są zależne od mocy twojego PC, np.: serwer nie przydzieli mu pracy wymagającej większej ilości pamięci RAM, niż posiadasz. Projekty mogą obejmować wiele aplikacji, a serwer może przesłać dane dla którejkolwiek z nich.
2. Twój komputer ściąga aplikacje i pliki do przetworzenia z serwera danego projektu. Aplikacje są ściągane bezpośrednio po dołączeniu do projektu, a następnie automatycznie ściągane są nowsze wersje, gdy tylko takowe staną się dostępne.
3. Aplikacje są uruchamiane na Twoim komputerze, przetwarzają dane za pomocą procesora (CPU) i karty graficznej (GPU) w technologii CUDA.
4. Przetworzone pliki i raport pracy odsyła z powrotem.
BOINC robi to wszystko automatycznie, a Ty nie musisz się niczym zajmować.
Jak To działa bardziej szczegółowo
Powyżej mamy wyjaśnienie działania projektu BIONIC dla laika, który nie posiada zbyt dużej wiedzy na temat działania aplikacji zwłaszcza działających w środowisku rozproszonym. Jako że większość osób czytających tego bloga jest niemal, że ekspertami w tej dziedzinie warto opisać szczegółowe zasady działania projektu BIONIC. Przede wszystkim należy zauważyć, że w ramach projektu BIONIC pracuje oprogramowanie które możemy podzielić na oprogramowanie pracujące na serwerze projektu, oraz to jest najważniejsze dla zwykłych użytkowników, oprogramowanie uruchamiane na zwykłych komputerach domowych przez wolontariuszy, którym może zostać każdy posiadający dostęp do komputera podłączonego do internetu. Do najważniejszych aplikacji pracujących po stronie serwera należy scheduler (serwer harmonogramów). Zajmuje się on dystrybucją fragmentów danych do obliczeń pomiędzy komputery uczestników projektu. W swoim działaniu scheduler uwzględnia między innymi możliwości komputerów uczestników (moc obliczeniowa, ilość pamięci RAM), oraz średni czas w ciągu doby, jaki komputery te przeznaczają na pracę z BOINC. W ten sposób unika się nadmiernego obciążenia słabych komputerów, oraz pozwala się na pełniejsze wykorzystanie mocnych maszyn. Oprócz aplikacji rozdzielającej zadania na serwerze pracują też aplikacje umożliwiające dostarczanie danych „od naukowców”, które potem są rozdzielane przez scheduler i przesyłane do obliczeń. Jak już wiemy projekt BIONIC pozwala na pracę nad różnymi projektami wymagającymi obliczeń. Stąd jeżeli na komputerze otrzymującym dane do przetwarzania nie została jeszcze zainstalowana aplikacja od danego projektu obliczeniowego która jest odpowiedzialna za sposób ich przetwarzania, jest ona również przesyłana do uczestnika projektu. Zarządzaniem całym projektem BIONIC oraz obliczeniami wykonywanymi dla konkretnych projektów – np. poszukiwanie leków, badanie poprawność teorii matematycznych, zajmuje się program BIONIC manager, który jest instalowany na komputerze wolontariusza. Gdy na komputerze uczestnika projektu BIONIC znajdą się zarówno dane do przetwarzania, jak i odpowiednia aplikacja, rozpoczyna się przetwarzanie danych. Czas przetwarzania jednej porcji danych jest różny w zależności od projektu i waha się od kilkunastu sekund do kilkuset godzin wszystko zależy od możliwości obliczeniowych komputera oraz aktywności użytkownika. Dzięki okresowemu zapisywaniu wykonanej pracy, obliczenia nie muszą odbywać się w jednym nieprzerwanym ciągu, lecz mogą być zawieszane, gdy zachodzi potrzeba przeznaczenia mocy obliczeniowej na inne zadania lub po prostu wyłączenia komputera. Na jednym komputerze mogą znajdować się jednocześnie dane i aplikacje wielu projektów platformy BOINC, lecz w danym momencie przetwarzana jest tylko jedna porcja danych na jednostkę CPU (procesory wielordzeniowe i procesory wyposażone w technologię HT mogą przetwarzać jednocześnie dwie lub więcej porcji danych adekwatnie do liczby rdzeni czy wątków). Wyjątkiem, aktualnie już zakończonym były są jednostki projektu DepSpid, który nie wykorzystywał mocy CPU, lecz mierzył wagę wysłanych i odebranych danych poprzez połączenie internetowe. Jeżeli komputer jest przyłączony do więcej niż jednego projektu, czas procesora jest przydzielany aplikacjom po kolei, zgodnie z ustalonymi przez uczestnika przydziałami dla poszczególnych projektów. Po zakończeniu obliczeń jednej porcji danych wyniki obliczeń przesyłane są do serwera danego projektu. Jednocześnie komputer użytkownika – wolontariusza otrzymuje nagrodę, pewną ilości tzw. punktów kredytowych, zależnej od czasu poświęconego na przetworzenie danej jednostki i mocy obliczeniowej procesora. Punkty kredytowe o których mowa wyżej, w teorii powinny być sprawiedliwe to znaczy – punkty przyznawane przez wszystkie projekty mają odpowiadać takiej samej ilości wykonanej pracy. W praktyce okazuje się, że niektóre z projektów są bardziej hojne niż inne. Punkty kredytowe pozwalają uczestnikom projektów na wzajemne współzawodnictwo w ramach różnorakich rankingów. Możliwe jest także łączenie się uczestników projektów w zespoły, które również mogą ze sobą konkurować.
Źródła:
http://www.boincatpoland.org/wiki/BOINC
http://pl.wikipedia.org/wiki/BOINC

Tagi: