Archive for Czerwiec, 2012

Czerwiec 25, 2012

Spojrzenie na świat nauki… okiem nauki

- autor: tsissput

Naukowcy od dawna analizują zjawiska zachodzące w otaczającym nas świecie. Starają się oni zbadać najprzeróżniejsze aspekty naszego życia, poznać przebiegi procesów, odnaleźć panujące reguły działania oraz zgłębić budowę najrozmaitszych elementów. Nic więc dziwnego, że z czasem i sama nauka stała się obiektem badań. Powodów takiego postępowania jest wiele, choćby „wrodzona” dociekliwość badaczy. Dzięki chęci poznania i usprawnienia można poddać analizie wiele aspektów pracy naukowca, choćby stosowane narzędzia i metody. Badania takie mogą doprowadzić do wielu korzyści, jak np. opracowania nowych rozwiązań oraz usprawnienie istniejących. Obiektów wartych zgłębienia jest bardzo wiele, a jednym z nich są sami badacze i społeczny wymiar ich pracy. Niniejszy wpis na blogu ma na celu zapoznanie czytelnika z korzyściami płynącymi z badań nad naukowcami i współpracy między nimi. Dodatkowo zostaną pokazane dane wykorzystane do analizy, problemy związane z ich reprezentacją oraz metody ich analizy.

Jest wiele powodów dla których analiza środowisk naukowców jest ciekawa i przydatna. Pierwszą z korzyści jest ocena samego naukowca [2, 3] oraz sprawdzenie jak wygląda jego dorobek na tle innych osób. Dzięki temu można zobaczyć np. jak wyniki badań jednej osoby wpływają na pracę innych badaczy. Wyniki te mogą być różnie ocenione przez środowisko naukowców, mogą one stanowić inspiracje do dalszych prac, pomóc rozwiązać problemy z innych dziedzin nauki, a mogą też zostać przemilczane. Gdy efekty pracy są uznane za wartościowe może to oznaczać, że badacz jest ekspertem w swojej dziedzinie i współpraca z nim może przynieść korzyści. Mając do dyspozycji ocenę poszczególnych osób można sprawdzić nawet cały zespół, czy nawet jednostkę badawczą. Takie wyniki też są bardzo interesujące, gdyż mogą stanowić pozytywną reklamę ośrodka oraz mogą przyciągnąć zlecenia z przemysłu. Drugim ważnym kryterium jest atrakcyjność i popularność danej dziedziny wiedzy. Na przykład wiedzę tą można wykorzystać do wyboru tematu doktoratu. (Z jednej strony można wybrać atrakcyjny temat i zwiększyć szansę na publikację, a z drugiej pozwoli to uniknąć dziedziny w której jest mała szansa na przebicie się do światowej czołówki ekspertów.) Ale nie tylko doktoranci mogą na tym skorzystać, także doświadczeni naukowcy mogą zobaczyć jak ich badania wyglądają w świetle współczesnych problemów. Kolejną korzyścią płynącą z analizy pracy naukowców jest sprawdzenie jak wygląda ich współpraca, indywidualna jaki i pomiędzy ośrodkami krajowymi czy zagranicznymi. Dane te pozwalają pokazać wiele ciekawych rzeczy, np. jak złożone i wymagające są niektóre problemy oraz otwartość na osoby z zewnątrz. Kolejną korzyścią jest obserwacja zachodzących zmian w czasie. Jest to niezmiernie ważne, gdyż pozwala pokazać jak rola danej osoby czy zespołu zmienia się w czasie oraz jak bardzo popularny jest dany temat (czy zainteresowanie nim rośnie czy maleje). Inną korzyścią może być pokazanie w jakich zespołach pracują najlepsi naukowcy, czy preferują oni duże ekipy, czy raczej małe.

Warto zauważyć, że zebrane dane mogą posłużyć nie tylko do zbierania suchy faktów. Nie istnieje przeszkoda by wyszukiwać w nich pewne wzorce zachowań. Jedną z takich obserwacji wykazał Quattrociocchi i Amblard [3]. Dzięki przeprowadzonym badaniom nad publikacjami z dziedziny fizyki odkryli oni zadziwiający wzrost średniej liczby cytowań w 1999 roku. Po głębszym przyjrzeniu się publikacjom okazało się, że zainteresowanie to jest związane z otrzymaniem nagrody Nobla przez jednego z fizyków. Jak wykazał dalsza analiza, nagroda ta przyczyniła się do wzrostu zainteresowaniem tematem oraz rozpoczęcia „budowy” społeczności wokół tematu Noblisty (poprzez nawiązanie współpracy przez zespoły pracujące wcześniej niezależnie). Przykład ten wspaniale obrazuje też jak ważną rolę w pracach badawczych mają nagrody i wyróżnienia. Inny przykład zachowań pokazał w swojej publikacji Kas [2]. Wykazał on, w jaki sposób pojawiają się nowe osoby w środowisku akademickim, a mianowicie doświadczeni naukowcy przyciągają do siebie nowych współpracowników. Dodatkowo zaobserwowano, że doświadczeni naukowcy przyciągają siebie nawzajem, co obrazuje nawiązanie współpracy i wspólne prowadzenie prac.

Jak widać, z badań nad środowiskiem naukowym można wyciągnąć bardzo wiele informacji, które to mogą być wykorzystane przez przemysł jak i sam świat naukowców. Pozostaje jednak pytanie w jaki sposób można dokonać takiej ocenę. Do tego celu potrzebne są odpowiednie dane, a mianowicie publikacje naukowe. Zawierają one informacje o dziedzinie badań (poprzez nazwę czasopisma), autorach, ośrodku badawczym oraz referencje do wykorzystanych materiałów [3]. Dodatkowo do analizach wykorzystuje się daty publikacji, co pozwala zaobserwować zmiany w czasie. (Oczywiście różne metody badań mogą korzystać z różnych danych, np. Kas [2] do swych badań dostarcza dla każdego artykułu jego źródło w LaTeXu.) Niestety w trakcie analizy posiadanych danych można natrafić na wiele problemów [2, 3]. Jednym z nich jest reprezentacja posiadanej wiedzy, a dokładnie obecność daty publikacji (problem zmiany danych w czasie). Jednym ze sposobów radzenia sobie z tym jest zastosowanie time-varying graphs, który to jest matematycznym frameworkiem służącym do wyrażania zmian w systemach dynamicznych. Innym problemem jaki można napotkać jest identyfikacja autora. Ponieważ istnieją różne sposoby ich zapisów (imię nazwisko, nazwisko imię, inicjał-imienia nazwisko) może się zdarzyć, że dany artykuł zostanie przypisane do innej osoby. Prace nad tym zagadnieniem trwają już od jakiegoś czasu, ale na razie trudno o rozwiązania skuteczne w 100% [4].

Po zebraniu danych można poddać je analizie. W tym celu zaproponowano szereg metod, np. analiza cytować oraz badania sieci dynamicznych. Metody te wykorzystywane są do badań powiązań pomiędzy autorami publikacji. Rozwój tych i innych metod badań pozwolił na zwiększenie analizowanych artykułów, a co za tym idzie na lepsze poznanie badanego świata. Na przykład w 1998 roku została przeprowadzona analiza 120 publikacji z 12 czasopism opublikowanych w latach 1972–1995 [1]. W roku 2012 natomiast Kas i inni [2] przeprowadzili analizę literatury z dziedziny fizyka wysokich energii (ang. high-energy physics) do której wykorzystali 29555 artykułów opublikowanych w latach 1992-2003.

Analiza społeczeństwa naukowców wydaj się być bardzo interesującą dziedziną nauki. Dane opracowane przez osoby zajmujące się tą dziedziną mogą mieć bardzo duże znaczenie dla przemysłu, świata nauki oraz przyszłych naukowców. Bardzo ciekawym rozwiązaniem wydaje się analiza zmian zachodzących w czasie, gdyż może posłużyć do szybkiego reagowania na zachodzące zmiany.

[1] White H.D, & McCain K.W. (1998). Visualizing a discipline: an author co-citation analysis of information science AmSoc Inform Sci, 49 (4), 327-355

[2] Kas, M., Carley, K., & Carley, L. (2012). Trends in science networks: understanding structures and statistics of scientific networks Social Network Analysis and Mining, 2 (2), 169-187 DOI: 10.1007/s13278-011-0044-6

[3] Quattrociocchi, W., Amblard, F., & Galeota, E. (2011). Selection in scientific networks Social Network Analysis and Mining, 2 (3), 229-237 DOI: 10.1007/s13278-011-0043-7

[4] Miklosik P., Nowicki P., Nawrocki P. (2012): Web-based Bibliometric Data Warehouse. 38th International Conference on Current Trends in Theory and Practice of Computer Science

Czerwiec 21, 2012

The power of tables of the WEB

- autor: tsissput

Witam wszystkich,
w zalaczniku przedstawiam moje zaliczeniowe streszczenie trzech artykulow dot. bardzo ciekawej technologii Web Tables. Jest to próba wywnioskowania danych relacyjnych poporzez agregację ogromnych ilości danych pobranych z internetu. . Na co dzien zajmuje sie zupelnie innymi tematami (SAP Defect Management/ Test Management). Wspomniane artykuly byly dla mnie ciekawa ‚wycieczka’ w swiat danych relacyjnych. Uciesza mnie wnioski i komentarze przeslane na adres: agnieszka.krzeminska@ingenieur.de.
Pozdrawiam
A.Krzeminska, Frankfurt/ Main

1. Motivation
This assignment is prepared on the base of three articles provided by Dr hab. Mikolaj Morzy. I tried to find out how to use outcomes from researches of web tables for searching among web-based repositories at global IT organizations (Logica or Deutsche Bank AG).
2. First paper: ‘Entity Relation Discovery from Web Tables and Links’
The World-Wide Web consists a huge number of not well sructured texts and a vast amount of structured data e.g. Web tables. Such tables are a type of structured information which is pervasive on the web, therefore Web-scale methods that automatically extract web tables are studied intensively.
In the database vernacular, a table is defined as a set of tuples which have the same attributes. By analogy, a web table is defined as a set of rows (corresponding to database tuples) which have the same column headers (corresponding to database attributes). That is why, to extract a web table is to extract a relation on the web. In databases, tables often contain foreign keys with reference to other tables. As a consequence, hyperlinks inside a web table sometimes function as foreign keys to other relations whose tuples are contained in the hyperlink’s target pages.
The key question pointed out in this article is:
• Is it possible to discover new attributes for web tables by exploring hyperlinks inside them?
Proposed solution takes a web table as input. Frequent patterns are generated as new candidate relations by following hyperlinks in the web table. The confidence of candidates is evaluated, and trustworthy candidates are selected to become new attributes for the table. Experiments performed on a variety of web domains justify the usefulness of that method.
The Web has structural and relational character. It is presented in the article on the example of a page, where employees in an academic department are listed. This table has four columns, each with a domain-specific label and type, wherein the ‘name’ column contains a group of hyperlinks pointing to the homepage of the listed person. According to Cafarella, this web table has a character of a small relational database -> even if it lacks the explicit meta-data traditionally associated with a database.
The professors listed in the table have links to their homepages, and these homepages contain information regarding ‘teaching’, ‘publications’, etc., but in slightly different forms with different descriptions. If it will be possible to find pieces of common information in these professors’ homepages, then it will be possible to expand the web table so that each piece of common information becomes a new attribute. This common information are contents, hyperlink and other structures/ metadata of the homepages.
In this example the common information/ kind of a new attribute could be ‘teaching’ or ‘acm publication’. By observing which tuples contain the new attributes, ‘employees’ could be classified into ‘professor’ and ‘staff’.
Authors had following motivations:
• current methods retrieve web tables that are visually expressed in one HTML page, and there is limited experience on discovering attributes across pages;
• due to the fact that a reliable entity group facilitates the discovery of relations, tuples in a web table are (usually) a trustworthy entity group, which supplies guidance for relation discovery;
• the discovery of table attributes and relations will mutually help each other.
The remaining issue was:
• How to discover new attributes using traditional methods of relation extraction?
Previously, extensive studies in the area of extracting general relations have been done. Authors were focused on discovering relations specific to a table which are not common in the whole web. In the general framework, an entity-relation is a triple (ei, r, ej), where ei and ej denote two entity types and r denotes their relation. In the general framework we have the following assumptions:
• In a web table, a classifier selects tuples that belong to the entity type ei.
• we examine table columns one by one for selected tuples. For a particular table column, the destination pages (abbreviated as P) of hyperlinks in the column are gathered, and the hyperlinks on P to form a transactional database D are collected, where a transaction dk ∈ D is a bag of words of any hyperlinkassociated information
• a frequent pattern mining approach to generate frequent itemsets from D, and regard each itemset as a candidate relation is being adopted.
• for each candidate r, the trustworthiness (denoted as trust(r)) is being evaluated.
• The classifier is updated by adding r into the classifier’s
This procedure repeats iteratively until the trustworthiness converges. Candidates whose trustworthiness are larger than a pre-defined threshold – > become new relations.
In the experimental datasets were used HTML pages crawled from four websites (www.cs.uiuc.edu, cis.ksu.edu, esteelauder.com, senate.gov) downloaded in Jan. 2010.

Summing up, the four datasets contained:
• 65,452 pages
• 1,018,510 hyperlinks
• 104,596 web tables
• 44.09% of the tables contained hyperlinks.
The average numbers of generated candidates for each web table were:
• UIUC -> 108.2
• KSU – > 92.5
• ESTEE -> 20.1 (smaller number of candidates, because of the limited vocabulary of cosmetics).
• SENATE->66.0
A web table was selected from each of the 4 datasets, from which the gold standard was created by manually extracting new attributes. The authors ranked candidates of each web table according to their trustworthiness, and showed the precision-recall performance. The precisions of all datasets were generally high.
It confirmed the hypothesis that a reliable entity group facilitates the discovery of relations. In terms of recall, some relations were missed because page authors sometimes expressed the same meaning using different words. The authors decided to improve recall if prior knowledge on word correlations will be given.
3. Second paper: ‘WebTables: Exploring the power of Tables on the Web’

Works presented here were done, while all authors were employed at Google, Inc.
They extracted 14.1 billion HTML tables from Google’s general-purpose web crawl, and used statistical classification techniques to find the estimated 154M that contain high-quality relational data.
Each relational table has its own “schema” of labeled and typed columns, each such table can be considered a small structured database. As a consequence, the resulting corpus of databases is larger than any other corpus they were aware of, by at least five orders of magnitude.
Authors described the WebTables system in order to explore the following fundamental questions about this collection of databases:

• What are effective techniques for searching for structured data at search-engine scales?
• What additional power can be derived by analyzing such a huge corpus?

Key outcomes:
• Authors developed new techniques for keyword search over a corpus of tables. They justified that it is possible to achieve substantially higher relevance than solutions based on a traditional search engine.
• They introduce a new object derived from the database corpus: the attribute correlation statistics database (AcsDB) that records corpus-wide statistics on co-occurrences of schema elements. A distinguishing feature of the ACSDb is ->it is the first time anyone has compiled such large amounts of statistical data about relational schema usage. Therefore we can take data-intensive approaches to all of the above-listed applications, similar in spirit to recent efforts on machine translation and spell-correction that leverage huge amounts of data.
• Apart of improving search relevance, the AcsDB makes possible several novel applications: schema auto-complete. It helps a database designer to choose schema elements; attribute synonym find-ing, which automatically computes attribute synonym pairs for schema matching; and join-graph traversal. It allows a user to navigate between extracted schemas using automatically-generated join links.

Authors presented WebTables system, the first large-scale attempt to extract and leverage the relational information embedded in HTML tables on the Web.

They presented how to support effective search on a massive collection of tables, they demonstrated that current search engines do not support such search effectively.

What is more, they pointed out that the recovered relations can be used -> what is a very valuable data resource, the attribute correlation statistics database.

Presented in this paper ACSDb is like a breakthrough, which will help to solve a number of schema-related problems, like e.g.:
• improvement of relation ranking
• construction of a schema for auto-complete tool,
• creation synonyms for schema matching use,
• help for users in navigating the ACSDb itself.
Authors believed to start finding usage for the statistical data embodied in corpus of recovered relations. Especially, by combining it with a “row-centric” analogue to the ACSDb.

Summing up, there are tremendous opportunities for creating new data sets by integrating and aggregating data fromWebTables relations, and enabling users to combine this data with some of their private data. The WebTables relation search engine is built on the set of recovered relations, and still offers room for improvement. An obvious path is to incorporate a stronger signal of source-page quality (such as PageRank) which is currently included only indirectly via the document search results.
Authors would like to include relational data derived from non-HTML table sources, such as deep web databases and HTML-embedded lists.

4. Third paper: ‘Recovering Semantics of Tables on the Web’
Authors described a system that attempts to recover the semantics of tables by enriching the table with additional annotations. Their annotations facilitated operations such as:
• searching for tables
• finding related tables.

To recover semantics of tables, they leveraged a database of class labels and relationships automatically extracted from the Web. The database of classes and relationships has very wide coverage, but is also noisy. They attached a class label to a column if a sufficient number of the values in the column are identified with that label in the database of class labels, and analogously for binary relationships.

Authors described a formal model for reasoning about when we have seen sufficient evidence for a label, and showed that it performs substantially better than a simple majority scheme. They described a set of experiments which illustrate the utility of the recovered semantics for table search. They showed that it performs substantially better than previous approaches and finally characterized what fraction of tables on the Web can be annotated using their approach.

The Web offers over 100 million high-quality tables on a wide variety of topics. These tables are embedded in HTML and therefore their meaning is only described in the text surrounding them. Header rows exist in few cases, and even when they do, the attribute names are typically useless.

Without knowing the semantics of the tables, it is very difficult to leverage their content, either in isolation or in combination with others. The challenge initially arises in table search (for queries such as countries population, or dog breeds life span), which is the first step in exploring a large collection of tables.

Authors pointed out the WebTables system, which is the first large-scale attempt to extract and leverage the relational information embedded in HTML tables on the Web. They described how to support effective search on a massive collection of tables and demonstrated that current search engines do not support such search effectively.
Finally, they showed that the recovered relations can be used to create the attribute corre-lation statistics database.

They believe, that it is possible to find uses for the statistical data embodied in corpus of recovered relations, especially by combining it with a “row-centric” analogue to the ACSDb, in which they stored statistics about collocations of tuple keys rather than attribute labels. They could enable a “data-suggest” feature similar to schema autocompleter.

There are tremendous opportunities for creating new data sets by integrating and aggregating data fromWebTables relations, and enabling users to combine this data with some of their private data. The WebTables relation search engine is built on the set of recovered relations, and still offers room for improvement.

Authors would like to also include relational data derived from non-HTML table sources, such as deep web databases and HTML-embedded lists.

5. Individual observations & conclusions

From my perspective the first article provides basics concerning searches on web tables. It is good introduction for everyone who is not very familiar with the topic.
The second article introduces business related example, because researches presented there, were perform at Google, Inc. Authors developed new techniques for keyword search over a corpus of tables and justified that it is possible to achieve substantially higher relevance than solutions based on a traditional search engine.
They introduce a new object – > the attribute correlation statistics database (AcsDB) which records corpus-wide statistics on co-occurrences of schema elements.

The third article is interesting enhancement of both above mentioned papers. It describes a set of experiments which illustrate the utility of the recovered semantics for table search. It performs substantially better than previous approaches and characterises what fraction of tables on the Web can be annotated using their approach.

From my point of view, the most important thing is -> searching mechanisms presented in all these papers can be used at global corporations for the following purposes:
• to search global programs/ projects sharepoints or other web-based repositories
• to search info among corporate Intranet
• to search info in web-based tools (Defect Management -> JIRA)
• to search different web-based work instructions, regulations and other project references
• to search employee directories (my Logica or db Directory)
• to search different web-based Knowledge Management Systems (dbWiki, Logica Cortex)

6. References

• Entity Relation Discovery from Web Tables nad Links
Cindy Xide Lin, Bo Thao, Tim Weninger, Jiawei Han, Bing Liu
April 26-30, Raleigh, NC USA

• WebTables: Exploring the Power of Tables on the Web
Michael J.Cafarella, University of Washington
Alon Halevy. Google Inc.
Daisy Zhe Wang, UC Berkeley

• Recovering semantics of tables on the Web
Petros Venetis, Stanford University
Alon Halevy, Google Inc
Jayant Madhavan, Google Inc
Marius Pasca, Google Inc
Warren Shen, Google Inc
Fei Wu, Google Inc
Gengxin Miao, UC Santa Barbara
Chung Wu, Google Inc

Tagi:
Czerwiec 14, 2012

Zjawisko homifilii w sieciach społecznych

- autor: tsissput

Sieci społecznościowe to w ostatnich czasach popularny i nośny temat, związany między innymi z ogromną popularnością, również w Polsce, takich serwisów jak Facebook, czy nieco dawniej Nasza Klasa. Elektroniczne usługi pozwalające budować własne sieci kontaktów – czy to przyjaciół, znajomych, czy też relacji zawodowych stanowią już nieodłączną część stylu życia wielu ludzi na całym świecie. Zjawisko to może wydawać się nowe, i faktycznie jeśli chodzi o budowanie sieci społecznych przy użyciu medium, którym jest internet, można powiedzieć w przybliżeniu, że jest to kwestia ostatniego dziesięciolecia (z flagowym Facebookiem startującym w 2004 roku), ale pewne podstawowe zjawiska i zasady rządzące ogólnymi (nie tylko elektronicznymi) sieciami społecznymi występowały już najprawdopodobniej od początku istnienia ludzkości w formie zbliżonej do obecnej. Chodzi tu oczywiście o naturalne sieci relacji międzyludzkich – sieci których elementami są ludzie, połączeni między sobą przez silne relacje, takie jak więzy małżeństwa, przyjaźni, znajomości, czy też przez słabsze powiązania, takie jak przebywanie z kimś w jednym miejscu publicznym, czy zwykła rozmowa. Okazuje się, że takie naturalne sieci społeczne i prawa nimi rządzące badane były z naukowego punktu widzenia już nawet w pierwszej połowie ubiegłego wieku, a jednym z ciekawych poglądowych artykułów przedstawiających takie socjologiczne badania i wnioski z nich płynące jest tekst BIRDS OF A FEATHER: Homophily in Social Networks[1].

Powyższy tekst, jak wskazuje sam tytuł, koncentruje się na jednym z podstawowych zjawisk występujących w sieciach społecznych, jakim jest zjawisko homofilii (ang. homophily), wskazując ponad sto różnych badań w których owo zjawisko zostało zaobserwowane. W skrócie zasadę homifilii można opisać w następujący sposób: ludzie w pewnej populacji mają średnio znacząco więcej relacji z innymi ludźmi, którzy są do nich podobni, niż z tymi, którzy są do nich niepodobni. Jeśli natomiast chodzi o mierzenie homofilii – często robi się to poprzez porównanie faktycznej ilości relacji ludzi z podobnymi sobie, w stosunku do ilości relacji z podobnymi sobie, gdyby relacje te tworzone były całkowicie losowo w całej populacji. Zjawisko to kształtuje strukturę sieci społecznych, powodując powstawanie w sieci lokalnych grup ludzi podobnych sobie.

Oczywiście pojawia się od razu pytanie co to znaczy, że ludzie są podobni? Wspomniana praca wskazuje wiele zmiennych (lub wymiarów) na których można mierzyć podobieństwo i obserwować homofilię. Te zmienne to z jednej strony typowe zmienne demograficzne, na które jednostki nie mają osobistego wpływu, lub mają mały wpływ – takie jak: rasa i narodowość, płeć, wiek, religia. Z drugiej strony mogą to być również trochę bardziej ogólnie zdefiniowane zmienne, na które pojedyncze osoby mają potencjalnie większy wpływ. Są one związane z życiowymi wyborami i osiągnięciami, i mogą to być np.: klasa społeczna, poziom edukacji, zawód, pozycja zawodowa i społeczna, wzorce zachowań, usposobienie, umiejętności, przekonania, aspiracje itp.

Homofila w każdym z tych wymiarów jest poparta wieloma badaniami cytowanymi we wspomnianym tekście, jednak nie w każdym przypadku jest tak samo silna. Jeśli więc sam fakt istnienie pewnej dozy homofilii obserwowanej na tych zmiennych może nawet wydawać się intuicyjny dla laika, to jednak na pewno jednym z ciekawszych naukowo wniosków zaznaczonych w pracy jest próba oceny relatywnej siły tego zjawiska ze względu na różne zmienne, dokonana na podstawie przeglądu i analizy poszczególnych badań socjologicznych na przestrzeni prawie stu lat. Najsilniejsza homofilia jest obserwowana w wymiarze rasy i pochodzenia (ang. ethnicity). Kolejnymi zmiennymi związanymi z silną homofilią są płeć, wiek, religia i edukacja. Znaczącą homofilię dla niektórych typów sieci społecznych można również zaobserwować dla zawodu, pozycji zawodowej lub społecznej (pozycji w sieci), wzorców zachowań i wartości międzyludzkich.

Innym ciekawym wnioskiem, który można znaleźć w pracy jest próba obalenia popularnej koncepcji zakładającej znaczący wpływ grupy na jednostkę, która do tej grupy przynależy (czyniący jednostkę podobną do grupy). Badania homofilii zdają się sugerować, że o wiele silniejszy związek przyczynowo skutkowy zachodzi jednak w drugą stronę – to znaczy na etapie formowania się grupy – to jednostki, które są podobne do tych w grupie dołączają się do niej, a nie stają się podobne przez przynależność do takiej grupy. Sztandarowym przykładem tej koncepcji są badania prowadzone na grupach nastolatków, gdzie często przyczynę zachowań zarówno pozytywnych jak i negatywnych interpretowano jako wpływ grupy na jednostkę, gdy tymczasem to grupa była efektem selekcji i tworzenia relacji z rówieśnikami o podobnych wzorcach zachowań.

Oprócz pokazania i porównania zjawiska homofilli w wielu różnych wymiarach podobieństwa, we wspomnianej pracy znaleźć można także pewne bardziej podstawowe koncepcje – tekst wymienia i opisuje źródła homofilii, ale być może lepiej było by powiedzieć, że są to po prostu podstawowe źródła relacji międzyludzkich, które formują się zgodnie z tą zasadą. Do źródeł tych należą między innymi: bliskość geograficzna (naturalnie stwarzająca możliwość i ułatwiająca tworzenie relacji), więzy rodzinne, przynależność do tych samych ośrodków lub jednostek organizacyjnych takie jak szkoła, praca, lub inne organizacje zrzeszające ludzi, a także bardziej szczegółowo – zajmowanie tej samej pozycji wewnątrz organizacji (np. pozycja zawodowa) lub tej samej pozycji społecznej (np. stan cywilny).

Podsumowując – najciekawszym wnioskiem pracy, oprócz samego istnienia homofilli potwierdzanego przez dziesiątki lat badań socjologicznych, wydaje się być próba porównania i ocena siły tego zjawisko po różnych typach zmiennych wyznaczających podobieństwo między ludźmi i po różnych typach relacji międzyludzkich. Oczywiście wnioski wyartykułowane w pracy są uogólnione po różnych typach relacji i metodologiach, ponieważ najprawdopodobniej bardzo trudno byłoby sprowadzić koncepcję siły homofilii do jednej spójnej miary, w sytuacji znaczących różnic metodologicznych występujących pomiędzy tak dużą liczbą różnych socjologicznych eksperymentów prowadzonych na przestrzeni dziesięcioleci, tym niemniej taka próba również wydaje się bardzo ciekawym kierunkiem badawczym.

Na pewno też bardzo ciekawą i przydatną pomocą naukową byłaby jakaś usystematyzowana wizualizacja wniosków na temat względnej siły homofilii pomiędzy różnymi zmiennymi i typami relacji międzyludzkich, nawet jeśli była by to informacja częściowo subiektywna i uogólniona, a nie ścisła wykładnia zjawisk socjologicznych.

Wnioski z pracy są w miarę ogólne, ale za to w mniejszym lub większym stopniu będą przekładać się na dowolne sieci społeczne, chociażby na współczesne serwisy społecznościowe i pokrewne, od których rozpoczęły się te rozważania. W tym przypadku zasada homofilii najprawdopodobniej pozostanie w mocy, a jedynie różnić się będą podstawowe wymiary podobieństwa i związana z nimi siła homofilii, jak również rodzaje relacji – ponieważ z pewnością nie zawsze można postawić znak równości pomiędzy chociażby relacją przyjaźni zdefiniowaną w badaniach socjologicznych, a dodaniem kogoś do listy przyjaciół w serwisie społecznościowym.


[1] Miller McPherson, Lynn Smith-Lovin and James M. Cook, BIRDS OF A FEATHER: Homophily in Social Networks, Annual Review of Sociology Vol. 27, (2001), pp. 415-444, URL: ftp://www.soc.cornell.edu/csi/Networks/mcpherson%20smith-lovin%20cook%20ars.pdf

Czerwiec 7, 2012

Wpływ kampanii wirusowych na promocję produktów oraz usług.

- autor: tsissput

W obecnych czasach człowiek ma dostęp do ogromnej ilości danych, dostarczanych zarówno w sposób tradycyjny (praca, radio, telewizja) oraz w sposób bardziej współczesny (Internet dostępny nie tylko z poziomu komputera, ale również telefonu komórkowego). Dodatkowo, współcześni konsumenci nie dają się tak łatwo jak kiedyś zwieść konwencjonalnym formom reklamy. W takim natłoku informacji i z wiedzą, że reklama nie zawsze mówi prawdę, bardzo trudno jest wyrobić sobie zdanie i podjąć decyzję kupna produktu wybranej marki. Z tego powodu marketing szeptany (ang. word of mouth) oraz kampanie wirusowe (ang. viral campaigns) są coraz częściej wykorzystywane w akcjach reklamowych.

Wszechobecny Internet oraz sieci społecznościowe pozwalają ludziom dzielić się informacjami w bardzo szybkim tempie. W przeciągu sekundy możemy przekazać naszym znajomym (choć nie tylko im) informację o tym, czy dany product nam odpowiada, czy może znaleźliśmy w nim jakieś wady i usterki.  Jeśli dodamy do tego łatwość przesyłania informacji dalej, to otrzymujemy potężne mechanizmy tworzenia kuli śnieżnej, które mogą w łatwy sposób ułatwić promocję lub też pogrzebać produkt. Panowie Sinan Aral oraz Dylan Walker z NYU Stern School of Business postanowili zbadać w jaki sposób różne sposoby udostępniania treści w sieciach spełecznościowych wpływają na rozprzestrzenianie się informacji oraz na sposób zachowania się innych osób. W swoim artykule „Creating Social Contagion through Viral Product Design: A Randomized Trial of Peer Influence in Networks” przedstawiają eksperyment przeprowadzony w wykorzystaniem sieci Facebook przy współpracy 9687 użytkowników tego serwisu. Aral oraz Dylyn podzielili aktywność wspóldzielenia się informacją na dwa typy: wspóldzielenie bierne oraz współdzielenie aktywne. To pierwsze nie wymaga od użytkownika żadnej konkretnej czynności, informacje wysyłane są automatycznie przy wybranych akcjach. To drugie wymaga od użytkownika świadomego przekazania danych dalej. Celem eksperymentu było określenie, który z tych dwóch typów wspóldzielenia informacji ma większy wpływ na osoby z kręgu znajomych. W eksperymencie wykorzystana była specjalna aplikacja służąca do recenzji i opisywania filmów. Grupa  9687 osób została automatycznie podzielona na 3 podgrupy: 1) grupa kontrolna (405 osób), która w ogóle nie wspóldzieliła informacji; 2) grupa (4600 osób), która wspóldzieliła informacje w sposób bierny, polegający na tym, że przy wybranych aktywnościach w ramach wykorzystywanej aplikacji na ścianie danej osoby pojawiały się informacje o tychże aktywnościach (tzw. powiadomienia); 3) grupa 4682 osób, które wspóldzieliły informacje aktywnie, czyli dostawały sugestie, aby o niektórych aktywnościach powiadomić swoich znajmych za pomocą wiadomości prywatnych (zaproszeń do korzystania z aplikacji). Efekt współdzielenia mierzony był przez liczenie ile osób zaczęło korzystać ze wspomnianej aplikacji pod wpływej wspóldzielonej informacji. Autorzy spodziewali się, że współdzielenie aktywne będzie wywoływało większy efekt na znajomych. Miało mieć to związek z tym, że prywatne wiadomości są bardziej osobistą formą komunikacji i angażują użytkowników w bliższą formę interakcji, niż ma to miejsce w przypadku biernego wysyłania treści. Wyniki okazały się jednak zaskakujące. Osoby wykorzystujące współdzielenie bierne miały o 246% większy wpływ na swoich znajomych niż grupa kontrolna. W przypadku osób wspóldzielących informacje w sposób aktywny wzrost był na poziomie 98%. Ciekawiej się robi, gdy wyniki podzielimy na efekt lokalny oraz efekt globalny. Efekt lokalny pokazuje jaki wpływ miały pojedyncze wiadomości. Efekt globalny pokazuje jaki wpływ miały łącznie wszystkie wiadomości, wyniki te zostały przytoczone wcześniej. W przypadku efektu lokalnego potwierdziły się przypuszczenia autorów – per informacja większy wpływ miało współdzielenie aktywne. Skąd zatem tak słaby wynik w ujęciu globalnym? Otóż informacji wspóldzielonych w sposób bierny było zdecydowanie więcej – nie wymagały one aktywności użytkownika, zatem częściej były wykorzystywane, podczas gdy wspóldzielenie aktywne wymagało pewnego wysiłku od użytkowników. Dwa główne wnioski płynące z tej pracy są następujące. Po pierwsze, odpowiednie zaprojektowanie produktu oraz jego kampanii marketingowej może znacznie zwiększyć adaptację produktu. Jak widać z badań każda forma wspóldzielenia informacji miała większy wpływ niż było to w przypadku grupy kontrolnej. Biorąc pod uwagę, że dodanie elementów społecznościowych do produktów wiąże się zwykle z pojedynczym kosztem stałym, to inwestycja w takie elementy może przynieść zdecydowanie większe efekty niż tradycyjne kampanie marketingowe. Po drugie, kampanie wirusowa powinny łączyć w sobie oba typy wspóldzielenia informacji: wspóldzielenie aktywne oraz współdzielenie bierme. Taka strategia ma szanse przynieść największy pożądany efekt.

Wiele rzeczywistych przykładów pokazuje, że marketing szeptany oraz kampanie wirusowe mogą mieć ogromny wpływ na powodzenie akcji reklamowej. Jednym z takich przykładów jest seria reklam marki Old Spice, w której wykorzystano charakterystyczne poczucie humoru i które skutkowała lawinowym powstawaniem amatorskich reklam nawiązujących do oryginałów.

Kolejnym przykładem jest seria filmów „Will it blend?“, która rozpoczęła się w 2005 roku. W każdym odcinku do blendera wrzucany był inny przedmiot w celu eksperymentalnego sprawdzenia, czy uda się go zmiksować. Ten wydawać by się mogło absurdalny pomysł spotkał się z niebywale pozytywną reakcją użytkowników serwisu youtube i szybko stał się jedną z kultowych pozycji (pojedyncze odcinki mają w chwili obecnej po kilka milionów wyświetleń).

Wielkie międzynarodowe firmy zaczęły dostrzegać, że kampanie wirusowe mogą pozwolić im zaoszczędzić sporo pieniędzy. Jedną z takich firm jest Samsung, którego wideo z owcami w roli głównej zostało obejrzane przez 16 milionów osób na całym świecie.

Podobną akcję przeprowadziła firma Nike’a, która nakręciła serię filmów z udziałem znanego amerykańskiego koszykarza Kobiego Bryanta. Zadaniem sportowca była reklama nowych butów Nike oraz prezentacja jak wysoko i daleko można dzięki nim skakać. Filmy z udziałem Bryanta zaczęły rozprzestrzeniać się w bardzo szybkim tempie razem z głośnymi dyskusjami, czy takie skoki są w ogóle możliwe. W trochę inny sposób do kampanii wirsuowej podeszła firma Google wprowadzając swoją usługę poczty elektronocznej (Gmail). Zamiast wydawać miliony dolarów na marketing oraz walkę z Hotmail czy Yahoo Google wprowadziło mechanizm zaproszeń – każdy nowy użytkownik poczty mógł zaprosić kilku swoich znajomych. Dzięki temu w krótkim czasie wiele osób dowiedziało się o nowej usłudze dostając zaproszenia od swoich znajomych (jest to idealny przykład współdzielenia aktywnego). Nie można również zapomnieć o ostatniej kampanii Baracka Obamy, która w dużej mierze opierała się na wykorzystaniu Twittera oraz Facebooka, dzięki czemu obecny prezydent Stanów Zjednoczonych zdobył sobie rzeszę młodych i aktywnych wyborców.

Wspomniane badania, przytoczone oraz inne przykłady kampanii wirusowych pokazują w jaki sposób można wykorzystać nowe narzędzia oraz serwisy intenetowe w celu zwiększenia zysków oraz efektów akcji marketingowych.