Archive for Styczeń, 2015

Styczeń 28, 2015

Kliki Politechniki

- autor: tsissput

Introduction:

The goal is to visualize PUT Computer Science Institute scientist according to their publications, who they make publications with, when they make it etc. We had only wide-audience available data and such was used. Document is structured as follows:

  1. In process section one can find information how the experiment was conducted.
  2. Statistical data sections gives some insights on quantitative measures of PUT scientists and publications.
  3. Finally Visualization section presents result graphs of scientists.

Process:

We decided to obtain data from google scholar for obvious reasons. Unfortunately no real API exists what would make our task much easier. Eventually we ended up parsing HTML with open source Python library. Unfortunately like quite a few libraries which had been tested before it was not working properly and we needed to introduce a few improvements.

In program we create graph in which each author corresponds to a node and each edge represents a fact of being co-author of the same article. Weight of such edge is number of citations and additional attributes are title and publish date. Additionally nodes, apart from name, contain information about total number of publications and citations as well as scientific degree and division within faculty of computer science the scientist work for. Data format is suitable to be imported to Gephi but also easely adjusted to other formats.

Statistical data:

In total we analyzed about 80 scientists out of total 120 due to their absence on google scholar. Here are some interesting charts (click on picture to see it in full size):

Scientific degrees and number of dempartment employees pie charts

total cytowania

Total number of publications and citations per division

total cytowania

Total citations of each article

total cytowania

Total number of citations per author

total cytowania

Total number of publications per author

total cytowania

Visualization:

Here we go with visualization of the data. We’ve used Python formatted csv files imported to Gephi. Mind that authors (nodes), have proper number of citations and publications but edges (being co-author of the same article) are created exclusively by articles made by at least two Poznań Univeristy of Technology workers (it still gives meaningful results but reader has to be aware it).

  1. Who is the most cited scientist from PUT? MostCited – labels
  2.  Who has the biggest number of publications? Full – publications
  3. Graph divided to clusters and then colored by Modularity Class pretty much visualizes CS subdivisions (real existing ones) Modularity Class – labels
  4. How far are you from Jan Węglarz? JW Heat Map according to common publications JW Heat
  5. You may also want to check Mikołaj Morzy MM Heat and Agnieszka Ławrynowicz AL Heat new heat maps
  6. Who has the biggest betweenness measure? Simple: Betweeness
  7. Last, but not least: who has the biggest number of PUT Publications-friends: Degree labels

Thanks for reading!

Authors: 100376 , 98436, 98758

Reklamy
Styczeń 25, 2015

Linked data

- autor: tsissput

W dzisiejszych czasach prawie każdy posiada komputer z dostępem do Internetu. Każdy kto przegląda sieć, szukając informacji, czytając artykuły wykorzystuje linked data. Mechanizm ten wykorzystuje Semantic Web którego celem jest połączenie różnych danych.  Obecnie nasze komputery bez naszej pomocy nic by same nie zrobiły, to my kierujemy nimi wskazując im poprawną drogę, dzięki nam wykorzystują swoją siłę – bez nas były by tylko blaszaną puszką. Linked data umożliwia powstanie nowych aplikacji. Obecnie istniejące przeglądarki powiązanych danych, umożliwiają przeglądanie i wyszukiwanie między źródłami wzdłuż połączeń między danymi. Mechanizmy te przeszukują sieć powiązanych danych między wieloma źródłami, dzięki czemu możliwe jest wykonanie ekspresyjnych zapytań o wielkich możliwościach w bazach danych.

Linked data to najefektywniejsze metody na temat tworzenia rozwiązań między danymi pochodzącymi z różnych źródeł w sieci. Przedstawione dane mogą być zróżnicowane tak jak bazy danych z różnych organizacji. Linked data można nazwać systemem który łączy precyzyjnie dane i wiarygodne źródła.

Dzieje się tak za pomocą:

odnośników URI

składni RDF

 

Odnośniki URI czyli Universal Resource Identifier to internetowym standardem który pozwala rozpoznać zasoby w sieci. Z reguły jest to duża ilość znaków, zapisana według standardów. Przykładem jest URL, który wskazuje także metodę dostępu.

Składnia URI wygląda następująco:

-wzór skrócony hierarchiczny zaczyna się od ukośnika / np :// przykładem może być link do strony http://www.wikipedia.org

<schemat> : <część hierarchiczna> [ ? <zapytanie> ] [ # <fragment> ]

-wzór skrócony niehierarchiczny, występuje tylko dwukropek : przykład mailto:jakas-osoba@wikipedia.org

URI odnoszą się do konkretnych ludzi, zdarzeń ale także pojęć, można je również wykorzystywać do poznania danych z dysku naszego komputera, różnego rodzaju notatek, kontaktów, wiadomości czy plików. Podsumowując pojęcie URI jest narzędziem do identyfikacji ogółu.

Kolejny aspekt to odnośniki RDF – metody które pozwalają na przedstawienie zasobów sieci Web, oparte są na XML głównym ich zadaniem jest wyświetlenie informacji zawartych w sieci w taki sposób aby były łatwo zrozumiałe dla komputerów. Celem odnośników RDF jest stworzenie standardu zapisu danych o danych, w których nie było by chaosu jak w znacznikach <meta>. Pozwoliło by to na automatyczne przetwarzanie treści i jednocześnie umożliwiło by łatwiejsze poszukiwanie informacji oraz śledzenie danych na interesujący nas temat.

Linked Open Data oraz semantic web stają się coraz popularniejsze, co za tym idzie coraz więcej ludzi stara się mieć swój wkład w tej dziedzinie. Liczba entuzjastów rośnie bardzo szybko, a sami zainteresowani tym tematem starają się wprowadzić coraz to lepsze metody uzyskania dostępu do danych. Ponad to osoby zaangażowane w projekt Linked Data robią wszystko co mogą aby udostępnić publicznie dostęp do danych, które są w obecnych czasach zamknięte przez rządy czy służby, myślę że szczególnie zainteresowanie miałyby dane dotyczące nauk ścisłych. Materiały w Linked Data stale rosną, a razem z nimi liczba wiarygodnych danych.

 

 

Bibliografia

http://pl.wikipedia.org/wiki/Uniform_Resource_Identifier

http://www.archiwistyka.pl/artykuly/artykuly_i_felietony/530

http://pl.wikipedia.org/wiki/Resource_Description_Framework

http://www.w3.org/standards/semanticweb/data

Autor 119919