Open Government Data – semantyczne dane rządowe

- autor: tsissput

Zwiększająca się ilość danych publikowanych przez organizacje rządowe, spowodowały problemy ze skalowalnością i zarządzaniem takimi danymi. Problemem jest połączenie rozproszonych źródeł danych w jedną przezroczystą całość, tak aby dla użytkowników było to użyteczne i przejrzyste. Linking Open Government Data Portal jest open source’owym projektem opartym o technologie Semantycznej Sieci stworzonym przez zespół Tetherless World Consetllation(w skrócie TWC). Serwis ma na celu uporządkowanie i lepsze zarządzanie danymi państwowymi, które są publikowane przez organizacje rządowe oraz zaktywizowanie społeczności w tym obszarze. TWC LOGD Portal jest miejscem gdzie użytkownicy mogą aktywnie uczestniczyć w projekcie poprzez dodawanie, modyfikowanie i konwertowanie danych. OGD staje się coraz ważniejszym kanałem komunikacyjnym pomiędzy rządem a obywatelami. Korzyścią rozwoju OGD jest ograniczenie kosztów dostarczania dużych ilości zaufanych danych dla obywateli.

W sierpniu 2010 serwis miał już zgromadzone ponad 8,5 miliarda trójek RDF z 11 różnych źródeł danych, gdzie głównym źródłem było data.gov. Większość publikowanych danych rządowych jest w postaci surowej – bez formalnej struktury. Serwis TWC LOGD ma możliwość konwersji tychże danych do postaci RDF. Konwerter podczas konwersji danych, analizuje metadane oraz źródło pochodzenia dokumentów. Przechowuje także historię wersji dokumentów, nie nadpisując zawartości starych dokumentów.

Poniższy schemat przedstawia przepływ dokumentów w TWC LOGD Portal:

Dostęp do danych semantycznych jest zrealizowany na wiele sposobów. Każdy zbiór danych posiada stronę zawierającą zagregowane informacje dotyczące plików takich jak: tytuł, opis, pochodzenie. Te informacje są wprowadzane ręcznie przez użytkowników. Natomiast automatycznie generowane są m.in.: liczba trójek, linki do zasobów).

Innym sposobem dostępu do danych istnieje poprzez zapytania SPARQL. Dostępne jest narzędzie dla programistów SPARQL Proxy, dzięki któremu można wzbogacić otrzymywane wyniki o takie formaty jak JSON i tabele HTML. Następnym udostępnionym narzędziem jest LOD cache służącym do synchronizacji danych RDF.

TWC LOGD Portal jest oparty na idei Mashup. Mashup to strona sieci Web lub aplikacja, która wykorzystuje i łączy dane z dwóch lub więcej źródeł, do tworzenia nowych usług. Termin oznacza łatwą, szybką integrację, często za pomocą otwartych interfejsów API i źródeł danych do dostarczania wzbogaconych wyników, które niekoniecznie były pierwotną przyczyną do stworzenia tych nieprzetworzonych danych źródłowych.

Schemat przedstawia 4-stopniowy przepływ danych w demie „CASTNET Ozone Map”. Kroki 2-4 przedstawiają trzy poziomy mashup:

  1. Danych – aplikacje łączą dane z różnych źródeł wykorzystując zapytania SPARQL,
  2. Wizualizacji – aplikacje wykorzystują różnorodne biblioteki wizualizacji lub API takie jak Google Visualization API, MIT Simile Exhibit.
  3. Aplikacji – w których powiązane aplikacje stworzone przez różne strony, są połączone z wykorzystaniem HTTP

TWC LOGD Portal pokazuje, jak zasady Linked Data oraz technologie sieci semantycznej mogą być stosowane, aby zmniejszyć koszty i zwiększyć ponowne wykorzystanie modeli danych, linków i technik wizualizacji.

Ta koncepcja ma na celu zachęcanie deweloperów do wspólnego opracowywania modelu danych, określeniu terminów, koncepcji, tworzenia innych heterogenicznych zbiorów danych i korzystania z biblioteki ogólnej wizualizacji i interfejsów API, aby szybciej uzyskać pożądane aplikacje. Przykładowo: demko „CASTNET Ozone Map” przedstawione na poprzednim rysunku, która jest złożone z wielu źródeł danych i wykorzystującej Webowe API wizualizacyjne, powstało w ciągu zaledwie dwóch tygodni i iteracyjnie poszerzane je na przestrzeni miesiąca. Podobnie, we wrześniu 2010 r. zostały utworzone cztery wersje demonstracyjne takich stron, w celu wspierania badań Tobbaco Prevelace w projekcie PopSciGrid.

Deweloperzy nie muszą być ekspertami w technologiach semantycznych aby tworzyć LOGD mashups. Studenci w RPI’s Fall w 2009 r. stworzyli mashup za pomocą technologii semantycznych i zbiorów danych znajdujących się na TWC LOGD Portal. Poświęcając dwie godziny na wprowadzenie do podstaw RDF i SPARQL oraz metod korzystania z narzędzi do wizualizacji, takich jak Google Visualization API, każda grupa stworzyła serwis o idei Mashup w czasie krótszym niż dwa tygodnie. Podobnie, w sierpniu 2010 na warsztatach organizowanych przez Mash-a-thon, zorganizowanej po części przez TWC, mających na celu zaangażowanie deweloperów rządowych w zdobycie umiejętności korzystania z narzędzi i zbiorów danych TWC LOGD. W zaledwie dwa dni, cztery zespoły z powodzeniem stworzyło demko na bazie LOGD-mashup, wykazując przy tym niski koszt transferu wiedzy i szybkiego procesu uczenia się, związanych z zastosowaniem najlepszych praktyk TWC LOGD Portal.

Strona główna TWC LOGD Portal sama w sobie jest mashup’em danych z wielu źródeł. Jak pokazano na rysunku poniżej, zawartość paneli są oparte na zapytaniach SPARQL poprzez użycie XSLT i Google Ajax API. Poniższy schemat przedstawia TWC LOGD Portal jako dynamiczny mashup.

Zespół absolwentów i studentów stworzyli ponad 40 różnych mashup’ów i wizualizacji na TWC LOGD Portal. Te mashup’y są różnorodne. Zademonstrowano integrację danych z wielu źródeł, w tym DBpedia, New York Times API oraz z wolno dostępnych danych rządowych opublikowanych poza USA. Ponadto opracowali:

  • interfejsy na urządzenia mobilne.
  • wsparcie dla interaktywnych analiz w konkretnych dziedzinach życia takich jak: służba zdrowia, polityka i dane finansowe;
  • metody udostępniania danych za pomocą łatwo dostępnych usług sieci Web
  • narzędzia dostępu do danych
  • semantyczne narzędzia do integracji danych.

Ponieważ dane są przetwarzane, konwertowane, modyfikowane, źródło pochodzenia i inne metadane mogą zostać usunięte z pierwotnej postaci danych. Dla danych opublikowanych przez TWC LOGD Portal jest to szczególnie ważne, ponieważ dane mogą pochodzić z różnych źródeł: rządowych jak i z pozarządowych – każdy z własnym stopniem autorytetu i wiarygodności. W trakcie procesu konwersji danych przechwytuje się dane dot. pochodzenia publikowanych danych, umożliwiając użytkownikom skontrolowane ich źródła a tym samym upewnienia się co do wiarygodności otrzymanych danych produktów i aplikacji.

Odkąd TWC LOGD konwerter przechwytuje informacje pochodzenia danych i zapisuje to do Proof Markup Language (PML), użytkownicy są w stanie wydobyć informację na podstawie tych metadanych, i wykorzystywać je w swoich aplikacjach i wizualizacjach. Rysunek przedstawia wybrane TWC LOGD mashup’y i wizualizacje.

Jaka jest przyszłość portalu ?

TWC LOGD Portal reprezentuje znaczny postęp w globalnym OGD, ale istnieje wiele sposobów, w których może zostać rozszerzona funkcjonalność aby lepiej służyć LOGD społeczności. Twórcy stawiają sobie za cel aby, portal angażował użytkowników poprzez interaktywne dema, prezentacje i tutoriale z zastosowaniem sieci semantycznej technologii do integracji istotnych tematów w portalu.

Publikacja skonwertowanych danych rządowych jest krytyczną usługą portalu. Planowane jest znacznie poszerzenie zakresu danych Data.gov. W szczególności tyczy się to danych geograficznych(270.000) dla których zostaną utworzone odpowiednia demka i samouczki dla ułatwienia korzystania z nich przez społeczność LOGD.

Świat LOGD jest ogromny, reprezentowany przez dostawców, deweloperów, do urzędników, działaczy, liderów społeczności lokalnych, przeciętnych obywateli i innych. Długoterminowym celem TWC LOGD Portal jest stanie się punktem centralnym dla dyskusji nt. LOGD zagadnień, technologii i najlepszych praktyk.

Oryginalny dokument pt.: „TWC LOGD: A Portal for Linking Open Government Data” jest dostępny na stronie: http://logd.tw.rpi.edu/files/swc2010_submission_16.pdf. Wszystkie rysunki pochodzą z tego źródła.

Autor: Tomasz Maciejewski(83721)

Reklamy

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj / Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj / Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj / Zmień )

Connecting to %s

%d blogerów lubi to: