Kilka argumentów na korzyść technologii semantycznych

- autor: tsissput

Mike Bergman, CEO i współzałożyciel firmy Structured Dynamic LLC w ciekawy sposób opisał kilka zalet technologii semantycznych, najważniejszych z biznesowego punktu widzenia.

Kanoniczny zapis dowolnych informacji
Model danych RDF i jego zdolność do reprezentowania najprostszych danych za pomocą skomplikowanych schematów dziedzinowych i słowników opartych na ontologicznym języku OWL sprawia, że każdy istniejący schemat czy struktura mogą mieć swoją reprezentację. Dzięki tej ekspresywności i elastyczności, każde istniejące dotychczas źródło danych lub schemat mogą być zapisane za pomocą jezyka RDF i jego rozszerzeń. Spektrum użycia tego języka umożliwia wyrażenie wspólnej reprezetancji dla dowolnego, istniejącego schematu danych; dzięki takiej ekspresywności z kolei możliwe jest zapisanie w kanonicznej postaci dowolnej reprezentacji danych.

Wspólna, kanoniczna reprezentacja wszystkich istniejących schematów i typów danych oznacza, że wszystkie te informacje mogą zostać powiązane i wzbogacone o wzajemne relacje. Kanoniczność ta, oparta o powiązanie dowolnych danych za pomocą modelu RDF, jest podstawową zaletą technologii semantycznych. Dodatkowo, praktyka nadawania identyfikatorów w formie URI wszystkim składowym elementom w tym podejściu sprawia, że idealnie pasuje ono do rozproszonych danych dostępnych za pośrednictwem sieci Internet.

Obsługa istniejących struktur danych
Każdy istniejący dotychczas format lub struktura danych mogą być reprezentowane za pomocą modelu RDF; model ten jest w stanie łatwo przedstawiać informacje zawarte w ustrukturyzowanych (konwencjonalne bazy danych), pół-strukturyzowanych (strony internetowe, strumienie danych w formacie XML) czy nieustrukturyzowanych (dokumenty, obrazy) źródłach informacji. Użycie ontologii wraz z instancjami obiektów jako rekordów w modelu RDF jest potężnym narzędziem dla systemów ekstrakcji wiedzy, coraz bardziej powszechnych przy tagowaniu informacji ze źródeł o nieokreślonej strukturze.

Prostota reprezentacji jakiegokolwiek formatu czy struktury danych i możliwość wyodrębnienia struktury z nieustrukturyzowanych źródeł czyni model RDF „uniwersalnym rozpuszczalnikiem” dowolnych informacji. Stąd, z niewielkim nakładem pracy na konwersję/wyodrębnianie, wszystkie informacje w ich istniejącej formie mogą zostać zorganizowane i powiązane relacjami dzięki RDF.

Adaptacyjny, elastyczny schemat
Dość osobliwą różnicą pomiędzy technologiami semantycznymi i systemami relacyjnymi jest wykorzystanie podejścia „otwartego świata”. Model relacyjny jest paradygmatem, w którym informacja musi być kompletna oraz opisana zgodnie z narzuconym z góry schematem. Model ten zakłada, że jedynymi obiektami i relacjami pomiędzy nimi, istniejącymi w danej dziedzinie są obiekty i relacje jawnie zapisane w bazie danych. Ten „zamknięty świat” systemów relacyjnych utrudnia łączenie informacji z wielu źródeł, radzenie sobie z danymi niepewnymi lub niekompletnymi czy próby integracji wewnętrznych, zastrzeżonych informacji z danymi pochodzącymi z zewnątrz.

Z kolei technologie semantyczne umożliwiają modelowanie różnych dziedzin w sposób inkrementacyjny: kiedy pozyskiwana jest nowa wiedza, bądź przeprowadzane są nowe integracje, leżący u podstaw danych schemat może być dodany i zmodyfikowany bez naruszania informacji obecnej w systemie. Ta adaptacyjność jest w zasadzie największym źródłem korzyści ekonomicznych dla firmy, które wynikaj z użycia technologii semantycznych. Ponadto dodatkowym atutem jest możliwość „eksperymentowania” z danymi bez większego ryzyka awarii.

Bezkonkurencyjna wydajność
Możliwość posiadania informacji w jednolitej, kanonicznej formie powoduje, że różnej maści narzędzia generyczne czy aplikacje mogą być projektowane pod kątem tej formy. To z kolei zwiększa wydajność zarówno użytkowników jak i twórców aplikacji. Nowe zbiory danych, struktury i relacje mogą być w dowolnym momencie dodane do systemu, natomiast sposób w jaki narzędzia manipulują tymi informacjami pozostaje taki sam.

Wydajność użytkowników wzrasta dzięki konieczności opanowania jedynie niezbędnej liczby narzędzi. Relacje w składowych zbiorach danych są modelowane na poziomie schematu (tj. ontologii). Ponieważ manipulowanie informacją na poziomie interfejsu użytkownika składa się z ogólnych paradygmatów dotyczących selekcji, podglądu czy modyfikacji prostych konstrukcji zbiorów danych, typów i instancji, dodanie lub zmiana nowych danych nie spowoduje konieczności wprowadzenia jakichkolwiek zmian w funkcjonalności interfejsu. Te same czynności związane z manipulacją danymi mogą być z powodzeniem stosowane niezależnie od zbiorów danych, typów obiektów istniejących wewnątrz nich czy relacji pomiędzy nimi. Zachowanie aplikacji opartych o technologie semantyczne jest mocno zbliżone do ogólnych mashupów (tj. stron internetowych, które łączą w sobie aplikacje on-line udostępniane publicznie z różnych źródeł).

Wydajność pracy deweloperów aplikacji wynika natomiast z wykorzystania generycznych interfejsów oraz API, bez konieczności tworzenia nowych mechanizmów za każdym razem, gdy zajdzie potrzeba dodania nowych danych do systemu. Z tego względu, aplikacje ontologiczne, które powstały na bazie poprawnie zaprojektowanych frameworków semantycznych działają również na prostych konstrukcjach zbiorów danych, typów i instancji. Wynikające stąd uogólnienie pozwala programistom skupić się na tworzeniu logicznych „pakietów”, agregujących funkcjonalność (mapowanie, podgląd, edycja, filtrowanie, etc.) zaprojektowaną do operowania na poziomie konstrukcji, a nie na poziomie danych atomowych.

Naturalne, połączone systemy wiedzy
Wszystkie wymienione wyżej czynniki łączą się, umożliwiając złożenie i powiązanie relacjami większej ilości rozproszonych danych. Realizuje to ideę ujmowania całych dziedzin wiedzy, które mogą być rozszerzane i przemieszczane do woli.

Dowolny rodzaj informacji, relacji między nimi oraz dowolny widok zdefiniowany na tej informacji może być ujęty i zamodelowany. Następnie, informacja ta może podlegać nadzorowi oraz być dowolnie manipulowana przez zbiór generycznych narzędzi. Stosunkowo nieskomplikowane i bezpośrednie konwertery są w stanie przenosić informację kanoniczną do innych formatów, używanych przez istniejące, zewnętrzne narzędzia. Podobnie, zewnętrzną informację zapisaną w różnych formach można łatwo przekonwertować do wewnętrznej, kanonicznej postaci.

Wymienione możliwości stoją w pewnej opozycji do stosowanych dotychczas technologii magazynowania informacji. Technologie semantyczne doskonale nadają się bowiem do ujmowania naturalnych połączeń systemów wiedzy oraz samej ich natury.

Podsumowanie
Trudno jest znaleźć w branży IT inne podejścia dostępne dla biznesu, które miałyby wszystkie wymienione zalety. Idea totalnej integracji informacji, zarówno publicznej jak i prywatnej z możliwością przyrostowych zmian obejmujących zbieranie, manipulację i łączenie danych, jest na prawdę fascynująca. Ale co najważniejsze, jest ona już dzisiaj dostępna. Dzięki techologiom semantycznym możemy zrobić więcej i zrobić to szybciej. Z mniejszym ryzykiem.

Jednakże, świadomość tego wśród klientów nie jest jeszcze zbyt szeroka. Brak tej świadomości wynika z kilku czynników; technologie semantyczne są stosunkowo nowe i ucieleśniają inną mentalność. Firmy dopiero zaczynają zdawać sobie sprawę z tkwiących w nich możliwości. Należy więc nie tylko nauczać je nowych koncepcji, ale także kwestionować stare praktyki oraz przesądy.

Źródło: http://www.mkbergman.com/974/making-the-argument-for-semantic-technologies/

84817

Advertisements

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d blogerów lubi to: