Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika.

1 Badanie spójności dokumentów WWW na podstawie semantyki...
Author: Ignacy Kurowski
0 downloads 1 Views

1 Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska

2 Agenda 1. Obecne IR vs potrzeby internautów 2. Nowe możliwości dla IR 3. (Semantic) Blog 4. Autorskie metody badanie spójności 5. Badanie spójności wykorzystując semantykę

3 Obecne metody wyszukiwania w WWW ● wykorzystyjące treść – przeszukiwanie pełnotekstowe ● wykorzystujące hiperlinki – raknowanie dokumentów (np. Google PageRank) ● Web Mining – analiza logów serwera WWW ● wykorzystujące predefiniowane preferencje użytkownika – personalizacja

4 “target audience” ● coraz większy procent użytkowników korzystających z zaawansowanych możliwości wyszukiwania, to nie naukowcy ● coraz większe zapotrzebowanie na wyszukiwanie nie tylko dokumentów relewantnych o podobnej treści, ale również: – z konkretnego okresu – konkretnego autora – informacji rozproszonej – informacji nie podanej wprost (wnioskowanie) ● potrzeba natychmiastowej i trwałej aktualizacji wyszukanej informacji

5 Nowe poziomy informacji możliwe do wykorzystania w IR ● wynik interakcji ze znalezioną informacją: – skomentowanie – ocenienie – poprawienie ● łatwe publikowanie (“Push-Button Publishing”) z dodaniem semantyki ● syndykownia informacji z semantyką ● trend WWW ==>Semantic Web

6 Blog ● Google ● Yahoo! ● Microsoft ● Onet ● Plus GSM ● łatwość publikowania ● możliwość śledzenia i komentowania innych ● różnorodność zastosowań

7 Wymogi stawiane systemowi zarządzania informacją (wg Steve Cayzer'a) ● Łatwość używania i “przechwytywania” – minimalne dodatkowe obciążenie użytkownika ● Zdecentralizowana agregacja – możliwość jednorodnego przeszukania informacji z różnych miejsc, w różnym formacie ● Rozproszenie wiedzy – nowa informacja może być dodawana bezpośredio w miejscu znaleziena poprzedniej (np. ocena znalezionej informacji) ● Elastyczny model danych – przechwytywanie informacji z różnego rodzaju mediów (e-mail, strona WWW, obrazek, itp.) ● Rozszerzalność – możliwość (post hoc) “wzbogacania” informacji ● Wnioskowanie – tworzenie nowych informacji na podstawie już przechwyconych

8 Semantyka blogu ● autor blogu pisze artykuły przydzielając je do zdefiniowanych wcześniej kategorii ● autor blogu śledzi inne blogi – swoich znajomych – związanych z jego zainteresowaniamu (naukowymi) – związanych z wykorzystywanymi przez niego usługami, produktami ● czytelnicy (posiadający własne blogi) mogą komentować artykuły (tworząc dyskusję) ● tak powiązane blogi tworzą blogosferę

9 Nowe funkcjonalności dzięki blogowi semantycznemu (wg Steve Cayzer'a) ● Semantic view – możliwość przezentacji informacji na różne sposoby, np.: widok tabelaryczny, widok pogrupowany, itd. zależne od czytelnika, a nie od autora ● Semantic navigation – możliwość nawigowania między dokumentami w dynamicznie tworzonej strukturze, np. podążanie powiązaniami typu “zgodny z” lub “jest częścią” ; – możliwe jest też zdefinowanie miary podobieństwa semantycznego => powiązanie typu “podobny do” ● Semantic query – możliwość zadawania pytań o informację rozproszoną, np.: “Znajdź wszystkie recenzje artykułu autora o zadanym nazwisku” lub “Znajdź wszystkie wpisy dotyczące moich znajomych”

10 Bibliografia ● Steve Cayzer: “Semantic blogging and decentralized knowledge management” Communications of the ACM Volume 47, Number 12 (2004), Pages 47-52 linklink ● DR Karger, D Quan: “What Would It Mean to Blog on the Semantic Web?” LECTURE NOTES IN COMPUTER SCIENCE, 2004 linklink ● S. Cayzer: “Semantic Blogging: Spreading the Semantic Web Meme” Proc of XML Europe, 2004 linklink

11 Autorskie podejścia do badania spójności ● sąsiedztwo linka hipertekstowego ● wektory wag terminów – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) ● miara spójności kolekcji dokumentów WWW

12 Autorskie podejścia do badania spójności (c.d.) ● pośrednie powiązania w grafie dokumentów WWW – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) ● ontologia środowiska hipertekstowego ● relacje ogólny/szczegółowy i rodzeństwo między dokumentami – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) otwarty przewód doktorski: “Metody analizy spójności i zgodności kolekcji dokumentów WWW”

13 Perspektywy kontynuacji pracy ● Blog można traktować jako kolekcję dokumentów WWW ● Zastosowanie miary spójności dokumentów WWW do wektorów terminów wyznaczonych na podstawie powiązań semantycznych ● Zastosowanie Latent Semantic Analysis ● Zastosowanie metody podobieństwa opinii i odległości semantycznej (Bouillon project)

14 Wnioski ● Istnieje potrzeba wykorzystania nowych poziomów informacji w IR ● Semantyka jest dobrym sposobem na dostęp do tych poziomów ● Semantic Blogging wydaje się być dobrym sposobem na płynne przejście WWW ==> Semantic Web

15 Dziękuję za uwagę