Mikser mechanizm ułatwiający korzystanie z wyszukiwarki internetu Michał Kosmulski mkosmul at users dot sourceforge.

1 Mikser mechanizm ułatwiający korzystanie z wyszukiwarki...
Author: Justyna Wiśniewska
0 downloads 0 Views

1 Mikser mechanizm ułatwiający korzystanie z wyszukiwarki internetu Michał Kosmulski http://hektor.umcs.lublin.pl/~mikosmul/ mkosmul at users dot sourceforge dot net Seminarium „Bazy Danych, Inżynieria Oprogramowania, Systemy Rozproszone” Katedra Inżynierii Oprogramowania PJWSTK 7 stycznia 2008

2 Plan prezentacji ● Definicja i krótki opis Miksera z punktu widzenia użytkownika ● Porównanie z konkurencyjnymi rozwiązaniami ● Struktura projektu ● Sposoby pozyskiwania i przetwarzania danych ● Dyskusja

3 Czym jest Mikser ● Mechanizm współpracujący z wyszukiwarką internetu, który stawia sobie za zadanie usprawnienie korzystania z wyszukiwarki poprzez prezentowanie już na stronie z wynikami wyszukiwania gotowych informacji pochodzących z wiarygodnych źródeł ● Rozwiązanie dla wyszukiwarki NetSprint.pl ● Inspirowany przez ask.com

4 Powody powstania Miksera ● Ogromna ilość informacji w internecie ● Użytkownicy wyszukiwarki: ● Często szukają bardzo ogólnych haseł, dla których zwykłe algorytmy rankingu kiepsko działają ● Mogą nie wiedzieć o zaawansowanych funkcjach wyszukiwarki ● Chcieliby mieć wszystkie informacje w jednym miejscu – również te, z którymi wyszukiwarka WWW kiepsko sobie radzi (np. szybko się zmieniające) ● Szukając w internecie, zwykle chcemy znaleźć informacje, nie strony

5 Podstawowe cechy ● Próbujemy zgadnąć „co użytkownik miał na myśli” i dostarczyć najlepszej odpowiedzi ● Mikser stanowi uzupełnienie zwykłych wyników wyszukiwania ● Dzięki zebraniu danych z wielu źródeł w jednym miejscu oraz prezentowaniu ich już na stronie z wynikami wyszukiwania, oszczędzamy czas i ułatwiamy dotarcie do informacji ● Pierwszy tego rodzaju system dla polskich użytkowników

6 Przykład

7 Porównanie z konkurencją ● ask.com ● Plusy ● Są dostępne opcje narrow your search i expand your search ● Prezentuje wyniki wyszukiwania wideo oraz grafiki wraz z miniaturami ● Minusy ● Brak polskiej wersji językowej (interfejs, dane, priorytety haseł) ● Trudna nawigacja: nie da się łatwo trafić z wyszukiwania hasła „Warszawa” do opisu samochodu Warszawa ani po wpisania zapytania „Tusk” znaleźć informacji o Donaldzie Tusku (w starszej wersji było to łatwiejsze)

8 ask.com

9 Porównanie z konkurencją – c.d. ● google.pl ● Plusy ● Bardzo dobre zwykłe wyniki wyszukiwania ● Wyszukiwanie grafiki z prezentacją miniatur ● Polska wersja interfejsu ● Minusy ● Niewiele informacji dostępnych już na stronie wyników (brak encyklopedii, inne dane pojawiają się rzadko) ● Polska wersja googlowego odpowiednika Miksera jest znacznie uboższa od angielskiej ● Brak wyszukiwania aktualności i firm ● Przeliczanie walut domyślnie na dolary (i opis po ang.) ● Tylko trzymanie się sztywnej składni prowadzi do wyników („gbp” zadziała, ale „kurs gbp” już nie)

10 google.pl

11 Mikser – wybrane założenia ● System przeznaczony dla osób szukających informacji w języku polskim ● Przeznaczony dla niekoniecznie doświadczonych użytkowników wyszukiwarki ● Rozpoznawanie zapytań o „luźnej” składni ● Mikser ułatwia odkrywanie zaawansowanych opcji wyszukiwania (np. wyszukiwarki aktualności) ● Powinien wspomagać standardowy mechanizm wyszukiwania, nie zastępować go

12 Budowa Miksera ● Biblioteka w Javie, możliwość uruchomienia zarówno wewnątrz serwisu WWW jak i w formie osobnej aplikacji (tryb tekstowy) ● Osobne aplikacje służą do importu danych statycznych oraz ich konwersji na wewnętrzny format ● Elastyczny mechanizm wtyczek ułatwia dodawanie nowych funkcjonalności

13 Rodzaje prezentowanych danych ● Dane statyczne ● Wikipedia (wszystko) ● WP (filmy, aktorzy, płyty, wykonawcy, książki) ● FilmPolski.pl (filmy) ● AutoCentrum.pl (samochody) ● IDG (programy) ● gry-online.pl (gry) ●... ● Dane dynamiczne ● NetSprint ● aktualności ● kalkulator ● imieniny ● Panorama Firm ● adresy firm ● WP ● prognoza pogody ● kursy walut ● repertuar kin ● notowania giełdowe ●...

14 Dane dynamiczne ● Pobierane na bieżąco z zewnętrznych źródeł (możliwe keszowanie) ● Dane z różnych źródeł są zwykle obsługiwane przez oddzielne wtyczki ● Dla danych takich jak prognoza pogody czy baza firm, ważne jest określenie lokalizacji użytkownika ● Na podstawie treści zapytania ● Na podstawie zapisanych preferencji wyszukiwania ● Na podstawie adresu IP

15 Przykłady danych dynamicznych

16 Dane statyczne ● Dane pochodzące z różnych źródeł i udostępnione w różnych formatach są przez specjalne aplikacje konwertowane do ujednoliconego formatu ● Ujednolicone dane są indeksowane za pomocą USE (firmowej aplikacji indeksującej), ale można by też użyć zwykłej bazy danych ● Wszystkie dane statyczne są obsługiwane przez pojedynczą wtyczkę Miksera, BTS (Baza Treści Statycznych)

17 Przykłady danych statycznych

18 Działanie BTS ● Rekordy w BTS zawierają m.in.: ● tytuł (nazwę) rekordu ● krótki opis i link do oryginalnego źródła ● rysunek ● linki do strony domowej, galerii zdjęć itp. ● pola tabelaryczne (ustrukturyzowane dane statystyczne i inne): ludność miast, powierzchnia państw, nazwa łacińska dla roślin i zwierząt,... ● Wyszukiwanie (w uproszczeniu) ● po nazwie rekordu ● po „synonimach”, np. „Mikołaj Kopernik”→„Kopernik”, „Wrocław”→„Breslau”

19 Typy rekordów ● Każdy rekord w BTS jest przypisany do jednego z kilkudziesięciu „typów” ● Typy pozwalają odróżnić kilka rekordów o tej samej nazwie (Warszawa: miasto vs samochód) ● „Triggery” wymuszają szukanie rekordu określonego typu oraz umożliwiają znajdowanie informacji w rodzaju „powierzchnia Gruzji”, „wilk nazwa łacińska”, „bitwa pod Grunwaldem data”

20 Rola Wikipedii w BTS ● Zawiera artykuły z wielu różnych dziedzin ● Dane są dostępne w zasadzie tylko jako tekst przeznaczony do prezentacji, pozbawiony struktury – trzeba z nich wydobyć: ● Krótki opis hasła ● Rysunek (najlepiej „właściwy” - np. flagę jeśli artykuł dotyczy państwa) ● Typ rekordu ● Synonimy nazwy rekordu ● Dane tabelaryczne

21 Wikitekst {{Uczelnia infobox |nazwa = Polsko-Japo ń ska Wy ż sza Szko ł a Technik Komputerowych | ł aci ń ska = |angielska = |ojczysta = |god ł o = |motto = |mapa = Grafika:POL Warszawa map.svg |miasto = Warszawa |kraj = Polska |dzie ń _za ł o ż enia = |rok_za ł o ż enia = 1994 |tytu ł y_rektora = |rektor = Jerzy Pawe ł Nowacki |studenci = |adres = ul. Koszykowa 86 02-008 Warszawa |telefon = 0-22 584-45-00 |e-mail = [email protected] |www = http://www.pjwstk.edu.pl |cz ł onkostwo = [[Socrates-Erasmus]] |}} '''Polsko-Japo ń ska Wy ż sza Szko ł a Technik Komputerowych''' zosta ł a za ł o ż ona w [[1994]] roku przez Fundacj ę Rozwoju Technik Komputerowych powsta łą na podstawie porozumienia rz ą dów [[Polska|Polski]] i [[Japonia|Japonii]] z [[1993]] roku. Zosta ł a wpisana do rejestru niepa ń stwowych szkó ł wy ż szych decyzj ą Ministra Edukacji Narodowej z dnia [[30 listopada]] [[1994]] r. == W ł adze == * '''Rektor''' PJWSTK dr Jerzy Pawe ł Nowacki * '''Prorektor ds. Ogólnych''' dr Maciej Dubejko * '''Prorektor ds. Studenckich''' dr Aldona Drabik * '''Kierownik Centrum Badawczego''' prof. Kazimierz Subieta * '''Dyrektor Administracyjny''' Jan Jedli ń ski * '''Dziekan Wydzia ł u Informatyki''' dr Aldona Drabik * '''Prodziekan Wydzia ł u Informatyki''' dr Adam Wierzbicki * '''Dziekan Wydzia ł u Sztuki Nowych Mediów''' prof. Marian Nowi ń ski * '''Prodziekan Wydzia ł u Sztuki Nowych Mediów''' dr W ł odzimierz Pastuszak * '''Dziekan Wydzia ł u Zarz ą dzania Informacj ą ''' p.o. dr Marek Kukulski ==Historia==.....................................

22 Opis i rysunek ● Wikitekst, język zapisu artykułów w Wikipedii, jest nastawiony na prezentację a nie na strukturę dokumentu ● Nawet wydobycie pierwszego paragrafu tekstu nie jest proste jeśli ktoś użył tabel i nietypowego formatowania → heurystyki ● Rysunki: rysunek wskazany przez wybrane pole szablonu lub pierwszy rysunek w artykule (+czarna lista rysunków pomocniczych)

23 Typy rekordów z Wikipedii ● Są określane m.in. na podstawie: ● Nazwy artykułu ● Użytych w artykule szablonów ● Kategorii Wikipedii, do których należy artykuł ● Kategorii są tysiące, tworzą graf skierowany ● Jeśli rekord Miksera o nazwie A jest typu B, oznacza to relację „A jest przedstawicielem B”, natomiast kategorie Wikipedii oznaczają w takim wypadku relację „A kojarzy się z B” - np. w kategorii „Warszawa” i podkategoriach znajdziemy zarówno dzielnice jak i osoby, organizacje, utwory literackie i wiele innych ● Kategorie Wikipedii są w ciągłym ruchu, czasem trudno jest nadążyć za zmianami

24 Synonimy ● Generowane na podstawie reguł, włączanych osobno dla poszczególnych typów rekordów ● Algorytmiczne (np. „Jan III Sobieski”→(„Jan Sobieski”, „Sobieski”), „pies domowy”→„pies”) ● Oparte o wyrażenia regularne ● W połączeniu z pewnymi triggerami, można w zapytaniu używać haseł w dopełniaczu (z Wikipedii lub z osobnego pliku) ● Tworzone na podstawie przekierowań ● Tworzone na podstawie stron ujednoznaczniających ● Niezbędne jest odfiltrowanie szumu

25 Dane tabelaryczne i linki ● Wydobywane z szablonów oraz na podstawie heurystyk z samego tekstu artykułu ● Wydobyte dane wymagają dostosowania do wspólnego formatu (np. adresy stron raz są w postaci linku, a czasem jako zwykły tekst, czasem z prefiksem http:// a czasem bez)

26 Problem: wiele wyników dla jednego zapytania

27 Sortowanie wyników ● Dla pojedynczego zapytania może zostać znalezionych wiele rekordów w BTS. Jak wybrać ten „najważniejszy”? ● Nie ma jednoznacznej odpowiedzi ● Rekordów jest bardzo wiele, żadna prosta reguła nie rozwiązuje problemu ● Zasada najmniejszego zdziwienia ● Kim jest „przeciętny użytkownik”? ● Konieczność konfrontacji pomysłów teoretycznych z rzeczywistymi oczekiwaniami (analiza logów, ankiety) ● Wczesna wersja Miksera: najpopularniejsze rekordy typu „pierwiastek” to „Tlen” oraz „Bar” ● Wymagania zmieniają się w czasie

28 Sortowanie wyników – c.d. ● Obecnie ● Częstości występowania hasła w indeksach wyszukiwarek internetu i aktualności ● Analogiczne częstości dla zapytań z dodatkowymi członami powiązanymi z typami rekordów ● Uwzględnianie wszystkich synonimów nazwy rekordu (założenie, że ich lista jest „kompletna”) ● Wiele parametrów wpływających na sposób sortowania ● Pomysły ● Klikalność ● Ocena przez użytkowników

29 Dziękuję