Wyszukiwanie informacji w Internecie

1 Wyszukiwanie informacji w InternecieSzymon Bohdanowicz ...
Author: Jagoda Dominikowski
0 downloads 2 Views

1 Wyszukiwanie informacji w InternecieSzymon Bohdanowicz

2 Internet Ile jest stron internetowych?netcraft w kwietniu ,693,296

3 Z czym mamy do czynienia?wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki

4 Katalogi stron internetowychposiadają strukturę drzewiastą pogrupowane tematycznie bądź regionalnie na ogół są aktualizowane oddolnie Rodzaje: katalogi globalne regionalne tematyczne katalogi firm itd…

5 Przykłady – ogólno światowy katalog otwarty, redagowany przez społeczność - katalog komercyjny – polski katalog stron - ciekawa inicjatywa - katalog firm – katalog blogów

6 Zalety Wady Treść oraz aktualność stron jest weryfikowanaStosunkowo przejrzysty sposób prezentowania informacji Wady Mała liczba stron – konieczność weryfikacji Komercyjność - linki sponsorowane są wyżej na liście Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii

7 Kilka ogólnych uwag Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??

8 Wyszukiwarki internetowestrony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów Aktualnie są to naprawdę skomplikowane narzędzia składające się z: Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. Indekser - program analizujący i oceniający. Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.

9 W jaki sposób strony są wybieraneAnaliza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Przykład -> w przeglądarce

10 W jaki sposób strony są wybierane cd.Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).

11 Dodatkowe elementy wyszukiwarekprogramy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) • programy archiwizujące repozytorium, • programy analizy technik zabronionych [spam], • moduły administracyjne.

12 Najważniejszy atut wyszukiwarkiNajważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.

13 Dodatkowe funkcje wyszukiwarekPodpowiadanie Poprawianie pisowni Automatyczne tłumaczenie Wyszukiwanie zaawansowane(znaki dodatkowe -> ””, + , -), w określonym języku Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne

14 Google – lider absolutny Jako pierwszy zastosował analizę topologiczną Jego algorytmy relewancji uznawane są za najdoskonalsze

15 Metawyszukiwarki Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę

16 Przykłady Metacrawler – działa online http://www.ixquick.com/ - onlineCopernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)

17 Coś więcej? -> deepweb(głęboka sieć)

18 Struktura sieci Strony internetowe przestały być statycznymidokumentami HTML o niezmiennej zawartości. Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.

19 Struktura sieci (głęboka)Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.

20 Przeszukiwanie deepwebu– ma dostęp do baz danych, ułatwieniem jest katalog tematyczny - wyszukiwarka akademicka - wyszukiwarka bibliotekarzy

21 Kilka technicznych poradPodczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.

22 + i - przed użytymi słowamiZastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.

23 wielkie litery Operatory AND, ORZazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)

24 Kilka słów kluczowych dla googladefine: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) info: wyświetli podstawowe informacje o danej witrynie related: wyświetli strony o podobnym charakterze, podobnej treści filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji

25 Jeszcze kilka link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu

26 Czas na coś wesołego? Ważne linki Coś ciekawegoMam x lat – czyli google prawdę Ci powie Ważne linki – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego – ciekawa wyszukiwarka lotów