1 Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej http://www.ftj.agh.edu.pl/~gronek/ Wykład dla Studium Podyplomowego „Informatyka w Szkole” Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej http://www.ftj.agh.edu.pl/~gronek/ Wykład dla Studium Podyplomowego „Informatyka w Szkole”
2 Internet źródłem wiedzy u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu
3 Przyrost liczby węzłów w Internecie
4 Przyrost liczby sieci
5 Przyrost liczby witryn WWW
6 Systemy zcentralizowane u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych. u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych.
7 Instalacje zdalnego dostępu u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników. u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników.
8 Biuletyny elektroniczne u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego. u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego.
9 Poczta elektroniczna i listy dyskusyjne u Powstanie poczty elektronicznej - 1971 u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet u Powstanie poczty elektronicznej - 1971 u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet
10 USENET
11 Przykłady Lista dyskusyjna – interfejs WWW (przykłady): http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ Katalog list dyskusyjnych TileNet http://tile.net/ http://tile.net/ Serwer news groups: news.neostrada.pl URL: news://pl.internet.polip news://pl.internet.polip News groups via www: http://niusy.onet.pl/ http://niusy.onet.pl/ http://www.usenet.pl/doc/news-pl-faq.html http://www.usenet.pl/doc/news-pl-faq.html Lista dyskusyjna – interfejs WWW (przykłady): http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ Katalog list dyskusyjnych TileNet http://tile.net/ http://tile.net/ Serwer news groups: news.neostrada.pl URL: news://pl.internet.polip news://pl.internet.polip News groups via www: http://niusy.onet.pl/ http://niusy.onet.pl/ http://www.usenet.pl/doc/news-pl-faq.html http://www.usenet.pl/doc/news-pl-faq.html
12 Archiwa dokumentów - serwery FTP u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW). u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW).
13 Przykłady Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/ System wyszukiwania plików Archie: http://archie.icm.edu.pl/ http://archie.icm.edu.pl/ Inne systemy wyszukiwania plików –Plikoskop: http://plikoskop.internauci.pl/ http://plikoskop.internauci.pl/ Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/ System wyszukiwania plików Archie: http://archie.icm.edu.pl/ http://archie.icm.edu.pl/ Inne systemy wyszukiwania plików –Plikoskop: http://plikoskop.internauci.pl/ http://plikoskop.internauci.pl/
14 Systemy katalogowe u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW. u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW.
15 Przykłady System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/ Katalog biblioteki AGH: http://www.bg.agh.edu.pl/ http://www.bg.agh.edu.pl/ Rejestr systemów katalogowych LibDex: http://www.libdex.com/ http://www.libdex.com/ Elektroniczna BIBlioteka - platforma cyfrowa SBP: http://www.ebib.info/ http://www.ebib.info/ Bazy Biblioteki Narodowej: http://alpha.bn.org.pl/ http://alpha.bn.org.pl/ System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/ Katalog biblioteki AGH: http://www.bg.agh.edu.pl/ http://www.bg.agh.edu.pl/ Rejestr systemów katalogowych LibDex: http://www.libdex.com/ http://www.libdex.com/ Elektroniczna BIBlioteka - platforma cyfrowa SBP: http://www.ebib.info/ http://www.ebib.info/ Bazy Biblioteki Narodowej: http://alpha.bn.org.pl/ http://alpha.bn.org.pl/
16 Problemy konwersji zasobów z mediów tradycyjnych na elektroniczne u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier). u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier).
17 Systemy hipertekstowe i multimedialne u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW. u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW.
18 Przykłady Baza danych jądrowych Nuclear Data Center: http://www.nndc.bnl.gov/ http://www.nndc.bnl.gov/ System informacji o zarządzie sieci Whois: http://www.db.ripe.net/whois/ http://www.db.ripe.net/whois/ Baza danych jądrowych Nuclear Data Center: http://www.nndc.bnl.gov/ http://www.nndc.bnl.gov/ System informacji o zarządzie sieci Whois: http://www.db.ripe.net/whois/ http://www.db.ripe.net/whois/
19 Systemy wyszukiwawcze u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych. u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych.
20 Przykłady Katalog strukturalny (portal) – Yahoo!: http://www.yahoo.com/ http://www.yahoo.com/ System wyszukiwawczy – Google: http://www.google.pl/ http://www.google.pl/ System archiwizacji grup dyskusyjnych: –GoogleGroups: http://groups.google.com/ http://groups.google.com/ Meta-wyszukiwarka: http://www.metacrawler.com/ http://www.metacrawler.com/ Katalog strukturalny (portal) – Yahoo!: http://www.yahoo.com/ http://www.yahoo.com/ System wyszukiwawczy – Google: http://www.google.pl/ http://www.google.pl/ System archiwizacji grup dyskusyjnych: –GoogleGroups: http://groups.google.com/ http://groups.google.com/ Meta-wyszukiwarka: http://www.metacrawler.com/ http://www.metacrawler.com/
21 Koncepcje Web 2.0 Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji. Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service). Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji. Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service).
22 Właściwości Web 2.0 Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom). Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom).
23 Porównanie rozwiązań Web Web 1.0 (~ 2000 r) dominujące modele osobiste strony WWW (statyczne) spekulacja domenami (skojarzenia) zliczanie odsłon odświeżanie okna przeglądarki publikowanie systemy zarządzania treścią (CMS) katalogowanie (taxonomy) przywiązywanie do witryny przykłady serwisów WWW DoubleClick (reklamy na zamówienie) Ofoto (serwis firmowy) Akamai (serwis dystrybucji WWW) mp3.com (witryna WWW) Britannica Online (nieliczni eksperci) Web 1.0 (~ 2000 r) dominujące modele osobiste strony WWW (statyczne) spekulacja domenami (skojarzenia) zliczanie odsłon odświeżanie okna przeglądarki publikowanie systemy zarządzania treścią (CMS) katalogowanie (taxonomy) przywiązywanie do witryny przykłady serwisów WWW DoubleClick (reklamy na zamówienie) Ofoto (serwis firmowy) Akamai (serwis dystrybucji WWW) mp3.com (witryna WWW) Britannica Online (nieliczni eksperci) Web 2.0 (~ > 2000 r) blogi (aktualizacja / komentarze) optymalizacja stron dla wyszukiwarek wycena pojedynczych kliknięć modułowe usługi sieciowe (web services) uczestnictwo interaktywne systemy typu wiki znacznikowanie ("folksonomy") kanały informacyjne (RSS/Atom) Google AdSense (wg kontekstu) Flickr (wspólnota użytkowników) BitTorrent (system P2P) Napster (pośrednik w modelu P2P) Wikipedia (armia woluntariuszy) wg Tim O'Reilly: http://oreilly.com/pub/a/web2/archive/what-is-web-20.html
24 Technologie modelu Web 2.0 AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript. Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON. AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript. Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON.
25 Krytyka Web 2.0 Czy jest to istotnie nowa funkcjonalność? Czy jest to tylko zestaw rozwiązań technologicznych? Czy model społecznościowy jest wiarygodny i trwały? Czy jest to zabieg marketingowy? Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści Czy jest to istotnie nowa funkcjonalność? Czy jest to tylko zestaw rozwiązań technologicznych? Czy model społecznościowy jest wiarygodny i trwały? Czy jest to zabieg marketingowy? Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści
26 Systemy dystrybucyjne typu P2P Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami. Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego. Lokalizowanie zasobów może być zcentralizowane lub rozproszone. Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami. Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego. Lokalizowanie zasobów może być zcentralizowane lub rozproszone.
27 Systemy dystrybucyjne typu P2P System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny. System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny. System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów
28 PrzykładPrzykład BitTorrent – system dystrybucji plików. Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP. Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich. Obsługiwane przez programy: Opera, Azureus/Vuze, Torrent i i in. BitTorrent – system dystrybucji plików. Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP. Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich. Obsługiwane przez programy: Opera, Azureus/Vuze, Torrent i i in.
29 BitTorrent Przykład dystrybucji pliku (podzielonego na fragmenty) w systemie P2P.
30 Niewidoczny świat Internetu Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW. Interaktywne schematy dostępu np. AJAX/Flash. Komercyjne systemy informacyjne. Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów. Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów. Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW. Interaktywne schematy dostępu np. AJAX/Flash. Komercyjne systemy informacyjne. Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów. Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów.
31 Rejestry zasobów Deep Web Katalog CompletePlanet: http://www.completeplanet.com/ http://www.completeplanet.com/ Infomine: http://infomine.ucr.edu/ http://infomine.ucr.edu/ Weblens - The Invisible Web: http://www.weblens.org/invisible.html http://www.weblens.org/invisible.html Katalog CompletePlanet: http://www.completeplanet.com/ http://www.completeplanet.com/ Infomine: http://infomine.ucr.edu/ http://infomine.ucr.edu/ Weblens - The Invisible Web: http://www.weblens.org/invisible.html http://www.weblens.org/invisible.html
32 Archiwa programów CHIP CHIP PCWK - ftp PCWK - ftp PCWK - ftp CNET - Shareware CNET - Shareware CNET - Shareware FreewareWeb FreewareWeb Winsite Winsite SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet CHIP CHIP PCWK - ftp PCWK - ftp PCWK - ftp CNET - Shareware CNET - Shareware CNET - Shareware FreewareWeb FreewareWeb Winsite Winsite SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet
33 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google) Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1 Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1
34 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google) Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego. Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego.
35 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google) Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką). Googol = 10 100 Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką). Googol = 10 100
36 URL Server Crawler Store Server Sorter SearcherPagerank IndexerURI Resolver Architektura prototypu Google Barrels Links Anchors Doc Index Lexicon Repository
37 Architektura prototypu Google URL Server – generuje listę URL do przejrzenia. Crawlers – pobierają zawartość witryn WWW. Store Server – wstępnie magazynuje i kompresuje pobrane strony. Repository – główny magazyn stron. Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników. Barrels – przechowują wstępnie posortowany indeks lokalizacji słów. Anchors – magazyn zarejestrowanych odnośników. URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników. Links – baza odnośników tj. par identyfikatorów dokumentów. Pagerank – oblicza ranking dokumentów wg bazy odnośników. Sorter – sortuje główną bazę wg identyfikatorów słów. Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron. URL Server – generuje listę URL do przejrzenia. Crawlers – pobierają zawartość witryn WWW. Store Server – wstępnie magazynuje i kompresuje pobrane strony. Repository – główny magazyn stron. Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników. Barrels – przechowują wstępnie posortowany indeks lokalizacji słów. Anchors – magazyn zarejestrowanych odnośników. URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników. Links – baza odnośników tj. par identyfikatorów dokumentów. Pagerank – oblicza ranking dokumentów wg bazy odnośników. Sorter – sortuje główną bazę wg identyfikatorów słów. Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron.
38 1. Używanie operatorów logicznych kot AND piesmuszą wystąpić słowa "kot" i "pies" kot OR piesmuszą wystąpić słowa "kot" lub "pies" kot AND NOT piesmusi wystąpić słowo "kot" ale nie "pies" PHRASE kot z charakteremmusi wystąpić fraza "kot z charakterem" 2. To samo jako opcje: +kot +piesmuszą wystąpić słowa "kot" i "pies" kot piesmuszą wystąpić słowa "kot" lub "pies" +kot -piesmusi wystąpić słowo "kot" ale nie "pies" "kot z charakterem"musi wystąpić fraza "kot z charakterem" 3. Niektóre wyszukiwarki dodatkowo akceptują: symbole zastępcze wieloliterowe (*) i jednoliterowe(?), wyszukiwanie podciągów (części wyrazów), rozróżnianie dużych i małych liter, wybór języka stron wyszukiwanych, wybór pola (segmentu) strony: tytuł, nagłówek, odnośniki, tekst. Kryteria wyszukiwania
39 Projektowanie stron WWW współpraca z systemami wyszukiwania Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta": krótki opis: krótki opis: słowa kluczowe: słowa kluczowe: informacja o prawach autorskich: informacja o prawach autorskich: informacja o autorze: informacja o autorze: informacja o adresie pocztowym autora: informacja o adresie pocztowym autora: data powstania dokumentów: data powstania dokumentów: data ostatniej modyfikacji dokumentu: data ostatniej modyfikacji dokumentu: Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta": krótki opis: krótki opis: słowa kluczowe: słowa kluczowe: informacja o prawach autorskich: informacja o prawach autorskich: informacja o autorze: informacja o autorze: informacja o adresie pocztowym autora: informacja o adresie pocztowym autora: data powstania dokumentów: data powstania dokumentów: data ostatniej modyfikacji dokumentu: data ostatniej modyfikacji dokumentu: Współpraca z przeszukiwarkami --- meta-informacje Warto dostosować swoje dokumenty do istnienia przeszukiwarek i innych robotów przez zdefiniowanie dodatkowej informacji o dokumencie w nagłówku dokumentu w polach "meta":
40 Koniec