Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej Wykład.

1 Usługi informacyjne w sieci Internet Dr inż. Piotr Gron...

Author: Miłosz Kowalik

0 downloads 0 Views

1 Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej http://www.ftj.agh.edu.pl/~gronek/ Wykład dla Studium Podyplomowego „Informatyka w Szkole” Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej http://www.ftj.agh.edu.pl/~gronek/ Wykład dla Studium Podyplomowego „Informatyka w Szkole”

2 Internet źródłem wiedzy u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu

3 Przyrost liczby węzłów w Internecie

4 Przyrost liczby sieci

5 Przyrost liczby witryn WWW

6 Systemy zcentralizowane u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych. u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych.

7 Instalacje zdalnego dostępu u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników. u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników.

8 Biuletyny elektroniczne u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego. u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego.

9 Poczta elektroniczna i listy dyskusyjne u Powstanie poczty elektronicznej - 1971 u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet u Powstanie poczty elektronicznej - 1971 u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet

10 USENET

11 Przykłady  Lista dyskusyjna – interfejs WWW (przykłady): http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/  Katalog list dyskusyjnych TileNet http://tile.net/ http://tile.net/  Serwer news groups: news.neostrada.pl  URL: news://pl.internet.polip news://pl.internet.polip  News groups via www: http://niusy.onet.pl/ http://niusy.onet.pl/  http://www.usenet.pl/doc/news-pl-faq.html http://www.usenet.pl/doc/news-pl-faq.html  Lista dyskusyjna – interfejs WWW (przykłady): http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/ http://www.pl.ipv6tf.org/mailman/listinfo/ipv6-tf http://listy.icm.edu.pl/mailman/listinfo/  Katalog list dyskusyjnych TileNet http://tile.net/ http://tile.net/  Serwer news groups: news.neostrada.pl  URL: news://pl.internet.polip news://pl.internet.polip  News groups via www: http://niusy.onet.pl/ http://niusy.onet.pl/  http://www.usenet.pl/doc/news-pl-faq.html http://www.usenet.pl/doc/news-pl-faq.html

12 Archiwa dokumentów - serwery FTP u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW). u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW).

13 Przykłady  Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/  System wyszukiwania plików Archie: http://archie.icm.edu.pl/ http://archie.icm.edu.pl/  Inne systemy wyszukiwania plików –Plikoskop: http://plikoskop.internauci.pl/ http://plikoskop.internauci.pl/  Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/  System wyszukiwania plików Archie: http://archie.icm.edu.pl/ http://archie.icm.edu.pl/  Inne systemy wyszukiwania plików –Plikoskop: http://plikoskop.internauci.pl/ http://plikoskop.internauci.pl/

14 Systemy katalogowe u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW. u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW.

15 Przykłady  System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/  Katalog biblioteki AGH: http://www.bg.agh.edu.pl/ http://www.bg.agh.edu.pl/  Rejestr systemów katalogowych LibDex: http://www.libdex.com/ http://www.libdex.com/  Elektroniczna BIBlioteka - platforma cyfrowa SBP: http://www.ebib.info/ http://www.ebib.info/  Bazy Biblioteki Narodowej: http://alpha.bn.org.pl/ http://alpha.bn.org.pl/  System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/  Katalog biblioteki AGH: http://www.bg.agh.edu.pl/ http://www.bg.agh.edu.pl/  Rejestr systemów katalogowych LibDex: http://www.libdex.com/ http://www.libdex.com/  Elektroniczna BIBlioteka - platforma cyfrowa SBP: http://www.ebib.info/ http://www.ebib.info/  Bazy Biblioteki Narodowej: http://alpha.bn.org.pl/ http://alpha.bn.org.pl/

16 Problemy konwersji zasobów z mediów tradycyjnych na elektroniczne u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier). u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier).

17 Systemy hipertekstowe i multimedialne u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW. u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW.

18 Przykłady  Baza danych jądrowych Nuclear Data Center: http://www.nndc.bnl.gov/ http://www.nndc.bnl.gov/  System informacji o zarządzie sieci Whois: http://www.db.ripe.net/whois/ http://www.db.ripe.net/whois/  Baza danych jądrowych Nuclear Data Center: http://www.nndc.bnl.gov/ http://www.nndc.bnl.gov/  System informacji o zarządzie sieci Whois: http://www.db.ripe.net/whois/ http://www.db.ripe.net/whois/

19 Systemy wyszukiwawcze u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych. u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych.

20 Przykłady  Katalog strukturalny (portal) – Yahoo!: http://www.yahoo.com/ http://www.yahoo.com/  System wyszukiwawczy – Google: http://www.google.pl/ http://www.google.pl/  System archiwizacji grup dyskusyjnych: –GoogleGroups: http://groups.google.com/ http://groups.google.com/  Meta-wyszukiwarka: http://www.metacrawler.com/ http://www.metacrawler.com/  Katalog strukturalny (portal) – Yahoo!: http://www.yahoo.com/ http://www.yahoo.com/  System wyszukiwawczy – Google: http://www.google.pl/ http://www.google.pl/  System archiwizacji grup dyskusyjnych: –GoogleGroups: http://groups.google.com/ http://groups.google.com/  Meta-wyszukiwarka: http://www.metacrawler.com/ http://www.metacrawler.com/

21 Koncepcje Web 2.0  Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji.  Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service).  Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji.  Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service).

22 Właściwości Web 2.0  Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom).  Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom).

23 Porównanie rozwiązań Web Web 1.0 (~  2000 r) dominujące modele  osobiste strony WWW (statyczne)  spekulacja domenami (skojarzenia)  zliczanie odsłon  odświeżanie okna przeglądarki  publikowanie  systemy zarządzania treścią (CMS)  katalogowanie (taxonomy)  przywiązywanie do witryny przykłady serwisów WWW  DoubleClick (reklamy na zamówienie)  Ofoto (serwis firmowy)  Akamai (serwis dystrybucji WWW)  mp3.com (witryna WWW)  Britannica Online (nieliczni eksperci) Web 1.0 (~  2000 r) dominujące modele  osobiste strony WWW (statyczne)  spekulacja domenami (skojarzenia)  zliczanie odsłon  odświeżanie okna przeglądarki  publikowanie  systemy zarządzania treścią (CMS)  katalogowanie (taxonomy)  przywiązywanie do witryny przykłady serwisów WWW  DoubleClick (reklamy na zamówienie)  Ofoto (serwis firmowy)  Akamai (serwis dystrybucji WWW)  mp3.com (witryna WWW)  Britannica Online (nieliczni eksperci) Web 2.0 (~ > 2000 r)  blogi (aktualizacja / komentarze)  optymalizacja stron dla wyszukiwarek  wycena pojedynczych kliknięć  modułowe usługi sieciowe (web services)  uczestnictwo  interaktywne systemy typu wiki  znacznikowanie ("folksonomy")  kanały informacyjne (RSS/Atom)  Google AdSense (wg kontekstu)  Flickr (wspólnota użytkowników)  BitTorrent (system P2P)  Napster (pośrednik w modelu P2P)  Wikipedia (armia woluntariuszy) wg Tim O'Reilly: http://oreilly.com/pub/a/web2/archive/what-is-web-20.html

24 Technologie modelu Web 2.0  AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript.  Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON.  AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript.  Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON.

25 Krytyka Web 2.0  Czy jest to istotnie nowa funkcjonalność?  Czy jest to tylko zestaw rozwiązań technologicznych?  Czy model społecznościowy jest wiarygodny i trwały?  Czy jest to zabieg marketingowy?  Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści  Czy jest to istotnie nowa funkcjonalność?  Czy jest to tylko zestaw rozwiązań technologicznych?  Czy model społecznościowy jest wiarygodny i trwały?  Czy jest to zabieg marketingowy?  Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści

26 Systemy dystrybucyjne typu P2P  Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami.  Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego.  Lokalizowanie zasobów może być zcentralizowane lub rozproszone.  Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami.  Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego.  Lokalizowanie zasobów może być zcentralizowane lub rozproszone.

27 Systemy dystrybucyjne typu P2P  System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny.  System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący  Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów  System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny.  System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący  Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów

28 PrzykładPrzykład  BitTorrent – system dystrybucji plików.  Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP.  Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich.  Obsługiwane przez programy: Opera, Azureus/Vuze,  Torrent i i in.  BitTorrent – system dystrybucji plików.  Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP.  Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich.  Obsługiwane przez programy: Opera, Azureus/Vuze,  Torrent i i in.

29 BitTorrent  Przykład dystrybucji pliku (podzielonego na fragmenty) w systemie P2P.

30 Niewidoczny świat Internetu  Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW.  Interaktywne schematy dostępu np. AJAX/Flash.  Komercyjne systemy informacyjne.  Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów.  Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów.  Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW.  Interaktywne schematy dostępu np. AJAX/Flash.  Komercyjne systemy informacyjne.  Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów.  Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów.

31 Rejestry zasobów Deep Web  Katalog CompletePlanet: http://www.completeplanet.com/ http://www.completeplanet.com/  Infomine: http://infomine.ucr.edu/ http://infomine.ucr.edu/  Weblens - The Invisible Web: http://www.weblens.org/invisible.html http://www.weblens.org/invisible.html  Katalog CompletePlanet: http://www.completeplanet.com/ http://www.completeplanet.com/  Infomine: http://infomine.ucr.edu/ http://infomine.ucr.edu/  Weblens - The Invisible Web: http://www.weblens.org/invisible.html http://www.weblens.org/invisible.html

32 Archiwa programów  CHIP CHIP  PCWK - ftp PCWK - ftp PCWK - ftp  CNET - Shareware CNET - Shareware CNET - Shareware  FreewareWeb FreewareWeb  Winsite Winsite  SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet  CHIP CHIP  PCWK - ftp PCWK - ftp PCWK - ftp  CNET - Shareware CNET - Shareware CNET - Shareware  FreewareWeb FreewareWeb  Winsite Winsite  SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet

33 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1  Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1

34 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego.  Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego.

35 Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką).  Googol = 10 100  Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką).  Googol = 10 100

36 URL Server Crawler Store Server Sorter SearcherPagerank IndexerURI Resolver Architektura prototypu Google Barrels Links Anchors Doc Index Lexicon Repository

37 Architektura prototypu Google  URL Server – generuje listę URL do przejrzenia.  Crawlers – pobierają zawartość witryn WWW.  Store Server – wstępnie magazynuje i kompresuje pobrane strony.  Repository – główny magazyn stron.  Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników.  Barrels – przechowują wstępnie posortowany indeks lokalizacji słów.  Anchors – magazyn zarejestrowanych odnośników.  URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników.  Links – baza odnośników tj. par identyfikatorów dokumentów.  Pagerank – oblicza ranking dokumentów wg bazy odnośników.  Sorter – sortuje główną bazę wg identyfikatorów słów.  Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron.  URL Server – generuje listę URL do przejrzenia.  Crawlers – pobierają zawartość witryn WWW.  Store Server – wstępnie magazynuje i kompresuje pobrane strony.  Repository – główny magazyn stron.  Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników.  Barrels – przechowują wstępnie posortowany indeks lokalizacji słów.  Anchors – magazyn zarejestrowanych odnośników.  URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników.  Links – baza odnośników tj. par identyfikatorów dokumentów.  Pagerank – oblicza ranking dokumentów wg bazy odnośników.  Sorter – sortuje główną bazę wg identyfikatorów słów.  Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron.

38 1. Używanie operatorów logicznych kot AND piesmuszą wystąpić słowa "kot" i "pies" kot OR piesmuszą wystąpić słowa "kot" lub "pies" kot AND NOT piesmusi wystąpić słowo "kot" ale nie "pies" PHRASE kot z charakteremmusi wystąpić fraza "kot z charakterem" 2. To samo jako opcje: +kot +piesmuszą wystąpić słowa "kot" i "pies" kot piesmuszą wystąpić słowa "kot" lub "pies" +kot -piesmusi wystąpić słowo "kot" ale nie "pies" "kot z charakterem"musi wystąpić fraza "kot z charakterem" 3. Niektóre wyszukiwarki dodatkowo akceptują: symbole zastępcze wieloliterowe (*) i jednoliterowe(?), wyszukiwanie podciągów (części wyrazów), rozróżnianie dużych i małych liter, wybór języka stron wyszukiwanych, wybór pola (segmentu) strony: tytuł, nagłówek, odnośniki, tekst. Kryteria wyszukiwania

39 Projektowanie stron WWW współpraca z systemami wyszukiwania  Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta":  krótki opis:  krótki opis:  słowa kluczowe:  słowa kluczowe:  informacja o prawach autorskich:  informacja o prawach autorskich:  informacja o autorze:  informacja o autorze:  informacja o adresie pocztowym autora:  informacja o adresie pocztowym autora:  data powstania dokumentów:  data powstania dokumentów:  data ostatniej modyfikacji dokumentu:  data ostatniej modyfikacji dokumentu:  Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta":  krótki opis:  krótki opis:  słowa kluczowe:  słowa kluczowe:  informacja o prawach autorskich:  informacja o prawach autorskich:  informacja o autorze:  informacja o autorze:  informacja o adresie pocztowym autora:  informacja o adresie pocztowym autora:  data powstania dokumentów:  data powstania dokumentów:  data ostatniej modyfikacji dokumentu:  data ostatniej modyfikacji dokumentu: Współpraca z przeszukiwarkami --- meta-informacje Warto dostosować swoje dokumenty do istnienia przeszukiwarek i innych robotów przez zdefiniowanie dodatkowej informacji o dokumencie w nagłówku dokumentu w polach "meta":

40 Koniec

Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej Wykład.

Recommend Documents