1 Spotkanie 5 Poliqarp.
2 Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja 2. PoS 3. morfologia 4. składnia 5. semantyka 6. pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! Znakowanie 2
3 Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 Korpus IPI PAN 3
4 Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001 – 03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/ Korpus IPI PAN 4
5 Korpus IPI PAN – jeden z dwóch publicznie dostępnych korpusów języka polskiego: [Korpus SFPW (1967-1971) – 500 tys. słów] Korpus PWN (wersja sieciowa) – 40 mln słów (dziś: 100 mln): http://sjp.pwn.pl/korpus Korpus IPI PAN (2004) – 100 mln segmentów, znakowany morfosyntaktycznie, dostępny on-line: http://korpus.pl/poliqarp/poliqarp.php http://www.korpusy.net/index.php/ http://korpus.pl/ Korpus IPI PAN 5
6 1. Konwersja tekstów wejściowych do formatu XML. 2. Podział tekstu na wypowiedzenia. 3. Przejście do postaci binarnej. 4. Segmentacja. 5. Znakowanie. Przetwarzanie korpusu 6
7 Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. Podstawy teoretyczne 7
8 Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne 8
9 Janusz Stanisław Bień Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji Rozprawy Uniwersytetu Warszawskiego t. 383. Wydawnictwa Uniwersytetu Warszawskiego Warszawa, 1991 ISBN 83-230-0390-4 Podstawy teoretyczne 9
10 Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. Podstawy teoretyczne 10
11 Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. Podstawy teoretyczne 11
12 Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień Kategorie gramatyczne 12
13 IPI PAN Kategorie gramatyczne 13
14 Kategorie gramatyczne 14
15 Kategorie gramatyczne 15
16 Kategorie gramatyczne 16
17 Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. PoS 17
18 18 PoS 18
19 RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki PoS 19
20 Klasy gramatyczne (fleksyjne) 20
21 Klasy gramatyczne (fleksyjne) 21
22 Klasy gramatyczne (fleksyjne) 22
23 Formy podstawowe 23
24 Formy podstawowe 24
25 Formy podstawowe 25
26 Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: (a) graficzna (Windows – wersje po 2000, GNU/Linux, (b) tekstowa (GNU/Linux), (c) internetowa. Poliqarp 26
27 Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. Poliqarp 27
28 Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?”.*pisać Poliqarp 28
29 Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=*pisa.] [base="(pod|nad|przy)jecha.*"] [orth=”semaforu|semafora”] Poliqarp 29
30 Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] Poliqarp 30
31 Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] Poliqarp 31
32 Poliqarp 32
33 Poliqarp 33
34 Poliqarp 34
35 [1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 35 Poliqarp
36 [9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 36 Poliqarp