Lingwistyka korpusowa. korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit.

1 Lingwistyka korpusowa ...
Author: Mariusz Wójcik
0 downloads 2 Views

1 Lingwistyka korpusowa

2 korpus m IV, D. -u, Ms. ~sie; lm M. -y 1. «ciało człowieka lub zwierzęcia prócz kończyn i głowy; tułów» 2. => garmond 3. archit. «główna część budowli; w architekturze pałacowej: część centralna budynku o charakterze reprezentacyjnym; w architekturze sakralnej: część nawowa kościoła» 4. techn. «główna, tworząca całość, część jakiegoś urządzenia, maszyny, przyrządu itp.; kadłub» Korpus obrabiarki, okrętu. 5. wojsk. «duża jednostka taktyczna składająca się z kilku dywizji lub brygad; wchodzi w skład armii lub może działać samodzielnie» Korpus zmechanizowany. Korpus piechoty, kawalerii. FR. Korpus oficerów, korpus oficerski «ogół oficerów wchodzących w skład dowództwa wojskowego» FR.Korpus kadetów «szkoła wojskowa, początkowo szkoła oficerska, później średnia szkoła ogólnokształcąca, przygotowująca kandydatów do szkół oficerskich; w Polsce istniała do roku 1956» 2 Korpusy

3 FR. polit. Korpus dyplomatyczny «ogół przedstawicieli państw obcych akredytowanych przy rządzie danego kraju; personel dyplomatyczny oraz wszyscy członkowie obcych misji dyplomatycznych korzystających z przywilejów i immunitetów» FR. Korpus konsularny «ogół konsulów w określonym państwie lub miejscowości; szefowie placówek konsularnych oraz członkowie personelu konsularnego korzystający z przywilejów i immunitetów» (wg KSJP) 3 Korpusy

4 korpus [...] 6 Korpus tekstów to zbiór książek, czasopism, artykułów itp. przeznaczony do jakichś prac lub badań. Termin specjalistyczny. …komputerowy korpus języka polskiego. (wg ISJP) 4 Korpusy

5 Korpus to dowolny zbiór tekstów. Korpus to dowolny zbiór tekstów, w którym czegoś szukamy. Korpus to dowolny zbiór tekstów będący podstawą badań (np. naukowych). Korpus narodowy??? 5 Korpusy

6 Klasyfikacje: Rozmiar: wielki – średni – mały Waga: zasadniczy – pomocniczy Cel: podstawowy – przykładowy (sample) Zakres: ogólny – szczegółowy Status: naukowy (kulturowy) – komercyjny Korpusy 6

7 LOB CorpusLancaster – Oslo/Bergen 1970-1978 Geoffrey Leech, Stig Johansson BNC 1991-1995 Oxford, Lancaster, Longman PELCRAPolish and English Language Corpora for Research and Applications COBUILD http://korpus.pwn.pl/ Korpus PWN http://korpus.pl/Korpus IPI PAN Korpusy 7

8 Inne języki Český Narodní Korpus Korpus niemiecki Berlińskiej Akademii Nauk (DWDS) Korpusy IDS (Institut für Deutsche Sprache) Национальый Корпус Русского Языка korpus PJM korpusy francuskie korpusy hiszpańskie korpusy portugalskie ………………………… Polski Korpus Narodowy??? Korpusy 8

9 ● LOB The Lancaster/Oslo-Bergen Corpus Approximately 1,000,000 words of British written English dating from 1960. The corpus is made up of 15 different genre categories. Available as orthographic text, and tagged with the CLAWS1 part-of-speech tagging system. The Leeds- Lancaster Treebank and Lancaster Parsed Corpus are analyzed subsamples of the LOB corpus. http://clu.uni.no/icame/manuals/ 9 9 Korpusy

10 ●BNC (British National Corpus) http://corpus.byu.edu/bnc/ 10 Korpusy

11 ●PELCRA 11 Korpusy

12 12 London and Glasgow 1987 Korpusy

13 13 Korpusy

14 14 Korpusy

15 http://korpus.pwn.pl/ Korpus PWN Wydawnictwo Naukowe PWN przygotowało i udostępniło sieciową wersję Korpusu Języka Polskiego PWN wielkości 40 milionów słów. Korpus składa się z fragmentów 386 różnych książek, 977 numerów 185 różnych gazet i czasopism, 84 nagranych rozmów, 207 stron internetowych oraz kilkuset ulotek reklamowych. Pełna wersja sieciowa korpusu jest dostępna odpłatnie (40 mln), a bezpłatnie wersja demonstracyjna wielkości ponad 7,5 miliona słów. [Stan z 2003] 15 Korpusy

16 16 Korpusy

17 http:/korpus.pl/ [nieaktualne]Korpus IPI PAN 2. wydanie Korpusu IPI PAN (marzec 2006) 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów. 2.all.250.bin.tar.bz2 2.sample.30.bin.tar.bz2 — próbka Korpusu IPI PAN dostępna na stronie http://korpus.pl/; ponad 30 mln. segmentów. Niniejsza wersja sample jest korpusem różnorodnym o następującym składzie: 2.sample.30.bin.tar.bz2http://korpus.pl/ ◦ proza współczesna: ponad 10% ◦ proza dawna: prawie 10% ◦ teksty książkowe niebeletrystyczne (głównie naukowe): 10% ◦ prasa: 50% ◦ stenogramy sejmowe i senackie (w tym z komisji śledczej): 15% ◦ ustawy: 5% 17 Korpusy

18 18 Korpusy

19 Korpus PWN: przeglądarka http://korpus.pwn.pl/ Korpus PWN: (Sherlock) Holmes[na płytce] Morfeusz http://sgjp.pl/morfeusz/demo/ Korpus IPIPAN: Poliqarp[na płytce] NKJPhttp://nkjp.pl/http://nkjp.pl/ Słownik gramatyczny języka polskiego sgjp 19 Różności

20 Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja 2. PoS 3. morfologia 4. składnia 5. semantyka 6. pragmatyka Muszą istnieć dobre podstawy gramatyczne!!! Znakowanie 20

21 Adam Przepiórkowski Korpus IPI PAN - wersja wstępna INSTYTUT PODSTAW INFORMATYKI PAN Warszawa 2004 Korpus IPI PAN 21

22 Grant KBN numer 7 T11C 043 20 Instytut Podstaw Informatyki PAN (IPI PAN) 04.2001 – 03.2004 Książka dostępna jako pdf: http://nlp.ipipan.waw.pl/~adamp/Papers/2004- corpus/ Korpus IPI PAN 22

23 Korpus IPI PAN (2004) NKJP (2008-2012) Korpus IPI PAN, NKJP 23

24 1. Konwersja tekstów wejściowych do formatu XML. 2. Podział tekstu na wypowiedzenia. 3. Przejście do postaci binarnej. 4. Segmentacja. 5. Znakowanie. Przetwarzanie korpusu 24

25 Zbiór znaczników: Marcin Woliński, Zygmunt Saloni, Adam Przepiórkowski http://nlp.ipipan.waw.pl/~wolinski/morfeusz/znakowanie.pdf Marcin Woliński: „System znaczników morfosyntaktycznych w korpusie IPI PAN”, Polonica XII (2004), 39-54. Podstawy teoretyczne 25

26 Leksem: zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu oraz mających podobną postać morfologiczną. Fleksem (termin Janusza S. Bienia): zbiór form wyrazowych o tym samym (lub regularnie zróżnicowanym) znaczeniu, mających podobną postać morfologiczną oraz mających te same kategorie gramatyczne. Znacznik: ciąg wartości kategorii fleksyjnych przypisanych segmentowi. Podstawy teoretyczne 26

27 Janusz Stanisław Bień Koncepcja słownikowej informacji morfologicznej i jej komputerowej weryfikacji Rozprawy Uniwersytetu Warszawskiego t. 383. Wydawnictwa Uniwersytetu Warszawskiego Warszawa, 1991 ISBN 83-230-0390-4 Podstawy teoretyczne 27

28 Segment: zwykle słowo. Segmenty muszą być ciągłe i rozłączne. Bo ja się naprawdę boję głośno roześmiać. Dawnom nie śpiewała i nie tańczyła. Kiedyś by/m tam zaśpiewał i zatańczył. Podstawy teoretyczne 28

29 Segmenty krótsze niż słowo: długośmy napisałaby/m chodźże doń polsko/-/niemiecki itp./. Podstawy teoretyczne 29

30 Saloni, Świdziński: przypadek poprzyimkowość pozycja deprecjatywność liczba rodzaj osoba czas tryb stopień Kategorie gramatyczne 30

31 IPI PAN Kategorie gramatyczne 31

32 Kategorie gramatyczne 32

33 Kategorie gramatyczne 33

34 Kategorie gramatyczne 34

35 Klasyfikacja gramatyczna leksemów polskich Zygmunta Saloniego (1974) Mamy leksem LX. Pytamy kolejno: (1) czy jest odmienny; (2) czy odmienia się przez przypadek; (3) czy odmienia się przez osobę; (4) czy odmienia się przez rodzaj; (5) czy odmienia się przez liczbę; (6) czy jest samodzielny składniowo; (7) czy pełni funkcję łączącą; (8) czy ma rząd. PoS 35

36 36 PoS 36

37 RZECZowniki PRZYMiotniki LICZebniki CZASowniki CZAS NIEWL — czasowniki niewłaściwe PART-PRZYS — partykuło-przysłówki SPOJ — spójniki PRZYIMki WYKrzykniki PoS 37

38 Klasy gramatyczne (fleksyjne) 38

39 Klasy gramatyczne (fleksyjne) 39

40 Klasy gramatyczne (fleksyjne) 40

41 Formy podstawowe 41

42 Formy podstawowe 42

43 Formy podstawowe 43

44 Poliqarp: POLyinterpretation Indexing Query and Retrieval Processor Autorzy: Zygmunt Krynicki i Daniel Janus Teoretycznie niezależny od języka / korpusu / zbioru znaczników! 3 wersje: (a) graficzna (Windows – wersje po 2000, GNU/Linux, (b) tekstowa (GNU/Linux), (c) internetowa. Poliqarp 44

45 Podstawa: Marcin Woliński, Morfeusz SIAT (Software Interface Analysis Tool) Dane programu: Jan Tokarski, Schematyczny indeks a tergo polskich form wyrazowych (red. Zygmunt Saloni) Zygmunt Saloni, Czasownik polski, Wiedza Powszechna: Warszawa 2007. Słownik Języka Polskiego PAN, red. Witold Doroszewski, Warszawa 1958-70. Poliqarp 45

46 Zapytania o segmenty: małej mam pieniądze marek/i Kasztowość Wyrażenia regularne ”,” ”dom|domy” ”chłop[iy]” ”chłop.?”.*pisać Poliqarp 46

47 Zapytania o formy podstawowe: [base=panować] [base=”dobry|mały”] [base=*pisa.] [base="(pod|nad|przy)jecha.*"] [orth=”semaforu|semafora”] Poliqarp 47

48 Zapytania wyższego rzędu: [orth=tonie & base=tonąć] [orth=mam & base!=mieć] [base=się] [base=spóźniać] [base=bać] [ ] się [base=bać] [pos!=aglt] [orth=się] [orth=się] [ ] {2, 4} [base=spóźniać] "," [ ] [pos=conj] Poliqarp 48

49 Zapytania o znaczniki morfosyntaktyczne: [pos=siebie] [orth=mam & base!=mieć] [orth=mam & !base=mieć] [base=się] [base=spóźniać] [orth=się] [ ] {2, 4} [base=spóźniać] Poliqarp 49

50 Poliqarp 50

51 Poliqarp 51

52 Poliqarp 52

53 [1] RESTRUKTURYZACJA w różnych stylach. [2] Wypowiedzenia pytajne, wykrzyknikowe, niepytajne. [3] Myślnik i dywiz: leksemy złożone. [4] KTÓRY (zaimek względny): przyimki złożone. [5] JECHAĆ, POJECHAĆ, WYJECHAĆ, ODJECHAĆ, PRZEJECHAĆ – wprowadzane przyimki. [6] Spójniki z aglutynantem. [7] Aglutynant doczepiony wewnątrz zdania. [8] Czasowniki wymagające zdania JAKOBY. 53 Poliqarp

54 [9] Poszukiwania kolokacji. [10] Frazeologizmy łączliwe: lista składników wymiennych. [11] Przymiotnik w stopniu wyższym: OD czy NIŻ? [12] Bezokoliczniki po DAĆ. [13] AŻ1 i AŻ2. 54 Poliqarp