1 Proseminarium doktoranckie 2015/2016, semestr letni WSPÓŁCZESNE NARZĘDZIA OPISU LINGWISTYCZNEGO POLSZCZYZNY Proseminarium doktoranckie 2015/2016, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego Instytut Języka Polskiego UW e-mail: [email protected] Konsultacje: Strona internetowa: www.mswidz.republika.pl
2 Spotkanie 2 Homonimia polska. 2
3 Znak = Ideał Znak1 = Znak2 = …… Znakn = 3 Defekty języka naturalnego
4 Rzeczywistośća. Znak1 = => wariancja Znak2 = neutralizacja Znak2 = ….. 4 Defekty języka naturalnego
5 a. wariancja to SYNONIMIAb. neutralizacja to HOMINIMIA 5 Defekty języka naturalnego
6 Co z tą homonimią? 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 6 Homonimia w życiu
7 130. Wziętą metresę spod Serocka jedna księżniczka kapadocka, ledwie obrosła w piórka, wydała za pół-Turka, żeby wyciągnąć Serock z błocka. 12 : 20 7 Homonimia w życiu
8 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 8 Homonimia w życiu
9 268. Degenerat z osady Wysoka żonie swojej nie wybił dziś oka. Jednym bowiem z opuchniętą twarzą widać słabo. Jak więc uwarzą rosół z córki, gdy skrzepnie posoka? 17 : 26 9 Homonimia w życiu
10 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 10 Homonimia w życiu
11 408. Pewien łobuz z Tuluzy wkłada zwykle rajtuzy, śpiesząc do zamtuza, których jest Tuluza pełna – od tam po śluzy. 11 : 18 11 Homonimia w życiu
12 12 Homonimia naukowo
13 13 Homonimia naukowo
14 PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121. 14 Homonimia naukowo
15 PU*1 sztuka utraciLa swojA241 moc141 pobudzajAcA241: przykrym151 widowiskiem staje501 siE koncert111 wybitnej221 niegdys‘ s'piewaczki121 i nie us'wietniA go42 nawet nigdy dotAd nie wykonywane212 utwory112 genialnego221 kompozytora121. sLuchacze mys'lA5 o66 czym46 innym261, rozmawiajA o66 czym46 innym261 i s'piewaczka, postarzawszy501 siE, gLos141 straciLa. nie było dotAd takich222 koncertOw u62 iwaszkiewicza/121. 26 : 47 15 Homonimia naukowo
16 Homonimia — równokształtność różnych JT (a także JS). JT (i JS) to słowo zinterpretowane, czyli forma wyrazowa (nie: leksem, fraza, zdanie). Matka dziewczyny odprowadza dziewczyny do szkoły. Dzielę się z tymi chłopakami chłopakami do butów. nie: CHŁOPAK 1, CHŁOPAK 2 Nie znoszę kolegi matki. Dziecko gryzie szczenię. Homonimia składniowa: problem osobny. 16 Homonimia naukowo
17 Homoforma — słowo o dwóch interpretacjach (Elżbieta Awramiuk, „Systemowość polskiej homonimii międzyparadygmatycznej”, Białystok 1999). 17 Homonimia naukowo
18 Homonimia — problem NOWY. ●Gramatyka tradycyjna i strukturalna: główny problem – SYNTEZA. Deklinacje i koniugacje. Wzorce deklinacyjne i koniugacyjne. Formy podstawowe w słownikach. Homonimia — osobliwość, ciekawostka, problem glottodydaktyki (false friends) System — potencja. Strukturalista rejestruje funkcje / opozycje. Kształty — nieistotne (ważne: różnice kształtu). Homonimia to patologia systemu: zjawisko niesystemowe. Homoforma nie jest JS!!! 18 Homonimia naukowo
19 ●Era NLP. Przetwarzanie tekstów JN. Główny problem — ANALIZA: — morfologiczna (= fleksyjna), — składniowa, [— semantyczna]. Korpusy tekstów — wielkie. Stąd: analiza musi być automatyczna. Homonimia — główne wyzwanie. 19 Homonimia naukowo
20 o toniemy a. TONĄĆ b. czas;1,m,ter ciem a. ĆMA b. rzecz,żeń;D,m bowiem a. BOWIEM b. spój;- o Rozpoznanie FW: a. lematyzacja (a fronte), b. interpretacja gramatyczna (a tergo). Marcin Woliński, Morfeusz: http://sgjp.pl/demo/morfeusz 20 Analiza fleksyjna
21 W tekście — homoformy bardzo częste. o tonie 1. TONĄĆ, czas;3,p,ter 2. TOŃ, rzecz.żeń.;M,m 3. TOŃ, rzecz.żeń.;B,m 4. TOŃ, rzecz.żeń.;W,m 5. TON, rzecz.mnż.;Ms,p 6. TON, rzecz.mnż.;W,p 7. TONA, rzecz.żeń.;C,p 8. TONA, rzecz.żeń.;Ms,p 9. TONI, rzecz.m1.;M,m,depr 10. TONIO, rzecz.m1.;M,m,depr 11. TONIA, rzecz.żeń.;M,m 12. TONIA, rzecz.żeń.;M,m 13. TONIA, rzecz.żeń.;M,m 21 Rozwiązanie homonimii
22 Morfologia Wywoływać daremnie. Siostra skarży: – Nieostre! Muszę ostrą mieć siostrę, dlatego ciemnię ciemnię. U nas tak jest jak w mieście Marki, gdzie mnich nie lubi popa, a Azji Europa: nie znoszą kucharki kucharki. 22 Rozwiązanie homonimii
23 Morfologia i składnia W tym podręczniku bój się wymienia: Crécy i Grunwald, i Austerlitz… Ja na wieś jadę barany strzyc, a ty, dojarko, bój się wymienia. 23 Rozwiązanie homonimii
24 Składnia Polecono Janowi wybaczać, a wyglądał na szuję. Polecono Janowi wybaczać, ale on nie daruje. 24 Rozwiązanie homonimii
25 Semantyka Droga do szkółki przy kościele opłaca się przez dwie niedziele. 25 Rozwiązanie homonimii
26 Biegli stają. Brać zbiega. Dali ujmę. Działa złocisz. Gaci się nie pnie. Gorzej czernią. Grab mnie. Imam się goli. Kiście wyrób. Kulę garb. Kurz zsyp. Kurzy szkoda. 26 Rozwiązanie homonimii
27 o Homonimia w węższym sensie: równokształtność FW należących do dwóch LX. (Np.: 1 i 2, 1 i 5, 1 i 7) o Synkretyzm: równokształtność FW w obrębie jednego LX (Np..: 2 i 3, 2 i 4, 5 i 6) 27 Rozwiązanie homonimii
28 oHomonimia w węższym sensie: międzyparadygmatyczna. oSynkretyzm: homonimia wewnątrzparadygmatyczna. oRozwiązanie homonimii w węższym sensie: dehomonimizacja. oRozwiązanie synkretyzmu: desynkretyzacja. 28 Rozwiązanie homonimii
29 o„Słabe” rozumienie RH: wypisanie dla danej HF wszystkich LX i wszystkich interpretacji gramatycznych. o„Mocne” rozumienie RH: wybranie dla danej HF właściwego LX i właściwej interpretacji gramatycznej. oRzeczywisty cel analizy automatycznej: wybór opisu właściwego. 29 Rozwiązanie homonimii
30 o Grant KBN nr 5 H01D 019 20: Zaawansowane narzędzia komputerowe do obsługi wielkich korpusów tekstów dla potrzeb leksykograficznych Kierownik:Prof. dr hab. Andrzej Markowski Główni wykonawcy: Prof. dr hab. Marek Świdziński [Prof.] dr [hab.] Mirosław Bańko o Narzędzia: AMOR — Analizator MORfologiczny Autorzy: mgr [=> dr] Michał Rudolf mgr [=> dr] Joanna Rabiega Składak — analizator składniowy Autor: mgr [=> dr] Michał Rudolf 30 Grant, AMOR, Składak
31 Michał Rudolf Metody automatycznej analizy korpusu tekstów polskich. Pozyskiwanie, wzbogacanie i przetwarzanie informacji lingwistycznych Zakład Graficzny Uniwersytetu Warszawskiego: Warszawa 2004 31 Grant, AMOR, Składak
32 Homonimie i synkretyzmy są systemowo nieistotne. Z punktu widzenia automatycznej analizy tekstu — BARDZO!!! Zarówno jakościowo, jak i ilościowo. oHomonimie: raczej niesystemowe raczej nieseryjne raczej nieprzewidywalne oSynkretyzmy: „systemowe” seryjne przewidywalne 32 Homonimia i synkretyzm
33 oHomonimie Lista 133 modeli Elżbiety Awramiuk. Na przykład: a. Model (M-F)1+a: fizyk — fizyki — fizykom — fizykami — fizykach — fizyka FIZYK lub FIZYKA Model bardzo produktywny b. Model (F-Adj)2: czapla — czapli — czaplą — czaple CZAPLA lub CZAPLI Model rzadki 33 Homonimia i synkretyzm
34 c. Model -li(V p -V ł ): pili PILIĆ lub PIĆ Model rzadki d. Model -ej(V p -Adv) : jaśniej JAŚNIEĆ lub JASNY Model produktywny e. Model -i(Ln-P): dzięki DZIĘKI (przyimek) lub DZIĘKI (rzecz. plurale tantum) Model izolowany 34 Homonimia i synkretyzm
35 oSynkretyzmy Na przykład: a. Rzecz. męskie „typowe”: M=B lub D=B (lp) M=(B)=W (lm) b. Rzecz. żeńskie „typowe”: (D)=C=Ms (lp) M=B=W (lm) c. Rzecz. żeńskie grupy VI: M=B, D=C=Ms=W (lp) 35 Homonimia i synkretyzm
36 Liczba Jednostka LX75099 FW1378663 Różnokształtne FW (bez synkretyzmów) 975140 Różnokształtne FW homonimiczne6225 FW homonimiczne15623 FW mające co najmniej 2 interpretacje669318 36 oSłownik AMOR-a W systemie i tekście
37 oW słowniku AMOR-a 37 –przymiotniki gr. II–2855 –żeński gr. IV–1234 –męski gr III–878 –żeński gr. III–832 –męski gr IV–786 –czasownik gr. 5c–738 –czasownik gr. I–599 –czasownik gr. 6a–515 –nijaki gr. I–482 –czasownik gr. 3–465 W systemie i tekście
38 W korpusie PWN 38 JednostkaLiczba% Słowa2063309100.0 Formy wyrazowe mające więcej niż 1 interpretację 92233644.70 Formy wyrazowe homonimiczne26740412.96 W systemie i tekście
39 oRH: odgadywanie LX lub interpretacji gramatycznej dla danego słowa. oRóżne cele: techniczny, leksykograficzny, składniowo- semantyczny. oTrzy drogi: a. bezskładniowa b. prymitywnie składniowa c. wyrafinowanie składniowa. 39 Podsumowanie
40 a. bezskładniowa:.......... brać.................. brać to raczej FW czasownika BRAĆ 1 niż rzeczownika BRAĆ 2 ;.......... dziewczynie............ dziewczynie to raczej Msp niż Cp. b. prymitywnie składniowa:............. dobrym tonie............: TON, Msp (ale: Jan w kajaku dobrym tonie.).............. w tonie............: TONA? TON? TOŃ? B czy Ms? c. wyrafinowanie składniowa 40 Podsumowanie
41 Wszystkie drogi prowadzą do składni!!! 41 Podsumowanie