K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFRASTRUKTURY CLARIN-PL Prof. dr hab. Adam Pawłowski CLARIN-PL – polska infrastruktura badawcza dla.

1 K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFR...
Author: Mieczysław Stefaniak
0 downloads 2 Views

1 K ORPUS CHRONOLOGICZNY C HRONO P RESS JAKO ELEMENT INFRASTRUKTURY CLARIN-PL Prof. dr hab. Adam Pawłowski CLARIN-PL – polska infrastruktura badawcza dla nauk społecznych i humanistycznych Wrocław 25-26 maja 2016

2 1. Kontekst 2. Analiza sekwencyjna w badaniach korpusowych 3. Korpus chronologiczny a „zwykłe” korpusy 4. Charakterystyka korpusu ChronoPress 5. ChronoPress w działaniu 6. Porównanie z innymi narzędziami (KORP, Google) Prof. Adam Pawłowski, Uniwersytet Wrocławski Plan prezentacji

3 1. Lawinowy przyrost tekstów cyfrowych 2. Powolna digitalizacja zasobów drukowanych 3. Wielość nośników i formatów 4. Presja ewolucyjna w społeczeństwie wiedzy 5. Rozwój rynku inteligentnych usług informacyjnych 6. Rozwój metod automatycznego przetwarzania tekstu 7. Czy jest miejsce na matematykę i statystykę? 8. Powstanie humanistyki cyfrowej i nowe pojmowanie lektury Prof. Adam Pawłowski, Uniwersytet Wrocławski Kontekst

4 Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań

5 Prof. Adam Pawłowski, Uniwersytet Wrocławski Podejście ilościowe a humanistyka cyfrowa Humanistyka cyfrowa Ochrona dziedzictwa Dostęp w nowym medium Efektywne metody badań

6

7 1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski

8 1. Uchwycić wymiar ilościowy postrzeżeń jakościowych. 2. Dać zobiektywizowaną miarę porównawczą dla różnych zjawisk. 3. Dokonać syntezy dużej ilości informacji niedostępnych w liniowym procesie czytania. 4. Zaproponować predykcję zjawisk. Cel stosowania automatyzacji przetwarzania języka Prof. Adam Pawłowski, Uniwersytet Wrocławski

9 1. Metoda reprezentacyjna (indukcja). 2. Obliczanie parametrów i wskaźników. – zaleta: prostota – wada: utrata informacji (nadmierna redukcja) 3. Tworzenie modeli funkcyjnych. 4. Redukcja wymiarów zalety: redukcja wielkiej ilości informacji, transdyscyplinarność wniosków wada: brak przejrzystości, niska intuicyjność wniosków Przetwarzanie języka metodami ścisłymi Prof. Adam Pawłowski, Uniwersytet Wrocławski

10 P ODEJŚCIE SEKWENCYJNE – POZIOM TEKSTOWY Prof. Adam Pawłowski, Uniwersytet Wrocławski Źródło Próbkowanie i digitalizacja sekwencja tekstu U1U1 U2U2 U3U3 UnUn Segmentacja na jednostki czas syntagmatyczny x1x1 x2x2 x3x3 xnxn Szereg tekstowy

11 P ODEJŚCIE SEKWENCYJNE : WIELE TEKSTÓW Prof. Adam Pawłowski, Uniwersytet Wrocławski Szereg leksykalny Korpusy Źródła Próbkowanie i digitalizacja czas C1C1 C2C2 C3C3 CnCn L1L1 L2L2 L3L3 LnLn Szereg czasowy x1x1 x2x2 x3x3 xnxn czas/porządek

12 K ORPUS CHRONOLOGICZNY Korpus chronologiczny Korpus chronologiczny charakteryzuje się ścisłym, wyrażonym za pomocą metadanych, uporządkowaniem sekwencyjnym tworzących go tekstów. Zachowana jest spójność formalna (ortografia i znaczenia) Zachowana jest ciągłość w dostatecznie długim okresie. Przykłady: Korpusy autorskie, korpusy prasy, korpusy systematycznie pojawiających się tekstów politycznych lub społecznych. Potencjalnie każdy wielki korpus. Korpus diachroniczny Istotą nie jest stabilność, lecz zmiana. Brak spójności formalnej (dopuszcza się nawet wiele języków). Ciągłość w długim okresie nie jest niezbędna (czas jest podporządkowany zmianie, a nie odwrotnie).

13 Szeregiem czasowym nazywamy sekwencję obserwacji realizacji zmiennej losowej na osi czasu. Wartości zmiennej mogą reprezentować obserwacje jednostkowe lub interwałowe (odcinki czasowe). Obserwowana zmienna losowa może być reprezentacją (kwantyfikacją) dowolnej cechy badanego systemu lub obiektu. Wybiera się jednak cechy relewantne, czyli istotne z jakiegoś powodu. A NALIZA SEKWENCYJNA – DEFINICJE Prof. Adam Pawłowski, Uniwersytet Wrocławski

14 Szereg czasowy może zawierać 3 składowe: T – tendencja główna (trend) P – oscylacje periodyczne E – składowa losowa (szum) Model szeregu zwykle ma postać addytywną: TS = T + P + E W badaniu szeregów leksykalnych wartości TS zawarte są w pewnym przedziale, dlatego szeregi takie w zasadzie są stacjonarne. M ODEL KLASYCZNY Prof. Adam Pawłowski, Uniwersytet Wrocławski

15 Każda składowa estymowana jest nieco inaczej: – dla tendencji głównej funkcje monotoniczne – dla oscylacji periodycznych f. periodyczne – dla słabych składowych periodycznych modele szeregów typu autoregresji (AR), ruchomej średniej (MA) lub mieszane A NALIZA S ZEREGU CZASOWEGO Prof. Adam Pawłowski, Uniwersytet Wrocławski

16 K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)

17 K ONSTRUKCJA KATEGORII CZASU Różne perspektywy: – strukturalna (linearność vs kolistość) – antropologiczna (czas polityczny, astronomiczny, kulturowy, cywilizacyjny) – metodologiczna (trend, oscylacje periodyczne, schemat katastrofy, element losowy)

18 K ONSTRUKCJA KATEGORII CZASU 1. Czas astronomiczny (cykle naturalne) Leksemy związane z cyklicznymi zmianami pór roku i towarzyszącymi im zjawiskami. Przykładem są prace polowe, zjawiska pogodowe oraz pochodne (np. epidemie, akcje prewencyjne, katastrofy naturalne). 2. Czas polityczny (cykle polityczne i ekonomiczne) Tutaj wybory (także te fasadowe), posiedzenia ciał kolegialnych, terminy uchwalania / ogłaszania aktów prawnych etc. 3. Czas kulturowy (cykle kulturowe) Święta, rocznice, inne obrzędy lub powtarzające się rytuały kulturowe. Mogą mieć charakter oficjalny lub prywatny. 4. Czas cywilizacyjny (trend) Długotrwałe zmiany zakłócane tyko chwilowo.

19 S CHEMAT OSCYLACJI Leksem żniwa ChronoPress, frekwencje znormalizowane, 1945-54

20 S CHEMAT OSCYLACJI Leksem mittens (rękawiczka) frekwencje znormalizowane, Google Books

21 S CHEMAT OSCYLACJI Leksem święto ChronoPress, frekwencje znormalizowane, 1945-54

22 S CHEMAT OSCYLACJI Leksem Stalin ChronoPress, frekwencje znormalizowane, 1945-54

23 S CHEMAT OSCYLACJI Leksemy Katowice i Stalinogród ChronoPress, frekwencje znormalizowane, 1945-54

24 S CHEMAT OSCYLACJI Leksem tsunami Google Books, frekwencje znormalizowane

25 ChronoPress: stan obecny i perspektywy Rozbudowa pionowa (kolejne okresy) 1945-1954 –> 1945-1990 –> 1945-2018 –> 1918-2018 Rozbudowa pozioma (nowe języki): – nowe kanały transmisji (np. ścieżki dźwiękowe) – nowe style (np. teksty polityczne) – inne języki Włączanie w bazę nowych funkcjonalności Okres: 1945-1954 Objętość: ok. 5760 próbek /rok (łącznie ok. 60000) Stan wykonania: 100% (część próbek „na kuracji”) Reprezentatywność: prasa oficjalna

26 ChronoPress: zawartość 1950-1954 LpTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Trybuna Ludu2400020%30800961 152 2Trybuna Robotnicza60005%2623124288 3Gazeta Robotnicza (L)60005%2623124288 4Sztandar Młodych1200010%2646248576 5Żołnierz Wolności1200010%2646248576 6Gromada60005%1250024288 7Chłopska Droga60005%41 50024288 8Zielony Sztandar60005%41 50024288 9Przekrój1200010%43 00048576 10Życie Warszawy (L)60005%2623124288 11Tygodnik Powszechny1200010%43 00048576 12Przyjaciółka1200010%43 00048576 13Kobieta i Życie00%0000 14Ekspres Wieczorny00%0000 15Przegląd sportowy00%0000 Suma 120 000100%192 480 5 760

27 NrTytułSłów na mcProc.Numerów/mcSłów/nrPrób/mcRok 1Głos Ludu120007%3040048576 2Robotnik120007%2646248576 3Rzeczpospolita120007%2646248576 4Trybuna Robotnicza/Śl. (L)60004%2623124288 5Dziennik Polski60004%2722224288 6Nowe Życie60004%2821424288 7Walka Młodych60004%2623124288 8Pionier (L)60004%2623124288 9Gazeta Lubelska60004%2722224288 10Słowo Pomorskie 11Kurier Szczeciński 12Wolna Łódź 13 Wiadomości Szczecińskie Pionier Szczeciński 14Wiadomości Bydgoskie 15Polska Zbrojna120007%2646248576 16Zwyciężymy120007%2744448576 17Orzeł Biały60004%2821424288 18Wolna Polska60004%2920724288 19Wolność120007%2646248576 20Chłopi60004%2623124288 21Chłopska Droga60004%41 50024288 22Wieś 23Zielony Sztandar60004%41 50024288 24Przekrój120007%43 00048576 25Życie Warszawy (L)60004%2623124288 26Tygodnik Powszechny120007%43 00048576 27Gość Niedzielny (Ekspres Wieczorny)00%0000 (Przegląd sportowy)00%0000 Suma 168 000100%446 6728 064 ChronoPress: zawartość 1945

28 ChronoPress: narzędzia Preselekcja Przeglądarka próbek Analiza ilościowa – histogram Zipfa, – histogram długości średnich Szeregi czasowe Eksploracja danych – lista frekwencyjne – konkordancja – mapa toponimów Stylometria (w planach)

29 N ARZĘDZIA chronopress.clarin-pl.eu/ spraakbanken.gu.se/ www.google.pl/trends/ www.google.com/trends/correlate/ books.google.com/ngrams/ www.deutschestextarchiv.de

30 DZIĘKUJĘ ZA UWAGĘ Uwaga: żaden fragment niniejszej prezentacji ekranowej (tekst, grafika, logotypy) nie może być powielany lub rozpowszechniany w żadnej formie i w żaden sposób bez uprzedniego zezwolenia ich twórcy. Wszelkie znaki graficzne, nazwy własne, logotypy i inne dane są chronione prawem autorskim i należą do ich właścicieli.