CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.

1 CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci...
Author: Bogumił Małek
0 downloads 0 Views

1 CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska Katedra Inteligencji Obliczeniowej Grupa Naukowa G4.19 [email protected], [email protected], [email protected]

2 Plan prezentacji Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL

3 Plan prezentacji Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 1. Sieci leksykalne 2. Słowosieć 3.0 emo 3. enWordNet 1.0 4. Udostępnianie Słowosieci

4 Sieci leksykalne Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL

5 Sieci leksykalne WordNet Uniwersytet w Princeton, lata 80., psycholingwistyka i lingwistyka informatyczna (J. Miller, Ch. Fellbaum) badania nad językiem dzieci wielka sieć leksykalno-semantyczna języka angielskiego 4 części mowy – rzeczowniki, czasowniki, przymiotniki i przysłówki synset – zbiór prawie synonimów relacje semantyczne podstawowy zasób językowy Global Wordnet Association Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

6 Sieci leksykalne WordNet Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

7 Sieci leksykalne WordNet Liczba haseł = 156 tys. Liczba relacji = ok. 600 tys. Średnia długość ścieżki w grafie = 6,3 współczynnik klasteryzacji = 0,03-0,06 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

8 Sieci leksykalne w tys. Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 emo

9 Słowosieć 3.0 emo Konferencja CLARIN-PL Wrocław 25-26 IV 2016 CLARIN-PL

10 Słowosieć 3.0 emo Korpus Słowosieci 3.0 1,8 mld tokenów Korpus IPI PAN Teksty w domenie publicznej oraz na Creative Commons np. stenogramy sejmowe, ustawy i rozporządzenia RP, UE, portale internetowe, Wikipedia, Wikiźródła, Korpus Języka Polskiego Politechniki Wrocławskiej,... Różnorakie źródła internetowe 10/26 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

11 11/26 korpus Słowosieci 3.0 Słowosieć 3.0 emo korpus Słowosieci 4.0 Krishnamurthy (2002, za: R. Górski 2007) korpusy Cobuild W 2014 szacowaliśmy wielkość Słowosieci na 174 tys. haseł Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

12 12/26 Słowosieć 3.0 emo liczba haseł = 178 tys. liczba relacji > 600 tys. średnia długość ścieżki w grafie = 7,7 współczynnik klasteryzacji = 0,054 mały świat Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

13 13/26 Słowosieć 3.0 emo Gęstość relacji (tylko główne relacje) [relacji na jednostkę leksykalną] PWN 3.1Słowosieć 3.0 rzeczownik czasownik przymiotnik przysłówek Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 emo

14 Słowosieć 3.0 emo Struktura hasła lemat + numer znaczenia + część mowy kwalifikator rejestru (og. – rejestr ogólny, wulg. – wulgarny itp.) skrótowa definicja (tzw. glosa) przykłady użycia (108 tys.) linki do Wikipedii (54 tys.) anotacja w dziedzinie emocji (> 31 tys.) podstawowe emocje wartości uniwersalne polaryzacja nastawienia emocjonalnego (+m, +s, n, -s, -m) przykłady użycia 14/26 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

15 Słowosieć 3.0 emo: przykład Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

16 enWordNet 1.0 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

17 Statystyki relacji międzyjęzykowych Relacja/Część mowy RzeczownikPrzymiotnikPrzysłówekSuma Synonimia 36 367 4 077 448 40 893 Hiponimia 74 39429 216/9 930 781 104 391 Hiperonimia 4 121 167 51 4 339 Meronimia 6 982 - - Holonimia 3 471 - - Synonimia częściowa 4 339 1 544 4 5 887 Synonimia międzyrejestrowa 1 672 54 22 1 748 Synonimia międzyparadygmatyczna - 19 286 - Suma 127 00552 7991 302 186 997 Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

18 Wnioski z rzutowania Wyraźny prymat synonimii i hiponimii nad pozostałymi relacjami międzyjęzykowymi Wyraźna, dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duża liczba synonimii międzyparadygmatycznej dla przymiotnika Nadal duża liczba niezrzutowanych synsetów WordNetu princetońskiego, szczególnie w kategorii rzeczownika Dotychczas niezrzutowana kategoria czasownika Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

19 Motywacja dla rozszerzenia WordNetu princetońskiego 3.1 Wyniki rzutowania Słowosieci na WordNet princetoński: Dwukrotna przewaga w liczności relacji hiponimii międzyjęzykowej nad synonimią międzyjęzykową Duże różnice w pokryciu leksykalnym pomiędzy dwoma wordnetami Zatrzymanie prac nad dalszym rozwojem WordNetu princetońskiego: Ostatnie większe rozszerzenie 2006 (wersja 3.0) Ostatnia mała aktualizacja 2012 (wersja 3.1) Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

20 Wnioski z rozszerzania Prowadzone rozszerzenie pozwala uzupełnić braki w pokryciu leksykalnym WordNetu princetońskiego Zaktualizować jego zasób leksykalny o współczesne, nowe słownictwo Zastąpić wiele powiązań hiponimii międzyjęzykowej bardziej precyzyjnymi i szczegółowymi powiązaniami synonimią międzyjęzykową Stworzyć bardziej równoległy, w związku z czym bardziej przydatny zasób dwujęzyczny Utworzony dwujęzyczny zasób będzie stanowił 'bramę' do wielojęzycznych zasobów CLARIN EU Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

21 Plany na przyszłość Uzupełnienie rzutowania rzeczownika, przymiotnika i przysłówka w kierunku ANG-PL Opracowanie strategii i implementacja rzutowania czasownika Implementacja nowej, opartej o korpusy strategii rozszerzania zwiększenie integracji z OpenMultiLingual WordNet oraz integracja z Global WordNet Grid - światową platformą połączonych leksykalno-semantycznych zasobów językowych Opracowanie strategii i przeprowadzenie pilotażowego rzutowania na poziomie jednostek leksykalnych w ramach nowego projektu w konkursie NCN Harmonia 7: 'Ekwiwalencja międzyjęzykowa w leksykalnych bazach danych' Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

22 Zastosowania enWordNetu 1.0 Cross-lingual (Międzyjęzykowe): Wyszukiwanie semantyczne Semantyczna indeksacja tekstów, Klasyfikacja tekstów, Statystyczna analiza semantyczna korpusów w różnych językach Wydobywanie informacji z tekstu, Tłumaczenie maszynowe Multi-lingual (Wielojęzyczne) Princeton WordNet 3.1 jest połączony z ponad 60 językami świata Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

23 Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

24 Udostępnianie Słowosieci Całość do pobrania na otwartej licencji własny format XML, UBY LMF w opracowaniu CILI LMF oraz format Lemmon Aplikacja webowa do przeglądania: http://plwordnet.pwr.edu.pl WordnetLoom Viewer aplikacja na komputer użytkownika do interaktywnego przeglądania Aplikacja mobilna (offline) dostępna z Google Play Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016

25 Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 Słowosieć online Słowosieć mobilna WordnetLoom- Viewer www.clarin-pl.eu

26 Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 www.plwordnet.pwr.wroc.pl/wordnet

27 Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 WordnetLoom

28 Udostępnianie Słowosieci Konferencja CLARIN-PL CLARIN-PL Wrocław 25-26 IV 2016 Słowosieć mobilna 1 – 2 – 3 – 4 – 5 – 6 – 7 – 8 – 9

29 CLARIN-PL Dziękujemy bardzo za uwagę