CLARIN-PL Opis znaczeń leksykalnych Słowosieci za pomocą skojarzonych z nimi podstawowych uczuć, wartości podstawowych oraz polaryzacji nastawienia emocjonalnego.

1 CLARIN-PL Opis znaczeń leksykalnych Słowosieci za pomoc...
Author: Sławomir Lewandowski
0 downloads 2 Views

1 CLARIN-PL Opis znaczeń leksykalnych Słowosieci za pomocą skojarzonych z nimi podstawowych uczuć, wartości podstawowych oraz polaryzacji nastawienia emocjonalnego Monika Zaśko-Zielińska Uniwersytet Wrocławski [email protected] Maciej Piasecki Politechnika Wrocławska Katedra Inteligencji Obliczeniowej [email protected] 2016-04-27

2 Tło  Słowosieć staje się podstawowym i referencyjnym leksykalnym zasobem języka polskiego  W dużym stopniu wyczerpujący opis znaczeń leksykalnych  Dziesiątki tysięcy wizyt na stronie, ponad 720 zarejestrowanych użytkowników, dziesiątki różnych zastosowań  Jedno, ale istotne ograniczenie - brak wsparcia dla coraz ważniejszych obszarów  analizy nastawienia emocjonalnego powiązanego z wypowiedziami tekstowymi (żargonowo, kalka z angielskiego: analizą sentymentu)  oraz analizą opinii (Opinion Mining) Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

3 Założenia i cele  Założenia  Wordnety są traktowane jako referencyjne zasoby, co do których przyjmuje się, że nie zawierają błędów językowych  Automatyczne oznaczenia nie jest właściwym rozwiązaniem  Słowosieć jest zbyt duża na kompleksową, ręczną anotację w ramach realnego budżetu  Cel  Ręczna anotacja dużej części Słowosieci w zakresie polaryzacji nastawienia emocjonalnego oraz podstawowych emocji  Około 30 000 jednostek leksykalnych, 15% całości  (tj. skala kilka razy większa niż w przypadku SentiWordNet)  Projekt pilotażowy  Późniejsza podstawa do dalszego automatycznego rozszerzenia Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

4 Model anotacji: założenia  Jednostki leksykalne jako elementy opisywane  są podstawowymi elementami struktury Słowosieci  np. relacje leksykalno-semantyczne są zdefiniowane dla jednostek  glosy i przykłady użycia przypisane do jednostek itd.  emocje i polaryzacja nastawienia wiążą się z konkretnym znaczeniem warunkowanym użyciem  Perspektywa nadawcy  opis polaryzacji nastawienia w oderwaniu od kontekstu jest bardzo trudny  zbyt wiele czynników wpływa na percepcję polaryzacji nastawienia  ukierunkowanie się na sens zamierzony przez nadawcę i zamierzoną polaryzację  Emocje, które determinują źródło polaryzacji nastawienia Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

5 Model anotacji: atrybuty  Polaryzacja nastawienia emocjonalnego  Emocje podstawowe  Wartości podstawowe Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

6 Model anotacji: atrybuty  Polaryzacja nastawienia emocjonalnego  charakter: neutralna vs pozytywna (+) lub negatywna (-)  natężenie: mocne vs słabe  wynikowe: pozytywne mocne, pozytywne słabe, neutralne, negatywne słabe, negatywne mocne  Zapis w anotacji: +m, +s, n, -s, -m Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

7 Model anotacji: emocje podstawowe  Emocje podstawowe  radość, smutek, złość, strach, zaufanie, obrzydzenie, zaskoczenie czymś nieprzewidywanym i czekanie na coś miłego (Ekman 1992; Plutchik 1980)  Kompatybilność  zbiór często używany w badaniach  zastosowany w wielu zasobach, np. leksykon emocji NRC (Mohammad and Turney, 2013) and the SentiSense Affective Lexicon (Carrillo de Albornoz et al., 2012) Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

8 Model anotacji: wartości uniwersalne  Pozytywne  użyteczność  dobro drugiego człowieka  prawda,  wiedza  piękno  szczęście  Negatywne  nieużyteczność  krzywda  niewiedza  błąd  brzydota  nieszczęście Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL  Wartości podstawowe są łączone często w polskiej tradycji lingwistycznej z opisem podstawowych emocji  Np. (Puzynina, 1992)

9 Przykłady Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.]

10 Przykłady Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] pierwszy anotator emocje podstawowewartościnastawienie

11 Przykład Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL rozpruwacz 1 (os) pot. « określenie mordercy, który okalecza swoje ofiary za pomocą noża; rozpruwacz odcina głowę lub kończyny, rozcina tułów, masakruje różne części ciała. » ##A1: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Całe miasteczko żyło w strachu przed rozpruwaczem, nikt nie wychodził z domu po zmroku.] ##A2: {złość, wstręt, strach; błąd, krzywda, nieszczęście} – m [Rozpruwacz przyczynił się do śmierci 9-letniej dziewczynki.] drugi anotator

12 Procedura anotacji 1.Sprawdzenie czy X jest nacechowane ze względu na polaryzację nastawienia lub neutralne; jeżeli jest neutralne, to pomijamy resztę kroków 2.Przypisanie podstawowych emocji i wartości uniwersalnych, które wydają się powiązane z X 3.Oznaczenie polaryzacji X jako negatywna (-), pozytywna (+) lub ambiwalentna (amb) 4.Ocenienie intensywności polaryzacji emocjonalnej X: mocna lub słaba 5.Przypisanie zdań przykładowych:  Jedno dla X z pozytywną albo negatywną polaryzacją  Dwa dla X z ambiwalentną polaryzacją Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

13 Procedura: nacechowanie  Procedura empiryczna  jednostki o ekspresywności implicytnej  w swoim znaczeniu odnoszące się do emocji  np. nazwy stanów emocjonalnych  wydzielanie eksplicytnych rzeczowników nacechowanych  obecność zaimków wskazujących i dzierżawczych jako konkretyzujący sygnał nacechowania  test na konkretność jednostki (Markowski, 1992)  możliwość wystąpienia w kontekście ukonkretniających zaimków: ten, taki, twój, jakiś,ten.  Test podstawieniowy TProszę pomyśleć o X TProszę pomyśleć o [zaimek ukonkretniający] X TProszę pomyśleć o X, który [zdanie podrzędne ukonkretniające] Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

14 Procedura: nacechowanie  Procedura empiryczna  Analiza korpusowa (na Narodowym Korpusie Języka Polskiego)  zastąpienie analizowanej jednostki ewidentnie pozytywnym/negatywnym synonimem nie zmienia znaczenia przykładu  To jest troska o dobro wspólne  To dbanie/dbałość o dobro wspólne;  akceptowalność połączenia z przymiotnikiem nacechowanym negatywnie/pozytywnie  wchodzenie w kolokację z czasownikiem, który łączy się (łączliwość kategorialna) tylko z nazwami zjawisk wartościowanych dodatnio Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

15 Procedura: nacechowanie  Procedura słownikowa  W definicji znaczenia znajdujemy komponent pragmatyczny o jednoznacznie pozytywnym/negatywnym nacechowaniu,  szatan – ‘z podziwem o człowieku bardzo zdolnym, sprytnym, odważnym  bubek ‘z niechęcią o mężczyźnie mało wartym, ale mającym wygórowane mniemanie o sobie’  Analiza nacechowanie w strukturze Słowosieci  Wytyczne odwołujące się do przypisanej już polaryzacji i typu relacji leksykalno-semantycznej  Końcowa decyzja:  jednostka leksykalna neutralna lub nacechowana Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

16 Procedura: emocje i wartości  Opis znaczenia jednostki skojarzonymi emocjami i wartościami uniwersalnymi  Krok pomocniczy w stosunku do oceny polaryzacji nastawienia  Przypisanie wartości uniwersalnych było opcjonalnym krokiem, ale rzadko pomijanym  Anotatorzy przejawiali tendencję do opisywania złożonych emocji za pomocą kombinacji emocji podstawowych  Idealna zgodność nie była oczekiwana, ale ostatecznie była wysoka, np.  A1: {smutek, wstręt}; {nieużyteczność, niewiedza}  A2: {smutek, złość, wstręt}; {nieużyteczność, niewiedza} Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

17 Procedura: polaryzacja nastawienia 1.Test kongruencji (zgodności) 2.Test na dysonans 3.Test z kolokatorem 4.Test definicji słownikowych Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

18 Procedura: test kongruencji  Czy wszystkie użycia jednostki X w odnalezionych przykładach użycia mają nacechowanie pozytywne/negatywne  Czy sąsiadujące z X przymiotniki, rzeczowniki, czasowniki nie wpływają na zmianę nacechowania, ale je potwierdzają?  np. „Przyjaźń to lojalność, wierność i bezgraniczne oddanie”(nacechowanie pozytywne)  Oczekujemy zróżnicowanych przykładów w przypadku niejednoznacznych Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

19 Procedura: testy polaryzacji  Test dysonansu  Występowanie relacji antonimii właściwej pomiędzy jednostką analizowaną i inną jednostką o jednoznacznie określonej polaryzacji nastawienia emocjonalnego  Np., nadzieja [pozytywna] –antonimia- rozczarowanie  Testy z kolokatorem  Analizujemy kolokacje danej jednostki leksykalnej pod kątem polaryzacji nastawienia  Dokonujemy oceny siły tendencji wchodzenia w relacje kolokacji z pozytywnymi/negatywnymi Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

20 Procedura: testy polaryzacji  Test definicji słownikowych  sprawdzamy, czy w definicji analizowanej jednostki wszystkie komponenty są jednoznacznie pozytywne, negatywne lub mieszane  Np., pozytywne  szatan – z podziwem o człowieku bardzo zdolnym, sprytnym, odważnym [Słowosieć glosa]  Np., negatywne  Bubek – z niechęcią o mężczyźnie mało wartym, ale mającym wygórowane mniemanie o sobie Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

21 Procedura: oznaczenie natężenia nacechowania 1.Odległość od emocji przypisanych do jednostki leksykalnej  Np.. dla niezadowolenia mamy smutek i złość - czy są one dla tej jednostki maksymalne czy jedynie zbliżamy się w stronę złości czy smutku, gdy jesteśmy niezadowoleni 2.Porównywanie badanej jednostki z innymi o podobnym znaczeniu:  Jeśli jednostka A jest wyraźnie bardziej nacechowana od B, to A otrzymuje oznaczenie "m", a B "s" 3.Jeżeli dana jednostka leksykalna wydaje się mieć negatywną polaryzację, ale jest używana żartobliwie do określenia dziecka, to przypisujemy jej słabe natężenie 4.Przesunięcie w czasie: stan obecny i obecne natężenie Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

22 Procedura: przykłady użycia  Podwójna role  ilustracja: anotacji i powiązanych aspektów znaczenia  weryfikacja: wcześniej podjętych decyzji  Ilustracja  Dla jednostek nacechowanych pozytywnie lub negatywnie zapisanie przykładu w formie zdania, które zawiera analizowaną jednostkę i jest potwierdzeniem przypisanej anotacji,  Dla niejednoznacznych [amb] – dwa zdania potwierdzające możliwość występowania w kontekście negatywnym i pozytywnym  Źródło: wybrane lub utworzone  Ukierunkowanie:  Częste kolokacje rozważanej jednostki leksykalnej  Nieoficjalne sytuacje, które nie są częste w słownikach Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

23 Proces  Zespół  6 anotatorów: 3 lingwistów i 3 psychologów  jeden superanotator  weryfikacja wcześniejszych decyzji  Organizacja pracy  Dwóch anotatorów na jedną jednostkę – pary mieszane i zmienne  Pierwszy anotator: przypisuje podstawowe emocje, wartości uniwersalne, polaryzację nastawienia I przykłady  drugi anotator:  przetwarza te same jednostki leksykalne niezależnie  recenzuje rezultaty pracy pierwszego  może podjąć odmienne decyzje Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

24 Proces: organizacja pracy  Jeżeli drugi anotator się nie zgodził, raport był przesyłany do koordynatora (superanotatora)  Jeżeli koordynator znalazł błąd anotatora, była wymagana ponowna analiza  Niezgodności niewynikające z błędu były pozostawiane  Jeżeli potencjalny błąd został znaleziony w Słowosieci, anotowanie danej jednostki leksykalnej było zawieszane do czasu korekty błędu przez zespół Słowosieci Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

25 Proces: zakres  Rzeczowniki  podgrafy hyperonimiczne, które są bardziej znaczące dla polaryzacji nastawienia  dziedzina: uczucia, odczucia i emocje [czuj];  dziedzina: ludzie [os]  np. jednostki ze sztucznych synsetów: ‘człowiek charakteryzowany ze względu na cechy osobowości’, ‘człowiek charakteryzowany pod względem wieku’, ‘człowiek charakteryzowany ze względu na cechy fizyczne’, ‘człowiek charakteryzowany w odniesieniu do jego stanu majątkowego’ czy ‘człowiek charakteryzowany ze względu na kwalifikacje’, ‘człowiek oceniany pozytywnie’, ‘człowiek oceniany negatywnie’  dziedzina: cechy ludzi i zwierząt [cech]  dziedzina (częściowo): zdarzenia [zdarz]  np. zdarzenia oceniane negatywnie, rozrywka  Przymiotniki: wybrane (dokończone na marzec 2015) Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

26 Słowosieć 3.0 emo Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL  Pokrycie anotacji  27% przymiotnikowych jednostek leksykalnych  12% rzeczownikowych jednostek leksykalnych  dziedziny, które są najbardziej spodziewane, że zawierają jednostki leksykalne nacechowane pod względem polaryzacji nastawienia emocjonalnego  Statystyka Część mowy liczba-m [%]-s [%]n [%]+s [%]+m [%] amb [%] N19 62511,298,7869,063,242,884,74 Adj11 5739,8911,2258,859,215,605,24 Razem31 19810,779,6965,275,463,894,92

27 Słowosieć 3.0 emo: przykład Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL  Niejednoznaczny: {starzec 1, staruszek 1, dziad 1, dziadek 1} w glosie:  ##A1: {zaufanie, smutek, złość; dobro, wiedza, nieużyteczność, nieszczęście} amb [Chętnie pomagam temu starcowi, ponieważ zawsze opowiada mi niezwykłe historie z lat swej młodości.] [Ten starzec wyglądał coraz gorzej, było mi go żal.]  ##A2: {zaufanie, smutek, wstręt; wiedza, nieużyteczność, brzydota} amb [W pierwszym rzędzie, tuż przed ołtarzem, zasiadł nobliwy starzec - gość biskupa.] [Jadwiga szukała sposobu, jak może pomóc sponiewieranemu, ubogiemu starcowi.]

28 Słowosieć 3.0 emo: przykład Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL  Niejednorodny synset: {starzec 1, staruszek 1, dziad 1, dziadek 1} w glosie: “stary mężczyzna”  ##A1: {złość, wstręt; nieużyteczność, niewiedza} - m [Stary dziad nie powinien podrywać młodych dziewczyn.]  ##A2: {wstręt; nieużyteczność, brzydota} - s [Jakiś dziad się dosiadł do naszego przedziału i wyciągnął śmierdzące kanapki z jajkiem.]  ##A3: {wstręt; nieużyteczność, brzydota} - s [Kilkanaście lat minęło i zrobił się z niego stary dziad.]

29 Zgodność pomiędzy anotatorami Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL  Drugi anotator nie powinien podglądać wyników pracy pierwszego dopóki nie podjął decyzji  Tylko w wypadku ewidentnych błędów koordynator prosił anotatora o przeanalizowanie znaczenia danej jednostki leksykalnej i przemyślenie decyzji  Wszystkie ostateczne decyzje były zapisywane  κ Fleissa (Fleiss, 1971) wyższa zgodność dla przymiotników wynika z uprzedniego doświadczenia z anotacji rzeczowników Część mowy liczba-m-sn+s+mamb N19 6250,9610,9150,9760.8640.9300.868 Adj11 5730.9580.9350.9600.9190.9760.935

30 Podsumowanie  Pierwszy istotny krok w kierunku anotacji Słowosieci w zakresie polaryzacji nastawienia emocjonalnego  Osiągnięty rozmiar anotacji jest bardzo duży w porównaniu do innych ręcznie anotowanych zasobów  Wydaje się dobrym punktem wyjścia do zastosowania algorytmów automatycznej anotacji opartych na propagacji pobudzenia w sieci  Ponieważ Słowosieć była rozwijana niezależnie od Princeton WordNet, otwiera się interesująca możliwość porównania z anotacją podobnego charakteru dodaną w innych projektach Premiera Słowosieć 3.0 Wrocław 2016-04-27 CLARIN-PL

31 Dziękuję bardzo za uwagę www.clarin-pl.eu