Uniwersytet Jagielloński

1 Uniwersytet JagiellońskiAutomatyczne pozyskiwanie relac...
Author: Władysław Sobieraj
0 downloads 2 Views

1 Uniwersytet JagiellońskiAutomatyczne pozyskiwanie relacji semantycznych z tekstu Wiktor Dernowicz Uniwersytet Jagielloński Kraków

2 Motywacje PJN to w dużej mierze przetwarzanie znaczeńObecnie nie istnieje jeszcze słownik semantyczny języka polskiego, który by to umożliwiał Stąd duża potrzeba stworzenia takie słownika Tworzenie takiego słownika jest czasochłonne i drogie Częściowa automatyzacja tego procesu jest kluczowa

3 Przedstawię próbę rozwiązanie tego problemu

4 Czym jest słownik semantycznySłownik semantyczny definiuje znaczenia poprzez relacje semantyczne takie jak: synonimity, similarity, is a kind of itd. Poniżej jest częściowy opis pojęcia pies: SYNONIMY: Canis familiaris SIMILAR TO: wilk IS A KIND OF: ssak CONSISTS OF: ogon, pazur, sierść

5 Pytanie na które szukam odpowiedziCzy możliwe jest automatyczne pozyskiwanie relacji semantycznych z korpusu tekstów Jeśli „tak”, jakiej jakości wyników powinienem oczekiwać Czy może mieć to znaczący wkład w proces tworzenia słownika semantycznego

6 Eksperyment Zbudowałem pewien system, dałem mu do poczytania trochę książek oraz gazet i jeszcze pozwoliłem trochę poserfować po internecie Następnie zadałem mu pytanie dotyczące relacji semantyczne część-całość: „Jakie są części ciała kota, pataka, słonia, krowy, jeża itd.?” I zobaczyłem jaki był rezultat.

7 Metoda podstawowa Wejście: Informacja o świecie – korpus tekstówPrzykład czego ja szukam – cztery predefiniowane nazwy zwierząt: pies, koń, ryba i pająk oraz listy części ich części ciała. To jest podane jako wzór Nazwy innych zwierząt, dla któych chcę, aby system znalazł nazwych ich części ciała – kot, ptak, słoń, krowa, jeż Dwie wartości liczbowe (progi)

8 Metoda podstawowa Wyjście: kot oko OK. ogon ucho jeż kolec ptakgniazdo pazur słoń noga krowa róg dziób skrzydło głowa dom problem

9 Jak ten system działa? pies – oko ta para jest wzięta z wzorca danego na wejściu Gdzie ten pies ma oczy? – znalezione zdanie X ma Y – wyodrębniona fraza pies – ogon Pies powitał go machnięciem ogona. X powitał go machnięciem Y

10 Ocena fraz Mój pies ma problem.pies – problem takiej pary nie ma we wzorcu, stąd minus (-) Taki koń ma skórę różowawą. koń – skóra taka para faktycznie znajduje się we wzorcu, stąd plus (+) Ta fraza otrzymała: 30 plusów 164 minusy Czyli jest 15,4% plusów – a to jest więcej niż pierwszy próg (5%) Jest 16 różnych plusów, 16 różnych par takich jak koń-skóra, a to jest więcej niż drugi próg (2 dwie różne poprawne pary) Stąd fraza ta jest zaakceptowana

11 Ocena fraz X przywitał go machnięciem YPowyższa fraza otrzymała 1 plus i 0 minusów. Jest 100% plusów, ale tylko 1 różny plus – a to jest poniżej drugiego progu (2), dlatego system „mówi”, że ta fraza nie jest dobra i pomija ją.

12 Cześć zaakceptowanych frazFraza Minusy Plusy Różne plusy X z Y 449 40 15 Y u X 104 27 18 X po Y 103 34 14 X ma Y 164 30 16 Y tych X 166 9 Y ma X 53 11 5 X bez Y 72 17 X za Y 97 7

13 Uzyskane rezultaty Zwierzę Odnaleziona część ciałaOdnaleziona przez N różnych fraz kot oko 6 OK. ogon 5 ucho jeż kolec 4 ptak gniazdo pazur słoń noga 3 krowa róg dziób skrzydło głowa dom problem

14 Teraz i w przyszłości Odnalazłem system WEKA z nowej Zelandii, który implementuje wiele algorytmów „Machine Learning”, jest on dostępny, darmowy i działa. Chciałbym zastosować część z tych algorytmów. Chciałbym się dowiedzieć jakie są obecne osiągnięcia „Machine Learning” i być może zastosować dostępne rozwiązania. Mam także swoje własne pomysły na to by usprawnić ten podstawowy algorytm.

15 Dziękuję bardzo za państwa uwagę!Będę zobowiązany za wszelkie uwagi.