1 POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów i streszczeń z tłumaczeniem na język migowy Przemysław Szmal, Sławomir Kulików Instytut Informatyki Politechnika Śląska Gliwice (praca finansowana ze środków KBN w latach jako projekt badawczy nr 4 T11C )
2 Plan prezentacji Wstęp System Thetos Program PolSummInternetowy serwis lingwistyczny LAS Aplikacja I-Thetos Kierunki dalszych prac Uwagi końcowe
3 Wstęp (1) Prace z zakresu inżynierii języka naturalnegoWarsztat: środowisko do prac badawczo- rozwojowych procesory lingwistyczne baza słownikowa mechanizmy i narzędzia ułatwiające: zarządzanie zasobami prowadzenie eksperymentów analizę wyników eksperymentów
4 Wstęp (2) Pomysł: zapewnić dostęp do zasobów szerokiemu gronu użytkowników. Środek: użyteczne aplikacje Aplikacje lokalne Polmorph: analizator morfologiczny ze środowiskiem Thetos (TGT-1): translator tekstów na j. migowy PolSumm: generator streszczeń Aplikacja sieciowa LAS: serwer lingwistyczny I-Thetos: aplet pośredniczący w dostępie
5 System Thetos (1) Zadanie: tłumaczenie tekstów (zdań) w języku polskim na polski język migowy Etapy tłumaczenia: lingwistyczny i animacyjny Realizacja - w części lingwistycznej i w części animacyjnej systemu
6 System Thetos (2) Przykład Tekst wejściowy:Dzieci nie lubią chorować. Wynik pracy części lingwistycznej: dziecko chorować lubić nie . Wynik na wyjściu części animacyjnej:
7 System Thetos (3) Moduły zaangażowane w tłumaczenie w części lingwistycznej Analizator morfologiczny Generator tekstu wyjściowego Analizator syntaktyczny Generator struktury składniowej Analizator semantyczny Konwerter reprezentacji predykatywnej
8 System Thetos (4) Część animacyjna - problemy Postać wirtualnaSzkielet Wygląd zewnętrzny Ruchy Konstrukcja wypowiedzi w j. migowym Znaki języka migowego Sekwencje znaków Tempo wypowiedzi ...
9 Program PolSumm (1) Zadanie: generacja streszczenia tekstów w języku polskim Założenie: streszczenie – ciąg zdań z pierwotnego tekstu uznanych za najistotniejsze rozmiar streszczenia – zadany (% liczby zdań wejściowych) kolejność zdań w streszczeniu zachowana Metody generacji streszczenia: metoda statystyczna metoda wyszukiwania informacji
10 Program PolSumm (2) Zasada wyboru zdań - metoda statystyczna:usunąć z tekstu słowa nieistotne (u nas: pozostawić rzeczowniki) określić wagi pozostawionych słów: waga słowa = częstość występowania słowa w całym tekście wyznaczyć wagi zdań, sumując wagi słów, które w nich pozostają wybrać zadaną liczbę zdań o największej wadze
11 Program PolSumm (3) Zasada wyboru zdań - metoda wyszukiwania informacji: usunąć z tekstu słowa nieistotne (u nas: pozostawić rzeczowniki) wyszukać powiązania między słowami (powtórzenia pojęć) w celu wyszukania myśli wyznaczyć wagi zdań w przekazywaniu myśli zawartej w tekście wybrać zadaną liczbę zdań o największej wadze
12 Program PolSumm (4) Przykład Zaopiekuj się drukarką.Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
13 Program PolSumm (4) Przykład Usunięcie nieistotnych słówZaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
14 Program PolSumm (4) Przykład Szukanie powiązań - bezpośrednieZaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
15 Program PolSumm (4) Przykład Szukanie powiązań - pośrednieZaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
16 Program PolSumm (4) Przykład Wynik wyszukiwania powiązańZaopiekuj się drukarką. Wnętrze urządzenia komputerowego należy czyścić sprężonym powietrzem. Na obudowie drukarki zbiera się kurz. Kurz należy zetrzeć suchą szmatką.
17 Program PolSumm (5) Szukanie przekazywanej myśliprzekazywanie myśli przez powtórzenie pojęć szukanie myśli w obrębie akapitu legenda zdanie pierwsze wystąpienie pojęcia powtórzenie pojęcia powiązanie słów przekazywana myśl tekst źródłowy Z1 Z2 Z3 Z4
18 Program PolSumm (6) Moduły zaangażowane w generację streszczeniaanalizator morfologiczny analizator syntaktyczny generator streszczenia
19 Internetowy serwis lingwistyczny LASBudowa moduły uniwersalne - analizator morfologiczny - analizator syntaktyczny moduły dedykowane - tłumaczenie na język migowy - generowanie animacji gestów - generowanie streszczenia zlecenia zewnętrzne (od aplikacji I-Thetos) moduł koordynujący
20 Aplikacja I-Thetos (1) przyciski sterujące awatar tekst źródłowywynik streszczania wynik tłumaczenia
21 Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowegozawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
22 Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowegozawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
23 Aplikacja I-Thetos (2) Zasada obsługi: wybór tekstu źródłowegozawartość strony WWW (z Internet Explorer) wprowadzony z klawiatury ustawienie parametrów wykonanie streszczania przed tłumaczeniem wybór typu widoku wykonanie tłumaczenia (połączenie z serwerem) podgląd wyników zapisanie wyników
24 Aplikacja I-Thetos (3) Przykład 1. Generacja streszczenia
25 Aplikacja I-Thetos (3) Przykład 2. Tłumaczenie zadanego tekstu: Wynik:Dzieci nie lubią chorować. Wynik:
26 Kierunki dalszych pracProgram prototypowy – konieczne ulepszenia poprawa jakości tłumaczenia usunięcie ograniczeń eksploatacyjnych (przeglądarka Internet Explorer + wtyczka VRML) uwzględnienie zabezpieczeń pracy: połączenie szyfrowane
27 Uwagi końcowe Aplikacja internetowa: serwer LAS + I-Thetos:Udostępnia szerokiemu gronu użytkowników wyniki prac badawczych Ułatwia osobom niesłyszącym korzystanie z Internetu Może być używana przez osoby słyszące do nauki języka migowego do wykonywania streszczeń Wymaga dalszych prac
28 Dziękuję za uwagę
29 Dziękuję za uwagę Adres kontaktowy: [email protected]Projekt/system Thetos: thetos.polsl.pl thetos.aei.polsl.pl Serwer LAS: las.aei.polsl.pl/las2