1 System do analizy tekstów ortograficznych Cezary Dołęga,
2 Plan prezentacji Wprowadzenie – trochę o nas i NLP Co to jest Gram ?Gram w działaniu Aplikacje Kierunki rozwoju Podsumowanie i pytania
3 Wprowadzenie Neurosoft Sp. z o.o. Produkty NeurosoftuRok założenia 1992 Zaplecze to pracownicy PWr i UW Produkcja oprogramowania z zakresu AI Produkty Neurosoftu Neurosoft SynTalk® (1994 r. TTS) Neurosoft BIP® (1997 r. OCR, Archiwizacja) Neurosoft Gram (2000 r. NLP, Fulltext search) Projekty w przygotowaniu
4 Wprowadzenie cd. Dlaczego NLP ? NLP w NeurosoftW OCR-ze wskazane przy złej jakości piśmie W syntezie mowy niezbędne prozodia mowy W przeszukiwaniu pełnotekstowym precyzja NLP w Neurosoft 1992 r. Początek prac nad słownikiem (OCR) 1994 r. Pierwszy słownik, słaby materiał, parser tekstu ortograficznego dla potrzeb TTS-u 1998 r. Rozpoznawanie bezsegmentacyjne, pierwszy kompletny materiał jezykowy (OCR) 2000 r. Pierwsza wersja Grama (UNIX-owa)
5 Neurosoft Gram Co to jest ?komponent do przetwarzania tekstów pisanych w językach naturalnych - głównie w języku polskim, Potrafi dzielić tekst na zdania i słowa z uwzględnieniem różnych metod reprezentacji znaków Odszukuje leksemy i postaci kanoniczne dla każdego słowa w analizowanym tekście etykietując odpowiednio formy fleksyjne Identyfikuje wyrażenia regularne i może je interpretować Potrafi korygować tekst w zadanym zakresie Potrafi wykonać prostą klasyfikację semantyczną Posiada szereg funkcji wysokiego poziomu „ułatwiających życie”...
6 Neurosoft Gram Czym nie jest ...Nie jest systemem typu „full-text search” Nie jest programem użytkowym Nie korzysta z jakiejkolwiek bazy danych
7 Neurosoft Gram Cechy systemuArchitektura „klient-serwer” – dostępny dla Windows NT 4.0/2000 (DCOM) lub Linuxa (demon TCP/IP) Wielowątkowość i dobra skalowolność Optymalizacja pod kątem szybkości działania (ok. 30 tyś. słów/sek. – PIII/550MHz) Względnie duża zasobochłonność (słowniki) Przystosowanie do specyfiki języka polskiego Przystosowanie do bezpośredniej integracji z aplikacjami WWW
8 Neurosoft Gram - słownikiZastosowanie (wersja 2.2) Informacja o leksemach i formach fleksyjnych Informacja o powiązaniach morfologicznych Podział słów według języka Podział słów według kategorii semantycznych Zastosowanie (wersja 3.0) Informacja o denotacji (słowniki pojęć) Informacja o związkach frazeologicznych Leksemy w różnych językach
9 Neurosoft Gram – słowniki cd.Typy Skompilowany (skompresowane drzewo prefiksowe form fleksyjnych) Tekstowy (niekompresowane drzewo prefiksowe tworzone przy starcie systemu) Właściwości Atrybuty – język, unikatowy identyfikator itp. Niezależna od języka reprezentacja form fleksyjnych i leksemów Zależne od języka algorytmy identyfikacji słów Informacje dodatkowe (szumy i wyjątki dla parsera) Liczba słowników w systemie Nie więcej niż 255
10 Neurosoft Gram – leksemyTypy leksemów w języku naturalnym (odm.) Rzeczownik (liczba,przypadek) Czasownik (czas,liczba,osoba,tryb przyp.) Imiesłów (liczba,przypadek,osoba) Przymiotnik (liczba,przypadek,osoba) Przysłówek Zaimek (liczba,przypadek,osoba) Liczebnik (liczba,przypadek,osoba) Przyimek Skrót lub skrótowiec (liczba,przypadek) Inne
11 Neurosoft Gram – leksemy cd.Związki morfologiczne między leksemami (inne niż fleksja) opisuje relacja pochodzenia Dany leksem pochodzi tylko od jednego leksemu Nie tworzy cykli Określona w niepełnej dziedzinie Każdy typ relacji może być dynamicznie aktywowany W wersji 2.2 w sumie 20 typów, np.: aktorka aktor jadący jechać ściągnąć ściągać lepszy dobry robotniczy robotnik
12 Neurosoft Gram – leksemy cd.Predefiniowane wyrażenia regularne Liczby ( , 10e-3, 25 mln) Daty (12 lutego 2001, 11/12/01) Godziny (15:31) URL (www.neuro.pl, Sekwencje ( *************) Symbole ( ;-) ) Wyliczenia ( )
13 Neurosoft Gram – leksemy cd.Leksemy identyfikowane algorytmicznie Słowa z wyliczeniem (-krotny, -lecie) Rzeczowniki z określonymi przedrostkami (eks-, quasi-) Zaprzeczenie rzeczowników odczasownikowych (niewykazanie) Zaprzeczenie imiesłowów Nazwiska ze standardowymi końcówkami Słowa wieloczłonowe z myślnikiem Odmieniane skrótowce (PRL-em)
14 Gram w działaniu Konfiguracja Funkcje niskiego poziomuSłowniki Parametry przetwarzania Funkcje niskiego poziomu Informacje o słowie (zdaniu) Możliwość podmiany słowa (zdania) Funkcje kompleksowe Ogólne informacje o tekście Redukcja fleksji (normalizacja tekstu) Wyróżnianie wybranych słów Filtracja słów ze wskazanego słownika Generowanie listy słów kluczowych Generowanie prostych streszczeń
15 Aplikacje Grama Systemy wyszukiwania pełnotekstowegoTworzenie indeksów Analiza zapytań Kolorowanie wyniku (HTML) Systemy alertów i automatycznej cenzury Neurobot (kontrola zawartości Inetrnetu) Synteza i analiza mowy Wyznaczanie prozodii przy generowaniu mowy Wybór właściwego wyniku rozpoznawania Rozpoznawanie pisma
16 Kierunki rozwoju GramaNa najbliższy czas (wersja 2.X) Definiowanie, identyfikacja i interpretacja „dowolnych” wyrażeń regularnych (zapytania do baz danych) Słowniki związków frazeologicznych Na przyszłość (wersja 3.0) Analiza składni Słowniki pojęć i hierarchie semantyczne Generowanie streszczeń Automatyczne tłumaczenia
17 Pytania ...