1 WYKORZYSTANIE ANALIZY HFCC W ROZPOZNAWANIU GŁOSÓW PTAKÓWRobert Wielgat, Agnieszka Lisowska-Lis, Tomasz Potempa, Daniel Król Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa w Tarnowie
2 Wprowadzenie Niniejsza praca prezentuje wstępne wyniki automatycznego rozpoznawania głosów ptaków. Do nagrań wybrano stosunkowo dużą częstotliwość próbkowania sygnału 96 kHz. Porównano wyniki rozpoznawania otrzymane za pomocą dwóch typów mikrofonów: kardioidalnego oraz hiperkardioidalnego. W metodzie rozpoznawania testowano dwa zbiory cech: Parametry Mel-kepstralne (ang. Mel-Frequency Cepstral Coefficients - MFCC) oraz Parametry HFCC (ang. Human-Factor Cepstral Coefficients - HFCC). Wykonano doświadczenia z ograniczaniem górnej częstotliwości granicznej widma sygnału podczas obliczania cech HFCC, co przyniosło poprawę dokładności rozpoznawania. Jako klasyfikatora użyto metody nieliniowej transformacji czasowej (ang. Dynamic Time Warping – DTW). Przeprowadzono eksperymenty rozpoznawania głosów ptaków w zbiorze zamkniętym i otwartym.
3 Potencjalne zastosowania rozpoznawania głosów ptakówWspomaganie badań naukowych w dziedzinie szeroko rozumianej zoologii. Wspomaganie wyznaczania siedlisk i ostoi ptasich (główny priorytet w programie Unii Europejskiej - Natura 2000). Ochrona upraw. Ochrona samolotów i innych obiektów latających przed kolizjami z przelatującymi w pobliżu ptakami.
4 Częstotliwość próbkowaniaW badaniach dotyczących rozpoznawania głosów ptaków najpowszechniej stosowane częstotliwości próbkowania nie przekraczają granicy 48 kHz. Jednakże wartości częstotliwości próbkowania mniejsze lub równe niż 48 kHz mogą być niewystarczające, aby właściwie reprezentować sygnał głosów ptaków, ponieważ pewne składowe częstotliwościowe wielu gatunków ptaków leżą w zakresie ultradźwiękowym. Zaleca się stosowanie wyższych częstotliwości próbkowania.
5 Mikrofony i przetworniki A/CStosowanie częstotliwości próbkowania powyżej granicy 48 kHz wymaga szerokopasmowych mikrofonów oraz wysokiej jakości przetworników A/C np. przetworników SAR A/D zamiast najbardziej popularnych przetworników typu sigma-delta. Słabo widoczna składowa ultradźwiękowa sygnału najprawdopodobniej osłabiona i zdeformowana przez charakterystykę mikrofonu oraz przetwornik A/C typu sigma-delta. Spektrogram przykładowego głosu zięby (Fringilla coelebes).
6 Parametry Mel-cepstralne (MFCC)1) ramkowanie sygnału, okienkowanie sygnału za pomocą okna Hamminga 2) wykonanie FFT na zokienkowanych ramkach sygnału 3) dodanie mocy FFT w pasmach częstotliwościowych 4) obliczenie logarytmu zakumulowanych współczynników widmowych 5) wykonanie DCT na współczynnikach widmowych (n = 0, 1, 2,..., q-1): Now I’ll try to explain the way of calculating MFCC. The first stage is blocking signal into frames and windowing them by Hamming or another window. Next Fast Fourier Transform is performed on windowed frames. Afterwords FFT power in some frequency band is added. obliczenie pierwszej i drugiej pochodnej współczynników DCT po czasie, tzw. współczynników delta oraz delta-delta.
7 Parametry Mel-cepstralne (MFCC)“Dodanie mocy FFT w pasmach częstotliwościowych” Częstotliwości środkowe pasm są równomiernie rozmieszczone wzdłuż osi częstotliwości w skali melowej. Szerokość pasma filtru jest ściśle powiązana z rozmieszczeniem filtrów (pasma zachodzą na siebie w 50 %). The most important issue in mel-frequency Cepstral coefficients is spacing of center frequencies in frequency bands. These center frequencies are equally spaced in mel-frequency scale.
8 Parametry HFCC W metodzie HFCC (Skowronsky & Harris) częstotliwości środkowe są równomiernie rozmieszczone wzdłuż melowej skali częstotliwościowej, tak samo jak w metodzie MFCC, jednak szerokość pasma filtru stanowi parametr projektowy, obliczany jako równoważna szerokość pasma prostokątnego (ERB) będącego aproksymacją pasma krytycznego. (Moore & Glasberg 1983); gdzie częstotliwość środkowa fc jest wyrażana w kHz. Gdy stosuje się filtr o szerszym paśmie niż ERB (ERB jest wymnażane przez pewien czynnik > 1), wówczas rozpoznawanie mowy za pomocą cech HFCC może być w pewnych warunkach bardziej odporne na szum.
9 częstotliwość maksymalnaParmetry HFCC c.d. Częstotliwości środkowe są równomiernie rozmieszczone wzdłuż Melowej skali częstotliwości. Szerokość filtru jest parametrem projektowym. częstotliwość maksymalna This picture shows spacing of center frequencies and bandwiths of the frequency bands in HFCC. It is evident that spacing is exactly the same like in MFCC case but the bantwith is changed. It is narrow at the begining and become wider at the end of mel-frequency scale.
10 Nieliniowa transformacja czasowaNieliniowa transformacja czasowa (ang. dynamic time warping - DTW): - prosta implementacja i łatwość analizy - stosunkowo duża skuteczność rozpoznawania Między wektorami cech obliczano odległość euklidesową. iY M W O R D Y 1 iX 1 N W O R D X
11 Doświadczenia Rozpoznawano głosy pochodzące od 5 gatunków ptakówTyp przetwornika A/C: 24bit/96kHz sigma-delta Nagrań dokonywano jednocześnie za pomocą dwóch mikrofonów: kardioidalnego oraz hiperkardioidalnego. W zbiorze uczącym znalazło się po 10 przykładów głosów ptaków dla każdego gatunku nagranych przez 2 mikrofony. Zbiór testowy posiadał strukturę przedstawioną w poniższej tabeli. gatunek ptaka liczba przykładów wróbel (Passer domesticus) 17 jerzyki (stado) (Apus apus) 64 sikorka bogatka (Parus major) 25 gołąb (Columba livia) 63 zięba (Fringilla coelebes) 95
12 Parametry ekstrakcji cechHFCC MFCC Długość FFT 4096, 8192 Liczba filtrów 32 Liczba współczynników 15 czynnik skalujący ERB 2 nie dotyczy współczynniki delta tak „Delta size” 1 współczynniki delta-delta nie częstotliwość maksymalna 20 kHz ÷ 48 kHz 48 kHz
13 Wyniki: wybór najlepszego mikrofonu oraz metody ekstrakcji cechtyp cech mikrofon hiper-kardioidalny mikrofon kardioidalny MFCC 82.97 % 87.98 % HFCC 91.91 % 88.65 %
14 Wyniki: poprawa skuteczności rozpoznawania głosów ptaków poprzez ograniczenie częstotliwości maksymalnej Do standardowych parametrów HFCC dodano również parametr „częstotliwość maksymalna” oznaczający końcową częstotliwość ostatniego filtra trójkątnego HFCC.
15 Wyniki: wstępne eksperymenty rozpoznawania w zbiorze otwartymW celu wykonania eksperymentów w zbiorze otwartym dla każdego gatunku ptaka został eksperymentalnie dobrany próg odległości DTW. Nagrania, dla których odległość DTW między wzorcem a rozpoznawanym głosem była większa od wartości progu były odrzucane. Wartości progów były optymalizowane w celu osiągnięcia 0 % błędnych klasyfikacji. Gatunek ptaka Próg odległości DTW prawidłowo rozpoznane odrzu-cone błędnie rozpoznane skuteczność rozpozna-wania gołąb 5,7 23 40 36,51% jerzyki (stado) 2,4 7 57 10,94% sikorka bogatka 8,5 14 11 56,00% wróbel 2,2 1 16 5,88% zięba 8,1 48 47 50,53%
16 Wnioski W celu poprawnej analizy głosów ptaków należy stosować częstotliwości próbkowania powyżej 48 kHz, przetworniki A/C typu SAR oraz szerokopasmowe mikrofony kierunkowe. Rozpoznawanie głosów ptaków za pomocą cech HFCC dało lepsze rezultaty w porównaniu ze standardową metodą MFCC. Odpowiednie ograniczenie pasma częstotliwości w modelowaniu sygnału za pomocą cech HFCC może przynieść poprawę skuteczności rozpoznawania. Wyniki otrzymane w doświadczeniach rozpoznawania w zbiorze otwartym są zachęcające, pod kątem zastosowania metody w systemie monitoringu ptaków.
17 Kierunki dalszych pracZwiększenie liczebności zbiorów uczących i testowych oraz liczby rozpoznawanych gatunków ptaków. Dokonanie nagrań za pomocą mikrofonu szerokopasmowego oraz karty z przetwornikiem typu SAR w celu dokonania dobrej jakości nagrań w zakresie ultradźwiękowym. Zastosowanie właściwej filtracji sygnału dźwiękowego w celu poprawy skuteczności rozpoznawania.
18 Dziękuję Państwu za uwagę