1 Ryszard Gubrynowicz [email protected]Dwięk w multimediach Ryszard Gubrynowicz
2 Zaliczenie przedmiotuEgzamin testowy na zakończenie. Obecność na wykładach będzie miała wpływ na końcową ocenę Konsultacje Środa – godz – (po uprzednim umówieniu się) Pokój 302
3 Literatura W języku polskim b. uboga Podstawy akustyki:Rosch W. L. (1997) Biblia o multimediach: multimedia od A do Z, Intersoftland, Warszawa 1997 Podstawy akustyki: Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5 Russel D. Acoustics and animation,
4 Literatura c.d. Analiza sygnału mowy:Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5) Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988 Borden G.J., Harris K.S., Speech Science Primer, 5th ed., Williams&Wilkins, Baltimore, 2007
5 Literatura c.d. Cechy fonetyczno-akustyczne dźwięków mowyDukiewicz L., Fonetyka.... Wierzchowska B., Fonetyka i fonologia języka polskiego, Ossolineum, Warszawa,1980 Huckvale M., Acoustics of Speech&Hearing,
6 Kolejne wykłady będzie można pobierać z sieci pod adresem: /PJWSTK2.zip …….. Uwaga na duże litery !
7 Znaczenie terminu multimediaMultimedia jest pojęciem bardzo szerokim Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia. Multi = wiele Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu) Wiele środków równoczesnego przekazu
8 Elementy przekazu multimedialnegoTermin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu. Środki wyrazu (proste): wideo (obraz ruchomy), dźwięk, animacja, grafika, tekst.
9 Cyfrowe Multimedia Czym jest technologia cyfrowych multimediów?”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być prezentowany, zapamiętywany i cyfrowo przetwarzany.” F. Fluckiger Komputer jest jedynym urządzeniem umożliwiającym tzw. przekaz multimedialny.
10 Podstawowe cechy systemów multimedialnychkomputerowo sterowane (przez jeden lub wiele komputerów) zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) informacja w postaci cyfrowej zapewniona jest interaktywność Nb. odtwarzacz CD nie jest urządzeniem multimedialnym
11 Równoległość przekazu w systemach multimedialnychCecha ta występuje w dwóch formach: kilka mediów równolegle oddziałuje na odbiorcę na odbiorcę oddziałują dwa (lub więcej) środki wyrazu tego samego typu, np. dwie sekwencje filmowe, dwa teksty itp. w jednej scenie.
12 Interaktywność w systemach multimedialnychTa cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo). Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać prezentowanej mu informacji.
13 Formy interaktywnościOdbiorca przekazu multimedialnego może: określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji określić własną drogę przeglądania prezentacji (nawigacja otwarta) wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe) grupować wedle swego uznania różne elementy prezentacji (drag and drop) zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.) wykonywać operacje na obiektach (obracać, przesuwać) poruszać się po wirtualnych pomieszczeniach Na podstawie akcji odbiorcy system określa dalszy przebieg prezentacji
14 Pragmatyczna definicja multimediówPrzekaz jest multimedialny, gdy spełnia następujące warunki: jednocześnie wykorzystane są różne środki wyrazu wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie wszystkie środki wyrazu są połączone w jedną prezentację kilka różnych mediów równocześnie oddziałuje na odbiorcę użytkownik może aktywnie wpływać na przebieg oraz treść prezentacji (interaktywność)
15 Integracja Multimedialny system winien dawać możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji. Na poziomie komputera (integracja komputerowa) Na poziomie sieci (integracja sieciowa)
16 Integracja Integracja prezentacji Integracja gromadzenia CD-ROMOkno video Pamięć dyskowa text Okno tekstowe Integracja rejestracji Integracja sieciowa Kamera video Pojedyncza sieć Wbudowany mikrofon
17 Przykłady integracji sieciowejVideo telekonferencje. Zdalne nauczanie, e-gospodarka (e-learning, e-commerce). Telemedycyna. Środowiska współpracy, zespoły robocze. Zarządzanie wiedzą, Przeszukiwanie (b.dużych) baz danych video i grafiki pod kątem wybranych obiektów wizualnych Rozszerzona rzeczywistość (augmented reality): na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z uzupełniającą informacją o danej scenie Czym jest Rzeczywistość Rozszerzona (Augmented Reality) Wyraźne rozdzielanie tego, co prawdziwe, od tego, co wygenerowane przez komputer, niekoniecznie jest strategią oczywistą i optymalną. Po co mamy zerkać raz na mapę, raz na otaczający nas krajobraz, by ustalić, gdzie jesteśmy? Czy rzeczywiście czytanie w muzeum przewodnika jest najwygodniejszą metodą sprawdzenia, co przedstawia dziwaczna rzeźba? A to irytujące uczucie, gdy usiłujemy sobie przypomnieć, skąd znamy mijaną właśnie na ulic osobę? Cóż byśmy wtedy dali za szybkie zerknięcie do jakiejś obrazkowej bazy danych na temat wszystkich poznanych kiedykolwiek osób! Rozwiązaniem tych niedogodności jest dodanie do tego, co widzimy własnymi oczami, informacji płynących z noszonego stale przy sobie komputera osobistego. Nie trzeba przy tym wcale posuwać się do skrajności jak i całkowicie rezygnować z korzystania z naturalnych zmysłów. Wystarczy je jedynie wzbogacić, dodając np. niewielki projektor, który będzie wyświetlał na zwykłych okularach opisy mijanych budynków czy ludzi w postaci np. komiksowych dymków. Ba, można nawet dodać kilka postaci, których zwykle nie mijamy na ulicy. I to właśnie robi Rzeczywistość Rozszerzona. W systemach rozszerzonej rzeczywistości (AR) informacje generowane przez komputer są dodawane do "zwykłych" bodźców odbieranych przez zmysły obserwatora. Podczas gdy wirtualna rzeczywistość zmierza do zastąpienia realnego Świata, rzeczywistość rozszerzona go uzupełnia. Obecne osiągnięcia techniczne mogą już wkrótce doprowadzić do stworzenia systemów rozszerzonej rzeczywistości przeznaczonych dla chirurgów, serwisantów urządzeń, żołnierzy, turystów i graczy komputerowych. Kiedyś takie systemy prawdopodobnie staną się powszechne. Augmented Reality (AR) w przeciwieństwie do Virtual Reality (VR) nie polega na tym, że komputer tworzy rzeczywistość od podstaw, lecz jedynie dodaje do niej pewne elementy, widoczne wyłącznie dla użytkownika. Najlepszą metaforą byłyby tu filmy DVD czy DivX, na które nakłada się warstwę napisów. Technologia podobna do AR stosowana jest od lat w hełmach pilotów wojskowych (tzw. HUD - Head Up Display), lecz tam dane wyświetlane przed oczami żołnierza powtarzają jedynie wskazania urządzeń pokładowych samolotu. Tymczasem w rzeczywistości rozszerzonej chodzi o realizowane przez komputer ubraniowy rozpoznanie obiektów, ich identyfikację oraz wzbogacenie o opisy, zaczerpnięte z wewnętrznej bazy danych
18 Ośrodek - percepcja
19 Człowiek jako odbiorca informacji multisensorycznejCo najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji interaktywnej np. przez dźwięki, tekst, hypertekst, animacja, video, gesty, obrazy, dotyk
20 Narządy zmysłów w codziennym oddziaływaniu otoczenia na człowiekaWzrok Słuch Dotyk Smak Powonienie Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem. Komputery nie umożliwiają tak wszechstronnej interaktywności, ograniczając się do oddziaływania na pierwsze z 3 wyżej wymienionych narządów zmysłów.
21 Cechy bodźców rozróżniane przez wzrok(w zakresie widzialnym) intensywność, kolor, obrazy 2D i 3D kształty (znaki) zmiany w czasie (szybkość rejestracji do ok na sek) czułość wzroku – w bezksiężycową, bezchmurną noc podobno można spostrzec światło zapałki z odległości 1,6 km?.
22 Czułość oka
23 Cechy bodźców rozróżniane przez słuchZakres częstotliwości – 20 Hz kHz (l =17,2 m- 2,15 cm) Rozróżnianie jednocześnie występujących składowych częstotliwościowych Reaguje na zmianę częstotliwości Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.) Barwa (rozróżnianie instrumentów muzycznych) Dźwięki, mowa, muzyka, hałas
24 Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp.Nacisk Ruchy skóry Różnice temperatury Drgania Ból Szok elektryczny
25 Smak (język) i powonienieSłodki Kwaśny Gorzki Słony Nieokreślony Człowiek jest w stanie rozróżnić ok różnych zapachów
26 Media w transmisji sygnałówZadaniem technologii mediów jest próba zastąpienia rzeczywistych bodźców sygnałami medialnymi wywołującymi podobne wrażenia u odbiorcy, jak zarejestrowane wcześniej bodźce.
27 Klasyfikacja mediów ciągłe (w czasie) Dźwięk Ruchome obrazy MowaCzas/przestrzeń ciągłe (w czasie) Dźwięk Ruchome obrazy Mowa Muzyka Animacje Dyskretne (w przestrzeni) Pojedyncze obrazy Tekst Grafika Źródło Zarejestrowane z otoczenia Zsyntezowane przez komputery
28 Sprzęt i oprogramowanie w multimediachSprzęt komputerowy i odpowiednie oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym narzędziem do emisji przekazu multimedialnego. Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł przekazu w jednym miejscu i wzajemnego ich przenikania oraz uzupełniania (więcej na ten temat: np. Biblia o multimediach, Rosh 1997)
29 Multimodalny – multimedialnySystemy multimodalne (na ogół dialogowe) • wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem • np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową Systemy multimedialne • wykorzystują różne media do przekazywania informacji • np. komputerowy system wspomagający uczenie: może stosować video, animacje, tekst i nieruchome obrazy: różne media, oddziaływujące wszystkie na jeden receptor wzrokowy. może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media oddziaływujące receptor słuchowy na dwa różne sposoby. Multimedialny – wykorzystuje różne media oddziaływujące na jeden zmysł, multimodalny – różne media (może być też i jedno) oddziaływujące na wiele zmysłów jednocześnie. W praktyce bardziej rozwinięte systemy są multimodalne/multimedialne. Przykład systemu dialogowego: na wejściu – mowa, gesty, ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji i mowy syntetycznej
30 Dźwięk w multimediach Muzyka Dźwięki natury i otoczeniaParadźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.) Mowa i komputery: Kodowanie sygnału mowy W komunikacji komputerów z użytkownikami Rozpoznawanie i rozumienie mowy przez komputer Synteza mowy
31 Interaktywne edytory sygnałów dźwiękowychJest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki. Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów. Audacity (Open Source) adobeRAudition™ WaveSurfer (Open Source) – Waves+ (Entropic) Praat (Open Source)
32 Audacity
33 Audition
34 WaveSurfer
35 Praat
36 Adaptacyjne odszumianieOdszumianie – usuwanie z nagrań niepożądanych dźwięków Zależnie od rodzaju i przeznaczenia nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia typu elektrycznego (np. „przydźwięk”), Adaptacyjne odszumianie
37 Dlaczego mowa w systemach multimedialnych ?Naturalność komunikacji: Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się Skuteczność: W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się Ekspresja: Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego) Niekiedy jedyny środek komunikacji bezpośredniej: Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy, maszyny itp.
38 Układ akustyczny odbiornik - ośrodek - źródłoTrzy zasadnicze działy tematyczne będące przedmiotem wykładów DSM: akustyka mowy (z podstawami akustyki), propagacja dźwięku w otoczeniu (ośrodku), budowa narządu słuchu i percepcja dźwięku.
39 Podstawą wszelkiej komunikacji człowiek-człowiek jest językJęzyk – system znaków i określonych reguł fonologicznych, syntaktycznych i semantycznych rządzących kombinacją tych znaków Mowa – język mówiony Pismo – język pisany, obrazki Miganie – język migowy (polski, norweski, niemiecki itp.)
40 Formalna definicja mowyMowa jest jednym z wielu sposobów przekazywania informacji. Specyfiką mowy jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu dźwięków o określonych charakterystykach. Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla siebie zbiór dźwięków mowy.
41 W komunikacji człowiek - otoczenieMówienie jest szybsze, niż pisanie (wprawna osoba ok. 100 zn/s, słaba - 30 zn/s) Słuchanie jest łatwiejsze, niż czytanie Pokazanie jest efektywniejsze, niż opisanie
42 Schemat komunikacji werbalnej
43 Tor audio-wizualny mowy
44 Informacje niesione przez sygnał mowyInformacje lingwistyczne Informacje artykulacyjne (fonetyczne) Informacje emocjonalne Informacje osobnicze Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp. ♠ Informacje o otoczeniu – hałasy, pogłos itp
45 Wszystko jest jasne (znaczenie informacji lingwistycznych)Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu. Diezje się tak dlteago, że nie cztaymy kżdeaj z lteir odelndziie, ale wrayz jkao cłoaść. Eric Campbell
46 Mowa w systemie dialogowymUżytkownicy Rozpoznawanie Interpretacja Interpretacja mowy semantyczna wypowiedzi Synteza Generacja Organizacja mowy odpowiedzi dialogu
47 Architektura systemu dialogowegoRozpoznawanie mowy Interpretacja mowy Organizator dialogu Generacja tekstu Synteza mowy
48 Parametry sygnału mowyoscylogram widmo + formanty poziom wysokość głosu iloczas
49 Wielowarstwowy opis sygnału mowy
50 Potencjalne zastosowania mowyUrządzenia audio/video Komórki Palmtopy Zastosowania w środkach lokomocji Kioski informacyjne zabawki
51 Pierwsze handlowe urządzenie czytające dla niewidomych (1976) – okPrint-to-speech machine
52 Synteza mowy
53 Podstawowe elementy systemu TTS
54 Moduł analizy tekstu Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb. Bardziej rozwinięte systemy dokonują analizy znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej analizy syntaktycznej i semantycznej tekstu podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech prozodycznych
55 Analiza tekstu Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp. Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi opisami, np. przesyłanymi via Internet. Moduł analizy tekstu określa typ i strukturę przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru gramatycznego, analizy syntaktycznej, leksykalnej.
56 Przykład normalizacji tekstu„W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl.” W doświadczeniach finansowanych przez Ministerstwo Edukacji i Nauki zastosowano siedmioprocentowy roztwór kwasu solnego Np. moduł analizy lingwistycznej musi dokonać interpretacji znaku przestankowego „kropki”, czy jest końcem zdania, czy elementem skrótu.
57 Normalizacja tekstu i analiza lingwistycznaNormalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne
58 Moduł analizy tekstu i analizy fonetycznejMorfologia – budowa i odmiana wyrazów
59 Analiza fonetyczna Działanie modułu fonetycznego ma na celu dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi akcentu), określającymi ich wymowę. Analiza morfologiczna umożliwia określenie wymowy deklinacyjnych i koniugacyjnych form wyrazów znajdujących się w słowniku, a przede wszystkim zmianę znaczenia spowodowaną zmianą dźwięku mowy lub intonacją.
60 Moduł syntezy mowy Moduł ten generuje akustyczny sygnał mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie przetwarzania tekstu, wzorców iloczasowych, konturu melodycznego i obwiedni amplitudy Synteza konkatenacyjna
61 Schemat systemu syntezy konkatenacyjnej
62 Problemy w syntezie konkatenacyjnejWybór jednostek – głoski, difony(diady), sylaby, wyrazy? Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary? Jak określić optymalny system wyboru i łączenia ze sobą segmentów? Jak modyfikować cechy prozodyczne stworzonego łańcucha segmentów?
63 Difony – wady i zalety Difon – element zawierający w całości przejście między głoskami, poprzedzone częścią głoski poprzedzającej i zakończone częścią głoski następującej
64 Montowanie wypowiedzi z difonówDifon –eS- Zamiana kodu ortograficznego na kod fonematyczny: Szczebrzeszyn _S StS tSe eb bZ ZI In n_
65 Przykłady syntezy konkatenacyjnejMBROLA-PL MBROLA-D
66 System optymalnej selekcji segmentów„Konwersja tekstu na mowę ”” „KONWÓJ” KONW „WERSJA” WERSJA „ATEST” ATE „TEKST” EKST „TUNEL” TUN „NAMOWA” NAMOW „TRAWĘ” WĘ
67 Czy może syntezator coś zaśpiewać ?
68 BALDI