1 MEJORA de la CALIDAD y la PARAMETRIZACIÓN de la VOZ ESOFÁGICA Doctorando: Ibon Oleagordia Ruiz Directora: Mª Begoña García-Zapirain Abril de 2015
2 Índice Introducción Estado del Arte DiseñoResultadosConclusiones 2
3 Introducción Las personas que se les ha extirpado totalmente la laringe debido a un cáncer se les llama laringectomizados En un año se diagnostican aproximadamente 136.000 nuevos casos de cáncer de laringe en el mundo, con una supervivencia global de 5 años, un 68% Una de las consecuencias de la laringectomía es la pérdida del habla del paciente (o voz laringada) Cuando la recuperación de la voz es posible, a la voz emitida por los larigectomizados se le llama voz esofágica Durante la rehabilitación, el paciente comienza el proceso de aprendizaje para emitir voz esofágica La calidad de la voz esofágica es muy baja 3
4 Introducción Evaluación de la voz: objetiva y subjetiva Objetiva: se puede realizar mediante el estudio morfo- funcional (exploración física del órgano fonatorio con la laringoestroboscopia) y el análisis acústico vocal (estudio de los principales parámetros acústicos que componen la voz humana) Análisis acústico: entre todos los parámetros de la voz, se han seleccionado estos: Pitch, Jitter, Shimmer y Harmonic to Noise Ratio (HNR) Subjetiva: se realiza mediante resultados encontrados por los observadores: MOS (Mean Opinion Scale) 4
5 Introducción Paquetes de software para la evaluación objetiva de la voz Multi Dimensional Voice Program (MDVP) → Gold Standard Multi-Speech, VoiceSauce Praat, Dr. Speech, Cool Edit FonoView, VoxMetria Problema: no existe en el mercado ninguna aplicación que pueda obtener los parámetros acústicos automáticamente para la voz esofágica La calidad de la voz esofágica es tan baja que los paquetes de software comerciales no funcionan adecuadamente Medidas reales: ha sido necesario realizar estas mediciones a mano con el MDVP, indicando en la aplicación dónde se encuentran los instantes de Pitch o los ciclos o épocas de la voz 5
6 Introducción: Señales de Voz Ejemplos de señales de voz 6 Variabilidad en la amplitud de las marcas Marcas más estables Mucho ruido
7 Introducción: Objetivos El objetivo principal es mejorar la calidad de la voz de los laringectomizados y realizar la caracterización de dicha voz para que puedan monitorizar su evolución en el proceso de aprendizaje. Objetivos técnicos Diseñar un algoritmo que modifique el espectro-temporal de la señal de voz mediante técnicas de la Transformada Wavelet Diseñar un nuevo algoritmo que disminuya el ruido de la señal de voz mediante técnicas de Filtrado de Kalman Concatenar estos dos algoritmos con el ya existente de estabilización de polos [García03] 7
8 Estado del arte Técnicas de procesado de la voz Modelo del tracto vocal Transformada Wavelet Discreta (DWT) Filtro del Kalman Evaluación de Voz Base de datos 8 “For myself, for a long time... maybe I felt inauthentic or something, I felt like my voice wasn't worth hearing, and I think everyone's voice is worth hearing. So if you've got something to say, say it from the rooftops”
9 Estado del arte 9 70s Fuente-Filtro, LPC, síntesis de formantes [M.R. Sambur,76] Substracción espectral [S.F. Boll, 79] 80s Filtro de Kalman [Paliwal, 87] Transformada Wavelet [Daubechies, 89] [Mallat, 89] 90s Reconocimiento de voz [B.H. Juang, 90] Métodos estadísticos [S. Oberle, 92] Redes Neuronales [I. Potamitis, 96] Alaryngeal speech Enhancement [Ning Qi, 97] Substracción espectral y Cepstrum [D. Cole, 97] 2000 Filtro-excitación de la voz esofágica [S. Ben Jebara, 06] Comb Filter [A. Hisada, 05] Métodos estadísticos [Hironori, 10]
10 Estado del arte Modelo de tracto vocal 10
11 Estado del arte: Filtro Modelo matemático del tracto vocal La función de transferencia resultante del tracto vocal es un filtro todo-polos 11
12 Estado del arte: Transformada Wavelet (DWT) 12
13 Estado del arte: Transformada Wavelet Familias wavelet 13
14 Estado del arte: Filtro de Kalman Autoregressive (AR) Model of Speech Los coeficientes a k son los LPCs de la señal La variable ω es la error de la excitación, una variable aleatoria de media cero y no correlacionado, ruido blanco. De aquí se obtiene la covarianza del ruido del sistema (Q) La salida del filtro viene dada por la señal de voz y por el ruido de medida. De aquí se obtiene la covarianza del ruido de medida (R) 14
15 Estado del arte: Filtro de Kalman 15 LPC Ruido del sistema Ruido de medida
16 Estado del arte: Filtro de Kalman Etapa de predicción Predicción del estado k Predicción de la matriz de covarianza Etapa de corrección Cómputo de la ganancia Actualización del estado con la medida Actualización de la matriz de covarianza 16 La clave es la obtención de las matrices de covarianza del ruido de sistema (Q) y ruido de medida (R) para aplicar el filtro de Kalman
17 Estado del arte: Evaluación (I) Pitch (Mean F 0 ) Jitter (%) (Jitt) 17 Descripción RangoMediaRangoMedia VaronesMujeres Media del pitch ( Mean F 0 ) (Hz) 111 - 153120158 - 274200 Descripción RangoMediaRangoMedia VaronesMujeres Jitter (%) (Jitt)0,25 - 2,140,680,15 – 3,830,94
18 Estado del arte: Evaluación (II) Shimmer HNR 18 Descripción RangoMediaRangoMedia VaronesMujeres Shimmer en decibelios (ShdB) 0,11 - 0,540,330,11 -0,910,34 Descripción RangoMediaRangoMedia VaronesMujeres HNR(dB)4,34 – 107,144,16 -16,677,69
19 Estado del arte: Base de Datos Base de datos voces esofágicas Asociación Vizcaína de Laringectomizados Fonema “a” Número de voces utilizadas Algoritmo de Mejora de la Calidad de la Voz 30 voces esofágicas Frecuencia de muestreo: 44,1 kHz 19
20 Diseño Parametrización de la Voz Esofágica Mejora de la Calidad de la Voz Esofágica 1) Algoritmo de Transformada Wavelet 2) Algoritmo de Filtrado de Kalman 3) Algoritmo de Estabilización de Polos 20 “Un científico debe tomarse la libertad de plantear cualquier cuestión, de dudar de cualquier afirmación, de corregir errores”
21 Diseño: Parametrización de la Voz El objetivo de este algoritmo es medir la periodicidad de la voz de forma automática Para medir la voz se suele recurrir a software como Multidimensional Voice Program (MDVP) [Deliyeski93] 21
22 Diseño: Parametrización de la Voz El algoritmo se basa en una función que extrae los instantes de pitch de la señal de voz El algoritmo es iterativo: con la primera pasada se clasifica la voz, y con la segunda, se obtiene mayor precisión Finalmente, se aplican acciones correctoras 22
23 Diseño: Mejora de la Voz 23 1º ETAPA 2º ETAPA 3º ETAPA
24 Diseño: Transformada Wavelet Objetivo del algoritmo: mejorar el parámetro Shimmer y HNR de la voz esofágica, que se parezca más a la laringada. Se elimina el ruido de baja frecuencia o tremor. Consecuencia: mejora el Shimmer y el HNR Una vez realizado el algoritmo, se retorna a la frecuencia de muestreo inicial 24
25 Diseño: Transformada Wavelet 25 Aproximación nivel 7 0 Hz – 50 Hz Aproximación nivel 7 0 Hz – 50 Hz Detalle nivel 7 50 Hz – 100 Hz Detalle nivel 7 50 Hz – 100 Hz
26 Diseño: Transformada Wavelet 26 Original Aproximación 7 Detalle 7
27 Diseño: Transformada Wavelet 27
28 Diseño: Transformada Wavelet 28 Cuanto menor sea el Shimmer, la calidad de la voz es mejor Bior 6.8
29 Diseño: Transformada Wavelet La media del Shimmer con Bior 6.8: -0,51 dB Análisis estadístico No existe normalidad en los datos: Wilcoxon Hipótesis nula: “La mediana entre los datos originales y los datos obtenidos tras la etapa wavelet son iguales” Significancia de la prueba debe ser (p
30 Diseño: Filtro de Kalman Objetivo del algoritmo: mejorar HNR 30
31 Diseño: Filtro de Kalman ¿Cómo obtener la covarianza del ruido de medida (R)? Se han utilizado diferentes ruidos para la obtención de esta covarianza: Blanco Ruido de la voz esofágica en los instantes de silencio Marrón Rosa Violeta 31
32 Diseño: Filtro de Kalman 32 Cuanto mayor sea el HNR, la calidad de la voz es mejor Ruido de la voz esofágica en los instantes de silencio
33 Diseño: Filtro de Kalman El incremento medio del HNR utilizando ruido en instantes de silencio : 1,449 dB Análisis estadístico Existe normalidad en los datos : T-Student Hipótesis nula: “La media de los datos después del procesado es igual a la de los datos original” Significancia de la prueba: debe ser (p
34 Estabilización de polos 34
35 Resultados Parametrización de la Voz Esofágica Medidas de Shimmer y HNR Voces sanas Voces esofágicas Mejora de la Calidad de la Voz Esofágica Transformada Wavelet Filtrado Kalman Estabilización de Polos Valoración de todas la etapas Valoración subjetiva de la voz “Insanity: doing the same thing over and over again and expecting different results” 35
36 Resultados: Parametrización 36
37 Resultados: Parametrización (HNR) 37 Cuanto más cerca del eje horizontal, mejor es la medida
38 Resultados: Parametrización (HNR) 38 Cuanto más cerca del eje horizontal, mejor es la medida
39 Resultados: Parametrización (HNR) Sanas La media de (Algoritmo - Real) es de 0,422 dB La media de (MDVP - Real) es de 0,535 dB Esofágicas La media de (Algoritmo - Real) es de 0,136 dB La media de (MDVP - Real) es de 3,468 dB Análisis estadístico: T-Student/Wilcoxon HNR en las voces sanas ( p=0,005 )→ Se pueden distinguir HNR en las voces esofágicas ( p=0,008 ) → Se pueden distinguir El algoritmo propuesto es mejor medidor para ambos casos 39
40 Resultados: Parametrización (Shimmer) 40 Cuanto más cerca del eje horizontal, mejor es la medida
41 41 Resultados: Parametrización (Shimmer) Cuanto más cerca del eje horizontal, mejor es la medida
42 Resultados: Parametrización (Shimmer) Sanas La media de (Algoritmo - Real) es de 0,1713 dB La media de (MDVP - Real) es de 0,1777 dB Esofágicas La media de (Algoritmo - Real) es de 0,0838 dB La media de (MDVP - Real) es de 0,6322 dB Análisis estadístico: T-Student/Wilcoxon Shimmer en las voces sanas ( p=0,507 )→ No se pueden distinguir Shimmer en las voces esofágicas ( p=0,011 ) → Se pueden distinguir El algoritmo propuesto es mejor medidor para voces esofágicas Es tan buen medidor como el Gold Standard para voces sanas 42
43 Resultados: T. Wavelet (HNR) 43 Cuanto mayor sea el HNR, la calidad de la voz es mejor
44 Resultados: T. Wavelet (HNR) El parámetro HNR ha experimentado una mejora de 1,157 dB debido a la eliminación del ruido de baja frecuencia Análisis estadístico Existe normalidad de los datos : T-Student Hipótesis nula: “ Las medias de los datos, originales y procesadas, son iguales ” Significancia de la prueba: debe ser (p
45 Resultados: T. Wavelet (Shimmer) 45 Cuanto menor sea el Shimmer, la calidad de la voz es mejor
46 Resultados: T. Wavelet (Shimmer) La media del Shimmer: -0,513 dB Análisis estadístico No existe la normalidad en los datos : Wilcoxon Hipótesis nula: “La mediana entre los datos originales y los datos obtenidos tras la etapa wavelet son iguales” Significancia de la prueba: debe ser (p
47 Resultados: Filtro de Kalman (HNR) 47 Cuanto mayor sea el HNR, la calidad de la voz es mejor
48 Resultados: Filtro de Kalman (HNR) El parámetro HNR ha experimentado una mejora de 1,449 dB en la 2º etapa Análisis estadístico Existe normalidad en los datos : T-Student Hipótesis nula: “ La que se dice que las medias de los datos anterior y posterior a la segunda etapa son iguales ” Significancia de la prueba: debe ser (p
49 Resultados: Filtro de Kalman (Shimmer) 49 Cuanto menor sea el Shimmer, la calidad de la voz es mejor
50 Resultados: Filtro de Kalman (Shimmer) El parámetro Shimmer se mantiene con los niveles de calidad de la etapa anterior. De hecho, aumenta 0,014 dB. Análisis estadístico No normalidad en los datos: Wilcoxon Hipótesis nula: “La mediana entre los datos anteriores y posteriores a la etapa filtrado de Kalman son iguales ” Significancia de la prueba: debe ser (p
51 Resultados: Estabilización de polos (HNR) 51 Cuanto mayor sea el HNR, la calidad de la voz es mejor
52 Resultados: Estabilización de polos (HNR) El parámetro HNR ha experimentado una mejora de 0,853 dB en la 3º etapa Análisis estadístico No existe normalidad en los datos: Wilcoxon Hipótesis nula: “ Las medias de los datos anterior y posterior a la tercera etapa son iguales ” Significancia de la prueba: debe ser (p
53 Resultados: Estabilización de polos (Shimmer) 53 Cuanto menor sea el Shimmer, la calidad de la voz es mejor
54 Resultados: Estabilización de polos (Shimmer) El parámetro Shimmer no ha experimentado una pequeña mejora, de hecho, disminuye 0,077 dB. Análisis estadístico No existe normalidad en los datos: Wilcoxon Hipótesis nula: “ La mediana entre los datos anteriores y posteriores a la etapa de estabilización de polos son iguales” Significancia de la prueba: debe ser (p
55 Resultados: Las 3 etapas (HNR) 55 Cuanto mayor sea el HNR, la calidad de la voz es mejor 3 Etapas Original
56 Resultados: Las 3 etapas (HNR) 56
57 Resultados: Las 3 etapas (HNR) Se produce un aumento medio global de 3,459 dB lo cual supone una mejora significativa con respecto a la original Análisis estadístico Para comparar todos los datos al mismo tiempo : Friedman. Efectúa el análisis por parejas por rangos de muestras relacionadas Hipótesis nula: “ La distribuciones de las varianzas de las distintas muestras son las mismas” Significancia de la prueba: debe ser (p
58 Resultados: Las 3 etapas (Shimmer) 58 Cuanto menor sea el Shimmer, la calidad de la voz es mejor Original 3 Etapas
59 Resultados: Las 3 etapas (Shimmer) 59
60 Resultados: Las 3 etapas (Shimmer) Se produce una disminución media global de 0,576 dB lo cual supone una mejora significativa con respecto a la original Queda dentro de los rangos de normalidad Análisis estadístico Para comparar todos los datos al mismo tiempo : Friedman. Efectúa el análisis por parejas por rangos de muestras relacionadas Hipótesis nula: “ La distribuciones de las varianzas de las distintas muestras son las mismas” Significancia de la prueba: debe ser (p
61 Resultados: Valoración subjetiva (MOS) 61 Evaluación de la voz de forma subjetivaMOS Voz esofágica original1,74 Voz procesada con la etapa Wavelet (Bior 6.8)2,03 Wavelet + Kalman con ruido blanco2,11 Wavelet+ Kalman con ruido marrón2,39 Wavelet+ Kalman con ruido esofágico en los momentos de silencio 2,47 Wavelet + Kalman con ruido rosa1,99 Wavelet +Kalman con ruido violeta2,45 Wavelet +Kalman (esofágico) + Estabilización de polos3,05
62 Conclusions It is possible to improve the quality of the oesophageal voice, and to characterise such a voice automatically, using signal processing algorithms. Parameterization The proposed algorithm is better than the MDVP for oesophageal voices, with a significance greater than 99% For healthy voices, it can be concluded that the proposed algorithm is as efficient as the Gold Standard for shimmer and it is better for HNR Improvement HNR :Average improvement →3.459 dB Shimmer: Average improvement →0.576 dB The shimmer reached normal ranges for healthy people’s voices MOS: it has been obtained 3.05 in speech quality, 1.31 of improvement 62
63 Conclusions: Scientific impact Journals 5 (3 ISI indexed) Books and book chapters 5 International conferences 18 Intellectual property 3 Research projects 11 International 4 National 2 Regional 5 63
64 Conclusions: Scientific impact 64 JournalDetail Technology and Health Care Title: “Harmonic to Noise Ratio Improcement in Oesophageal Speech”. (Accepted) Impact factor: 0.636 (Q4); DOI 10.3233/THC-150906 Computers in Biology and Medicine (CBM) Title: “Objective Characterization of Oesophageal Voice Supporting Medical Diagnosis, Rehabilitation and Monitoring”. Impact factor: 1.272 (Q3). DOI 10.1016/j.compbiomed.2008.11.009. Epub 2009 Jan 20. International Journal of Science and Advanced Technology (IJSAT) Title “Using Games to Assess Oesophageal Voice” WSEAS Transactions on Systems Title: “Oesophageal Voice Acoustic Parameterization by means of Optimum Shimmer Calculation”.
65 Conclusions: Future research Develop new algorithms using other techniques, such as: subband coding, statistical methods, neural-networks algorithms etc. To design a new LPC and glottal excitation model, source- filter model To extend the research to vowels (e,i,o,u) and to words including voiced and unvoiced phonemes 65
66 MEJORA de la CALIDAD y la PARAMETRIZACIÓN de la VOZ ESOFÁGICA Ibon Oleagordia Ruiz Directora: Mª Begoña García Zapirain Abril de 2015