Tema 2 Análisis Localizado de Voz 2.1. Introducción La voz es pseudo-estacionarias sólo a corto plazo (decenas de ms.). Para aplicar técnicas de análisis y procesado, debemos limitar el segmento a procesar en este orden de magnitud. Esto da origen al análisis localizado (a corto plazo) de la señal, que obligará al uso de TRAMAS de voz de la duración reseñada. El mecanismo que nos permite, dada una señal de voz, realizar un análisis localizado mediante el uso de tramas consecutivas se denomina ENVENTANADO de la señal. Tema 2: Análisis Localizado de Voz T2.2 2.2. Enventanado de la Señal de Voz Se denomina enventanado a la aplicación (multiplicación) sobre la señal de voz completa de una función limitada en el tiempo (ventana), lo que produce una nueva señal de voz, cuyo valor fuera del intervalo definido por la ventana es nulo. Podemos expresar esto como: x (m ) = s (n ) ⋅ w (m − n ) siendo s (n ) la señal original (de larga duración), w (n ) la ventana temporal aplicada y x (n ) la trama de señal enventanada, que valdrá cero fuera del intervalo n ∈ [m − N + 1, m ] , siendo N la duración en muestras de la ventana aplicada. De esta forma, la necesaria aplicación de técnicas de enventanado, que nos permitirán el análisis de tramos estacionarios, conlleva el efecto multiplicativo (ponderación) en el tiempo de la trama actual por los coeficientes de la ventana; y, de forma, equivalente la convolución del espectro deseado de señal con la transformada de Fourier de la ventana correspondiente. Tema 2: Análisis Localizado de Voz T2.3 2.2. Enventanado de la Señal de Voz A continuación, se muestran algunas de las ventanas temporales más empleadas: Tema 2: Análisis Localizado de Voz T2.4 2.2. Enventanado de la Señal de Voz De entre todas las ventanas posibles, en procesado de voz destacan dos tipos de ventanas: La ventana rectangular, que vale uno dentro y cero fuera: ⎧1, ⎩0, w (n ) = ⎨ 0 ≤ n ≤ N −1 en caso contrario La ventana tipo Hamming, cuya estructura temporal está definida de la siguiente forma (ponderación tipo coseno alzado): ⎧0.54 − 0.46 ⋅ cos⎛⎜ 2πn ⎞⎟, 0 ≤ n ≤ N − 1 ⎪ (N − 1)⎠ ⎝ w (n ) = ⎨ ⎪⎩0, en caso contrario Tema 2: Análisis Localizado de Voz T2.5 2.2. Enventanado de la Señal de Voz De entre todas las ventanas posibles, en procesado de voz destacan dos tipos de ventanas: La ventana rectangular, que vale uno dentro y cero fuera: ⎧1, ⎩0, w (n ) = ⎨ 0 ≤ n ≤ N −1 en caso contrario La ventana tipo Hamming, cuya estructura temporal está definida de la siguiente forma (ponderación tipo coseno alzado): ⎧0.54 − 0.46 ⋅ cos⎛⎜ 2πn ⎞⎟, 0 ≤ n ≤ N − 1 ⎪ (N − 1)⎠ ⎝ w (n ) = ⎨ ⎪⎩0, en caso contrario Tema 2: Análisis Localizado de Voz T2.6 2.2. Enventanado de la Señal de Voz Estructura Espectral de las Ventanas de Análisis Del efecto multiplicativo en el dominio temporal se deduce el efecto convolutivo en el dominio espectral. Con el objeto de minimizar este efecto convolutivo, deberíamos emplear ventanas con lóbulo principal estrecho y lóbulos secundarios pequeños. La señal ideal en el límite será una delta, que no tendría efecto de ventana en el tiempo. Por ello, habrá que buscar soluciones de compromiso. Si el lóbulo principal es ancho, el efecto convolutivo producirá un suavizado espectral. Si los lóbulos secundarios son importantes, inducirán un espectro lobulado. Por otro lado, se debe considerar también el efecto de ponderación temporal, puesto que con las ventanas tipo coseno alzado, las muestras de los extremos de la ventana quedan minimizadas frente a las muestras de la zona central de la ventana. Para compensar este efecto, se suelen tomar ventanas temporales solapadas, en las que las muestras extremas de una ventana sean las centrales en ventanas consecutivas. Tema 2: Análisis Localizado de Voz T2.7 2.2. Enventanado de la Señal de Voz Estructura Espectral de las Ventanas de Análisis El suavizado espectral es un efecto menos determinante que el lobulado espectral, razón por la que predomina la elección de ventanas con lóbulos secundarios bajos, como se observa en el espectro de las ventanas rectangular y Hamming . Tema 2: Análisis Localizado de Voz T2.8 2.3. Análisis Temporal Localizado 2.3.1. Energía Localizada de la Señal La energía localizada de la señal será: E s (m ) = ∞ ∑ [s (n ) ⋅ w (n − m )] 2 n = −∞ = m ∑ s 2 (n ) ⋅ w 2 (n − m ) n =m −N +1 Podemos expresar w 2 (n ) = h (n ) , quedando así: E s (m ) = m 2 s ∑ (n ) ⋅ h (n − m ) n =m −N +1 En el caso de utilizar ventana rectangular, tendremos finalmente que: E s (m ) = m ∑ s 2 (n ) n =m −N +1 Tema 2: Análisis Localizado de Voz T2.9 2.3. Análisis Temporal Localizado 2.3.1. Energía Localizada de la Señal Gráficamente lo podemos ver como: Tema 2: Análisis Localizado de Voz T2.10 2.3. Análisis Temporal Localizado 2.3.2. Tasa de Cruces por Cero Localizada Se denomina “cruce por cero” al hecho de que muestras consecutivas tengan distinto signo algebraico, puesto que en este caso, entre muestra y muestra la señal tendrá que tomar obligatoriamente el valor cero. La tasa de cruces por cero localizada se define matemáticamente como: Z s (m ) = 1 N m ⋅ ∑ sgn{s (n )} − sgn{s (n − 1)} n = m − N +1 2 ⋅ w (n − m ) Donde la función signo (sgn) toma los valores: ⎧+ 1, sgn{s (n )} = ⎨ ⎩− 1, s (n ) ≥ 0 s (n ) < 0 Tema 2: Análisis Localizado de Voz T2.11 2.3. Análisis Temporal Localizado 2.3.2. Tasa de Cruces por Cero Localizada La tasa de cruces por cero nos da una idea del carácter sordo/sonoro de una señal (entendiendo que el carácter sordo va ligado a tramo de alta frecuencia). A continuación se muestra la distribución de cruces por cero para tramos sonoros y sordos, calculada sobre ventanas de 10 ms.: Tema 2: Análisis Localizado de Voz T2.12 2.3. Análisis Temporal Localizado 2.3.3. Función de Autocorrelación Localizada La función de autocorrelación localizada mide el parecido de la señal consigo misma en función de una variable desplazamiento, k. Lo podemos expresar matemáticamente como: R s (k ) = 1 N N −1− m ∑ s (n ) ⋅ s (n + m ), m = 0,1, 2, ..., N − 1 n =0 Asimismo, se puede verificar que: La función de autocorrelación localizada es par: R s (k ) = R s (− k ) . Tiene un máximo absoluto en k = 0, esto es, R s (0 ) ≥ R s (k ), ∀k . R s (0 ) es igual a la energía (en señales determinísticas) o a la potencia media (en señales periódicas o aleatorias). Tema 2: Análisis Localizado de Voz T2.13 2.3. Análisis Temporal Localizado 2.3.3. Función de Autocorrelación Localizada Se verificará que para valores de desplazamiento m iguales al periodo de la señal, la autocorrelación tendrá un máximo local, por lo que la autocorrelación de señales periódicas será también una señal periódica del mismo periodo. La figura muestra la autocorrelación de dos tramos sonoros, (a) y (b), y uno sordo, (c): Tema 2: Análisis Localizado de Voz T2.14 2.3. Análisis Temporal Localizado 2.3.4. Estimación de Pitch mediante Autocorrelación La idea de la funciones de recorte es la de acentuar los máximos temporales de la señal (correspondientes al periodo fundamental), de forma que podamos discriminar con mayor claridad el pitch del tramo analizado. Si aplicamos funciones de recorte central, y de recorte central a tres niveles: Tema 2: Análisis Localizado de Voz T2.15 2.3. Análisis Temporal Localizado 2.3.4. Estimación de Pitch mediante Autocorrelación En la gráfica siguiente, se tienen funciones de autocorrelación localizada en las que se ha aplicado recorte central, con N=401 puntos, con (a) el umbral CL situado al 80% del máximo, (b) al 64% y (c) al 48% : Tema 2: Análisis Localizado de Voz T2.16 2.4. Análisis Localizado en Frecuencia 2.4.1. Resolución en Espectrogramas La representación tiempo (eje x) - frecuencia (eje y) – nivel espectral (escala de grises), conocida como ESPECTROGRAMA, puede presentar aspectos muy diferentes en función de la resolución espectral que se tome. El espectrograma de BANDA ANCHA será aquel que presente poca resolución espectral y, en consecuencia, mucha resolución temporal. Será producto de tomar ventanas temporales de pocos puntos, alcanzando bajas resoluciones espectrales (centenas de Hz.). El espectrograma de BANDA ESTRECHA será, por el contrario, aquel que presente alta resolución espectral, es decir, poca resolución temporal. Para ello, tomaremos ventanas temporales amplias, dando lugar así a resoluciones espectrales de pocas decenas de Hz. : Tema 2: Análisis Localizado de Voz T2.17 2.4. Análisis Localizado en Frecuencia 2.4.1. Resolución en Espectrogramas La gráfica siguiente muestra espectrogramas de banda ancha (izqda.) y de banda estrecha (drcha.) de la misma locución, con resoluciones espectrales respectivas de 300 Hz. y de 45 Hz. (y temporales de 3 y 22 ms., respectivamente). Se puede observar cómo el espectrograma de banda ancha resalta la estructura de envolvente espectral, mientras que el de banda estrecha pone de manifiesto la estructura fina de la señal. Tema 2: Análisis Localizado de Voz T2.18 2.5. Análisis Homomórfico: El Dominio Cepstral El cepstrum (/kepstrum/), o coeficiente cepstral, c (τ), se define como la transformada inversa de Fourier del logaritmo del módulo espectral, X (ω) El término “cepstrum” se deriva de la inversión de la palabra inglesa “spectrum” (espectro), para dar idea del cálculo de la transformada inversa del espectro. La variable independiente en el dominio cepstral se denomina (siguiendo la misma lógica) “quefrency” . Dado que el cesptrum representa la transformada inversa del dominio frecuencial, la “quefrencia” es una variable en un dominio temporal. La característica esencial del cepstrum es que permite separar las dos contribuciones del mecanismo de producción: estructura fina y envolvente espectral. Tema 2: Análisis Localizado de Voz T2.19 2.5. Análisis Homomórfico: El Dominio Cepstral Si denominamos x[n] a la señal de voz, derivada de la convolución de la señal de excitación, g[n], con la respuesta impulsiva del tracto vocal, h[n], y siendo X (ω),G (ω), y H (ω) sus DFTs respectivas, tendremos que: X (ω) = G (ω) ⋅ H (ω) Si ahora tomamos logaritmos sobre el módulo de esta expresión, tendremos: log X (ω) = logG (ω) + log H (ω) Calculando ahora la transformada inversa, IDFT, resultará: c (τ ) = IDFT log X (ω) = IDFT logG (ω) + IDFT log H (ω) Tema 2: Análisis Localizado de Voz T2.20 2.5. Análisis Homomórfico: El Dominio Cepstral Como se observa de la expresión anterior, en el dominio cepstral, las componentes de estructura fina y de envolvente espectral aparecen ahora como sumandos, en lugar de convolucionarse en el dominio temporal original: se produce la DECONVOLUCIÓN de las componentes fundamentales de la señal vocal. Además, en el dominio cepstral se verifica que las componentes debida a la estructura armónica aparecen como picos equiespaciados a altas quefrencias, justamente separados por el valor de que se corresponde con el periodo fundamental del tramo analizado. La respuesta del tracto vocal aparece en bajas quefrencias, como señal impulsiva que abarca los primeros coeficientes cepstrales. Tema 2: Análisis Localizado de Voz T2.21 2.5. Análisis Homomórfico: El Dominio Cepstral La figura muestra una trama sonora y su correspondiente cepstrum: Tema 2: Análisis Localizado de Voz T2.22 2.5. Análisis Homomórfico: El Dominio Cepstral Mediante un proceso de “liftering”, o de filtrado en el dominio cepstral, podremos seleccionar y separar la componente que se desee. Con un filtrado paso bajo (selección de los primeros coeficientes cepstrales), tendremos la estructura de envolvente espectral. Si nos quedamos, por el contrario, con los coeficientes altos, tendremos una estimación precisa del pitch de la trama de la señal bajo estudio. Reseñar que si seleccionamos los primeros coeficientes cepstrales, que representan la estructura de formantes, y calculamos nuevamente la transformada de Fourier sobre ellos, obtenemos ahora una buena estimación de la envolvente espectral. De esta forma, este procedimiento nos permitiría el cálculo de los formantes de la trama bajo análisis. Tema 2: Análisis Localizado de Voz T2.23 2.5. Análisis Homomórfico: El Dominio Cepstral La figura siguiente muestra la evolución de tramas temporales y los correspondientes vectores cepstrales, para hombre (izqda.) y mujer (drcha.): Tema 2: Análisis Localizado de Voz T2.24