Tema 2

Anuncio
Tema 2
Análisis Localizado de Voz
2.1. Introducción
„
„
„
La voz es pseudo-estacionarias sólo a corto plazo (decenas
de ms.). Para aplicar técnicas de análisis y procesado,
debemos limitar el segmento a procesar en este orden de
magnitud.
Esto da origen al análisis localizado (a corto plazo) de la
señal, que obligará al uso de TRAMAS de voz de la duración
reseñada.
El mecanismo que nos permite, dada una señal de voz,
realizar un análisis localizado mediante el uso de tramas
consecutivas se denomina ENVENTANADO de la señal.
Tema 2: Análisis Localizado de Voz
T2.2
2.2. Enventanado de la Señal de Voz
Se denomina enventanado a la aplicación (multiplicación) sobre la señal
de voz completa de una función limitada en el tiempo (ventana), lo que
produce una nueva señal de voz, cuyo valor fuera del intervalo definido
por la ventana es nulo.
„
Podemos expresar esto como:
„
‰
„
x (m ) = s (n ) ⋅ w (m − n )
siendo s (n ) la señal original (de larga duración), w (n ) la ventana
temporal aplicada y x (n ) la trama de señal enventanada, que valdrá
cero fuera del intervalo n ∈ [m − N + 1, m ] , siendo N la duración en
muestras de la ventana aplicada.
De esta forma, la necesaria aplicación de técnicas de enventanado, que
nos permitirán el análisis de tramos estacionarios, conlleva el efecto
multiplicativo (ponderación) en el tiempo de la trama actual por los
coeficientes de la ventana; y, de forma, equivalente la convolución del
espectro deseado de señal con la transformada de Fourier de la ventana
correspondiente.
Tema 2: Análisis Localizado de Voz
T2.3
2.2. Enventanado de la Señal de Voz
„
A continuación, se muestran algunas de las ventanas temporales
más empleadas:
Tema 2: Análisis Localizado de Voz
T2.4
2.2. Enventanado de la Señal de Voz
De entre todas las ventanas posibles, en procesado de voz
destacan dos tipos de ventanas:
„
‰
La ventana rectangular, que vale uno dentro y cero fuera:
⎧1,
⎩0,
w (n ) = ⎨
‰
0 ≤ n ≤ N −1
en caso contrario
La ventana tipo Hamming, cuya estructura temporal está definida de la
siguiente forma (ponderación tipo coseno alzado):
⎧0.54 − 0.46 ⋅ cos⎛⎜ 2πn
⎞⎟, 0 ≤ n ≤ N − 1
⎪
(N − 1)⎠
⎝
w (n ) = ⎨
⎪⎩0, en caso contrario
Tema 2: Análisis Localizado de Voz
T2.5
2.2. Enventanado de la Señal de Voz
De entre todas las ventanas posibles, en procesado de voz
destacan dos tipos de ventanas:
„
‰
La ventana rectangular, que vale uno dentro y cero fuera:
⎧1,
⎩0,
w (n ) = ⎨
‰
0 ≤ n ≤ N −1
en caso contrario
La ventana tipo Hamming, cuya estructura temporal está definida de la
siguiente forma (ponderación tipo coseno alzado):
⎧0.54 − 0.46 ⋅ cos⎛⎜ 2πn
⎞⎟, 0 ≤ n ≤ N − 1
⎪
(N − 1)⎠
⎝
w (n ) = ⎨
⎪⎩0, en caso contrario
Tema 2: Análisis Localizado de Voz
T2.6
2.2. Enventanado de la Señal de Voz
Estructura Espectral de las Ventanas de Análisis
„
„
„
„
Del efecto multiplicativo en el dominio temporal se deduce el efecto
convolutivo en el dominio espectral. Con el objeto de minimizar este
efecto convolutivo, deberíamos emplear ventanas con lóbulo principal
estrecho y lóbulos secundarios pequeños. La señal ideal en el límite será
una delta, que no tendría efecto de ventana en el tiempo. Por ello, habrá
que buscar soluciones de compromiso.
Si el lóbulo principal es ancho, el efecto convolutivo producirá un
suavizado espectral. Si los lóbulos secundarios son importantes, inducirán
un espectro lobulado.
Por otro lado, se debe considerar también el efecto de ponderación
temporal, puesto que con las ventanas tipo coseno alzado, las muestras
de los extremos de la ventana quedan minimizadas frente a las muestras
de la zona central de la ventana.
Para compensar este efecto, se suelen tomar ventanas temporales
solapadas, en las que las muestras extremas de una ventana sean las
centrales en ventanas consecutivas.
Tema 2: Análisis Localizado de Voz
T2.7
2.2. Enventanado de la Señal de Voz
Estructura Espectral de las Ventanas de Análisis
„
El suavizado espectral es un efecto menos determinante que el lobulado
espectral, razón por la que predomina la elección de ventanas con lóbulos
secundarios bajos, como se observa en el espectro de
las ventanas rectangular y Hamming .
Tema 2: Análisis Localizado de Voz
T2.8
2.3. Análisis Temporal Localizado
2.3.1. Energía Localizada de la Señal
La energía localizada de la señal será:
E s (m ) =
∞
∑ [s (n ) ⋅ w (n − m )]
2
n = −∞
=
m
∑ s 2 (n ) ⋅ w 2 (n − m )
n =m −N +1
Podemos expresar w 2 (n ) = h (n ) , quedando así:
E s (m ) =
m
2
s
∑ (n ) ⋅ h (n − m )
n =m −N +1
En el caso de utilizar ventana rectangular, tendremos finalmente que:
E s (m ) =
m
∑ s 2 (n )
n =m −N +1
Tema 2: Análisis Localizado de Voz
T2.9
2.3. Análisis Temporal Localizado
2.3.1. Energía Localizada de la Señal
„
Gráficamente lo podemos ver como:
Tema 2: Análisis Localizado de Voz
T2.10
2.3. Análisis Temporal Localizado
2.3.2. Tasa de Cruces por Cero Localizada
„
„
Se denomina “cruce por cero” al hecho de que muestras consecutivas
tengan distinto signo algebraico, puesto que en este caso, entre muestra
y muestra la señal tendrá que tomar obligatoriamente el valor cero.
La tasa de cruces por cero localizada se define matemáticamente como:
Z s (m ) = 1
„
N
m
⋅
∑
sgn{s (n )} − sgn{s (n − 1)}
n = m − N +1
2
⋅ w (n − m )
Donde la función signo (sgn) toma los valores:
⎧+ 1,
sgn{s (n )} = ⎨
⎩− 1,
s (n ) ≥ 0
s (n ) < 0
Tema 2: Análisis Localizado de Voz
T2.11
2.3. Análisis Temporal Localizado
2.3.2. Tasa de Cruces por Cero Localizada
„
„
La tasa de cruces por cero nos da una idea del carácter sordo/sonoro de
una señal (entendiendo que el carácter sordo va ligado a tramo de alta
frecuencia).
A continuación se muestra la distribución de cruces por cero para
tramos sonoros y sordos, calculada sobre ventanas de 10 ms.:
Tema 2: Análisis Localizado de Voz
T2.12
2.3. Análisis Temporal Localizado
2.3.3. Función de Autocorrelación Localizada
La función de autocorrelación localizada mide el parecido de la señal
consigo misma en función de una variable desplazamiento, k. Lo
podemos expresar matemáticamente como:
„
R s (k ) =
1
N
N −1− m
∑ s (n ) ⋅ s (n + m ),
m = 0,1, 2, ..., N − 1
n =0
Asimismo, se puede verificar que:
„
‰
‰
‰
La función de autocorrelación localizada es par: R s (k ) = R s (− k ) .
Tiene un máximo absoluto en k = 0, esto es, R s (0 ) ≥ R s (k ), ∀k .
R s (0 ) es igual a la energía (en señales determinísticas) o a la potencia media
(en señales periódicas o aleatorias).
Tema 2: Análisis Localizado de Voz
T2.13
2.3. Análisis Temporal Localizado
2.3.3. Función de Autocorrelación Localizada
„
„
Se verificará que para valores de desplazamiento m iguales al periodo de la
señal, la autocorrelación tendrá un máximo local, por lo que la
autocorrelación de señales periódicas será también una señal periódica del
mismo periodo.
La figura muestra la autocorrelación de dos tramos sonoros, (a) y (b), y uno
sordo, (c):
Tema 2: Análisis Localizado de Voz
T2.14
2.3. Análisis Temporal Localizado
2.3.4. Estimación de Pitch mediante Autocorrelación
„
„
La idea de la funciones de recorte es la de acentuar los máximos temporales
de la señal (correspondientes al periodo fundamental), de forma que
podamos discriminar con mayor claridad el pitch del tramo analizado.
Si aplicamos funciones de recorte central, y de recorte central a tres niveles:
Tema 2: Análisis Localizado de Voz
T2.15
2.3. Análisis Temporal Localizado
2.3.4. Estimación de Pitch mediante Autocorrelación
„
En la gráfica siguiente, se tienen funciones de autocorrelación localizada
en las que se ha aplicado recorte central, con N=401 puntos, con (a) el
umbral CL situado al 80% del máximo, (b) al 64% y (c) al 48% :
Tema 2: Análisis Localizado de Voz
T2.16
2.4. Análisis Localizado en Frecuencia
2.4.1. Resolución en Espectrogramas
„
„
„
La representación tiempo (eje x) - frecuencia (eje y) – nivel espectral
(escala de grises), conocida como ESPECTROGRAMA, puede presentar
aspectos muy diferentes en función de la resolución espectral que se
tome.
El espectrograma de BANDA ANCHA será aquel que presente poca
resolución espectral y, en consecuencia, mucha resolución temporal. Será
producto de tomar ventanas temporales de pocos puntos, alcanzando
bajas resoluciones espectrales (centenas de Hz.).
El espectrograma de BANDA ESTRECHA será, por el contrario, aquel que
presente alta resolución espectral, es decir, poca resolución temporal.
Para ello, tomaremos ventanas temporales amplias, dando lugar así a
resoluciones espectrales de pocas decenas de Hz. :
Tema 2: Análisis Localizado de Voz
T2.17
2.4. Análisis Localizado en Frecuencia
2.4.1. Resolución en Espectrogramas
„
„
La gráfica siguiente muestra espectrogramas de banda ancha (izqda.) y de
banda estrecha (drcha.) de la misma locución, con resoluciones espectrales
respectivas de 300 Hz. y de 45 Hz. (y temporales de 3 y 22 ms.,
respectivamente).
Se puede observar cómo el espectrograma de banda ancha resalta la
estructura de envolvente espectral, mientras que el de banda estrecha pone
de manifiesto la estructura fina de la señal.
Tema 2: Análisis Localizado de Voz
T2.18
2.5. Análisis Homomórfico: El Dominio Cepstral
„
„
„
„
„
El cepstrum (/kepstrum/), o coeficiente cepstral, c (τ), se define como la
transformada inversa de Fourier del logaritmo del módulo espectral, X (ω)
El término “cepstrum” se deriva de la inversión de la palabra inglesa
“spectrum” (espectro), para dar idea del cálculo de la transformada
inversa del espectro.
La variable independiente en el dominio cepstral se denomina (siguiendo
la misma lógica) “quefrency” .
Dado que el cesptrum representa la transformada inversa del dominio
frecuencial, la “quefrencia” es una variable en un dominio temporal.
La característica esencial del cepstrum es que permite separar las dos
contribuciones del mecanismo de producción: estructura fina y
envolvente espectral.
Tema 2: Análisis Localizado de Voz
T2.19
2.5. Análisis Homomórfico: El Dominio Cepstral
„
Si denominamos x[n] a la señal de voz, derivada de la convolución de la
señal de excitación, g[n], con la respuesta impulsiva del tracto vocal,
h[n], y siendo X (ω),G (ω), y H (ω) sus DFTs respectivas, tendremos que:
X (ω) = G (ω) ⋅ H (ω)
„
Si ahora tomamos logaritmos sobre el módulo de esta expresión,
tendremos:
log X (ω) = logG (ω) + log H (ω)
„
Calculando ahora la transformada inversa, IDFT, resultará:
c (τ ) = IDFT log X (ω) = IDFT logG (ω) + IDFT log H (ω)
Tema 2: Análisis Localizado de Voz
T2.20
2.5. Análisis Homomórfico: El Dominio Cepstral
„
„
„
Como se observa de la expresión anterior, en el dominio cepstral, las
componentes de estructura fina y de envolvente espectral aparecen
ahora como sumandos, en lugar de convolucionarse en el dominio
temporal original: se produce la DECONVOLUCIÓN de las componentes
fundamentales de la señal vocal.
Además, en el dominio cepstral se verifica que las componentes debida a
la estructura armónica aparecen como picos equiespaciados a altas
quefrencias, justamente separados por el valor de que se corresponde
con el periodo fundamental del tramo analizado.
La respuesta del tracto vocal aparece en bajas quefrencias, como señal
impulsiva que abarca los primeros coeficientes cepstrales.
Tema 2: Análisis Localizado de Voz
T2.21
2.5. Análisis Homomórfico: El Dominio Cepstral
„
La figura muestra una trama sonora y su correspondiente cepstrum:
Tema 2: Análisis Localizado de Voz
T2.22
2.5. Análisis Homomórfico: El Dominio Cepstral
„
„
„
„
„
Mediante un proceso de “liftering”, o de filtrado en el dominio cepstral,
podremos seleccionar y separar la componente que se desee.
Con un filtrado paso bajo (selección de los primeros coeficientes
cepstrales), tendremos la estructura de envolvente espectral.
Si nos quedamos, por el contrario, con los coeficientes altos, tendremos
una estimación precisa del pitch de la trama de la señal bajo estudio.
Reseñar que si seleccionamos los primeros coeficientes cepstrales, que
representan la estructura de formantes, y calculamos nuevamente la
transformada de Fourier sobre ellos, obtenemos ahora una buena
estimación de la envolvente espectral.
De esta forma, este procedimiento nos permitiría el cálculo de los
formantes de la trama bajo análisis.
Tema 2: Análisis Localizado de Voz
T2.23
2.5. Análisis Homomórfico: El Dominio Cepstral
„
La figura siguiente muestra la evolución de tramas temporales y los
correspondientes vectores cepstrales, para hombre (izqda.) y mujer
(drcha.):
Tema 2: Análisis Localizado de Voz
T2.24
Descargar