Clase nº 2 Año académico 2003 Teoría acústica de la producción del habla • Visión general • Fuentes de sonido • Función de transferencia del tracto vocal – Ecuaciones de onda – Propagación del sonido en un tubo acústico uniforme • Cómo representar el tracto vocal con tubos acústicos simples • Cómo calcular las frecuencias naturales a partir de funciones de área • Cómo representar el tracto vocal con tubos uniformes múltiples 6.345 Reconocimiento automático del habla Teoría acústica de la producción del habla 1 Estructuras anatómicas para la producción del habla 6 . 3 4 5 Reconocimiento automático del habla Teoría acústica de la producción del habla,2 Fonemas en inglés americano FONEMA /i¤/ /I/ /e¤/ /E/ /@/ /a/ /O/ /^/ /o⁄/ /U/ /u⁄/ /5/ /a¤/ /O¤/ /a⁄/ /{/ EJEMPLO FONEMA beat bit bait bet bat Bob bought but boat book boot Burt bite Boyd bout about 6.345 Reconocimiento automático del habla /s/ /S/ /f/ /T/ /z/ /Z/ /v/ /D/ /p/ /t/ /k/ /b/ /d/ /g/ EJEMPLO see she fee thief z Gigi v thee pea tea key bee Dee geese FONEMA /w/ /r/ /l/ /y/ /m/ /n/ /4/ /C/ /J/ /h/ EJEMPLO wet red let yet meet neat sing church judge heat Teoría acústica de la producción del habla, 3 Lugares de articulación de los sonidos del habla Palato-Alveolar Alveolar Labial Dental 6.345 R econocim iento autom ático delhabla Palatal Velar Uvular Teoría acústica de la producción delhabla,4 Forma de onda de la voz: Un ejemplo Dos más siete es menos que diez 6.345 R econocim iento autom ático delhabla Teoría acústica de la producción delhabl Un espectrograma de banda ancha Dos más siete es menos que diez 6.345 R econocim iento autom ático delhabla T. acústica de la producción delhabla 6 Teoría acústica de la producción del habla • Los rasgos acústicos del habla están modelados generalmente como una secuencia de la fuente, un filtro del tracto vocal y características de radiación. UL Pr r UG Pr (jΩ) = S(jΩ) T (jΩ) R(jΩ) • Para la producción de las vocales: S(jΩ) = UG (jΩ) T (jΩ) = UL (jΩ) / UG (jΩ) R(jΩ) = Pr (jΩ) / UL (jΩ) 6.345 R econocim iento autom á tico delhabla T.acústica de la producción delhabla,7 Fuente del sonido: Vibración de las cuerdas vocales Modelada como fuente de la velocidad volumétrica en la glotis, Pr ( t ) To = 1/Fo UG(jΩ) UG ( f ) t 1/f2 UG ( t ) f t F0 prom. (Hz) F0 min (Hz) Hombres 125 80 Mujeres 225 150 Niños 300 200 6.345 R econocim ietno autom ático delhabla F0 max (Hz) 200 350 500 Teoría acústica de la producción delhabla,8 Fuente del sonido: Ruido de turbulencia • • Elruido de turbulencia se produce por una constricción en eltracto vocal. – Elruido de aspiración se produce en la glotis. – Elruido de fricación se produce encim a de la glotis. M odelado com o una fuente de presión sucesiva en la constricción S (jΩ) ,P Ps ( f ) 0.2 V D V :Velocidad de constricción 6.345 R econocim iento automático delhabla f 4A √ ≈ A D: Dimensión crítica = π Teoría acústica de la producción delhabla,9 Ecuaciones de onda en el tracto vocal Definir: u(x, t) U(x, t) p(x, t) ρ c ⇒ = =⇒ =⇒ =⇒ =⇒ velocidad de la partícula velocidad volumétrica (U= uA) variación en la presión del sonido (P = P O + p) densidad de aire velocidad del sonido • Suponiendo una propagación de onda plana (para una dimensión cruzada λ) y un movimiento ondulatorio unidimensional, puede demostrarse que: ∂u ∂p =ρ − ∂x ∂t ∂u 1 ∂p − = ∂x ρc 2 ∂t 1 ∂2 u ∂2 u = 2 2 2 ∂x c ∂t • Las soluciones en el dominio del tiempo y la frecuencia presentan esta forma: 1 x x + − −sx/c sx/c u(x, s) = − P− e u(x, t) = u (t − ) − u (t + ) P+ e c ρc c x x + − p(x, t) = ρc u (t − ) + u (t + ) p(x, s) = P+ e−sx/c + P− esx/c c c 6.345 R econocim iento autom ático delhabla Teoría acústica de la producción delhabla,10 Propagación del sonido en un tubo uniforme A UG x = -l x = 0 • La función de transferencia deltracto vocalpara las velocidades volumétricas es: UL (jΩ) U(−, jΩ) = T (jΩ) = UG (jΩ) U(0, jΩ) • U tilizando las condiciones de contorno T (s) = es/c U(0, s) = U 2 + e−s/c G (s) y P(−, s) T (jΩ) = =0 1 cos(Ω/c) • Los polos de la función de transferencia T (jΩ) están donde cos(Ω/c) = 0 (2πfn ) (2n − 1) = π 2 c 6.345 Reconocim iento autom ático delhabla c fn = (2n−1) 4 4 λn = (2n − 1) n = 1, 2, . . . Teoría acústica de la producción delhabla, 11 Propagación del sonido en un tubo unifdorme (cont.)( • Para c = 34,000 cm /seg, = 17 cm ,las frecuencias naturales (conocidas también como formantes)aparecen en en 500Hz,1500Hz,2500Hz,... jΩ 20 log10 T ( j Ω ) ∞ ∞ ∞ ∞ ∞ x 40 x 20 x 0 σ x 0 1 2 3 Frecuencia ( kHz ) 4 5 x x • La función de transferencia de un tubo sin ramas laterales, excitado en un extremo y con la respuesta medida en el otro, únicamente posee polos. • Las frecuencias del formante tendrán un ancho de banda finito cuando se consideren las pérdidas del tracto vocal (ej., radiación, paredes, viscosidad, calor). • La longitud del tracto vocal, , corresponde a 1 4 λ13, 4 λ25, 4 λ3 , ..., donde λi es la longitud de onda de la frecuencia natural de i th 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 12 Posición de los patrones de onda en un tubo uniforme Un tubo uniforme cerrado en un extremo y abierto en el otro, es conocido normalmente como un resonador en cuarto de longitud de onda. x glotis labios |U(x)| SWP para (Standing Wave Patterns) (Posición de los patrones de onda) F1 SWP para F2 2 3 SWP para F3 2 5 6.345 Reconocimiento automátic o del habla 4 5 T. acústica de la producción del habla, 13 Frecuencias naturales de tubos acústicos simplificados A z-l x = -l A z-l x = 0 x = -l Resonador en un cuarto de longitud de onda P(x, jΩ) = 2P+ cos U(x, jΩ) = −j Ωx c Ωx A 2P+ sin ρc c x = 0 Resonador en media longitud de onda P(x, jΩ) = −j2P+ sin U(x, jΩ) = Ωx c A Ωx 2P+ cos c ρc Ω Ω A A tan cot Y− = −j Y− = j ρc ρc c c 1 A A = −j ≈ −j Ω/c 1 ≈ jΩ 2 = jΩCA Ω/c 1 Ωρ ΩMA ρc MA = ρ/A = masa acústica CA = A/ρc 2 = distensibilidad acústica fn = c (2n − 1) 4 n = 1, 2, . . . 6.345 Reconocimiento automático del habla fn = c n n = 0, 1, 2, . . . 2 T. acústica de la producción del habla, 14 Aproximación de las formas del tracto vocal [i] A1 l1 [ a] [u] A2 l2 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 15 Cómo calcular las frecuencias de resonancia natural • Las frecuencias de resonancia se dan donde la función de obstaculización (o entrada) equivale a las condiciones de contorno naturales (ej., circuíto abierto) UG A1 A2 l1 UL l2 Y 1+ Y 2= 0 • Para una aproximación de dos tubos, es más fácil resolver Y1 + Y2 = 0 Ω1 A2 Ω2 A1 tan −j cot =0 j ρc c ρc c Ω1 Ω2 A2 Ω2 Ω1 sin sin − cos =0 cos c c A1 c c 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 16 Desacoplamiento de las aproximaciones de un tubo simple • Si A 1 A2 , o A1 A2 , los tubos pueden ser desacoplados y las frecuencias natunaturales de cada tubo se pueden calcular independientemente. • Para la vocal /i¤/, las frecuencias del formante se obtienen a partir de: A1 A2 l1 fn = • Para frecuencias bajas: f = c n 21 c A2 2π A1 1 2 l2 más 1/2 fn = = c n 22 1 1 2π CA1 MA2 1/2 • Esta frecuencia de resonancia baja se denomina resonancia Helmholt. 6.345 Reconocimiento automático del habla T. acústica de la producción del habla,17 Ejemplo de producción de la vocal 2 2 1 cm 1 cm 2 2 9 cm 7 cm 8 cm 8 cm 9 cm + 972 2917 . . . 6 cm + 1093 . . . . Formante Real Aproximado F1 789 972 F2 1276 1093 F3 2808 2917 . . . . . . 6.345 Reconocimiemto automático del habla 268 + 1944 . . . . 2917 . . . . Formante Real F1 256 F2 1905 F3 2917 . . . . Aproximado 268 1944 2917 . . T. acústica de la producción del habla, 18 Ejemplos de espectrogramas de vocal 16 0.0 0.1 0.2 Velocidad de cruce cero Tiempo (segundos) 0.3 0.4 0.5 0.6 0.7 kHz 8 16 8 kHz 0 0 16 Tiempo (segundos) 0.3 0.4 0.5 0.6 0.7 kHz 8 16 8 kHz 0 Energía total 0 Energía total dB dB dB dB dB Energía -- 125 Hz a 750 Hz dB Energía -- 125 Hz a 750 Hz dB 8 0.0 0.1 0.2 Velocidad de cruce cero dB 8 8 7 7 7 7 6 6 6 6 5 5 5 5 Espectrograma de banda ancha kHz 4 4 kHz 8 Espectrograma de banda ancha kHz 4 4 kHz 3 3 3 3 2 2 2 2 1 1 1 1 0 0 0 Forma de onda 0.0 0.1 0 Forma de onda 0.2 0.3 0.4 0.5 /bit/ 6.345 Reconocimiento automático del habla 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 /bat/ T. acústica de la producción del habla, 19 Cálculo de frecuencias antirresonantes (Ceros) Los ceros se dan en frecuencias donde no hay salida mensurable. ln UG Yn Ap Yp An UN Ao Ab lo lb Ac Yo lp • Para consonantes nasales,los ceros en U se dan donde N lc Ps A f UL lf YO = ∞ • Para consonantes fricativas u oclusivas, los ceros en U L se dan donde la obstaculización tras la fuente es infinita (p.ej., una pared dura en la fuente). Y1 = 0 Y 3+ Y 4= 0 • Los ceros se dan cuando las mediciones se realizan en el interior del tracto vocal. 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 20 Producción de la consonante Ab Ac lb Ps A f lc lf POLOS + [g] [s] CEROS + Ab 5 5 + Ac 0.2 0.5 [g] polos ceros 215 0 1750 1944 1944 2916 3888 3888 . . . . 6.345 Reconocimiento automático del habla + Af 4 4 b 9 11 c 3 3 f 5 2.5 [s] polos cceros 306 0 1590 1590 3180 2916 3500 3180 . . . . T. acústica de la producción del habla, 21 Ejemplo de espectrograma de consonante 0.0 0.1 0.2 16 Velocidad de cruce cero kHz 8 Tiempo (segundos) 0.3 0.4 0.5 0.6 0.7 16 8 kHz 0 0 0.0 0.1 0.2 16 Zero Crossing Rate kHz 8 Tiempo (segundos) 0.4 0.5 0.6 0.7 0.8 16 8 kHz 0 Energía total 0 Energía total dB dB dB dB dB Energía -- 125 Hz a 750 Hz dB Energía-- 125 Hz a 750 Hz dB 8 0.3 dB 8 8 7 7 7 7 6 6 6 6 5 5 5 5 Espectrograma de banda ancha kHz 4 4 kHz 8 Espectrograma de banda ancha kHz 4 4 kHz 3 3 3 3 2 2 2 2 1 1 1 1 0 0 0 Forma de onda 0.0 0.1 0 Forma de onda 0.2 0.3 0.4 0.5 /ki¤ p/ 6.345 Reconocimiento automático del habla 0.6 0.7 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 /si¤ / T. acústica de la producción del habla, 22 Teoría de la perturbación Y −j A Yl A paralpequeña Ωρ l • Considere un tubo uniforme, cerrado en un extremo y abierto en el otro. l ∆x • Reducir el área de una pequeña parte del tubo cerca de la apertura (donde U alcanza el máximo), causa el mismo efecto que mantener el área fija y alargar el tubo. • Dado que alargar el tubo disminuye las frecuencias resonantes, estrechar el mismo cerca de los puntos donde U (x) alcanza el máximo en la posición del patrón de onda para un determinado formante, reduce el valor de dicho formante. 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 23 Teoría de la perturbación (cont.) Y jΩ A Yl A para l pequeña 2 ρc l l ∆x • Reducir el área de una pequeña parte del tubo próxima al cierre (donde p alcanza el máximo), posee el mismo efecto que mantener el área fija y acortar el tubo. • Dado que acortar el tubo aumentará los valores de los formantes, estrecharlo cerca de los puntos donde p(x) alcanza el máximo en la posición del patrón de onda para un determinado formante, aumentará el valor de dicho formante. 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 24 Resumen de los resultados de la teoría de la perturbación x glotis labios x glotis labios |U(x)| + ∆F1 SWP para F1 1 2 − (como consecuencia de disminuir A) ∆F2 SWP para F2 + + 1 2 − 2 3 ∆F3 SWP para F3 2 5 6.345 Reconocimiento automático del habla 4 5 + − + 1 2 − + − − T. acústica de la producción del habla 25 Ilustración de la teoría de la perturbación 6.345 Reconocimiento automática del habla T. acústica de la producción del habla 26 Ilustración de la teoría de la perturbación The ship was torn apart on the sharp (reef)(Desmantelaron el barco en el arrecife) 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 27 Illustración de la teoría de la perturbación (The ship was torn apart on the sh)arp reef 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 28 Aproximación de muchos tubos en el tracto vocal • Podemos representar el tracto vocal como una concatenación de N tubos sin pérdidas, con un área constante {A k } e igual longitud ∆x = /N • El tiempo de propagación de la onda por cada tubo es τ = ∆x = c A ∆x 6.345 Reconocimiento automático del habla Nc A7 ∆x ∆x ∆x ∆x ∆x ∆x T. acústica de la producción del habla, 29 Ecuaciones de onda para un tubo individual Las ecuaciones de onda para el tubo kth tienen la forma ρc + x x [Uk (t − ) + Uk− (t + )] pk (x, t) = Ak c c Uk (x, t) = Uk+ (t − cx ) − Uk− (t + cx ) donde x se mide desde el lado de la izquierda(0 ≤ x ≤ ∆x) + + U k ( t - τ ) U k+1( t ) - U k ( t + τ ) U k+1 ( t ) + Uk ( t ) - Uk ( t ) - + U k+1 ( t - τ ) (t+τ) U k+1 ∆x Ak ∆x A k+1 6.345 Reconocimiento automático del habla T. acústica de la producción del habla, 30 Expresión de actualización en las fronteras del tubo Podemos resolver expresiones de actualización utilizando las restricciones de continuidad en las fronteras del tubo, ej., pk (∆x, t) = pk+1 (0, t), y Uk (∆x, t) = Uk+1 (0, t) + + Uk ( t) DELAY + Uk ( t - τ ) τ Uk + 1 ( t ) 1 + rk - 1 - rk DELAY τ U k( t +τ ) τ Uk+1( t - τ ) DELAY U k + 1( t + τ ) + rk - rk Uk ( t ) DELAY Uk + 1 ( k th tubo t) - τ ( k + 1 ) st tubo − Uk++1 (t) = (1 + rk )Uk+ (t − τ) + rk Uk+1 (t) − (t) Uk− (t + τ) = −rk Uk+ (t − τ) + (1 − rk )Uk+1 rk = 6.345 Reconocimiento automático del habla Ak+1 − Ak Ak+1 + Ak nota | rk |≤ 1 T. acústica de la producción del habla, 31 Modelo digital del tracto vocal con muchos tubos • Las actualizaciones en las fronteras del tubo se dan sincrónicamente cada 2τ • Si la excitación se limita a la banda, se pueden muestrear las salidas cada T = 2t • Cada sección del tubo posee un retraso de z −1/2 + Uk ( z) z 1 2 1 + rk + Uk + 1 ( z ) -rk rk - - Uk ( z ) z • 1 2 1 - rk La elección de N depende de la velocidad de muestreo T T = 2τ = 2 Nc • Uk + 1 ( z ) =⇒ 2 N= cT Las series y las pérdidas relegadas se pueden introducir también en las uniones del tubo – Los anchos de banda son proporcionales a la pérdida de energía en la velocidad de almacenamiento – La energía almacenada es proporcional a la longitud del tubo 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 32 Trabajo 1 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 33 Referencias • Zue, Material del curso 6.345 • Stevens, Acoustic Phonetics, MIT Press, 1998. • Rabiner & Schafer, Digital Processing of Speech Signals, Prentice-Hall, 1978. 6.345 Reconocimiento automático del habla T. acústica de la producción del habla 34