PDF - 1.4 MB

Anuncio
Clase nº 2
Año académico 2003
Teoría acústica de la producción del habla
• Visión general
• Fuentes de sonido
• Función de transferencia del tracto vocal
– Ecuaciones de onda
– Propagación del sonido en un tubo acústico uniforme
• Cómo representar el tracto vocal con tubos acústicos simples
• Cómo calcular las frecuencias naturales a partir de funciones de área
• Cómo representar el tracto vocal con tubos uniformes múltiples
6.345 Reconocimiento automático del habla
Teoría acústica de la producción del habla 1
Estructuras anatómicas para la producción del habla
6 . 3 4 5 Reconocimiento automático del habla
Teoría acústica de la producción del habla,2
Fonemas en inglés americano
FONEMA
/i¤/
/I/
/e¤/
/E/
/@/
/a/
/O/
/^/
/o⁄/
/U/
/u⁄/
/5/
/a¤/
/O¤/
/a⁄/
/{/
EJEMPLO
FONEMA
beat
bit
bait
bet
bat
Bob
bought
but
boat
book
boot
Burt
bite
Boyd
bout
about
6.345 Reconocimiento automático del habla
/s/
/S/
/f/
/T/
/z/
/Z/
/v/
/D/
/p/
/t/
/k/
/b/
/d/
/g/
EJEMPLO
see
she
fee
thief
z
Gigi
v
thee
pea
tea
key
bee
Dee
geese
FONEMA
/w/
/r/
/l/
/y/
/m/
/n/
/4/
/C/
/J/
/h/
EJEMPLO
wet
red
let
yet
meet
neat
sing
church
judge
heat
Teoría acústica de la producción del habla, 3
Lugares de articulación de los sonidos del habla
Palato-Alveolar
Alveolar
Labial
Dental
6.345 R econocim iento autom ático delhabla
Palatal
Velar
Uvular
Teoría acústica de la producción delhabla,4
Forma de onda de la voz: Un ejemplo
Dos más siete es menos que diez
6.345 R econocim iento autom ático delhabla
Teoría acústica de la producción delhabl
Un espectrograma de banda ancha
Dos más siete es menos que diez
6.345 R econocim iento autom ático delhabla
T. acústica de la producción delhabla 6
Teoría acústica de la producción del habla
• Los rasgos acústicos del habla están modelados generalmente como una secuencia
de la fuente, un filtro del tracto vocal y características de radiación.
UL
Pr
r
UG
Pr (jΩ) = S(jΩ) T (jΩ) R(jΩ)
• Para la producción de las vocales:
S(jΩ) = UG (jΩ)
T (jΩ) = UL (jΩ) / UG (jΩ)
R(jΩ) = Pr (jΩ) / UL (jΩ)
6.345 R econocim iento autom á tico delhabla
T.acústica de la producción delhabla,7
Fuente del sonido: Vibración de las cuerdas vocales
Modelada como fuente de la velocidad volumétrica en la glotis,
Pr ( t )
To = 1/Fo
UG(jΩ)
UG ( f )
t
1/f2
UG ( t )
f
t
F0 prom. (Hz) F0 min (Hz)
Hombres
125
80
Mujeres
225
150
Niños
300
200
6.345 R econocim ietno autom ático delhabla
F0 max (Hz)
200
350
500
Teoría acústica de la producción delhabla,8
Fuente del sonido: Ruido de turbulencia
•
•
Elruido de turbulencia se produce por una constricción en eltracto vocal.
–
Elruido de aspiración se produce en la glotis.
–
Elruido de fricación se produce encim a de la glotis.
M odelado com o una fuente de presión sucesiva en la constricción
S (jΩ)
,P
Ps ( f )
0.2 V
D
V :Velocidad de constricción
6.345 R econocim iento automático delhabla
f
4A √
≈ A
D: Dimensión crítica =
π
Teoría acústica de la producción delhabla,9
Ecuaciones de onda en el tracto vocal
Definir:
u(x, t)
U(x, t)
p(x, t)
ρ
c
⇒
=
=⇒
=⇒
=⇒
=⇒
velocidad de la partícula
velocidad volumétrica (U= uA)
variación en la presión del sonido
(P = P
O
+ p)
densidad de aire
velocidad del sonido
• Suponiendo una propagación de onda plana (para una dimensión cruzada λ) y un
movimiento ondulatorio unidimensional, puede demostrarse que:
∂u
∂p
=ρ
−
∂x
∂t
∂u
1 ∂p
−
=
∂x ρc 2 ∂t
1 ∂2 u
∂2 u
= 2 2
2
∂x
c ∂t
• Las soluciones en el dominio del tiempo y la frecuencia presentan esta forma:
1 x
x
+
−
−sx/c
sx/c
u(x, s) =
− P− e
u(x, t) = u (t − ) − u (t + )
P+ e
c
ρc
c
x
x
+
−
p(x, t) = ρc u (t − ) + u (t + )
p(x, s) = P+ e−sx/c + P− esx/c
c
c
6.345 R econocim iento autom ático delhabla
Teoría acústica de la producción delhabla,10
Propagación del sonido en un tubo uniforme
A
UG
x = -l
x = 0
• La función de transferencia deltracto vocalpara las velocidades volumétricas es:
UL (jΩ) U(−, jΩ)
=
T (jΩ) =
UG (jΩ)
U(0, jΩ)
•
U tilizando las condiciones de contorno
T (s) =
es/c
U(0, s) = U
2
+ e−s/c
G (s) y P(−, s)
T (jΩ) =
=0
1
cos(Ω/c)
• Los polos de la función de transferencia T (jΩ) están donde cos(Ω/c) = 0
(2πfn ) (2n − 1)
=
π
2
c
6.345 Reconocim iento autom ático delhabla
c
fn =
(2n−1)
4
4
λn =
(2n − 1)
n = 1, 2, . . .
Teoría acústica de la producción delhabla, 11
Propagación del sonido en un tubo unifdorme (cont.)(
• Para c = 34,000 cm /seg, = 17 cm ,las frecuencias naturales (conocidas también como formantes)aparecen en en 500Hz,1500Hz,2500Hz,...
jΩ
20 log10 T ( j Ω )
∞
∞
∞
∞
∞
x
40
x
20
x
0
σ
x
0
1
2
3
Frecuencia ( kHz )
4
5
x
x
• La función de transferencia de un tubo sin ramas laterales, excitado en
un extremo y con la respuesta medida en el otro, únicamente posee polos.
• Las frecuencias del formante tendrán un ancho de banda finito cuando se consideren las pérdidas del tracto vocal (ej., radiación, paredes, viscosidad, calor).
• La longitud del tracto vocal, , corresponde a 1 4 λ13, 4 λ25, 4 λ3 , ...,
donde λi es la longitud de onda de la frecuencia natural de i th
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 12
Posición de los patrones de onda en un tubo uniforme
Un tubo uniforme cerrado en un extremo y abierto en el otro, es conocido
normalmente como un resonador en cuarto de longitud de onda.
x
glotis
labios
|U(x)|
SWP para (Standing Wave Patterns) (Posición de los patrones de onda)
F1
SWP para
F2
2
3
SWP para
F3
2
5
6.345 Reconocimiento automátic o del habla
4
5
T. acústica de la producción del habla, 13
Frecuencias naturales de tubos acústicos simplificados
A
z-l
x = -l
A
z-l
x = 0
x = -l
Resonador en un cuarto de longitud de onda
P(x, jΩ) = 2P+ cos
U(x, jΩ) = −j
Ωx
c
Ωx
A
2P+ sin
ρc
c
x = 0
Resonador en media longitud de onda
P(x, jΩ) = −j2P+ sin
U(x, jΩ) =
Ωx
c
A
Ωx
2P+ cos
c
ρc
Ω
Ω
A
A
tan
cot
Y− = −j
Y− = j
ρc
ρc
c
c
1
A
A
= −j
≈ −j
Ω/c 1
≈ jΩ 2 = jΩCA Ω/c 1
Ωρ
ΩMA
ρc
MA = ρ/A = masa acústica
CA = A/ρc 2 = distensibilidad acústica
fn =
c
(2n − 1)
4
n = 1, 2, . . .
6.345 Reconocimiento automático del habla
fn =
c
n n = 0, 1, 2, . . .
2
T. acústica de la producción del habla, 14
Aproximación de las formas del tracto vocal
[i]
A1
l1
[ a]
[u]
A2
l2
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 15
Cómo calcular las frecuencias de resonancia natural
• Las frecuencias de resonancia se dan donde la función de obstaculización (o entrada) equivale a las condiciones de contorno naturales (ej., circuíto abierto)
UG
A1
A2
l1
UL
l2
Y 1+ Y 2= 0
• Para una aproximación de dos tubos, es más fácil resolver
Y1
+ Y2 = 0
Ω1
A2
Ω2
A1
tan
−j
cot
=0
j
ρc
c
ρc
c
Ω1
Ω2 A2
Ω2
Ω1
sin
sin
−
cos
=0
cos
c
c
A1
c
c
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 16
Desacoplamiento de las aproximaciones de un tubo simple
• Si A 1 A2 , o A1 A2 , los tubos pueden ser desacoplados y las frecuencias natunaturales de cada tubo se pueden calcular independientemente.
• Para la vocal /i¤/, las frecuencias del formante se obtienen a partir de:
A1
A2
l1
fn =
• Para frecuencias bajas:
f =
c
n
21
c
A2
2π A1 1 2
l2
más
1/2
fn =
=
c
n
22
1
1
2π CA1 MA2
1/2
• Esta frecuencia de resonancia baja se denomina resonancia Helmholt.
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla,17
Ejemplo de producción de la vocal
2
2
1 cm
1 cm
2
2
9 cm
7 cm
8 cm
8 cm
9 cm
+
972
2917
.
.
.
6 cm
+
1093
.
.
.
.
Formante Real
Aproximado
F1
789
972
F2
1276
1093
F3
2808
2917
.
.
.
.
.
.
6.345 Reconocimiemto automático del habla
268
+
1944
.
.
.
.
2917
.
.
.
.
Formante Real
F1
256
F2
1905
F3
2917
.
.
.
.
Aproximado
268
1944
2917
.
.
T. acústica de la producción del habla, 18
Ejemplos de espectrogramas de vocal
16
0.0
0.1
0.2
Velocidad de cruce cero
Tiempo (segundos)
0.3
0.4
0.5
0.6
0.7
kHz 8
16
8 kHz
0
0
16
Tiempo (segundos)
0.3
0.4
0.5
0.6
0.7
kHz 8
16
8 kHz
0
Energía total
0
Energía total
dB
dB
dB
dB
dB
Energía -- 125 Hz a 750 Hz
dB
Energía -- 125 Hz a 750 Hz
dB
8
0.0
0.1
0.2
Velocidad de cruce cero
dB
8
8
7
7
7
7
6
6
6
6
5
5
5
5
Espectrograma de banda ancha
kHz 4
4 kHz
8
Espectrograma de banda ancha
kHz 4
4 kHz
3
3
3
3
2
2
2
2
1
1
1
1
0
0
0
Forma de onda
0.0
0.1
0
Forma de onda
0.2
0.3
0.4
0.5
/bit/
6.345 Reconocimiento automático del habla
0.6
0.7
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
/bat/
T. acústica de la producción del habla, 19
Cálculo de frecuencias antirresonantes (Ceros)
Los ceros se dan en frecuencias donde no hay salida mensurable.
ln
UG
Yn
Ap
Yp
An
UN
Ao
Ab
lo
lb
Ac
Yo
lp
• Para consonantes nasales,los ceros en
U se dan donde
N
lc
Ps A f
UL
lf
YO = ∞
• Para consonantes fricativas u oclusivas, los ceros en U
L se dan donde la obstaculización tras la fuente es infinita (p.ej., una pared dura en la fuente).
Y1 = 0
Y 3+ Y 4= 0
• Los ceros se dan cuando las mediciones se realizan en el interior del tracto vocal.
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 20
Producción de la consonante
Ab
Ac
lb
Ps A f
lc
lf
POLOS
+
[g]
[s]
CEROS
+
Ab
5
5
+
Ac
0.2
0.5
[g]
polos
ceros
215
0
1750 1944
1944 2916
3888 3888
.
.
.
.
6.345 Reconocimiento automático del habla
+
Af
4
4
b
9
11
c
3
3
f
5
2.5
[s]
polos cceros
306
0
1590 1590
3180 2916
3500 3180
.
.
.
.
T. acústica de la producción del habla, 21
Ejemplo de espectrograma de consonante
0.0
0.1
0.2
16
Velocidad de cruce cero
kHz 8
Tiempo (segundos)
0.3
0.4
0.5
0.6
0.7
16
8 kHz
0
0
0.0
0.1
0.2
16
Zero Crossing Rate
kHz 8
Tiempo (segundos)
0.4
0.5
0.6
0.7
0.8
16
8 kHz
0
Energía total
0
Energía total
dB
dB
dB
dB
dB
Energía -- 125 Hz a 750 Hz
dB
Energía-- 125 Hz a 750 Hz
dB
8
0.3
dB
8
8
7
7
7
7
6
6
6
6
5
5
5
5
Espectrograma de banda ancha
kHz 4
4 kHz
8
Espectrograma de banda ancha
kHz 4
4 kHz
3
3
3
3
2
2
2
2
1
1
1
1
0
0
0
Forma de onda
0.0
0.1
0
Forma de onda
0.2
0.3
0.4
0.5
/ki¤ p/
6.345 Reconocimiento automático del habla
0.6
0.7
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
/si¤ /
T. acústica de la producción del habla, 22
Teoría de la perturbación
Y −j
A
Yl
A
paralpequeña
Ωρ
l
• Considere un tubo uniforme, cerrado en un extremo y abierto en el otro.
l
∆x
• Reducir el área de una pequeña parte del tubo cerca de la apertura
(donde U alcanza el máximo), causa el mismo efecto que mantener el área fija
y alargar el tubo.
• Dado que alargar el tubo disminuye las frecuencias resonantes, estrechar el mismo
cerca de los puntos donde U (x) alcanza el máximo en la posición del patrón de onda
para un determinado formante, reduce el valor de dicho formante.
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 23
Teoría de la perturbación (cont.)
Y jΩ
A
Yl
A
para l pequeña
2
ρc
l
l
∆x
• Reducir el área de una pequeña parte del tubo próxima al cierre (donde
p alcanza el máximo), posee el mismo efecto que mantener el área fija y acortar
el tubo.
• Dado que acortar el tubo aumentará los valores de los formantes, estrecharlo cerca
de los puntos donde p(x) alcanza el máximo en la posición del patrón de onda
para un determinado formante, aumentará el valor de dicho formante.
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 24
Resumen de los resultados de la teoría de la perturbación
x
glotis
labios
x
glotis
labios
|U(x)|
+
∆F1
SWP para
F1
1
2
−
(como consecuencia de disminuir A)
∆F2
SWP para
F2
+
+
1
2
−
2
3
∆F3
SWP para
F3
2
5
6.345 Reconocimiento automático del habla
4
5
+
−
+
1
2
−
+
−
−
T. acústica de la producción del habla 25
Ilustración de la teoría de la perturbación
6.345 Reconocimiento automática del habla
T. acústica de la producción del habla 26
Ilustración de la teoría de la perturbación
The ship was torn apart on the sharp (reef)(Desmantelaron el barco en el arrecife)
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 27
Illustración de la teoría de la perturbación
(The ship was torn apart on the sh)arp reef
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 28
Aproximación de muchos tubos en el tracto vocal
• Podemos representar el tracto vocal como una concatenación de N tubos sin pérdidas,
con un área constante {A
k } e igual longitud ∆x = /N
• El tiempo de propagación de la onda por cada tubo es τ = ∆x = c
A
∆x
6.345 Reconocimiento automático del habla
Nc
A7
∆x
∆x
∆x
∆x
∆x
∆x
T. acústica de la producción del habla, 29
Ecuaciones de onda para un tubo individual
Las ecuaciones de onda para el tubo kth tienen la forma
ρc +
x
x
[Uk (t − ) + Uk− (t + )]
pk (x, t) =
Ak
c
c
Uk (x, t) = Uk+ (t − cx ) − Uk− (t + cx )
donde x se mide desde el lado de la izquierda(0 ≤ x ≤ ∆x)
+
+
U k ( t - τ ) U k+1( t )
-
U k ( t + τ ) U k+1 ( t )
+
Uk ( t )
-
Uk ( t )
-
+
U k+1 ( t - τ )
(t+τ)
U k+1
∆x
Ak
∆x
A k+1
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla, 30
Expresión de actualización en las fronteras del tubo
Podemos resolver expresiones de actualización utilizando las restricciones de continuidad en
las fronteras del tubo, ej.,
pk (∆x, t) = pk+1 (0, t), y Uk (∆x, t) = Uk+1 (0, t)
+
+
Uk (
t)
DELAY
+
Uk ( t - τ )
τ
Uk + 1 ( t )
1 + rk
-
1 - rk
DELAY
τ
U k(
t +τ )
τ
Uk+1( t - τ )
DELAY
U k + 1( t + τ )
+
rk
- rk
Uk ( t )
DELAY
Uk + 1 (
k th tubo
t)
-
τ
( k + 1 ) st tubo
−
Uk++1 (t) = (1 + rk )Uk+ (t − τ) + rk Uk+1
(t)
−
(t)
Uk− (t + τ) = −rk Uk+ (t − τ) + (1 − rk )Uk+1
rk =
6.345 Reconocimiento automático del habla
Ak+1 − Ak
Ak+1 + Ak
nota | rk |≤ 1
T. acústica de la producción del habla, 31
Modelo digital del tracto vocal con muchos tubos
•
Las actualizaciones en las fronteras del tubo se dan sincrónicamente cada 2τ
•
Si la excitación se limita a la banda, se pueden muestrear las salidas cada T = 2t
•
Cada sección del tubo posee un retraso de z −1/2
+
Uk (
z)
z
1
2
1 + rk
+
Uk + 1 ( z )
-rk
rk
-
-
Uk ( z )
z
•
1
2
1 - rk
La elección de N depende de la velocidad de muestreo T
T = 2τ = 2
Nc
•
Uk + 1 ( z )
=⇒
2
N=
cT
Las series y las pérdidas relegadas se pueden introducir también en las uniones del tubo
– Los anchos de banda son proporcionales a la pérdida de energía en la velocidad de almacenamiento
–
La energía almacenada es proporcional a la longitud del tubo
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 32
Trabajo 1
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 33
Referencias
• Zue, Material del curso 6.345
• Stevens, Acoustic Phonetics, MIT Press, 1998.
• Rabiner & Schafer, Digital Processing of Speech Signals,
Prentice-Hall, 1978.
6.345 Reconocimiento automático del habla
T. acústica de la producción del habla 34
Descargar