Producción. Modelos digitales.

Anuncio
Tecnologías del habla
Inmaculada Hernaez
Eduardo Lleida
Eva Navas
Alfonso Ortega
Curso 2006/2007
Programa
1.
2.
3.
4.
5.
Introducción
Generación y percepción de la señal de voz
•
Producción
•
Modelos digitales
•
Percepción
Técnicas avanzadas de análisis de voz
Codificación de voz
Reconocimiento automático del habla
Conversión texto-habla
TIC en Redes Móviles
1. Generación del habla
• Sistema sub-glotal: pulmones, bronquios y
tráquea, son la fuente de energía
• Tracto vocal (longitud media 17cm,
sección de 0 a 20 cm:
•Glotis (aloja las cuerdas vocales)
•Faringe
•Cavidad bucal
• Tracto nasal: velo del paladar y nariz
• Voz: Onda acústica radiada cuando los
pulmones expulsan el aire y el flujo
resultante es perturbado por alguna
constricción en el tracto vocal.
TIC en Redes Móviles
1. Generación del habla
El aire sale
impulsado con
fuerza por los
pulmones hacia
el exterior
• Sonidos sonoros: la glotis se encuentra cerrada
con las cuerdas vocales tensas. El aire empuja las
cuerdas vocales y las hace vibrar.
• Sonidos sordos: la glotis está abierta y las
cuerdas relajadas. El flujo de aire saliente de la
glotis será turbulento.
El aire coge gran
velocidad en la tráquea
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
Glotis y señal del laringógrafo
TIC en Redes Móviles
1. Generación del habla
Glotis
abierta
Glotis
cerrada
t
0
T
2T
3T
1/F0
Pitch
TIC en Redes Móviles
1. Generación del habla
Curvas de entonación
Ama etorri da
Ama etorri da?
Bihar eguraldi ona izango dugu
Bihar eguraldi ona izango dugu?
TIC en Redes Móviles
1. Generación del habla
T
T
T
Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave.
Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, voz más
aguda.
Pitch o frecuencia fundamental o F0: Frecuencia de vibración de las cuerdas
vocales en la producción de los sonidos sonoros.
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
La cavidad bucal actúa de
cavidad resonante: frecuencias
de resonancia o formantes
El aire sale
impulsado con
fuerza por los
pulmones hacia
el exterior
• Sonidos sonoros: la glotis se encuentra cerrada
con las cuerdas vocales tensas. El aire empuja las
cuerdas vocales y las hace vibrar.
• Sonidos sordos: la glotis está abierta y las
cuerdas relajadas. El flujo de aire saliente de la
glotis será turbulento.
El aire coge gran
velocidad en la tráquea
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
T
Resonancias: Formantes
TIC en Redes Móviles
1. Generación del habla
TIC en Redes Móviles
1. Generación del habla
T
T
Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sin
obstáculos. Las vocales siempre son sonoras.
Consonantes: La lengua o los labios ayudados por los dientes y
por el paladar interrumpen total (oclusivas) o parcialmente
(fricativas, africadas) el paso del aire.
TIC en Redes Móviles
1. Generación del habla
Sonidos nasales: el velo del paladar baja y
el aire se dirige hacia el exterior
atravesando la cavidad nasal. Las cavidades
nasal y bucal se acoplan acústicamente.
La cavidad bucal actúa de
cavidad resonante: frecuencias
de resonancia o formantes
El aire sale
impulsado con
fuerza por los
pulmones hacia
el exterior
• Sonidos sonoros: la glotis se encuentra cerrada
con las cuerdas vocales tensas. El aire empuja las
cuerdas vocales y las hace vibrar.
• Sonidos sordos: la glotis está abierta y las
cuerdas relajadas. El flujo de aire saliente de la
glotis será turbulento.
El aire coge gran
velocidad en la tráquea
TIC en Redes Móviles
1. Generación del habla
T
T
T
Sonidos sonoros: el flujo del aire procedente de los pulmones es
periódicamente interrumpido por la apertura y cierre de las cuerdas
vocales. Es un flujo periódico de frecuencia fundamental F0
(frecuencia de pitch).
Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo
de aire encuentra una constricción en el tracto vocal, tomando gran
velocidad y formando turbulencias.
Tracto vocal y tracto nasal: Actúan de cavidades resonantes,
cuyas frecuencias de resonancia se conocen como Formantes. Los
valores de los formantes dependen de la forma y dimensiones del
tracto vocal. Por ello, las características espectrales de la voz
varían en el tiempo como varía la forma del tracto vocal.
TIC en Redes Móviles
1. Generación del habla
Formantes de las vocales
2500Hz
F2
F1
200Hz
i
e
a
o
u
TIC en Redes Móviles
1. Generación del habla
Fonética acústica: modo de articulación
Oclusión
No
Nasales
Sonoridad
Si
No
Vocales
Parcial
Total
Oclusivas
Fricativas
Aproximantes
Vibrantes
Laterales
Fricativas
Oclusivas
Africadas
TIC en Redes Móviles
1. Generación del habla
Fonética acústica: lugar de articulación
T
labiales: [p], [b], [m]
T
dentales: [t], [d]
T
alveoares: [n], [s]
T
palatales: [J], [L]
T
velares: [k], [g], [x]
TIC en Redes Móviles
1. Generación del habla
Variabilidad de la voz
Factores culturales
Factores Fisiológicos
Factores Ambientales
• Volumen de la voz
• Conjunto de sonidos
• Duración
• Entonación
• Formas de formar
frases
• Velocidad del habla
• Vocabulario
• Tracto vocal
• Cuerdas vocales y
• frecuencia de vibración
• Forma del pulso glotal
• Cansancio
• Congestión nasal
• Ruido de fondo
• Factores mecánicos:
vibraciones
• Estado emocional
• Acústica de la sala
• Ambiente: calor
TIC en Redes Móviles
Programa
1.
2.
3.
4.
5.
Introducción
Generación y percepción de la señal de voz
•
Producción
•
Modelos digitales
•
Percepción
Técnicas avanzadas de análisis de voz
Codificación de voz
Reconocimiento automático del habla
Conversión texto-habla
TIC en Redes Móviles
1. Generación del habla
Excitación
Cavidad
Resonante
Radiación
labios
g(t)
Pulso de Rosenberg
G(f)
TIC en Redes Móviles
1. Generación del habla
AV
PULSO
GLOTAL
G(z)
GENERADOR
de PULSOS
x
EXCITACIÓN
SONORA
TRACTO
VOCAL
V(z)
F0
GENERADOR
de RUIDO
x
AU
GENERADOR
de
EXCITACIONES
u(n)
RADIACIÓN
LABIOS
R(z)
s(n)
EXCITACIÓN
SORDA
COEFICIENTES
REFLEXIÓN
TRACTO
VOCAL
H(z)
G(z) V(z) R(z)
TIC en Redes Móviles
1. Generación del habla
T
Modelo de fuente y tracto vocal:
¾
¾
¾
¾
¾
Separa totalmente características de fuente y de tracto
vocal.
Funciona mejor cuando los parámetros varían
lentamente: sonidos más estacionarios.
Filtro V(z) todo polos: solo tiene resonancias, no
puede modelar los ceros de las nasales.
Separa fuente ruidosa y sonora: no válido para todos
los sonidos.
Cambio brusco de una fuente a otra: no realista.
TIC en Redes Móviles
1. Generación del habla
T
Bibliografía
¾
¾
¾
Rabiner, L.R. Schfer, R.W (1978) Digital Processing of
Speech Signal. Prentice-Hall Signal Processing Series
Alan V. Oppenheim. Series Editor. 1978.Rabiner
Fant, G. Acoustic Theory of Speech Production 2nd. Ed.
1970, Mouton, The Hague.
Deller, J., Hansen, Proakis (2000) Discrete-Time
Processing of Speech Signals IEEE Press.
TIC en Redes Móviles
Descargar