Tecnologías del habla Inmaculada Hernaez Eduardo Lleida Eva Navas Alfonso Ortega Curso 2006/2007 Programa 1. 2. 3. 4. 5. Introducción Generación y percepción de la señal de voz • Producción • Modelos digitales • Percepción Técnicas avanzadas de análisis de voz Codificación de voz Reconocimiento automático del habla Conversión texto-habla TIC en Redes Móviles 1. Generación del habla • Sistema sub-glotal: pulmones, bronquios y tráquea, son la fuente de energía • Tracto vocal (longitud media 17cm, sección de 0 a 20 cm: •Glotis (aloja las cuerdas vocales) •Faringe •Cavidad bucal • Tracto nasal: velo del paladar y nariz • Voz: Onda acústica radiada cuando los pulmones expulsan el aire y el flujo resultante es perturbado por alguna constricción en el tracto vocal. TIC en Redes Móviles 1. Generación del habla El aire sale impulsado con fuerza por los pulmones hacia el exterior • Sonidos sonoros: la glotis se encuentra cerrada con las cuerdas vocales tensas. El aire empuja las cuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y las cuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire coge gran velocidad en la tráquea TIC en Redes Móviles 1. Generación del habla TIC en Redes Móviles 1. Generación del habla Glotis y señal del laringógrafo TIC en Redes Móviles 1. Generación del habla Glotis abierta Glotis cerrada t 0 T 2T 3T 1/F0 Pitch TIC en Redes Móviles 1. Generación del habla Curvas de entonación Ama etorri da Ama etorri da? Bihar eguraldi ona izango dugu Bihar eguraldi ona izango dugu? TIC en Redes Móviles 1. Generación del habla T T T Hombres: Glotis de mayor tamaño, cuerdas vocales más largas, voz más grave. Mujeres y niños: Glotis más pequeña, cuerdas vocales más cortas, voz más aguda. Pitch o frecuencia fundamental o F0: Frecuencia de vibración de las cuerdas vocales en la producción de los sonidos sonoros. TIC en Redes Móviles 1. Generación del habla TIC en Redes Móviles 1. Generación del habla La cavidad bucal actúa de cavidad resonante: frecuencias de resonancia o formantes El aire sale impulsado con fuerza por los pulmones hacia el exterior • Sonidos sonoros: la glotis se encuentra cerrada con las cuerdas vocales tensas. El aire empuja las cuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y las cuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire coge gran velocidad en la tráquea TIC en Redes Móviles 1. Generación del habla TIC en Redes Móviles 1. Generación del habla T Resonancias: Formantes TIC en Redes Móviles 1. Generación del habla TIC en Redes Móviles 1. Generación del habla T T Vocales: Desde la glotis, el aire atraviesa la cavidad bucal sin obstáculos. Las vocales siempre son sonoras. Consonantes: La lengua o los labios ayudados por los dientes y por el paladar interrumpen total (oclusivas) o parcialmente (fricativas, africadas) el paso del aire. TIC en Redes Móviles 1. Generación del habla Sonidos nasales: el velo del paladar baja y el aire se dirige hacia el exterior atravesando la cavidad nasal. Las cavidades nasal y bucal se acoplan acústicamente. La cavidad bucal actúa de cavidad resonante: frecuencias de resonancia o formantes El aire sale impulsado con fuerza por los pulmones hacia el exterior • Sonidos sonoros: la glotis se encuentra cerrada con las cuerdas vocales tensas. El aire empuja las cuerdas vocales y las hace vibrar. • Sonidos sordos: la glotis está abierta y las cuerdas relajadas. El flujo de aire saliente de la glotis será turbulento. El aire coge gran velocidad en la tráquea TIC en Redes Móviles 1. Generación del habla T T T Sonidos sonoros: el flujo del aire procedente de los pulmones es periódicamente interrumpido por la apertura y cierre de las cuerdas vocales. Es un flujo periódico de frecuencia fundamental F0 (frecuencia de pitch). Sonidos sordos: No hay vibración de las cuerdas vocales. El flujo de aire encuentra una constricción en el tracto vocal, tomando gran velocidad y formando turbulencias. Tracto vocal y tracto nasal: Actúan de cavidades resonantes, cuyas frecuencias de resonancia se conocen como Formantes. Los valores de los formantes dependen de la forma y dimensiones del tracto vocal. Por ello, las características espectrales de la voz varían en el tiempo como varía la forma del tracto vocal. TIC en Redes Móviles 1. Generación del habla Formantes de las vocales 2500Hz F2 F1 200Hz i e a o u TIC en Redes Móviles 1. Generación del habla Fonética acústica: modo de articulación Oclusión No Nasales Sonoridad Si No Vocales Parcial Total Oclusivas Fricativas Aproximantes Vibrantes Laterales Fricativas Oclusivas Africadas TIC en Redes Móviles 1. Generación del habla Fonética acústica: lugar de articulación T labiales: [p], [b], [m] T dentales: [t], [d] T alveoares: [n], [s] T palatales: [J], [L] T velares: [k], [g], [x] TIC en Redes Móviles 1. Generación del habla Variabilidad de la voz Factores culturales Factores Fisiológicos Factores Ambientales • Volumen de la voz • Conjunto de sonidos • Duración • Entonación • Formas de formar frases • Velocidad del habla • Vocabulario • Tracto vocal • Cuerdas vocales y • frecuencia de vibración • Forma del pulso glotal • Cansancio • Congestión nasal • Ruido de fondo • Factores mecánicos: vibraciones • Estado emocional • Acústica de la sala • Ambiente: calor TIC en Redes Móviles Programa 1. 2. 3. 4. 5. Introducción Generación y percepción de la señal de voz • Producción • Modelos digitales • Percepción Técnicas avanzadas de análisis de voz Codificación de voz Reconocimiento automático del habla Conversión texto-habla TIC en Redes Móviles 1. Generación del habla Excitación Cavidad Resonante Radiación labios g(t) Pulso de Rosenberg G(f) TIC en Redes Móviles 1. Generación del habla AV PULSO GLOTAL G(z) GENERADOR de PULSOS x EXCITACIÓN SONORA TRACTO VOCAL V(z) F0 GENERADOR de RUIDO x AU GENERADOR de EXCITACIONES u(n) RADIACIÓN LABIOS R(z) s(n) EXCITACIÓN SORDA COEFICIENTES REFLEXIÓN TRACTO VOCAL H(z) G(z) V(z) R(z) TIC en Redes Móviles 1. Generación del habla T Modelo de fuente y tracto vocal: ¾ ¾ ¾ ¾ ¾ Separa totalmente características de fuente y de tracto vocal. Funciona mejor cuando los parámetros varían lentamente: sonidos más estacionarios. Filtro V(z) todo polos: solo tiene resonancias, no puede modelar los ceros de las nasales. Separa fuente ruidosa y sonora: no válido para todos los sonidos. Cambio brusco de una fuente a otra: no realista. TIC en Redes Móviles 1. Generación del habla T Bibliografía ¾ ¾ ¾ Rabiner, L.R. Schfer, R.W (1978) Digital Processing of Speech Signal. Prentice-Hall Signal Processing Series Alan V. Oppenheim. Series Editor. 1978.Rabiner Fant, G. Acoustic Theory of Speech Production 2nd. Ed. 1970, Mouton, The Hague. Deller, J., Hansen, Proakis (2000) Discrete-Time Processing of Speech Signals IEEE Press. TIC en Redes Móviles