Temas Avanzados en Procesado de Señales Parte I: Procesado de Voz y Audio Javier Ortega García Joaquín González Rodríguez Tema 1 Análisis de Señales de Voz 1.1. Introducción La señal de voz es una señal especial pues codifica mediante sonidos el lenguaje hablado. Se organiza jerárquicamente: Diálogo Frase Palabra Sílaba Fonema Sonido El lenguaje coloquial hablado incorpora un número limitado de palabras (aprox. 4.000) Tema 1: Análisis de Señales de Voz T1.3 1.1. Introducción La denominación técnica de cada sonido es ‘alófono’ Un mismo fonema escrito puede corresponder a varios alónos (p.e., nasal / no nasal) En castellano existen 24 fonemas, y menos de 50 alófonos Incorpora diversas fuentes de información hablada: Mensaje Identidad Idioma Patología Estado Emocional Tema 1: Análisis de Señales de Voz T1.4 1.1. Introducción 1.1.1. Etapas en la Comunicación Hablada Locutor o Hablante Nervio Auditivo Oyente Realimentación acústica Oido Canal Cerebro Órdenes articulatorias Etapa Lingüística Cerebro Tracto vocal Etapa Fisiológica Oido Nervio auditivo Habla Etapa FísicoAcústica Etapa de Transmisión Etapa FísicoAcústica Tema 1: Análisis de Señales de Voz Etapa Fisiológica Etapa Lingüística T1.5 1.2. Características a Largo Plazo Señal de voz, no estacionaria (es decir, sus propiedades estadísticas varían) a largo plazo (s.). Características temporales con constantes fluctuaciones Locución de 5 s. de duración: Tema 1: Análisis de Señales de Voz T1.6 1.2. Características a Largo Plazo Si estudiamos tramos de menor duración (cientos de ms.) persiste carácter poco estacionario. Transiciones entre sonidos progresivas; no bruscas. Tramo sonoro de la frase anterior (500 ms.): Tema 1: Análisis de Señales de Voz T1.7 1.2. Características a Largo Plazo No estacionaridad persiste a medio plazo. Más notoria en tramos transición sonoro/sordo, o en sonidos oclusivos: Tema 1: Análisis de Señales de Voz T1.8 1.3. La señal de Voz a Corto Plazo En duraciones cortas (< decenas ms.) la señal se comporta como quasi-estacionaria. Forma de onda de una vocal con duración 80 ms.: Tema 1: Análisis de Señales de Voz T1.9 1.3. La señal de Voz a Corto Plazo La señal de voz presente en determinados tramos apariencia pseudoperiódica. Característica no generalizable, pues se pueden encontrar tramos con apariencia ruidosa: Tema 1: Análisis de Señales de Voz T1.10 1.4. Naturaleza de la Señal de Voz Existen tramos hablados de naturaleza distinta: Esto permite realizar una clasificación genérica de los sonidos hablados en función de su naturaleza, como: Algunos tramos presentan carácter periódico Otros, sin embargo, tienen apariencia ruidosa Sonoros, sonidos de carácter periódico Sordos, sonidos de carácter ruidoso Profundicemos en el mecanismo humano de producción, que permite realizar esta clasificación fundamental. Tema 1: Análisis de Señales de Voz T1.11 1.4. Naturaleza de la Señal de Voz 1.4.1. El mecanismo de Producción de Voz El mecanismo de producción de voz presenta el siguiente esquema funcional: Tema 1: Análisis de Señales de Voz T1.12 1.4. Naturaleza de la Señal de Voz 1.4.1. El mecanismo de Producción de Voz La señal hablada se produce cuando expelimos el aire de los pulmones a través de la tráquea. Las cuerdas vocales, ubicadas en la laringe, tienen una doble funcionalidad: En los sonidos sonoros, las cuerdas vocales se hallan en tensión y vibran cuando las atraviesa el flujo de aire proveniente de los pulmones. En los sonidos sordos, las cuerdas vocales están en relajación, y el flujo de aire las atraviesa libremente. El sonido se produce por la turbulencia de aire generada en la constricción. Tema 1: Análisis de Señales de Voz T1.13 1.4. Naturaleza de la Señal de Voz 1.4.2. Vibración de las Cuerdas Vocales Ciclo completo de vibración de las cuerdas vocales. Corte longitudinal Vista transversal superior de la glotis: (a) Respiración normal. (b) Respiración profunda. (c) Sonido sonoro. (d) Susurro. Tema 1: Análisis de Señales de Voz T1.14 1.4. Naturaleza de la Señal de Voz 1.4.3. Sección Transversal de la Laringe Tema 1: Análisis de Señales de Voz T1.15 1.4. Naturaleza de la Señal de Voz 1.4.4. Cavidades Acústicas y Formantes Tres cavidades acústicas constituyen el TRACTO VOCAL: La cavidad faríngea, situada inmediatamente después de la laringe. La cavidad oral, (tracto oral o bucal) formada por el paladar, la lengua, los dientes y los labios. La cavidad nasal, (tracto nasal) que se encuentra situada entre el velo del paladar y los orificios nasales. En la producción de sonidos hablados, la laringe excita estas cavidades, produciendo determinadas frecuencias de resonancia, denominadas FORMANTES Estos desempeñan un papel fundamental en la diferenciación de los sonidos. La detección de estas frecuencias de resonancia se realiza en la envolvente espectral, constituyendo los FORMANTES los máximos relativos de dicha envolvente. Tema 1: Análisis de Señales de Voz T1.16 1.4. Naturaleza de la Señal de Voz 1.4.5. Órganos y Lugares de Articulación Órganos articulatorios Lugares de articulación 1.- Cuerdas vocales 2.- Faringe 3.- Úvula 4.- Velo (paladar blando) 5.- Paladar (duro) 6.- Alvéolos 7.- Dientes 8.- Labios 9.- Ápice (lengua) 10.- Pre-dorso (lengua) 11.- Post-dorso (lengua) 12.- Raíz (lengua) 13.- Mandíbula 14.- Cavidad nasal 15.- Cavidad oral 16.- Orificios nasales 17.- Traquea 18.- Epiglotis 1.- Labial 2.- Dental 3.- Alveolar 4.- Palatal 5.- Velar 6.- Uvular 7.- Faríngea 8.- Glotal Tema 1: Análisis de Señales de Voz T1.17 1.4. Naturaleza de la Señal de Voz 1.4.6. Lugar y Forma de Articulación Lugar de articulación • Bilabial: p, b, m, w • Labiodental: f • Oclusiva: cierre + apertura súbita (p, b, t, d, k, g) • Fricativa: Turbulencia en constricción (f, s, z, θ) • Dental: θ • Alveolar: t, d, s, z, n, l • Palatal: r, y Forma de articulación • Africada: oclusión + fricación (ch) • Velar: k, g, ñ • Nasal: baja el velo, aire en cav. nasal (m, n, ñ) • Gutural: h • Lateral: aire por lados de lengua (l, ll) • Semivocal: w, r, y Tema 1: Análisis de Señales de Voz T1.18 1.4. Naturaleza de la Señal de Voz 1.4.7. Los Sonidos Vocálicos Realizaciones articulatorias orales de los sonidos vocálicos (1) /a/ (2) /e/ (3) /i/ (1) /a/ en baba [βáβa]. (2) /e/ en bebe [βéβe]. (3) /i/ en vivo [βíβo]. (4) /o/ en bobo [βóβo]. (5) /u/ en pupas [púpas]. (4) /o/ (5) /u/ Tema 1: Análisis de Señales de Voz T1.19 1.4. Naturaleza de la Señal de Voz 1.4.8. Los Formantes de las Vocales (Esp) Espectrograma correspondiente a las 5 vocales del Castellano (de la /a/ a la /u/, de izqda. a drcha.), mostrando los dos primeros formantes, F1 y F2. Tema 1: Análisis de Señales de Voz T1.20 1.4. Naturaleza de la Señal de Voz 1.4.8. Diferenciación Sordo / Sonoro Según la naturaleza de los sonidos, la diferenciación estriba en la vibración o no de las cuerdas vocales. Los sonidos sonoros son periódicos, debido a la vibración de las cuerdas. La frecuencia fundamental de vibración de las cuerdas constituye el tono. Son sonidos de alta energía y estabilidad a corto plazo. Los sonidos sordos son de apariencia ruidosa, pues se generan como turbulencias de aire en alguna constricción del tracto. Son sonidos de alta frecuencia y baja energía, y baja estabilidad a corto plazo. Tema 1: Análisis de Señales de Voz T1.21 1.4. Naturaleza de la Señal de Voz 1.4.8. Representación Espectral Sonidos Sonoros Su característica más relevante es la periodicidad, como se puede observar a continuación en la forma de onda de la vocal /u/: Tema 1: Análisis de Señales de Voz T1.22 1.4. Naturaleza de la Señal de Voz 1.4.8. Representación Espectral Sonidos Sonoros La representación espectral está caracterizada por la aparición de armónicos (múltiplos enteros de f0). Dichas componentes se denominarán ESTRUCTURA FINA del espectro. Tema 1: Análisis de Señales de Voz T1.23 1.4. Naturaleza de la Señal de Voz 1.4.9. Sonidos Sordos en el Tiempo Sonidos Sordos Producidos por una turbulencia de aire en una constricción del tracto vocal, su apariencia es ruidosa. En la figura se observa un sonido sordo entre dos sonidos sonoros: Tema 1: Análisis de Señales de Voz T1.24 1.4. Naturaleza de la Señal de Voz 1.4.10. Sonidos Sordos en la Frecuencia Sonidos Sordos La apariencia espectral es también ruidosa, sin estructura armónica definida. Su contribución se concentra en las altas frecuencias vocales: Tema 1: Análisis de Señales de Voz T1.25 1.4. Naturaleza de la Señal de Voz 1.4.10. Sonidos Impulsivos Las consonantes oclusivas, formadas por un tiempo de cierre y otro de explosión (con apariencia impulsiva) pueden ser sonoras o sordas: Tema 1: Análisis de Señales de Voz T1.26 1.4. Naturaleza de la Señal de Voz 1.4.11. Formantes: Carácter Diferenciador Los formantes responden a la configuración específica de los órganos del tracto al pronunciar un determinado sonido. Cada sonido específico conllevará una envolvente espectral característica y diferenciadora respecto al resto de sonidos. El oído humano se basa en la estructura formántica para discriminar entre sonidos. Los sistemas de reconocimiento automático basan su eficiencia en la capacidad de parametrizar adecuadamente la envolvente espectral. La estructura fina no aporta información diferenciadora entre los sonidos, pues dos estructuras distintas pueden corresponder a un mismo sonido. Tema 1: Análisis de Señales de Voz T1.27 1.4. Naturaleza de la Señal de Voz 1.4.11. Formantes: Carácter Diferenciador Los formantes responden a la configuración específica de los órganos del tracto al pronunciar un determinado sonido. 0 Amplitud(dB) Amplitud(dB) -10 -10 -20 -20 -30 -30 -40 -40 -50 -50 -60 -60 Frecuencia fundamental: 196 Hz. -70 Frecuencia fundamental: 122 Hz. 0 0 1 2 3 4 5 Frecuencia(KHz) 6 7 8 -70 0 1 2 Tema 1: Análisis de Señales de Voz 3 4 5 Frecuencia(KHz) 6 7 T1.28 8 1.5. Descomposición Excitación-Tracto Las figuras siguientes muestran la descomposición (separación) posible entre las contribuciones de la excitación y del tracto vocal en sonidos sonoros y sordos: Tema 1: Análisis de Señales de Voz T1.29 1.6. Distribución de Niveles de Amplitud Función densidad de probabilidad de niveles • Nuestra referencia (0 dB) es el valor RMS (asociado a la energía). • Máximos niveles a +18 dB (0.1%). • Mínimos niveles a –50 dB (2%). • Margen dinámico (ideal): ≈ 65 dB • Margen dinámico (real): 40-50 dB Tema 1: Análisis de Señales de Voz T1.30 1.7. Espectro Promedio a Largo Plazo Diferencias apreciadas Los hombres tienen información desde menos de 100 Hz. Las mujeres comienzan en 200300 Hz. Los espectros caen con 10 dB/octava a partir de 500 Hz. Tema 1: Análisis de Señales de Voz T1.31 1.8. Distribución de Frecuencia Fundamental Diferencias hombre / mujer Hombres: • Centrado en 125 Hz. • Desviación: 20.5 Hz. Mujeres: • Centrado en 250 Hz. • Desviación: 41 Hz. Tema 1: Análisis de Señales de Voz T1.32 1.9. Modelo Simplificado de Producción Modelo de pulso glotal Gv Filtro de envolvente espectral G(z) Decisión sonoro/sordo H(z) Modelo de radiación R(z) Señal de voz Gu Tema 1: Análisis de Señales de Voz T1.33 1.9. Modelo Simplificado de Producción 1.9.1. Modelo de Pulso Glotal El modelo de pulso glotal, G(z), aplica una estimación de cómo son los pulsos glotales (en forma de onda). La salida de este sistema, a cuya entrada tenemos un tren de impulsos separados el periodo fundamental, será un tren de pulsos glotales a la frecuencia fundamental deseada, a saber: Tema 1: Análisis de Señales de Voz T1.34 1.9. Modelo Simplificado de Producción 1.9.1. Modelo de Radiación El modelo de radiación, R(z), reproduce el efecto de la impedancia de radiación que el medio opone a la salida del habla desde la boca. Supone una atenuación a altas frecuencias vocales, lo que explica el uso de pre-énfasis en los sistemas de reconocimiento de habla: Tema 1: Análisis de Señales de Voz T1.35