Procesamiento de voz - Síntesis de voz Marc S. Reßl Roxana Saint-Nom 2009 Ingeniería Electrónica Instituto Tecnológico de Buenos Aires Síntesis de voz • Aplicaciones: • Tecnología de apoyo a personas con discapacidad • Servicios de noticias (Ej. Ananova) • Entretenimiento: juegos • Lectores TTS (Text-tospeech). Ej: MultiReader Síntesis de voz • El fin de la síntesis de voz es transformar un concepto o un texto en una señal acústica. • Esta señal se construye de dos maneras: • a nivel segmento - la unidad es el fonema • a nivel suprasegmental - por prosodia • Es necesario dar a las unidades la importancia fonética, lingüística y expresiva necesarios para que se comprenda el mensaje. Síntesis de voz • Del concepto a la señal acústica: Concepto Texto escrito Cadena fonética Parámetros Generación de lenguaje natural Transcripción ortográficafonética Generación de parámetros Sintetizador Hitos de la síntesis • El voder de Dudley de 1939, demostrado en la World Fair. • El análisis LPC y la resíntesis de la voz a baja tasa de bits fue demostrado por primera vez en 1980 por Richard Wiggins: Speak’n’spell http://www.speaknspell.co.uk • La predicción linear multipulso, por Bishnu Atal, 1982. Prosodia • Bajo el término prosodia se agrupa, en el contexto del lenguaje hablado, el estudio de la altura, intensidad y duración de los fonemas en relación a las unidades lingüísticas. • Dotar a la voz artificial de prosodia consiste en asignar parámetros prosódicos: entonación, acentos, duración de sílabas y flujo. • Estos parámetros prosódicos se traducen en variaciones de la frecuencia fundamental, la amplitud y la duración de las unidades de entonación y las pausas. • La prosodia es esencial para poder comprender correctamente las unidades fonológicas, y por lo tanto define la inteligibilidad de la voz sintética. Prosodia Pitch y features espectrales Prosodia • Tres formas: • afirmación: “él viene” • interrogación: “¿él viene?” • exclamación: “¡él viene!” Síntesis de voz • La síntesis de puede realizar de tres maneras: • directamente (por canales) • por simulación del conducto vocal • por modelos de formantes • por modelos de predicción lineal Síntesis de voz por canales • El primer analizador y sintetizador corresponde al vocoder analógico por canales de Dudley (1938): Síntesis por simulación del conducto vocal • Modelización de la fuente: Impulse generator Larynx Source characteristic G(f) Modal Whisper Síntesis por formantes • El sintetizador de Klatt (1980) es un sintetizador por formantes con configuraciones serie y paralelo: Función de transferencia del conducto vocal/serie Impulse generator Fuente sonora radiación Fuente de ruido blanco Función de transferencia del conducto vocal/paralelo Síntesis por formantes • Parámetros de control: Símbolo! DU! NSW! NF! SW! G0! F0! AV! AVS! FGP! BGP! FGZ! BGZ! BGS! AH ! AF! F1! B1! F2! B2! F3! B3! F4! B4! F5! B5! F6! B6! FNP! BNP! FNZ! BNZ! AN ! A1! A2! A3! A4! A5! A6! C/V! C! C! C! C! C! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! V! Min.! 30! 1! 5000! 1! 0! 0! 0! 0! 0! 50! 0! 100! 100! 0! 0! 180! 30! 550! 40! 1200! 60! 2400! 100! 3000! 100! 4000! 30! 180! 40! 180! 40! 0! 0! 0! 0! 0! 0! 0! Tip.! 200! 5! 10000! 5! 47! 100! 60! 0! 0! 200! 2500! 1500! 200! 0! 0! 500! 60! 1500! 60! 2500! 60! 3800! 60! 4500! 60! 4990! 60! 280! 90! 280! 90! 0! 60! 0! 0! 0! 0! 0! Max.! 5000! 20! 20000! 6! 80! 500! 80! 80! 600! 2000! 5000! 9000! 1000! 80! 80! 1300! 1000! 3000! 1000! 4800! 1000! 4990! 1000! 6000! 1000! 6500! 1000! 700! 1000! 800! 1000! 80! 80! 80! 80! 80! 80! 80! Nombre Duración de la señal (mes) Intervalo de actualización de parámetros Frecuencia de muestreo Número de formantes en configuración cascada Ganancia del sistema (dB) Frecuencia de la fundamental (Hz) Amplitud sonora (dB) Amplitud sonora cuasi-senoidal (dB) Frecuencia del resonador glótico RGP (Hz) Banda pasante del resonador glótico RGP (Hz) Frecuencia del antiresonador glótico RGZ (Hz) Banda pasante del antiresonador glótico (Hz) Frecuencia de resonancia del resonador glótico RGS (Hz) Amplitud de la aspiración (dB) Amplitud de la fricción (dB) Frecuencia de la primer fundamental (Hz) Banda pasante de la primer fundamental (Hz) Frecuencia de la segunda fundamental (Hz) Banda pasante de la segunda fundamental (Hz) Frecuencia de la tercer fundamental (Hz) Banda pasante de la tercer fundamental (Hz) Frecuencia de la cuarta fundamental (Hz) Banda pasante de la cuarta fundamental (Hz) Frecuencia de la quinta fundamental (Hz) Banda pasante de la quinta fundamental (Hz) Frecuencia de la sexta fundamental (Hz) Banda pasante de la sexta fundamental (Hz) Frecuencia del polo nasal (Hz) Banda pasante del polo nasal (Hz) Frecuencia del cero nasal (Hz) Banda pasante del cero nasal (Hz) Amplitud de formante nasal (dB) Amplitud de primer formante (dB) Amplitud de segunda formante (dB) Amplitud de tercer formante (dB) Amplitud de cuarta formante (dB) Amplitud de quinta formante (dB) Amplitud de sexta formante (dB) Período de la fundamental Generador de impulsos Excitación Generador de ruido blanco Amplitud Modelo ajustable Sistema Filtro de orden p Criterio DAC Optimización Análisis Síntesis por predicción lineal Síntesis Esquema Más preciso Labios Forma neutra Glotis Labios Glotis Labios Menos preciso Síntesis por predicción lineal Coeficientes Síntesis de voz por predicción lineal Configuraciones LPC Complejidad computacional Menor complejidad, modelo funcional Síntesis directa Requiere conocimiento a priori del proceso de producción de la voz. Síntesis por predicción lineal Separa excitación y la envolvente espectral. Modelo all-pole del la excitación + circuito vocal y nasal. Síntesis por formantes Mayor complejidad, modelo físico Modelo que tiene en cuenta las amplitudes relativas de las formantes. Síntesis por modelo de prod. de voz Tiene en cuenta las bandas de las formantes, y los pares polo-cero introducidos por nasalización - radiación. Síntesis por modelo físico representativo Considera el acoplamiento excitación-conducto vocal, la micro-prosodia, y la aparición de polos-ceros en la producción de fricativas. Síntesis por modelo físico completo Tiene en cuenta la co-articulación, y permite representar discretamente los componentes del conducto y de la prosodia. Sistemas de síntesis • Los sistemas de síntesis se separan en: • Síntesis de mensajes. Sólo se sintetizan palabras o frases aisladas (con vocabulario limitado). • Síntesis de texto (con vocabulario extenso). Síntesis de mensajes • Un ejemplo: un reloj parlante La hora es 11 horas 24 minutos 0 segundos Partes variables Partes fijas Diccionario 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 y 20 veint- Síntesis de texto • La señal de voz es el resultado de múltiples interacciones en el dominio temporal y en frecuencia. • La co-articulación juega un rol muy importante en las transiciones, y tiene efectos tanto en sílabas anteriores como posteriores. • Por lo tanto no es suficiente hacer la síntesis por concatenación de fonemas. Las transiciones conllevan mucha información importante para comprender el mensaje. Síntesis de texto • Hay dos métodos importantes para ensamblar fonemas: • síntesis por difonos • síntesis por reglas Breve reseña histórica de síntesis • El primer sistema TTS (text-to-speech) fue implementado en 1968 en Japón por Noriko Umeda et al. • Raymond Kurzweil diseño una máquina de lectura para invidentes en 1976. • El sistema MITalk fue diseñado en 1979 en el MIT por Jonathan Aleen, Sheri Hunnicutt y Dennis Klatt. • El sistema TTS de AT&T de 1985. Procesamiento de lenguaje natural Texto Formas lingüísticas Motores de inferencia Inferencias lógicoas Procesamiento DSP Fonemas Prosodia Síntesis de texto Modelos matemáticos Algoritmos Cálculo numérico Voz Diagrama en bloques Procesamiento de lenguaje natural Preprocesador Análisis morfológico Análisis contextual Texto Análisis sintáctico/ prosódico Fonizador Generador de prosodia MLDS o FS Fonemas Prosodia Síntesis por difonos • Un difono es un elemento sonoro característico de la transición entre las componentes estables de dos fonemas. • Si un idioma dado tiene P número de fonemas, el número máximo de difonos es P2. • El español tiene aproximadamente 800 difonos, el alemán cerca de 2500. • Para cada individuo hay entonces un diccionario de difonos característico. Síntesis por difonos Transiciones entre fonemas Síntesis por difonos Ejemplo: la palabra Paris MBROLA • El proyexto sin fines de lucro MBROLA provee un algoritmo para síntesis de voz. Trabaja íntegramente en el dominio del tiempo • Un ejemplo de script MBROLA: MBROLA MBROLA Segmentación MBROLA MBROLA • Más info: http://tcts.fpms.ac.be/synthesis/mbrola.html PSOLA • PSOLA (Pitch Synchronous Overlap And Add) es otro algoritmo en el dominio del tiempo. • La forma de onda se divide en pequeños segmentos que se superponen. Los segmentos son acercados o alejados para modificar el pitch. PSOLA Síntesis por reglas • En este tipo de síntesis los parámetros del sintetizador son definidos a partir de un cierto número de valores objetivo y reglas que determinan la evolución de los elementos a sintetizar. • Para este tipo de síntesis es necesario disponer de parámetros con significado físico. • Por lo tanto este tipo de síntesis está limitado a los sintetizadores por formantes o por modelos físicos. Síntesis por reglas