VOX 08 Síntesis de voz - IK : Gateway : Mostrar información del

Anuncio
Procesamiento de voz - Síntesis de voz
Marc S. Reßl
Roxana Saint-Nom
2009
Ingeniería Electrónica
Instituto Tecnológico de Buenos Aires
Síntesis de voz
• Aplicaciones:
• Tecnología de apoyo a
personas con discapacidad
• Servicios de noticias (Ej.
Ananova)
• Entretenimiento: juegos
• Lectores TTS (Text-tospeech). Ej: MultiReader
Síntesis de voz
• El fin de la síntesis de voz es transformar un concepto o un texto en una
señal acústica.
• Esta señal se construye de dos maneras:
• a nivel segmento - la unidad es el fonema
• a nivel suprasegmental - por prosodia
• Es necesario dar a las unidades la importancia fonética, lingüística y
expresiva necesarios para que se comprenda el mensaje.
Síntesis de voz
• Del concepto a la señal acústica:
Concepto
Texto escrito
Cadena fonética
Parámetros
Generación de
lenguaje natural
Transcripción
ortográficafonética
Generación de
parámetros
Sintetizador
Hitos de la síntesis
• El voder de Dudley de 1939, demostrado en la World Fair.
• El análisis LPC y la resíntesis de la voz a baja tasa de bits fue demostrado por
primera vez en 1980 por Richard Wiggins: Speak’n’spell
http://www.speaknspell.co.uk
• La predicción linear multipulso, por Bishnu Atal, 1982.
Prosodia
• Bajo el término prosodia se agrupa, en el contexto del lenguaje hablado, el
estudio de la altura, intensidad y duración de los fonemas en relación a las
unidades lingüísticas.
• Dotar a la voz artificial de prosodia consiste en asignar parámetros
prosódicos: entonación, acentos, duración de sílabas y flujo.
• Estos parámetros prosódicos se traducen en variaciones de la frecuencia
fundamental, la amplitud y la duración de las unidades de entonación y las
pausas.
• La prosodia es esencial para poder comprender correctamente las unidades
fonológicas, y por lo tanto define la inteligibilidad de la voz sintética.
Prosodia
Pitch y features espectrales
Prosodia
• Tres formas:
• afirmación: “él viene”
• interrogación: “¿él viene?”
• exclamación: “¡él viene!”
Síntesis de voz
• La síntesis de puede realizar de tres maneras:
• directamente (por canales)
• por simulación del conducto vocal
• por modelos de formantes
• por modelos de predicción lineal
Síntesis de voz por canales
• El primer analizador y sintetizador corresponde al vocoder analógico por
canales de Dudley (1938):
Síntesis por simulación del conducto vocal
• Modelización de la fuente:
Impulse generator
Larynx
Source characteristic G(f)
Modal
Whisper
Síntesis por formantes
• El sintetizador de Klatt (1980) es un sintetizador por formantes con
configuraciones serie y paralelo:
Función de transferencia
del conducto vocal/serie
Impulse
generator
Fuente sonora
radiación
Fuente de ruido blanco
Función de transferencia
del conducto vocal/paralelo
Síntesis por formantes
• Parámetros de control:
Símbolo!
DU!
NSW!
NF!
SW!
G0!
F0!
AV!
AVS!
FGP!
BGP!
FGZ!
BGZ!
BGS!
AH !
AF!
F1!
B1!
F2!
B2!
F3!
B3!
F4!
B4!
F5!
B5!
F6!
B6!
FNP!
BNP!
FNZ!
BNZ!
AN !
A1!
A2!
A3!
A4!
A5!
A6!
C/V!
C!
C!
C!
C!
C!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
V!
Min.!
30!
1!
5000!
1!
0!
0!
0!
0!
0!
50!
0!
100!
100!
0!
0!
180!
30!
550!
40!
1200!
60!
2400!
100!
3000!
100!
4000!
30!
180!
40!
180!
40!
0!
0!
0!
0!
0!
0!
0!
Tip.!
200!
5!
10000!
5!
47!
100!
60!
0!
0!
200!
2500!
1500!
200!
0!
0!
500!
60!
1500!
60!
2500!
60!
3800!
60!
4500!
60!
4990!
60!
280!
90!
280!
90!
0!
60!
0!
0!
0!
0!
0!
Max.!
5000!
20!
20000!
6!
80!
500!
80!
80!
600!
2000!
5000!
9000!
1000!
80!
80!
1300!
1000!
3000!
1000!
4800!
1000!
4990!
1000!
6000!
1000!
6500!
1000!
700!
1000!
800!
1000!
80!
80!
80!
80!
80!
80!
80!
Nombre
Duración de la señal (mes)
Intervalo de actualización de parámetros
Frecuencia de muestreo
Número de formantes en configuración cascada
Ganancia del sistema (dB)
Frecuencia de la fundamental (Hz)
Amplitud sonora (dB)
Amplitud sonora cuasi-senoidal (dB)
Frecuencia del resonador glótico RGP (Hz)
Banda pasante del resonador glótico RGP (Hz)
Frecuencia del antiresonador glótico RGZ (Hz)
Banda pasante del antiresonador glótico (Hz)
Frecuencia de resonancia del resonador glótico RGS (Hz)
Amplitud de la aspiración (dB)
Amplitud de la fricción (dB)
Frecuencia de la primer fundamental (Hz)
Banda pasante de la primer fundamental (Hz)
Frecuencia de la segunda fundamental (Hz)
Banda pasante de la segunda fundamental (Hz)
Frecuencia de la tercer fundamental (Hz)
Banda pasante de la tercer fundamental (Hz)
Frecuencia de la cuarta fundamental (Hz)
Banda pasante de la cuarta fundamental (Hz)
Frecuencia de la quinta fundamental (Hz)
Banda pasante de la quinta fundamental (Hz)
Frecuencia de la sexta fundamental (Hz)
Banda pasante de la sexta fundamental (Hz)
Frecuencia del polo nasal (Hz)
Banda pasante del polo nasal (Hz)
Frecuencia del cero nasal (Hz)
Banda pasante del cero nasal (Hz)
Amplitud de formante nasal (dB)
Amplitud de primer formante (dB)
Amplitud de segunda formante (dB)
Amplitud de tercer formante (dB)
Amplitud de cuarta formante (dB)
Amplitud de quinta formante (dB)
Amplitud de sexta formante (dB)
Período de la
fundamental
Generador de
impulsos
Excitación
Generador de
ruido blanco
Amplitud
Modelo
ajustable
Sistema
Filtro de
orden p
Criterio
DAC
Optimización
Análisis
Síntesis por predicción
lineal
Síntesis
Esquema
Más
preciso
Labios
Forma neutra
Glotis
Labios
Glotis
Labios
Menos
preciso
Síntesis por predicción
lineal
Coeficientes
Síntesis de voz por
predicción lineal
Configuraciones LPC
Complejidad computacional
Menor complejidad,
modelo funcional
Síntesis directa
Requiere conocimiento a priori del proceso de producción de la voz.
Síntesis por
predicción lineal
Separa excitación y la envolvente espectral. Modelo all-pole del la
excitación + circuito vocal y nasal.
Síntesis por
formantes
Mayor complejidad,
modelo físico
Modelo que tiene en cuenta las amplitudes relativas de las formantes.
Síntesis por modelo
de prod. de voz
Tiene en cuenta las bandas de las formantes, y los pares polo-cero
introducidos por nasalización - radiación.
Síntesis por modelo
físico representativo
Considera el acoplamiento excitación-conducto vocal, la micro-prosodia,
y la aparición de polos-ceros en la producción de fricativas.
Síntesis por modelo
físico completo
Tiene en cuenta la co-articulación, y permite representar discretamente
los componentes del conducto y de la prosodia.
Sistemas de síntesis
• Los sistemas de síntesis se separan en:
• Síntesis de mensajes. Sólo se sintetizan palabras o frases aisladas (con
vocabulario limitado).
• Síntesis de texto (con vocabulario extenso).
Síntesis de mensajes
• Un ejemplo: un reloj parlante
La hora es
11
horas
24
minutos
0
segundos
Partes variables
Partes fijas
Diccionario
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 y 20 veint-
Síntesis de texto
• La señal de voz es el resultado de múltiples interacciones en el dominio
temporal y en frecuencia.
• La co-articulación juega un rol muy importante en las transiciones, y tiene
efectos tanto en sílabas anteriores como posteriores.
• Por lo tanto no es suficiente hacer la síntesis por concatenación de fonemas.
Las transiciones conllevan mucha información importante para comprender el
mensaje.
Síntesis de texto
• Hay dos métodos importantes para ensamblar fonemas:
• síntesis por difonos
• síntesis por reglas
Breve reseña histórica de síntesis
• El primer sistema TTS (text-to-speech) fue implementado en 1968 en Japón
por Noriko Umeda et al.
• Raymond Kurzweil diseño una máquina de lectura para invidentes en 1976.
• El sistema MITalk fue diseñado en 1979 en el MIT por Jonathan Aleen, Sheri
Hunnicutt y Dennis Klatt.
• El sistema TTS de AT&T de 1985.
Procesamiento de
lenguaje natural
Texto
Formas lingüísticas
Motores de inferencia
Inferencias lógicoas
Procesamiento DSP
Fonemas
Prosodia
Síntesis de texto
Modelos matemáticos
Algoritmos
Cálculo numérico
Voz
Diagrama en bloques
Procesamiento de lenguaje natural
Preprocesador
Análisis morfológico
Análisis contextual
Texto
Análisis sintáctico/
prosódico
Fonizador
Generador de prosodia
MLDS o FS
Fonemas
Prosodia
Síntesis por difonos
• Un difono es un elemento sonoro característico de la transición entre las
componentes estables de dos fonemas.
• Si un idioma dado tiene P número de fonemas, el número máximo de difonos
es P2.
• El español tiene aproximadamente 800 difonos, el alemán cerca de 2500.
• Para cada individuo hay entonces un diccionario de difonos característico.
Síntesis por difonos
Transiciones entre fonemas
Síntesis por difonos
Ejemplo: la palabra Paris
MBROLA
• El proyexto sin fines de lucro MBROLA provee un algoritmo para síntesis de
voz. Trabaja íntegramente en el dominio del tiempo
• Un ejemplo de script MBROLA:
MBROLA
MBROLA
Segmentación MBROLA
MBROLA
• Más info: http://tcts.fpms.ac.be/synthesis/mbrola.html
PSOLA
• PSOLA (Pitch Synchronous Overlap And Add) es otro algoritmo en el dominio
del tiempo.
• La forma de onda se divide en pequeños segmentos que se superponen. Los
segmentos son acercados o alejados para modificar el pitch.
PSOLA
Síntesis por reglas
• En este tipo de síntesis los parámetros del sintetizador son definidos a partir
de un cierto número de valores objetivo y reglas que determinan la evolución
de los elementos a sintetizar.
• Para este tipo de síntesis es necesario disponer de parámetros con
significado físico.
• Por lo tanto este tipo de síntesis está limitado a los sintetizadores por
formantes o por modelos físicos.
Síntesis por reglas
Descargar