CAPITULO1 - Grupo de Tecnología del Habla

Anuncio
Capítulo 1: Introducción.
CAPITULO 1: INTRODUCCIÓN
1.1. LAS TECNOLOGÍAS DEL HABLA
Hoy en día, los ordenadores desempeñan un papel fundamental en la
sociedad. El incremento en el número de usuarios, la cada vez mayor potencia
del hardware, las mayores necesidades que se pretenden cubrir, son factores,
entre otros, que están impulsando el desarrollo de métodos alternativos a los
tradicionales de intercambiar información con los ordenadores. Es lógico pues,
que uno de estos métodos sea precisamente el que resulta más natural para el
ser humano: la voz.
Las tecnologías del habla, se enmarcan en este ámbito, y pretenden
desarrollar la comunicación hombre–máquina por medio de la voz. Dentro de
ellos, podemos distinguir dos grandes áreas de trabajo:

Reconocimiento automático del habla (RAH).

Conversión texto a voz (CTV o TTS en inglés).
Este proyecto se encuadra dentro del área de conversión texto-voz, y en
particular, dentro de la síntesis de información prosódica (duración de fonemas
y frecuencias fundamentales), una parte muy importante de los sintetizadores, y
que puede determinar en gran medida la calidad de los mismos.
1.2. SISTEMAS DE CONVERSIÓN TEXTO-VOZ. PROSODIA
Un sistema de conversión automática de texto a voz puede aplicarse en
muy diferentes contextos y con indudables ventajas: ofreciendo lectura a
invidentes, como sintetizador de voz para mudos, la asistencia telefónica, acceso
a bases de datos, etc...
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
Evidentemente, el requisito fundamental que se exige a un sistema de
estas características, es la inteligibilidad del habla sintética. Una vez superado
este primer nivel, los usuarios exigen cada vez una mayor calidad, en el sentido
de similitud entre el habla sintética y el natural.
En la conversión de texto a voz, se suele distinguir entre parámetros
segmentales y suprasegmentales. El ámbito de los primeros son las unidades
mínimas consideradas para caracterizar el habla, como por ejemplo el fonema.
Así se utilizan las frecuencias, anchos de banda, amplitud de los formantes de
los diferentes sonidos, la frecuencia del cero nasal, etc... Por su parte, los
parámetros suprasegmentales afectan a unidades de orden superior al segmento
(sílabas, palabras, grupos fónicos, ...), y es la prosodia la que se encarga de su
estudio.
Los parámetros segmentales son los responsables de la inteligibilidad de
una voz. Pero una alta inteligibilidad no implica alta naturalidad. De hecho la
calidad de lo sintetizado se consigue en su mayor parte actuando sobre la
prosodia. Históricamente se consideran los tres parámetros suprasegmentales
siguientes: la frecuencia fundamental, las duraciones e intensidades.
La intensidad siempre se ha valorado como de segundo orden u no suele
utilizarse en los sistemas actuales de conversión de texto a voz, ya que algunos
estudios realizados sobre el tema no han dado resultados positivos.
La duración es un parámetro que puede considerarse como híbrido, ya
que tiene gran influencia tanto en la naturalidad de la voz como en la elocución
y marcar el ritmo de la misma.
La frecuencia fundamental por su parte, es la curva que representa la
frecuencia de vibración de las cuerdas vocales. Se trata probablemente del
parámetro que ejerce una mayor influencia sobre la naturalidad de la voz
sintetizada. Suele conocerse también como F0.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
El presente proyecto se centra en la síntesis de duraciones y de
frecuencias fundamentales. En el primer caso, se estimar la duración de cada
fonema, mientras que para el caso de la F0, se trabajará a nivel de sílaba.
1.2.1. ESTRUCTURA DE UN CONVERSOR TEXTO-VOZ
Una vez delimitado a grandes rasgos el marco del proyecto, puede resultar
útil revisar globalmente la estructura básica de un conversor texto-voz,
[Quazza,97].
Desde el punto de vista funcional, la característica común a cualquier
sistema TTS, es la necesidad de convertir mensajes expresados en algún formato
simbólico en voz. Dependiendo de las características que se deseen para la
aplicación, se imponen diferentes restricciones en la complejidad de la
conversión.
Bajo la perspectiva de los mensajes, no es lo mismo convertir una serie fija
y muy limitada de mensajes, que un texto libre sin ninguna restricción
impuesta.
En función del tipo de mensajes, se utilizan diferentes formas de
representación simbólica de los mismos:
Tipo de Mensajes
Representación Simbólica
a
Mensajes prefijados
b
Combinaciones limitadas de frases Una clave para cada frase
c
Palabras en estructura fijada
Texto con características de entonación
d
Estructura libre
Texto escrito
GRUPO DE TECNOLOGÍA DEL HABLA
Una clave para cada mensaje
Capítulo 1: Introducción.
Atendiendo a los cuatro tipos de mensajes definidos, la naturaleza del
habla generada, y los criterios de decisión acerca de qué vamos a sintetizar
varían:
Naturaleza
Decisión sobre qué se va a decir
a
Mensajes pregrabados
Tabla de correspondencia
b
Concatenación de frases grabadas
Tablas de correspondencia
c
Reproducción de sonidos simples
Representación de sonidos
Reproducción de sonidos simples y
Símbolos de sonidos y características
d
máxima flexibilidad prosódica
prosódicas
Existe una clara diferenciación entre a y b, basados en síntesis de habla
pregrabada, y la verdadera síntesis, c y d. Actualmente, la evolución de las
aplicaciones y los avances en la tecnología de la síntesis de voz proponen
combinaciones de todas las anteriores técnicas. Así aparecen técnicas de
procesado de señal que modifican la prosodia de frases pregrabadas, o sistemas
que mezclan el uso de frases pregrabadas y técnica de síntesis real.
1.2.2. DESCRIPCIÓN DE UN CONVERSOR TEXTO-VOZ
Ya se puede definir en base a lo anterior un sistema TTS como un sistema
capaz de analizar un texto de entrada, conseguir una representación simbólica
del habla a generar, y finalmente reproducir dicha simbología físicamente
generando sonidos.
Es posible por tanto, tratar las dos frases fundamentales en el proceso de
conversión como procesos totalmente independientes: Análisis de textos y
síntesis.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
Antes
de
describir
brevemente
ambas
frases,
conviene
analizar
ligeramente la naturaleza de la señal del habla, indicando alguna de sus
características más significativas:

Naturaleza combinatoria.

El habla es continua. Los transiciones entre sonidos son suaves.

Es mucho más variada que la representación textual.

Existe una correspondencia entre algunas características acústicas y
su percepción:
Acústica
Percepción
Espectro
Calidad de voz
Espectro
Tipo de sonido (fonema)
Amplitud
Volumen
Frecuencia fundamental
Pitch (altura tonal, entonación)
Alineación temporal (duración)
Ritmo
La principal conclusión que se puede extraer de todo lo anterior, es el
hecho de que un mismo sonido puede aparecer con diferente duración y
frecuencia fundamental en función de la prosodia de la frase.
1.2.2.1. Técnicas de Síntesis
Para conseguir un algoritmo de síntesis flexible, se necesitan un conjunto
de técnicas capaces de almacenar segmentos de voz, tratar las transiciones entre
segmentos, y modificar la señal de voz para imponer diferente prosodia. Los
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
segmentos pueden adoptar diferentes formas de representación, en forma de
onda o mediante representación paramétrica. En la primera, la voz se almacena
mediante muestreo digital de la señal de voz, mientras que en la segunda se
utiliza un modelado de la producción de voz humana y su ajuste mediante
parámetros característicos.
En el caso concreto del sintetizador en el que se van a integrar los
resultados de este proyecto, se trabaja un segmento de voz (difonemas)
almacenados mediante muestreo digital para su posterior concatenación.
Las técnicas de síntesis, se clasifican tradicionalmente en función de la
manera en que manejan las transiciones entre sonidos y modificar su prosodia:
síntesis concatenativa y síntesis por reglas. La primera utiliza técnicas de
tratamiento digital de la señal, mientras que la segunda utiliza reglas que
describen la evolución de parámetros y su prosodia.
Se pueden resumir por tanto las tareas principales que cumplen los algoritmos
de síntesis:

Obtención de unidades del habla y almacenamiento en un diccionario
acústico (una base de datos) en el que se guardan: la forma de onda o
parámetros LPC y los valores de los parámetros del modelo.

Concatenación: mediante técnicas digitales o reglas.

Modificación de la prosodia: mediante algoritmos de procesado de señal
o reglas.
1.2.2.2. Análisis de Textos
Como se ha visto en el apartado anterior, el cometido del módulo de
síntesis de voz es obtener las unidades, concatenarlas y asignarles nueva
prosodia. Se hace necesario por ello, la representación de sus entradas mediante
la
identidad
de
las
unidades,
GRUPO DE TECNOLOGÍA DEL HABLA
su
secuencia
y
los
valores
prosódicos
Capítulo 1: Introducción.
almacenados, que para sistemas no restringidos será la duración y la frecuencia
fundamental.
Las
tareas
básicas
del
análisis
de
textos
se
puede
representar
esquemáticamente como se hace a continuación:
Texto
Transcripción
grafema-fonema
Análisis de
estructura de frase
Secuencia de fonema
Características
prosódicas
Cálculo de valores de
prosodia
Fonema + duración y
frecuencia
fundamental
Las tareas fundamentales a realizar en un analizador de textos son pues:

Detección de palabras.

Asignación de acentos.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.

Transcripción fonética

Cálculo de valores prosódicos para cada fonema

Clasificación gramatical de palabras.
1.3. LAS REDES NEURONALES
La herramienta fundamental sobre la que se desarrolla el proyecto son las
redes neuronales. Es decir, se obtendrán las características prosódicas
(duración y F0) del texto a sintetizar utilizando redes previamente entrenadas.
Las redes neuronales, también conocidas como “redes de neuronas
artificiales” son modelos bastante simplificados de las redes de neuronas que
forman el cerebro. Y, al igual que éste, intentan “aprender” a partir de los datos
que se les suministran.
Las redes neuronales están formadas por un conjunto de neuronas
artificiales interconectadas y distribuidas en diferentes capas. Las neuronas de
una capa están conectadas con las neuronas de la siguiente. En general habrá
una primera capa de entrada (los parámetros), una o dos capas ocultas y una
capa de salida, que en nuestro caso será una única neurona (la F0 o duración
en cada caso).
Para que la red funcione correctamente, se utiliza el aprendizaje
supervisado, es decir, se de entregan a la red los valores de los parámetros de
entrada y la salida correcta que se pretende “aprender”. Si hay diferencias con lo
que estima la red, ésta se ajusta en consecuencia. Tras el entrenamiento, las
conexiones entre neuronas tendrán un determinado peso (“peso sinóptico”). Es
evidente que las bases de datos utilizadas para entrenar una red son la clave del
buen funcionamiento del sistema.
En el presente proyecto, se van a utilizar redes perceptrón multicapa.
Éstas y las redes recurrentes simples o de Elman
son las que han venido
utilizándose normalmente para problemas similares al que se pretende modelar.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
Experimentalmente se puede demostrar que la única diferencia entre la
utilización de una u otra red reside en la velocidad de entrenamiento.
Frente a otros modelos de síntesis prosódica utilizadas en el grupo como
puede ser el multiplicativo, las redes neuronales ofrecen una serie de
características de gran interés que redundan en mejores resultados:

Su
capacidad
(entrenamiento).
de
aprendizaje
Permiten
ser
a
partir
entrenados
de
para
la
experiencia
realizar
una
determinada tarea sin necesidad de estudiarla a fondo y en general con
muy buenos resultados.

Su velocidad de respuesta una vez concluido el entrenamiento. No
requieren una gran capacidad de computación cuando se utilizan en
tiempo real.

Su robustez, en el sentido de que el comportamiento adquirido se
encuentra repartido por toda la red, de forma que si se lesiona una
parte se continúan generando cierto número de respuestas correctas.

La extracción de características que relacionan los patrones de entrada
con la estimación del parámetro deseado (ya sea la duración o la
frecuencia fundamental) en mucho más sencilla.
1.4. OBJETIVOS Y FASES DEL PROYECTO
Actualmente, el Grupo de Tecnología del Habla dispone de un sintetizador
de voz masculina conocido como Boris. Paralelamente, se ha desarrollado una
herramienta para el marcado y segmentación de ficheros de voz, denominada
PCV. Haciendo uso de este programa se genera toda la información básica para
crear las bases de datos en que se apoyan los diferentes módulos del
sintetizador.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
1.4.1. OBJETIVOS DEL PROYECTO
El siguiente paso que se ha planteado en el grupo, es disponer de un
sintetizador que genere voz femenina. En general a un interlocutor de una
aplicación TTS le suele resultar más agradable una voz de mujer. De hecho se
pretende emplear el sistema resultante en aplicaciones de asistencia telefónica
en un corto espacio de tiempo. Es por ello que la calidad resultante será un
parámetro básico.
Conviene destacar igualmente, que el sistema trabajará en dominios
restringidos. Es decir, no se pretende estimar la prosodia del habla genérica sin
restricciones, sino sólo partes muy concretas de frases ya especificadas
(localidades, nombres y apellidos, entidades bancarias, ...) Estas partes se
concatenarán a posteriori con frases pregrabadas, y el resultado se presentará
por la línea telefónica. Este enfoque exige que el habla sintetizada sea de
calidad, pues de lo contrario, el contraste con lo grabado sería muy grande. Por
otro lado el restringir lo que se sintetiza, permite especializar mejor a la red
neuronal, y por ello obtener un resultado final mejor.
El presente proyecto abarca todo el proceso de creación y adaptación del
modelo de estimación de prosodia mediante redes neuronales, desde el
procesado de las grabaciones iniciales de una locutora, cuya voz se pretende
modelar, hasta la integración final en el sintetizador de los resultados obtenidos.
El objetivo fundamental del proyecto será que el sintetizador “suene” lo
mejor posible, haciendo uso de la prosodia femenina. Para ello la estimación de
las características prosódicas del texto a sintetizar que entreguen las dos redes
neuronales desarrolladas debe reproducir lo más fielmente posible la voz
grabada originalmente.
Derivados de este primer gran objetivo existirán otros como la definición,
creación y gestión de bases de datos que permita en el futuro entrenar redes
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
neuronales de características diferentes a las actuales, o el desarrollo de
software que facilite el manejo de exxxxxx parametrización, ...
1.4.2 FASES DEL PROYECTO.
El presente proyecto abarca numerosas y muy diversas tareas. Además se
han utilizado muchas herramientas diferentes en función de las necesidades
puntuales de cada caso. Es por ello que la documentación y el aprendizaje de
estos diferentes entornos, lenguajes de programación,.. ha supuesto un esfuerzo
importante.
Básicamente ha habido dos puntos de apoyo fundamentales basados en
trabajos previos del Grupo de Tecnología del Habla. Para el caso de la frecuencia
fundamental, las directrices de actuación principales se han obtenido de la tesis
doctoral de J.A.Vallejo [JAV-98]. En especial todo lo referente a parámetros a
utilizar, forma de codificarlos,...
En cuanto a las duraciones, el proyecto fin de carrera de Miguel Angel
López Carmona [MLC-99] ha sido de gran ayuda, y en especial el entorno
desarrollado en Matlab. Aunque al final se ha empleado casi exclusivamente
para la evaluación por razones que se comentan posteriormente, la filosofía de
todo el trabajo ha tratado de adaptarse a dicho entorno.
A continuación se enumeran las tareas más importantes que ha habido
que afrontar. Téngase en cuenta que algunas podían realizarse en paralelo
mientras que otras eran requisito previo para poder realizar las siguientes.

Elaboración de un programa basado en un algoritmo Greedy. Lo que se
pretende con este algoritmo es resumir una base de datos muy amplia
y genérica en otra más reducida, pero de modo que el resumen
conserve las propiedades básicas del conjunto inicial. Es este algoritmo
el que determina las frases que debe grabar la locutora de entre todas
las posibles.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.

Marcado y segmentación de la información de interés de los ficheros
grabados. Debido al enorme numero de archivos y a que el proceso es
casi enteramente manual, se contó con la ayuda de dos personas. Para
ello se utilizó el programa pcv.

Procesado de la información producida durante la etapa anterior. Se
generan igualmente las bases de datos parametrizadas iniciales, tanto
para las duraciones como para la frecuencia fundamental. Para este
propósito se han creado numerosas funciones principalmente en perl
para manejo de ficheros de texto.

Adaptación del entorno de duraciones para Matlab ya mencionado
anteriormente, a las características propias del problema que se
pretende afrontar. Ello exige un estudio previo muy exhaustivo del
mismo.

Entrenamiento de las redes neuronales y obtención de los pesos que las
configuran. Se ha utilizado para este fin el programa Mume, ejecutado
bajo entorno Linux. Este programa requiere unos datos de entrada en
un formato específico cuya creación se ha tratado de automatizar.

Evaluación e interpretación de los diferentes experimentos ejecutados.
Téngase en cuenta que las posibilidades son enormes. Se pueden
combinar parámetros, ir modificando la codificación de los mismos,
probar
con
estructuras
diferentes
en
las
capas
de
las
redes
neuronales,..

Seleccionar en función de las conclusiones obtenidas en el apartado
anterior, aquellas dos redes que mejor resuelvan la problemática
estudiada, e integrarlas en el sintetizador de voz del Grupo.
GRUPO DE TECNOLOGÍA DEL HABLA
Capítulo 1: Introducción.
Por último, y para el caso de la frecuencia fundamental se ha realizado
una evaluación subjetiva de los resultados obtenidos frente al modelo anterior
de picos y valles.
GRUPO DE TECNOLOGÍA DEL HABLA
Descargar