capítulo 2 estado del arte - Grupo de Tecnología del Habla

Anuncio
Capítulo 2. Estado del arte
CAPÍTULO 2
ESTADO DEL ARTE
Hoy día existen conversores texto-voz de alta inteligibilidad en la mayoría de los
idiomas (inglés, francés, alemán, español, portugués). Su utilización en aplicaciones
comerciales es cada vez mayor y se prevé que vaya en aumento. Una prueba de ello es
la existencia de empresas dedicadas a la fabricación de estos sistemas, como por
ejemplo Lernaut & Huspie, que diseña conversores para una gran variedad de idiomas,
o el Grupo de Tecnología del Habla de Telefónica I+D, que ha desarrollado un
conversor texto-voz para los idiomas y dialectos hablados en la Península. También hay
que citar a las Universidades, tanto españolas como del resto de países europeos
(Francia, Bélgica, Inglaterra,...), que llevan a cabo importantes labores de investigación
en este campo y aplicando los resultados a sistemas concretos. Muchos de estos trabajos
se realizan en colaboración con empresas.
En lo que se refiere a la inteligibilidad, podemos decir que los sistemas actuales
han alcanzado un nivel suficiente para ser entendidos por cualquier persona, incluso a
través de una línea telefónica. Esto último ha supuesto una dificultad añadida, ya que el
canal telefónico distorsiona en cierta medida la señal que transporta.
El reto actual de los conversores texto-voz es la naturalidad, conseguir que la
voz sintética suene lo más parecido posible a la voz humana. La voz generada por estos
15
Capítulo 2. Estado del arte
sistemas suena artificial y esta es la principal causa de rechazo por parte del público
general. Para conseguir incrementar la naturalidad de un conversor texto-voz habría que
trabajar en mejorar el funcionamiento general del sintetizador, y más concretamente las
bases de datos prosódicas y el análisis lingüístico del texto de entrada. Este último punto
será uno de los objetivos del presente trabajo.
La mejora del sintetizador está limitada fundamentalmente por aspectos
técnicos: consumo de memoria y potencia de cálculo. En aplicaciones comerciales se
intenta llegar a un compromiso entre la calidad de la voz sintetizada y el número de
conversiones simultáneas que puede realizar el equipo. En cuanto al análisis lingüístico,
se sigue trabajando para llegar a un profundo conocimiento del idioma.
Por una parte, la teoría acústica de producción de voz, simplificada o completada
con la introducción de mejores modelos de la laringe, tráquea e interacciones fuentefiltro, no es adecuada para la representación de los parámetros que controlamos al
hablar, ni de los parámetros directamente involucrados en la decodificación perceptual
de la voz. La teoría es una descripción del comportamiento acústico de un sistema
mecánico. En resumen, parece que el estudio de los procesos básicos de producción y
percepción de voz es crucial para conseguir mejoras.
Otro problema importante surgió al contemplar la creación de los sistemas de
reglas naturales que manejan estructuras articulatorias. ¿Dónde están los datos que
podrían facilitar la creación de modelos realistas y de un modelo de comportamiento?
Las consecuencias acústicas de cualquier articulación dependen del área de la sección
transversal del tubo que se forma, y la precisión es más importante en zonas donde se
producen estrechamientos. Sin embargo, los datos obtenidos a través de rayos X son
escasos, ya que únicamente dan ideas generales en dos dimensiones, de donde debe
deducirse el área de dicha sección. Además los rayos X no caracterizan las masas y
grados de libertad de los componentes articulatorios que envuelven el sistema de
producción de voz [Klatt 87].
Para resolver todos estos problemas se tiende en la actualidad a dotar de una
mayor inteligencia a los sistemas de análisis [López 93]. Los métodos de análisis
secuencial están siendo sustituidos por otros nuevos. Ya en 1994 Minhwa Chung y Dan
Moldovan describen un sistema que utiliza técnicas de procesamiento paralelo para la
16
Capítulo 2. Estado del arte
comprensión del lenguaje natural [Chung 94]. Estos trabajos forman parte de las
investigaciones realizadas para Fourth ARPA Message Understanding Conference
(MUC). Para demostrar el potencial de los métodos en paralelo para el procesamiento
del lenguaje, desarrollaron un procesador de textos que utiliza una red semántica.
Una red semántica representa los datos como una estructura de conceptos
(nodos) interconectados y las relaciones entre ellos. Los nodos se organizan
jerárquicamente por enlaces es-un de mayor a menor generalidad, de manera que las
propiedades de los nodos más generales las heredan los nodos más específicos. Para
encontrar relaciones entre los conceptos en la red semántica se utiliza un mecanismo de
inferencia paralelo que se denomina marker passing. Los marcadores son flags que
pueden viajar libremente por la red. La inferencia se consigue propagando los
marcadores desde el concepto de origen y comprobando la intersección de distintos
marcadores. La Figura 2.1 muestra una red semántica consistente en conceptos como
mamífero, elefante y Jumbo, y hechos como Jumbo es-un elefante y elefante es-un
mamífero. Por ejemplo, podemos colocar un marcador en el nodo artista de circo y
otro en elefante, obligamos a los marcadores a extenderse en sentido inverso al de los
enlaces es-un, y veremos en qué nodos confluyen ambos marcadores. Como Jumbo
tiene los dos, podemos deducir que Jumbo es un elefante del circo.
mamífero
es-un
es-un
es-un
león
hombre
es-un
elefante
es-un
es-un
hombre
es-un
artista-circo
es-un
es-un
es-un
Leo
Jumbo
Figura 2.1. Red semántica para Jumbo elefante del circo
17
Capítulo 2. Estado del arte
Los categorizadores o parsers, como se les denomina en inglés, basados en
memoria utilizan la idea de los marcadores en una red semántica para unir frases de
entrada con estructuras almacenadas en memoria. El sistema almacena posibles patrones
de entrada denominados secuencias de conceptos. La base de datos es una red semántica
organizada jerárquicamente. El algoritmo de análisis une conceptos con marcadores de
predicción y de activación y mueve los marcadores de predicción cuando coinciden con
los de activación. Cuando un elemento ya ha sido reconocido, el sistema lo acepta y
desplaza el marcador de predicción al siguiente elemento de la secuencia de conceptos.
Cuando el último elemento de la secuencia es aceptado, el sistema genera una
interpretación de la frase y la almacena en la base de datos.
Al principio, el parser predice muchos nodos, pero cuando aumenta el número
de palabras de entrada, solo unos pocos nodos reciben activaciones y son aceptados. De
este modo, el parser basado en memoria actúa como un filtro, en el cual cada nueva
palabra de entrada reduce el número de posibles significados.
Analizador
Paralelo
Texto
PreDefinición
procesador I
Analizador
de frases
diccionario
Segmento
de frase
Analizador
basado
memoria
I Interpretación
Base
Figura 2.2 Estructura del sistema de análisis en paralelo
La evaluación del sistema se hizo con dos conjuntos de 100 textos cada uno,
sacados de los artículos periodísticos sobre sucesos terroristas de América Latina,
obteniendo un acierto del 9.74 % para un grupo de textos y un 17.76 % para el otro.
Estos resultados combinan Recall (número de veces que se presenta la solución correcta
entre todas las posibles) y Precisión (número de veces en que se da únicamente la
solución correcta). Para evaluar el categorizador únicamente, utilizaron 500 frases del
corpus MUC-4. El sistema de análisis paralelo acertó un 68 %. Por otra parte,
18
Capítulo 2. Estado del arte
estudiaron la influencia del tamaño de la base de datos en la velocidad del sistema y
encontraron que cuando crece la base de datos, el tiempo total de procesamiento (tiempo
del análisis basado en memoria más tiempo del análisis de frase) aumenta linealmente, y
este aumento es debido al tiempo del análisis basado en memoria, mientras que el
tiempo del análisis de frases permanece constante. Análogamente, el tiempo de
procesamiento es proporcional a la longitud de las frases. Los errores en el análisis
paralelo se producen cuando la frase tiene un verbo que no está definido en la base de
datos. Por tanto, la mejora del sistema pasa por aumentar el tamaño de la base de datos,
cosa que resultaría fácil debido a su estructura modular. Sin embargo, en los sistemas
comerciales esto no siempre es posible y es necesario llegar a un compromiso entre
calidad y potencia de cálculo.
Siguiendo con la búqueda de nuevos métodos de ánalisis, encontramos los
sistemas recurrentes y cíclicos. En este campo destacan los trabajos realizados por
Emmanuel Giguet y Jacques Vergne [Giguet 97]. Estos autores han desarrollado un
sistema de análisis gramatical sin restricciones para el idioma francés. Dicho análisis se
lleva a cabo manteniendo la coherencia global de la estructura sintáctica y controlando
la explosión combinatoria. La entrada al programa es un texto escrito en francés sin
restricciones y da como salida el análisis sintáctico del mismo. Se consideran distintos
niveles de análisis, de forma que la información extraída en cada nivel se propaga a los
siguientes para que todos puedan beneficiarse del conocimiento recién adquirido. El
resultado es una arquitectura flexible que permite evidenciar diferentes clases de
fenómenos sintácticos descritos dentro de un marco único. La implementación actual
maneja relaciones de dependencia, coordinación y antecedencia. La evaluación del
sistema se llevó a cabo con textos del periódico Le Monde, obteniendo porcentajes de
acierto superiores al 90 %, concretamente un Recall del 96.39 % (porcentaje de aciertos
sobre el número de soluciones posibles) y un 94.94 % en Precisión (porcentaje de
aciertos sobre el total). Estos primeros resultados corroboran empíricamente la validez
de los planteamientos utilizados. Este método soluciona grandes problemas, como por
ejemplo la posibilidad de intercambiar, en lenguajes latinos, el lugar de aparición de
sujetos, complementos, etc. en la frase.
La tendencia actual es hacia un análisis global que maneje simultáneamente la
mayor cantidad de información posible y hacia el aprendizaje automático. Los primeros
19
Capítulo 2. Estado del arte
conversores (Klein & Simmons, 1963) utilizaban para la categorización reglas
elaboradas manualmente, lo que suponía un proceso muy laborioso. Más adelante se
comprobó que los modelos de Markov basados en categorizadores estocásticos
entrenados automáticamente podían conseguir elevadas tasas de aciertos. A pesar de las
ventajas de los categorizadores estocásticos frente a los construidos manualmente tiene
el inconveniente de que la información lingüística se obtiene de forma indirecta, en
grandes tablas de estadísticos. Por lo tanto, podemos distinguir dos tipos de conversores
texto-voz, los que poseen un conocimiento generado manualmente y los que utilizan
reglas sintetizadas automáticamente.
Dentro de este segundo tipo de conversores, es de especial relevancia la Teoría
de aprendizaje basado en errores-guiados elaborada por Eric Brill [Brill 95]. Esta
teoría requiere la existencia de un corpus etiquetado manualmente. El proceso propuesto
por Brill es el siguiente: inicialmente a cada palabra se le asigna su categoría más
probable según el corpus de entrenamiento. Después, se extraen del corpus reglas
léxicas para asignar la categoría más probable a las palabras nuevas, desconocidas. A
continuación se aprende una lista ordenada de transformaciones con el fin de mejorar el
resultado de la categorización basada en reglas contextuales. Estas transformaciones
cambian la categoría de una palabra de X a Y si:
1. La palabra no había aparecido en el corpus de entrenamiento
2. La palabra fue etiquetada con la categoría Y al menos una vez en el corpus
de entrenamiento.
Por tanto, el análisis consiste en extraer reglas para corregir los errores
cometidos en la asignación de categorías a las palabras. Cada una de las reglas se aplica
al texto completo, y si esa regla conduce a un resultado peor que el anterior, se elimina.
El proceso consiste en quedarse siempre con la regla mejor de todas las posibles, pero
no la que corrija un error concreto sino la que mejore el resultado global. Además hay
que tener en cuenta la influencia del orden en que se aplican las reglas. El mismo
conjunto de reglas aplicado en órdenes distintos conduce a resultados distintos.
Con este método se obtienen muy buenos resultados. Los porcentajes de acierto
son superiores al 95 %, pero como contrapartida hay que decir que la propuesta de Brill
es fuertemente dependiente del corpus de entrenamiento.
El categorizador de Brill fue diseñado en un principio para el inglés, sin
embargo su teoría es independiente del lenguaje y puede aplicarse a cualquier idioma.
20
Capítulo 2. Estado del arte
Una prueba de ello es la adaptación para el español realizada por el Grupo de
Tecnología del Habla de la Universidad Politécnica de Madrid [Stathis 98]. El objetivo
de este trabajo era la construcción de un categorizador para el español utilizando la
teoría de aprendizaje basado en errores-guiados de Eric Brill. El corpus disponible se
dividía en 8 partes iguales, 7 para entrenamiento y 1 para verificación. En un principio
se creó un conjunto de categorías (Inicial) pero durante el proceso de entrenamiento se
decidió probar con un conjunto más detallado (Refinado) con el fin de mejorar el
porcentaje de aciertos. Para las pruebas finales se utilizaron tres corpus: Corpus-1 con
117.542 palabras y Corpus-2 con 144.185 palabras, y el Corpus-3 con 108.436 palabras
y textos de periódicos españoles. Los resultados se muestran en la siguiente Tabla.
Corpus de
Entrenamiento
Conjunto de
Categorías
Corpus de
Evaluación
Palabras
Errores
Aciertos (%)
Corpus-1
Corpus-2
Corpus-3
Corpus-1
Corpus-2
Corpus-1
Corpus-1 +
Corpus-2 +
Corpus-3
Inicial
Inicial
Inicial
Inicial
Inicial
Refinado
Corpus-1
Corpus-2
Corpus-3
Corpus-2
Corpus-1
Corpus-1
Corpus-1 +
Corpus-2 +
Corpus-3
13272
16530
5849
16530
13272
15291
99
83
98
691
402
103
99.25
99.50
98.32
95.82
96.97
99.33
35760
580
98.38
Refinado
Tabla 2.1. Resultados de la evaluación
Como puede comprobarse, los resultados obtenidos son muy buenos, sin
embargo son poco realistas. El corpus utilizado para entrenar el categorizador tiene una
baja tasa de ambigüedad (porcentaje de palabras con más de una posible categoría), por
lo que con la primera categorización ya se consiguen buenos resultados. Y, por otra
parte, está la falta de variedad en los textos empleados. Para conseguir resultados más
realistas debería utilizarse un corpus con textos de distintos tipos y además se requeriría
un enorme diccionario con todas las posibles categorías para cada palabra.
En los estudios anteriores se optó por un aprendizaje supervisado. Como
propuesta alternativa, dentro del mismo proyecto, el Grupo de Tecnología del Habla
probó el uso de un aprendizaje no supervisado. El categorizador no supervisado de Brill,
de dominio público al igual que el anterior, tiene una ventaja fundamental: en el
diccionario que contiene todas las posibles categorías para cada palabra, la categoría
21
Capítulo 2. Estado del arte
más probable no tiene que ser la primera de la lista. Esto es un serio problema para la
elaboración de un gran diccionario cubriendo una amplia variedad de tipos de textos.
La principal desventaja de este sistema es que no admite un aprendizaje con
reglas léxicas para asignar la categoría más probable a las palabras nuevas. Por el
contrario, necesita que un conjunto de estas reglas esté disponible por adelantado. Es
posible definir un sencillo conjunto de reglas para cubrir los casos más frecuentes pero
la completitud y calidad de estas reglas influyen considerablemente en los resultados.
Así, cuanto más completo es el conjunto de reglas para las palabras nuevas, mejor es el
porcentaje de aciertos del categorizador.
Otro método para extraer reglas que eliminan las ambigüedades de un corpus
son las redes neuronales. Una vez asignada a cada palabra la categoría más probable se
utiliza una red neuronal para realizar las adecuadas transformaciones de las categorías
basadas en información contextual. Este método también depende del diccionario que
contiene todas las posibles categorías para cada palabra y la categoría más probable
figura la primera en la lista. Por otro parte, esta alternativa no ha podido probarse de
forma fiable al no disponer actualmente de un corpus en español con una alta tasa de
ambigüedad.
Hemos de decir que el auge que están teniendo en la actualidad los conversores
texto-voz se debe en gran medida a su introducción en múltiples aplicaciones
comerciales y humanitarias (enseñanza, medicina, ayuda a discapacitados). Todos los
sistemas actuales cometen errores en el análisis del texto de entrada. Las rutinas de
formateado del texto pueden no estar preparadas para tratar con letras poco frecuentes o
con expresiones numéricas. Las rutinas de pronunciación de las palabras tienen una
probabilidad de error cuando se encuentran con palabras desconocidas, y esta tasa de
error tiende a aumentar en el caso de palabras extranjeras o nombres propios. Las
rutinas de análisis sintáctico pueden ser incapaces de derivar estructuras de frase
adecuadas para algunas oraciones, o de elegir entre dos alternativas de pronunciación de
una palabra ortográficamente ambigua. Estos errores de análisis son relativamente
frecuentes, produciéndose aproximadamente en un tercio de las frases del texto
analizado. Por otro lado, la mejora del análisis sintáctico requeriría conocimientos
semánticos, grandes estructuras de datos y programas no disponibles por el momento.
22
Capítulo 2. Estado del arte
Los principales problemas a resolver en los algoritmos de síntesis de los
conversores texto-voz se presentan en la Tabla 2.2 [Klatt 87]. Los que se refieren al
preprocesamiento y categorización gramatical del texto serán tratados de forma
detallada en capítulos posteriores por ser el eje central del presente trabajo.
ANÁLIS DEL TEXTO
Formateado
• Programas para detectar formatos estándar y abreviaturas
Sintáxis/Semática
• Análisis sintáctico específico para la conversión texto-voz
• "Bootstrapping semantic information"
Predicción de fonemas/acentos
• Descomposición en morfemas
• Nombres propios
SÍNTESIS
Prosodia
• Nuevos sistemas de reglas para el control de la frecuencia fundamental
• Mecanismos para obtener variedad dentro de las reglas
Fonología
• Detalles adicionales en el nivel de frases grabadas
Acústica-Fonética
• Inteligibilidad segmental
• Reglas para aumentar la naturalidad
Calidad de voz
• Flexibilidad en el control de la voz sintética
• Control de la fuente como una función del tiempo
• Adaptación a las particularidades de la voz femenina
APLICACIONES
Transferir tecnología
• Uso de esta tecnología en la ayuda a discapacitados
Tabla 2.2. Propuestas para mejorar los conversores texto-voz
23
Capítulo 2. Estado del arte
CAPÍTULO 2 ESTADO DEL ARTE .....................................................................15
ESTADO DEL ARTE................................................................................................15
24
Descargar