Capítulo 2. Estado del arte CAPÍTULO 2 ESTADO DEL ARTE Hoy día existen conversores texto-voz de alta inteligibilidad en la mayoría de los idiomas (inglés, francés, alemán, español, portugués). Su utilización en aplicaciones comerciales es cada vez mayor y se prevé que vaya en aumento. Una prueba de ello es la existencia de empresas dedicadas a la fabricación de estos sistemas, como por ejemplo Lernaut & Huspie, que diseña conversores para una gran variedad de idiomas, o el Grupo de Tecnología del Habla de Telefónica I+D, que ha desarrollado un conversor texto-voz para los idiomas y dialectos hablados en la Península. También hay que citar a las Universidades, tanto españolas como del resto de países europeos (Francia, Bélgica, Inglaterra,...), que llevan a cabo importantes labores de investigación en este campo y aplicando los resultados a sistemas concretos. Muchos de estos trabajos se realizan en colaboración con empresas. En lo que se refiere a la inteligibilidad, podemos decir que los sistemas actuales han alcanzado un nivel suficiente para ser entendidos por cualquier persona, incluso a través de una línea telefónica. Esto último ha supuesto una dificultad añadida, ya que el canal telefónico distorsiona en cierta medida la señal que transporta. El reto actual de los conversores texto-voz es la naturalidad, conseguir que la voz sintética suene lo más parecido posible a la voz humana. La voz generada por estos 15 Capítulo 2. Estado del arte sistemas suena artificial y esta es la principal causa de rechazo por parte del público general. Para conseguir incrementar la naturalidad de un conversor texto-voz habría que trabajar en mejorar el funcionamiento general del sintetizador, y más concretamente las bases de datos prosódicas y el análisis lingüístico del texto de entrada. Este último punto será uno de los objetivos del presente trabajo. La mejora del sintetizador está limitada fundamentalmente por aspectos técnicos: consumo de memoria y potencia de cálculo. En aplicaciones comerciales se intenta llegar a un compromiso entre la calidad de la voz sintetizada y el número de conversiones simultáneas que puede realizar el equipo. En cuanto al análisis lingüístico, se sigue trabajando para llegar a un profundo conocimiento del idioma. Por una parte, la teoría acústica de producción de voz, simplificada o completada con la introducción de mejores modelos de la laringe, tráquea e interacciones fuentefiltro, no es adecuada para la representación de los parámetros que controlamos al hablar, ni de los parámetros directamente involucrados en la decodificación perceptual de la voz. La teoría es una descripción del comportamiento acústico de un sistema mecánico. En resumen, parece que el estudio de los procesos básicos de producción y percepción de voz es crucial para conseguir mejoras. Otro problema importante surgió al contemplar la creación de los sistemas de reglas naturales que manejan estructuras articulatorias. ¿Dónde están los datos que podrían facilitar la creación de modelos realistas y de un modelo de comportamiento? Las consecuencias acústicas de cualquier articulación dependen del área de la sección transversal del tubo que se forma, y la precisión es más importante en zonas donde se producen estrechamientos. Sin embargo, los datos obtenidos a través de rayos X son escasos, ya que únicamente dan ideas generales en dos dimensiones, de donde debe deducirse el área de dicha sección. Además los rayos X no caracterizan las masas y grados de libertad de los componentes articulatorios que envuelven el sistema de producción de voz [Klatt 87]. Para resolver todos estos problemas se tiende en la actualidad a dotar de una mayor inteligencia a los sistemas de análisis [López 93]. Los métodos de análisis secuencial están siendo sustituidos por otros nuevos. Ya en 1994 Minhwa Chung y Dan Moldovan describen un sistema que utiliza técnicas de procesamiento paralelo para la 16 Capítulo 2. Estado del arte comprensión del lenguaje natural [Chung 94]. Estos trabajos forman parte de las investigaciones realizadas para Fourth ARPA Message Understanding Conference (MUC). Para demostrar el potencial de los métodos en paralelo para el procesamiento del lenguaje, desarrollaron un procesador de textos que utiliza una red semántica. Una red semántica representa los datos como una estructura de conceptos (nodos) interconectados y las relaciones entre ellos. Los nodos se organizan jerárquicamente por enlaces es-un de mayor a menor generalidad, de manera que las propiedades de los nodos más generales las heredan los nodos más específicos. Para encontrar relaciones entre los conceptos en la red semántica se utiliza un mecanismo de inferencia paralelo que se denomina marker passing. Los marcadores son flags que pueden viajar libremente por la red. La inferencia se consigue propagando los marcadores desde el concepto de origen y comprobando la intersección de distintos marcadores. La Figura 2.1 muestra una red semántica consistente en conceptos como mamífero, elefante y Jumbo, y hechos como Jumbo es-un elefante y elefante es-un mamífero. Por ejemplo, podemos colocar un marcador en el nodo artista de circo y otro en elefante, obligamos a los marcadores a extenderse en sentido inverso al de los enlaces es-un, y veremos en qué nodos confluyen ambos marcadores. Como Jumbo tiene los dos, podemos deducir que Jumbo es un elefante del circo. mamífero es-un es-un es-un león hombre es-un elefante es-un es-un hombre es-un artista-circo es-un es-un es-un Leo Jumbo Figura 2.1. Red semántica para Jumbo elefante del circo 17 Capítulo 2. Estado del arte Los categorizadores o parsers, como se les denomina en inglés, basados en memoria utilizan la idea de los marcadores en una red semántica para unir frases de entrada con estructuras almacenadas en memoria. El sistema almacena posibles patrones de entrada denominados secuencias de conceptos. La base de datos es una red semántica organizada jerárquicamente. El algoritmo de análisis une conceptos con marcadores de predicción y de activación y mueve los marcadores de predicción cuando coinciden con los de activación. Cuando un elemento ya ha sido reconocido, el sistema lo acepta y desplaza el marcador de predicción al siguiente elemento de la secuencia de conceptos. Cuando el último elemento de la secuencia es aceptado, el sistema genera una interpretación de la frase y la almacena en la base de datos. Al principio, el parser predice muchos nodos, pero cuando aumenta el número de palabras de entrada, solo unos pocos nodos reciben activaciones y son aceptados. De este modo, el parser basado en memoria actúa como un filtro, en el cual cada nueva palabra de entrada reduce el número de posibles significados. Analizador Paralelo Texto PreDefinición procesador I Analizador de frases diccionario Segmento de frase Analizador basado memoria I Interpretación Base Figura 2.2 Estructura del sistema de análisis en paralelo La evaluación del sistema se hizo con dos conjuntos de 100 textos cada uno, sacados de los artículos periodísticos sobre sucesos terroristas de América Latina, obteniendo un acierto del 9.74 % para un grupo de textos y un 17.76 % para el otro. Estos resultados combinan Recall (número de veces que se presenta la solución correcta entre todas las posibles) y Precisión (número de veces en que se da únicamente la solución correcta). Para evaluar el categorizador únicamente, utilizaron 500 frases del corpus MUC-4. El sistema de análisis paralelo acertó un 68 %. Por otra parte, 18 Capítulo 2. Estado del arte estudiaron la influencia del tamaño de la base de datos en la velocidad del sistema y encontraron que cuando crece la base de datos, el tiempo total de procesamiento (tiempo del análisis basado en memoria más tiempo del análisis de frase) aumenta linealmente, y este aumento es debido al tiempo del análisis basado en memoria, mientras que el tiempo del análisis de frases permanece constante. Análogamente, el tiempo de procesamiento es proporcional a la longitud de las frases. Los errores en el análisis paralelo se producen cuando la frase tiene un verbo que no está definido en la base de datos. Por tanto, la mejora del sistema pasa por aumentar el tamaño de la base de datos, cosa que resultaría fácil debido a su estructura modular. Sin embargo, en los sistemas comerciales esto no siempre es posible y es necesario llegar a un compromiso entre calidad y potencia de cálculo. Siguiendo con la búqueda de nuevos métodos de ánalisis, encontramos los sistemas recurrentes y cíclicos. En este campo destacan los trabajos realizados por Emmanuel Giguet y Jacques Vergne [Giguet 97]. Estos autores han desarrollado un sistema de análisis gramatical sin restricciones para el idioma francés. Dicho análisis se lleva a cabo manteniendo la coherencia global de la estructura sintáctica y controlando la explosión combinatoria. La entrada al programa es un texto escrito en francés sin restricciones y da como salida el análisis sintáctico del mismo. Se consideran distintos niveles de análisis, de forma que la información extraída en cada nivel se propaga a los siguientes para que todos puedan beneficiarse del conocimiento recién adquirido. El resultado es una arquitectura flexible que permite evidenciar diferentes clases de fenómenos sintácticos descritos dentro de un marco único. La implementación actual maneja relaciones de dependencia, coordinación y antecedencia. La evaluación del sistema se llevó a cabo con textos del periódico Le Monde, obteniendo porcentajes de acierto superiores al 90 %, concretamente un Recall del 96.39 % (porcentaje de aciertos sobre el número de soluciones posibles) y un 94.94 % en Precisión (porcentaje de aciertos sobre el total). Estos primeros resultados corroboran empíricamente la validez de los planteamientos utilizados. Este método soluciona grandes problemas, como por ejemplo la posibilidad de intercambiar, en lenguajes latinos, el lugar de aparición de sujetos, complementos, etc. en la frase. La tendencia actual es hacia un análisis global que maneje simultáneamente la mayor cantidad de información posible y hacia el aprendizaje automático. Los primeros 19 Capítulo 2. Estado del arte conversores (Klein & Simmons, 1963) utilizaban para la categorización reglas elaboradas manualmente, lo que suponía un proceso muy laborioso. Más adelante se comprobó que los modelos de Markov basados en categorizadores estocásticos entrenados automáticamente podían conseguir elevadas tasas de aciertos. A pesar de las ventajas de los categorizadores estocásticos frente a los construidos manualmente tiene el inconveniente de que la información lingüística se obtiene de forma indirecta, en grandes tablas de estadísticos. Por lo tanto, podemos distinguir dos tipos de conversores texto-voz, los que poseen un conocimiento generado manualmente y los que utilizan reglas sintetizadas automáticamente. Dentro de este segundo tipo de conversores, es de especial relevancia la Teoría de aprendizaje basado en errores-guiados elaborada por Eric Brill [Brill 95]. Esta teoría requiere la existencia de un corpus etiquetado manualmente. El proceso propuesto por Brill es el siguiente: inicialmente a cada palabra se le asigna su categoría más probable según el corpus de entrenamiento. Después, se extraen del corpus reglas léxicas para asignar la categoría más probable a las palabras nuevas, desconocidas. A continuación se aprende una lista ordenada de transformaciones con el fin de mejorar el resultado de la categorización basada en reglas contextuales. Estas transformaciones cambian la categoría de una palabra de X a Y si: 1. La palabra no había aparecido en el corpus de entrenamiento 2. La palabra fue etiquetada con la categoría Y al menos una vez en el corpus de entrenamiento. Por tanto, el análisis consiste en extraer reglas para corregir los errores cometidos en la asignación de categorías a las palabras. Cada una de las reglas se aplica al texto completo, y si esa regla conduce a un resultado peor que el anterior, se elimina. El proceso consiste en quedarse siempre con la regla mejor de todas las posibles, pero no la que corrija un error concreto sino la que mejore el resultado global. Además hay que tener en cuenta la influencia del orden en que se aplican las reglas. El mismo conjunto de reglas aplicado en órdenes distintos conduce a resultados distintos. Con este método se obtienen muy buenos resultados. Los porcentajes de acierto son superiores al 95 %, pero como contrapartida hay que decir que la propuesta de Brill es fuertemente dependiente del corpus de entrenamiento. El categorizador de Brill fue diseñado en un principio para el inglés, sin embargo su teoría es independiente del lenguaje y puede aplicarse a cualquier idioma. 20 Capítulo 2. Estado del arte Una prueba de ello es la adaptación para el español realizada por el Grupo de Tecnología del Habla de la Universidad Politécnica de Madrid [Stathis 98]. El objetivo de este trabajo era la construcción de un categorizador para el español utilizando la teoría de aprendizaje basado en errores-guiados de Eric Brill. El corpus disponible se dividía en 8 partes iguales, 7 para entrenamiento y 1 para verificación. En un principio se creó un conjunto de categorías (Inicial) pero durante el proceso de entrenamiento se decidió probar con un conjunto más detallado (Refinado) con el fin de mejorar el porcentaje de aciertos. Para las pruebas finales se utilizaron tres corpus: Corpus-1 con 117.542 palabras y Corpus-2 con 144.185 palabras, y el Corpus-3 con 108.436 palabras y textos de periódicos españoles. Los resultados se muestran en la siguiente Tabla. Corpus de Entrenamiento Conjunto de Categorías Corpus de Evaluación Palabras Errores Aciertos (%) Corpus-1 Corpus-2 Corpus-3 Corpus-1 Corpus-2 Corpus-1 Corpus-1 + Corpus-2 + Corpus-3 Inicial Inicial Inicial Inicial Inicial Refinado Corpus-1 Corpus-2 Corpus-3 Corpus-2 Corpus-1 Corpus-1 Corpus-1 + Corpus-2 + Corpus-3 13272 16530 5849 16530 13272 15291 99 83 98 691 402 103 99.25 99.50 98.32 95.82 96.97 99.33 35760 580 98.38 Refinado Tabla 2.1. Resultados de la evaluación Como puede comprobarse, los resultados obtenidos son muy buenos, sin embargo son poco realistas. El corpus utilizado para entrenar el categorizador tiene una baja tasa de ambigüedad (porcentaje de palabras con más de una posible categoría), por lo que con la primera categorización ya se consiguen buenos resultados. Y, por otra parte, está la falta de variedad en los textos empleados. Para conseguir resultados más realistas debería utilizarse un corpus con textos de distintos tipos y además se requeriría un enorme diccionario con todas las posibles categorías para cada palabra. En los estudios anteriores se optó por un aprendizaje supervisado. Como propuesta alternativa, dentro del mismo proyecto, el Grupo de Tecnología del Habla probó el uso de un aprendizaje no supervisado. El categorizador no supervisado de Brill, de dominio público al igual que el anterior, tiene una ventaja fundamental: en el diccionario que contiene todas las posibles categorías para cada palabra, la categoría 21 Capítulo 2. Estado del arte más probable no tiene que ser la primera de la lista. Esto es un serio problema para la elaboración de un gran diccionario cubriendo una amplia variedad de tipos de textos. La principal desventaja de este sistema es que no admite un aprendizaje con reglas léxicas para asignar la categoría más probable a las palabras nuevas. Por el contrario, necesita que un conjunto de estas reglas esté disponible por adelantado. Es posible definir un sencillo conjunto de reglas para cubrir los casos más frecuentes pero la completitud y calidad de estas reglas influyen considerablemente en los resultados. Así, cuanto más completo es el conjunto de reglas para las palabras nuevas, mejor es el porcentaje de aciertos del categorizador. Otro método para extraer reglas que eliminan las ambigüedades de un corpus son las redes neuronales. Una vez asignada a cada palabra la categoría más probable se utiliza una red neuronal para realizar las adecuadas transformaciones de las categorías basadas en información contextual. Este método también depende del diccionario que contiene todas las posibles categorías para cada palabra y la categoría más probable figura la primera en la lista. Por otro parte, esta alternativa no ha podido probarse de forma fiable al no disponer actualmente de un corpus en español con una alta tasa de ambigüedad. Hemos de decir que el auge que están teniendo en la actualidad los conversores texto-voz se debe en gran medida a su introducción en múltiples aplicaciones comerciales y humanitarias (enseñanza, medicina, ayuda a discapacitados). Todos los sistemas actuales cometen errores en el análisis del texto de entrada. Las rutinas de formateado del texto pueden no estar preparadas para tratar con letras poco frecuentes o con expresiones numéricas. Las rutinas de pronunciación de las palabras tienen una probabilidad de error cuando se encuentran con palabras desconocidas, y esta tasa de error tiende a aumentar en el caso de palabras extranjeras o nombres propios. Las rutinas de análisis sintáctico pueden ser incapaces de derivar estructuras de frase adecuadas para algunas oraciones, o de elegir entre dos alternativas de pronunciación de una palabra ortográficamente ambigua. Estos errores de análisis son relativamente frecuentes, produciéndose aproximadamente en un tercio de las frases del texto analizado. Por otro lado, la mejora del análisis sintáctico requeriría conocimientos semánticos, grandes estructuras de datos y programas no disponibles por el momento. 22 Capítulo 2. Estado del arte Los principales problemas a resolver en los algoritmos de síntesis de los conversores texto-voz se presentan en la Tabla 2.2 [Klatt 87]. Los que se refieren al preprocesamiento y categorización gramatical del texto serán tratados de forma detallada en capítulos posteriores por ser el eje central del presente trabajo. ANÁLIS DEL TEXTO Formateado • Programas para detectar formatos estándar y abreviaturas Sintáxis/Semática • Análisis sintáctico específico para la conversión texto-voz • "Bootstrapping semantic information" Predicción de fonemas/acentos • Descomposición en morfemas • Nombres propios SÍNTESIS Prosodia • Nuevos sistemas de reglas para el control de la frecuencia fundamental • Mecanismos para obtener variedad dentro de las reglas Fonología • Detalles adicionales en el nivel de frases grabadas Acústica-Fonética • Inteligibilidad segmental • Reglas para aumentar la naturalidad Calidad de voz • Flexibilidad en el control de la voz sintética • Control de la fuente como una función del tiempo • Adaptación a las particularidades de la voz femenina APLICACIONES Transferir tecnología • Uso de esta tecnología en la ayuda a discapacitados Tabla 2.2. Propuestas para mejorar los conversores texto-voz 23 Capítulo 2. Estado del arte CAPÍTULO 2 ESTADO DEL ARTE .....................................................................15 ESTADO DEL ARTE................................................................................................15 24