Transcripción y traducción automática de contenidos

Anuncio
Transcripción y traducción automática de contenidos audiovisuales
José A. R. Fonollosa, José B. Mariño, Climent Nadeu, Asunción Moreno, Javier
Hernando, Antonio Bonafonte
Centro TALP. Universidad Politécnica de Cataluña
c/ Jordi Girona 1-3. Edificio D5. Barcelona 08034
En este comunicación se presentan las tecnologías desarrolladas por el Centro
de Tecnologías y Aplicaciones del Lenguaje y del Habla (TALP) de la
Universidad Politécnica de Cataluña para facilitar la accesibilidad a los
contenidos audiovisuales.
Estas tecnologías se han desarrollado en el marco de diversos proyectos
nacionales e internacionales [1,2,3,4] e incluyen sistemas especialmente
adaptados para la transcripción automática de discursos parlamentarios,
noticias y programas de debate. Se ha desarrollado así mismo tecnología para
permitir la traducción de esta transcripción y poder escuchar mediante un
conversor texto a voz el resultado de este procesado o cualquier otro texto.
Se ha trabajado principalmente en los idiomas español, catalán e inglés.
A continuación se describen las contribuciones de mayor interés y los
resultados más importantes obtenidos en cada una de las tecnologías
desarrolladas:
Sistemas de reconocimiento del habla aplicados a la transcripción
automática de contenidos audiovisuales
Se han desarrollado sistemas de reconocimiento del habla específicos para la
transcripción de determinados programas de televisión en castellano y catalán.
Además se han incorporado módulos de detección de la lengua, de
clasificación del audio (voz, música, ruidos, habla simultánea) y de detección
de locutores. La detección de la lengua permite seleccionar el sistema de
reconocimiento apropiado, mientras que los módulos de detección de eventos
acústicos y de diarización de locutor permiten estimar los momentos en los que
se escucha voz así como agrupar los diferentes segmentos correspondientes a
un mismo locutor. Además de proporcionar información directa al televidente, la
segmentación en locutores facilita la aplicación de técnicas de reconocimiento
del habla con adaptación al locutor. Esta tarea se ha realizado con la
colaboración de Televisió de Catalunya, que nos ha proporcionado copias del
programa Àgora, y la empresa Verbio Technologies S.L.
Sistemas de traducción automática
Se han desarrollado sistemas híbridos de traducción automática entre los
idiomas catalán, español e inglés. Para ello se ha utilizado de partida el sistema
de traducción estadística basada en n-gramas desarrollado en el centro TALP
durante los últimos cinco años, y se le ha incorporado información lingüística
proporcionada por el programa Freeling. Para el adquisición de los modelos
estadísticos de traducción entre castellano y catalán se ha utilizado la edición
bilingüe de El Periódico de Cataluña. El sistema está disponible on-line en
www.n-ii.org
También se ha estudiado la traducción de las transcripciones proporcionadas
automáticamente por el sistema de reconocimiento del habla, desarrollando las
técnicas que permiten incluir signos de puntuación a estas transcripciones.
Esto es necesario para obtener la segmentación adecuada de la entrada al
traductor y obtener una calidad mejor en la transcripción traducida.
Sistemas de conversión texto a voz
Los sistemas de conversión texto a voz actuales ya permiten obtener una
calidad similar a la de una grabación humana en frases aisladas. Sin embargo
se siguen estudiando nuevas técnicas para obtener mejoras tanto en calidad
(voces basadas en modelos ocultos de Markov) como en otros aspectos como
son: la adaptación de la voz, la pronunciación de nombres propios y palabras
extranjeras y la creación de voces bilingües o trilingües.
En adaptación de la voz se han desarrollado técnicas para generar de forma
rápida y sencilla voces sintéticas con las características de un nuevo locutor
específico. En aplicación de traducción de voz a voz esto permite generar la
nueva voz traducida con unas características similares a las del locutor en el
idioma original.
Recursos lingüísticos
En el marco de diversos proyecto el TALP ha desarrollado diversas bases de
datos orales y textuales en castellano y catalán. Esta bases están disponibles
para otros centro de investigación y empresas. En particular, durante los dos
últimos tres años se ha trabajado en un proyecto subvencionado por la
Generalitat de Catalunya para obtener un conjunto completo de corpus orales
en catalán para el entrenamiento de sistemas de reconocimiento. Estos corpus
son distribuidos por el TALP de forma gratuita [4].
Bibliografía más relevante
[1] TC-STAR: Technology and Corpora for Speech to Speech Translation. www.tcstar.org
[2] ALIADO: Tecnologías del habla y el lenguaje para un asistente personal. http://gpstsc.upc.es/veu/aliado/
[3] AVIVAVOZ: Tecnologías para la traducción de voz: reconocimiento, traducción
estadística basada en corpus y síntesis. www.avivavoz.es/
[4] TECNOPARLA: Tecnologías del habla en catalán. www.talp.cat/tecnoparla/
Descargar