Combinación de reconocimiento vocal, reconocimiento de emociones y avatar de cabeza parlante para personas sordas y con discapacidades auditivas. Daassi-Gnaba Hela, Jaime López Krahe Laboratoire THIM (Technologies, Handicaps, Interfaces et Multimodalités) EA 4004 CHART 2 rue de la Liberté, 93526 Saint Denis Cedex (Francia) {hela.daassi, jlk}@univ-paris8.fr Resumen El presente trabajo constituye una extensión del proyecto LABIAO (Lectura labial asistida por ordenador). Su objeto era de aportar a las personas sordas que practican la lectura labial un robot virtual consistente en una cabeza parlante que pudiera ser pilotada por un sistema automático de reconocimiento de la palabra. Las primeras experiencias dieron como resultado la necesidad de añadir gestos emocionales para facilitar la comprensión del locutor, nuestro objetivo es de mejorar la interfase del avatar de cabeza parlante. Para ello nuestra propuesta es de extraer los elementos prosódicos de la señal vocal e identificar el estado emocional. Describimos aquí, un enfoque original basado en la combinación del reconocimiento vocal, el reconocimiento de las emociones y el avatar de cabeza parlante.. 1. Introducción La lectura labial es una técnica de comprensión de la palabra por la interpretación visual de los movimientos labiales. El uso combinado de esta técnica con las prótesis auditivas proporciona una percepción incompleta para la adquisición del lenguaje hablado. La Palabra Complementada (PC) [1] es una técnica de codificación que completa la lectura labial mejorando la percepción visual de la palabra. En francés (y en general en los idiomas fonéticos), varios fonemas corresponden a un aspecto idéntico de las posiciones de los labios, la PC suprime esta ambigüedad por medio de configuraciones y posiciones diferentes de la mano [2]. El interés principal de la PC estriba en que las personas sordas o mal-oyentes pueden “ver” el conjunto de los sonidos de base del idioma diferenciados con la misma claridad que un oyente. El proyecto LABIAO desarrolló un paquete de software cuyo objetivo era aumentar la autonomía de las personas sordas en su medio profesional o en la vida corriente. Para ello se utilizaba una cabeza artificial parlante pilotada por un sistema automático de reconocimiento de la palabra. La cabeza parlante reproducía los movimientos de los labios para la lectura labial y en opción podía reproducir la PC. Sin embargo los usuarios demandaron, no solo el contexto lingüístico de la palabra sino también la parte de expresión emocional de la cara como un canal importante de transmisión de información en la comunicación humana. De aquí que la cabeza artificial parlante puede mejorarse si logramos introducir técnicas avanzadas de reconocimiento y síntesis del estado emocional del locutor. El objetivo de nuestra investigación consiste en utilizar la información prosódica del lenguaje natural para caracterizar el estado emocional y animar así la cabeza parlante. Proponemos pues la combinación del reconocimiento automático de la palabra, el reconocimiento de las emociones a partir de la dicción para animar la cabeza parlante. El principio de este sistema se presenta en la figura 1. Figura 1: Principio del sistema. Nuestro documento esta estructurado como sigue, en primer lugar haremos una descripción de los entornos de aplicación, seguiremos con una descripción de nuestra propuesta a partir de la señal voval hasta la animación del avatar, presentación y discusión de los resultados obtenidos, por último se presentan algunas conclusiones. 2. Motivación y dominios de aplicación La igualdad en el acceso a la información para todos los ciudadanos, ha sido definida como una prioridad europea en la construcción de la nueva sociedad de la comunicación. En este contexto, la utilización de la cabeza parlante animada en diversos tipos de aplicación, es un factor clave para acrecentar la calidad de la vida de los ciudadanos sordos o maloyentes en Europa. Algunos ejemplos de dominios de aplicación serian: • • • • animada para mejorar el uso de los teléfonos móviles con video par alas personas sordas.. 3. Software Describimos aquí el paquete de software para la realización del sistema propuesto: Dragon Naturally Speaking (para el reconocimiento de la palabra usado en la versión francesa), WinSnoori (para la información prosódica) y Greta (para la cabeza del avatar parlante). 3.1. Dragon Naturally Speaking La escuela y los centros de formación deben ser accesibles, para aportar una igualdad de oportunidades a los niños y estudiantes sordos que pueden así acceder al contenido de las clases orales como sus compañeros. La señal de la palabra del profesor anima la cabeza parlante que aporta una doble información (la parte lingüística y la parte emocional) a través de la pantalla de un PDA (Personal Digital Asistente), un Smartphone o un ordenador situado frente a los usuarios sordas Las reuniones y conferencias deben ser accesibles a las personas sordas y con discapacidad auditiva para compartir la información, desarrollar estrategias y trabajos hacia objetivos comunes y ello tanto a nivel internacional, nacional o local. Cuando un participante habla ante un micrófono; la voz es convertida, reconocida e interpretada y dirige los movimientos de la cabeza artificial parlante que puede tener el perfil físico del locutor. Las personas sordas y deficientes auditivos pueden así comprender fácilmente el discurso sin necesidad de un intérprete. . El uso de la telefonía fija. Las personas sordas podrán comunicar con otras personas utilizando el sistema propuesto, resolviendo así la dificultad de su uso directo por este colectivo de personas. De hecho, el vídeo de la cabeza parlante a través de una pantalla de computadora retransmite las formas de una articulación eficaz entre la lectura labial, el reconocimiento de las emociones y la voz de los usuarios del teléfono. Este servicio aporta una libertad suplementaria a las personas sordas para utilizar el teléfono y por lo tanto tener acceso a la información vía las telecomunicaciones. El uso del la telefonía móvil, la llegada de las tecnologías 3G y WLAN en los últimos cinco años abren la vía para la implementación de la cabeza parlante La tecnología del reconocimiento automático de la palabra (ASR, Automatic Speech Recognition) y su transcripción han progresado mucho en estos últimos años. ASR nos remite a la capacidad de una maquina de responder a las ordenes habladas; Dragon Naturally Speaking traduce la palabra en texto a una velocidad de 160 palabras por minuto (versión 7.1), y permite a los usuarios el control completo de las aplicaciones de su PC con la voz. El producto permite también crear documentos de texto a partir de la voz. Para nuestra aplicación utilizamos los trabajos de software ASR de forma que las palabras pronunciadas en un micrófono se convierten en texto que es procesado posteriormente por un traductor especial en lectura labial. La lectura labial se refiere al sistema de codificación que transformará el texto, específicamente los fonemas, en los movimientos de los labios de la cabeza artificial. Sin embargo, las personas sordas necesitan la expresión humana de la cara para comprender mejor el discurso, por ello el objeto de nuestro estudio es utilizar una combinación del reconocimiento de la palabra asociado al reconocimiento de la emoción y a la programación de la cabeza artificial parlante. 3.2. WinSnoori Los análisis acústicos y prosódicos se realizan con el programa Winsnoori [3], un software desarrollado por el laboratorio francés LORIA (Laboratoire Lorrain de Recherche en Informatique et ses Applications). WinSnoori es un software de análisis del discurso dirigido a asistir a investigadores en los campos del reconocimiento de la voz, de la fonética, de la percepción y del procesado de la señal. Puede editar las señales de la voz, calcular y presentar espectrogramas a los que se les puede añadir etiquetas fonéticas u ortográficas de la señal de voz. El programa también ofrece la posibilidad de una visualización dinámica de los resultados del análisis espectral, frecuencia fundamental del contorno (f0), análisis del formante, variaciones de la energía y ritmo del discurso. La mayor parte de los resultados de WinSnoori se presentan en forma de texto y por lo tanto se pueden explotar con otros programas. Prosodia en WinSnoori WinSnoori puede estimar los elementos de base de la prosodia como la frecuencia fundamental (f0), las curvas de intensidad y la duración de los fonemas y las silabas (si la señal de voz está etiquetada). La visualización de las indicaciones prosódicas indicadas en el espectrograma aporta informaciones importantes a los usuarios. La extracción de la frecuencia fundamental (f0) se basa en un algoritmo que utiliza una frecuencia peine (El gráfico representa el espectro de un modelo acotado) y es completado por un algoritmo de corrección de tono basado en un programa dinámico. Para tener en cuenta las variaciones de la frecuencia fundamental en función del sexo del locutor, WinSnoori ofrece la posibilidad de especificar tres tipos de locutores: mujer, hombre y desconocido Tomamos como ejemplo la frase en francés “la partie de belotte dura toute la journée”, que ha sido pronunciada por una locutora y consideramos un estado emocional neutro. Utilizamos WinSnoori para estimar los elementos prosódicos. Puede verse en la figura 2 la señal vocal (curva roja), el espectrograma de banda ancha (curva negra), la detección del contorno (f0) de una locutora (curva violeta) y las anotaciones (fonéticas y ortográficas). Las variaciones de energía pueden verse en la figura 3 (curva azul). Figura 2: señal de palabra (curva roja), espectrograma de banda ancha (curva negra), contorno (f0) (curva violeta). Figura 3: señal de palabra (curva roja), espectrograma de banda ancha (curva negra), variaciones de energía (curva azul). Winsnoori puede calcular las duraciones de los fonemas y palabras. Por ejemplo, los resultados de duración del artículo “la” en la frase “la partie de Belotte dura toute la journée” pueden expresarse bajo la forma siguiente: WinSnoori puede estimar también los elementos de prosodia de una frase en ingles. 3.3. Modelo Greta de Poggi y Pelachaud Los autores tienen como objetivo la construcción de una interfase hombre-computadora, consistente en un ECA (Agente conversacional personalizado), animado en tiempo real en 3D; un modelo de mujer con una animación estándar en MPEG4 (cara y cuerpo). Greta [4] es un agente que puede comunicar utilizando una gama rica de comportamientos verbales y no verbales. Puede hablar y demostrar simultáneamente expresiones faciales, gestos, miradas y movimientos de la cabeza. De hecho, el sistema Greta utiliza como entrada un archivo de texto que corresponde al discurso del agente. El APML (Affective Presentation Markup Language) permite que el usuario defina en este archive de texto sus intenciones y comportamientos comunicativos. Greta puede hablar varios idiomas: francés, italiano, alemán, sueco y polaco. Emoción en Greta La investigación psicológica ha clasificado seis expresiones faciales que corresponden a las diferentes emociones universales: repugnancia, tristeza, felicidad, miedo, cólera, sorpresa [5] además de la expresión neutra o indiferente. Puesto que las emociones representan una modalidad importante en la comunicación de un mensaje, el uso de emociones en Greta [6] puede utilizarse en varios dominios aplicativos. Por ejemplo, Greta, con las expresiones faciales (cuadro 4), puede ser utilizada como interfaz de nuestro sistema para transmitir el estado de la emoción del locutor para las personas sordas y con discapacidad auditiva. Figura 5: señal de palabra (curva roja) y contorno (f0) (curva verde). Figure 4: a) Contenta b) Enfadada 4. Ejemplo: del discurso a la cabeza parlante. En esta sección hacemos una demostración de nuestro enfoque utilizando un ejemplo de señal de palabra aplicado a la animación de la cabeza parlante (Greta). 4.1 Condiciones de la simulación Hemos partido de una secuencia video de “Kiriku y las brujas”, una película de dibujos animados 3D de Michel Ocelot. En esta película un niño llamado Kiriku tiene la intención de salvar su pueblecito de África de una maléfica bruja. Hemos escogido la frase en francés “Il y a des garçons que j’ai sauvés qui ne sont pas gentils avec moi”, que es pronunciada por Kiriku con una expresión de tristeza. El programa Wavepad se ha utilizado para extraer y convertir la señal audio del fichero video AVI. Figura 6: señal de palabra (curva roja) y variaciones de energía (curva azul). A partir de estos resultados hemos animado la cabeza parlante “Greta” escogiendo un estado emocional de tristeza (figura 7). Actualmente utilizamos una animación estática. El resultado puede considerarse poco realista. Por ello trabajamos en la extracción de los elementos prosódicos y en el desarrolle de las funciones de animación dinámica de Greta. 4.2 Resultados de la simulación Hemos utilizado el programa WinSnoori para estimar los elementos de prosodia. En la figura 5 presentamos la señal de palabra (curva roja), el espectrograma de banda ancha (curva negra) el contorno (f0), la detección de la voz de Kiriku (curva verde) y las variaciones de energía que se presentan en la figura 6 (curva azul). Figure 7: Estado emocional triste. 5. Conclusión y perspectivas Hemos descrito un procedimiento basado en la combinación del reconocimiento de la palabra y de las emociones asociado a una cabeza artificial parlante con el fin de aumentar la autonomía de las personas sordas y discapacitadas auditivas en su vida profesional y social. Esta propuesta incluye el análisis de la palabra y de la información prosódica para animar la cabeza parlante Nuestro trabajo futuro incluirá la concepción de nuevos tipos de test y de modelos de funcionamiento. Particularmente estamos interesados en extender la investigación con tests que integren aplicaciones en tiempo real. 6. Referencias [1] R. O. Cornett, “Cued Speech”, American Annals of the Deaf, 1967, vol. 112, pp. 3-13. [2] V. Attina, D. Beautemps, M. A Cathiard, and M. Odisio, “A pilot study of temporal organization in Cued Speech production of French syllables: rules for Cued Speech synthesizer”, Speech Communication, 2004, vol. 44, pp.197-214. [3] Y. Laprie, “Snoori, a software for speech sciences”, MATISSE, 1999. [4] F. de Rosis, C. Pelachaud, I. Poggi, V. Carofiglio, B. de Carolis, “From Greta’s Mind to her Face: Modeling the Dynamics of Affective States in a Conversational Embodied Agent”, Special Issue on Applications of Affective Computing in Human-Computer Interaction The International Journal of Human-Computer Studies, 2003, vol. 59, n. 1-2. [5] M. J. Black, and Y. Yacoob, “Tracking and Recognizing Rigid and Non-Rigid Facial Motions using Local Parametric Models of Image Motion”, International Conf. on Computer Vision, 1995, pp. 374-381. [6] C. Pelachaud, V. Carofiglio, B. de Carolis, F. de Rosis, I. Poggi, “Embodied Contextual Agent in Information Delivering Application”, First International Joint Conference on Autonomous Agent and Multiagent System, 2002, pp. 758 -765.