Combinación de reconocimiento vocal

Anuncio
Combinación de reconocimiento vocal, reconocimiento de emociones y avatar
de cabeza parlante para personas sordas y con discapacidades auditivas.
Daassi-Gnaba Hela, Jaime López Krahe
Laboratoire THIM (Technologies, Handicaps, Interfaces et Multimodalités) EA 4004 CHART
2 rue de la Liberté, 93526 Saint Denis Cedex (Francia)
{hela.daassi, jlk}@univ-paris8.fr
Resumen
El presente trabajo constituye una extensión del
proyecto LABIAO (Lectura labial asistida por
ordenador). Su objeto era de aportar a las personas
sordas que practican la lectura labial un robot
virtual consistente en una cabeza parlante que
pudiera ser pilotada por un sistema automático de
reconocimiento de la palabra. Las primeras
experiencias dieron como resultado la necesidad de
añadir gestos emocionales para facilitar la
comprensión del locutor, nuestro objetivo es de
mejorar la interfase del avatar de cabeza parlante.
Para ello nuestra propuesta es de extraer los
elementos prosódicos de la señal vocal e identificar
el estado emocional. Describimos aquí, un enfoque
original basado en la combinación del
reconocimiento vocal, el reconocimiento de las
emociones y el avatar de cabeza parlante..
1. Introducción
La lectura labial es una técnica de comprensión de
la palabra por la interpretación visual de los
movimientos labiales. El uso combinado de esta
técnica con las prótesis auditivas proporciona una
percepción incompleta para la adquisición del
lenguaje hablado. La Palabra Complementada (PC)
[1] es una técnica de codificación que completa la
lectura labial mejorando la percepción visual de la
palabra. En francés (y en general en los idiomas
fonéticos), varios fonemas corresponden a un aspecto
idéntico de las posiciones de los labios, la PC
suprime esta ambigüedad por medio de
configuraciones y posiciones diferentes de la mano
[2]. El interés principal de la PC estriba en que las
personas sordas o mal-oyentes pueden “ver” el
conjunto de los
sonidos de base del idioma
diferenciados con la misma claridad que un oyente.
El proyecto LABIAO desarrolló un paquete de
software cuyo objetivo era aumentar la autonomía de
las personas sordas en su medio profesional o en la
vida corriente. Para ello se utilizaba una cabeza
artificial parlante pilotada por un sistema automático
de reconocimiento de la palabra. La cabeza parlante
reproducía los movimientos de los labios para la
lectura labial y en opción podía reproducir la PC. Sin
embargo los usuarios demandaron, no solo el
contexto lingüístico de la palabra sino también la
parte de expresión emocional de la cara como un
canal importante de transmisión de información en la
comunicación humana. De aquí que la cabeza
artificial parlante puede mejorarse si logramos
introducir técnicas avanzadas de reconocimiento y
síntesis del estado emocional del locutor. El objetivo
de nuestra investigación consiste en utilizar la
información prosódica del lenguaje natural para
caracterizar el estado emocional y animar así la
cabeza parlante. Proponemos pues la combinación
del reconocimiento automático de la palabra, el
reconocimiento de las emociones a partir de la
dicción para animar la cabeza parlante. El principio
de este sistema se presenta en la figura 1.
Figura 1: Principio del sistema.
Nuestro documento esta estructurado como sigue,
en primer lugar haremos una descripción de los
entornos de aplicación, seguiremos con una
descripción de nuestra propuesta a partir de la señal
voval hasta la animación del avatar, presentación y
discusión de los resultados obtenidos, por último se
presentan algunas conclusiones.
2. Motivación y dominios de aplicación
La igualdad en el acceso a la información para
todos los ciudadanos, ha sido definida como una
prioridad europea en la construcción de la nueva
sociedad de la comunicación. En este contexto, la
utilización de la cabeza parlante animada en diversos
tipos de aplicación, es un factor clave para acrecentar
la calidad de la vida de los ciudadanos sordos o maloyentes en Europa. Algunos ejemplos de dominios de
aplicación serian:
•
•
•
•
animada para mejorar el uso de los teléfonos
móviles con video par alas personas sordas..
3. Software
Describimos aquí el paquete de software para la
realización del sistema propuesto: Dragon Naturally
Speaking (para el reconocimiento de la palabra usado
en la versión francesa), WinSnoori (para la
información prosódica) y Greta (para la cabeza del
avatar parlante).
3.1. Dragon Naturally Speaking
La escuela y los centros de formación
deben ser accesibles, para aportar una
igualdad de oportunidades a los niños y
estudiantes sordos que pueden así acceder al
contenido de las clases orales como sus
compañeros. La señal de la palabra del
profesor anima la cabeza parlante que
aporta una doble información (la parte
lingüística y la parte emocional) a través de
la pantalla de un PDA (Personal Digital
Asistente), un Smartphone o un ordenador
situado frente a los usuarios sordas
Las reuniones y conferencias deben ser
accesibles a las personas sordas y con
discapacidad auditiva para compartir la
información, desarrollar estrategias y
trabajos hacia objetivos comunes y ello
tanto a nivel internacional, nacional o local.
Cuando un participante habla ante un
micrófono; la voz es convertida, reconocida
e interpretada y dirige los movimientos de la
cabeza artificial parlante que puede tener el
perfil físico del locutor. Las personas sordas
y deficientes auditivos pueden así
comprender fácilmente el discurso sin
necesidad de un intérprete. .
El uso de la telefonía fija. Las personas
sordas podrán comunicar con otras personas
utilizando el sistema propuesto, resolviendo
así la dificultad de su uso directo por este
colectivo de personas. De hecho, el vídeo de
la cabeza parlante a través de una pantalla
de computadora retransmite las formas de
una articulación eficaz entre la lectura
labial, el reconocimiento de las emociones y
la voz de los usuarios del teléfono. Este
servicio aporta una libertad suplementaria a
las personas sordas para utilizar el teléfono
y por lo tanto tener acceso a la información
vía las telecomunicaciones.
El uso del la telefonía móvil, la llegada de
las tecnologías 3G y WLAN en los últimos
cinco años abren la vía para la
implementación de la cabeza parlante
La tecnología del reconocimiento automático de
la palabra (ASR, Automatic Speech Recognition) y
su transcripción han progresado mucho en estos
últimos años.
ASR nos remite a la capacidad de una maquina
de responder a las ordenes habladas; Dragon
Naturally Speaking traduce la palabra en texto a una
velocidad de 160 palabras por minuto (versión 7.1),
y permite a los usuarios el control completo de las
aplicaciones de su PC con la voz. El producto
permite también crear documentos de texto a partir
de la voz. Para nuestra aplicación utilizamos los
trabajos de software ASR de forma que las palabras
pronunciadas en un micrófono se convierten en texto
que es procesado posteriormente por un traductor
especial en lectura labial. La lectura labial se refiere
al sistema de codificación que transformará el texto,
específicamente los fonemas, en los movimientos de
los labios de la cabeza artificial. Sin embargo, las
personas sordas necesitan la expresión humana de la
cara para comprender mejor el discurso, por ello el
objeto de nuestro estudio es utilizar una combinación
del reconocimiento de la palabra asociado al
reconocimiento de la emoción y a la programación de
la cabeza artificial parlante.
3.2. WinSnoori
Los análisis acústicos y prosódicos se realizan con
el programa Winsnoori [3], un software desarrollado
por el laboratorio francés LORIA (Laboratoire
Lorrain de Recherche en Informatique et ses
Applications). WinSnoori es un software de análisis
del discurso dirigido a asistir a investigadores en los
campos del reconocimiento de la voz, de la fonética,
de la percepción y del procesado de la señal. Puede
editar las señales de la voz, calcular y presentar
espectrogramas a los que se les puede añadir
etiquetas fonéticas u ortográficas de la señal de voz.
El programa también ofrece la posibilidad de una
visualización dinámica de los resultados del análisis
espectral, frecuencia fundamental del contorno (f0),
análisis del formante, variaciones de la energía y
ritmo del discurso.
La mayor parte de los resultados de WinSnoori se
presentan en forma de texto y por lo tanto se pueden
explotar con otros programas.
Prosodia en WinSnoori
WinSnoori puede estimar los elementos de base
de la prosodia como la frecuencia fundamental (f0),
las curvas de intensidad y la duración de los fonemas
y las silabas (si la señal de voz está etiquetada). La
visualización de las indicaciones prosódicas
indicadas en el espectrograma aporta informaciones
importantes a los usuarios.
La extracción de la frecuencia fundamental (f0) se
basa en un algoritmo que utiliza una frecuencia peine
(El gráfico representa el espectro de un modelo
acotado) y es completado por un algoritmo de
corrección de tono basado en un programa dinámico.
Para tener en cuenta las variaciones de la frecuencia
fundamental en función del sexo del locutor,
WinSnoori ofrece la posibilidad de especificar tres
tipos de locutores: mujer, hombre y desconocido
Tomamos como ejemplo la frase en francés “la
partie de belotte dura toute la journée”, que ha sido
pronunciada por una locutora y consideramos un
estado emocional neutro. Utilizamos WinSnoori para
estimar los elementos prosódicos. Puede verse en la
figura 2 la señal vocal (curva roja), el espectrograma
de banda ancha (curva negra), la detección del
contorno (f0) de una locutora (curva violeta) y las
anotaciones (fonéticas y ortográficas). Las
variaciones de energía pueden verse en la figura 3
(curva azul).
Figura 2: señal de palabra (curva roja),
espectrograma de banda ancha (curva negra),
contorno (f0) (curva violeta).
Figura 3: señal de palabra (curva roja),
espectrograma de banda ancha (curva negra),
variaciones de energía (curva azul).
Winsnoori puede calcular las duraciones de los
fonemas y palabras. Por ejemplo, los resultados de
duración del artículo “la” en la frase “la partie de
Belotte dura toute la journée” pueden expresarse
bajo la forma siguiente:
WinSnoori puede estimar también los elementos de
prosodia de una frase en ingles.
3.3. Modelo Greta de Poggi y Pelachaud
Los autores tienen como objetivo la construcción
de una interfase hombre-computadora, consistente en
un ECA (Agente conversacional personalizado),
animado en tiempo real en 3D; un modelo de mujer
con una animación estándar en MPEG4 (cara y
cuerpo). Greta [4] es un agente que puede comunicar
utilizando una gama rica de comportamientos
verbales y no verbales. Puede hablar y demostrar
simultáneamente expresiones faciales, gestos,
miradas y movimientos de la cabeza.
De hecho, el sistema Greta utiliza como entrada
un archivo de texto que corresponde al discurso del
agente. El APML (Affective Presentation Markup
Language) permite que el usuario defina en este
archive de texto sus intenciones y comportamientos
comunicativos.
Greta puede hablar varios idiomas: francés,
italiano, alemán, sueco y polaco.
Emoción en Greta
La investigación psicológica ha clasificado seis
expresiones faciales que corresponden a las
diferentes emociones universales: repugnancia,
tristeza, felicidad, miedo, cólera, sorpresa [5] además
de la expresión neutra o indiferente.
Puesto que las emociones representan una modalidad
importante en la comunicación de un mensaje, el uso
de emociones en Greta [6] puede utilizarse en varios
dominios aplicativos. Por ejemplo, Greta, con las
expresiones faciales (cuadro 4), puede ser utilizada
como interfaz de nuestro sistema para transmitir el
estado de la emoción del locutor para las personas
sordas y con discapacidad auditiva.
Figura 5: señal de palabra (curva roja) y contorno
(f0) (curva verde).
Figure 4: a) Contenta
b) Enfadada
4. Ejemplo: del discurso a la cabeza
parlante.
En esta sección hacemos una demostración de
nuestro enfoque utilizando un ejemplo de señal de
palabra aplicado a la animación de la cabeza parlante
(Greta).
4.1 Condiciones de la simulación
Hemos partido de una secuencia video de “Kiriku
y las brujas”, una película de dibujos animados 3D
de Michel Ocelot. En esta película un niño llamado
Kiriku tiene la intención de salvar su pueblecito de
África de una maléfica bruja. Hemos escogido la
frase en francés “Il y a des garçons que j’ai sauvés
qui ne sont pas gentils avec moi”, que es
pronunciada por Kiriku con una expresión de
tristeza. El programa Wavepad se ha utilizado para
extraer y convertir la señal audio del fichero video
AVI.
Figura 6: señal de palabra (curva roja) y
variaciones de energía (curva azul).
A partir de estos resultados hemos animado la
cabeza parlante “Greta” escogiendo un estado
emocional de tristeza (figura 7).
Actualmente utilizamos una animación estática.
El resultado puede considerarse poco realista. Por
ello trabajamos en la extracción de los elementos
prosódicos y en el desarrolle de las funciones de
animación dinámica de Greta.
4.2 Resultados de la simulación
Hemos utilizado el programa WinSnoori para
estimar los elementos de prosodia. En la figura 5
presentamos la señal de palabra (curva roja), el
espectrograma de banda ancha (curva negra) el
contorno (f0), la detección de la voz de Kiriku (curva
verde) y las variaciones de energía que se presentan
en la figura 6 (curva azul).
Figure 7: Estado emocional triste.
5. Conclusión y perspectivas
Hemos descrito un procedimiento basado en la
combinación del reconocimiento de la palabra y de
las emociones asociado a una cabeza artificial
parlante con el fin de aumentar la autonomía de las
personas sordas y discapacitadas auditivas en su vida
profesional y social. Esta propuesta incluye el
análisis de la palabra y de la información prosódica
para animar la cabeza parlante
Nuestro trabajo futuro incluirá la concepción de
nuevos tipos de test y de modelos de funcionamiento.
Particularmente estamos interesados en extender la
investigación con tests que integren aplicaciones en
tiempo real.
6. Referencias
[1] R. O. Cornett, “Cued Speech”, American Annals of the
Deaf, 1967, vol. 112, pp. 3-13.
[2] V. Attina, D. Beautemps, M. A Cathiard, and M.
Odisio, “A pilot study of temporal organization in Cued
Speech production of French syllables: rules for Cued
Speech synthesizer”, Speech Communication, 2004, vol.
44, pp.197-214.
[3] Y. Laprie, “Snoori, a software for speech sciences”,
MATISSE, 1999.
[4] F. de Rosis, C. Pelachaud, I. Poggi, V. Carofiglio, B.
de Carolis, “From Greta’s Mind to her Face: Modeling the
Dynamics of Affective States in a Conversational
Embodied Agent”, Special Issue on Applications of
Affective Computing in Human-Computer Interaction
The International Journal of Human-Computer Studies,
2003, vol. 59, n. 1-2.
[5] M. J. Black, and Y. Yacoob, “Tracking and
Recognizing Rigid and Non-Rigid Facial Motions using
Local Parametric Models of Image Motion”, International
Conf. on Computer Vision, 1995, pp. 374-381.
[6] C. Pelachaud, V. Carofiglio, B. de Carolis, F. de
Rosis, I. Poggi, “Embodied Contextual Agent in
Information Delivering Application”, First International
Joint Conference on Autonomous Agent and Multiagent
System, 2002, pp. 758 -765.
Descargar