RECONOCIMIENTO DE LENGUAJES DE SIGNOS UTILIZANDO GUANTES DE DATOS Jaime Meléndez Rodríguez, Francisco Serradilla García Escuela Universitaria de Informática de la Universidad Politécnica de Madrid Campus Sur, Ctra. Valencia km 7, 28031 Madrid, España [email protected], [email protected] RESUMEN En este trabajo se presenta una propuesta para el reconocimiento automático del lenguaje de signos a partir de datos tridimensionales correspondientes a posición y orientación de la mano capturados mediante el guante de datos P5. Dada la naturaleza continua y la posibilidad de descomponer los signos en sus constituyentes primarios, se plantea el uso de una arquitectura con diversos módulos encargados de resolver el problema de segmentación, preclasificar cada uno de los constituyentes primarios mediante redes neuronales y/o técnicas basadas en similitud estadística y finalmente, recomponer el signo e identificarlo. Palabras clave: reconocimiento de gestos, segmentación, redes neuronales, similitud estadística. 1. INTRODUCCIÓN Una de las metas más deseadas en la interacción hombre-máquina es hacer que el usuario sienta que se relaciona con los objetos del sistema de forma directa. Contrario a las interfaces tradicionales, la gesticulación puede ser una mejor forma de ingreso de datos debido a características notables como la naturalidad y destreza propias de los seres humanos. Un ejemplo interesante de comunicación a través de gestos es el lenguaje de signos. Para quienes la capacidad de hablar y oír es normal, el uso del habla para expresarse es lo más natural; sin embargo, para aquellos con limitaciones, esta forma de comunicación resulta obviamente inapropiada, siendo el lenguaje de signos la herramienta usada con mayor frecuencia. A diferencia del común de los gestos, los lenguajes de signos son altamente estructurados y su estudio puede ser punto de partida para la solución de problemas más generales [1]. Resultados positivos en este campo permitirían por ejemplo, el uso de conjuntos de signos para enviar comandos a una máquina o para interactuar con un entorno virtual, la implementación interfaces para individuos con limitaciones, y lo más prometedor [2, 3], la traducción de signos a palabras de lenguajes hablados, para comunicación entre discapacitados y no discapacitados, o la traducción a nivel de lenguajes de signos, para comunicación entre signantes de procedencias distintas. Con tales motivaciones, en este trabajo se propone el desarrollo de un sistema para reconocer signos ejecutados con una mano en forma continua. En las secciones siguientes se presenta el trabajo previo realizado y se hace una introducción al reconocimiento de gestos y a los lenguajes de signos. Luego se presenta la estructura del sistema, finalizando con las conclusiones y trabajo futuro. 2. TRABAJO PREVIO Mientras que en los inicios, los trabajos que abordan esta temática se concentraron en signos aislados y dactilología, la tendencia rápidamente ha cambiado hacia el reconocimiento continuo. S. Fels desarrolla Glove-Talk II [4], un sistema adaptativo para transformar gestos de la mano a lenguaje hablado. T. Starner usa una única cámara para extraer características bidimensionales que son procesadas por Modelos Ocultos de Markov (HMMs), para reconocer oraciones con una estructura gramatical estricta a partir de un léxico de 40 palabras [3]. W. Kadous investiga el reconocimiento de 95 signos aislados provenientes del Auslan, destacando el uso de guantes de datos de bajo costo (PowerGloves) y algoritmos de aprendizaje de bajos requerimientos computacionales [2]. R. H. Liang aplica HMMs para el reconocimiento continuo de hasta 250 signos pertenecientes al Lenguaje de Signos Taiwanés [5]. C. Vogler y D. Metaxas analizan los aspectos más problemáticos del reconocimiento del ASL haciendo un paralelo entre el lenguaje hablado y el lenguaje de signos [1, 6, 7, 8, 9]. B. Bauer y K. Kraiss emplean HMMs y el modelo “fenómico” para reconocer un conjunto de 12 signos pertenecientes al GSL [10]. 3. RECONOCIMIENTO DE GESTOS El reconocimiento de gestos puede ubicarse dentro del reconocimiento de patrones y abarca dos problemas: la representación de dichos patrones y la toma de decisiones. El reconocimiento de gestos de la mano en particular, consiste esencialmente en un “mapeo” de los ángulos que forman los segmentos articulados de los dedos, la posición y dirección de la mano, y posiblemente su evolución en el tiempo, hacia un conjunto de símbolos generalmente parametrizados. Este “mapeo” puede basarse sólo en la última información sobre el estado de la mano y dedos, es decir su postura, o adicionalmente en su movimiento y configuraciones pasadas, lo cual es llamado gesto. Debido a la naturaleza dinámica de los gestos, surgen problemas como la determinación de los puntos inicial y final (segmentación), variaciones temporales y espaciales, variaciones rotacionales y traslacionales, variaciones interpersonales e intrapersonales, etc. Los lenguajes de signos presentan todas estas características, además de otras que se indican a continuación. 4. LOS LENGUAJES DE SIGNOS Los lenguajes de signos en general, poseen una gramática muy diferente a los lenguajes hablados, lo cual es de esperarse debido a que típicamente gesticular un signo toma aproximadamente dos veces el tiempo que toma decir una palabra [2]. Así, para mantener la misma fluidez, los lenguajes de signos tienden a ser mucho más concisos. Están compuestos por miles de signos que pueden modificarse ligeramente para alterar su significado, e inclusive combinarse, para dar origen a otros nuevos. Cuando no existe un signo para alguna palabra, o se hace uso de nombres propios, o simplemente no se es capaz de signar un determinado lenguaje, las palabras pueden deletrearse con los dedos. Este tipo de recursos los enriquecen, haciéndolos comparables y tal vez superiores a los lenguajes hablados. La estructura de un signo, teniendo en cuenta la gesticulación con una sola mano y obviando aspectos como la expresión facial, puede caracterizarse por: - Postura de la mano. Signos con una postura incluyen “árbol” y “edad”. Signos con dos posturas incluyen “haber” y “azul”. - Posición relativa al cuerpo. “Domingo”, se gesticula cerca de la frente, mientras que “turno”, cerca del pecho. - Orientación. En “vosotros dos”, la palma de la mano está orientada hacia arriba, en “nosotros dos”, la palma de la mano está orientada hacia el signante. - Movimiento o trayectoria. “Solo”, describe una circunferencia, mientras que “no”, una línea con movimiento de ida y vuelta. 5. SISTEMA PARA RECONOCIMIENTO DE LENGUAJES DE SIGNOS Según lo señalado en las secciones anteriores, el sistema propuesto (figura 1) deberá ser capaz de segmentar el flujo de datos, clasificar postura, posición, orientación y movimiento de la mano, y finalmente, en base a los resultados parciales, reconstruir y reconocer el signo. En las fases de clasificación se plantea el uso de redes neuronales multicapa [4, 13, 14] o técnicas basadas en similitud estadística [2]. A continuación, una descripción de cada etapa: Dispositivo de Entrada Como dispositivo de entrada se usa el guante de datos P5. Éste proporciona información sobre la posición (coordenadas X, Y, Z) y orientación (giro, cabeceo, balanceo) de la mano en el espacio, además del grado de flexión de cada dedo. Figura 1. Estructura del sistema propuesto. Preprocesamiento En esta etapa se realizan procesos de filtrado, escalamiento y se obtiene información nueva a partir de los datos originales. Segmentación Ante este problema se han planteado soluciones que pueden dividirse en segmentación explícita, con métodos como estados de configuración [11] o detección de discontinuidades [5], y segmentación implícita, donde se hace uso de redes de HMMs y modelado de los movimientos de transición entre gestos [1, 12]. Se ha preferido la segmentación explícita, pues así se elimina la dependencia del tiempo, posibilitando la aplicación de técnicas de clasificación estáticas, por lo general más sencillas y de menor consumo computacional. Se prueban dos métodos: - Detección de discontinuidades a partir de lo que se denomina Time Varying Parameter (TVP) [5], en base a la información del grado de flexión de los dedos (figura 2a). - Detección de discontinuidades mediante análisis de la variación global de los parámetros buscando aquellos “silencios” breves o cambios “marcados” que se producen en las transiciones de un gesto a otro (figura 2b). Figura 2. (a) Segmentación mediante TVPs (Adaptada de [5]). (b) Segmentación por análisis de la variación global de parámetros. Clasificación de Postura Se basa en el grado de flexión de cada dedo, lo que determina la configuración de la mano. Clasificación de Posición Las coordenadas espaciales (X, Y, Z) proporcionan la posición absoluta de la mano. Un proceso previo de calibración elimina la dependencia interusuario creada por la diferencia de tamaños y permite delimitar las regiones relevantes para la clasificación. Hecho esto, basta con saber por cuáles regiones ha pasado la trayectoria durante la gesticulación. Clasificación de Orientación El giro, balanceo y cabeceo de la muñeca proporcionan información sobre la orientación de la mano. Ciertas variaciones, causadas entre otros factores por la propia fisiología humana, inducen a la construcción de histogramas a partir de los ángulos leídos desde el P5. Clasificación de Trayectoria Se plantea el uso de métodos estadísticos como histogramas, para procesar el ángulo formado entre los vectores que unen los puntos de la trayectoria. Este método, que supone ventajas como inmunidad ante variaciones rotacionales y traslacionales, podría mejorarse mediante la reducción de tres a dos dimensiones [12] o la aplicación de submuestreo para eliminar la no uniformidad de velocidades durante la trayectoria, además del análisis de otras características [5]. Recomposición e Identificación Cada módulo retorna los resultados de la clasificación en forma porcentual o binaria, condicionando el uso de umbrales según sea el caso. Una vez identificadas las componentes se procede a "nombrarlas" y "adicionarlas" a manera de cadenas para luego ser comparadas mediante un proceso optimizado de ordenación y búsqueda. 6. CONCLUSIONES Y TRABAJO FUTURO En este trabajo de propone el desarrollo de un sistema para reconocer signos ejecutados con una mano en forma continua, utilizando métodos de clasificación estáticos, aplicables debido a la eliminación de la dependencia del tiempo producto de la segmentación explícita que se realiza. Estos métodos incluyen redes neuronales multicapa, muy flexibles al seccionar el espacio de clasificación, y/o técnicas basadas en similitud estadística, en teoría fáciles de configurar y con menor tiempo de entrenamiento y ejecución. El dispositivo de entrada a usar es el guante de datos P5. Obviamente el primer paso a seguir consiste en la implementación de este sistema, pues sólo así podrá determinarse el nivel de desempeño de la estrategia propuesta. Superada esta fase se procederá a expandirlo, haciendo posible el manejo un léxico más extenso y se incluirá la otra mano durante la gesticulación, para lo cual se tendrán que realizar modificaciones tanto en la estructura como en los algoritmos de clasificación. Como complemento, puede incluirse un sistema de visión artificial que permita el reconocimiento de la expresión facial y la ubicación de los signos respecto al cuerpo del usuario sin necesidad de procesos de calibración. Finalmente se planea su incorporación como interfaz para aplicaciones como editores de SignoEscritura entre otras. REFERENCIAS 1. C. Vogler y D. Metaxas. Adapting Hidden Markov Models for ASL recognition by using three-dimensional computer vision methods. Proceedings of the IEEE International Conference on Systems, Man and Cybernetics, pp. 156-161. Orlando, octubre 12-15, 1997. 2. M. W. Kadous. GRASP: Recognition of Australian Sign Language using instrumented gloves. Tesis de bachillerato. School of Computer Science and Engineering, University of New South Wales, octubre, 1995. 3. T. Starner. Visual recognition of American Sign Language using Hidden Markov Models. Tesis de maestría. MIT Media Laboratory Perceptual Computing Section, febrero, 1995. 4. S. Fels. Glove-Talk II: Mapping hand gestures to speech using Neural Networks – An approach to building adaptive interfaces. Tesis doctoral. Department of Computer Science, University of Toronto, 1994. 5. R. H. Liang. A Real-time Continuous Gesture Recognition System for Taiwanese Sign Language. Tesis doctoral. National Taiwan University, mayo, 1997. 6. C. Vogler y D. Metaxas. ASL recognition based on a coupling between HMMs and 3D motion analysis. Proceedings of the International Conference on Computer Vision, pp. 363369, Mumbai, India, enero 4-7, 1998. 7. C. Vogler y D. Metaxas. Toward scalability in ASL recognition: Breaking down signs into phonemes. Springer Lecture Notes on Artificial Intelligence 1739, pp. 211-224, Proceedings of the Gesture Workshop'99, Gif-sur-Yvette, Francia, marzo 17-19, 1999. 8. C. Vogler y D. Metaxas. Parallel Hidden Markov Models for American Sign Language Recognition. International Conference on Computer Vision, Kerkyra, Grecia, setiembre 2225, 1999. 9. C. Vogler and D. Metaxas. A Framework for Recognizing the Simultaneous Aspects of American Sign Language. Computer Vision and Image Understanding 81, pp. 358-384, 2001. 10. B. Bauer y K. Kraiss. Towards an Automatic Sign Language Recognition System Using Subunits. Gesture and Sign Language in Human-Computer Interaction, International Gesture Workshop GW 2001, Volume Lecture Notes in Artificial Intelligence 2298, pp. 64-75, Londres, abril 18-20, 2001. 11. A. Wilson y A. Bobick. Using configuration states for the representation and recognition of gesture. Reporte técnico. MIT Media Laboratory Vision and Modelling Section, 1995. 12. Y. Nam y K. Wohn. Recognition of space-time hand-gestures using Hidden Markov Model. Korea Advanced Institute of Science and Technologies Department of Computer Science, 1996. 13. P. Harling. Gesture input using Neural Networks. Tesis de bachillerato. University of York Department of Computer Science, marzo, 1993. 14. K. Symeonidis. Hand gesture recognition using Neural Networks. UniS School of Electronic and Electrical Engineering, agosto, 2000.
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )