Movimiento Realista del Cuerpo Humano para la Expresividad Emocional Adrian Di Puglia Gabriel Muñumel Computación Gráfica Ingenierı́a de la Computación Universidad Simón Bolı́var Valle de Sartenejas, Caracas, Venezuela Email: [email protected] Computación Gráfica Ingenierı́a de la Computación Universidad Simón Bolı́var Valle de Sartenejas, Caracas, Venezuela Email: [email protected] Resumen—Los seres humanos expresan sus emociones de muchas formas, en particular, a través de la cara, los ojos y el movimiento del cuerpo. Por lo tanto, la variedad de expresiones viene dado por la emoción, la personalidad, la biomecánica, los principios fı́sicos de la animación y la animación fı́sica humana basada en la simulación de movimiento. También se van a presentar casos realistas de la expresividad. I. Introducción Los principios del movimiento humano permiten conectar muchos campos de la investigación cientı́fica, incluyendo la biomecánica, el control óptimo, aprendizaje automático, la robótica, la neurociencia del movimiento, la psicologı́a, y otros, ası́ como el teatro, la animación y el baile. Cada uno de estos campos puede dar una perspectiva diferente en el movimiento, cada uno de los cuales son útiles para entender cómo nos movemos. Este trabajo tiene como objetivo mostrar los principios más relevantes de estas áreas, con énfasis en la locomoción humana (especialmente el caminar). Incluso desde un punto de vista fı́sico, hay muchas maneras que podemos ver el movimiento. Podemos inspeccionar todas los las fuerzas individuales que participan en un movimiento, o podemos mirar a las fuerzas en el sistema en su conjunto partiendo desde el centro de masa, o podemos buscar en las propiedades de más alto nivel, tales como energı́a y trabajo. II. Expresiones Faciales La animación facial por computadora es principalmente un área de la computación gráfica que encapsula los modelos y técnicas para la generación y animación de imágenes de la cabeza humana, la cara o rostro. Debido a su tema y al resultado obtenido, está relacionado con muchos otros campos cientı́ficos y artı́sticos de la psicologı́a y de la animación tradicional. La importancia de la cara humana en la comunicación verbal y no verbal y los avances en hardware y software de gráficos han causado considerables el creciente aumente en las áreas cientı́ficas, tecnológicas, artı́sticas en la animación facial por computadora. II-A. Sistema de Codificación para Acciones Fa- ciales De sus siglas en inglés FACS que significa Facial Action Codes System; es un sistema para taxonomizar las expresiones faciales humanas, originalmente desarrollado por Paul Ekman y Wallace Friesen V. en 1978. [14] Se trata de una norma común para clasificar sistemáticamente la expresión fı́sica de emociones, y ha demostrado ser útil a los psicólogos y animadores. II-A1. Usos: usando FACS, los codificadores humanos pueden manualmente descifrar casi cualquier expresión facial anatómicamente posible, descomponiendo las unidades especı́ficas de acción (UA) y sus segmentos temporales que produce en la expresión. Las UAs (unidades de acción) son independientes de cualquier interpretación, pudiendo ser utilizadas para cualquier decisión de orden superior incluido el reconocimiento de emociones básicas, o los comandos preprogramados para un entorno ambiental inteligente. Comunmente utilizados por psicólogos y artistas del espectáculo para reconocer o expresar emociones según sea el caso. Adicionalmente, es de gran utilidad en la ciencias criminalı́sticas para saber cuando una persona está diciendo la verdad, solo observando su rostro y las lı́neas de expresión. [15] II-A2. Códigos Unidades de Acción: unidades de Acción (UA), son las acciones fundamentales de los músculos o grupos de músculos. Acción Descriptores (AD), son movimientos unitarios que pueden implicar la actuación de varios grupos musculares (por ejemplo, el movimiento de la mandı́bula). La base muscular para estas acciones no se ha especificado y sus comportamientos especı́ficos no han sido distinguidos con tanta precisión como con las UA. II-A3. Puntuación de la Intensidad: está divida por: A Trazo B Leve C Marcado o Pronunciado D Severo o Extremo E Máximo II-B. Técnicas en 2D II-B1. Morphing: es un efecto especial en el cine y en las animaciones que cambia (o se transforma) una imagen en otra a través de una transición sin problemas. Muy a menudo se utiliza para hacer que una persona se convierta en otro a través de medios tecnológicos o como parte de una fantası́a o una secuencia surrealista. II-B2. Video de Reescritura: utiliza las tomas existentes para crear automáticamente un nuevo video de una persona pronunciando palabras que no hablaba en la grabación original. Esta técnica es útil en el doblaje de pelı́culas, por ejemplo, donde se encuentra la secuencia de la pelı́cula que puede ser modificada para sincronizar los movimientos de los labios del actor a la nueva pista de audio. [7] II-C. Técnicas en 3D II-C1. Transformación (Morphs): Se tiene un número de expresiones faciales, cada una representada por una malla independiente. Se construyen nuevas expresiones faciales de estas expresiones base. La transición de uno a otro de hace de forma suavizada. Ventajas: II-C3. Captura de Movimiento Facial: es el proceso de convertir electrónicamente los movimientos de la cara de una persona en una base de datos digital con cámaras o escáneres láser. Esta base de datos puede entonces ser utilizada para producir GC (gráficos por computadora), animación para pelı́culas, juegos o avatares en tiempo real. [13] Basado en Marcadores Sistemas de marcadores tradicionales en donde se aplican hasta 350 marcadores en la cara de los actores y se sigue el movimiento del marcador con cámaras de alta resolución. Esto ha sido utilizado en pelı́culas como “The Polar Express” y “Beowulf” para permitir que un actor como Tom Hanks pueda realizar expresiones faciales de varios personajes diferentes. Desafortunadamente esto es relativamente engorroso y hace que las expresiones de los actores tengan que ser exageradas una vez que el alisado y el filtrado se han producido. Sin Marcadores Tecnologı́as sin marcadores utilizan las caracterı́sticas de la cara, la nariz, las comisuras de los labios, los ojos y las arrugas para luego seguirlos. Esta tecnologı́a se discute y se mostró en la CMU, IBM, Universidad de Manchester (donde gran parte de esto comenzó con Tim Cootes, Gareth Edwards y Chris Taylor) entre otros lugares; utilizando modelos activos, componentes principales de análisis, modelos deformables de superficie y otras técnicas para rastrear las caracterı́sticas deseadas faciales marco a marco. Esta tecnologı́a es mucho más sencilla, y permite una mayor expresión del actor. Observése la Figura 1. No se necesita mucha experticia para realizar la técnica. No hay restricciones para el diseño. Desventajas: Puede tomar mucho tiempo si se hace manualmente. Requiere mucha memoria RAM. II-C2. Sistema Músculo-Esqueleto: Es un conjunto de objetos subyacentes que pueden ser trasladados a la malla de control. Cada hueso afecta a un número de vértices con un peso. Se modela cada uno de los músculos de la cara. Cada músculo se ve afectado por un hueso. Ventajas: Estos métodos pueden ser muy poderosos para la creación de realismo. Se pueden utilizar en el contexto de modelos con parámetros para proporcionar detalles locales cuando sea necesario. Desventajas: La complejidad de las estructuras faciales son computacionalmente costosas, y difı́cil de crear. Figura 1. Captura de Movimiento sin Marcadores. II-D. Sincronización de los labios Es un término técnico para hacer coincidir los movimientos de los labios con la voz y puede referirse a cualquier número de diferentes técnicas y procesos. En el caso de las interpretaciones de conciertos en vivo, la sincronización de labios es una técnica de uso común, pero puede ser objeto de polémica. Adicionalmente en el área de la animación computacional es de amplio uso, relacionandose directamente con la creación de pelı́culas animadas, video juegos, inteligencia artificial, entre otros. II-E. Aplicaciones II-E1. Face Robot: es un software nuevo que permite la creación de gráficos de calidad digital, destinados a animadores de carácter profesional en el sector del cine y del juego. Se ocupa de los problemas técnicos de la creación de animaciones faciales y personajes humanos realistas con un nuevo conjunto de algoritmos. [8] Simulación de tejidos blandos Face Robot es el único sistema que de forma realista y coherente simula la forma en que el tejido blando de las faces del rostro humano se puede deformar. Con base en este modelo de tejido blando, Face Robot permite a los artistas trabajar a un nivel más alto de abstracción. En lugar de construir formas para cada expresión, la cara se pueden manipular directamente a través de las caracterı́sticas más destacadas de la anatomı́a facial, tales como las esquinas de la boca, las cejas, la mandı́bula, etc. Para la animación de captura de movimiento, la cara del robot requiere un menor número de marcadores (sólo 25 a 30) que los enfoques tradicionales de gama alta, pero ofrece resultados de alta calidad, porque los marcadores permiten conducir un modelo de tejido blando. No proporciona el movimiento muscular y el movimiento realista de la piel. Posibles soluciones a este problema: Controladores especiales para los músculos adheridos a los huesos. Consultar con expertos en fisiologı́a (aumentar la precisión del realismo musculoesqueléticos con simulaciones más a fondo de la anatomı́a virtual). Esqueleto Tı́pico Las lı́neas representan la unión con las articulaciones de rotación. Son enlaces rı́gidos (huesos). Obsérvese la Figura 2. El cuadro rojo es la raı́z (la posición y rotación de desplazamiento desde el origen). El personaje es animado al girar las articulaciones y generando movimiento. II-E2. Lenguaje de Modelado para la Cara: de sus siglas en inglés, FML, Facial Modeling Language, es un lenguaje de descripción de contenidos para la animación de la cara. Las expresiones faciales vienen escritas en etiquetas o tags, muy similares a el lenguaje XML. Se utiliza un framework llamado iFACE [16] que se encarga de realizar la interpretación de nuestras instrucciones y se transforman en expresiones faciales de un modelo computacional. Figura 2. Esqueleto Tı́pico. III. III-A. Animación del Cuerpo Humano Animación del Esqueleto Animación del esqueleto es una técnica de animación por computadora en el que se representa un personaje en dos partes: una representación de superficie se utiliza para dibujar al carácter (la piel o malla) y un conjunto jerárquico de los huesos entre sı́ (llamado el esqueleto o plataforma) utilizado para animar (a travez de keyframes) la malla. Si bien esta técnica se utiliza a menudo para animar los seres humanos, o modelos orgánicos, también se puede utilizar para controlar la deformación de un objeto. Ventajas: El hueso representa un conjunto de vértices. El animador controla menos caracterı́sticas del modelo. El animador puede centrarse en el movimiento a gran escala. Los huesos se pueden mover independientemente. Una animación puede ser definida por simples movimientos de los huesos, en lugar de vértice por vértice (en el caso de una malla poligonal). Desventajas: Forward Kinematics (FK): La posición de un enlace se calcula mediante la concatenación de rotaciones y desplazamientos. [10] Ventajas: Simple. Se utiliza para la mayorı́a de los sistemas de animación en tiempo real. Desventaja: Puede ser incómoda para animar en algunos casos, por ejemplo, si usted quiere asegurarse de que una mano está en contacto con un objeto. Inverse Kinematics (IK): Teniendo en cuenta la posición deseada para una parte del cuerpo (del efector final) elaborar los ángulos comunes que afluyen allı́. [11] Ventajas: Herramienta muy potente. Para la aplicación de limitaciones especı́ficas. Desventajas: Computacionalmente intensivas. Se restringe para más de dos enlaces. III-B. Captura de Movimiento Término usado para describir el proceso de registrar el movimiento y la traducción de movimiento de un modelo digital. Se utiliza en el ámbito militar, deportes, aplicaciones médicas, para la validación de la visión por computadora y en la robótica. En cine se refiere a las acciones de registro de los actores humanos, se utiliza esa información para animar modelos digitales de personajes animados por computadora en 2D o 3D. [9] III-B1. Captura de Movimiento Óptico: se divide en: Con Marcadores Los sistemas ópticos utilizan los datos capturados de los sensores de imagen para triangular la posición 3D de un objeto entre una o más cámaras calibradas para ofrecer proyecciones superpuestas. La adquisición de datos se implementa mediante marcadores especiales unidos a un actor. El seguimiento de un gran número de artistas, intérpretes o ejecutantes se logra mediante la adición de más cámaras y la ampliación del área. Estos sistemas producen datos con 3 grados de libertad para cada marcador, y la información de rotación se infiere de la orientación relativa de los marcadores de tres o más puntos, por ejemplo, el hombro, el codo y la muñeca tienen marcadores para proporcionar el ángulo del codo. Esta técnica utiliza marcadores reflectantes pasivos e infrarrojos para evitar problemas de color. III-B2. Captura de Movimiento No-Óptico: se divide en: Magnético Sistemas magnéticos calculan la posición y orientación de los flujos relativos magnéticos en tres bobinas ortogonales ubicadas en el transmisor y el receptor. La intensidad relativa de la tensión o corriente de las tres bobinas permite a estos sistemas el cálculo de la gama de movimientos y la orientación con una presición meticulosa. La salida del sensor es 6DOF (6 grados de libertad), que proporciona resultados útiles obtenidos con las dos terceras partes del número de marcadores necesarios en los sistemas ópticos, uno en el brazo superior y uno en la parte inferior del brazo para la posición y el ángulo del codo. Los marcadores no se ocluyen con objetos metálicos, pero son susceptibles a interferencias magnéticas y eléctricas de los objetos de metal en el medio ambiente, como barras de refuerzo (barras de acero de refuerzo en el concreto) o cableado, que afectan el campo magnético, y las fuentes de electricidad, tales como monitores, luces, cables y equipos. Observése la Figura 3. Ventajas: Peso ligero, barato. Uso común por la mayorı́a. Desventajas: Los problemas de oclusión. Limitado a un espacio 3D determinado. Figura 3. Captura de Movimiento Magnético. Sin Marcadores Técnicas emergentes y la investigación en visión por computadora están dando lugar a la rápida evolución del enfoque sin marcadores de captura de movimiento. Sistemas sin marcadores, como los desarrollados en Stanford, por la Universidad de Maryland, el MIT y el Instituto Max Planck, no requieren que los actores utilicen un equipo especial para el seguimiento. Algoritmos especiales están diseñados para permitir que el sistema analice los múltiples flujos de entrada óptica e identifique las formas humanas, descomponiéndolas en componentes para su seguimiento. Las aplicaciones de esta tecnologı́a se extienden profundamente en la imaginación popular sobre el futuro de la tecnologı́a informática. También se han introducido, incluidos los sistemas de movimiento orgánico, por ejemplo, en sistemas como el de Microsoft, llamado Kinect, para la consola Xbox 360, es capaz de captura de movimiento sin marcadores. Ventajas: Casi perfecto en teorı́a. Desventajas: Aún en la fase de prototipos de investigación. Está caracterizado por: Transmisores magnéticos en el cuerpo (marcadores activo). La estación base toma las medidas de las posiciones relativas. Ventajas: Muy exacto. Desventajas: Costoso. Interferencias magnéticas causadas por el área de trabajo. Mecánico Sistemas mecánicos de captura de movimiento trabajan directamente con los ángulos de las articulaciones en el cuerpo y se refieren a menudo como sistemas de captura de exoesqueleto de movimiento, debido a la forma en que los sensores están conectados al cuerpo. Artistas interpretes o ejecutantes realizan los movimientos como si de su cuerpo se tratase y a medida que se mueven lo hacen también las partes mecánicas articuladas, que mide el movimiento relativo del artista. Sistemas mecánicos no proporcionan obstrucción, son inalámbricas (sin ataduras). Por lo general, son estructuras rı́gidas, de metal articulado, recto o de plástico unidas entre sı́ con los potenciómetros que se articulan en las articulaciones del cuerpo. Observése la Figura 4. Figura 4. Captura de Movimiento Mecánico. Está caracterizado por colocarse medidores que toman en cuantos grados ocurren las deformaciones en las articulaciones. Ventajas: No se necesitan otros instrumentos. Puede directamente proporcionar los ángulos de las articulaciones. Desventajas: Voluminosos. Relativamente costosos. III-B3. Captura de Movimiento - Conclusiones: se mencionan las ventajas y desventajas de la técnica para captura de movimiento: Ventajas: La captura de movimiento produce una animación de gran realismo. Muy popular dentro de la industria cinematográfica y de video juegos. Fácil de utilizar por los actores que los utilizan. Desventajas: Proceso de depuración puede ser un proceso más lento. Es inflexible, que sólo puede reproducir lo que se ha capturado. Difı́cil de aplicar a las nuevas situaciones fı́sicas (levantar una taza desede un lugar diferente). O los nuevos estilos (emoción diferente). III-C. Edición de Movimiento La posibilidad de editar el movimiento capturado es de vital importancia. La animación debe ser personalizada de manera que se pueda eliminar los defectos, y lograr una precisión espacial y temporal que coincida con el medio ambiente generados por computadora, o para superar las limitaciones espaciales del área en que se realizó la captura de movimiento. Para volver a utilizar el movimiento se debe ser capaz de alterar libremente el la geometrı́a y el momento. Para ser útil, la edición debe ser mucho más fácil que la animación y debe poder ser realizada desde cero, garantizando la preservación de la calidad y naturalidad de la moción original. [2] Muchas de las investigaciones recientes en el control de movimiento se ha dedicado al desarrollo de diversas tipos de herramientas de edición para producir un movimiento convincente de los movimientos pregrabado. Las técnicas más utilizadas son: Reorientación. Estilo y Contenido. III-C1. Reorientación: es una técnica para la reorientación de movimiento de una animación de un personaje y adaptarlo a otro. Su atención se centra en la adaptación de la moción de una figura articulada a otra figura con la misma estructura pero con segmentos diferentes de longitudes. Su método crea adaptaciones que preservan las cualidades deseables del movimiento original. Identifican caracterı́sticas de la moción tal como las limitaciones que deben ser mantenidas. Un solucionador de restricciones de espacio-tiempo calcula un conjunto de movimientos que deben ser adaptados y reestablece estas limitaciones, preservando las caracterı́sticas de frecuencia de la señal original. [2] III-C2. Estilo y Contenido: un movimiento puede ser separada en un componente de contenido y un componente de estilo Contenido: caminar, sentarse, saltar. Estilo: enojado, alegre, orgulloso. Tratar de separar el estilo y contenido Cambiar el estilo de un objeto. Aplicar el estilo de un movimiento a otro. III-D. Gráfico de Movimiento Como hemos visto, en los resultados de captura de movimiento proporcionan animaciones de alta calidad. Pero también se han visto que el conjunto de datos es muy restringido en el sentido de mezclar el grabado movimiento. Es muy difı́cil generar movimiento adicional, y sólo es posible modificar partes muy pequeñas. Ası́ que cuando se pensó en la posibilidad de mejorar esto, se desarrolló la idea de gráficos de movimiento. Ellos han buscado una nueva forma de reorganizar los datos almacenados. Como existen varias ideas de estructuras de datos tales como árboles, gráficos o pilas, hay también más enfoques sobre la estructuración del movimiento de datos. Se decidió utilizar un gráfico dirigido de manera que los datos sean más fáciles de manejar. Se separaron los datos del movimiento registrado en pequeños clips de un par de cuadros. Se caracteriza por: Es útil para crear secuencias de movimientos aleatorios. Dado un conjunto de datos de captura de movimiento automáticamente construir un grafo dirigido conectando los diferentes movimientos y las transiciones. III-E. Suavizado de la Piel Queremos representar a un personaje con una sola malla lisa (una “piel”). Debe deformarse sin problemas sobre la base del esqueleto propuesto. Asociar cada vértice en una malla con una o más articulaciones. Los vértices se transforman individualmente por sus articulaciones asociadas. Cada vértice tiene un peso para cada articulación. La posición resultante es una suma ponderada de la articulación individual que se transforma. III-F. Método Multi-Capa La deformación de un cuerpo humano no sólo depende del movimiento del esqueleto. El movimiento del músculo y la grasa también afectan a la apariencia. Los tejidos blandos necesitan diferentes técnicas al de los huesos rı́gidos. Los sistemas más avanzados de animación de caracteres utilizan capas múltiples. Métodos geométricos, por ejemplo, deformaciones de forma libre (basado en NURBS). Los modelos fı́sicos basados en capas de grasa y músculo. III-G. Aplicaciones III-G1. The Human Immersive Laboratory: es una unidad militar instalada en la base militar en Fort Worth, Texas, es un buen ejemplo de como el desarrollo de la ingenierı́a immersiva está siendo impulsada gracias al ahorro de mas de 100 millones de dólares. Este sistema está construido con cámaras digitales que capturan el movimiento de las personas y con el uso del software analı́tico llamado Cortex desarrollado por Motion Analysis Corp. El sistema coloca a sus usuarios en ambientes y pruebas reales que simulan actividades crı́ticas o de entrenamiento en diversos áreas, como pueden ser: actividades de cargamento, mantenimiento o reparación en busques militares y hasta en aviones como el F-16 y F-22. [17] III-G2. Metallica en Guitar Hero: la reconocida banda de rock Metallica y la empresa desarrolladora de juegos Activision, y gracias a la tecnologı́a de captura de movimiento han trabajado juntos en el desarrollo del juego Guitar Hero Metallica. El mismo consta de un conjunto de canciones y videos hechos por la banda utilizando la captura de movimiento que ha proporcionado un gran realismo y emoción a la experiencia del juego. IV. Conclusión Se ha avanzado y mucho en el desarrollo de técnicas que nos permitan representar en modelos computacionales la expresividad que creemos que es solo inerente a los seres humanos. Con el continuo incremento de la potencia de los sistemas informáticos es cada vez más realista el resultado que se va obteniendo. En los tiempos actuales hemos visto la gran evolución que han tenido técnicas como la captura de movimiento, que nos auguran un futuro lleno de peı́culas, juegos, robots, ets, cada vez más reales. Con el avance de la tecnoloı́a y la investigación se han podido realizar filmes cinematográficos que han acaparado totalmente nuestra fascinación. Sin embargo, lo mejor esta por venir. Aún queden ramos de las ciencias y usos prácticos que no han sido lo suficientemente desarrollados, como lo puede ser: la medicina, la cirugı́a estética, la simulación y la realidad virtual por contar algunas. Con la llegada de video juegos que utilizan captura de movimientos, como lo es el Kinect de Xbox 360, ha sido el primer vestigio de lo que nos puede deparar el futuro. Herramientas que propicien la interacción en primera persona a través de internet o la creación de un mundo virtual paralelo. Al final la realidad es el lı́mite. El afán por crear cada vez mejores modelos 3D que puedan tener expresiones reales o cuasi-humanas nos llevará a los rincones de nuestra propia imaginación. R EFERENCIAS [1] Pascal Pohl: “Motion Graphs in Character Animation” Saarland University. [2] Jae Woo Kim: “Motion Editing Techniques for Realistic” [3] Nicolleta Adamo-Villani, Gerardo Beni, Jeremy White: “EMOES: Eye Motion and Ocular Expression Simulator” International Journal of Information and Communication Engineering 2006. [4] S. Platt y N. Badler, “Animating facial expressions”. Computer Graphics (Siggraph’81 Proc.), 1981, pp.279-288. [5] F. Parke, “Parameterized Models of Human Faces”. PhD Thesis, University of Utah, 1974. [6] Aaron Hertzmann, Carol O’Sullivan, Ken Perlin: “Realistic Human Body Movement for Emotional Expressiveness” Siggraph 2009 proc. [7] Reescritura de Video [En Lı́nea]. Disponible: http://mrl.nyu.edu/∼bregler/ videorewrite/. [8] Face Robot [En Lı́nea]. Disponible: http://mrl.nyu.edu/∼bregler/ videorewrite/. [9] Capture de Movimiento [En Lı́nea]. Disponible: http://en.wikipedia.org/ wiki/Motion capture. [10] Forward Kinematics [En Lı́nea]. Disponible: http://en.wikipedia.org/ wiki/Forward kinematic animation. [11] Inverse Kinematics [En Lı́nea]. Disponible: http://en.wikipedia.org/wiki/ Inverse kinematics. [12] Animación Facial por Computadora [En Lı́nea]. Disponible: http://en. wikipedia.org/wiki/Computer facial animation. [13] Captura de Movimiento Facial [En Lı́nea]. Disponible: http://en. wikipedia.org/wiki/Facial motion capture [14] Sistema de Codificación para Acciones Faciales [En Lı́nea]. Disponible: http://en.wikipedia.org/wiki/Facial Action Coding System. [15] Expresiones Artistas de Actores de Cine [En Lı́nea]. Disponible: http: //bassbrass.org/movie/Actors/Facial%20Expressions.html. [16] Lenguage para el modelado de la cara [En Lı́nea]. Disponible: http: //img.csit.carleton.ca/iface/. [17] The Human Immersive Laboratory [En Lı́nea]. Disponible: http://www. motionanalysis.com/html/temp/lockheedHIL.html.