Bermejo Navarro, F. Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. Fulgencio Bermejo Navarro Universidad Miguel Hernández de Elche. Fecha de recepción: 9 de marzo de 2015 Fecha de aceptación: 24 de abril de 2015 RESUMEN El presente artículo analiza el estado del arte de los usos de la Interacción PersonaOrdenador (IPO) presentados en las dos últimas ediciones del CHI (congreso sobre los factores humanos en sistemas con ordenador) y se estudia una posible aplicación en los módulos interactivos de los museos de ciencias en donde se use el sensor Kinect para Windows en su versión 2 (v2) y su Paquete de Desarrollo de Software. ABSTRACT This paper analyses the State of the Art uses of Human Computer Interaction (HCI) presented in last two editions of CHI (Conference on Human Factors in Computing Systems) and is studied a possible application in interactive modules of science museums where Kinect sensor for Windows version 2 (v2) and its Software Development Kit (SDK) is used. Palabras clave: IPO, Interacción Persona Ordenador, museo de ciencias, módulo interactivo, sensor, Kinect, versión 2, v2, Windows, KDS Key words: HCI, Human C o m p u te r I n t e ra c t io n , science m u s e u m , inte r a c ti v e m o d u le , s e n so r , K in e c t, v e r s io n 2, v 2, Win d o w s , SDK 1 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. 1. INTRODUCCIÓN. Prácticamente desde que existen ordenadores las personas interactuamos con ellos a través dispositivos que nos facilitan dicha interacción, como por ejemplo, el ratón o teclado. Hoy en día disponemos de un dispositivo de interacción mucho más sofisticado, en principio ideado para sistemas de entretenimiento (videojuegos), el sensor Kinect. El 21 de mayo de 2013, Microsoft lanza Xbox One, un sistema de entretenimiento y juegos que incluye el sensor Kinect v2 [1]. Pero no es hasta el 22 de octubre de 2014 [2] cuando lanza SDK 2.0 (Software Development Kit) para Windows, lo que permite, a los desarrolladores de software, usarlo para aprovechar todas las características del sensor Kinect v2. Desde este momento la IPO (Interacción Persona-Ordenador) gana una evolución (respecto de la versión 1 del sensor Kinect) de interacción de la cual se comienzan a tener resultados en el CHI del 2014 (Congreso sobre Factores Humanos en los Sistemas Informáticos), tales como la captura del movimiento de un objeto sólido real y detectar en él gestos, detección del movimiento de las manos en una comunicación a través de ordenador, cómo controlar cuando la persona desea que sus movimientos sean interpretados por el ordenador, identificación de personas para su acceso al ordenador o un sistema de colaboración remota a través de una pizarra digital. En este artículo se investiga los usos y aplicaciones mostradas en los congresos CHI’14 y CHI’15 del sensor Kinect v2 y se propone una aplicación destinada a un módulo interactivo para un museo de ciencias. 2. BREVE DESCRIPCIÓN DEL SENSOR KINECT V2 a. Descripción técnica El sensor Kinect v2 (versión 2) es un dispositivo físico sensible al movimiento con tecnologías avanzadas el cual posibilita al usuario interactuar con su videoconsola (Xbox One) u ordenador (con sistema operativo Windows) de manera natural, esto es, con los movimientos de su cuerpo, manos e incluso gestos de la cara o, directamente, hablándole. En la imagen 1 podemos ver su aspecto físico. 2 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. Imagen 1 Sensor Kinect v2 para Xbox One Fuente: Microsoft Dispone de los siguientes elementos: ● ● ● ● [3] Cámara en color de 1080p Sensor de profundidad (depth sensing technology) Emisor de infrarrojos (IR) Array de micrófonos Todos estos elementos posibilita rastrear hasta 6 personas y 25 articulaciones por persona, es decir, hasta los dedos de las manos. También crear mallas de reconocimiento facial de hasta 1000 puntos de la cara de una persona. El array de 4 micrófonos [4] está colocado en la parte inferior del sensor, bajo la rejilla agujereada que se puede ver en el frontal (imagen 1) Todos los elementos quedan dispuestos como se ve en la imagen 2 También que dispone de un sensor acelerómetro de tres ejes. [4] Imagen 2 Disposición de los elementos en el interior del sensor Kinect v2 Fuente: imagen de www.ifixit.com, anotaciones de Fulgencio Bermejo Navarro Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 3 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. Existen dos versiones del sensor Kinect v2, una para el ordenador con sistema operativo Windows y otra para la videoconsola Xbox One. La versión para la Xbox One requiere de un adaptador si lo queremos usar en el ordenador. b. Descripción de funcionalidades El conjunto sensor Kinect v2 más el SDK v2 (Software Development Kit) posibilita su uso en un ordenador con Windows, lo que permite desarrollar aplicaciones que posteriormente se pueden ofrecer en la Tienda de Microsoft. Los distintos elementos de que dispone este sensor, enumerados en el apartado anterior, confieren al mismo de las siguientes funcionalidades: ● Captación de imágenes de alta definición en color ● El conjunto emisor y cámara de infrarrojos (IR) permite medir la profundidad, es decir, la distancia desde el sensor a un objeto dentro de su campo de alcance, incluso en la oscuridad. ● El array de micrófonos permite conocer la intensidad y dirección de una fuente emisora de sonido. Todas estas funcionalidades hacen que este sensor se pueda usar, por ejemplo, como escáner 3D. Microsoft, en su canal de Youtube “Kinect for Windows”, presenta un video [5] en el que muestra esta opción usando el software 3D Builder. 3. USOS DEL SENSOR KINECT V2 EN SISTEMAS HCI a. ¿Qué es un sistema HCI? Un sistema HCI (Human Computer Interaction) o, por su denominación en castellano, IPO (Interacción Persona Ordenador) está compuesto por un ordenador y un interfaz de usuario que es a través del cual interacciona la persona con el sistema. Esta interfaz la componen los distintos dispositivos de entrada y salida así como los programas (software) que la hacen funcionar pero, más ampliamente hablando, comprende todo lo que tiene que ver con la experiencia de usuario y el ordenador. b. Aplicaciones de Kinect v2 para sistemas HCI Inicialmente este sensor se comercializó para su uso en la consola de 4 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. videojuego Xbox One de Microsoft pero posteriormente se lanzó una versión para uso en un ordenador con sistema operativo Windows. Las aplicaciones iniciales (controlar la videoconsola, la televisión, uso para videoconferencia con Skype o reconocer al usuario) han crecido con el modelo para el ordenador, lo que ha abierto un abanico de posibilidades tan solo limitadas por la imaginación. Escáner 3D, experiencias de marketing o relacionadas con la educación o la salud son algunos de los ejemplos en donde se puede usar este sensor. A continuación vamos a analizar las aplicaciones presentadas en el congreso internacional CHI (Conference on Human Factors in Computing Systems) de los años 2014 y 2015 realizados tras la aparición de este sensor. 4. APLICACIONES DE KINECT V2 PARA LA IMPLEMENTACIÓN DE UN MÓDULO INTERACTIVO EN UN MUSEO DE CIENCIAS a. ¿Qué es un museo interactivo de ciencias? Un museo de ciencias en un lugar donde se exponen módulos o exhibiciones, además de que se realicen otro tipo de actividades (como talleres interactivos), con el objetivo de que sus visitantes aprendan conceptos sobre ciencias, matemáticas, tecnología o ingeniería. Si añadimos la definición de interactivo nos queda un museo en el que dichos módulos o exhibiciones pueden ser, y deben ser, manipulados por los aprendices (visitantes motivados para aprender) todo esto en un contexto de educación no formal. Por ejemplo, el Museo Didáctico e Interactivo de Ciencias de la Vega Baja del Segura Comunitat Valenciana (www.mudic.es) el cual está situado en la Escuela Politécnica Superior de Orihuela (Spain) b. Características deseables de un módulo interactivo para un museo de ciencias Un módulo interactivo para un museo de ciencias debe poseer una serie de características que lo hagan atractivo (motivante) para el aprendiz, sin perder, en ningún momento, su cualidad de ser un instrumento para el aprendizaje de cualquier ciencia por parte de los visitantes del museo. Debe centrarse en algún tema o concepto de alguna rama de la ciencia y ser robusto en cuanto a su manipulación, tanto física (que no se averíe) como en la interacción, esto es, que se pueda repetir la experiencia o experimento con fiabilidad. Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 5 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. c. Análisis de los usos actuales del sensor Kinect v2 En este apartado vamos a analizar los usos que se les ha dado al sensor Kinect v2 en los dos últimos congresos internacionales de IPO, el CHI’14 y el CHI’15. En el CHI’14 aparecen cuatro actas referidas a sensor Kinect y en el del CHI’15 una. A continuación se procede a investigar cada una de ellas con el objetivo de si es posible aplicar dicha interacción a un módulo interactivo de un museo de ciencias. CHI’14.1 “MotionMontage” [6] Esta aplicación del sensor Kinect v2 consiste en capturar el movimiento de un objeto sólido real (imagen 3) y detectar en él 3 tipos de gestos que se pueden ver en la imagen 4: Giro a izquierda o derecha. Salto. Movimiento atrás o adelante. Relacionando estos tres gestos se puede controlar el objeto asociado virtual dentro de una animación 3D. Imagen 3. Objeto sólido dentro del área de actuación del sistema. Fuente: [6] 6 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. Imagen 4. Distintos gestos capturados por el sensor Kinect v2 Fuente: [6] CHI’14.2 “Comunicación grabada con Kinect” [7] La diferencia entre la comunicación cara a cara (F2F, Face To Face) y la Comunicación Mediante Ordenador (CMC) es la disponibilidad de señales visuales y no verbales como se ve en la imagen 5. En una comunicación, entre dos personas mediante ordenador, la pérdida de la información aportada por los gestos de aquellas resta calidad a la comunicación. Por ejemplo, una videoconferencia en la que solo se ven los rostros entre sí, los gestos realizados con las manos (ocultos) resta calidad en la comunicación, en cuanto a si el interlocutor está, por ejemplo, entendiendo el mensaje. En este artículo se usa el sensor Kinect para detectar el movimiento de las manos, imagen 6, de las personas implicadas en una comunicación cara a cara y se investiga la influencia de los gestos en la calidad (nivel de comprensión) del intercambio de ideas. Imagen 5. Comunicación verbal y no verbal entre dos personas Fuente: [7] Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 7 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. Imagen 6. El sensor Kinect v2 capta los gestos no verbales Fuente: [7] CHI’14.3 “Combinar la pose del cuerpo, la mirada y el gesto para determinar la intención de interactuar en las interfaces basadas en la visión” [8] Los interfaces basados en visión, como los que usan el sensor Kinect, tienen el problema del toque de Midas (que cualquier gesto se pueda interpretar como como una interacción con la aplicación) lo que complica la interacción con el sistema. En este artículo se muestra el algoritmo desarrollado para combinar la pose del cuerpo, los gestos faciales y el movimiento, para mejorar en cuanto a la intención de un usuario de interactuar con el sistema. Se muestra cómo puede ser usado para determinar cuándo prestar atención a las acciones del usuario y cuando ignorarlas. El resultado de la investigación es que el mejor gesto es el de levantar una mano abierta frente a ti mostrándola al sensor como se puede ver en la imagen 7. 8 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. Imagen 7. Pose y gestos frente al sensor Kinect v2 Fuente: [8] CHI’14.4 “Wave to me” [9] Este uso del sensor Kinect v2 consiste en la identificación de un usuario usando el tamaño del cuerpo y gestos naturales. Se usan las diferencias individuales en longitudes de los segmentos corporales y los patrones gestuales (cuando se está agitando la mano, como se puede ver en la imagen 8) de cada persona. El sistema identifica al usuario captándolo cuando agita la mano durante dos segundos. Se han tomado 8.640 muestras de 75 participantes el resultado obtenido es de un error del 1% en el laboratorio y entre 0.5 y 1.6% en situaciones reales. Lo que demuestra una gran robustez en la identificación de personas. Imagen 8. Reconocimiento de la persona por el gesto al agitar la mano Fuente: [9] Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 9 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. CHI’15.1 “ImmerseBoard” [10] Este último uso del sensor Kinect v2 muestra la experiencia de telepresencia inmersiva usando una pizarra digital. Es un sistema de colaboración remota a través de una pizarra digital que da a los participantes una experiencia inmersiva 3D usando un sensor Kinect situado en el lado de la pizarra digital de gran tamaño, como se puede ver en la imagen 9. Usando el procesamiento 3D de la profundidad de las imágenes, la representación a tamaño natural y novedosas visualizaciones, ImmerseBoard puede emular la escritura lado a lado sobre una pizarra o alternativamente sobre un espejo. Este sistema, en comparación con una videoconferencia estándar, proporciona a los participantes una capacidad, cuantitativamente mejor, de estimar la dirección de la mirada, la dirección del gesto, intención y el nivel de entendimiento de la otra persona. Por otra parte, cualitativamente, estas capacidades se traducen en una sensación de estar juntos y una experiencia más agradable. 10 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. Imagen 9. Experiencia de telepresencia inmersiva. Fuente: [10] d. Qué usos del sensor Kinect v2 son utilizables en un módulo interactivo para un museo de ciencias A continuación se valorarán las posibilidades de cada uno de los cinco sistemas analizados para que puedan ser usados, por separado o en combinación de varios de ellos, en un módulo interactivo para un museo de ciencias. CHI’14.1 “MotionMontage” Este sistema se considera muy apropiado para instalarlo en un museo de ciencias destinado a visitantes con edades entre las 10-18 años, correspondiente a niveles de último ciclo de educación primaria, educación secundaria, bachillerato o formación profesional de grado medio. El usuario tan solo tendría que manejar un objeto sólido dentro de un espacio de trabajo y el sistema a controlar podría ser una aplicación en pantalla de visualización o un dispositivo robótico para manipular o realizar algún tipo de experimento científico o técnico. CHI’14.2 “Comunicación grabada con Kinect” Este sistema será más útil en investigación sobre la forma en que las personas se comunican, estudiando sus gestos durante la misma. En principio no le vemos una aplicación directa para un módulo interactivo para un museo de ciencias. CHI’14.3 “Combinar la pose del cuerpo, la mirada y el gesto para determinar la intención de interactuar en las interfaces basadas en la visión” Este sistema se puede usar, en combinación con el primero (MotionMontage) para indicar al sistema cuándo comenzar la interacción con el mismo. Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 11 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. CHI’14.4 “Wave to me” Este sistema, al necesitar tener a los usuarios registrados, no podría usarse en un módulo genérico, pero podría usarse, por ejemplo, para dar la bienvenida a un monitor del museo al entrar a una sala de módulos interactivos. CHI’15.1 “ImmerseBoard” A este sistema no le vemos un posible uso en un museo de ciencias en donde existen módulos interactivos que los aprendices manipulan con objetivo de aprender conceptos científico-técnicos. Parece estar más indicado para trabajo colaborativo, aunque también podría usarse mejor en un taller interactivo, en donde dos personas tuvieran que interactuar sobre una pizarra aún estando en lugares distintos. CONCLUSIÓN A la vista de los 5 usos, en los que se emplea el sensor Kinect v2 en las últimas dos ediciones presentados al CHI, es muy interesante el “MotionMontage” por su fácil implementación en un módulo interactivo de un museo de ciencias, debido a que reduce la manipulación del módulo tan sólo a mover un objeto en un espacio determinado. La “Comunicación grabada con Kinect” está destinada a su uso en un sistema de comunicación entre personas a través del ordenador, no es de interés en un módulo interactivo en un museo de ciencias. Resolver el problema del toque de Midas si que es muy interesante para un módulo interactivo, sobre todo porque los usuarios de dicho módulo (aprendices en un entorno de aprendizaje no formal) no estarán previamente entrenados en el manejo o uso de dicho módulo y la posibilidad que el sistema interprete movimientos de la persona como deseos de interactuar con el sistema es muy alta. En cuanto a la aplicación de identificación de un usuario ante el sistema no es de utilidad en el caso de un módulo interactivo ya que estaría situado en un espacio público usado por decenas de personas al día que no es necesario identificar. 12 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. Por último, la “ImmerseBoard” es muy interesante para la comunicación a distancia entre personas como si estuvieran situados frente a una pizarra, pero tampoco creemos interesante para un módulo interactivo. Por lo tanto, un posible desarrollo a investigar sería un módulo interactivo para un museo de ciencias, cuya audiencia principal son estudiantes de 10-18 años de edad, en donde se use el “MotionMontage” para controlar algún dispositivo robótico con el objetivo de dar la posibilidad a los aprendices (visitantes del museo) de experimentar algún concepto relacionado con las ciencias, tecnologías, ingenierías o matemáticas (STEM). Para iniciar la interacción con dicho módulo se puede investigar el uso de “Combinar la pose del cuerpo, la mirada y el gesto para determinar la intención de interactuar en las interfaces basadas en la visión” con el objetivo de evitar el problema del Midas Touch. Agradecimientos A Enrique Perdiguero Gil, profesor titular de Hª de la Ciencia de la UMH, por sus orientaciones en el proceso de enseñanza-aprendizaje en la asignatura de Bases de la Investigación Científica. A Federico Botella Beviá, director del Instituto Centro de Investigación Operativa (CIO) y a Antonio Peñalver Benavent, subdirector de grado en Ingeniería Informática en Tecnologías de la Información, ambos de la Universidad Miguel Hernández, por su ánimo, orientación y apoyo desde el principio, para la elaboración de este artículo. A los dos profesores de la UMH, revisores de este artículo, por sus aportaciones para la mejora del mismo. REFERENCIAS. [1] Microsoft News Center, “Microsoft Presenta Xbox One: El sistema de entretenimiento en el hogar definitivo,” Centro de Noticias, Redmond (Washington), 21 mayo 2013. [Online]. Disponible: http://news.micro soft.com/es-es/2013/05/21/microsoft-presenta-xbox-one/. [Accedido: 8 septiembre 2015]. Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 13 Estado del arte de los usos del sensor Kinect v2. Aplicación a un módulo interactivo para un museo de ciencias. [2] [3] [4] Nick Summers, “Microsoft releases Kinect v2 SDK 2.0, allows devs to publish apps in the Windows Store,” TNW News, Microsoft, 22 octubre 2014. [Online]. Disponible: http://thenextweb.com/microsoft/2014/10/22 microsoft-releases-windows -sdk-2-0-kinect-v2-lets-devs-publish-appswindows-store/. [Accedido: 8 septiembre 2015]. “Kinect hardware key features and benefits,” 22 octubre 2014. [Online]. Disponible: https://dev.windows.com/en-us/kinect/hardware. [Accedido: 8 septiembre 2015]. Dick James, “Inside the Xbox One Kinect,” About Chipworks, chipworks, 28 noviembre 2013. [Online]. Disponible: http://www.chipworks.com/about-chipworks/overview/blog/inside-xboxone-kinect. [Accedido: 8 septiembre 2015]. [5] Kinect for Windows, “3D Builder App & Kinect,” YouTube, 21 octubre 2014 [Archivo de video]. Disponible: http://www.youtube.com/watch?v= nXbDkJ7cRrA. [Accedido: 8 septiembre 2015]. [6] A. Ankit Gupta B. Maneesh Agrawala C. Brian Curless y D. Michael Cohen, “MotionMontage: a system to annotate and combine motion takes for 3D animations,” actas del CHI'14: SIGCHI Conference on Human Factors in Computing Systems, 2014, páginas 2017-2026 [Online]. Disponible: ACM Digital Library, http://dl.acm.org/citation.cfm ?id=2557218&CFID=691614614&CFTOKEN=34126142. [Accedido: 8 septiembre 2015]. [7] A. Hao-Chuan Wang y B. Chien-Tung Lai, “Kinect-taped communication: using motion sensing to study gesture use and similarity in face-to-face and computer-mediated brainstorming,” actas del CHI'14: SIGCHI Conference on Human Factors in Computing Systems, 2014, páginas 3205-3214 [Online]. Disponible: ACM Digital Library,http://dl.acm.org/citation.cfm?id=2557060&CFID=691614614&C FTOKEN=34126142. [Accedido: 8 septiembre 2015]. [8] A. Julia Schwarz B. Charles Claudius Marais C. Tommer Leyvand D. Scott E. Hudson y E. Jennifer Mankoff, “Combining body pose, gaze, and gesture to determine intention to interact in vision-based interfaces,” actas del CHI'14: SIGCHI Conference on Human Factors in Computing Systems, 2014, páginas 3443-3452 [Online]. Disponible: ACM Digital Library,http://dl.acm.org/citation.cfm?id=2556989&CFID=691614614& CFTOKEN=34126142. [Accedido: 8 septiembre 2015]. 14 Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 Bermejo Navarro, F. [9] A. Eiji Hayashi B. Manuel Mass y C. Jason I. Hong, “Wave to me: user identification using body lengths and natural gestures,” actas del CHI'14: SIGCHI Conference on Human Factors in Computing Systems, 2014, páginas 3453-3462 [Online]. Disponible: ACM Digital Library, http://dl.acm.org/citation.cfm?id=2557043&CFID=691614614&CFTOK EN=34126142. [Accedido: 8 septiembre 2015]. [10] A. Keita Higuchi B. Yinpeng Chen C. Philip A. Chou D. Zhengyou Zhang y E. Zicheng Liu, “ImmerseBoard: Immersive Telepresence Experience using a Digital Whiteboard,” actas del CHI'15: SIGCHI Conference on Human Factors in Computing Systems, 2015, páginas 2383-2392 [Online]. Disponible: ACM Digital Library, http://dl.acm.org/citation.cfm?id=2702160&CFID=691614614&CFTOK EN=34126142. [Accedido: 8 septiembre 2015]. La correspondencia concerniente a este artículo debe dirigirse a: Fulgencio Bermejo Navarro [email protected] Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7 15