Descargar este fichero PDF

Anuncio
Bermejo Navarro, F.
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
Fulgencio Bermejo Navarro
Universidad Miguel Hernández de Elche.
Fecha de recepción: 9 de marzo de 2015
Fecha de aceptación: 24 de abril de 2015
RESUMEN
El presente artículo analiza el estado del arte
de los usos de la Interacción PersonaOrdenador (IPO) presentados en las dos
últimas ediciones del CHI (congreso sobre los
factores humanos en sistemas con ordenador)
y se estudia una posible aplicación en los
módulos interactivos de los museos de
ciencias en donde se use el sensor Kinect
para Windows en su versión 2 (v2) y su
Paquete de Desarrollo de Software.
ABSTRACT
This paper analyses the State of the Art uses of
Human Computer Interaction (HCI) presented in
last two editions of CHI (Conference on Human
Factors in Computing Systems) and is studied a
possible application in interactive modules of
science museums where Kinect sensor for
Windows version 2 (v2) and its Software
Development Kit (SDK) is used.
Palabras clave: IPO, Interacción Persona
Ordenador, museo de ciencias, módulo
interactivo, sensor, Kinect, versión 2, v2,
Windows, KDS
Key words: HCI, Human
C o m p u te r
I n t e ra c t io n , science m u s e u m , inte r a c ti v e
m o d u le , s e n so r , K in e c t, v e r s io n 2, v 2,
Win d o w s , SDK
1
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
1. INTRODUCCIÓN.
Prácticamente desde que existen ordenadores las personas
interactuamos con ellos a través dispositivos que nos facilitan dicha
interacción, como por ejemplo, el ratón o teclado. Hoy en día disponemos de
un dispositivo de interacción mucho más sofisticado, en principio ideado para
sistemas de entretenimiento (videojuegos), el sensor Kinect.
El 21 de mayo de 2013, Microsoft lanza Xbox One, un sistema de
entretenimiento y juegos que incluye el sensor Kinect v2 [1]. Pero no es hasta
el 22 de octubre de 2014 [2] cuando lanza SDK 2.0 (Software Development
Kit) para Windows, lo que permite, a los desarrolladores de software, usarlo
para aprovechar todas las características del sensor Kinect v2. Desde este
momento la IPO (Interacción Persona-Ordenador) gana una evolución
(respecto de la versión 1 del sensor Kinect) de interacción de la cual se
comienzan a tener resultados en el CHI del 2014 (Congreso sobre Factores
Humanos en los Sistemas Informáticos), tales como la captura del
movimiento de un objeto sólido real y detectar en él gestos, detección del
movimiento de las manos en una comunicación a través de ordenador, cómo
controlar cuando la persona desea que sus movimientos sean interpretados por
el ordenador, identificación de personas para su acceso al ordenador o un
sistema de colaboración remota a través de una pizarra digital.
En este artículo se investiga los usos y aplicaciones mostradas en los
congresos CHI’14 y CHI’15 del sensor Kinect v2 y se propone una aplicación
destinada a un módulo interactivo para un museo de ciencias.
2. BREVE DESCRIPCIÓN DEL SENSOR KINECT V2
a. Descripción técnica
El sensor Kinect v2 (versión 2) es un dispositivo físico sensible al
movimiento con tecnologías avanzadas el cual posibilita al usuario interactuar
con su videoconsola (Xbox One) u ordenador (con sistema operativo
Windows) de manera natural, esto es, con los movimientos de su cuerpo,
manos e incluso gestos de la cara o, directamente, hablándole. En la imagen 1
podemos ver su aspecto físico.
2
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
Imagen 1
Sensor Kinect v2 para Xbox
One Fuente: Microsoft
Dispone de los siguientes elementos:
●
●
●
●
[3]
Cámara en color de 1080p
Sensor de profundidad (depth sensing technology)
Emisor de infrarrojos (IR)
Array de micrófonos
Todos estos elementos posibilita rastrear hasta 6 personas y 25
articulaciones por persona, es decir, hasta los dedos de las manos. También
crear mallas de reconocimiento facial de hasta 1000 puntos de la cara de una
persona.
El array de 4 micrófonos [4] está colocado en la parte inferior del
sensor, bajo la rejilla agujereada que se puede ver en el frontal (imagen 1)
Todos los elementos quedan dispuestos como se ve en la imagen 2
También que dispone de un sensor acelerómetro de tres ejes. [4]
Imagen 2
Disposición de los elementos en el interior del sensor Kinect v2 Fuente:
imagen de www.ifixit.com, anotaciones de Fulgencio Bermejo Navarro
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
3
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
Existen dos versiones del sensor Kinect v2, una para el ordenador con
sistema operativo Windows y otra para la videoconsola Xbox One. La versión
para la Xbox One requiere de un adaptador si lo queremos usar en el
ordenador.
b.
Descripción de funcionalidades
El conjunto sensor Kinect v2 más el SDK v2 (Software Development Kit)
posibilita su uso en un ordenador con Windows, lo que permite desarrollar
aplicaciones que posteriormente se pueden ofrecer en la Tienda de Microsoft.
Los distintos elementos de que dispone este sensor, enumerados en el
apartado anterior, confieren al mismo de las siguientes funcionalidades:
●
Captación de imágenes de alta definición en color
●
El conjunto emisor y cámara de infrarrojos (IR) permite medir la
profundidad, es decir, la distancia desde el sensor a un objeto dentro de
su campo de alcance, incluso en la oscuridad.
●
El array de micrófonos permite conocer la intensidad y dirección
de una fuente emisora de sonido.
Todas estas funcionalidades hacen que este sensor se pueda usar, por ejemplo,
como escáner 3D. Microsoft, en su canal de Youtube “Kinect for Windows”,
presenta un video [5] en el que muestra esta opción usando el software 3D
Builder.
3. USOS DEL SENSOR KINECT V2 EN SISTEMAS HCI
a.
¿Qué es un sistema HCI?
Un sistema HCI (Human Computer Interaction) o, por su denominación
en castellano, IPO (Interacción Persona Ordenador) está compuesto por un
ordenador y un interfaz de usuario que es a través del cual interacciona la
persona con el sistema. Esta interfaz la componen los distintos dispositivos de
entrada y salida así como los programas (software) que la hacen funcionar
pero, más ampliamente hablando, comprende todo lo que tiene que ver con la
experiencia de usuario y el ordenador.
b.
Aplicaciones de Kinect v2 para sistemas HCI
Inicialmente este sensor se comercializó para su uso en la consola de
4
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
videojuego Xbox One de Microsoft pero posteriormente se lanzó una versión
para uso en un ordenador con sistema operativo Windows.
Las aplicaciones iniciales (controlar la videoconsola, la televisión, uso
para videoconferencia con Skype o reconocer al usuario) han crecido con el
modelo para el ordenador, lo que ha abierto un abanico de posibilidades tan
solo limitadas por la imaginación. Escáner 3D, experiencias de marketing o
relacionadas con la educación o la salud son algunos de los ejemplos en donde
se puede usar este sensor.
A continuación vamos a analizar las aplicaciones presentadas en el
congreso internacional CHI (Conference on Human Factors in Computing
Systems) de los años 2014 y 2015 realizados tras la aparición de este sensor.
4. APLICACIONES
DE
KINECT
V2
PARA
LA
IMPLEMENTACIÓN DE UN MÓDULO INTERACTIVO EN UN MUSEO
DE CIENCIAS
a.
¿Qué es un museo interactivo de ciencias?
Un museo de ciencias en un lugar donde se exponen módulos o
exhibiciones, además de que se realicen otro tipo de actividades (como talleres
interactivos), con el objetivo de que sus visitantes aprendan conceptos
sobre ciencias, matemáticas, tecnología o ingeniería. Si añadimos la
definición de interactivo nos queda un museo en el que dichos módulos o
exhibiciones pueden ser, y deben ser, manipulados por los aprendices
(visitantes motivados para aprender) todo esto en un contexto de educación no
formal. Por ejemplo, el Museo Didáctico e Interactivo de Ciencias de la Vega
Baja del Segura Comunitat Valenciana (www.mudic.es) el cual está situado
en la Escuela Politécnica Superior de Orihuela (Spain)
b.
Características deseables de un módulo interactivo para un
museo de ciencias
Un módulo interactivo para un museo de ciencias debe poseer una serie
de características que lo hagan atractivo (motivante) para el aprendiz, sin
perder, en ningún momento, su cualidad de ser un instrumento para el
aprendizaje de cualquier ciencia por parte de los visitantes del museo. Debe
centrarse en algún tema o concepto de alguna rama de la ciencia y ser robusto
en cuanto a su manipulación, tanto física (que no se averíe) como en la
interacción, esto es, que se pueda repetir la experiencia o experimento con
fiabilidad.
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
5
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
c.
Análisis de los usos actuales del sensor Kinect v2
En este apartado vamos a analizar los usos que se les ha dado al sensor
Kinect v2 en los dos últimos congresos internacionales de IPO, el CHI’14 y el
CHI’15.
En el CHI’14 aparecen cuatro actas referidas a sensor Kinect y en el del
CHI’15 una. A continuación se procede a investigar cada una de ellas con el
objetivo de si es posible aplicar dicha interacción a un módulo interactivo de
un museo de ciencias.
CHI’14.1
“MotionMontage” [6]
Esta aplicación del sensor Kinect v2 consiste en capturar el movimiento
de un objeto sólido real (imagen 3) y detectar en él 3 tipos de gestos que se
pueden ver en la imagen 4:
Giro a izquierda o derecha.
Salto.
Movimiento atrás o adelante.
Relacionando estos tres gestos se puede controlar el objeto asociado virtual
dentro de una animación 3D.
Imagen 3. Objeto sólido dentro del área de actuación del sistema.
Fuente: [6]
6
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
Imagen 4. Distintos gestos capturados por el sensor Kinect v2
Fuente: [6]
CHI’14.2
“Comunicación grabada con Kinect” [7]
La diferencia entre la comunicación cara a cara (F2F, Face To Face) y
la Comunicación Mediante Ordenador (CMC) es la disponibilidad de señales
visuales y no verbales como se ve en la imagen 5. En una comunicación, entre
dos personas mediante ordenador, la pérdida de la información aportada por
los gestos de aquellas resta calidad a la comunicación. Por ejemplo, una
videoconferencia en la que solo se ven los rostros entre sí, los gestos
realizados con las manos (ocultos) resta calidad en la comunicación, en cuanto
a si el interlocutor está, por ejemplo, entendiendo el mensaje.
En este artículo se usa el sensor Kinect para detectar el movimiento de
las manos, imagen 6, de las personas implicadas en una comunicación cara a
cara y se investiga la influencia de los gestos en la calidad (nivel de
comprensión) del intercambio de ideas.
Imagen 5. Comunicación verbal y no verbal entre dos personas
Fuente: [7]
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
7
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
Imagen 6. El sensor Kinect v2 capta los gestos no verbales Fuente:
[7]
CHI’14.3 “Combinar la pose del cuerpo, la mirada y el gesto para
determinar la intención de interactuar en las interfaces basadas en la visión”
[8]
Los interfaces basados en visión, como los que usan el sensor Kinect,
tienen el problema del toque de Midas (que cualquier gesto se pueda
interpretar como como una interacción con la aplicación) lo que complica la
interacción con el sistema.
En este artículo se muestra el algoritmo desarrollado para combinar la
pose del cuerpo, los gestos faciales y el movimiento, para mejorar en cuanto a
la intención de un usuario de interactuar con el sistema.
Se muestra cómo puede ser usado para determinar cuándo prestar
atención a las acciones del usuario y cuando ignorarlas.
El resultado de la investigación es que el mejor gesto es el de levantar
una mano abierta frente a ti mostrándola al sensor como se puede ver en la
imagen 7.
8
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
Imagen 7. Pose y gestos frente al sensor Kinect
v2 Fuente: [8]
CHI’14.4
“Wave to me”
[9]
Este uso del sensor Kinect v2 consiste en la identificación de un usuario
usando el tamaño del cuerpo y gestos naturales. Se usan las diferencias
individuales en longitudes de los segmentos corporales y los patrones
gestuales (cuando se está agitando la mano, como se puede ver en la imagen
8) de cada persona.
El sistema identifica al usuario captándolo cuando agita la mano
durante dos segundos.
Se han tomado 8.640 muestras de 75 participantes el resultado obtenido
es de un error del 1% en el laboratorio y entre 0.5 y 1.6% en situaciones
reales. Lo que demuestra una gran robustez en la identificación de personas.
Imagen 8. Reconocimiento de la persona por el gesto al agitar la
mano Fuente: [9]
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
9
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
CHI’15.1
“ImmerseBoard” [10]
Este último uso del sensor Kinect v2 muestra la experiencia de
telepresencia inmersiva usando una pizarra digital.
Es un sistema de colaboración remota a través de una pizarra digital que
da a los participantes una experiencia inmersiva 3D usando un sensor Kinect
situado en el lado de la pizarra digital de gran tamaño, como se puede ver en
la imagen 9.
Usando el procesamiento 3D de la profundidad de las imágenes, la
representación a tamaño natural y novedosas visualizaciones, ImmerseBoard
puede emular la escritura lado a lado sobre una pizarra o alternativamente
sobre un espejo.
Este sistema, en comparación con una videoconferencia estándar,
proporciona a los participantes una capacidad, cuantitativamente mejor, de
estimar la dirección de la mirada, la dirección del gesto, intención y el nivel
de entendimiento de la otra persona.
Por otra parte, cualitativamente, estas capacidades se traducen en una
sensación de estar juntos y una experiencia más agradable.
10
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
Imagen 9. Experiencia de telepresencia inmersiva.
Fuente: [10]
d. Qué usos del sensor Kinect v2 son utilizables en un módulo
interactivo para un museo de ciencias
A continuación se valorarán las posibilidades de cada uno de los cinco
sistemas analizados para que puedan ser usados, por separado o en
combinación de varios de ellos, en un módulo interactivo para un museo de
ciencias.
CHI’14.1
“MotionMontage”
Este sistema se considera muy apropiado para instalarlo en un museo
de ciencias destinado a visitantes con edades entre las 10-18 años,
correspondiente a niveles de último ciclo de educación primaria, educación
secundaria, bachillerato o formación profesional de grado medio. El usuario
tan solo tendría que manejar un objeto sólido dentro de un espacio de trabajo
y el sistema a controlar podría ser una aplicación en pantalla de visualización
o un dispositivo robótico para manipular o realizar algún tipo de experimento
científico o técnico.
CHI’14.2
“Comunicación grabada con Kinect”
Este sistema será más útil en investigación sobre la forma en que las
personas se comunican, estudiando sus gestos durante la misma. En principio
no le vemos una aplicación directa para un módulo interactivo para un museo
de ciencias.
CHI’14.3 “Combinar la pose del cuerpo, la mirada y el gesto para
determinar la intención de interactuar en las interfaces basadas en la visión”
Este sistema se puede usar, en combinación con el primero
(MotionMontage) para indicar al sistema cuándo comenzar la interacción con
el mismo.
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
11
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
CHI’14.4
“Wave to me”
Este sistema, al necesitar tener a los usuarios registrados, no podría
usarse en un módulo genérico, pero podría usarse, por ejemplo, para dar la
bienvenida a un monitor del museo al entrar a una sala de módulos
interactivos.
CHI’15.1
“ImmerseBoard”
A este sistema no le vemos un posible uso en un museo de ciencias en
donde existen módulos interactivos que los aprendices manipulan con objetivo
de aprender conceptos científico-técnicos. Parece estar más indicado para
trabajo colaborativo, aunque también podría usarse mejor en un taller
interactivo, en donde dos personas tuvieran que interactuar sobre una pizarra
aún estando en lugares distintos.
CONCLUSIÓN
A la vista de los 5 usos, en los que se emplea el sensor Kinect v2 en las
últimas dos ediciones presentados al CHI, es muy interesante el
“MotionMontage” por su fácil implementación en un módulo interactivo de
un museo de ciencias, debido a que reduce la manipulación del módulo tan
sólo a mover un objeto en un espacio determinado.
La “Comunicación grabada con Kinect” está destinada a su uso en un
sistema de comunicación entre personas a través del ordenador, no es de
interés en un módulo interactivo en un museo de ciencias.
Resolver el problema del toque de Midas si que es muy interesante para
un módulo interactivo, sobre todo porque los usuarios de dicho módulo
(aprendices en un entorno de aprendizaje no formal) no estarán previamente
entrenados en el manejo o uso de dicho módulo y la posibilidad que el sistema
interprete movimientos de la persona como deseos de interactuar con el
sistema es muy alta.
En cuanto a la aplicación de identificación de un usuario ante el sistema
no es de utilidad en el caso de un módulo interactivo ya que estaría situado en
un espacio público usado por decenas de personas al día que no es necesario
identificar.
12
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
Por último, la “ImmerseBoard” es muy interesante para la
comunicación a distancia entre personas como si estuvieran situados frente a
una pizarra, pero tampoco creemos interesante para un módulo interactivo.
Por lo tanto, un posible desarrollo a investigar sería un módulo
interactivo para un museo de ciencias, cuya audiencia principal son
estudiantes de 10-18 años de edad, en donde se use el “MotionMontage” para
controlar algún dispositivo robótico con el objetivo de dar la posibilidad a los
aprendices (visitantes del museo) de experimentar algún concepto relacionado
con las ciencias, tecnologías, ingenierías o matemáticas (STEM). Para iniciar
la interacción con dicho módulo se puede investigar el uso de “Combinar la
pose del cuerpo, la mirada y el gesto para determinar la intención de
interactuar en las interfaces basadas en la visión” con el objetivo de evitar el
problema del Midas Touch.
Agradecimientos
A Enrique Perdiguero Gil, profesor titular de Hª de la Ciencia de la
UMH, por sus orientaciones en el proceso de enseñanza-aprendizaje en la
asignatura de Bases de la Investigación Científica.
A Federico Botella Beviá, director del Instituto Centro de Investigación
Operativa (CIO) y a Antonio Peñalver Benavent, subdirector de grado en
Ingeniería Informática en Tecnologías de la Información, ambos de la
Universidad Miguel Hernández, por su ánimo, orientación y apoyo desde el
principio, para la elaboración de este artículo.
A los dos profesores de la UMH, revisores de este artículo, por sus
aportaciones para la mejora del mismo.
REFERENCIAS.
[1]
Microsoft News Center, “Microsoft Presenta Xbox One: El sistema de
entretenimiento en el hogar definitivo,” Centro de Noticias, Redmond
(Washington), 21 mayo 2013. [Online]. Disponible: http://news.micro
soft.com/es-es/2013/05/21/microsoft-presenta-xbox-one/. [Accedido: 8
septiembre 2015].
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
13
Estado del arte de los usos del sensor Kinect v2. Aplicación a un
módulo interactivo para un museo de ciencias.
[2]
[3]
[4]
Nick Summers, “Microsoft releases Kinect v2 SDK 2.0, allows devs to
publish apps in the Windows Store,” TNW News, Microsoft, 22 octubre
2014. [Online]. Disponible: http://thenextweb.com/microsoft/2014/10/22
microsoft-releases-windows -sdk-2-0-kinect-v2-lets-devs-publish-appswindows-store/. [Accedido: 8 septiembre 2015].
“Kinect hardware key features and benefits,” 22 octubre 2014. [Online].
Disponible: https://dev.windows.com/en-us/kinect/hardware. [Accedido:
8 septiembre 2015].
Dick James, “Inside the Xbox One Kinect,” About Chipworks,
chipworks,
28
noviembre
2013.
[Online].
Disponible:
http://www.chipworks.com/about-chipworks/overview/blog/inside-xboxone-kinect. [Accedido: 8 septiembre 2015].
[5]
Kinect for Windows, “3D Builder App & Kinect,” YouTube, 21 octubre
2014 [Archivo de video]. Disponible: http://www.youtube.com/watch?v=
nXbDkJ7cRrA. [Accedido: 8 septiembre 2015].
[6]
A. Ankit Gupta B. Maneesh Agrawala C. Brian Curless y D. Michael
Cohen, “MotionMontage: a system to annotate and combine motion takes
for 3D animations,” actas del CHI'14: SIGCHI Conference on Human
Factors in Computing Systems, 2014, páginas 2017-2026 [Online].
Disponible: ACM Digital Library, http://dl.acm.org/citation.cfm
?id=2557218&CFID=691614614&CFTOKEN=34126142. [Accedido: 8
septiembre 2015].
[7]
A. Hao-Chuan Wang y B. Chien-Tung Lai, “Kinect-taped
communication: using motion sensing to study gesture use and similarity
in face-to-face and computer-mediated brainstorming,” actas del CHI'14:
SIGCHI Conference on Human Factors in Computing Systems, 2014,
páginas
3205-3214
[Online].
Disponible:
ACM
Digital
Library,http://dl.acm.org/citation.cfm?id=2557060&CFID=691614614&C
FTOKEN=34126142. [Accedido: 8 septiembre 2015].
[8]
A. Julia Schwarz B. Charles Claudius Marais C. Tommer Leyvand D.
Scott E. Hudson y E. Jennifer Mankoff, “Combining body pose, gaze,
and gesture to determine intention to interact in vision-based interfaces,”
actas del CHI'14: SIGCHI Conference on Human Factors in Computing
Systems, 2014, páginas 3443-3452 [Online]. Disponible: ACM Digital
Library,http://dl.acm.org/citation.cfm?id=2556989&CFID=691614614&
CFTOKEN=34126142. [Accedido: 8 septiembre 2015].
14
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
Bermejo Navarro, F.
[9]
A. Eiji Hayashi B. Manuel Mass y C. Jason I. Hong, “Wave to me: user
identification using body lengths and natural gestures,” actas del CHI'14:
SIGCHI Conference on Human Factors in Computing Systems, 2014,
páginas 3453-3462 [Online]. Disponible: ACM Digital Library,
http://dl.acm.org/citation.cfm?id=2557043&CFID=691614614&CFTOK
EN=34126142. [Accedido: 8 septiembre 2015].
[10]
A. Keita Higuchi B. Yinpeng Chen C. Philip A. Chou D. Zhengyou
Zhang y E. Zicheng Liu, “ImmerseBoard: Immersive Telepresence
Experience using a Digital Whiteboard,” actas del CHI'15: SIGCHI
Conference on Human Factors in Computing Systems, 2015, páginas
2383-2392
[Online].
Disponible:
ACM
Digital
Library,
http://dl.acm.org/citation.cfm?id=2702160&CFID=691614614&CFTOK
EN=34126142. [Accedido: 8 septiembre 2015].
La correspondencia concerniente a este artículo debe dirigirse a:
Fulgencio Bermejo Navarro
[email protected]
Revista Doctorado UMH Vol 1, nº1, 2015 – Artículo p7
15
Descargar