KinBehR KINect for human BEHaviour Recognition

Anuncio
UNIVERSIDAD DE CASTILLA-LA MANCHA
ESCUELA SUPERIOR DE INFORMÁTICA
GRADO EN INGENIERÍA INFORMÁTICA
TRABAJO FIN DE GRADO
KinBehR
KINect for human BEHaviour Recognition
Rubén Cantarero Navarro
Julio, 2014
K IN B EH R
KIN ECT FOR HUMAN BEH AVIOUR R ECOGNITION
UNIVERSIDAD DE CASTILLA-LA MANCHA
ESCUELA SUPERIOR DE INFORMÁTICA
Tecnologías y Sistemas de Información
TECNOLOGÍA ESPECÍFICA DE
TECNOLOGÍAS DE LA INFORMACIÓN
TRABAJO FIN DE GRADO
KinBehR
KINect for human BEHaviour Recognition
Autor: Rubén Cantarero Navarro
Director: Dra. María José Santofimia Romero
Director: Dr. Juan Carlos López López
Julio, 2014
Rubén Cantarero Navarro
Ciudad Real – Spain
E-mail: Rubé[email protected]
Teléfono: 699 384 459
c 2014 Rubén Cantarero Navarro
Permission is granted to copy, distribute and/or modify this document under the terms of the GNU
Free Documentation License, Version 1.3 or any later version published by the Free Software
Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy
of the license is included in the section entitled "GNU Free Documentation License".
Se permite la copia, distribución y/o modificación de este documento bajo los términos de la
Licencia de Documentación Libre GNU, versión 1.3 o cualquier versión posterior publicada por
la Free Software Foundation; sin secciones invariantes. Una copia de esta licencia esta incluida en
el apéndice titulado «GNU Free Documentation License».
Muchos de los nombres usados por las compañías para diferenciar sus productos y servicios son
reclamados como marcas registradas. Allí donde estos nombres aparezcan en este documento, y
cuando el autor haya sido informado de esas marcas registradas, los nombres estarán escritos en
mayúsculas o como nombres propios.
i
TRIBUNAL:
Presidente:
Vocal:
Secretario:
FECHA DE DEFENSA:
CALIFICACIÓN:
PRESIDENTE
Fdo.:
VOCAL
SECRETARIO
Fdo.:
Fdo.:
iii
Resumen
Actualmente la sociedad está experimentado importantes cambios en los que, cada vez
más, se confía en que la tecnología facilite el día a día de las personas. Es por eso que,
de forma exponencial, están apareciendo continuamente sistemas y dispositivos enfocados a
ayudar a las personas en su vida cotidiana. En este contexto, el reconocimiento de acciones
humanas (Human Action Recognition) está comenzado a jugar un papel fundamental en
importantes áreas cómo la vídeo-vigilancia, asistencia a personas mayores y discapacitados,
la Interacción Persona-Ordenador, etc.
El presente proyecto estudia cómo la utilización de cámaras de profundidad puede ayudar a mejorar las tasas de reconocimiento de acciones humanas en las que los movimientos
corporales no han sido previamente preestablecidos. La metodología seguida está descompuesta en dos etapas. En la primera de ellas se ha estudiado cómo obtener e interpretar la
información proporcionada por este tipo de cámaras y analizar qué puede aportar esta información al reconocimiento de acciones. En la segunda etapa se ha empleado un algoritmo de
aprendizaje máquina, conocido como Bag of Words (B OW), que proporciona una estimación
de la clasificación de acciones a partir de secuencias de vídeo mediante el análisis de las
características de imágenes.
Finalmente, mediante la utilización de diferentes conjunto de datos, se ha entrenado y
evaluado el sistema propuesto de manera que se garantice la robustez del mismo ante la multimodalidad en la realización de acciones. Por esta razón también se ha llevado a cabo la
elaboración de un dataset propio. Para concluir, los resultados obtenidos han sido comparados con otros estudios para verificar si este nuevo enfoque basado en el uso de cámara de
profundidad supone una mejora en el reconocimiento de acciones humanas.
V
Abstract
Society is currently experimenting major changes in which, everyday more, major responsibilities are being delegated to technology to simplify people daily lives. That is the
reason why, exponentially, systems and devices are targeting their role as people helpers. In
this context, recognising human actions (Human Action Recognition) is playing a key role
in important areas such as video surveillance, assistance to elder and disabled people, the
Human-Computer Interaction, etc.
This project describes the implementation of a system for human action recognition, based on the novel use of in-depth cameras. This work therefore involves the evaluation of the
use of in-depth cameras can help improving recognition rates obtained for human actions
in which body movements have not been previously showed to the recognising system. The
followed methodology is decomposed into two stages. During first stage we have studied
how to obtain and interpret the information provided by these cameras as well as to identify the information brought into light by the recognised actions. During the second stage,
a machine learning algorithm has been implemented, using B OW model. This model provides an estimate of the action classification from video sequences by analysing the image
characteristics.
Finally, the use of different datasets, one for training and a different one for testing, enriches the system with robustness and multimodality support. In order to enhance the system
with these features, a new dataset has been designed and recorded, also made available for
the scientific community. Finally, obtained results have been compared with state-of-the-art
studies to verify whether the proposed approach improves existing approaches.
VII
Agradecimientos
Estos últimos cuatro años han supuesto los mejores y peores años de mi vida, con momentos buenos y malos. Pero me gustaría quedarme con el recuerdo de todos aquellos buenos
momentos que me han mejorado como profesional y, lo más importante, como persona. Sin
embargo, es la hora de comenzar otra nueva etapa y, antes de ello, me gustaría aprovechar
este breve espacio para agradecer a todas aquellas personas que de alguna u otra forma han
hecho posible la finalización de estos estudios.
En primer lugar, me gustaría dar las gracias a mis padres ya que sin ellos nada de esto
hubiera sido posible. Ellos siempre me han dado su cariño incondicional y me han enseñado
a valorar y a disfrutar de todas las cosas buenas que nos regala la vida. También me gustaría agradecerles que hayan creído en mí dándome la oportunidad de estudiar esta carrera,
realizando el esfuerzo que sé que han tenido que hacer para que esto sea posible. También,
agradecer al resto de mis familiares su preocupación constante y todos los consejos que en
algún momento me han dado.
A mis compañeros de la universidad Javi, David, Cristian, Cesár, Lalio, Jesús, ... y compañeros de piso, Dani y Juanma, por haber compartido conmigo todas estas alegrías, desvelos,
inquietudes y entusiasmo en estos cuatro años. Por eso, quiero darles las gracias por haberse
convertido en unos amigos maravillosos y que espero conservar durante mucho tiempo.
También querría darles las gracias a mis directores de proyecto, María José y Juan Carlos,
sin los cuáles este proyecto no hubiera llegado nunca a su fin. Querría agradecer en especial
a María José todo el apoyo y confianza que ha depositado en mi estos últimos meses y a
las oportunidades que me ha dado. Gracias a ella han aumentado mis ganas de aprender y
enriquecer mis formación.
Gracias a todos aquellos que me han ayudado a conseguir la beca de investigación/colaboración del Departamento de Tecnologías y Sistemas de la Información otorgada por el
Ministerio de Educación durante la cual he desarrollado este proyecto, en especial a María
José. También querría agradecerles que me permitieran disfrutarla junto a los compañeros
del grupo ARCO, gracias a los cuales he aprendido mucho.
No puedo olvidar dar las gracias a Luís Jimenez Linares por habernos prestado la Kinect
con la que se ha realizado el proyecto ni a David Villa Alises por haber facilitado la plantilla
LATEX de este documento.
Por último, tampoco puedo olvidar dar las gracias a mis amigos de toda la vida, por su
apoyo y preocupación hacia mí y por todos los buenos ratos que hemos compartido.
Rubén Cantarero Navarro
IX
A mis padres, por su apoyo incondicional.
xi
Índice general
Resumen
V
Abstract
VII
Agradecimientos
IX
Índice general
XIII
Índice de cuadros
XIX
Índice de figuras
XXI
Índice de listados
XXV
Listado de acrónimos
XXVII
1. Introducción
1
1.1. Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Objetivos
4
5
2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.1.1. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . .
5
3. Objectives
9
3.1. General objective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.1. Specific objectives . . . . . . . . . . . . . . . . . . . . . . . . . .
9
4. Antecedentes
13
4.1. Kinect para Xbox 360 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
4.1.2. La creación de Kinect . . . . . . . . . . . . . . . . . . . . . . . .
14
4.1.2.1.
Precedentes . . . . . . . . . . . . . . . . . . . . . . . .
XIII
15
4.1.2.2.
Evolución . . . . . . . . . . . . . . . . . . . . . . . . .
17
4.1.2.3.
Homebrew de Kinect . . . . . . . . . . . . . . . . . . .
21
4.1.3. Desarrollo de aplicaciones alternativas . . . . . . . . . . . . . . . .
24
4.1.3.1.
Ocio . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.1.3.2.
Medicina . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.1.3.3.
Educación . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.1.3.4.
Accesibilidad . . . . . . . . . . . . . . . . . . . . . . .
28
4.1.4. Características técnicas . . . . . . . . . . . . . . . . . . . . . . . .
30
4.1.4.1.
Segunda generación de Kinect . . . . . . . . . . . . . .
32
4.1.5. Ventajas de Kinect frente a otros dispositivos . . . . . . . . . . . .
34
4.1.6. Funcionamiento
. . . . . . . . . . . . . . . . . . . . . . . . . . .
34
4.1.6.1.
Cámara RGB . . . . . . . . . . . . . . . . . . . . . . .
34
4.1.6.2.
Cámara profundidad . . . . . . . . . . . . . . . . . . . .
35
4.1.6.3.
Sistema de micrófonos . . . . . . . . . . . . . . . . . .
37
4.1.6.4.
Motor de inclinación . . . . . . . . . . . . . . . . . . . .
37
4.1.7. ¿Por qué Kinect? . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.1.8. Librerías Kinect . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
4.1.8.1.
SDK Windows . . . . . . . . . . . . . . . . . . . . . . .
4.1.8.1.1.
Descripción del SDK
. . . . . . . . . . . . . . . . . . . . . . . . .
40
Evolución del framework
. . . . . . . . . . . . . . . . . . . . . . . . .
45
Ventajas y desventajas
. . . . . . . . . . . . . . . . . . . . . . . . .
46
OpenNI . . . . . . . . . . . . . . . . . . . . . . . . . .
47
4.1.8.1.2.
4.1.8.1.3.
4.1.8.2.
4.1.8.2.1.
Descripción del framework
. . . . . . . . . . . . . . . . . . . . . . . . .
48
Evolución del framework
. . . . . . . . . . . . . . . . . . . . . . . . .
53
Ventajas y desventajas
. . . . . . . . . . . . . . . . . . . . . . . . .
55
OpenKinect . . . . . . . . . . . . . . . . . . . . . . . .
56
4.1.8.2.2.
4.1.8.2.3.
4.1.8.3.
40
4.1.8.3.1.
Descripción del framework
. . . . . . . . . . . . . . . . . . . . . . . . .
56
Ventajas y desventajas
. . . . . . . . . . . . . . . . . . . . . . . . .
57
4.2. Visión por computador . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4.1.8.3.2.
xiv
4.2.1. Perspectiva de visión por computador . . . . . . . . . . . . . . . .
59
4.2.2. Algoritmos de reconocimiento de acciones basados en vídeo . . . .
60
5. Método de trabajo
65
5.1. Metodología de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5.1.1. Acerca de Scrum . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
5.1.1.1.
Fases de Scrum . . . . . . . . . . . . . . . . . . . . . .
67
5.1.1.2.
Roles y responsabilidades . . . . . . . . . . . . . . . . .
68
5.1.1.3.
Prácticas y conceptos relevantes . . . . . . . . . . . . . .
69
5.1.2. Descripción de la planificación . . . . . . . . . . . . . . . . . . . .
71
5.1.2.1.
Fase 1: Pre-game . . . . . . . . . . . . . . . . . . . . .
72
5.1.2.2.
Fase 2: Development . . . . . . . . . . . . . . . . . . .
73
5.1.2.2.1.
Iteración 0
. . . . . . . . . . . . . . . . . . . . . . . . .
73
Iteración 1
. . . . . . . . . . . . . . . . . . . . . . . . .
74
Iteración 2
. . . . . . . . . . . . . . . . . . . . . . . . .
75
Iteración 3
. . . . . . . . . . . . . . . . . . . . . . . . .
75
Iteración 4
. . . . . . . . . . . . . . . . . . . . . . . . .
76
Iteración 5
. . . . . . . . . . . . . . . . . . . . . . . . .
77
Fase 3: Post-game . . . . . . . . . . . . . . . . . . . . .
78
5.2. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
5.2.1. Aplicaciones de desarrollo . . . . . . . . . . . . . . . . . . . . . .
78
5.2.2. Lenguajes de programación . . . . . . . . . . . . . . . . . . . . .
80
5.2.3. Documentación y gráficos . . . . . . . . . . . . . . . . . . . . . .
80
5.2.4. Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
5.2.5. Sistemas operativos . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.1.2.2.2.
5.1.2.2.3.
5.1.2.2.4.
5.1.2.2.5.
5.1.2.2.6.
5.1.2.3.
6. Desarrollo del proyecto
83
6.1. Iteración 1: Primeros pasos con Kinect . . . . . . . . . . . . . . . . . . . .
84
6.1.1. Primer programa con Kinect . . . . . . . . . . . . . . . . . . . . .
85
6.1.1.1.
La reflexión . . . . . . . . . . . . . . . . . . . . . . . .
86
6.1.1.2.
La oclusión . . . . . . . . . . . . . . . . . . . . . . . .
87
6.1.1.3.
Desalineamiento entre cámaras . . . . . . . . . . . . . .
88
xv
6.1.2. Apreciaciones a nivel de píxel . . . . . . . . . . . . . . . . . . . .
88
6.1.2.1.
Píxeles RGB . . . . . . . . . . . . . . . . . . . . . . . .
89
6.1.2.2.
Píxeles de profundidad . . . . . . . . . . . . . . . . . .
90
6.1.3. Conversión a distancias reales . . . . . . . . . . . . . . . . . . . .
92
6.1.4. Trabajando en tres dimensiones . . . . . . . . . . . . . . . . . . .
94
6.1.4.1.
Nube de puntos . . . . . . . . . . . . . . . . . . . . . .
96
6.1.5. Afianzando los conceptos adquiridos . . . . . . . . . . . . . . . . .
101
6.1.5.1.
Dibujando con Kinect . . . . . . . . . . . . . . . . . . .
101
6.1.5.2.
Álbum de fotos . . . . . . . . . . . . . . . . . . . . . .
102
6.1.5.3.
Batería virtual . . . . . . . . . . . . . . . . . . . . . . .
103
6.2. Iteración 2: Comprendiendo el funcionamiento de O PEN NI
. . . . . . . . .
105
6.2.1. Aspectos básicos sobre la librería . . . . . . . . . . . . . . . . . .
106
6.2.1.1.
openni::OpenNI . . . . . . . . . . . . . . . . . . . . . .
6.2.1.1.1.
107
Acceso al dispositivo
. . . . . . . . . . . . . . . . . . . . . . . . .
107
Acceso a los flujos de vídeo
. . . . . . . . . . . . . . . . . . . . . . . . .
108
Acceso a los dispositivos a través de eventos
. . . . . . . . . . . . . . . . . . . . . . . . .
108
Información de errores
. . . . . . . . . . . . . . . . . . . . . . . . .
108
6.2.1.2.
openni::Device . . . . . . . . . . . . . . . . . . . . . . .
109
6.2.1.3.
openni::VideoStream . . . . . . . . . . . . . . . . . . .
110
6.2.1.4.
openni::VideoFrameRef . . . . . . . . . . . . . . . . . .
110
6.2.2. GLUT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
110
6.2.3. Primera versión del módulo de captura de imágenes . . . . . . . . .
113
6.3. Iteración 3: Incorporación de NiTE . . . . . . . . . . . . . . . . . . . . . .
114
6.3.1. Toma de contacto con NiTE . . . . . . . . . . . . . . . . . . . . .
116
6.2.1.1.2.
6.2.1.1.3.
6.2.1.1.4.
6.3.1.1.
Seguimiento de manos y detección de gestos . . . . . . .
116
6.3.1.2.
Seguimiento del cuerpo . . . . . . . . . . . . . . . . . .
118
6.3.1.2.1.
Funcionamiento
. . . . . . . . . . . . . . . . . . . . . . . . .
118
Análisis e interpretación de la información proporcionada
. . . . . . . . . . . . . . . . . . . . . . . . .
118
6.3.2. Evolución del módulo de captura de imágenes . . . . . . . . . . . .
120
6.3.1.2.2.
6.3.2.1.
Segunda versión . . . . . . . . . . . . . . . . . . . . . .
xvi
121
6.3.2.2.
Tercera versión . . . . . . . . . . . . . . . . . . . . . .
126
6.3.2.3.
Cuarta versión . . . . . . . . . . . . . . . . . . . . . . .
129
6.4. Iteración 4: Módulo de reconocimiento de acciones . . . . . . . . . . . . .
133
6.4.1. Modelo Bag of Words . . . . . . . . . . . . . . . . . . . . . . . .
134
6.4.2. Implementación de la solución propuesta . . . . . . . . . . . . . .
138
6.4.2.1.
Fase 1: Configuración inicial . . . . . . . . . . . . . . .
143
6.4.2.2.
Fase 2: Segmentación de vídeos . . . . . . . . . . . . . .
144
6.4.2.3.
Procesamiento . . . . . . . . . . . . . . . . . . . . . . .
147
6.4.2.3.1.
Fase 3: Extracción de características
. . . . . . . . . . . . . . . . . . . . . . . . .
148
Fase 4: Clustering
. . . . . . . . . . . . . . . . . . . . . . . . .
152
Fase 5: Proceso de reconocimiento
. . . . . . . . . . . . . . . . . . . . . . . . .
154
6.5. Iteración 5: Interfaz gráfica . . . . . . . . . . . . . . . . . . . . . . . . . .
159
6.4.2.3.2.
6.4.2.3.3.
7. Resultados
167
7.1. Dataset de entrenamiento empleado . . . . . . . . . . . . . . . . . . . . .
167
7.2. Recogida de datos de prueba . . . . . . . . . . . . . . . . . . . . . . . . .
168
7.3. Análisis de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . .
171
8. Conclusiones y trabajo futuro
181
8.1. Objetivos alcanzados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
181
8.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
184
9. Conclusions and future work
187
9.1. Achieved objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
187
9.2. Future work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
190
A. Listados de los ejemplos con Processing
195
A.1. Ejemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
195
A.2. Ejemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
196
A.3. Primer ejemplo de nube de puntos . . . . . . . . . . . . . . . . . . . . . .
197
A.4. Primer ejemplo de nube de puntos con movimiento . . . . . . . . . . . . .
198
A.5. Primer ejemplo de nube de puntos a color . . . . . . . . . . . . . . . . . .
199
A.6. Dibujando con Kinect . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
200
A.7. Álbum de fotos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
202
A.8. Batería musical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
204
xvii
B. Módulo de captura de imágenes
209
B.1. Diseño definitivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
209
B.1.1. Modelo de clases definitivo . . . . . . . . . . . . . . . . . . . . . .
209
B.1.2. Estructura de directorio definitivo . . . . . . . . . . . . . . . . . .
210
B.1.3. Modelo de flujo de la ejecución . . . . . . . . . . . . . . . . . . .
211
C. Formulario de consentimiento
213
D. Conclusión personal
219
Referencias
221
xviii
Índice de cuadros
4.1. Especificación técnica Kinect. . . . . . . . . . . . . . . . . . . . . . . . .
31
4.2. Conjuntos de datos existentes, el número de categorías y el número de clips
por categoría ordenados por año . . . . . . . . . . . . . . . . . . . . . . .
62
6.1. Resultados del tercer ejemplo con Processing. . . . . . . . . . . . . . . . .
95
6.2. Resultados obtenidos con ficheros PPM. . . . . . . . . . . . . . . . . . . .
130
6.3. Resultados obtenidos con ficheros JPEG. . . . . . . . . . . . . . . . . . . .
131
7.1. Información y número de acciones realizado por cada actor. . . . . . . . . .
170
7.2. Porcentaje de acierto de cada actor (sin guiar) en cada tipo de acción según
el tipo de imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
173
7.3. Porcentaje de acierto de cada actor (guiado) en cada tipo de acción según el
tipo de imagen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
174
7.4. Porcentaje de acierto de cada acción según el tipo de imagen (entorno guiado
y sin guiar). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
175
7.5. Matriz de confusión de los vídeos RGB (entorno guiado y sin guiar). . . . .
176
7.6. Matriz de confusión de los vídeos de profundidad (entorno guiado y sin guiar).176
7.7. Matriz de confusión de los vídeos de los esqueletos (entorno guiado y sin
guiar). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
177
7.8. Comparación de resultados con [MDRSN13]. . . . . . . . . . . . . . . . .
178
7.9. Comparación de resultados con [MDRSN13]. . . . . . . . . . . . . . . . .
178
XIX
Índice de figuras
4.1. Kinect para Xbox 360 [web14n]. . . . . . . . . . . . . . . . . . . . . . . .
14
4.2. Wiimote para Wii [web14t]. . . . . . . . . . . . . . . . . . . . . . . . . .
15
4.3. PlayStation Move para PlayStation 3 [web14p]. . . . . . . . . . . . . . . .
15
4.4. Escena de “Minority Report” [web14s]. . . . . . . . . . . . . . . . . . . .
17
4.5. Disposición del dispositivo Wiimote [web14c]. . . . . . . . . . . . . . . .
18
4.6. Player blob [WA12]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
4.7. Player blob dividido en partes [WA12]. . . . . . . . . . . . . . . . . . . .
20
4.8. Johnny Lee mostrando las modificaciones al Wii Remote [web14f]. . . . .
22
4.9. Analizador de USB Beagle 480 [web14e]. . . . . . . . . . . . . . . . . . .
23
4.10. Kinect for Cooler Videoconferencing [web14q]. . . . . . . . . . . . . . .
24
4.11. Real-Time Princess Leia Holography Via Kinect Hack [web14x]. . . . . .
25
4.12. Ubi Interactive [wbU14]. . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.13. Fitnect [web14b]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.14. TedCas [wbT14a]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.15. VirtualRehab [wbV14]. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.16. Juego River Corssing [web14i]. . . . . . . . . . . . . . . . . . . . . . . .
28
4.17. Kinect Math [web14l]. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.18. Actividad “Baskets” integrada en la plataforma Jumpido [web14g]. . . . .
29
4.19. NAVI (Navigational Aids fot the Visually Impaired) [web14w]. . . . . . .
30
4.20. Kinect Sign Language Translator [web14r]. . . . . . . . . . . . . . . . . .
30
4.21. Distribución de los componentes en Kinect [web14k]. . . . . . . . . . . .
32
4.22. Distancia para el reconocimiento del esqueleto en Kinect [web14k]. . . . .
32
4.23. Segunda generación de Kinect [web14k]. . . . . . . . . . . . . . . . . . .
33
4.24. Componentes de un píxel. . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
4.25. Estructura del vector de bytes de la imagen. . . . . . . . . . . . . . . . . .
35
4.26. Fase de calibración del sistema de mapas de profundidad de la Kinect. . . .
36
4.27. Imagen de los puntos infrarrojos proyectados en una pared [Bor12]. . . . .
37
4.28. Fase de funcionamiento del sistema de mapas de profundidad de la Kinect. .
38
XXI
4.29. Disposición de los micrófonos en Kinect [web14k]. . . . . . . . . . . . . .
38
4.30. Arquitectura del SDK [web14j]. . . . . . . . . . . . . . . . . . . . . . . .
41
4.31. Interacción del hardware y software con una aplicación [web14j]. . . . . .
42
4.32. Articulaciones reconocidas por el SDK de Kinect [web14j]. . . . . . . . . .
43
4.33. Puntos del rostro humano reconocidos por el SDK de Microsoft [web14j]. .
43
4.34. Arquitectura de KinectInteraction [web14j]. . . . . . . . . . . . . . . . . .
44
4.35. Resultado obtenido a través de Kinect Fusion [web14j]. . . . . . . . . . .
44
4.36. Evolución del SDK de Kinect [WA12]. . . . . . . . . . . . . . . . . . . . .
46
4.37. AXUS Xtion [web14d]. . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.38. Arquitectura del framework O PEN NI 2 [web14u]. . . . . . . . . . . . . . .
49
4.39. Solución propuesta por Tomoto S. Washio [web14m]. . . . . . . . . . . .
51
4.40. 3D Hand [web14h]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.41. Resultado obtenido con KScan3D [web14a]. . . . . . . . . . . . . . . . .
53
4.42. Ejemplo de gesto reconocido con SigmaNIL [web14y]. . . . . . . . . . . .
54
4.43. Evolución de la arquitectura O PEN NI [web14u]. . . . . . . . . . . . . . . .
54
5.1. Fases de Scrum [web14z]. . . . . . . . . . . . . . . . . . . . . . . . . . .
68
5.2. Iteración de la metodología Scrum [web14z]. . . . . . . . . . . . . . . . .
70
6.1. Proyecto “MAY THE FORCE BE WITH YOU” de TeoPatk [wbT14b]. . . .
85
6.2. Captura del primer ejemplo con Processing. . . . . . . . . . . . . . . . . .
87
6.3. Scanner 3D con Kinect por Kyle McDonald [Bor12]. . . . . . . . . . . . .
87
6.4. Captura del segundo ejemplo con Processing. . . . . . . . . . . . . . . . .
88
6.5. Comparación entre los píxeles en una matriz bidimensional y una unidimensional [Bor12]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
6.6. Captura del tercer ejemplo con Processing. . . . . . . . . . . . . . . . . . .
95
6.7. Origen de coordenadas bidimensional en Processing [web14v]. . . . . . .
96
6.8. Origen de coordenadas tridimensional en Processing [web14v]. . . . . . .
97
6.9. Captura del primer ejemplo de “Nube de puntos”. . . . . . . . . . . . . . .
98
6.10. Captura del primer ejemplo de “Nube de puntos” donde sólo se representa
uno de cada diez puntos capturados. . . . . . . . . . . . . . . . . . . . . .
98
6.11. Captura del primer ejemplo de “Nube de puntos” desde otro punto de vista.
99
6.12. Captura del primer ejemplo de “Nube de puntos” a color. . . . . . . . . . .
100
6.13. Captura de la aplicación “Dibujando con Kinect”. . . . . . . . . . . . . . .
102
6.14. Captura de la aplicación “Álbum de fotos”. . . . . . . . . . . . . . . . . .
103
6.15. Distribución de un cubo en Processing [Bor12]. . . . . . . . . . . . . . . .
105
6.16. Captura de la aplicación “Batería virtual”. . . . . . . . . . . . . . . . . . .
106
xxii
6.17. Diagrama de clases del módulo de captura de imágenes (versión 1). . . . .
114
6.18. Módulo de captura de imágenes en modo RGB. . . . . . . . . . . . . . . .
115
6.19. Módulo de captura de imágenes en modo profundidad. . . . . . . . . . . .
115
6.20. Funcionamiento del seguimiento de usuarios con NiTE [web14u]. . . . . .
119
6.21. Sistema de coordenadas de NiTE. . . . . . . . . . . . . . . . . . . . . . .
119
6.22. Articulaciones detectadas por NiTE [web14u]. . . . . . . . . . . . . . . .
121
6.23. Diagrama de clases del módulo de captura de imágenes (versión 2). . . . .
123
6.24. Resultado de la combinación de las técnicas de procesamiento. . . . . . . .
123
6.25. Resultado de la eliminación del fondo. . . . . . . . . . . . . . . . . . . . .
124
6.26. Dibujado del esqueleto sobre la imagen de profundidad. . . . . . . . . . . .
124
6.27. Dibujado del esqueleto eliminando el fondo. . . . . . . . . . . . . . . . . .
125
6.28. Imagen correspondiente al ejemplo 6.4. . . . . . . . . . . . . . . . . . . .
125
6.29. Estructura de directorios. . . . . . . . . . . . . . . . . . . . . . . . . . . .
126
6.30. Modelo de flujo de la ejecución secuencial. . . . . . . . . . . . . . . . . .
128
6.31. Modelo de flujo de la ejecución concurrente. . . . . . . . . . . . . . . . . .
129
6.32. Gráfico comparativo del no de ficheros entre el formato PPM y JPEG. . . . .
131
6.33. Gráfico comparativo del tamaño total en megabytes entre el formato PPM y
JPEG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
132
6.34. Funcionalidad introducida en el módulo (versión 4). . . . . . . . . . . . . .
135
6.35. Imágenes originales. Extraídas de “Bag-of-words models” (S. Lazebnik, A.
Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero
Navarro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136
6.36. Extracción de características. Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén
Cantarero Navarro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
136
6.37. Generación del diccionario (clustering). Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas
por Rubén Cantarero Navarro. . . . . . . . . . . . . . . . . . . . . . . . .
137
6.38. Cuantificación de características. Extraídas de “Bag-of-words models” (S.
Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero Navarro. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
138
6.39. Clasificador SVM. Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero
Navarro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
138
6.40. Diagrama de flujo de la solución propuesta. . . . . . . . . . . . . . . . . .
140
6.41. Diagrama de flujo de según las etapas. . . . . . . . . . . . . . . . . . . . .
142
6.42. Módulos del sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144
6.43. Estructura de directorios de la solución propuesta. . . . . . . . . . . . . . .
145
xxiii
6.44. Diagrama de flujo de build_segmented_videos. . . . . . . . . . . . . . . . .
146
6.45. Fases de procesamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . .
148
6.46. Diagrama de la fase de extracción de características. . . . . . . . . . . . . .
150
6.47. Captura de stipdet de una imagen de profundidad capturada con Kinect. . .
151
6.48. Diagrama de new_sequence_cluster_choice_k . . . . . . . . . . . . . . . .
154
6.49. Diagrama de la fase de proceso de reconocimiento. . . . . . . . . . . . . .
163
6.50. Funcionalidad de Grabación. . . . . . . . . . . . . . . . . . . . . . . . . .
164
6.51. Funcionalidad de etiquetado. . . . . . . . . . . . . . . . . . . . . . . . . .
164
6.52. Sección de clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . . .
165
6.53. Sección de Resultados. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
165
7.1. Ejemplo de IXMAS. [wbI14] . . . . . . . . . . . . . . . . . . . . . . . . .
169
7.2. Escenario de grabación empleado. . . . . . . . . . . . . . . . . . . . . . .
170
7.3. Porcentaje de acierto de cada acción según el tipo de imagen (entorno guiado
y sin guiar). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
172
7.4. Problema encontrado en vídeos de profundidad. . . . . . . . . . . . . . . .
179
7.5. Problema encontrado en vídeos de esqueletos. . . . . . . . . . . . . . . . .
179
B.1. Diagrama de clases. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
209
B.2. Estructura de directorios. . . . . . . . . . . . . . . . . . . . . . . . . . . .
210
B.3. Modelo de flujo de la ejecución concurrente. . . . . . . . . . . . . . . . . .
211
xxiv
Índice de listados
6.1. «Ejemplo 1» versión 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
6.2. «Dibujando con Kinect» . . . . . . . . . . . . . . . . . . . . . . . . . . .
101
6.3. Detección de poses con NiTE . . . . . . . . . . . . . . . . . . . . . . . . .
117
6.4. Ejemplo del formato PPM. . . . . . . . . . . . . . . . . . . . . . . . . . .
126
6.5. Estructura fichero XML. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
134
6.6. Estructura fichero ACTOR_frame_segmented.txt. . . . . . . . . . . . . . .
145
6.7. Estructura fichero de datos del clasificador SVM. . . . . . . . . . . . . . .
156
6.8. Ejemplo de la estructura fichero de datos del clasificador SVM. . . . . . . .
157
A.1. «Ejemplo 1» [Bor12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
195
A.2. «Ejemplo 2» [Bor12] . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
196
A.3. «Primer ejemplo Nube de puntos» [Bor12] . . . . . . . . . . . . . . . . .
197
A.4. «Primer ejemplo Nube de puntos con movimiento» [Bor12] . . . . . . . .
198
A.5. «Primer ejemplo Nube de puntos a color» [Bor12] . . . . . . . . . . . . .
199
A.6. «Dibujando con Kinect» [Bor12] . . . . . . . . . . . . . . . . . . . . . .
200
A.7. «Álbum de fotos» [Bor12] . . . . . . . . . . . . . . . . . . . . . . . . . .
202
A.8. Clase Hotpoint de la aplicación «Batería musical» [Bor12] . . . . . . . . .
204
A.9. Clase principal de la aplicación «Batería musical» [Bor12] . . . . . . . . .
205
XXV
Listado de acrónimos
KinBehR
KINect for human BEHaviour Recognition
BSD
Berkeley Software Distribution
MSR
Microsoft Research
SDK
Software Development Kit
NAVI
Navigational Aids fot the Visually Impaired
TOF
Time-Of-Flight
TFG
Trabajo Fin de Grado
HMM
Hidden Markov Models
GMM
Modelos de Mezclas Gaussianas
IEEE
Institute of Electrical and Electronics Engineers
AVSS
Advanced Video and Signal Based Surveillance
MHI
Motion History Images
SOM
Kohonen Self Organizing feature Map
SIR
Sampling Importance Resampling
ML
Maximum Likelihood
SVM
Support Vector Machines
BoW
Bag of Words
CLG
Combined Local-Global
LPP
Locality Preserving Projections
TVTL
Temporal-Vector Trajectory Learning
LTM
Locations’ Temporal motion of Mahalanobis distance
DTM
Difference’ Temporal motion of Mahalanobis distance
TTM
Trajectory Temporal motion of Mahalanobis distance
IN
Internación Natural
API
Application Programming Interface
LGPL
Lesser General Public License
XXVII
OpenNI
Open Natural Interaction
3D
Tres dimensiones
IDE
Integrated Development Environment
CPU
Central Processing Unit
FORTH
Foundation for Research and Technology-Hellas
DMO
DirectX Media Objec
USB
Universal Serial Bus
NUI
Natural User Interface
RAM
Random Access Memory
HTML
HyperText Markup Language
GPL
General Public License
JNA
Java Native Access
JNI
Java Native Interface
GLUT
OpenGL Utility Toolkit
ANSI
American National Standards Institute
FORTRAN
Formula Translating System
PPM
Portable PixMap format
PGM
Portable Gray Map
ASCII
American Standard Code for Information Interchange
POSIX
Portable Operating System Interface
JPEG
Joint Photographic Experts Group
XML
eXtensible Markup Language
IXMAS
INRIA Xmas Motion Acquisition Sequences
PERL
Practical Extraction and Report Language
GUI
Graphical User Interface
INRIA
Institut National de Recherche en Informatique et en Automatique
STIP
Space-time Interest Points
HOF
Histograms of Optical Flow
HOG
Histograms of Oriented Gradients
LUT
Look Up Table
KDE
K Desktop Environment
GCC
GNU Compiler Collection
GNU
GNU is Not Unix
xxviii
Capítulo 1
Introducción
La búsqueda de espacios cada vez más inteligentes en los que el propio entorno dé soporte
a personas de la tercera edad (Ambient Assited Living), personas en su vida cotidiana (Ambient Intelligence) o ciudadanos (Smart Cities) plantea, como primer reto, el desarrollo de
tecnologías o sistemas capaces de identificar las acciones que estas personas están llevando
a cabo en ese entorno.
El reconocimiento de acciones humanas es, sin embargo, uno de los principales retos de
la comunidad científica y muy especialmente en el área de la visión por computador. En este
sentido, la aproximación más común consiste en extraer imágenes características de vídeos y
caracterizar y etiquetar estas imágenes con la correspondiente acción que se está realizando
en ellas. Para ello se suele recurrir a un algoritmo de clasificación previamente entrenado con
las acciones a reconocer.
Sin embargo, el enfoque basado en vídeo no es el único. Así, en el estado del arte podemos identificar diferentes propuestas que van desde las más intrusivas, como las basadas en
sensores desplegados a lo largo del cuerpo [XZSS12] hasta otras como las basadas en el
análisis de los valores obtenidos por los sensores de los teléfonos móviles [AGO+ 12]. Pero,
independientemente del enfoque aplicado, la realidad es que el reconocimiento de acciones
humanas es una tarea tremendamente compleja.
Esa complejidad, en el caso particular del reconocimiento de acciones humanas basadas
en el análisis de vídeo, se deriva de los diferentes retos que esta tarea debe abordar. En primer
lugar hay que hacer frente a la importante variabilidad en el rendimiento obtenido en el reconocimiento de distintas acciones. Un ejemplo de ello podría ser como en los movimientos
que implica el caminar, las zancadas de cada persona pueden diferir en gran medida. Esto se
debe a que los movimientos corporales implicados en una determinada acción no son únicos
y no están perfectamente delimitados, variando de unas personas a otras e incluso dentro
de la misma persona. Esto supone un gran desafío ya que una buena aproximación para el
reconocimiento de acciones debería ser capaz de generalizar sobre las variaciones dentro de
una clase y distinguir entre las acciones de diferentes clases. De este modo, cuando exista un
gran número de las clases de acción, esto será aún más complicado ya que el solapamiento
entre las clases será mayor.
1
Otro reto que debe ser tenido en cuenta es la naturaleza cambiante del entorno donde
se producen las acciones. Esto implica serias dificultades en diferentes aspectos que deben
ser considerados. Ejemplos de ellos podrían ser cómo partes de una persona pueden ser
ocluidas en las grabaciones o la influencia que pueden tener las condiciones de luminosidad
en la apariencia de una persona. No obstante, esta tarea también se encuentra con el reto
que suponen las variaciones temporales. Por consiguiente, la velocidad a la que se registra
la acción tiene un efecto importante en la extensión temporal de una acción, especialmente
cuando se utilizan funciones de movimiento. Un algoritmo de reconocimiento robusto de
acciones humanas debería ser invariante a diferentes ritmos de ejecución.
Recientemente, algunos investigadores han utilizado cámaras RGBD, como Microsoft Kinect, para intentar abordar los retos mencionados arriba. Estas cámaras de profundidad añaden una dimensión extra que las cámaras 2D normales no proporcionan. De este modo, la
información sensorial proporcionada por este tipo de cámaras se han empleado para generar
modelos del esqueleto humano en tiempo real que permiten considerar las diferentes posiciones del cuerpo. Estos modelos del esqueleto proporciona información significativa que
los investigadores han usado para modelar las actividades humanas que han sido usadas en
el entrenamiento del algoritmo de clasificación y que posteriormente serán empleadas para
el reconocimiento de actividades desconocidas.
Este trabajo está motivado por la necesidad de abordar el problema de cómo las posturas
corporales inciden en la tarea de reconocimiento de acciones humanas basadas en el análisis
de vídeo. De este modo se parte de la hipótesis de trabajo de que el uso de cámaras de
profundidad puede ayudar a mejorar las tasas de reconocimiento de acciones humanas en las
que los movimientos corporales no han sido predefinidos, sino que dependerán de la persona
que los realice. Este trabajo está inspirado en el trabajo de [NLT+ 11] en el que se presenta
un análisis entre diferentes técnicas para abordar la tarea del reconocimiento de acciones,
demostrando que la técnica que ofrece el mayor equilibrio tiempo/rendimiento es la técnica
de Bag of Words (B OW) con una precisión del 63.9 %.
El modelo B OW surgió como una aproximación motivada en métodos de categorización
de texto [Joa98b] [TK02] [LSST+ 02] [CSTL02]. No obstante, se han publicado estudios
[ZRZ02] en los que la idea de adaptar la categorización de texto a la categorización de vídeo
puede resultar verdaderamente interesante. Es por ello por lo que en los últimos años se ha
demostrado que B OW [KB10] [LAS08] [LP07] es uno de los métodos más precisos para
el reconocimiento de acciones, capaz de actuar en una gran variedad de escenarios con un
coste computacional realmente bajo. Al contrario de lo que sucede con otras técnicas de
clasificación de acciones humanas [WBR07] [YKS08], B OW no requiere ningún algoritmo
adicional de segmentación, lo que simplifica la tarea de visión por computador haciendo, por
lo tanto, posible trabajar directamente con datos de vídeo.
Utilizando la metodología propuesta en [MDRSN13], en la que también se abordaba el
2
problema del reconocimiento de acciones humanas realizadas de manera multimodal, este
proyecto trabajará con un sistema entrenado con un conjunto de datos (dataset) distinto del
utilizado en la clasificación, comprobando de esta manera la robustez del sistema ante la
multimodalidad en la realización de acciones. Aunque el citado trabajo presentaba un sistema
combinado de BoW y un algoritmo de razonamiento, en él se proporcionan resultados del
rendimiento obtenido por el algoritmo BoW, entrenado con un conjunto de datos diferente
al utilizado en la clasificación. Este trabajo utilizará esos datos para compararlos con los
obtenidos en un experimento similar, utilizando cámaras de profundidad en lugar de cámaras
2D.
Dado que no hay vídeos estándar adecuados para la descripción de la complejidad de las
acciones de la vida real con un conjunto de actividades complejas que sean lo suficientemente representativas, se procederá a la creación de un nuevo dataset, “KinbehrDataset”.
“KinbehrDataset” estará compuesto por acciones realizadas por diversos individuos en un
entorno no controlado. Para la creación de dicho dataset se empleará un método científico de
recogida de datos que asegure la validez de las muestras recogidas. Además, es importante
mencionar que será puesto a disposición del resto de la comunidad científica con el fin de
que lo resultados obtenidos en el presente estudio puedan ser comparados con futuros proyectos. De este modo, se emplearán dataset distintos para el entrenamiento y evaluación del
sistema propuesto. Esto permitirá mostrar la generalidad de la solución, sus capacidades en
las diversas aplicaciones de la vida real y su rendimiento en situaciones complejas.
Por tratarse éste de un proyecto con alto contenido de investigación, la elaboración de
este trabajo seguirá la siguiente metodología. En primer lugar se realizará un análisis de las
diferentes cámaras de profundidad que se encuentran disponibles en el mercado, teniendo
en cuenta diferentes aspectos como el precio, disponibilidad, prestaciones, soporte, etc. Es
importante destacar que debido a limitaciones presupuestarias y al bajo precio que ofrece,
este análisis estará limitado a los diferentes modelos del dispositivo Kinect de Microsoft.
Seguidamente se trataran los conceptos más relevantes a tener en cuenta en el tratamiento,
procesamiento e interpretación de las diferentes imágenes proporcionadas por el dispositivo
elegido. El siguiente paso a abordar será el desarrollo de un módulo que permita capturar
los diferentes flujos de información proporcionados por los sensores del dispositivo. Para
ello, será necesario seguir una serie de pasos bien definidos, entre los cuales destacan la
realización de un estudio de los frameworks disponibles para el dispositivo elegido, analizar
las peculiaridades que presenta, etc.
Seguidamente se procederá a adaptar la solución propuesta al modelo B OW. Para ello, se
dividirá este proceso en dos etapas bien diferenciadas. La primera consistirá en el entrenamiento del sistema con un dataset público que se adapte a los objetivos perseguidos. De este
modo, se realizará un estudio sobre los diferentes dataset disponibles. Posteriormente, se llevará a cabo la segunda etapa que consistirá en la evaluación del sistema mediante el dataset
3
“KinbehrDataset”, constituido a partir de grabaciones con diferentes flujos de información
(imagen a color, profundidad, etc.) de cada individuo. Finalmente, se procederá a la validación e interpretación de los resultados obtenidos pudiendo comprobar si la hipótesis de
trabajo con la que se comenzó se cumple.
1.1 Estructura del documento
El presente documento se estructura en siete capítulos bien diferenciados. El primero de
ellos, donde el lector se encuentra en este momento, se ha mostrado una visión general
sobre la hipótesis de trabajo desde la que se parte y así como la forma en la que se pretende
abordar. En el capítulo de “Objetivos” se presenta el objetivo general y los distintos objetivos
específicos que se persiguen con la realización del TFG.
En el capítulo de “Antecedentes” se pretende ofrecer al lector una visión detallada sobre
el dispositivo Kinect y el estado del arte de la visión por computador. El siguiente capítulo,
“Método de trabajo”, versa sobre la metodología de desarrollo empleada, la planificación
del proyecto y las diferentes herramientas empleadas para su realización. Seguidamente, en
el capítulo “Desarrollo del proyecto”, que constituye el núcleo del documento, se expone el
trabajo realizado en las diferentes iteraciones en las que se ha dividido el proyecto.
En los dos últimos capítulos, “Resultados” y “Conclusiones y trabajo futuro”, finalmente
se exponen los resultados obtenidos en base a la hipótesis de trabajo de la que se partió y se
analiza en que grado han sido logrados los objetivos, respectivamente.
4
Capítulo 2
Objetivos
E
este capítulo se detallan los objetivos del proyecto, tanto generales como específicos.
De esta manera, se pretende dar a conocer al lector el alcance al que se pretende llegar
con la realización del mismo.
N
2.1 Objetivo general
En este proyecto se ha desarrollado un algoritmo de “aprendizaje máquina” (machine learning) que combina el análisis de imágenes de intensidad y profundidad con una base de conocimiento donde se contenga información de alto nivel sobre acciones humanas. El sistema
de reconocimiento estará basado en un clasificador de máquina de vectores de soporte o
Support Vector Machines (SVM) para lo cual será necesario disponer de una batería de casos
de entrenamiento y otra de testeo. Se realizará una revisión del estado del arte para identificar
la existencia de dataset públicos que puedan servir para entrenar al sistema. Sin embargo, el
sistema a desarrollar no se basará en el reconocimiento de acciones aisladas, sino que buscará interpretar y entender la actividad de más alto nivel que está siendo desarrollada por la
persona para mitigar así los errores de reconocimiento de acciones que carecen de sentido en
el contexto actual y que son reportadas por el sistema. Para ello, será necesario generar un
dataset en el que se pueda asegurar que las personas están realizando las acciones con las que
se ha entrenado el sistema pero de una manera racional, es decir, motivada por un objetivo
concreto. Por lo tanto, también será objetivo de este proyecto la generación de dicho dataset
a partir de la grabación y etiquetado de escenarios concretos, donde se realice al menos un
número relevante de las acciones con las que el sistema haya sido entrenado. Dichas acciones
dependerán de las acciones disponibles en los datasets públicos ya que, utilizando un dataset
para entrenar el sistema distinto del utilizado para su evaluación, se asegurará la validez del
sistema propuesto.
2.1.1
Objetivos específicos
En este apartado se mostrarán los distintos objetivos específicos que han sido marcados
para el desarrollo de K IN B EH R.
Evaluación de mercado: Realizar una análisis exhaustivo sobre los diversos dispositi5
vos Kinect disponibles (Kinect for Xbox 360, Kinect for Windows y Kinect de segunda
generación) y estudiar qué dispositivo es el que mejor se adapta para el desarrollo de
la actividad del proyecto. Así mismo también se pretende proporcionar una visión general sobre la evolución que han experimentado este tipo de dispositivos a lo largo de
la historia, haciendo especial inca pie en los cambios más importantes de los últimos
años.
Análisis de librerías disponibles: Realizar un estudio sobre las diferentes plataformas
y/o librerías disponibles que actualmente proporcionan soporte a Kinect, identificando
y evaluando de esta manera qué funcionalidades ofrecen, lenguajes de programación
soportados por cada uno/a, limitaciones, ventajas y desventajas, compatibilidad, etc.
También se pretende ofrecer una visón general sobre la evolución que han experimentado en los últimos años prestando especial interés en las nuevas posibilidades que
frece cada una.
Identificación y análisis de los datos recogidos por el dispositivo: Identificar los flujos de información proporcionados por los diferentes sensores de Kinect (profundidad,
sonido, acelerómetro, etc.) y analizar las diversas formas de interpretarlos, manipularlos y procesarlos para su posterior explotación. De esta forma será necesario familiarizarse y comprender los conceptos más importantes relacionados con las imágenes
(especialmente con las imágenes de profundidad). Posteriormente, esto proporcionará
la base sobre la que se desarrollará un módulo que permita la captura de imágenes
mediante el dispositivo Kinect, intentando en todo momento exprimir al máximo las
posibilidades que ofrece y que son de especial interés para el presente proyecto.
Identificación y análisis del conjunto de acciones a reconocer: Una vez identificados los datos recogidos por el dispositivo es necesario identificar las diferentes acciones que se van a reconocer y monitorizarlos para, posteriormente, llevar a cabo un
análisis de los patrones que caracterizan a cada uno. Esto proporcionará la base para
el reconocimiento de dichos patrones por el sistema a desarrollar.
Adaptación del modelo Bag of Words: Realizar un pequeño estudio para proporcionar una visión general acerca del estado del arte sobre las soluciones existentes.
También será necesario analizar y comprender en profundidad los conceptos más importantes acerca del funcionamiento del modelo Bag of Words (B OW), así como la
forma en la que se puede adaptar la solución proporcionada al presente proyecto. Por
lo tanto, la consecución de este subobjetivo será clave para la implementación de un
módulo que, junto a un clasificador, permita la identificación de acciones.
Desarrollo de un clasificador (SVM): Para ello será necesario investigar, analizar y
diseñar las diferentes técnicas de clasificación para el reconocimiento de patrones de
gestos corporales que se pretenden monitorizar. Una vez realizado este primer paso, se
procederá a la implementación del/de los clasificador/es, el entrenamiento y evaluación
6
del mismo.
Organización del conjunto de sujetos del experimento: A través de un método científico de recogida de datos se pretende confeccionar un conjunto de datos (ejemplos
de entrenamiento o muestras) de diferentes individuos. Esto servirá como base para el
etiquetado de las clases y el entrenamiento del clasificador SVM, teniendo como objetivo final la construcción de un modelo que permita predecir la clase de una nueva
muestra. Asociado a esta tarea, también será necesario la interpretación de la legislación vigente para la elaboración de acuerdos con los individuos de manera que todo el
procedimiento sea conforme a la legislación vigente respecto de la protección de datos
de carácter personal.
Desarrollo de una interfaz gráfica: Mediante el desarrollo de una interfaz gráfica
se pretende integrar los diferentes módulos desarrollados a lo largo del proyecto, así
como facilitar a los futuros usuarios del sistema su utilización.
7
Capítulo 3
Objectives
This chapter describes the project objectives, both from a general and more specific perspective, therefore stating the project scope and the expected results.
3.1 General objective
In this project we have developed a machine learning system that combines intensity and
in-depth image analysis with a knowledge base containing high level information about human actions. The recognition system will be based on a support vector machine classifier,
so-called Support Vector Machines (SVM). This classifier will be trained with a specific dataset specifically recorded for human action recognition. A review of the state of the art will be
performed to identify the existence of public dataset that can be used for the system training.
However, the system to be developed will not be based on the recognition of isolated actions.
On the contrary, it will seek the interpretation and understanding of higher abstraction level
actions. Performing in-context human action recognition enables the recognition system to
mitigate the impact of recognition errors, reported by the system but making no sense from
the point of view of the context in which the actions are taking place. In order to take the
context into account, it will be necessary to generate a dataset in which it can be assumed
that people are performing the actions with which the system has been trained but in a rational way. The main implication of assuming the rationality of the actions being performed
is that they are motivated by a concrete objective. In this sense, it is also among the project
objectives to generate a dataset where actions are performed in a rational manner, rather than
being based on commands. This requires recording and labelling specific scenarios where
actors perform a significant number of actions with which the system has been trained. These actions will depend on the ones being provided by the available public datasets. However,
it is important to highlight that the dataset used for training is different from the one being
used for testing and validating the implemented system.
3.1.1
Specific objectives
In this section the specific objectives stated for the development of K IN B EH R are displayed.
Market analysis: to undertake a market analysis of the different Kinect devices avai9
lable in the market (Kinect for Xbox 360, Kinect and Kinect for Windows second
generation) and, among existing ones, to consider which one better fits this project
requirements. This market analysis is also intended to provide an overview of the evolution that have experienced such devices throughout history, making special emphasis
in recent years changes.
Analysis of available libraries: to conduct a study of the different platforms and/or
available libraries currently providing support for Kinect, by identifying and evaluating
offered features, programming languages, limitations, advantages and disadvantages,
compatibility, etc. It also aims to provide an overview of the evolution experienced in
recent years with special attention to the new offered functionality.
Identification and analysis of the device collected data: to identify the information
flows provided by Kinect sensors (in-depth, sound, accelerometer, etc.) and to analyze
the different ways of interpreting, manipulating and processing these values for later
manipulations. This objective involve getting familiar and understanding the most important concepts related to images (especially in-depth images). Later, this will provide
the basis on which a module that allows image capture using the Kinect device, trying
to squeeze the most of of the possibilities offered and that are of special relevance to
this project will be developed.
Identification and analysis of the set of actions to be considered: once collected
data has been identified by the device it is necessary to state the different actions that
will be considered in the proposed system by performing an action characterisation.
This will provide the basis for the recognition of these patterns by the system to be
developed.
Adapting the Bag of Words Model: to carry out a thorough analysis of the state of
the art solutions for human action recognition. It will also be necessary to analyze
and understand the most important concepts about the B OW model basis, and how this
model has to be adapted in order to be implemented in the proposed system. Therefore,
achieving this sub-goal will be key to the implementation of a module, along with a
classifier, enabling action identification.
An (SVM) classifier development: before selecting a specific approach a previous
research and analysis have to be carried out in order to identify the different classification techniques for pattern recognition of body gestures. This goal also involve the
implementation and training of the classifier as well as its performance validation.
Selecting and organising the set of experimental subjects: since the system validation is going to be performed using a different dataset than the one used for training
purposes, this objective requires the implementation of a scientific method for data
collection. This objective will therefore result in a new dataset used for testing or validating purposes. This will serve as the basis for labelling classes and training the
10
classifier SVM, with the ultimate goal of building a model to predict the class of a
new sample. Closely related to this task is the interpretation of existing legislation
for consent agreements so that the whole procedure compliant with current legislation
regarding personal data protection.
Developing a graphical user interface: the development of a graphical user interface
is intended to integrate the different modules developed during this project as well as
to simplify the use of the system potential users.
11
Capítulo 4
Antecedentes
E
presente capítulo tiene como objetivo proporcionar una visión general sobre los conceptos más importantes tratados en este proyecto. Para ello, se ha comenzado hablando
sobre Kinect, revisando cuestiones interesantes como su historia y evolución, aplicaciones
de Kinect en el mundo real, las prestaciones técnicas que ofrece, las diferentes librerías que
hay disponibles para desarrollar con Kinect; las diferentes versiones del dispositivo así como
los conceptos más básicos sobre su funcionamiento y que más adelante serán necesarios para
entender el resto del documento.
L
En la segunda parte del capítulo se ofrece una visión general sobre el estado actual de
la cuestión de visión por computador, centrándose en los trabajos realizados en los últimos
años, así como los algoritmos de reconocimiento de acciones más conocidos hasta el momento.
4.1 Kinect para Xbox 360
En la siguiente sección se proporcionarán algunos antecedentes acerca de dónde proviene
Kinect Xbox 360 y cual ha sido su evolución a lo largo de los años, así como la forma en la
que funciona el dispositivo y las ventajas y desventajas que ofrece para el diseño y desarrollo
de sistemas de visión por computador.
4.1.1
Introducción
Kinect para Xbox 360 (ver Figura 4.1), a partir de ahora Kinect, es «un controlador de
juego libre y entretenimiento» creado por Alex Kipman y desarrollado por Microsoft para la
videoconsola Xbox 360 y desde junio del 2011 para PC mediante Windows. Basado en una
cámara web y pensado como un periférico para ambas plataformas, permite a los usuarios,
por ejemplo, controlar e interactuar con la consola Xbox 360 sin necesidad de tener ningún
contacto físico con un controlador de videojuegos tradicional, como pueden ser los mandos
o joysticks. Todo ello se realiza a través de una interfaz de usuario natural usando gestos y
comandos de voz.
En un principio, el proyecto de Kinect estaba orientado a ampliar la audiencia de la Xbox
360 más allá de la base de un jugador típico. A continuación, se muestra uno de los comen13
Figura 4.1: Kinect para Xbox 360 [web14n].
tarios más destacados que fue realizado por Los Angeles Times el 1 de Junio de 2009 tras
asistir al Electronic Entertainment Expo en Los Ángeles:
“Microsoft wants people to start using their full bodies to play video games. The Redmond
software giant showed off a sensor-based technology that recognizes faces, voices and body
joints to affect the movements on screen. In a demo game called Ricochet, players can use
their arms, legs, torso and head to block an onslaught of virtual projectiles. Another game
called Paint Party lets users splash virtual paint onto an on-screen canvas. Players call out
different colors to change the palette.
The effort aims to attract a broader audience to Microsoft’s console. Most of the 30 million
Xbox 360s sold since November 2005 has been snapped up by avid young males drawn to
complex shooter or adventure games such as Halo and Gears of War”.
No obstante, Kinect también fue lanzado al mercado con el objetivo de proporcionar una
interfaz de usuario que de forma natural fuera capaz de reconocer gestos, comandos de voz,
etc. para hacer frente a los sistemas de la competencia, como Wiimote con Wii MotionPlus
(ver Figura 4.2) y PlayStation Move (ver Figura 4.3), que también permitían controlar el
movimiento de las consolas Wii y PlayStation 3, respectivamente.
4.1.2
La creación de Kinect
Los antecedentes de Kinect comienzan mucho antes de que el propio dispositivo fuera
concebido. Kinect surge como el resultado de varias décadas de análisis e investigación sobre interfaces de usuario basadas en gestos y voz. Quizá el gran éxito que cosechó la película
Minority Report en el año 2002, con su forma de interpretar una interfaz de usuario natural
sin necesidad de emplear controladores, fue unos de los hechos que provocó la gran avalancha de avances que se sucederían en los años venideros. Posteriormente, como se comentó
14
Figura 4.2: Wiimote para Wii [web14t].
Figura 4.3: PlayStation Move para PlayStation 3 [web14p].
en el párrafo anterior, la rivalidad entre las consolas de videojuegos para diseñar controladores naturales de calidad fue lo que terminó provocando la llegada de este dispositivo a los
salones de todo el mundo. No obstante, fue la filosofía de intentar desbloquear todo aquello
que es ocultado lo que definitivamente permitió abrir las puertas a los desarrolladores.
4.1.2.1.
Precedentes
Una de las personas más influyentes en la interacción persona-computador, Bill Buxton, ha
comentado en numerosas ocasiones durante los últimos años sobre lo que el llama “The Long
Nose of Innovation”, en referencia al término acuñado por el director de la revista Wired,
Chris Anderson: “The Long Nose”. Este término hace referencia a las décadas de trabajo
necesario para desarrollar una tecnología “revolucionaria” que surge, de forma aparente, de
15
la nada.
Uno de los ejemplos más destacables es la invención del ratón, que supuso una importante
revolución en la interfaz gráfica de usuario tras largos años de perfeccionamiento. El primer
ratón fue construido por Douglas Engelbart y Bill English en el Stanford Research Institute
en 1963. No obstante, no fue hasta 1995 con el lanzamiento de la versión del sistema operativo Windows 95 cuando el ratón se convirtió en un periférico indispensable para todo el
mundo. The Long Nose describe los 30 años necesarios para que dispositivos como el ratón
pasen de ser una invención a ser omnipresentes en la industria
Algo muy similar a este estudio de 30 años descrito por The Long Nose puede ser aplicado
al proceso de invención y desarrollo de Kinect. Chris Schmandt en el Architectural Machine
Group del MIT comenzó a finales de los años 70 un proyecto de investigación llamado
“Put-That-Here”, basado en una idea de Richard Bolt de reconocimiento combinado de
voz y gesto como vectores de entrada de un interfaz gráfica. Este proyecto estaba acoplado
en una habitación con una gran pantalla de proyección, donde el usuario debía sentarse en
una silla de vinilo a una distancia aproximada de ocho metros frente a la pantalla. Además
disponía de un pequeño dispositivo magnético que se encontraba oculto en una muñeca que
realizaba las labores de receptor del movimiento espacial que se produjera, además de un
micrófono instalado en la cabeza. De este modo, gracias a estos “dispositivos” y mediante
procesos de lógica elementales de reconocimiento de pronombres como “aquí” o “eso”, el
usuario era capaz de crear y mover formas de manera muy básica en la pantalla. Versiones
posteriores este proyecto permitían a los usuarios guiar a barcos a través del mar Caribe o
colocar edificios coloniales en el mapa de Boston.
En el año 1993, David Koonz, Thorrison Kristinn, y Carlton Sparrell llevaron a cabo en
el MIT Media Labs otro proyecto de investigación dirigido por Bolt: “The Iconic System”.
En dicho proyecto se continuo la idea del proyecto Put-That-Here realizado anteriormente
con el objetivo de que en dicha ocasión fuera posible trabajar con gestos, palabras y el movimiento del ojo. Otra novedad fue que en esta ocasión los resultados eran proyectados en un
espacio de tres dimensiones generada mediante un ordenador. Además, en lugar de los cubos
magnéticos utilizados con Put-That-Here, The Iconic System utilizaba un sistema de guantes
especiales para facilitar el seguimiento de los gestos de usuario.
Marcos Lucente desarrolló a finales de los 90 una interfaz de usuario avanzada para IBM
Research: “DreamSpace”. No obstante, esta interfaz llegó a estar operativa en una gran
variedad de plataformas incluyendo Windows NT. Una de las principales características que
la diferenciaban de sus predecesores era que DreamSpace no empleaba tubos ni guantes para
llevar a cabo el reconocimiento de gestos, empleando por lo tanto un sistema de visión. Esta
variante fue concebida para trabajar más allá de entornos especializados, suponiendo por lo
tanto una alternativa viable al ratón y al teclado.
16
En 1999, John Underkoffler el cual era por aquel entonces miembro del MIT Media Labs
participó en un nuevo proyecto de Stephen Spielberg: “Minority Report“ (ver Figura 4.4).
De este modo, Jhon junto con Alex McDowell, Diseñador de Producción, diseñaron la interfaz de usuario que Tom Cruise utilizaría en la película. Algunos de los conceptos de diseño
de la interfaz de usuario de Minority Report finalmente terminaron en otro proyecto de Underkoffler llamado ”G-Speak“.
Figura 4.4: Escena de “Minority Report” [web14s].
4.1.2.2.
Evolución
Nintendo fue la compañía que dio el primer paso hacía un nuevo paradigma de entender
los videojuegos y de cómo el usuario puede interaccionar con la consola. En el Tokyo Game
Show de 2005, la presentación de su nueva consola Wii fue acompañada por un nuevo dispositivo de juego llamado Wiimote (ver Figura 4.5). De manera similar en la que trabajaba el
proyecto Put-That-There (véase § 4.1.2.1) con sus cubos magnéticos, el controlador de Wii
era capaz de detectar el movimiento que se produjera a lo largo de los tres ejes, contando
además con un sensor óptico que recogía el lugar donde apuntara el dispositivo, todo ello de
forma inalámbrica.
Peter Moore, el entonces jefe de la división Xbox de Microsoft, tras comprobar el éxito que cosechó Nintendo con Wiimote decidió comenzar a desarrollar una alternativa que
fuera capaz de hacer frente a Nintendo. Para ello, Microsoft decidió crear dos equipos que
compitieran para lograr desbancar a Nintendo: Uno trabajaría con la tecnología que PrimeSense tenía desarrollada ya para aquel entonces, mientras que el otro equipo partiría de la
tecnología desarrollada por la compañía 3DV. A pesar de que el objetivo marcado inicialmente era el de presentar alguna novedad en el E3 de 2007, ninguno de los equipos que
fueron compuestos había conseguido ningún resultado que mereciera la pena presentar en la
convención.
Tras la salida de Peter Moore de Microsoft, Don Matrick se hizo cargo de continuar en
17
Figura 4.5: Disposición del dispositivo Wiimote [web14c].
2008 el proyecto, hasta ahora secreto, de reconocimiento de vídeo a partir de la tecnología
de PrimeSense. A pesar de que la tecnología 3DV con la que trabajó uno de los equipos confeccionados inicialmente no obtuvo los resultados esperados, Microsoft decidió comprar la
compañía en 2009 por 35 millones de dólares con el fin último de evitar futuros problemas de
patentes en torno a Kinect. Posteriormente, Alex Kipman fue ascendido a director general de
proyectos de incubación y puesto al cargo de desarrollar un nuevo dispositivo que incluyera
un sensor de profundidad, control de movimiento, reconocimiento facial y reconocimiento
de voz. Este proyecto fue nombrado con el nombre «Project Natal».
Project Natal tomó como referencia el dispositivo desarrollado por PrimeSense, el cual
incluía un sensor de infrarrojos y un receptor de infrarrojos. Para evitar futuros problemas,
Microsoft decidió obtener la licencia del diseño de dicho dispositivo y del chip PS1080 que
montaba. Este chip supuso un paso muy importante para los objetivos del proyecto ya que
era capaz de procesar datos de profundidad a 30 frames por segundo de una manera muy
innovadora. Este permitió además reducir el precio de reconocimiento de la profundidad en
comparación con el método vigente en aquel momento conocido como “tiempo de vuelo”,
que consistía en registrar el tiempo que tarda un rayo de en salir y volver al sensor.
La solución propuesta por PrimeSense consistía en proyectar un patrón de puntos infrarrojos en las superficies y emplear la disposición de los puntos para confeccionar un mapa de
profundidad con una resolución de 320 x 240 píxeles que posteriormente serían analizados
por el chip PS1080. Por otra parte, el chip también se encargaba alinear automáticamente la
información de la cámara RGB y la cámara de infrarrojos, proporcionando de esta manera
datos RGBD. Por su parte, Microsoft equipó también al dispositivo con una matriz de micrófonos de cuatro piezas debido a que ya tenían experiencia con el reconocimiento de voz
que incorporaban sus sistemas operativos desde Windows XP. De esta forma, el dispositivo
contaría con la capacidad de reconocimiento de voz en grandes habitaciones mediante este
18
micrófono direccional.
Si bien el reto del hardware parecía estar resuelto gracias a PrimeSense, sólo a falta de dar
con una forma de diseñar un dispositivo más pequeño, los problemas de software que se les
estaban presentando parecían insuperables:
Debían desarrollar un sistema de reconocimiento de movimiento a partir de los flujos
de datos proporcionados por la cámara RGB y el sensor de profundidad que montaba
el dispositivo.
Debían depurar la señal de audio que proporcionaba la matriz de micrófonos incorporada al dispositivo para hacer posible la implementación de un sistema de reconocimiento de voz.
Para tratar de resolver estos problemas de software, el equipo de Project Natal se vio
obligado a recurrir a Microsoft Research (MSR), una división de Microsoft que fue creada
en 1991 para investigar los diversos temas de ciencia de equipo y problemas. A finales de
2008, el equipo Project Natal contrató a Jamie Shotton para que aportara nuevas ideas para
el sistema de seguimiento de movimiento, ya que la solución propuesta hasta el momento
contaba con varios problemas:
Para conseguir que el sistema de captura de movimiento detectara al jugador era necesario que inicialmente se colocara en posición en forma de T.
Cada vez que el jugador detectado era perdido por el sistema era necesario reiniciar el
sistema y comenzar de nuevo con la posición en forma de T.
El sistema de seguimiento sólo era capaz de funcionar con tipos muy específicos de
estructura corporal.
No obstante, algunos de los problemas presentados por el seguimiento del movimiento
pudieron ser resueltos gracias a los datos de profundidad que eran proporcionados por el
sensor de profundidad. Estos permitían hacer un filtrado de los píxeles que no pertenecían
al jugador y obtener además información muy valiosa como el color y la textura de la ropa
de los jugadores, así como la altura y la anchura del jugador. Como resultado de este primer proceso de filtrado, se obtenía una representación del jugador en posiciones de píxeles,
también conocido como “player blob” (ver Figura 4.6).
Sin embargo, esto tan sólo supuso la primera parte de la resolución del problema. Por ello,
Jamie Shotton tuvo que enfrentarse al reto de de transformar este player blob en algo que
pudiera ser seguido. La solución que Shotton propuso consistía en fragmentar el player blob
obtenido en partes del cuerpo que fueran fácilmente reconocibles. De esta forma, una vez
que estas partes del cuerpo fueran identificadas, sería también posible identificar también las
articulaciones y por consiguiente el esqueleto del jugador. Por último, junto con Fitzgibbon y
19
Figura 4.6: Player blob [WA12].
Andrew Blake, Shotton desarrolló un algoritmo que llegaría a ser capaz de diferenciar hasta
31 partes del cuerpo (ver Figura 4.7).
Figura 4.7: Player blob dividido en partes [WA12].
Anteriormente se expuso a otro problema muy serio: La necesidad de que el jugador adoptase una posición inicial en forma de T para que el sistema de seguimiento de movimiento
fuera capaz de detectar al jugador. Para hacer frente a este problema, Shotton decidió emplear técnicas de aprendizaje por ordenador. De esta forma, mediante cantidades ingentes
de datos, el sistema de reconocimiento de imagen podía ser entrenado para dividir el player
blob en las partes del cuerpo, de forma que estas pudieran ser utilizadas posteriormente y
20
así evitar esta molesta posición inicial en forma de T. Para lograr este propósito, se colocaron dispositivos en hogares con el objetivo de realizar grabaciones de vídeo de personas
realizando movimientos físicos básicos. Toda esta información recolectada, junto con datos
adicionales obtenidos en un estudio de captura de movimiento en Hollywood que recogían
secuencias de videos de personas corriendo, bailando, etc., fue procesada por un sistema de
computación distribuida conocido como Dryad con el objetivo de de producir un clasificador
por árbol de decisión. Con este árbol de decisión sería posible asignar cualquier píxel obtenido mediante el sensor de profundidad incorporado en Kinect a una de las partes del cuerpo.
Además, este proceso fue realizado para 12 tipos diferentes de cuerpos, solucionando de esta
manera otros de los problemas expuestos anteriormente en el que sólo era reconocido un
tipo de estructura corporal, realizando además diversos ajustes que permitieran mejorar la
capacidad de decisión para identificar una persona sin una pose inicial y sin interrupciones
en el reconocimiento.
Llegados a este punto, tan sólo les quedaba una tarea pendiente: El reconocimiento por
voz. Para hacer frente al reto, Alex Kipman recurrió a Iván Tashev del grupo de investigación de Microsoft en Redmond, ya que previamente había trabajado en proyectos similares
para el reconocimiento por voz en Windows Vista. Para abordar el problema del filtrado de
ruido de fondo en una matriz de micrófonos que se encontraba situada más cerca de los
altavoces del televisor que del propio jugador, debían seguir un planteamiento similar al empleado anteriormente para diferenciar entre los píxeles que pertenecían a un jugador de los
que no. Como resultado obtuvieron unos algoritmos de cancelación de ruido y supresión de
eco mediante la combinación de las tecnologías ya patentadas por Microsoft que mejoraron
el procesamiento de audio situándolo muy por encima del estándar que estaba disponible en
la fecha. Por último, se lanzó durante una semana un sistema de aprendizaje computacional distribuido compuesto por mil nodos con el objetivo de construir un modelo acústico
para Kinect, finalizado el 26 de septiembre de 2010. Este estaba basado en varios acentos
regionales de América y las peculiaridades acústicas de la matriz de micrófonos que poseía
Kinect.
Finalmente, el 4 de Noviembre de 2010 el sensor fue anunciado bajo el nombre de Kinect.
4.1.2.3.
Homebrew de Kinect
Este movimiento tuvo importantes repercusiones en el entorno de Kinect como se mostrará a lo largo de esta sección, ya que entre otras cosas dio lugar a la aparición de numerosas
plataformas como O PEN NI o NiTE, las cuales son las principales herramientas de este proyecto.
La historia “hacker” de Kinect comienza con Johnny Chung Lee. Johnny era ya conocido por aquel entonces por ser la persona que había hackeado el controlador remoto de Wii,
21
Wiimote (véase § 4.1.2.2), con el objetivo de implementar el seguimiento de dedos (ver Figura 4.8) y que posteriormente pasaría a formar parte de Project Natal para trabajar en el
reconocimiento de gestos. A pesar de los intentos de Johnny por convencer a Microsoft para
publicar un driver público para Kinect, no lo consiguió. Fue por este motivo por el que contactó con AdaFruit, un suministrador de código libre, para convocar un concurso con el fin
de hackear Kinect.
Figura 4.8: Johnny Lee mostrando las modificaciones al Wii Remote [web14f].
Este concurso, cuyo anuncio coincidió con el día en que se lanzó Kinect al mercado,
ofrecía un premio de 1000 dólares (que posteriormente sería aumentado hasta 3000 dólares)
al primer participante que logrará desarrollar con éxito un controlador para el dispositivo e
implementar una aplicación que convirtiera los flujos de datos del sensor de vídeo y visión
de profundidad de Kinect. Este concurso fue posible en gran medida al hecho de que Kinect
se comunicaba mediante un USB estándar con la consola Xbox 360 y por tanto ese mismo
conector podría ser conectado al puerto USB de cualquier ordenador.
A pesar de los comunicados realizados por Microsoft para evitar los objetivos de dicho
concurso, el 6 de Noviembre de 2010 Joshua Blake, Sandler Seth, y Machulis Kyle fundaron
un grupo de trabajo denominado OpenKinect con el objetivo de coordinar los esfuerzos
para ganar el concurso. Ellos consideraban que el primer reto propuesto por el concurso era
relativamente sencillo de conseguir pero que, sin embargo, debían aunar todos los esfuerzos
realizados con el fin de intercambiar la información que fueran obteniendo y las herramientas
que se fueran desarrollando. Lo que comenzó siendo un grupo fundado para conseguir un
premio terminó siendo una comunidad centrada en en mirar hacia lo que podría lograrse
gracias a la tecnología que ofrecía este nuevo dispositivo.
De manera simultanea a estos acontecimientos, AlexP mostró en la red cómo era capaz
de controlar los motores que poseía Kinect y leer los datos provenientes de su acelerómetro.
22
Dos días después, publicó un vídeo en el que mostraba cómo obtenía el flujo de datos de la
cámara RGB y de la cámara de profundidad. Sin embargo, y a pesar de que el premio de
AdaFruit había ascendido ya a 3000 dólares, decidió no proclamarse campeón del mismo
debido a sus reticencias de publicar el código.
Microsoft siendo consciente de los avances que estaban realizando en la comunidad hacker en su lucha por liberar el dispositivo y ofrecer herramientas para que cualquiera pudiera
desarrollar para Kinect, mostró públicamente su cambio de opinión respecto a este movimiento siempre y cuando no se denominara “hackeo”.
Fue el analizador USB Beagle 480 (ver Figura 4.9) lo que permitió a AdaFruit comenzar
con el volcado USB de los datos recibidos a través de Kinect. Héctor Martín, ingeniero
informático de Bilbao, gracias a estos datos fue capaz de desarrollar en unas pocas horas un
controlador (libfreenect) y una aplicación para mostrar los datos de la cámara RGB y de la
cámara de profundidad.
Figura 4.9: Analizador de USB Beagle 480 [web14e].
PrimeSense anunció el 10 de Diciembre el lanzamiento de sus propios controladores de
código abierto para el dispositivo y todas las librerías (entre ellas O PEN NI) necesarias para
procesar los datos obtenidos del mismo. Este hecho supuso un gran avance, ya que las herramientas que ofrecía PrimeSense mejoraban notablemente los resultados obtenidos con los
algoritmos de seguimiento de libfreenect. No obstante, al igual que le ocurrió a Microsoft en
un principio, el seguimiento de esqueleto mediante O PEN NI todavía necesitaba la incómoda
postura en T para inicializar el reconocimiento de esqueleto.
No fue hasta el 17 de junio de 2011 que Microsoft ofreciera oficialmente soporte para
desarrollar con Kinect. Para ello lanzó una beta del Software Development Kit (SDK) bajo
una licencia pública no comercial. En la actualidad, cualquier desarrollador que lo desee
puede obtener acceso a las mismas herramientas que Microsoft utiliza para implementar
aplicaciones para Kinect.
23
4.1.3
Desarrollo de aplicaciones alternativas
Gracias a las características que serán explicadas en la siguientes subsecciónes (véase
§ 4.1.4 y § 4.1.6), Kinect ha conseguido desde que fue lanzada su primera versión en 2010
ser mucho más que un simple periférico para videojuegos. Los desarrolladores de todo el
mundo han descubierto que posee un gran potencial, permitiéndoles experimentar con un
hardware de visión, que generalmente hubiera estado al alcance de unos pocos debido a la
complejidad y alto precio.
Esto se debe en gran parte a que el controlador de Microsoft es uno de los dispositivos más
versátiles del mercado, sobre todo, teniendo en cuenta que originalmente fue desarrollado
para ofrecer una nueva forma de interacción a los jugadores de videoconsolas. De este modo,
Kinect ha conseguido trascender el objetivo con el que fue creado para llegar a convertirse en
una poderosa herramienta de visión por computador que es empleada en prestigiosos centros
de investigación como el MIT Media Lab.
En una entrevista Joi Ito, director del MIT Media Lab, comentaba que este dispositivo está
comenzando a ser la piedra angular de muchos proyectos de investigación desarrollados por
estudiantes en el MIT. Algunos de los más interesantes son:
Kinect for Cooler Videoconferencing, que consiste en un sistema de videoconferencia que ofrece una forma diferente de interactuar en relación a las plataformas que se
conocen hoy en día para tal fin (ver Figura 4.10). Entre los aspectos más destacables
en este proyecto se encuentra la posibilidad de emplear realidad aumentada, la identificación de los individuos que se encuentran en escena o incluso el enfoque automático
de la persona que se encuentre hablando en cada momento [web14q].
Figura 4.10: Kinect for Cooler Videoconferencing [web14q].
Real-Time Princess Leia Holography Via Kinect Hack (ver Figura 4.11), que consiste en un sistema que permite transmitir vídeo holográfico a quince frames por segundo a través de internet. Lo más llamativo de este proyecto es que para su funcio24
namiento tan sólo se requiere un dispositivo Kinect, un portátil con unas prestaciones
estándar para el extremo final de la comunicación y un ordenador de sobremesa que
disponga de tres chips de procesamiento gráfico. Para la proyección del holograma se
requiere un dispositivo especial para tal propósito y que aún se encuentran en fase de
desarrollo [web14x].
Figura 4.11: Real-Time Princess Leia Holography Via Kinect Hack [web14x].
No obstante, desde que se hicieron públicas las herramientas ofrecidas por las diferentes
compañías, desarrolladores de todo el mundo comenzaron a crear sus propias aplicaciones
y a exprimir las ventajas que ofrece Kinect más allá de los objetivos iniciales para la videoconsola Xbox 360. No obstante, esto supone una oportunidad que va mucho más allá del
ocio y proyectos de investigación, convirtiendo a Kinect en la base de muchos productos
comerciales. Según declaraciones de miembros de Microsoft:
“We’ve seen a tremendous amount of interest in the Kinect for Windows commercial
program, with more than 300 companies participating in our early adopter program.
Although the commercial hardware and software were not released until February 1 st ,
we’re already seeing innovative examples of commercial uses from some of our early
adopter participants. The possibilities are endless. In coming months, we will feature many
of these examples of Kinect for Windows applications on this website as well as our blog.”
25
En las siguientes subseciones se presentan algunos de los start-ups más destacados hasta
el momento ordenados por el campo en el que trabajan.
4.1.3.1.
Ocio
Ubi (ver Figura 4.12), sistema desarrollado por Ubi Interactive que permite convertir
cualquier superficie en una pantalla táctil [wbU14].
Figura 4.12: Ubi Interactive [wbU14].
Fitnect (ver Figura 4.13), ofrece un probador en tres dimensiones basado en realidad
aumentada. Esta innovadora aplicación permite a los compradores probarse de manera
virtual diferentes prendas y accesorios, dándoles así la oportunidad de ver cómo les
sentarían los productos sin necesidad de probárselos [web14b].
Figura 4.13: Fitnect [web14b].
26
4.1.3.2.
Medicina
TedCas (ver Figura 4.14), sistema desarrollado por TedCas Medical Systems. Su principal objetivo es luchar contra las infecciones que se producen en un quirófano puesto
que, gracias a Kinect, permite a los cirujanos navegar por el historial clínico de los
pacientes sin necesidad de tocar su historia clínica o el teclado ya que todo será controlado mediante gestos [wbT14a].
Figura 4.14: TedCas [wbT14a].
VirtualRehab (ver Figura 4.15), sistema desarrollado por Virtualware Group el cual
se centra en proporcionar un programa de rehabilitación a través del fortalecimiento
muscular, la resistencia y la coordinación [wbV14].
Figura 4.15: VirtualRehab [wbV14].
4.1.3.3.
Educación
KinectEducation [web14o] es un recurso de la comunidad educadora que tiene el
objetivo de impulsar a los desarrolladores, profesores, estudiantes, aficionados y a
cualquier otra persona interesada en la educación para promover en las aulas el uso
27
de aplicaciones basadas en Kinect. Ellos defienden que la integración de dispositivos
como Kinect en las aulas ofrece innovadoras oportunidades de aprendizaje dentro de
un entorno controlado de le educación pública.
“River Crossing” es una de las aplicaciones que presentan en esta comunidad. Este
juego educativo tiene como principal objetivo que el niño sea capaz de aprender la
tarea de dirigir un barco a través de un río donde el niño debe emplear la lógica para
trasladar un pato, un zorro y un saco de semillas a la otra orilla del río sin que se coman
unos a otros (ver Figura 4.16).
“Kinect Math” es otra de las aplicaciones promovidas por KinectEducation, con el
objetivo de dar a los educadores la posibilidad de volver a interesar a los estudiantes
de matemáticas, practicando físicamente con los conceptos matemáticos que pueden
resultar más abstractos (ver Figura 4.17).
Figura 4.16: Juego River Corssing [web14i].
Jumpido [web14g] es una plataforma de aprendizaje enfocada en dar soporte al plan
educativo de niños entre 6 y 12 años. Para ello, incorpora una gran variedad de actividades que permiten a los niños progresar de manera interactiva y entretenida en
diferentes campos como en biología, química, matemáticas, música, etc.
“Baskets” es un ejemplo de sus muchas actividades cuyo fin es animar al niño a resolver problemas matemáticos que van apareciendo en las ramas de los árboles dándoles una retroalimentación muy estimulante para ellos sobre sus respuestas (ver Figura 4.18).
4.1.3.4.
Accesibilidad
Navigational Aids fot the Visually Impaired (NAVI) (ver Figura 4.19): Tiene como
objetivo emplear el sensor de profundidad de Kinect para detectar paredes y obstácu28
Figura 4.17: Kinect Math [web14l].
Figura 4.18: Actividad “Baskets” integrada en la plataforma Jumpido [web14g].
los, sirviendo así como ayuda de movimiento para una persona con algún grado de
discapacidad visual proporcionándoles feedback táctil sobre los obstáculos que se encuentran en su camino. Fue creada por dos estudiantes de la Universidad de Konstanz
en Alemania. La aplicación emplea, además de un dispositivo Kinect, un ordenador
portátil y un dispositivo Arduino LillyPad que están situados en una mochila. Por otro
lado, el sensor está ubicado en un casco especial sobre la cabeza del usuario, manteniendo de esa forma el sensor Kinect apuntando hacia el frente [web14w].
Kinect Sign Language Translator (ver Figura 4.20): Es un prototipo de investigación
desarrollado por la división MSR que es capaz de traducir ambos lenguajes, en ambos
sentidos y en tiempo real. El sistema reconoce los gestos, traduciéndolos de forma
escrita y oral, mientras que si una persona habla, sus frases se traducen a signos en
un modelo en el ordenador. No obstante, el desarrollo aún tiene un largo recorrido por
delante ya que se necesita que cinco personas hagan el mismo gesto por cada palabra
de forma que luego ésta sea reconocida a posteriori. Por el momento se han incluido
29
Figura 4.19: NAVI (Navigational Aids fot the Visually Impaired) [web14w].
300 palabras chinas de un total de 4.000 que los programadores chinos están utilizando
para las pruebas iniciales.
Figura 4.20: Kinect Sign Language Translator [web14r].
4.1.4
Características técnicas
Actualmente hay disponible en el mercado dos versiones diferentes: Kinect for Xbox 360
y Kinect for Windows. Ambos sensores comparten muchas capacidades (ver cuadro 4.2),
siendo algunas de las más importantes:
Una cámara RGB, la cual hace posible la captura de vídeo mediante el almacenamiento de datos desde tres canales a una resolución de 1280 x 960 a 30 frames por
segundo, o a una resolución de 640 x 480 frames por segundo.
Un sensor de infrarrojos (IR) y un sensor de profundidad IR. Ambos hacen posible la captura de profundidad: El emisor emite rayos de luz infrarroja y el sensor de
profundidad lee los haces IR reflejados que vuelven a él. De esta manera, es posible
convertir esta información en datos relativos a la profundidad midiendo la distancia
entre el objeto y el sensor.
30
Un micrófono de múltiples matrices. Incorpora cuatro micrófonos para que sea posible grabar audio desde una dirección especifica, encontrar la ubicación del sonido y la
dirección de la onda de audio. Dispone de un convertidor analógico-digital de 24 bits
incluyendo de eco acústico y supresión de ruido.
Un acelerómetro de tres ejes configurado para una gama 2G (donde G es la aceleración debida a la gravedad). De este modo, es posible utilizar el acelerómetro para
determinar la orientación actual del sensor.
Motor: Este motor es capaz de inclinar el dispositivo en un ángulo de 30◦ por arriba y
por abajo del plano horizontal.
Elemento
Rango
Ángulo de visión
Rango de movimiento del cabezal
(vertical)
Velocidad de imagen (flujos de datos de color y profundidad)
Resolución por defecto en cámara
de profundidad
Resolución por defecto en cámara
de color RGB
Formato de audio
43◦ vertical y 57◦ horizontal
±27◦
30 frames per second (FPS)
VGA (640 x 480)
VGA (640 x 480)
16-kHz, 16-bit mono pulse code
modulation (PCM)
Un array de cuatro micrófonos que
incluye conversos analógico a digital de 24 bits integrado con Acoustic Echo Cancellation y Noise Suppression
Características de entrada de audio
Cuadro 4.1: Especificación técnica Kinect.
En la Figura 4.21 se muestra un gráfico que especifica como están distribuidos los diferentes componentes en el interior del dispositivo.
No obstante, Kinect for Windows ofrece varias funcionalidades que no están presentes en
su primera versión, Kinect for Xbox 360. A continuación se mencionan las más significativas:
Near Mode: Permite a la cámara ver objetos que se encuentren delante de ella a una
distancia de hasta 40 centímetros sin perder exactitud o precisión. Mientras que Kinect
para Xbox 360 reconoce usuarios desde los 0’4 metros a los 4 metros de distancia
reconociendo el esqueleto únicamente desde los 0’8 metros a los 4 metros, con este
nuevo Near Mode es posible reconocer esqueletos desde los 0’4 metros de distancia
31
Figura 4.21: Distribución de los componentes en Kinect [web14k].
a los 3 metros de distancia del sensor. En la Figura 4.22 se muestra una comparativa
entre ambos modos de reconocimiento.
Figura 4.22: Distancia para el reconocimiento del esqueleto en Kinect [web14k].
Audio y reconocimiento de voz: Recibe una mejora substancial en su precisión y
estabilidad.
Cable USB: Asegura la fiabilidad en una amplia gama de ordenadores y mejora la
convivencia con otros periféricos USB.
Configuración de la cámara: Lo cual proporciona ajustes adicionales, tales como
el brillo, exposición, etc. así como un mayor rango de resoluciones disponibles en la
cámara RGB y en el sensor de profundidad para proporcionar una mayor precisión.
Detección de manos: Permite implementar gestos con las manos como pellizcar para
hacer zoom, agarrar, etc.
4.1.4.1.
Segunda generación de Kinect
Es importante destacar que Microsoft ha anunciado que con motivo del lanzamiento de su
nueva videoconsola, Xbox One, Kinect experimentará una importante renovación con grandes mejoras. La gran diferencia del nuevo Kinect (ver Figura 4.23) respecto a su predecesor
reside en la nueva cámara principal. La segunda generación del dispositivo de captura de
32
movimientos incorpora una cámara Time-Of-Flight (TOF) de alta resolución que permite al
próximo Kinect de Xbox One capturar más detalles con gran precisión y mayor resolución.
El nuevo modo de profundidad proporcionado por esta cámara TOF hace posible la captura
y la reprodución de una escena con hasta tres veces más fidelidad que el primer Kinect.
Figura 4.23: Segunda generación de Kinect [web14k].
No obstante, no es la única ventaja que se obtiene al emplear este tipo de cámara. Con ella
además se logra un campo de visión hasta un 60 % más amplio, lo cual permite capturar un
espacio mayor, posibilitando de esta manera que más personas puedan ser registradas concurrentemente e incluso a una menor distancia del dispositivo. En la nueva generación de la
nueva videoconsola pueden aparecer hasta 6 personas en escena reconociendo y distinguiendo todos sus movimientos. Todos estos cambios suponen un importante avance respecto a su
predecesora que tan sólo era capaz de registrar el movimiento de 2.
El segundo gran cambio en la nueva generación de Kinect viene de la mano del nuevo
sensor de infrarrojos. Este sensor logra reconocer objetos y personas en condiciones de luminosidad muy bajas, siendo ahora tan potente que permite identificar elementos en una
habitación totalmente a oscuras. La precisión es tal que permite el reconocimiento de personas y el registro de cuerpos incluso sin ninguna luz visible para el ojo humano. Incluso bajo
condiciones de luminosidad bajas permite reconocer la pose de la mano a una distancia de
hasta cuatro metros de distancia, distinguiendo con precisión cada uno de los dedos.
Mediante la combinación de todas estas novedades es posible registrar no sólo la silueta
del usuario, sino también distinguir su esqueleto completo, la orientación de sus miembros,
los músculos del cuerpo con la fuerza y distribución de pesos ejercida sobre ellos, y hasta el
latido del corazón. El reconocimiento facial también se ve ampliamente mejorado, detectando hasta el más mínimo detalle y gesto, permitiendo de esta manera una identificación más
precisa.
Esta nueva tecnología cuenta además con una mejora en el procesador de Kinect, permitiéndole hacer frente a la ingente cantidad de información que obtienen todos los nuevos
sensores. Hasta 2 gigabits de datos por segundo son recogidos por el dispositivo para leer el
entorno. Toda esa información ha de ser procesada e interpretada rápidamente y para ello ha
33
sido necesario una evidente mejora en las especificaciones de la máquina.
En resumen, se pueden destacar las siguientes mejoras:
Mayor precisión con hasta el triple de fidelidad con respecto su predecesor.
Capacidad de ver en la oscuridad gracias a su nuevo sensor IR.
Campo de visión hasta un 60 % más amplio.
Capacidad de rastrear hasta seis esqueletos a la vez.
Detección de frecuencia cardíaca y mejora en la detección de la expresión facial.
Veinticinco articulaciones individuales, incluidos los pulgares.
A pesar de estas importantes mejoras, el mayor inconveniente para el desarrollo del presente TFG es que no será lanzada hasta hasta el año 2014. Por este motivo, se prevé que para
el desarrollo del mismo se emplee la actual Kinect.
4.1.5
Ventajas de Kinect frente a otros dispositivos
A continuación se exponen las principales ventajas que el dispositivo Kinect ofrece frente
a los dispositivos tradicionales que pueden ser empleados en la visión por computador:
Se requiere únicamente una cámara.
No son necesarios cálculos manuales para obtener la profundidad.
Adquisición de la geometría en tres dimensiones de las escenas en tiempo real.
Dependencia de la iluminación reducida.
Baja dependencia de la textura de las superficies.
En la actualidad existen diversas plataformas muy potentes que ofrecen soporte para
desarrollar software para Kinect.
4.1.6
Funcionamiento
El propósito de esta sección es proporcionar una visión general sobre la forma en la que
trabaja el dispositivo Kinect. Para ello, se ha dividido en diferentes apartados que versan
sobre la cámara RGB, la cámara de profundidad y el proceso de mapeo de profundidad, el
sistema de micrófonos y por último una breve reseña sobre el motor de inclinación.
4.1.6.1.
Cámara RGB
Como ya se exponía en la sección de características técnicas de Kinect (véase § 4.1.4),
este dispositivo dispone de una cámara RGB que permite capturar vídeo a una resolución de
1280 x 960 frames por segundo o a una resolución de 640 x 480 frames por segundo.
Mediante las diferentes plataformas que se encuentran disponibles actualmente (véase
§ 4.1.8), un desarrollador es capaz de obtener los datos de dicha cámara y emplearlos en
34
sus aplicaciones. Estos datos representan las imágenes que son obtenidas a través del sensor
y se encuentran codificados como un vector de bytes.
No obstante, para entender esta codificación es necesario conocer primero cómo se estructura una imagen. Cada píxel de una imagen tiene cuatro componentes que representan los
valores de los colores rojo (R, red), verde (G, green) y azul (B, blue) más un componente
adicional que se corresponde con el valor de transparencia (a, alfa) si se tratan de imágenes
RGBa, o un color vacío si es del tipo RGB (ver Figura 4.24).
Figura 4.24: Componentes de un píxel.
Cada componente de un píxel, a su vez, representa un valor decimal comprendido entre
0 y 255 correspondiendo a un byte. Por lo tanto, el vector de bytes (ver Figura 4.25) que
se obtiene del sensor es una representación de esos píxeles organizados de arriba abajo y de
izquierda a derecha donde los 3 primeros elementos del vector serán los valores rojo, verde
y azul del píxel situado en la esquina superior izquierda de la imagen, mientras que, por
el contrario, los 3 últimos elementos corresponderán al píxel situado en la esquina inferior
derecha.
Figura 4.25: Estructura del vector de bytes de la imagen.
4.1.6.2.
Cámara profundidad
Como ya se exponía en la sección de características técnicas de Kinect (véase § 4.1.4), este
dispositivo dispone de un sensor de infrarrojos (IR) y un sensor de profundidad IR, haciendo
posible la captura de profundidad mediante la creación de mapas de profundidad.
Este proceso de creación de mapas de profundidad se lleva a cabo mediante lo que se
denomina “codificación de luz”. Esta codificación de luz consta de dos fases:
Calibración (ver Figura 4.26): Esta fase consiste en la proyección de un patrón de puntos (ver Figura 4.27) sobre una superficie variando la distancia a la que se encuentra en
35
unas posiciones conocidas. Posteriormente, por cada posición se obtiene una imagen
infrarroja que será almacenada en la memoria interna del dispositivo y que más tarde
servirá como referencia. De esta manera, aplicando técnicas de triangulación y conociendo la distancia que separa el proyector de la cámara infrarroja (75 mm), la focal de
ésta (750 mm) y la distancia de la cámara a los puntos proyectados, es posible conocer
dónde se proyectaría cada punto en el proyector si este fuese en realidad una cámara
infrarroja igual a la otra. Por lo tanto, de esta forma es posible conocer exactamente la
posición en la que se proyecta cada punto si se conoce su patrón.
Figura 4.26: Fase de calibración del sistema de mapas de profundidad de la Kinect.
Funcionamiento(ver Figura 4.28): Esta fase se reduce a un problema de visión estéreo. Para resolver este problema, el chip de PrimeSense que incorpora el dispositivo
busca los puntos en la imagen infrarroja para posteriormente comparar la posición de
los puntos proyectados (a través de las imágenes de referencia) y la posición de los
puntos en la proyección de la imagen que ha sido obtenida, calculando de este modo
cuánto se ha desplazado cada punto. Para realizar este proceso, es necesario emplear
una matriz de correlación de 9 x 9 píxeles que contiene la disparidad entre los puntos
de ambas escenas. Mediante este método se crean unas sombras de 5 píxeles en todo
el borde de la imagen debido a que para esos píxeles, parte de la máscara se encuentra fuera de la imagen y por lo tanto no hay información suficiente para realizar la
correlación. Posteriormente, mediante un proceso llamado “triangulación activa” se
calculan las distancias a las que se encuentran proyectados cada punto. Por último, con
36
Figura 4.27: Imagen de los puntos infrarrojos proyectados en una pared [Bor12].
la información que se ha obtenido de todos los puntos se construye la imagen.
En la ecuación 4.1 se observa la ecuación empleada en el proceso de triangulación
activa para calcular la profundidad (z), donde b es la distancia entre el proyector infrarrojo y la cámara IR (75 mm), f es la focal de la cámara IR (750 mm); kd es la
disparidad entre los puntos de ambas imágenes y doff es la disparidad característica de
la Kinect (1090).
z=
4.1.6.3.
1
8
b∗f
∗ (dof f − kd)
(4.1)
Sistema de micrófonos
De acuerdo con lo expuesto anteriormente (véase § 4.1.4), Kinect dispone de un sistema
de micrófonos que está compuesto de cuatro micrófonos colocados en la parte inferior, uno
en el lazo izquierdo y tres en lado derecho (ver Figura 4.29). Esta distribución tan especifica
es el principal motivo por el que Kinect dispone de una anchura de 28 cm.
Estos micrófonos son empleados tanto para el reconocimiento de voz como para identificar
el origen y direccionalidad de la fuente de sonido. Esto último se debe a que el sonido llegará
a los distintos micrófonos en instantes de tiempo diferentes, de forma que, a grosso modo, es
posible calcular el lugar de dónde provienen las ondas sonoras teniendo en cuenta el desfase
entre la señales y la velocidad del sonido en el entorno.
4.1.6.4.
Motor de inclinación
De acuerdo con lo expuesto anteriormente (véase § 4.1.4), Kinect dispone de un motor de
inclinación que se encuentra en su base. El principal objetivo de este motor es permitir mover
37
Figura 4.28: Fase de funcionamiento del sistema de mapas de profundidad de la Kinect.
Figura 4.29: Disposición de los micrófonos en Kinect [web14k].
el dispositivo arriba y abajo en un rango de 30 grados con la intención de calibrar el espacio
de detección y el ángulo de visión de las cámaras.
38
4.1.7
¿Por qué Kinect?
Las cámaras que normalmente se ven en la vida cotidiana recogen la luz que rebota en los
objetos que están delante de ellas y la convierten en una imagen como la que una persona
vería con sus propios ojos. Sin embargo, las cámaras de profundidad como la que ofrece
Kinect trabaja de una manera muy distinta: Recogen la distancia de los objetos que están
situados frente a ellas. Para ello, emplean luz infrarroja para crear una imagen (imagen de
profundidad) que no captura la apariencia de los objetos, sino donde se encuentran en el
espacio.
Una imagen de profundidad es mucho más sencilla de entender por un ordenador que
una imagen a color convencional. De este modo, cualquier sistema que intente entender una
imagen comenzará analizando los píxeles tratando de encontrar y reconocer las personas y
objetos que estos representan. No obstante, esta es una tarea bastante compleja ya que, en
una imagen a color, los píxeles están sujetos a varios factores como la luz de la habitación
de cuando la imagen fue tomada o la abertura de la cámara.
Por el contrario, en una imagen de profundidad el color de cada píxel proporciona la
distancia de cada parte de la imagen con respecto la cámara. Puesto que estos valores se
corresponden directamente con donde se encuentran ubicados los objetos en el espacio, este
tipo de imágenes resultan mucho más útiles y eficientes a la hora de determinar conceptos
bastante complejos como por ejemplo dónde comienza un objeto y termina otro o si hay
gente alrededor. Además, debido a la forma en la que Kinect captura este tipo de imágenes,
los resultados obtenidos no se ven sujetos a las condiciones de luz de la habitación de cuando
fue capturada la imagen. De este modo, Kinect capturará la misma imagen de profundidad
en una habitación con condiciones de luminosidad opuestas. Por lo tanto, esto proporcionará
un entorno más fiable e incluso más fácil de entender por un sistema.
En definitiva, gracias a esta información tridimensional que proporciona la cámara de profundidad de Kinect es posible diseñar y construir herramientas más robustas para la detección
y seguimiento de personas, así como localizar sus articulaciones y partes del cuerpo.
4.1.8
Librerías Kinect
En la siguiente subsección se pretende proporcionar una visión general acerca del estado
actual de las diferentes plataformas destinadas al desarrollo de aplicaciones para Kinect: SDK
de Kinect, O PEN NI y OpenKinect. Para ello, se han descrito las principales características
de cada una, cómo funciona cada framework, las funcionalidades soportadas por cada una,
cómo ha evolucionado en los últimos años, así como las ventajas y desventajas que presenta
cada una.
La documentación requerida para esta subsección ha sido obtenida de diversas fuentes,
intentando en todo momento proporcionar la visión más imparcial y objetiva posible. Por
ello, se han empleado diversos libros como [KBC+ 12] [Cat12] [KHP11] [WA12] [Mil12]
39
[Dav12] [Jan12] [Fal13], además de las páginas oficiales de cada plataforma y sus correspondientes foros de discusión.
4.1.8.1.
SDK Windows
El SDK de Kinect es un kit de herramientas ofrecido por Microsoft para el desarrollo de
aplicaciones basadas únicamente en el dispositivo Kinect escritas en C++, C#, o Visual Basic.
La principal intención de Microsfot con esta plataforma es ofrecer una solución totalmente
integrada y que, además, sea fácil de aprender y manejar por los desarrolladores. Para ello,
el SDK proporciona una interfaz que permite, de una manera muy sencilla, interactuar con
Kinect a través de los drivers que son proporcionados en el mismo SDK y que además permite
interaccionar con el sistema operativo y las APIs directamente a través del mismo entorno de
desarrollo.
4.1.8.1.1. Descripción del SDK
De esta forma, el SDK integra todas las herramientas y APIs que un desarrollador puede
necesitar para diseñar e implementar aplicaciones que interactúen con el dispositivo Kinect.
Como ya se ha mencionado antes, uno de los objetivos de Microsoft con esta plataforma
es ofrecer la solución más sencilla posible a los desarrolladores para que integren el uso de
Kinect en sus aplicaciones. Para ello, Microsoft ha ideado el SDK de de forma que el desarrollo de una aplicación con Kinect sea esencialmente igual que el desarrollo de cualquier
otra aplicación para Windows, a excepción de que el SDK integra el soporte necesario para
las características de la Kinect, como son las imágenes de profundidad y color, entrada de
audio, etc.
Según la descripción proporcionada por Microsoft, algunos de los ejemplos del tipo de
aplicaciones para Windows que se pueden desarrollar empleando la funcionalidad proporcionada por el SDK son los siguientes:
Reconocimiento y seguimiento del movimiento de personas mediante seguimiento del
esqueleto humano.
Determinar la distancia existente entre un objeto y el sensor mediante datos de profundidad.
Captura de audio usando mecanismos de cancelación de ruido y eco o encontrar la
localización de la fuente donde se origina el sonido.
Implementar aplicaciones de procesamiento de voz a través de un motor de reconocimiento del habla.
No obstante, no se debe perder de vista otro de los objetivos clave de Microsfot con este
SDK: Ofrecer una solución completa y totalmente integrada de forma que un desarrollador
tenga a su disposición todo lo requerido para diseñar, implementar y distribuir una aplicación
40
basada en las funcionalidades de Kinect. De esta forma, el paquete distribuido por Microsoft
incluye los siguientes componentes:
Los drivers necesarios para interactuar con el dispositivo a través de Windows, así
como toda la información técnica que es necesaria para desarrollar una aplicación
basada en Kinect.
Una gran variedad de APIs y fuentes de documentación que sirvan como referencia.
Estas APIs ofrecen la posibilidad de recibir una gran variedad de datos multimedia
provenientes del sensor con una latencia mínima.
Una gran colección de muestras que tienen como objetivo dar a conocer a los desarrolladores un conjunto de buenas prácticas para el uso de Kinect.
Un considerable surtido de ejemplos que facilitan el aprendizaje de las APIs.
Para el desarrollo de una aplicación a través de este SDK es necesario tener algunas nociones básicas sobre como esta estructurada su arquitectura (ver Figura 4.30):
Figura 4.30: Arquitectura del SDK [web14j].
Hardware Kinect: Módulo constituido por los componentes hardware, incluyendo el
sensor Kinect y el puerto USB a través del cual se conecta a la computadora.
Drivers Kinect: Es la capa software de más bajo nivel que se encarga de comunicarse
con el módulo hardware a través de los drivers que son proporcionados con el propio
SDK. Estos drivers dan soporte a:
• El array de micrófonos como un dispositivo de audio en modo kernel que puede
ser accedido a través de las APIs de audio estándar suministradas con el sistema
operativo Windows.
• Controles especializados para los flujos de audio y vídeo (imágenes RGB, imágenes de profundidad y esqueleto).
• Funciones de enumeración de dispositivos que permiten que una aplicación se
comunique con más de un dispositivo Kinect.
41
Componentes de audio y vídeo: Compuesta por la Natural User Interface (NUI) de
Kinect, encargándose de realizar las tareas de seguimiento del esqueleto y del procesado del audio e imágenes RGB y de profundidad.
DirectX Media Objec (DMO): Módulo encargado de la formación de haces provenientes del array de micrófonos, así como de determinar el origen del audio.
APIs estándares de Windows 7: APIs de audio, voz y contenido multimedia que están
incorporadas en el SDK de Windows 7 (también disponible para Windows 8) y en el
SDK de reconocimiento del habla de Microsoft.
No obstante, de todos los componentes que forman parte de la arquitectura del SDK de
Kinect, el más importante para un desarrollador es NUI ya que constituye el núcleo de las
APIs incluidas en el SDK. De entre todas las funcionalidades y los datos que este componente
permite acceder, los más destacados son los datos de audio que son transmitidos a través del
flujo de audio y los datos RGB y de profundidad de las imágenes que son transmitidas a
través de los flujos de RGB y profundidad. En la Figura 4.31 se puede apreciar cuál es
esquema de interacción entre el hardware y software de una aplicación a través de NUI.
Figura 4.31: Interacción del hardware y software con una aplicación [web14j].
Además de las capacidades hardware que proporciona Kinect, los elementos software incorporados en NUI implementan:
Un pipeline software que es capaz de reconocer y realizar el seguimiento del cuerpo
humano. Para que esto sea posible, convierte en tiempo de ejecución la información
de profundidad obtenida a través de Kinect en la ubicación de las articulaciones del
cuerpo humano (ver Figura 4.32). De esta forma, es posible reconocer hasta seis personas personas que se encuentren ubicadas frente a la cámara del dispositivo y realizar
el seguimiento de hasta dos.
La integración con las APIs de reconocimiento de habla de Microsoft, haciendo posible
la incorporación un potente motor de reconocimiento del habla en las aplicaciones.
Un ejemplo de ello podría ser la implementación de una aplicación que responda a
comandos de voz realizados por el usuario. Actualmente, esta API tiene soporte para
doce idiomas, entre ellos el castellano.
La integración con el SDK de seguimiento de rostros ofrecido por Microsoft, a través
del cual es posible integrar en las aplicaciones funcionalidades que estén basadas en el
reconocimiento y seguimiento de caras humanas. Por el momento, las características
42
Figura 4.32: Articulaciones reconocidas por el SDK de Kinect [web14j].
más interesantes de este SDK son la capacidad de detectar hasta 87 puntos del rostro
humano (ver Figura 4.33), así como la orientación de la cabeza del usuario.
Figura 4.33: Puntos del rostro humano reconocidos por el SDK de Microsoft [web14j].
Otro término importante del SDK de Kinect es el de “KinectInteraction”. KinectInteraction se refiere al conjunto de funcionalidades que permite a las aplicaciones incorporar interacción basada en gestos. Aunque no forma parte del SDK de Kinect para Windows, se
encuentra disponible a través de del kit de herramientas asociado a Kinect. Algunas de las
funcionalidades de alto nivel que proporciona KinectInteraction son las siguientes:
Identificación y seguimiento de las manos de hasta dos usuarios.
Servicios para detectar la localización y el estado de las manos del usuario.
Detección de la presión ejercida con las manos.
Información de control relacionada con los usuarios objetivo.
Para que todas estas funcionalidades sean posibles, KinectInteraction emplea una combinación de flujos de profundidad y sofisticados algoritmos. En la figura 4.34 se puede apreciar
43
como está compuesta la arquitectura de este módulo.
Figura 4.34: Arquitectura de KinectInteraction [web14j].
Además de todas las funcionalidades proporcionadas a través de las diferentes APIs, el
SDK de Kinect incorpora una colección de potentes herramientas que permite a los desarrolladores llevar a sus aplicaciones a un nivel más alto. A continuación se describen las más
destacadas:
Kinect Studio: Es una herramienta que permite grabar y reproducir secuencias de
vídeo de profundidad y RGB capturadas mediante Kinect. Gracias a esta herramienta,
los desarrolladores podrán leer y escribir flujos de datos con el objetivo de depurar
las funcionalidades de sus aplicaciones, así como para crear escenarios repetibles para
realizar labores de testing y análisis de rendimiento.
Kinect Fusion: Es una herramienta de gran potencia que en un principio sólo estaba
disponible a nivel interno en los equipos de desarrollo de Microsoft. Gracias a esta herramienta, los desarrolladores podrán modelar objetos en tres dimensiones, crear
aplicaciones de realidad aumentada e incluso tomar medidas de los escenarios en tiempo real. En la Figura 4.35 se puede observar el proceso de tratamiento que es necesario
para conseguir un modelo en tres dimensiones.
Figura 4.35: Resultado obtenido a través de Kinect Fusion [web14j].
44
Plataformas soportadas
Requerimientos hardware del computador:
Procesadores de 32-bit (x86) o 64-bit (x64).
Dual-core con un procesador a 2.66-GHz o superior.
Bus USB 2.0
2 GB de RAM.
Tarjeta gráfica que soporte DirectX 9.0c
Requerimientos software:
Visual Studio 2010 o Visual Studio 2012.
.NET Framework 4 (incluido en Visual Studio 2010) o .NET Framework 4.5 (incluido
en Visual Studio 2012).
Sistemas operativos soportados:
Windows 7.
Windows 8.
Windows Embedded Standard 7.
Windows Embedded Standard 8.
4.1.8.1.2. Evolución del framework
El SDK para Windows fue lanzado por primera vez como una versión Beta el 1 de Junio de
2010, pero debido a la gran aceptación con la que fue recibida, Microsoft decidió el lanzar
una segunda versión Beta el 2 de Noviembre de 2011. Es importante destacar que inicialmente ambas versiones del SDK fueron “releases” no comerciales que estaban destinadas a
los aficionados.
No obstante, la primera versión comercial no se hizo esperar mucho más. Esta fue lanzada
bajo el nombre “Kinect for Windows SDK 1.0” en febrero de 2012 junto con la nueva versión de Kinect (Kinect for Windows). En la Figura 4.36 se puede observar la evolución de
diferentes versiones hasta el SDK 1.6.
La última versión fue lanzada el 17 de Septiembre bajo el nombre de “Kinect for Windows
SDK 1.8” con importantes mejoras en el rendimiento de toda la plataforma. Además, se
incluyen dos nuevas funcionalidades que abren nuevas puertas a los desarrolladores:
Webserver para los flujos de datos de Kinect: Se trata de un componente que dota
a las aplicaciones hechas en HTML5 con la capacidad de poder acceder a los datos
que Kinect obtiene. De esta manera es posible utilizar las interacciones de Kinect para
controlar una aplicación hecha en HTML5.
45
Figura 4.36: Evolución del SDK de Kinect [WA12].
Kinect Background Removal: Consisten en un API que ofrece la funcionalidad de
eliminar y/o cambiar el fondo de un usuario traqueado. También ofrece la capacidad
de configurar a que usuario se le quiere aplicar el efecto en el caso de que halla más de
uno en escena.
4.1.8.1.3. Ventajas y desventajas
A continuación se describen los pros y los contras de emplear el SDK desarrollado por
Microsoft.
Ventajas
Permite obtener soporte del mismo fabricante del dispositivo, lo cual suele ser sinónimo de seguridad para el desarrollador.
Documentación de gran calidad muy extensa y detallada.
Plataforma en continua evolución, con releases del SDK muy frecuentes y de gran
calidad. Esto se traduce a un ciclo de liberación relativamente rápido (un ejemplo de
ello es que en tan solo en año y medio se han liberado 5 releases) con importantes
mejoras y novedades en cada release.
Amplia compatibilidad entre las diversas versiones del SDK, es decir, es posible realizar tanto el donwgrade como el upgrade de una aplicación de manera relativamente
cómoda y sencilla para el desarrollador.
Gran variedad de APIs fáciles de emplear y bien diseñadas. Por lo general, estas APIs
ofrecen un buen comportamiento y rendimiento.
46
Permite emplear diversos lenguajes de programación como C/C++ y .NET.
Todas las prestaciones se encuentran integradas en el mismo SDK sin necesidad de
integrar diferentes módulos para cada funcionalidad.
Desventajas
Sólo es compatible con el sensor Kinect desarrollado por Microsoft. Por lo tanto, el
desarrollador queda atado a que su código sólo pueda ser empleado por este dispositivo.
Sólo esta disponible para el sistema operativo Windows de Microsoft. Por este motivo,
si el desarrollador desea emplear este SDK desde otras plataformas, el desarrollador
debe emplear máquinas virtuales con los inconvenientes que eso conlleva.
Fuertemente ligado a las herramientas ofrecidas por Microsoft, como es el caso del
IDE Visual Studio.
El código no es open source, por lo que el uso del SDK requiere aceptar el acuerdo de
licencia de software impuesto por Microsoft.
Constituye un ecosistema muy cerrado, por lo que la integración de módulos o middleware de terceros puede resultar una tarea bastante tediosa.
Microsoft prohíbe distribuir código con su SDK que utilice o acceda a las características de los sensores de Kinect que no sean porporcionados por el propio SDK.
Microsoft prohíbe distribuir aplicaciones de Kinect para Windows para usarlas con un
sensor distinto del sensor de Kinect para Windows y sus controladores y software de
ejecución asociados.
Microsoft prohíbe distribuir código con el fin de que sea ejecutado en una plataforma
distinta del sistema operativo Microsoft Windows.
Microsoft prohíbe modificar o distribuir el código fuente proporcionado por el SDK.
4.1.8.2.
OpenNI
Establecido en Noviembre de 2012, Open Natural Interaction (O PEN NI) es un consorcio sin
ánimo de lucro que fue formado con el objetivo de promover y estandarizar la compatibilidad
e interoperabilidad de la Internación Natural (IN), dispositivos, aplicaciones y middleware.
Actualmente, O PEN NI es uno de los frameworks de desarrollo con sensores en tres dimensiones más importantes, siendo además su SDK de código abierto un estándar reconocido para
el desarrollo de middleware de visión por computador y soluciones en tres dimensiones.
La comunidad O PEN NI proporciona a los desarrolladores una amplia gama de herramientas
software, junto con una plataforma de ecosistemas en continua evolución para la colabora47
ción y la promoción de manera efectiva. Para ello abordan el ciclo de vida completo de
desarrollo:
Descubrimiento: En la comunidad O PEN NI un desarrollador podrá encontrar todo lo
que necesita para desarrollar el uso de la tecnología de detección en tres dimensiones
incluyendo el apoyo, recursos, tutoriales, software, bibliotecas de middleware, aplicaciones y una plataforma de intermediación activa.
Desarrollo: La comunidad ofrece a los desarrolladores una plataforma de código
abierto que les permite desarrollar middleware de IN y aplicaciones orientadas a diversos mercados, como son la robótica, la televisión, los videojuegos, ordenadores o
dispositivos móviles, la sanidad, etc.
Distribución: O PEN NI proporciona a los desarrolladores una plataforma de marketing
para mostrar sus innovaciones, abriendo de esta manera la puerta hacia nuevas oportunidades.
4.1.8.2.1. Descripción del framework
El framework que ofrece O PEN NI es un framework “open source” bajo una licencia “GNU
Lesser General Public License (LGPL)” que proporciona numerosas APIs para el desarrollo
de aplicaciones basadas en el paradigma de interacción natural con el usuario, es decir, una
interacción basada en los sentidos del ser humano como pueden ser el oído o la vista.
Para ello, este framework simplifica la comunicación con una gran variedad de sensores
de audio, vídeo y profundidad incorporados en los dispositivos hardware compatibles, como
son por ejemplo Kinect o el AXUS Xtion (ver Figura 4.37), donde ambos están basados en
el chip PS1080 de PrimeSense. También facilita la comunicación con diversos middlewares
de percepción que se encargan de analizar e interpretar los datos que son obtenidos de una
escena mediante algoritmos de visión por computador. Un ejemplo de ello podría ser un
software que tras recibir imágenes, es capaz identificar la posición de los usuarios que están
presentes en la escena.
Figura 4.37: AXUS Xtion [web14d].
Como se puede apreciar en la Figura 4.38, este framework proporciona a las aplicaciones
una interfaz de comunicación con los diferentes sensores hardware disponibles y, también,
48
con los diferentes componentes middleware que se integren en el framework. Es importante
destacar que únicamente proporciona interfaces, por lo que relega la lógica necesaria para
cada funcionalidad a los diferentes componentes, sean sensores o middlewares; de este modo, algunas operaciones de la API estarán implementadas por los dispositivos hardware y
otras por los diferentes componentes middleware. Así, por ejemplo, el framework proporciona operaciones que permiten obtener el mapa de profundidad (véase § 4.1.6.2) de una
escena dada o los datos en crudo de la cámara RGB desde los sensores, cuya lógica estará
implementada en el propio sensor.
Figura 4.38: Arquitectura del framework O PEN NI 2 [web14u].
De manera análoga, para los diferentes componentes middleware el framework proporciona operaciones que permiten obtener diferentes datos, como por ejemplo la posición del
usuario, cuya lógica estará implementada en el propio middleware. De esta forma, los distintos proveedores de hardware y middleware O PEN NI pueden desarrollar su propia implementación de las diferentes funcionalidades provistas por O PEN NI y posteriormente integrarlas en
el framework para su utilización.
Además, también permite registrar varios componentes que implementen la misma funcionalidad y elegir cuál de ellos utilizar al momento de solicitar los datos. Esta API común
provista por O PEN NI lo hace extremadamente flexible para la incorporación de nuevos componentes middleware, así como también para el desarrollo y ejecución de aplicaciones, que
pueden utilizar la API de forma trasparente e independiente del dispositivo hardware o sensor
que haya generado los datos.
Un punto muy positivo de este framework es que, además de todo el soporte que pro49
porciona la comunidad a través de su documentación y sus foros oficiales, ofrece una gran
cantidad de ejemplos que facilitan en gran medida los primeros pasos para comenzar a familiarizarse con el entorno. En la última versión del framework, O PEN NI 2.2 Beta, se encuentran
los siguientes ejemplos:
SimpleRead: Muestra cómo codificar una aplicación de consola que abre un flujo de
profundidad y lee los frames recogidos.
MultipleStreamRead: Muestra la misma funcionalidad que el ejemplo SimpleRead,
pero utilizando tanto el flujo de profundidad como el de color.
SimpleViewer: Muestra cómo implementar una aplicación con interfaz gráfica que
abre flujos de profundidad y de color mostrándolos por pantalla de forma simultanea.
MultiDepthViewer: Muestra cómo implementar una aplicación que abre flujos de
profundidad y de color simultáneamente desde varios sensores conectados en el mismo
ordenador.
EventBasedRead: Muestra la misma funcionalidad que el ejemplo SimpleRead pero
usando una API basada en eventos.
MWClosestPoint: Muestra cómo desarrollar un nuevo middleware sobre O PEN NI. En
este caso concreto analiza muestra de frames pare encontrar el píxel más cercano.
MWClosestPointApp: Muestra cómo implementar una aplicación de consola que emplea el middleware MWClosestPoint.
ClosestPointViewer: Muestra cómo implementar una aplicación con interfaz gráfica
que emplea el middleware MWClosestPoint.
Otro aspecto interesante que ha aparecido con la segunda versión del SDK de O PEN NI es
que se ha solucionado la incompatibilidad de los drivers que existían hasta entonces entre el
driver de este y el que proporcionaba el SDK de Microsoft. No obstante, cada día se está llegando más lejos consiguiendo propuestas muy interesantes, como la presentada por Tomoto
S. Washio: “kinect-mssdk-openni-bridge”. Esta solución (ver Figura 4.39) pretende ofrecer
un módulo que conecte el SDK de Microsoft con el framework de O PEN NI, permitiendo de
esta manera desarrollar aplicaciones que hagan uso de ambas plataformas de manera simultanea. No obstante, es muy probable que en futuras versiones del framework de O PEN NI ambas
plataformas sean compatibles por defecto sin necesidad de módulos extra.
Plataformas soportadas
Hardware soportado:
Ordenadores basados en arquitecturas x86: Pentium 4, 1.4 GHz o superiores o AMD
Athlon 64/FX 1 GHz o superiores.
50
Figura 4.39: Solución propuesta por Tomoto S. Washio [web14m].
Sistemas operativos soportados:
Windows XP (32/64 bits) con SP2 y superiores, Windows 7 (32/64 bits) y Windows 8
(32/64 bits).
OSX 10.7 y superiores.
Ubuntu 12.04 (32/64 bits) y superiores.
Entornos de desarrollo soportados:
Microsoft Visual Studio 2008 y 2010.
GCC 4.x.
NiTE y otros middlewares de interés
Actualmente existe una gran variedad de middlewares para O PEN NI. No obstante, uno de
los más importantes y conocidos es “NiTE” (el cual será empleado para el desarrollo del
presente proyecto). NiTE ha sido desarrollado por PrimeSense (creador del hardware de
Kinect), constituyendo uno de los middleware más avanzados y robustos en el campo de
visión por computador. Entre los muchos beneficios que los diferencian de otras alternativas
disponibles en el mercado, destacan los siguientes:
Amplias posibilidades de configuración, ofreciendo una solución flexible y extensible
por lo usuarios del estándar definido por O PEN NI.
Soporte multiplataforma, estando disponible para Windows, Linux, OS X y Android.
Mínima carga de CPU, estando optimizado para arquitecturas ARM x86.
Gran escalabilidad.
Implementado en C/C++.
51
NiTE se integra perfectamente con O PEN NI, proporcionando una API clara y cómoda de
usar. Este middleware implementa potentes algoritmos que trabajan a partir de los datos
obtenidos de la cámara RGB, del sensor de profundidad y de los micrófonos que incorpora
el dispositivo hardware. De esta forma, permite al desarrollador obtener un mayor nivel de
abstracción y realizar funciones muy interesantes. A continuación se muestran algunas de
las más destacadas:
Localización y seguimiento de manos.
Analizador de escena, permitiendo aislar al usuario del fondo.
Seguimiento preciso de la ubicación y orientación de las articulaciones de los usuarios.
Reconocimiento de varios gestos.
Aunque NiTE es el más conocido, no es el único middleware disponible a los desarrolladores para integrar en el framework O PEN NI. Gracias a la filosofía de esta comunidad open
source, cada día aparecen nuevos e interesantes componentes creados por desarrolladores del
todo el mundo y que son puestos al alzance de todo aquel que quiera utilizarlos. A continuación se exponen brevemente alguno de los más llamativos hasta el momento:
3D Hand (ver Figura 4.40): Middleware desarrollado por Foundation for Research
and Technology-Hellas (FORTH) que permite el seguimiento en tres dimensiones de
la mano humana, así como su orientación y articulación. Todo ello es posible sin necesidad de realizar ningún proceso previo de calibración ni la necesidad de emplear
ningún tipo de guantes especiales [web14h].
Figura 4.40: 3D Hand [web14h].
KScan3D (ver Figura 4.41): Solución desarrollada por LMI Technologies, una empresa líder en escaneo 3D, que proporciona un proceso completo para escanear y procesar
52
datos en tres dimensiones. Para ello, incorpora un editor gráfico que permite escanear,
editar, procesar y exportar los datos obtenidos en diferentes formatos, como por ejemplo .obj o .fbx.
Figura 4.41: Resultado obtenido con KScan3D [web14a].
SigmaNIL (ver Figura 4.42): Solución propuesta por SigmaRD Computer Vision &
Graphics que consiste en un framework para el desarrollo de interfaces de usuario
con capacidades de reconocimiento de gran precisión, como los dedos de las manos o
formas, así como seguimiento y reconocimiento del esqueleto y de las manos de los
usuarios.
4.1.8.2.2. Evolución del framework
Como consecuencia de un minucioso análisis de la anterior API de O PEN NI, la versión 1.5,
la comunidad fue consciente de que muchas de las funcionalidades que hasta aquel entonces eran incluidas en el framework raramente eran utilizadas por los desarrolladores. Como
53
Figura 4.42: Ejemplo de gesto reconocido con SigmaNIL [web14y].
consecuencia PrimeSense decidió realizar un importante lavado de cara al SDK reduciendo
en gran medida la complejidad de la API.
El primer y principal cambio que se llevó a cabo fue simplificar la interfaz middleware
(ver Figura 4.43). De esta forma, O PEN NI es ahora simplemente un API cuyo único objetivo
es llevar a cabo la comunicación entre los diferentes sensores a través de los drivers y las
aplicaciones o middlewares de terceros. Con esta nueva arquitectura, los desarrolladores de
middleware tan sólo deben ser construidos para ser ejecutados por encima de O PEN NI. Sin
embargo, en la anterior versión toda esta funcionalidad era proporcionada directamente por
O PEN NI mediante la adicción de plug-in’s, dando como resultado una plataforma mucho más
compleja de mantener y un API demasiado difícil de manejar.
Figura 4.43: Evolución de la arquitectura O PEN NI [web14u].
El segundo cambio que se realizó fue el de simplificar los tipos de datos, como por ejemplo
los mapas de profundidad. Estos en un principio eran mapeados como metadatos, lo cual era
mucho más complejo de manipular e interpretar que las actuales matrices de profundidad.
También se produjeron otros cambios de gran interés para facilitar su aprendizaje y com54
prensión, como por ejemplo la reducción del numero de clases existentes. De este modo, se
pasó de tener más de cien clases complejas, estructuras de datos y enumeraciones a tener poco más de una docena. Como resultado se obtuvo una librería que se centraba principalmente
en tan sólo cuatro clases:
openni::OpenNI.
openni::Device.
openni::VideoStream.
openni::VideoFrameRef.
Finalmente, el último cambio significativo que se produjo fue el de implementar un proceso más eficiente para la notificación de eventos. Hasta aquel momento, los datos capturados
por los sensores eran accedidos colocando un bucle alrededor de la función que los proporcionaba. Por el contrario, aunque aún sigue siendo posible realizarlo de la anterior manera,
en O PEN NI 2 se ofrecen funciones especiales que reciben un evento cuando un nuevo frame,
por ejemplo, es capturado.
4.1.8.2.3. Ventajas y desventajas
A continuación se describen los pros y los contras de emplear la segunda versión del SDK
de O PEN NI.
Ventajas
Soporta las últimas generaciones de sensores 3D.
Fácil para el desarrollo con una API clara y en continua mejora.
Amplia portabilidad y soporte multiplataforma, ya que se encuentra disponible para
Windows, Linux y OS X.
Código “open source”, distribuído bajo una licencia “GNU Lesser General Public License (LGPL)”.
Documentación muy extensa y detallada.
Permite programación orientada a eventos.
Existe una gran variedad de librerías middleware de terceros: Seguimiento del cuerpo,
reconstrucción en tres dimensiones, reconocimiento de objetos, etc.
Compatible con otro de los principales SDKs para Kinect, como es el SDK desarrollado
por Microsoft.
55
Desventajas
El núcleo de la plataforma se encuentra muy fragmentado, ya que la segunda versión
del SDK O PEN NI fue separada del middleware NITE. Por este motivo, ahora es necesario emplear dos SDK diferentes para llevar a cabo muchas de las tareas básicas.
Pocos lenguajes de programación soportados. Este dato resulta muy curioso ya que
la primera versión del SDK O PEN NI ofrecía soporte a C/C++, .NET/C# y Java. No
obstante, con la reescritura del núcleo de O PEN NI en su geunda versión de SDK, tan
sólo es posible emplear C/C++.
Es incompatible con el SDK de OpenKinect.
4.1.8.3.
OpenKinect
Como ya se menciono anteriormente (véase § 4.1.2.3), OpenKinect es una comunidad
abierta de personas interesada en obtener el máximo provecho del hardware de Kinect mediante ordenadores y otros tipos de dispositivos, siempre bajo una licencia Apache 2.0 o
GPL2. Esta comunidad, que surge el 6 de Noviembre de 2010 como un grupo de personas
interesadas en ganar el concurso propuesto por Johnny Chung Lee y AdaFruit cuyo objetivo
era desarrollar un controlador para el dispositivo e implementar una aplicación que convirtiera los flujos de datos del sensor de vídeo y visión de profundidad de Kinect, cuenta ya
con más de dos mil miembros que contribuyen día a día ofreciendo su tiempo y esfuerzo.
Es importante destacar que su esfuerzo y dedicación fue una pieza clave para la aparición de
otras plataformas de desarrollo para Kinect como son el SDK de Windows (véase § 4.1.8.1)
y O PEN NI (véase § 4.1.8.2).
4.1.8.3.1. Descripción del framework
Su principal y más popular librería es “libfreenect”. Esta librería incluye todo el código
necesario para activar, inicializar y comunicar datos con el hardware de Kinect. Se trata de
una librería de muy bajo nivel que incluye los drivers necesarios para trabajar con sistemas
operativos basados en Windows, Linux y OS X. El API que proporciona ofrece soporte y
extensiones para los siguientes lenguajes/plataformas:
C.
C++.
.NET (C# y Visual Basic).
Java (Java Native Access (JNA) y Java Native Interface (JNI)).
Python.
C Synchronous Interface.
56
Además, la librería se comunica con el API de OpenKinect y analiza los datos en crudo que
son obtenidos por el dispositivo para proporcionar a los desarrolladores un mayor nivel de
abstracción. Aunque la librería se encuentra en continua evolución, aún se sigue trabajando
para conseguir o mejorar las siguientes funcionalidades:
Seguimiento de la posición de las manos.
Seguimiento del esqueleto humano.
Procesamiento de datos de profundidad especializados.
Cancelación de ruido en el audio.
Generación de nubes de puntos.
Reconstrucción en tres dimensiones.
La actual librería cuenta a día de hoy con una gran variedad de wrappers para facilitar
la tarea del desarrollador, como son: Python, C Synchronous, C++, C#, Java JNI, Java JNA,
Javascript, Common Lisp y GFreenect (GLib).
Por último, tan sólo destacar que la librería cuenta con dos herramientas bastante interesantes. La primera de ellas es “Record”, la cual permite realizar un volcado de los datos
obtenidos a través de los sensores de Kinect en diferentes formatos como PPM o PGM. Y
la segunda, “Fakenect”, que consiste en un simulador que permite realizar pruebas de las
aplicaciones sin necesidad de tener una Kinect.
4.1.8.3.2. Ventajas y desventajas
A continuación se describen los pros y los contras de emplear la librería libfreenect desarrollada por la comunidad OpenKinect.
Ventajas
Soporta una gran cantidad de wrappers y lenguajes de programación.
Código “open source”, distribuído bajo una licencia Apache 2.0 o GPL2.
Amplia portabilidad y soporte multiplataforma, ya que se encuentra disponible para
Windows, Linux y OS X.
Desventajas
Librería de muy bajo nivel.
Pocas funcionalidades implementadas.
57
No tiene soporte.
Muy poca documentación.
No es compatible con otras plataformas como el SDK de Kinect y O PEN NI.
Sólo es compatible con el sensor Kinect desarrollado por Microsoft. Por lo tanto, el
desarrollador queda atado a que su código sólo pueda ser empleado por este dispositivo.
4.2 Visión por computador
El campo de visión por computador es un área que puede ser considerada relativamente
novedosa y que actualmente se encuentra en constante expansión [TV98]. No obstante, este
campo retrasó su despliegue hasta hace tan sólo unos cuarenta años debido a las grandes
dificultades que se encontraban al procesar las grandes cantidades de información que proporcionaban las imágenes. Es importante destacar que esta rama de la tecnología abarca un
amplio espectro de problemas cuyas soluciones normalmente suelen encontrase relacionadas
con otras disciplinas como pueden ser el procesamiento de imágenes, la inteligencia artificial, visión robótica, etc. Quizá, este sea el motivo por el cuál no hay definido un estándar
que marque los límites entre visión por computador y otras muchas disciplinas. Además,
también es posible establecer que hasta el momento no existe una formulación estándar de
cómo la visión por computador debería resolver los diversos problemas que se plantean.
Muchos de las soluciones que se plantean a problemas concretos y bien definidos aún se
encuentran en fase de investigación. No obstante, cada vez existen más métodos que pueden
presentar posibles usos comerciales, contribuyendo por lo tanto a popularizar la visión por
computador y su muchas aplicaciones.
A continuación se comentan algunos de los usos ya explotados de la visión por computador
en los diferentes campos en los que ya se encuentran disponibles aplicaciones que empleen
esta disciplina:
Medicina: En la actualidad hay una gran multitud de aplicaciones médicas que hacen
uso de la visión por computador, convirtiéndose en herramientas imprescindibles para
diferentes tareas. Una de las más destacadas es la diagnosis de enfermedades ya que
mediante el uso de estas herramientas es posible destacar aquellas zonas que resultan
de vital importancia en las imágenes que son proporcionadas por sensores y escáneres
de diversos tipos como por ejemplo las ecografías.
Educación: Se han desarrollado una gran multitud de aplicaciones en este campo con
el objetivo de hacer de la enseñanza una tarea más atractiva, dinámica y eficiente. Se
podrían mencionar una gran cantidad de ejemplos, pero uno de los más interesantes
y que cada vez más gente tiene la oportunidad de utilizar son los libros de realidad
aumentada donde es posible interactuar con modelos en tres dimensiones.
58
Entretenimiento: Como ya se viene mencionando en las secciones anteriores, una de
las aplicaciones más populares y extendidas que hacen uso de la visión por computador con el objetivo de proporcionar entretenimiento son los videojuegos. No obstante, existen muchas otras aplicaciones que van más allá de los juegos como podría ser el
uso de reconocimiento de edificios emblemáticos permitiendo de esta manera obtener
información interesante desde un punto de vista turístico.
Robótica: Uno de los campos que se encuentra más estrechamente relacionado con la
disciplina de visión por computador es la robótica. Ejemplo de ello pueden ser los robots autónomos que requieren de la reconstrucción de escenas y el rastreo de caminos.
Accesibilidad: Quizás sea uno de los campos más “pioneros” donde la aplicación
de técnicas de visión por computador pueden resultar de gran ayuda. Para ello, cada
día son desarrolladas más y más aplicaciones que tienen como principal objetivo el
proporcionar una ayuda extra a aquellas personas que sufren alguna discapacidad. Un
ejemplo muy ilustrativo de ello podría ser que las personas que padecen problemas de
visión sean capaces de esquivar eficientemente obstáculos mediante señales acústicas
proporcionadas por un sistema basado en visión por computador.
En las siguientes subsecciones se pretende ofrecer una breve recapitulación del trabajo que
ha sido realizado para resolver el problema del reconocimiento de acciones humanas desde
la perspectiva de la visión por computador. También se presentan algunas técnicas para el
reconocimiento de acciones basado en vídeo.
4.2.1
Perspectiva de visión por computador
Desde la perspectiva de la visión por computador se han ideado diferentes enfoques que
tratan de hacer frente al problema del reconocimiento de acciones humanas. Un ejemplo de
ello es el trabajo desarrollado por Roberto Vezzani, Davide Baltieri, y Rita Cucchiara en la
Universidad de Modena y Reggio Emilia, Italia. Para resolver este paradigma, proponen un
modelo para reconocimiento de acciones basado en Hidden Markov Models (HMM) con un
histograma de proyección de características [VBC10]. Según su trabajo, la función de probabilidad de emisión se modela como una mezcla de Modelos de Mezclas Gaussianas (GMM),
el cual es uno de los métodos de clustering más empleados y el conjunto de características
obtenido de los histogramas de proyección. Estos histogramas contienen el número de píxeles en movimiento para cada fila y columna del frame capturado, proporcionando de esta
manera información suficiente para inferir la postura tomada en ese momento por la persona. Entonces, el framework HMM recupera la evolución temporal de las posturas reconocidas
englobándolas como una acción global.
Francisco Martínez-Contreras, Carlos Orrite-Uruñuela, José Elías Herrero Jaraba, Hossein Ragheb y Sergio A. Velastin proponen en la sexta conferencia Institute of Electrical and
Electronics Engineers (IEEE) sobre Advanced Video and Signal Based Surveillance (AVSS)
59
un sistema de reconocimiento de acciones humanas [MCOUHJ+ 09]. En su trabajo tratan de
abordar el problema de la modelización y reconocimiento de la acción humana basándose en
la silueta, especialmente cuando el numero de muestras de acciones son escasas. El primer
paso del sistema que proponen es el modelado en dos dimensiones de las acciones humanas basándose en plantillas de movimiento a través de Motion History Images (MHI). Estas
plantillas se proyectan en un nuevo subespacio usando el Kohonen Self Organizing feature
Map (SOM), el cual se encarga de agrupar las perceptivas (espacial) y los movimientos (temporal) en un colector principal y de modelar el espacio dimensional en plantillas estáticas. El
siguiente paso está basado en HMM con el fin de realizar el seguimiento del comportamiento en secuencias temporales de MHI. Cada nuevo modelo MHI se compara con el mapa de
características obtenido durante el entrenamiento. En el caso de que el número de muestras
no sea suficiente, se aplica el algoritmo Sampling Importance Resampling (SIR) para incrementar el número de observaciones para el HMM. Finalmente, el patrón de reconocimiento
temporal es llevado a cabo por un clasificador Maximum Likelihood (ML).
Otro ejemplo es el aprendizaje de acciones humanas a partir de películas propuesto por
Ivan Laptev, Marcin Marszalek, Cordelia Schmid y Benjamin Rozenfeld [LMSR08]. El objetivo de su trabajo es abordar el reconocimiento de acciones naturales en diversos entornos
realistas. Ellos contribuyen a solucionar el problema de la falta de conjuntos realistas de
datos de vídeo investigando cómo podrían ser usados los guiones de cine para la anotación
automática de acciones humanas. Para ello, evalúan métodos alternativos para la recuperación de acciones y mostrar los beneficios de un clasificador basado en texto presentando de
esta manera un nuevo método para la clasificación de la acciones obtenidas en los vídeos.
Este nuevo método aprovecha y amplía varias ideas recientes incluyendo características locales espacio-temporales, pirámides espacio-tiempo y Support Vector Machines (SVM) no
lineales.
4.2.2
Algoritmos de reconocimiento de acciones basados en vídeo
Los algoritmos de reconocimiento de acciones basados en vídeo se basan, principalmente,
en el aprendizaje a partir de ejemplos y técnicas basadas en máquinas de aprendizaje como por ejemplo HMM, reducción dimensional o Bag of Words (B OW). A continuación se
exponen algunos de los estudios más destacados.
Mohiuddin Ahmad y Seong-Whan Lee en [AL08] presentan un método para el reconocimiento de acciones humanas para secuencias simultaneas de imágenes utilizando una
combinación de flujos de movimiento y formas. Con este enfoque, las acciones humanas
son representadas como un conjunto multidimensional de flujos ópticos Combined LocalGlobal (CLG) y vectores de características de los límites espacio-temporales de la acción.
De esta forma, las acciones son modeladas usando un conjunto de HMM multidimensionales
para múltiples puntos de vista mediante las características combinadas. Un de los resulta60
dos más interesantes que se obtienen de su investigación es que fue posible demostrar que
el reconocimiento de acciones desde múltiples puntos de vista tuvo una tasa de acierto más
elevada que con un único punto de vista.
Otro estudio interesante es el realizado por Liang Wang y David Suter que versa sobre el
aprendizaje visual y el reconocimiento de los colectores de datos secuenciales con aplicaciones para el análisis de movimiento humano [WS08]. En su estudio se distinguen tres etapas
bien diferenciadas para el reconocimiento de acciones humanas:
Extraer características simples y fiables de las secuencias de imágenes. Para esta
etapa son examinadas dos alternativas: La silueta y la silueta transformada a distancia.
Encontrar una representación con una baja dimensionalidad de las características extraídas. Esta etapa es el núcleo del proceso, en el cual es empleado Locality
Preserving Projections (LPP), que consiste en una aproximación lineal óptima de una
técnica espectral no lineal.
Caracterizar y clasificar los movimientos en este espacio de características. Tres
métodos muy diferentes son usados para esta etapa: 1) Clasificación basada en GMM;
2) un enfoque basado en la distancia media de Hausdorff y 3) modelado y reconocimiento basado en HMM.
En esencia, el objetivo de este estudio es demostrar que mediante el núcleo propuesto en
la segunda etapa, junto con los diferentes enfoques de las etapas 1 y 3, es posible resolver
los problemas a través de varios tipos de la actividad humana.
Chin-Hsien Fang, Ju-Chin Chen, Chien-Chung Tseng, Jenn-Jier James Lien proponen en
[FCTL10] el framework Temporal-Vector Trajectory Learning (TVTL) para el reconocimiento de acciones humanas. El concepto más importante de este framework es que intentan
añadir información temporal en el proceso de reconocimiento de acciones. Para ello, distinguen tres tipos de información temporal: Locations’ Temporal motion of Mahalanobis
distance (LTM), Difference’ Temporal motion of Mahalanobis distance (DTM) y Trajectory
Temporal motion of Mahalanobis distance (TTM). Con estos tres tipos de información temporal, el clasificador k-NN basado en la distancia Mahanalobis es capaz de obtener mejores
resultados que si se utiliza tan sólo la información espacial. Los resultados que obtuvieron
de su estudio sugieren que este metodología es capaz de reconocer con bastante precisión las
acciones, especialmente con los parámetros TTM y DTM los cuales obtienen elevadas tasas
de precisión incluso en entornos que ofrecen información con un ruido elevado.
En [LMN10], Michal Lewandowski, Dimitrios Makris, y Jean-Christophe Nebel introducen un nuevo enfoque para aprender de una forma compacta e intuitiva descriptores de
los movimientos del cuerpo humano para el reconocimiento de actividades. Según su estudio, cada descriptor de acción se produce, primero, mediante la aplicación de “Temporal
Laplacian Eigenmaps” a los vídeos de vistas dependientes. Después, todos los colectores
61
dependientes de la vista son automáticamente combinados para descubrir una representación
unificada que es modelada como un único espacio de tridimensional independiente del estilo y punto de vista. También incorporan una función de mapeo no lineal bidireccional que
permite la proyección de acciones entre los espacios originales y embebidos. Los resultados
experimentales obtenidos de este estudio demuestran que la robustez en contraposición del
estilo y de las variaciones de los puntos de vista proporcionan un método más preciso de
reconocimiento de acciones.
No obstante, ninguno de los enfoques expuestos anteriormente incluyen capacidades de
razonamiento. De este modo, su eficiencia esta basada únicamente en el entrenamiento que
reciban y en el alcance de todas las acciones presentes en un escenario determinado. Desafortunadamente, todos estos experimentos de reconocimiento de acciones están dirigidos
con vídeos que no son representativos en la vida real, siendo demostrado por el pobre rendimiento obtenido con vídeos capturados en entornos no controlados [LMSR08].
En [KJG+ 11] exponen este problema, partiendo del hecho de que los dataset actuales
contienen en el orden de diez categorías de acciones distintas recogidas bajo un entorno
controlado. Para tratar de resolver este problema, han recogido en un gran dataset con vídeos
de acciones con 51 categorías de acciones. Este contiene alrededor de 7000 clips etiquetados
manualmente extraídos de una gran variedad de fuentes que van desde películas hasta vídeos
de YouTube. En el Cuadro 4.2 se puede observar una tabla comparativa extraída de dicho
estudio. Por último, emplearon este dataset para evaluar el rendimiento de dos sistemas de
visión por computador para el reconocimiento de acciones y así explorar la robustez de estos
métodos bajo varias condiciones, como por ejemplo movimiento de la cámara, punto de
vista, calidad del vídeo y oclusión.
Dataset
Año
Acciones
Clips
KTH
Weizmann
IXMAS
Hollywood
UCF Sports
Hollywood2
UCF YouTube
Olympic
UCF50
HMDB51
2004
2005
2006
2008
2009
2009
2009
2010
2010
2011
6
9
11
8
9
12
11
16
50
51
100
9
33
30-129
14-35
61-278
100
50
min. 100
min. 110
Cuadro 4.2: Conjuntos de datos existentes, el número de categorías y el número de clips por
categoría ordenados por año
Esta teoría fue reforzada por Jean-Christophe Nebel, Michał Lewandowski, Jérôme Thévenon, Francisco Martínez, y Sergio Velastin en [NLT+ 11]. En dicho estudio concluyeron
62
que actualmente no existen técnicas basadas únicamente en visión por computador y máquinas de aprendizaje que sean realmente eficientes para vídeo en tiempo real en aplicaciones
de vigilancia. Para llegar a esta conclusión, evaluaron dos de los escenarios más desafiantes
para un sistema de reconocimiento de acciones: Las vistas independientes y las interacciones
humanas. De este modo, los frameworks más prometedores, como por ejemplo los métodos
de “reducción de dimensionalidad“, “Random Forest“ y B OW, son descritos y evaluados en
su estudio empleando conocidos datasets como IXMAS y UT-Interaction.
63
Capítulo 5
Método de trabajo
E
este capítulo se explicará al lector la metodología de desarrollo empleada para la
realización de este proyecto. Se mostrarán también las herramientas, tanto hardware
como software, utilizadas en la realización del mismo.
N
5.1 Metodología de trabajo
Para el desarrollo del presente proyecto se considera que la metodología de trabajo más
adecuada y que mejor se adapta a la naturaleza y a las necesidades del mismo es una metodología de desarrollo ágil [Mar03]. Esto se debe principalmente a que uno de los objetivos
más importantes es el de minimizar los riesgos que pueden conllevar los plazos de entrega
del mismo y el no disponer a priori de una especificación totalmente acotada del sistema,
sobre todo al comienzo del planteamiento del mismo.
Para conseguir este objetivo, se pretende realizar pequeños desarrollos de software en
lapsos cortos de tiempo, también conocidos como iteraciones, dónde lo ideal sería que cada
uno durase entre una y cuatro semanas. Cada una de estas iteraciones del ciclo de vida del
proyecto deberá disponer de las etapas típicas en desarrollo de software:
Planificación.
Análisis de requisitos: Entender y comprender de forma detallada cual es la problemática a resolver, verificando el entorno en el cual se encuentra dicho problema, de tal
manera que se obtenga la información necesaria y suficiente para afrontar su respectiva
solución.
Diseño: Una vez que se tiene la suficiente información del problema a solucionar, es
importante determinar la estrategia que se va a utilizar para resolver el problema.
Codificación: Partiendo del análisis y diseño de la solución, en esta etapa se procede
a desarrollar el correspondiente sistema que solucione el problema mediante el uso de
una herramienta computacional determinada.
Revisión: Realizar las debidas pruebas que garanticen el correcto funcionamiento de
dicho sistema bajo el mayor número de situaciones posibles a las que se pueda enfrentar.
65
Documentación: Comunicación escrita en sus diferentes formas, ya sea en enunciados, procedimientos, dibujos o diagramas que se hace sobre el desarrollo de un programa. Sirve para ayudar a comprender o usar un sistema o para facilitar futuras modificaciones.
De esta forma, la metodología ágil que más se aproxima a las necesidades del proyecto
es Scrum [SB01]. Este enfoque resulta muy atractivo para el desarrollo del proyecto ya que
Scrum fomenta la comunicación entre los miembros del proyecto (en este caso, el alumno
y los directores del proyecto), evitando de esta manera posibles desvíos durante el desarrollo. Además, Scrum adopta una aproximación pragmática, aceptando de esta manera que
el problema no puede ser completamente entendido o definido desde el principio y que la
idea inicial sobre el sistema puede ir cambiando o evolucionando, por lo que pueden surgir
desafíos impredecibles que pueden no ser fácilmente enfrentados de una forma predictiva y
planificada, permitiendo además responder a requisitos emergentes. Como se puede apreciar,
en un proyecto dónde gran parte del trabajo reside en la investigación y en la búsqueda de
soluciones a problemas aún en fases muy tempranas de su madurez, se ha considerado que
esta aproximación resulta verdaderamente acertada e interesante.
Para facilitar la comprensión de la planificación que se ha llevado a cabo en el proyecto,
en el siguiente subapartado se describen los conceptos más importantes de Scrum así cómo
las fases en las que se compone, los roles y responsabilidades de las personas que participan
en el proceso y las prácticas seguidas. No obstante, si el lector ya se encuentra familiarizado
con el proceso de desarrollo Scrum se recomienda comenzar directamente por la lectura del
segundo subapartado (véase § 5.1.2) dónde se describe la planificación llevada a cabo a lo
largo del desarrollo del proyecto.
5.1.1
Acerca de Scrum
Scrum [ASRW02] es un proceso en el que se aplican de manera regular un conjunto de
buenas prácticas para trabajar colaborativamente y obtener el mejor resultado posible de un
proyecto. Estas prácticas se apoyan unas a otras y su selección tiene origen en un estudio de
la manera de trabajar de equipos altamente productivos.
En Scrum se realizan entregas parciales y regulares del producto final, priorizadas por el
beneficio que aportan. Por ello, Scrum está especialmente indicado para proyectos en entornos complejos, dónde se necesita obtener resultados pronto, los requisitos son cambiantes o
poco definidos o dónde la innovación, la competitividad, la flexibilidad y la productividad
son fundamentales. Scrum también está enfocado en dar soporte al desarrollo de sistemas
que conllevan diversas variables cómo pueden ser el tiempo, recursos y tecnología y que
pueden cambiar a lo largo del proceso. De esta manera, el proceso de desarrollo se convierte en una labor alarmantemente impredecible y compleja, requiriendo flexibilidad para ser
capaz de responder a los cambios que puedan ir apareciendo.
66
Además, el proceso Scrum permite mejorar la existencia de prácticas ingenieriles en la
organización [MDD10], ya que involucra diversas actividades de gestión orientadas a la
identificación de las potenciales deficiencias o impedimentos que aparecen en el desarrollo
del proceso, así como las prácticas empleadas.
5.1.1.1.
Fases de Scrum
La metodología de desarrollo Scrum esta compuesta de tres fases:
Pre-game: Esta primera fase está compuesta a su vez por dos subfases conocidas cómo
planificación y diseño de alto nivel del sistema. La primera subfase abarca el desarrollo
de la especificación del sistema que se pretende desarrollar así cómo la creación del
“Product Backlog list”. El Product Backlog list es una lista que contiene los requisitos
del proyecto, también conocidos como “historias de usuario” (creadas por el cliente
en su propio lenguaje). Además se asigna un orden de prioridad a cada requisito identificado del sistema permitiendo conocer cuáles deberían ser implementados primero
y una estimación aproximada del esfuerzo requerido para medir su nivel de dificultad. No obstante, esta lista cambia dinámicamente siendo actualizada continuamente
mediante la adicción de nuevos requisitos, limitaciones, herramientas, etc. La segunda
subfase, el diseño de alto nivel del sistema, consiste en el desarrollo de un primer diseño de alto nivel sobre el sistema a implementar incluyendo las decisiones de diseño
que deben ser aplicadas posteriormente.
Development: En esta fase, también conocida cómo fase de desarrollo, se lleva a cabo el proceso de decisión de que historias de usuario van componer cada una de las
iteraciones o “Sprints”. Las iteraciones son intervalos de tiempo con una duración
aproximada que oscila entre dos y cuatro semanas y que a su vez están compuestas por
fases más pequeñas: Análisis, diseño, implementación, pruebas y entrega. Esta fase es
iterativa e incremental dónde se van obteniendo las diferentes versiones y módulos del
sistema. Por último, es importante destacar que cada una de de las iteraciones llevadas
a cabo finalizan con una reunión dónde se analiza si los objetivos marcados al comienzo de la iteración han sido alcanzados y el nivel de satisfacción de los resultados
obtenidos.
Post-game: Fase final tras haber cumplido los requisitos de entrega pactados al comienzo del desarrollo. Abarca la preparación para el lanzamiento de la versión, incluyendo la documentación final y pruebas antes del lanzamiento de la versión.
En la Figura 5.1 se muestra un simple esquema a modo de resumen de cada una de las
actividades que se llevan a cabo en cada una de las fases descritas anteriormente con sus
correspondientes entradas y salidas.
67
Figura 5.1: Fases de Scrum [web14z].
5.1.1.2.
Roles y responsabilidades
Aunque en Scrum se pueden diferenciar hasta seis roles (Scrum Master, Product Owner,
Scrum Team, Customer, User y Management) con diferentes propósitos, el presente apartado
se centra en la descripción de los principales definiendo cuáles son las responsabilidades de
cada uno así como las tareas que deben despeñar:
Product Owner: Representa la voz del cliente. Se asegura de que el equipo Scrum
trabaje de forma adecuada desde la perspectiva del negocio. El Product Owner escribe
historias de usuario, las prioriza y las coloca en el Product Backlog.
Scrum Master: Desempeña el rol de administrador dentro del proceso Scrum. Es el
responsable de asegurar que el proyecto es realizado de acuerdo a las prácticas establecidas, además de que el proyecto evoluciona según lo previsto. También desempeña
el rol de líder del Scrum Team cuando se presenta algún obstáculo y de mantener el
equipo de modo que se ocupe de las tareas de la forma más productiva posible.
Scrum Team: Pequeño equipo con las habilidades transversales necesarias para realizar el trabajo (análisis, diseño, desarrollo, pruebas, documentación, etc.) y que tiene
la responsabilidad de entregar el producto. También poseen la autoridad para decidir
sobre las acciones y la organización necesaria para alcanzar los objetivos. Por último,
también destacar que están involucrados en la toma de decisiones en cuanto a estimación del esfuerzo.
68
No obstante, existen otros roles auxiliares en los “Scrum Team” que no tienen un rol formal y no se involucran frecuentemente en el proceso Scrum, sin embargo deben ser tomados
en cuenta. Un aspecto importante de una aproximación ágil es la práctica de involucrar en el
proceso a los usuarios, expertos del negocio y otros interesados (stakeholders). Es importante que esa gente participe y entregue retroalimentación con respecto a la salida del proceso a
fin de revisar y planear cada sprint. A continuación una breve descripción:
StakeHolders: Hacen posible el proyecto y para quiénes el proyecto producirá el beneficio acordado que justifica su producción. Sólo participan directamente durante las
revisiones del sprint.
Management: Establecen el ambiente para el desarrollo del producto.
5.1.1.3.
Prácticas y conceptos relevantes
Cómo ya se anticipaba en lo párrafos anteriores, uno de los principales objetivos del proceso Scrum es hacer frente a los cambios y problemas que puedan ir surgiendo a lo largo del
proyecto. Para conseguir este propósito se llevan a la práctica diferentes conceptos para aumentar la comunicación entre los miembros participantes en el proyecto, así como una clara
división de los roles que desempeñan cada uno. A continuación se exponen los conceptos
más relevantes.
Sprint/Iteración Período en el cual se lleva a cabo la mayor parte del trabajo. Aunque lo
recomendable es que la duración de los sprints sea constante y definida por el equipo
con base en su propia experiencia, es posible comenzar con una duración de sprint
en particular (entre 2 y 4 semanas) e ir ajustándolo con base en el ritmo del equipo.
Algunas de las actividades más importantes que se deben realizar son las reuniones
de planificación de sprints, reuniones diarias y sprint backlog. Al final de cada sprint,
el equipo deberá presentar los avances logrados. El resultado obtenido es un producto
potencialmente entregable al cliente. Asimismo, se recomienda no agregar objetivos
al sprint o sprint backlog a menos que la falta de estos objetivos amenace al éxito del
proyecto.
En la Figura 5.2 se presenta un pequeño esquema que muestra las diferentes entradas
y salidas que se dan lugar en una iteración completa de Scrum.
Product Backlog Documento de alto nivel para todo el proyecto que define las descripciones genéricas de todos los requisitos y las funcionalidades deseables que debe contener
el producto final basándose en el conocimiento actual que se tiene del mismo. De esta
forma, el Product Backlog está compuesto por una lista de requisitos ordenados por
la prioridad de los mismos y están acompañados de estimaciones realizadas a grandes
rasgos (valor aportado y esfuerzo de desarrollo requerido). Es abierto y sólo puede
ser modificado por el Product Owner, representando de esta forma la visión del clien69
Figura 5.2: Iteración de la metodología Scrum [web14z].
te respecto a los objetivos del proyecto. Por último, es importante mencionar que se
encuentra en continua evolución y suele ser modificado a lo largo de las iteraciones.
Estimación de esfuerzo Realizado por el Product Owner junto con el equipo de desarrollo
y consiste en un proceso interactivo dónde se pretende realizar una aproximación del
esfuerzo requerido para llevar a cabo cada uno de los elementos descritos en el Product
Backlog. Es importante mencionar que las estimaciones tendrán una mayor grado de
precisión cuanta mayor sea la cantidad de información que se tenga acerca del proceso a estimar. Aunque existen diversas técnicas para realizar este tipo de procesos de
estimación, uno de los más comunes es el juicio de expertos1 .
Sprint Backlog Documento detallado que constituye el punto de partida de cada sprint o
iteración. Está constituido por los elementos del Product Backlog que deben ser implementados en el presente Sprint y que han sido seleccionados por los miembros del
equipos de desarrollo y el Product Owner en la “Sprint Planning meeting”. Es importante destacar que las tareas identificadas son divididas en horas pero que ninguna
debe tener una duración superior a dieciséis horas. De este modo, si una tarea es mayor
de dieciséis horas, deberá ser dividida en otras menores.
Sprint Planning meeting Reunión organizada por el Scrum Master que es realizada al comienzo de cada Sprint. Esta compuesta por dos fases. En la primera el objetivo es
definir los objetivos y funcionalidades que deben ser desarrollos en el siguiente Sprint,
por lo que participan el cliente, Scrum Master, Scrum Team y administradores. Por el
contrario, en la segunda fase tan sólo toman parte el Scrum Master y el Scrum Team
con la finalidad de decidir el plan necesario para abordar las tareas planificadas para el
1
Técnica compuesta por un conjunto de opiniones que pueden brindar profesionales expertos en una industria o disciplina, relacionadas al proyecto que se está ejecutando.
70
siguiente Sprint.
Daily Scrum meeting Reuniones realizadas diariamente que permiten tener información de
seguimiento de primera mano. Deben ser cortas (no más de quince minutos) y son
dirigidas por el Scrum Master. A parte de discutir acerca de los problemas que han
aparecido, se debe responder a tres preguntas: ¿Qué has hecho desde ayer?, ¿Qué es
lo que harás hasta la reunión de mañana? y ¿Has tenido algún problema que te haya
impedido alcanzar tu objetivo?.
Sprint Review meeting Reunión realizada el último día del sprint en la que el Scrum Master
y el Scrum Team presentan los resultados (prototipo) obtenidos al final del Sprint a
los interesados (cliente, usuario, administradores, etc.). Además, tras esta reunión se
debe haber tratado sobre el trabajo que fue completado y no completado. Importante
mencionar que no debe durar más de cuatro horas.
5.1.2
Descripción de la planificación
En primer lugar, y antes de proceder a al desarrollo de las diferentes fases que se definen en
Scrum, es importante mencionar como se han repartido los roles y responsabilidades durante
el desarrollo del proyecto:
Product Owner: Este rol será desempeñado principalmente por los directores del proyecto, quienes irán guiando de forma orientativa cuáles son los objetivos a conseguir
con el proyecto, requisitos (historias de usuario), etc. No obstante, este rol también
puede estar desempeñado por el alumno ya que será la última persona en decidir la
dirección que va adoptando el proyecto.
Scrum Master: Este rol será desempeñado únicamente por los directores del proyecto. Esto tiene sentido ya que, además de realizar las funciones típicas de un usuario
estableciendo los requisitos, también van marcando las pautas necesarias para una correcta evolución del proyecto, resolución de problemas encontrados, desempeño de rol
de líder, etc.
Scrum Team: Mientras que en la definición original de Scrum el equipo está compuesto de varios integrantes, en el presente proyecto este rol es desempeñado únicamente
por el alumno.
Respecto a los sprints es importante mencionar que el producto obtenido al final de cada iteración no tiene porque ser estrictamente un módulo del sistema a desarrollar, sino que
también debe considerarse cómo producto el conocimiento generado y los conceptos adquiridos, necesarios para la correcto desarrollo del proyecto y la implementación de los diferentes
módulos.
Por último, tan sólo destacar que los diferentes tipos de reuniones que presenta Scrum, así
cómo su frecuencia y duración se han tratado de cumplir lo máximo posible. No obstante, al
71
tratarse un proyecto elaborado a lo largo de un curso académico ha sido necesario compaginarlo con más actividades docentes. De este modo, al igual que ocurre con la duración de
los sprints, ha sido necesario adaptarlo a los intervalos de tiempo asignados a esta actividad
docente así como a la disponibilidad de los directores.
5.1.2.1.
Fase 1: Pre-game
El principal objetivo de esta fase es la elaboración del Product Backlog. Para ello, se han
definido los requisitos o historias de usuario que debe reunir el proyecto a un nivel de abstracción considerablemente elevado. La motivación de esto se debe a que al proyecto contiene
diversas tareas de investigación y, por tanto, no se conocen a priori todos los aspectos que
pueden surgir durante su desarrollo, las técnicas que se van a emplear ni resultados que se van
obtener. Estos requisitos quedan definidos en el capítulo de Objetivos (véase § 2). No obstante, a continuación se muestra un listado de ellos junto con la correspondiente estimación
del esfuerzo requerido:
Evaluación de mercado: Primer objetivo ya que en función de los resultados obtenidos se determinará que dispositivo se empleará para realizar el proceso de capturas
de imágenes. El esfuerzo requerido para cumplimentar este requisito es principalmente de labores de documentación y, por lo tanto, el tiempo estimado estará sujeto a la
cantidad de información disponible.
Análisis de librerías disponibles: El esfuerzo requerido para cumplimentar este requisito es principalmente de labores de documentación y, por lo tanto, el tiempo estimado estará sujeto a la cantidad de información disponible, dificultad de las diferentes
librerías, etc.).
Identificación y análisis de los datos recogidos por el dispositivo: El esfuerzo requerido para cumplimentar este requisito supone la adquisición de habilidades técnicas
y conceptos de diferentes ámbitos (procesamiento de imágenes, concurrencia de procesos, conceptos hardware del dispositivo elegido, etc.)
Identificación y análisis del conjunto de acciones a reconocer: El esfuerzo requerido para cumplimentar este requisito supone labores de documentación y pruebas
mediante el módulo de captura de imágenes que haya sido desarrollado.
Adaptación del modelo Bag of Words: El esfuerzo requerido para cumplimentar este requisito supone labores de documentación para comprender el funcionamiento de
dicho modelo. También será necesario investigar y analizar las diferentes herramientas
necesarias para su funcionamiento, así como estudiar la forma de abordar la integración de la solución proporcionada.
Desarrollo de un clasificador (SVM): El esfuerzo requerido para cumplimentar este
requisito supone la documentación sobre el funcionamiento sobre este tipo de elemen72
tos software, además de la adquisición de las habilidades técnicas necesarias para su
implementación.
Organización del conjunto de sujetos del experimento: El esfuerzo requerido para
cumplimentar este requisito supone la programación, coordinación y convocatoria de
los sujetos que participarán en el experimento. También incluye labores de documentación necesarias para la elaboración de los escritos pertinentes sobre la protección de
datos personales, preparación del entorno, etc.
Integración de los diferentes módulos: El esfuerzo requerido para cumplimentar este
requisito supone la realización de pruebas para comprobar el correcto funcionamiento
del sistema desarrollado.
Desarrollo de una interfaz gráfica: El esfuerzo requerido para cumplimentar este
requisito supone la documentación de las plataformas existentes para este cometido,
estudio de su adecuación y la adquisición de las habilidades técnicas para su utilización, además de abordar la integración de los diferentes módulos desarrollados a lo
largo del proyecto así como la realización de las pruebas pertinentes para la comprobación del correcto funcionamiento del sistema desarrollado.
5.1.2.2.
Fase 2: Development
Para la realización de la segunda fase del proyecto, se ha seguido una aproximación basada en lo descrito anteriormente en la sección de “Acerca de Scrum” (véase § 5.1.1). De
esta forma, se ha dividido esta fase en seis iteraciones bien diferenciadas pero fuertemente
dependientes entre ellas. A continuación se describe cada una junto con su correspondiente
Sprint Backlog.
5.1.2.2.1. Iteración 0
Esta primera iteración tiene como objetivo general recoger y analizar la documentación
necesaria para comenzar con el proyecto. De esta forma, el Sprint Backlog de esta iteración
comprende los siguientes elementos de alto nivel del Product Backlog: “Evaluación de mercado” y “Análisis de librerías disponibles”. A continuación se presenta el Sprint Backlog
desglosado en tareas de bajo nivel:
Recoger la documentación relativa sobre la historia y evolución de Kinect.
Recoger la documentación relativa sobre el desarrollo de aplicaciones alternativas en
diferentes campos: Ocio, medicina, educación, accesibilidad, etc.
Recoger y analizar detalladamente las características técnicas de las diferentes versiones de Kinect (Kinect para Xbox360, Kinect para Windows y nueva generación de
Kinect).
Realizar un estudio sobre las ventajas que ofrece Kinect frente a otros dispositivos.
73
Recoger y analizar la documentación relativa sobre el funcionamiento interno de Kinect y realizar un pequeño estudio.
Realizar un estudio de mercado de las librerías disponibles. Esta tarea incluye el análisis de las diferentes posibilidades, su evolución en los últimos años y principales
ventajas y desventajas frente a otras posibilidades.
Recoger la documentación relativa sobre el estado del arte de visión por computador.
Realizar un breve estudio sobre los algoritmos existentes para el reconocimiento de
acciones basados en vídeo.
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la
documentación generada en la presente iteración quedan recogidos en el capítulo de “Antecedentes” (véase § 4).
5.1.2.2.2. Iteración 1
Para llevar a cabo la tarea “Identificación y análisis de los datos recogidos por el dispositivo” del Product Backlog ha sido necesario segmentar el trabajo en tres iteraciones (Iteración
1, Iteración 2 e Iteración 3). Esto se debe principalmente a dos motivos. El primero de ellos
debido a la gran cantidad de trabajo que abarca esta tarea general y, en segundo lugar, debido
a la gran cantidad de nuevos conceptos que implica la realización de la tarea. Para afrontar
este reto se ha decido comenzar afianzando los conceptos más generales en la primera iteración, para continuar en las siguientes iteraciones con conceptos más específicos según la
problemática que se esté tratando.
El objetivo general de esta iteración es realizar la primera toma de contacto con Kinect,
permitiendo así familiarizarse con los aspectos más relevantes sobre el dipositivo. De este
modo, el Sprint Backlog de la Iteración 1 queda desglosado en las siguientes tareas:
Instalación y configuración de los drivers de Kinect, de la plataforma O PEN NI y del
middleware NiTE.
Instalación y configuración de la herramienta “Processing” y de la librería “SimpleOpenNI”.
Comprender y afianzar los conceptos de reflexión, oclusión y desalineamiento entre
cámaras.
Comprender y afianzar los conceptos relacionados con los píxeles RGB y de profundidad.
Comprender el funcionamiento necesario para la conversión a distancias reales.
Comprender y afianzar los conceptos relacionados con las nubes de puntos.
Entender el funcionamiento de los conceptos adquiridos mediante pequeños ejemplos
en Processing (Dibujando con Kinect, Álbum de fotos y Batería virtual).
74
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la
documentación generada en la presente iteración quedan recogidos en la sección “Primeros
pasos con Kinect” (véase § 6.1).
5.1.2.2.3. Iteración 2
En esta iteración se continua con la tarea “Identificación y análisis de los datos recogidos
por el dispositivo” del Product Backlog. De esta forma, los principales objetivos de esta iteración son comprender los conceptos más importantes acerca del funcionamiento de O PEN NI,
de la librería GLUT y obtener una primera versión “entregable” del módulo de captura de
imágenes. A continuación se presenta el Sprint Backlog de la Iteración 2 desglosado en las
siguientes tareas:
Comprender y afianzar los conceptos más importantes acerca del funcionamiento de
la plataforma O PEN NI.
Comprender y afianzar los conceptos más importantes acerca del funcionamiento de
la librería GLUT.
Realizar la implementación de la primera versión del módulo de captura de imágenes.
Esta primera versión debe permitir realizar las siguientes acciones:
• Captura del flujo de datos de la cámara RGB.
• Captura del flujo de datos del sensor de profundidad.
• Visualizar los flujos de datos a través de una interfaz de usuario que implemente
los comandos básicos para su control.
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la
documentación generada en la presente iteración quedan recogidos en la sección “Comprendiendo el funcionamiento de OpenNI” (véase § 6.2).
5.1.2.2.4. Iteración 3
En esta iteración además de continuar y finalizar la tarea “Identificación y análisis de los
datos recogidos por el dispositivo”, se lleva a cabo la tarea “Identificación y análisis del
conjunto de acciones a reconocer” del Product Backlog. De este modo, el principal objetivo
de esta iteración es obtener una versión definitiva del módulo de captura de imágenes. A
continuación se presenta el Sprint Backlog de la presente iteración desglosado en tareas de
bajo nivel:
Comprender y afianzar los conceptos más importantes acerca del funcionamiento del
middleware NiTE: Seguimiento de de manos y del cuerpo y detección de gestos.
Análisis e interpretación de la información proporcionada por el middleware.
75
Integrar las funcionalidades proporcionadas por el middleware NiTE en el módulo
de captura de imágenes. Para ello ha sido necesario realizar tres nuevas versiones de
forma iterativa e incremental de la primera versión existente que fue desarrollada en
la iteración anterior. En cada una de las diferentes versiones se introducen nuevas
funcionalidades así como mejoras en el rendimiento y consumo de memoria. Para
llevar a cabo esta tarea se han definido las siguientes subtareas:
• Comprender y afianzar el concepto de “background substraction”.
• Recoger la documentación relativa sobre el formato de imágenes PPM.
• Recoger la documentación relativa y obtener las habilidades técnicas para el manejo de hilos de la librería POSIX.
• Identificar, analizar y diseñar los diferentes tipos de hilos ha implementar para
mejorar el rendimiento del módulo de captura de imágenes.
• Análisis y estudio del impacto producido por el excesivo consumo de memoria y
las soluciones existentes para su resolución.
• Recoger la documentación relativa sobre el formato de imágenes JPEG.
• Recoger la documentación relativa y obtener las habilidades técnicas para el manejo de la librería OpenCV para la comprensión de imágenes en formato JPEG.
• Realizar un estudio de mercado de las librerías XML disponibles. Esta tarea incluye el análisis de las diferentes posibilidades.
• Recoger la documentación relativa y obtener las habilidades técnicas para el manejo de la librería XML elegida.
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la documentación generada en la presente iteración quedan recogidos en la sección “Incorporación
de NiTE” (véase § 6.3).
5.1.2.2.5. Iteración 4
Esta iteración tiene como objetivo general la adaptación del sistema de reconocimiento
facilitado al módulo de reconocimiento de acciones del proyecto. De esta forma, el Sprint
Backlog de esta iteración comprende los siguientes elementos de alto nivel del Product Backlog: “Adaptación del modelo Bag of Words” y “Desarrollo de un clasificador (SVM)”. A
continuación se presenta el Sprint Backlog desglosado en tareas de bajo nivel:
Recoger la documentación pertinente, analizar y comprender de forma exhaustiva el
modelo de Bag of Words (B OW) y todos los conceptos relacionados.
Adaptación de la solución propuesta. Para llevar a cabo esta tarea han sido necesarias
las siguientes subtareas:
• Recoger la documentación relativa y obtener las habilidades técnicas para el manejo de las herramientas ffmpeg, stipdept, Ann y bsvm.
76
• Recoger la documentación relativa y obtener las habilidades técnicas para el manejo del lenguaje de programación PERL.
• Documentar y analizar el dataset público de acciones IXMAS.
• Recoger y analizar la documentación relativa sobre las principales técnicas de
extracción de características en vídeos.
• Recoger y analizar la documentación relativa sobre las principales técnicas de
clustering.
• Recoger y analizar la documentación relativa sobre las principales técnicas de
clasificación, especialmente SVM.
• Realizar un estudio de mercado de las librerías SVM disponibles. Esta tarea incluye el análisis de las diferentes posibilidades.
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la
documentación generada en la presente iteración quedan recogidos en la sección “Módulo
de reconocimiento de acciones” (véase § 6.4).
5.1.2.2.6. Iteración 5
Esta iteración tiene como objetivo general el desarrollo de una interfaz de gráfica que
facilite la utilización de los módulos desarrollados en las iteraciones anteriores mediante
un panel de control que permita manipular todas las opciones implementadas de una forma
sencilla e intuitiva. Además, también debe facilitar que el usuario pueda emplear todas las
herramientas sin necesidad de emplear aplicaciones externas, centralizando en una única
aplicación todos los módulos desarrollados. Por tanto, el Sprint Backlog de esta iteración
comprende los siguientes elementos de alto nivel del Product Backlog: “Desarrollo de una
interfaz gráfica” e “Integración de los diferentes módulos”. A continuación se presenta el
Sprint Backlog desglosado en tareas de bajo nivel:
Realizar un estudio de mercado de las librerías disponibles para el desarrollo de interfaces gráficas. Esta tarea incluye el análisis de las diferentes posibilidades.
Recoger la documentación relativa y obtener las habilidades técnicas para el manejo
de la herramienta seleccionada.
Diseño e implementación de una interfaz gráfica adecuada para realizar la captura de
vídeo mediante la integración del módulo de captura de vídeo.
Diseño e implementación de una interfaz gráfica adecuada para realizar el etiquetado
de vídeos.
Diseño e implementación de una interfaz gráfica adecuada para realizar el proceso de
clasificación mediante la integración del módulo de de reconocimiento.
77
Diseño e implementación de una interfaz gráfica adecuada que permita de forma sencilla e intuitiva inspeccionar los resultados obtenidos.
Los resultados obtenidos de las tareas y requisitos descritos en el Sprint Backlog y la
documentación generada en la presente iteración quedan recogidos en la sección “Interfaz
gráfica” (véase § 6.5).
5.1.2.3.
Fase 3: Post-game
El principal objetivo de esta fase consiste en la realización de las pruebas pertinentes para
comprobar el correcto funcionamiento e integración de los módulos implementados en la
fase de desarrollo y el respectivo análisis de los resultados obtenidos (véase § 7). Además,
también se lleva a cabo la finalización de la documentación generada a lo largo del proyecto.
Por último, es realizado el proceso de revisión final del proyecto y se prepara el producto
obtenido para su posterior presentación al cliente o usuario final. En este caso, cómo se
trata de un proyecto académico este rol será interpretado por el correspondiente tribunal
académico.
5.2 Herramientas
En este apartado se mostrarán las distintas herramientas, tanto hardware como software,
que han intervenido en la elaboración de K IN B EH R.
5.2.1
Aplicaciones de desarrollo
Processing: Entorno de desarrollo integrado de fácil utilización, y que sirve como medio
para la enseñanza y producción de proyectos multimedia e interactivos de diseño digital [pro14]. Fue iniciado por Ben Fry y Casey Reas a partir de reflexiones en el
Aesthetics and Computation Group del MIT Media Lab dirigido por John Maeda. Se
distribuye bajo la licencia GNU GPL.
Shell: Programa informático cuya función consiste en interpretar órdenes. Incorpora características tales como control de procesos, redirección de entrada/salida, listado y
lectura de ficheros, protección, comunicaciones y un lenguaje de órdenes para escribir
programas por lotes o “scripts”. Fue el intérprete usado en las primeras versiones de
Unix y se convirtió en un estándar de facto.
Open Natural Interaction (O PEN NI): Framework “open source” bajo una licencia “GNU
Lesser General Public License (LGPL)” que proporciona numerosas APIs para el desarrollo de aplicaciones basadas en el paradigma de interacción natural con el usuario
mediante la utilización de diversos dispositivos hardware, entre ellos Kinect.
NiTE: Uno de los middleware más avanzados y robustos en el campo de visión por compu78
tador. Fue desarrollado por PrimeSense (creador del hardware de Kinect).
SimpleOpenNI: Es un wrapper basado en el framework O PEN NI y el middleware NiTE que
permite desarrollar aplicaciones para Processing [sim14].
OpenCV: Es una biblioteca libre de visión artificial originalmente desarrollada por Intel.
OpenCV [ope14] es multiplataforma, existiendo versiones para GNU/Linux, Mac OS
X y Windows. Contiene más de 500 funciones que abarcan una gran gama de áreas
en el proceso de visión, como reconocimiento de objetos (reconocimiento facial), calibración de cámaras, visión estérea y visión robótica. Se encuentra distribuida bajo
licencia BSD lo cual permite que sea usada libremente para propósitos comerciales y
de investigación con las condiciones en ella expresadas. Implementada en C y C++.
OpenGL Utility Toolkit (GLUT): Es una biblioteca de utilidades para programas OpenGL
que principalmente proporciona diversas funciones de entrada/salida con el sistema
operativo [glu14]. Entre las funciones que ofrece se incluyen declaración y manejo de ventanas y la interacción por medio de teclado y ratón. También posee rutinas
para el dibujado de diversas primitivas geométricas que incluyen cubos, esferas y teteras. También tiene soporte para creación de menús emergentes. La versión original de
GLUT fue escrita por Mark J. Kilgard.
GNU Compiler Collection (GCC): Colección de compiladores del proyecto GNU [gcc14].
GNU
Make: Herramienta para la generación automática de ejecutables [SMS04].
Mercurial: Sistema de control de versiones distribuido. Se ha hecho uso de esta herramienta
para el código del proyecto y la documentación [mer14].
Stipdet: Es una aplicación desarrollada por Ivan Laptev cuya finalidad es calcular los descriptores para cada uno de los puntos de interés espacio-temporal del vídeo que le es
pasado como argumento [sti14].
ANN: Es una librería escrita en C++ destinada a ofrecer estructuras de datos y algoritmos
para el cálculo de la búsqueda de vecinos próximos en ámbitos que presentan un elevado número de dimensiones [ann14].
BSVM: La implementación actual de BSVM toma prestada la estructura interna de LIBSVM 2
ofreciendo de este modo opciones muy similares [bsv14].
ffmpeg: Colección de software libre que puede grabar, convertir (transcodificar) y hacer
streaming de audio y vídeo [ffm14]. Incluye libavcodec, una biblioteca de códecs. El
proyecto comenzó por Gerard Lantau, un seudónimo de Fabrice Bellard, y ahora es
mantenido por Michael Niedermayer.
2
Software integrado para la clasificación del vector de la ayuda, (C-SVC, NU-SVC), la regresión (épsilonSVR, NU-SVR) y la valoración de la distribución (uno-clase SVM).
79
Qt: Biblioteca multiplataforma de software libre y código abierto usada para desarrollar
aplicaciones con interfaz gráfica de usuario [qt14], así como también para el desarrollo de programas sin interfaz gráfica, como herramientas para la línea de comandos
y consolas para servidores. Qt es utilizada en KDE, entorno de escritorio para sistemas como GNU/Linux o FreeBSD, entre otros. Qt utiliza el lenguaje de programación
C++ de forma nativa, adicionalmente puede ser utilizado en varios otros lenguajes de
programación a través de bindings.
GNU
Emacs: Entorno de desarrollo de GNU que ha sido empleado tanto para realizar la
implementación así como para la documentación [ema14].
5.2.2
Lenguajes de programación
Para la elaboración del presente proyecto ha sido necesario la utilización de diversos lenguajes de programación. A continuación se muestra la lista completa de todos ellos:
C++: Creado por Bjarne Stroustrup [Str00], C++ proporciona mecanismos de orientación a
objetos y compatibilidad con C. Es un lenguaje compilado que ofrece distintos niveles
de abstracción al programador.
Perl: Diseñado por Larry Wall en 1987. Perl toma características del lenguaje C, del lenguaje interpretado bourne shell (sh), AWK, sed, Lisp y, en un grado inferior, de muchos
otros lenguajes de programación. Estructuralmente, Perl está basado en un estilo de
bloques como los del C o AWK, y fue ampliamente adoptado por su destreza en el
procesado de texto y no tener ninguna de las limitaciones de los otros lenguajes de
script.
Processing: Un lenguaje de programación de código abierto basado en Java. Se distribuye
bajo la licencia GNU GPL.
5.2.3
Documentación y gráficos
LATEX: Lenguaje de marcado de documentos de carácter técnico y científica, utilizado para
realizar este documento [Tal13].
BibTex: Herramienta para la descripción de referencias para documentos escritos con LATEX.
Dia: Editor de diagramas [dia14]. Se ha utilizado para construir los diagramas de clases, de
flujo, etc.
Gimp: Software de edición de imágenes y retoque fotográfico. Utilizado en la maquetación
de fotografías e ilustraciones [gim14].
5.2.4
Hardware
Ordenador de sobremesa: Para el desarrollo de K IN B EH R se ha empleado un equipo de
sobremesa. Este equipo cuenta con las siguientes características:
80
Intel(R) Core(TM) i7-2620M CPU @ 2.70GHz.
4 GB de RAM.
500 GB Disco Duro.
Kinect para Xbox360: Es “un controlador de juego libre y entretenimiento” creado por
Alex Kipman, desarrollado por Microsoft para la videoconsola Xbox 360, y desde
junio del 2011 para PC a través de Windows 7 y Windows 8.3. Tratado en mayor
profundidad en el capítulo de antecedentes (véase § 4).
Disco duro externo de 1 TB
5.2.5
Sistemas operativos
Debian: Se ha empleado Debian 7.0 (wheezy) 64-bit con núcleo Linux 3.0.0-1-amd64, instalado en el equipo de sobremesa indicado en la sección § 5.2.4, como sistema operativo principal para la realización del presente proyecto.
81
Capítulo 6
Desarrollo del proyecto
E
el presente capítulo se describe el proceso de desarrollo que se ha llevado a cabo
para la realización del proyecto. Para ello, se ha estructurado su narración en varias
secciones tratando de ser lo más fiel posible a las diferentes etapas que se han llevado a
cabo a lo largo del proyecto. En cada una de estas secciones se describen los conceptos más
importantes que se han ido adquiriendo a lo largo del proyecto así como todo aquello que se
ha considerado relevante para la correcta comprensión y seguimiento del mismo.
N
Al tratarse del capítulo más extenso, se ha decidido incluir a continuación una breve guía
para facilitar al lector su seguimiento. El capítulo se encuentra dividido en cinco grandes
bloques, coincidiendo de esta manera con las iteraciones propuestas en la planificación, en
los que se tratan los siguientes aspectos:
Primeros pasos con Kinect: Presenta conceptos de relevancia para la realización del
proyecto relacionados con el tratamiento e interpretación de imágenes, prestando especial atención a las peculiaridades de Kinect. A lo largo de este bloque se exponen
diferentes ejemplos para apoyar los conceptos tratados y para familiarizarse con Kinect
mediante la utilización de una librería de alto nivel.
Comprendiendo el funcionamiento de O PEN NI: En este bloque se tratan los aspectos
más relevantes sobre la bibliotecas empleadas, O PEN NI y GLUT. No obstante, si el lector se encuentra familiarizado con estos conceptos se recomienza comenzar su lectura
por la sección “Primera versión del módulo de captura de imágenes” (véase § 6.2.3).
En esta sección se narra como se ha llevado a cabo la implementación de la primera
versión del módulo de captura de imágenes.
Incorporación de NiTE: En este bloque se introducen los conceptos más importantes sobre el middleware NiTE. Algunos de los temas tratados son el seguimiento de
manos y detección de gestos, su funcionamiento y el análisis e interpretación de la
información proporcionada.
No obstante, si el lector se encuentra familiarizado con estos conceptos se recomienza
comenzar su lectura por la sección “Evolución del módulo de captura de imágenes”
(véase § 6.3.2). En esta sección se narra como se ha llevado a cabo la implementación
de las siguientes versiones del módulo de captura de imágenes.
83
Módulo de reconocimiento de acciones: Este bloque se encuentra dividido en dos partes bien diferenciados. En la primera de ellas se presentan los conceptos y aspectos
más importantes y que se han tenido en cuenta sobre B OW. No obstante, si el lector
se encuentra familiarizado con estos conceptos se recomienza que comienze la lectura
por la segunda parte “Implementación de la solución propuesta” (véase § 6.4.2)
Esta segunda parte describe detalladamente cada una las fases en las que se ha dividido
el proceso de reconocimiento de acciones así como la forma en la que se ha procedido
para adaptar la solución facilitada.
Interfaz gráfica: Este último bloque versa sobre el proceso seguido para el desarrollo
de una interfaz gráfica que permita integrar todos los componentes desarrollados a lo
largo del proyecto.
Además, para facilitar al lector la lectura del capítulo y evitar la complicación de su correcto seguimiento, se ha decidido dejar la descripción sobre la planificación efectuada y la
descripción de la metodología de desarrollo seguida en el capítulo anterior (véase § 5).
6.1 Iteración 1: Primeros pasos con Kinect
En esta sección se expone cómo se ha llevado a cabo la primera toma de contacto con
Kinect. El principal objetivo de esta primera etapa es familiarizarse con los principales conceptos del dispositivo y su manera de trabajar, así como las peculiaridades más llamativas
del mismo que se deben de tener en cuenta a la hora de trabajar. De esta forma, a lo largo de
la presente sección se irán exponiendo ejemplos sencillos que permitirán obtener los conocimientos básicos sobre el dispositivo y las bases a tener en cuenta para el desarrollo en las
siguientes etapas.
Para ello, se ha empleado “SimpleOpenNI”1 como herramienta y [Bor12] como material
de referencia de donde se ha extraído la base para los ejemplos. SimpleOpenNI es un wrapper
basado en el framework O PEN NI y el middleware NiTE (véase § 4.1.8.2) que permite desarrollar aplicaciones para Processing2 (véase § 5.2.1). Aunque este wrapper no implementa
todas las funcionalidades ofrecidas por O PEN NI y NiTE, como primera toma de contacto con
Kinect resulta muy interesante ya que se trata de una herramienta relativamente sencilla de
utilizar y proporciona un nivel extra de abstracción a las herramientas que serán empleadas
en posteriores etapas del proyecto. De esta forma, SimpleOpenNI se convierte en el compañero perfecto para realizar la primera toma de contacto con Kinect y lo que es mucho más
importante, ir familiarizándose con las peculiaridades de O PEN NI.
No obstante, y a pesar de su sencillez, Processing junto con SimpleOpenNI supone una
herramienta muy potente que ha sido utilizada en una gran cantidad de proyectos. Uno de
1
2
https://code.google.com/p/simple-openni/
http://www.processing.org/
84
los más interesantes es “MAY THE FORCE BE WITH YOU”, que permite mover aguas
virtuales proyectadas en una pared (ver Figura 6.1).
Figura 6.1: Proyecto “MAY THE FORCE BE WITH YOU” de TeoPatk [wbT14b].
6.1.1
Primer programa con Kinect
Este primer ejemplo es muy simple ya que únicamente consiste en acceder a la Kinect, leer
los datos proporcionados por la cámara de profundidad y RGB para posteriormente mostrarlos por pantalla. A partir de este ejemplo base se irán añadiendo pequeñas modificaciones
que permitirán ir explorando nuevos conceptos.
Aunque el código empleado para la implementación de los diferentes ejemplos de esta
sección se encontrarán en un Anexo (véase § A), para mostrar la simplicidad que ofrece
SimpleOpenNI, en este primer ejemplo se explicará brevemente los conceptos más básicos
sobre cómo funciona (ver Listado 6.1).
En la línea 2 se declara un objeto “SimpleOpenNI” con el nombre de Kinect. Este objeto
permite acceder a todos los datos proporcionados por Kinect, como la cámara de profundidad
o la cámara RGB. El método “setup()” se encarga de configurar e inicializar los diferentes
parámetros de la aplicación:
Linea 6: Se establece el tamaño de la aplicación. Como se va a trabajar con una resolución de 640 x 480 píxeles en ambas cámaras y se van a mostrar las imágenes
capturadas por ambas, es necesario multiplicar el ancho por 2.
Linea 7: Se inicializa el objeto “kinect” anteriormente declarado.
Lineas 9 y 10: Indican a la aplicación que se quiere acceder a las imágenes de profundidad y RGB respectivamente.
Por otra parte, el método “draw()” que funciona a modo de bucle se encarga de ir mostrando por pantalla los datos provenientes de ambas cámaras. Para ello, en la línea 15 se
85
1
2
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
4
5
6
7
void setup ()
{
size (640∗2 , 480) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
kinect . enableRGB () ;
9
10
11
}
13
14
15
void draw ()
{
kinect . update () ;
17
18
19
image ( kinect . depthImage () , 0 , 0) ;
image ( kinect . rgbImage () , 640 , 0) ;
}
Listado 6.1: «Ejemplo 1» versión 1
invoca al método “update()” de la clase SimpleOpenNI, el cual se encarga de actualizar los
datos que han sido indicados anteriormente (lineas 9 y 10). Por último, se indica a la aplicación (17 y 18) la posición en la que se quiere ubicar las imágenes capturadas por Kinect
y que son recuperadas a través de los métodos “depthImage()” y “rgbImage()” de la clase
SimpleOpenNI.
En la Figura 6.2 se muestra el resultado obtenido de ejecutar la aplicación, donde la imagen
de la izquierda se corresponde con los datos capturados por la cámara de profundidad y la
imagen derecha con la cámara RGB. En este punto es necesario destacar que la imagen de
profundidad emplea una escala de grises donde la tonalidad representa la longitud a la que se
encuentra la superficie respecto la Kinect. No obstante, se aprecian algunos aspectos bastante
interesantes que serán desarrollados detalladamente en las siguientes subsecciones.
6.1.1.1.
La reflexión
En primer lugar, a pesar de que el espejo se encuentra a la misma distancia que la persona
que lo sostiene, este presenta un color bastante más oscuro. Esto se debe a que la reflexión
provocada por el espejo está causando distorsión en los datos recogidos por la cámara de
profundidad. Como se presentó en la sección acerca del funcionamiento de Kinect (véase
§ 4.1.6), este dispositivo posee un emisor de infrarrojos que emite una nube de puntos. Posteriormente, estos puntos rebotan con las superficies que se encuentran a su paso, lo cual es
recogido por el sensor de infrarrojos para crear un mapa de profundidad. Sin embargo, en
el caso del espejo, los puntos recogidos realizan un viaje mucho más largo, ya que cuando
llegan al espejo, estos son rebotados hacía la pared de enfrente, dando como resultado una
distancia mucho más larga (lo cual se traduce en el ejemplo una tonalidad más oscura).
86
Figura 6.2: Captura del primer ejemplo con Processing.
No obstante, esto no tiene por qué ser siempre una desventaja. Un ejemplo de ello es
el trabajo realizado por el investigador Kyle McDonald, en el cual colocando una serie de
espejos similares a los encontrados en los probadores de una tienda de ropa, es capaz de
representar escenas en 360 grados sin necesidad de mover el dispositivo en ningún momento
(ver Figura 6.3).
Figura 6.3: Scanner 3D con Kinect por Kyle McDonald [Bor12].
6.1.1.2.
La oclusión
Otro concepto interesante extraído de este primer ejemplo es el de la oclusión y las sombras. Como se puede apreciar en la captura obtenida del ejemplo, la pared que se encuentra
situada frente a la Kinect se encuentra totalmente paralela al dispositivo. No obstante, si se
comparan las diferentes tonalidades que va tomando la pared en la imagen de profundidad se
puede apreciar que, aunque deberían ser iguales ya que se encuentran a la misma distancia
del dispositivo, la tonalidad no es uniforme. Este fenómeno se debe a que el patrón de puntos
emitido por el dispositivo viajan hasta alcanzar un objeto, siendo a continuación reflejados
por la superficie del mismo de vuelta al dispositivo para calcular el mapa de profundidad.
87
Sin embargo, ningún punto será alcanzado por los otros objetos que se encuentran detrás y
por consiguiente la Kinect no obtendrá ninguna información acerca de la ubicación de estos,
provocando de esta forma sombras negras en la imagen.
6.1.1.3.
Desalineamiento entre cámaras
Si se observa detenidamente las imágenes capturadas por ambas cámaras, se puede apreciar que, a pesar de que corresponden al mismo instante de tiempo, ambos frames no son
exactamente iguales. Este hecho se aprecia claramente si se compara la posición de la cabeza de la persona que aparece en escena en ambas imágenes: Mientras que en la imagen RGB
la cabeza ha sido capturada en su totalidad, en la imagen de profundidad tan sólo se ha capturado parcialmente. Como ya se explicó en la sección de características técnicas de Kinect
(véase § 4.1.4), el dispositivo captura las imágenes RGB y de profundidad desde cámaras
diferentes. Estas cámaras se encuentran separadas la una de la otra en la parte frontal del dispositivo por unos pocos centímetros. De este modo, al encontrarse en posiciones diferentes,
los puntos de vista captados por ambas serán forzosamente distintos.
6.1.2
Apreciaciones a nivel de píxel
El ejemplo que se expone en esta subsección tiene como objetivo obtener la nociones básicas sobre los valores recuperados por las cámaras y el comportamiento que van adoptando
los píxeles en cada momento. Para ello, se ha implementado un ejemplo muy sencillo (ver
Listado A.1) que permite obtener, pinchando con el ratón en el área deseada, los valores
numéricos que toman en cada momento los diferentes píxeles capturados por las cámaras. A
continuación se muestra una captura (ver Figura 6.4) obtenida con este ejemplo y que servirá
como base para las explicaciones dadas a continuación.
Figura 6.4: Captura del segundo ejemplo con Processing.
88
6.1.2.1.
Píxeles RGB
Como ya se comentó brevemente en la sección acerca del funcionamiento de la cámara
RGB de Kinect (véase § 4.1.6.1), cada píxel de una imagen RGB se caracteriza por tres
componentes que representan los valores de los colores rojo (R, red), verde (G, green) y azul
(B, blue). Además, cada uno de estos componentes representan, a su vez, un valor decimal
comprendido entre 0 y 255 (correspondiendo a un byte), es decir, la cantidad de rojo, verde
y azul que hay en ese punto de la imagen.
Para quien no esté familiarizado con estos conceptos, es muy posible que en primera instancia se lleve alguna sorpresa con los resultados que pueden ser obtenidos. Un ejemplo de
ello puede ser la zona de la imagen que representa el jersey rojo que se encuentra situado
encima de la silla. El primer pensamiento que puede venir a la mente es que los píxeles correspondientes a dicho jersey, al ser aparentemente rojo, el valor de la componente “R” debe
ser prácticamente 255. No obstante, si se accede a los valores de esos píxeles se aprecia que
no es así, obteniendo los siguientes valores: “R: 159.0 G: 1.0 B: 33.0”.
A pesar de que para el ojo humano el jersey es completamente rojo, la componente roja
de los píxeles correspondientes a esa área es de tan sólo de 158, es decir, poco más de la
mitad de su máximo valor. Este hecho muestra la diferencia entre lo que el ojo humano ve
e interpreta y los valores que un computador calcula para procesar los datos obtenidos de
una cámara digital. De esta manera, es posible afirmar que el cerebro humano interpreta los
datos obtenidos por los ojos de una forma “relativa”, centrándose en las variaciones entre las
diferentes zonas de la imagen en vez de interpretar sus valores absolutos.
Si se exploran otras zonas la imagen, las conclusiones que se pueden obtener son las
mismas, como por ejemplo la pared que se encuentra en el fondo de habitación, que es
la zona más clara para el ojo humano de toda la imagen. Examinando los valores de los
píxeles correspondientes a esta zona, se obtienen resultados muy similares: R: 226.0 G: 219.0
B: 226.0. Esta vez se observa que las tres componentes tienen valores muy similares entre
ellas y que además se encuentran muy próximas a los valores que debería tener un píxel
completamente blanco (R: 255.0 G: 255.0 B: 255.0).
De este modo, las conclusiones que se pueden extraer de esta primera parte del ejemplo
son las siguientes:
El color representado por un píxel está basado en la diferencia entre los valores que
toman su tres componentes.
Los píxeles que tienen valores muy próximos en sus tres componentes representan un
color blanco o alguna tonalidad de gris.
Mientras que los valores relativos de los componentes de un píxel son los que determinan el color percibido por el ojo humano, es la suma de las tres componentes quién
determina el nivel de claridad que presentará el píxel.
89
Teniendo claras estas conclusiones, se pone en evidencia un gran problema: Distinguir que
píxeles de la imagen pertenecen a cada objeto o persona que aparecen en la escena, una de
las tareas de visión por computador que se abordan en este proyecto. En el caso del jersey
que se exponía anteriormente, en principio puede ser una tarea relativamente sencilla ya que
una posible aproximación podría ser considerar que los píxeles con tonalidades rojas que se
encuentren en este área pertenecen al jersey. No obstante, antes se ha puesto en evidencia
que los valores de las componentes de un píxel pueden variar drásticamente pudiendo llevar
a equívoco. A continuación se exponen dos escenarios que podrían comprometer la validez
de esta solución:
Escenario 1: Imagine que delante de este jersey rojo se coloca, ocultando parte del
mismo, una persona vestida con una prenda del mismo color. En este caso, una imagen
RGB tan sólo proporciona información acerca del color de cada píxel de la imagen, y
por lo tanto, una aproximación como la expuesta anteriormente establecería que tanto
el jersey cómo la prenda roja de la persona son el mismo objeto.
Escenario 2: Imagine que parte del jersey, debido a las sombras producidas por algún
tipo de luz, tiene zonas muy oscuras próximas al negro. La imagen RGB capturada
presentará el jersey con píxeles que varían drásticamente entre unas zonas y otras en
función de la luz que esté recibiendo. De este modo, con una aproximación como la
expuesta anteriormente el resultado obtenido será que sólo reconoce ciertas partes del
jersey.
Aunque este tipo de problemas han sido, en parte, solucionados mediante diversas técnicas
de visión por computador, una solución perfecta empleando tan sólo cámaras RGB aún se
encuentra lejos. En gran parte, esto se debe a que este tipo de cámaras sólo capturan el color
de las diferentes partes de la escena sin proporcionar ningún tipo de información sobre la
ubicación y distancia a la que se encuentran respecto la cámara
6.1.2.2.
Píxeles de profundidad
La presente subsección tiene como objetivo analizar los resultados obtenidos por la cámara
de profundidad de Kinect y cómo esta información puede resolver de una manera relativamente sencilla los problemas expuestos en la subsección anterior. Para ello, se ha hecho uso
del mismo ejemplo que se ha empleado para la anterior subsección.
En este caso, al pinchar sobre el jersey rojo que se encuentra colocado sobre la silla,
se obtiene un resultado muy diferente: “R: 175.0 G: 175.0 B: 175.0”. A diferencia de lo
que ocurría en el caso de la imagen RGB, los valores de los componentes de la imagen de
profundidad son idénticos. Si se tiene presente lo expuesto anteriormente, este hecho tiene
sentido ya que una imagen de profundidad está representada en escala de grises y por tanto
las componentes de cada píxel de la imagen serán siempre iguales variando tan sólo en el
brillo, es decir, la distancia entre el blanco y el negro.
90
Gracias a este tipo de imágenes, es posible obtener información muy valiosa para determinar aspectos muy interesantes que resuelven algunos de los problemas encontrados con una
cámara RGB. Por ejemplo, a pesar de que el respaldo y el asiento de la silla que aparece en la
imagen (ver Figura 6.4) son del mismo color (marrón en este caso), los valores de los píxeles
obtenidos en cada parte son muy diferentes: “R: 200.0 G: 200.0 B: 200.0” para el respaldo y
“R:251.0 G: 251.0 B: 251.0” para el asiento. Por el contrario, si repetimos el mismo proceso
pero con la imagen RGB, los valores obtenidos en este caso son prácticamente idénticos.
Esto se debe a que la imagen RGB devuelve el valor del color que toma cada objeto en la
imagen, y como en este caso el color de ambas zonas son iguales, los valores serán muy
similares variando muy levemente debido a diversos factores como puede ser la incidencia
de la luz en cada zona.
Por el contrario, la información obtenida en la imagen de profundidad debe ser interpretada de manera muy diferente: Cada píxel representa la distancia entre el objeto que representa
y la cámara. De esta forma, el valor de cada píxel de la imagen tomará valores más altos (es
decir, colores más claros) en las zonas más próximas a la cámara y valores más bajos (es
decir, colores más oscuros) en las zonas más lejanas a la cámara. Por lo tanto, al contrario de
lo que ocurre con la imagen RGB que tan sólo proporcionaba información acerca del color
de cada parte de la escena, la imagen de profundidad obtiene datos precisos que permiten
determinar que el asiento y el respaldo están físicamente separados. Por consiguiente, examinando la imagen de profundidad, es posible determinar, a grosso modo, que los píxeles de
la silla que se encuentren en un rango en torno a 200 pertenecen al respaldo y aquellos que
se encuentren próximos a 251 pertenecen al asiento.
Retomando los escenarios hipotéticos que se presentaban en la subsección anterior (véase
§ 6.1.2.1), se aprecia que complementando la información obtenida por la camára RGB con
la imagen de profundidad es posible solucionar el problema de identificar a que píxeles
corresponde cada objeto de la escena:
Escenario 1: Es posible determinar que aquellos píxeles de color rojo (con la información obtenida por la cámara RGB) y que posean valores similares en los píxeles
de la imagen de profundidad pertenecen al jersey. De esta forma, se puede distinguir
entre aquellos píxeles rojos que pertenecen a la prenda de la persona y los que pertenecen al jersey, ya que van a presentar diferentes valores en los píxeles de la imagen
de profundidad, es decir, se encuentran a diferente distancia de la cámara.
Escenario 2: En esta situación, el ruido introducido en la imagen por la sombras producidas por la luz se puede eliminar gracias a la imagen de profundidad ya que este
tipo de cámaras no se ven afectadas por la iluminación presente en la escena.
La conclusión más importante que se ha obtenido tras este pequeño ejemplo deja algo
muy claro, y es que combinando la información obtenida a través de una cámara de profun91
didad y una cámara RGB es posible obtener resultados mucho más precisos y de forma más
eficiente.
6.1.3
Conversión a distancias reales
En la subsección anterior (véase § 6.1.2) se presentaba un ejemplo con el cual se intentaba
aprender los conceptos más básicos para ser capaces de entender la información proporcionada por Kinect. Uno de los aspectos más interesantes que se presentaban era el hecho de que
a través de una imagen de profundidad es posible extraer información acerca de la distancia
a la que se encontraba un objeto o persona en la escena. Para ello, se interpretaba el valor de
los píxeles: Aquellos píxeles que tenían mayor brillo (valores más altos) se encontraban más
cercanos que aquellos con menor brillo (valores más bajos).
No obstante, para el desarrollo de aplicaciones más complejas dónde es necesario obtener información más precisa esta información no es suficiente. Como se comentaba en la
subsección anterior, los valores que tomaban las diferentes componentes de un píxel pueden
oscilar entre 0 y 255. Teniendo en cuenta esto y que el rango de detección de la cámara de
profundidad oscila entre 0.5 metros y 7.5 metros, es posible llevar a cabo una aproximación
para obtener la distancia real entre un objeto y la cámara. De esta forma, en una primera
aproximación se podrían establecer los siguientes parámetros:
Aquellos píxeles de la imagen de profundidad que tengan un valor de 0 se encuentran
aproximadamente a una distancia de 7.5 metros o más.
Aquellos píxeles de la imagen de profundidad que tengan un valor de 255 se encuentran aproximadamente a una distancia de 0.5 metros o menos.
Aquellos píxeles de la imagen de profundidad que tengan un valor entre 255 y 0 se
encuentran aproximadamente a una distancia comprendida entre 0.5 y 7.5 metros.
No obstante, aún es posible hacer un poco más precisa esta primera aproximación. Para
ello, simplemente es necesario realizar algunos cálculos bastante simples: Para obtener la
distancia aproximada de un píxel con un valor X, donde X está comprendido entre 0 y 255
(0 <X <255), es necesario llevar a cabo lo siguientes pasos:
Calcular el valor relativo de X: Este paso consiste tan solo en realizar una simple
regla de 3 (ver Ecuación 6.1).
V alor relativo de X =
X ∗ 100
255
(6.1)
Calcular el valor absoluto de la distancia: Una vez obtenido el valor relativo, tan
solo es necesario calcular el valor del intervalo entre 0.5 y 7.5 que le corresponde.
Realizando estos cálculos, es posible determinar la distancia en metros a la que se encuentra un objeto o persona en la escena respecto a la Kinect a partir del píxel correspondiente de
92
la imagen de profundidad. Aunque en teoría estos cálculos son correctos, si se realiza alguna
prueba real se observará que no es así y que la distancia calculada es incorrecta. Para ello,
se toma como ejemplo un píxel con valor 96 de la imagen de profundidad capturada con el
ejemplo de la subsección anterior (ver Figura 6.4). Si se aplican los cálculos propuestos, se
obtiene que el objeto que corresponde a ese píxel se encuentra a una distancia de la Kinect
del 37 % entre 0.5 y 7.5 metros, o lo que lo mismo a una distancia de 4.41 metros aproximadamente. No obstante, si se mide la distancia a la que realmente se encuentra ese píxel no es
más de tres metros.
El motivo de que el resultado de estos cálculos sea incorrecto es que la relación entre el
valor del brillo de un píxel en la imagen de profundidad y la distancia real que este representa
es mucho más compleja que una simple relación lineal. Como se ha mostrado antes, los
píxeles que representan colores de la escala de grises tienen valores que van desde el 0
hasta 250, mientras que la distancia real cubierta por la Kinect se encuentra entre 0.5 y
7.5 metros. Sin embargo, la lecturas obtenidas por una Kinect puede llegar a alcanzar un
precisión casi milimétrica que varia entre 0 y 8000 milímetros aproximadamente. Es por este
motivo que los píxeles que componen una imagen de profundidad necesiten más de ocho bits
para representar la distancia real entre la cámara y el objeto como se venía haciendo hasta
este momento.
Para obtener una mayor precisión en el calculo de la distancia, es necesario acceder a los
datos de profundidad de Kinect de una manera que ofrezca una mayor resolución ya que
es capaz de capturar información de profundidad a una resolución de 11 bits por píxel. De
este modo, los píxeles capturados por el dispositivo tendrán valores que están comprendidos
entre 0 y 2047, que como se puede apreciar a simple vista, es un rango mucho más amplio
que el que se estaba empleando hasta ahora (entre 0 y 255).
La solución más directa que a primera vista puede surgir es aumentar el tamaño de cada
píxel. No obstante, representar las imágenes por pantalla a una mayor resolución por píxel
sería totalmente ineficiente por diversos motivos, como por ejemplo el hecho de que el ojo
humano no es capaz de apreciar lo suficiente este aumento de la resolución o que provocaría
un aumento sustancial del consumo de memoria. Por ello, en el siguiente ejemplo se plantea
la solución más eficiente para el objetivo que se persigue en la presente subsección: Experimentar con la cámara de profundidad y tener la posibilidad de comprobar hasta que nivel de
precisión es realmente capaz de proporcionar Kinect.
Como ser puede ver en el Listado A.2, la solución propuesta continua representando las
imágenes de profundidad con píxeles de 8 bits. No obstante, se ha incorporado una modificación muy importante con el objetivo de proporcionar los resultados más precisos que
es posible de obtener con Kinect. Para conseguirlo, ya no se accede directamente al valor
del píxel de la imagen de profundidad, sino al mapa de profundidad proporcionado por la
Kinect. No obstante, se introduce un nuevo concepto que debe tenerse en cuenta: Mientras
93
que la información proporcionada por las imágenes de profundidad están almacenadas en
forma de matriz bidimensional, la información proporcionada por el mapa de profundidad es
devuelta como una matriz unidimensional. Por este motivo es necesario idear una estrategia
que permita establecer la correspondencia directa entre un píxel concreto en la imagen y su
correspondiente píxel en la matriz de profundidad. Este concepto es realmente sencillo de
entender, pero que sin embargo es crucial para trabajar con las herramientas proporcionadas
por O PEN NI y, por consiguiente, con SimpleOpenNI.
Como se puede apreciar en la Figura 6.5, establecer una estrategia que permita calcular el
píxel correspondiente entre una imagen y una matriz unidimensional resulta ser casi directo.
Para este caso concreto, las imágenes tienen una resolución de 640 x 480 píxeles, o lo que
es lo mismo, una matriz que está constituida por 640 filas y 480 columnas. Por lo tanto, para
conocer la posición en el mapa de profundidad de un píxel que tiene un valor en la imagen de
X para el eje x y un valor de Y para el eje y, tan solo es necesario aplicar la ecuación 6.2.
Figura 6.5: Comparación entre los píxeles en una matriz bidimensional y una unidimensional
[Bor12].
P ixel mapa de prof undidad = X + (Y ∗ 640)
(6.2)
Otra modificación menos importante, pero también muy interesante que se ha añadido a
este ejemplo es la opción de mostrar la distancia en metros y milímetros del píxel pulsado
con el ratón en vez de los valores de sus correspondientes componentes como se hacía hasta
ahora. Por ejemplo, tomando como referencia la Figura 6.6, se han obtenido resultados increíblemente precisos (ver cuadro 6.1) y mucho más exactos que los que eran obtenidos en
los anteriores ejemplos en los que se empleaba un rango de tan solo 255 unidades.
6.1.4
Trabajando en tres dimensiones
La información proporcionada por Kinect acerca de la profundidad de los diferentes puntos pertenecientes a una escena ha sido tratada, hasta ahora, como simples metadatos de una
imagen en dos dimensiones; sin embargo, hay otra manera en la que esta información de
profundidad puede ser procesada. En vez de tratar los datos provenientes de Kinect como
94
Área pulsada
Distancia
Respaldo de la silla
Asiento de la silla
Pared del fondo
Estantería
1539 milímetros
1039 milímetros
2777 milímetros
2478 milímetros
Cuadro 6.1: Resultados del tercer ejemplo con Processing.
Figura 6.6: Captura del tercer ejemplo con Processing.
una imagen de profundidad bidimensional, es posible pensar que son algo más que la distancia entre un punto en el espacio y la cámara: Un conjunto de puntos en un espacio en tres
dimensiones.
Si se profundiza en este concepto, la información de profundidad pasaría de ser unos simples metadatos que permiten determinar la distancia de cada punto a ser un conjunto de puntos que proporciona información acerca de la ubicación exacta de cualquier objeto o persona
en un espacio tridimensional, es decir, como el mundo real. De esta forma, en vez de crear
las típicas imágenes en dos dimensiones, es posible simular modelos tridimensionales de las
escenas donde el punto de vista de la cámara puede cambiar de perspectiva sin necesidad de
variar la posición de la cámara en ningún momento.
Este nuevo concepto ofrece posibilidades muy interesantes ya que, gracias a esta información tridimensional capturada por Kinect, es posible presentar al usuario una escena desde
cualquier punto de vista donde puede navegar a través de una habitación sin necesidad de que
nada ni nadie se mueva de su sitio. Por otro lado, también es posible desarrollar aplicaciones
más avanzadas donde se interactúa con el usuario mediante objetos virtuales representados
en tres dimensiones ubicados en una posición concreta dentro de la escena.
95
6.1.4.1.
Nube de puntos
Como se ha mencionado en los ejemplos anteriores, en Processing el origen del eje de
coordenadas se encuentra situado en la esquina superior izquierda del sketch (así se denominan las aplicaciones en Processing). De esta forma, para ser capaces de entender cómo
funciona una nube de puntos en Processing es importante conocer que cuando los valores de
“x” aumentan, la posición se desplaza hacia la derecha hasta alcanzar el ancho máximo del
sketch y que de forma análoga, cuando los valores de ‘‘y” aumentan la posición se desplaza
hacía abajo hasta alcanzar la altura del sketch. En la Figura 6.7 se aprecia como los valores
de “x” al aumentar su valor se desplazan hacía la derecha del sketch hasta alcanzar cómo
máximo el valor 100 y al aumentar los valores de “y” se desplaza hacía abajo del sketch hasta alcanzar cómo máximo el valor 100. Tener claro este concepto será muy importante ya que
para trabajar con nubes de puntos en Processing será necesario manipular constantemente el
sistema de referencia de coordenadas.
Figura 6.7: Origen de coordenadas bidimensional en Processing [web14v].
No obstante, al trabajar con tres dimensiones, entra en juego otra nuevo eje de coordenadas: El eje “z”. Este eje “z” tiene una dirección perpendicular a la pantalla por lo que
cuando los valores de “z” aumentan la posición se desplaza hacía fuera de la pantalla (de
manera figurada) y cuando disminuyen la posición de desplaza hacía el interior de la pantalla. Por lo tanto, a mayores valor de “z” la imagen se verá más cercana y por el contrario, a
menores valores de “z” más pequeña. En la Figura 6.8 se observa el sistema de coordenadas
tridimensional resultante.
En la subsección anterior se explicaba como trabajar con los valores de profundidad proporcionados por SimpleOpenNI. Estos valores se representaban como una simple matriz unidimensional de enteros donde era necesario traducir los valores “x” e “y” de la pantalla.
Sin embargo, además de estos valores de profundidad, la librería puede proporcionar los
valores capturados por Kinect como un conjunto de puntos tridimensionales mediante una
matriz de vectores. A su vez, cada uno de estos vectores estará compuesto por los valores
correspondientes a su posición “x”, “y” y ‘‘z” en el espacio.
96
Figura 6.8: Origen de coordenadas tridimensional en Processing [web14v].
En el Listado A.3 se presenta el código necesario para implementar una nube de puntos de
manera estática, es decir, desde un punto de vista fijo. No obstante, es importante destacar
algunos conceptos introducidos en este nuevo ejemplo:
Cambio del origen de coordenadas: Con este cambio se pretende mover el origen
de coordenadas al centro del sketch de modo que la nube de puntos quede centrada
en todo momento. Además, también se ha manipulado el eje “z” para que la nube de
puntos esté más alejada y de esta forma no quede en ningún momento por delante de
la vista.
Cambio de sentido del eje “y”: Con el objetivo de ajustar correctamente la información proporcionada por Kinect y la forma en que Processing procesa esta información.
SimpleOpenNI ofrece una función, depthMapRealWorld(), que permite obtener la posición de todos los puntos capturados por Kinect. Sin embargo, el sistema de coordenadas de O PEN NI (recordar que SimpleOpenNI está basada en O PEN NI) es diferente al
manejado por Processing, ya que los valores de “y” aumentan con posiciones más altas en el espacio. Es por este motivo por lo que es necesario rotar 180 grados el sentido
original del eje “y” en Processing.
En la Figura 6.9 se presenta una captura de la aplicación durante la ejecución. No obstante, es necesario destacar algunos aspectos que pueden llamar la atención de los resultados
obtenidos. En primer lugar, se puede apreciar la similitud que mantiene con las imágenes
de profundidad tratadas en las subseciones anteriores como es que sigue tratándose de una
imagen en blaco y negro o que siguen apareciendo sombras negras en aquellos zonas donde
Kinect no ha capturado ninguna información. El motivo por el cual siguen apareciendo estas
sombras negras es que, a pesar de que Kinect captura la información de cientos de puntos, el
espacio es una variable continua y por lo tanto infinita. De este modo, el dispositivo tan sólo
es capaz de capturar una ínfima parte de este.
Por otro lado, sin embargo, se pueden apreciar algunas diferencias interesantes en el resultado. En primer lugar, se produce un aumento considerable de la carga necesaria para ejecutar
97
Figura 6.9: Captura del primer ejemplo de “Nube de puntos”.
la aplicación que es debida a la gran cantidad de información que debe ser recogida, procesada y representada por cada frame capturado. En segundo lugar, llama la atención como
algunos artículos del mobiliario de la habitación apenas se aprecian, como es por ejemplo el
caso de la estantería que está situada al fondo (ver Figura 6.4). Esto se debe principalmente
a que la gran cantidad de puntos que se están representando por pantalla en cada frame hace
que estos se superpongan y por lo tanto se pierda una gran cantidad de detalle pareciendo un
cuerpo sólido. Una posible solución a este problema es representar sólo parte de los puntos
que han sido recogidos (ver Figura 6.10).
Figura 6.10: Captura del primer ejemplo de “Nube de puntos” donde sólo se representa uno
de cada diez puntos capturados.
Una modificación muy interesante que se le puede aplicar a este primer ejemplo es hacer
que el punto de vista vaya cambiando (ver Listado A.4). Para poder ver la nube de puntos
98
generada desde diferentes ángulos es necesario rotar esos puntos manteniéndolos en todo
momento en el centro para provocar la ilusión de que el punto de vista está orbitando alrededor de la nube y no es la nube la que se está moviendo. Para lograr este efecto, es necesario
introducir dos pequeños cambios al ejemplo anterior. El primero consiste en añadir una variable que vaya almacenando el ángulo de de rotación actual que será incrementado en cada
frame y que será usado para rotar el origen de coordenadas. Y en segundo lugar, es necesario asegurar que esta rotación se está produciendo en todo momento con la nube de puntos
en el centro del sistema de coordenadas en vez de en uno de los lados. Si esto no se hace
así, cuando se esté produciendo la rotación, la nube de puntos se estará moviendo alrededor
del punto de vista y por tanto en ciertos momentos la nube de puntos desaparecerá ya que
se encuentra tras el punto de vista. En la Figura 6.11 se muestra una captura mediante la
aplicación obtenida una vez aplicados estos cambios.
Figura 6.11: Captura del primer ejemplo de “Nube de puntos” desde otro punto de vista.
Como se puede apreciar, el resultado obtenido es increíble ya que sin mover la cámara
en ningún momento se ha conseguido capturar y representar el perfil de la persona que se
encuentra de frente a la cámara. Evidentemente hay multitud de zonas del escenario que
aparecen en negro. Esto se debe, como ya se ha explicado antes, a que para esa zona no hay
ninguna información, lo cual tiene mucho sentido si se considera, por ejemplo, que la parte
trasera del respaldo de la silla se encuentra en todo momento oculto a la cámara y por tanto
ningún infrarrojo puede incidir sobre su superficie.
No obstante, en ninguno de estos ejemplos se ha explotado el potencial que puede proporcionar la combinación entre la cámara de profundidad y la cámara RGB (ver Listado A.5).
Hasta este momento las nubes de puntos representadas se encontraban en blanco y negro
99
debido a que cada uno de los puntos capturados era representado como un punto de color
blanco sobre un fondo negro. La idea necesaria para dotar a estos puntos con el color correspondiente de la escena simplemente consiste en acceder, para cada punto de la nube, a su
píxel correspondiente de imagen RGB obtenida.
Sin embargo, a pesar de que no hay nada que impida llevar a cabo la idea de combinar
la información obtenida por ambas cámaras, anteriormente se explicaba (véase § 6.1.1.3)
como el punto de vista de ambas cámaras no es exactamente el mismo, ya que la posición
de ambas es diferente. Por este motivo es necesario llevar a cabo un alineamiento de los
resultados obtenidos por ambas cámaras. Aunque el concepto es muy simple ya que tan solo
sería necesario mover la referencia de la matriz obtenida en proporción a la distancia que
separa las cámaras, SimpleOpenNI ofrece una función que realiza este proceso directamente
de modo que la posición “x” e “y” de la matriz de profundidad y de color corresponden al
mismo punto en el espacio.
En la Figura 6.12 se muestra una captura mediante la aplicación obtenida una vez aplicado
esta modificación donde la persona que aparece en la imagen se encuentra sentada justamente delante de la cámara. En esta ocasión es mucho más latente los pequeños agujeros negros
producidos por falta de información de profundidad en determinados puntos, como por ejemplo la sombra detrás de la persona o los numerosos puntos negros en la pared.
Figura 6.12: Captura del primer ejemplo de “Nube de puntos” a color.
Aunque en los ejemplos se ha mostrado únicamente el concepto de cambiar el punto de
vista de la cámara alrededor de la nube de puntos, esta no es la única posibilidad. También es
posible realizar aplicaciones interactivas que permitan acercarse a la nube de puntos, rotar o
simplemente provocar alguna acción en la aplicación. En la siguiente subsección se mostrará
como algunos de los conceptos mostrados en esta subsección han sido llevados a la práctica para desarrollar aplicaciones interactivas en las que la posición del usuario establece el
comportamiento de la aplicación.
100
6.1.5
Afianzando los conceptos adquiridos
En la siguiente subsección se exponen algunas de las aplicaciones más llamativas que se
han implementado en el transcurso del proyecto. El principal objetivo de estas aplicaciones
de ejemplo no es otro que el de afianzar y poner en práctica algunos de los conceptos más
importantes que se han ido recogiendo a lo largo de la presente sección y que serán de gran
utilidad para comprender y manejar las siguientes etapas del proyecto.
6.1.5.1.
Dibujando con Kinect
La aplicación que se presenta en este apartado consiste en dibujar en la pantalla del ordenador mediante Kinect y guardar la imagen obtenida en un fichero. Para hacer esto posible,
es necesario hacer un seguimiento del punto que se encuentra a una menor distancia del
dispositivo. Para llevar a cabo esta tarea, es necesario ir comprobando uno a uno todos los
píxeles del mapa de profundidad obtenido a través de la Kinect para averiguar cuál posee el
valor mas pequeño. En el Listado 6.2 se muestra en pseudocódigo la técnica seguida para
conseguirlo. Una vez que se conoce el valor y las coordenadas correspondientes del píxel
más cercano, simplemente es necesario dibujar una línea que tiene como origen las coordenadas del píxel más cercano del frame anterior y como final las coordenadas del píxel más
cercano del frame actual.
Obtener mapa de profundidad de Kinect
valo r_mas _cerca no = 8000
por cada fila ‘‘y ’ ’ en la imagen de profundidad
por cada pixel ‘‘x ’ ’ de la fila
i = x + y ∗ ancho de la imagen
valorActual = mapaProfundidad [ i ]
si valorActual > 0 y valorActual < v alor_ mas_ce rcano
val or_mas _cerca no = valorActual
x_mas_cercano = x
y_mas_cercano = y
dibujar_linea ( anterior_x , anterior_y , x_mas_cercano , y_mas_cercano )
anterior_x = x_mas_cercano
anterior_y = y_mas_cercano
Listado 6.2: «Dibujando con Kinect»
No obstante, siguiendo la estrategia propuesta en esta primera versión, surge un pequeño
inconveniente que dificulta la utilización de la aplicación: El efecto espejo. El efecto espejo
hace que cuando el usuario mueve la mano hacia su derecha, el lapicero virtual dibuje la
línea hacia la izquierda. Este problema se debe simplemente a que la Kinect se encuentra
101
frente al usuario y, por lo tanto, tienen los puntos de vista invertidos. La solución a este
contratiempo es bastante sencilla, ya que tan solo es necesario invertir el punto de vista con
el que la Kinect captura la imagen. De este modo, simplemente se debe invertir el orden de
los puntos de profundidad en el eje “x”.
Otro inconveniente que aparece con este primer planteamiento es que mientras que el
usuario está dibujando se producen saltos entre cada frame haciendo que sea muy difícil
controlar el lapicero para conseguir el resultado deseado. La solución que se ha llevado a
cabo para solucionar este problema consiste en realizar una interpolación entre los puntos
obtenidos en el frame anterior y los obtenidos en el frame actual. La interpolación es un
proceso que permite rellenar el espacio perdido entre dos puntos conocidos, es decir, en vez
de saltar directamente al siguiente punto, se orienta la línea con una dirección consistente.
De esta manera, las trazas del lapicero virtual serán mucho más suaves, precisas y fáciles de
controlar.
En el Listado A.6 se encuentra el código resultante de la aplicación una vez aplicados las
correcciones que se acaban de exponer y en la Figura 6.13 una captura obtenida a través de
la aplicación.
Figura 6.13: Captura de la aplicación “Dibujando con Kinect”.
6.1.5.2.
Álbum de fotos
En las siguientes líneas se expone como desarrollar una aplicación que lleve un poco más
lejos los conceptos obtenidos a lo largo de la presente sección y que fueron ya puestos en
práctica en el ejemplo “Dibujando con Kinect” mediante el seguimiento del punto más cercano. La aplicación que se propone pretende capturar, a grosso modo, la esencia de las interfaces futuristas mostradas en la película Minority Report de las que ya se habló brevemente
en el capítulo de antecedentes de Kinect (véase § 4.1.2.1).
102
Básicamente, la aplicación “Álbum de fotos” permite controlar la posición de tres imágenes a través de la pantalla mediante el movimiento de la mano. Además, también ofrece la
posibilidad de ampliar o reducir su tamaño acercando o alejando la mano respectivamente.
No obstante, para lograr este comportamiento, los fundamentos desde los que se debe partir
son básicamente los mismos que los que se emplearon en el ejemplo “Dibujando con Kinect”: Controlar la posición más cercana a la Kinect en cada momento. Una vez logrado esto,
simplemente se debe incluir el comportamiento esperado de las diferentes fotografías:
Cuando el punto más cercano al dispositivo se mueva a la derecha, izquieda, arriba
o abajo entre frame y frame, debe cambiarse la posición de la fotografía aplicando
los mismos principios empleados para mover el lapicero virtual en “Dibujando con
Kinect”.
Cuando la distancia entre el punto más cercano y la Kinect varíe debe realizarse un
escalado de la imagen de forma relativa al valor tomado en ese momento por el punto
más cercano.
Cuando se pulse el botón derecho del ratón, debe cambiarse a la siguiente imagen. Por
lo tanto, en este caso es necesario ir almacenando en cada momento la fotografía que
se encuentra activa en ese instante y las posiciones anteriores de cada una.
En el Listado A.7 se encuentra el código resultante y en la Figura 6.14 una captura obtenida
a través de la aplicación.
Figura 6.14: Captura de la aplicación “Álbum de fotos”.
6.1.5.3.
Batería virtual
La aplicación que se presenta en este apartado (Listado A.8 y A.9) tiene como objetivo afianzar los conceptos relacionados con la nube de puntos que se han aprendido en los
apartados anteriores (véase § 6.1.4.1). Para ello se ha propuesto la implementación de una
batería virtual que permite al usuario simular que está tocando una batería. Esta batería estará
103
compuesta por dos tambores que serán representados como cubos virtuales colocados en la
región que se encuentra delante del dispositivo. De esta forma, cuando el usuario entre en
contacto con alguno de los cubos se reproducirá el sonido correspondiente a dicho cubo.
Una vez entendido cómo funciona las nubes de puntos, es hora de introducir un nuevo
concepto para hacer posible la batería virtual, los puntos calientes. Un punto caliente consiste
en una zona en el espacio, en este caso el cubo virtual, donde se tiene especial interés en
averiguar si hay algún punto contenido en ella o contabilizar cuántos puntos se encuentran
en esa zona. De esta forma, un punto caliente es similar a los típicos botones que se utilizan
diariamente en las aplicaciones de escritorio donde se detecta cuándo ha sido pulsado por
un usuario mediante un ratón cuyo puntero se encuentra situado sobre él. No obstante, a
diferencia de estos botones bidimensionales que presentan un estado binario (pulsado o no
pulsado), un punto caliente representa un botón tridimensional que puede ser activado por
una gran variedad de eventos: Hay algún punto dentro de sus límites, hay más de cien puntos
en su interior, etc.
De este modo, principalmente es necesario llevar acabo dos tareas. La primera consiste en
indicar al usuario cuáles son las zonas del espacio con las que puede interactuar, mientras que
la segunda consiste en monitorizar esas zonas para determinar si el el usuario ha interactuado
con ellas. Para realizar la primera tan sólo se necesita dibujar en el sketch las aristas de
dos cubos en el área donde se quiera ubicar el punto caliente y dotarles de color cuando el
usuario introduzca la mano o cualquier objeto dentro de ellos. Para llevar a cabo la segunda
será necesario controlar en cada frame si cualquier parte de la nube de puntos está contenida
dentro del punto caliente. La manera de contabilizar el numero de puntos de la nube que está
contenida en el punto caliente, en este caso el cubo, es necesario comprobar punto a punto si
cumplen los siguientes requisitos:
Su coordenada x debe ser mayor que la coordenada x más pequeña del cubo y menor
que la coordenada x más grande.
Su coordenada y debe ser mayor que la coordenada y más pequeña del cubo y menor
que la coordenada y más grande.
Su coordenada z debe ser mayor que la coordenada z más pequeña del cubo y menor
que la coordenada z más grande.
Si cualquier punto de la nube cumple estas condiciones, es posible afirmar que se encuentra dentro del cubo. En el caso concreto de Processing, un cubo está definido por un punto
origen y el tamaño de su arista. Por lo tanto, para comprobar en Processing si un punto está
contenido dentro de el es necesario considerar los requisitos anteriores de la siguiente manera
(ver Figura 6.15):
Su coordenada x debe ser mayor que la coordenada x del origen del cubo menos la
mitad del tamaño de la arista y menor que la coordenada x del origen del cubo más la
104
mitad del tamaño de la arista.
Su coordenada y debe ser mayor que la coordenada y del origen del cubo menos la
mitad del tamaño de la arista y menor que la coordenada y del origen del cubo más la
mitad del tamaño de la arista.
Su coordenada z debe ser mayor que la coordenada z del origen del cubo menos la
mitad del tamaño de la arista y menor que la coordenada z del origen del cubo más la
mitad del tamaño de la arista.
Figura 6.15: Distribución de un cubo en Processing [Bor12].
Finalmente, para que el comportamiento de la aplicación sea lo más realista posible, es necesario tener en cuenta otro requisito más para reproducir el sonido aparte del que establece
que debe haber algún punto contenido en el cubo. Este requisito indica que, para reproducir
un sonido, es necesario que en el frame anterior no debía haber ningún punto en el cubo. De
esta manera se asegura que el usuario debe, una vez que a tocado el cubo, levantar la mano
para que sea posible volver a tocarlo, tal y como se haría en un tambor de verdad.
En la Figura 6.16 se presenta una captura del resultado conseguido al llevar a la práctica
todos los conceptos expuestos.
6.2 Iteración 2: Comprendiendo el funcionamiento de O PEN NI
Una de las primeras etapas necesarias para el desarrollo de un sistema de reconocimiento
de acciones es la implementación de una aplicación que permita capturar la información del
entorno a través de un dipositivo hardware, en este caso Kinect.
Es por este motivo por el que en la presente sección se pretende proporcionar una visión
general acerca de los aspectos más básicos acerca de la plataforma O PEN NI que han sido
cruciales para el desarrollo y depuración de esta etapa del proyecto. No hay que olvidar que
uno de los aspectos que hace más interesante la utilización de Kinect para el reconocimiento
de acciones es la posibilidad de capturar la posición real de las personas y objetos que se
encuentran en el entorno a través de su sensor de profundidad, función que será implementada a través del middleware NiTE para O PEN NI. Motivo de más por el que una completa
105
Figura 6.16: Captura de la aplicación “Batería virtual”.
y correcta comprensión sobre el funcionamiento de más bajo nivel de O PEN NI es crucial
para la constitución de una base sólida sobre la que llevar a cabo las siguientes etapas del
proyecto.
Además, también se realiza una pequeña introducción acerca de una de las librerías de
OpenGL (GLUT3 ) a través de la cual se ha logrado realizar una interfaz de usuario que
permita mostrar por pantalla los datos capturados por Kinect así como interactuar con la
aplicación.
Por último, se muestran los resultados obtenidos de la primera aproximación del módulo
que constituirá la captura de datos a través de Kinect mediante de la integración de de O PEN NI
y GLUT.
6.2.1
Aspectos básicos sobre la librería
Como ya se explicó anteriormente, O PEN NI es una plataforma que proporciona acceso a
los sensores de profundidad compatibles con PrimeSense. Además, permite a los desarrolladores de aplicaciones inicializar los sensores y recibir los flujos de datos de profundidad,
RGB y vídeo IR del dispositivo. O PEN NI también proporciona una interfaz uniforme a módulos middleware desarrollados por terceros que pueden ser usados para interactuar con estos
dispositivos de profundidad. Por lo tanto, las aplicaciones son capaces de utilizar tanto el
middleware de terceros, así como los datos de profundidad y de vídeo básicos subyacentes
proporcionados directamente por O PEN NI.
Tras esta visión general y la introducción proporcionada acerca de la evolución de la arquitectura interna de la plataforma en el capítulo de antecedentes (véase § 4.1.8.2), es el mo3
http://www.opengl.org/resources/libraries/glut/
106
mento de profundizar un poco más y bajar un nivel más el nivel de abstracción proporcionado
hasta el momento. Esto se debe a que más adelante será esencial su completa comprensión
para solventar los problemas que irán surgiendo debido a la alta sobrecarga de este tipo de
sistemas. Es importante destacar que algunos aspectos resultarán ya familiares. La causa de
esto se debe a que la herramienta utilizada en la sección anterior, la librería “SimpleOpenNI”
para Processing (véase § 6.1), estaba basada internamente en funciones proporcionadas por
O PEN NI. Este hecho será de gran utilidad para comprender más fácilmente como funciona la
plataforma.
Para proporcionar esta visión de bajo nivel se pretende explicar en qué consiste el funcionamiento de las cuatro clases principales necesarias para obtener los flujos de información
obtenidos por el dispositivo:
openni::OpenNI
openni::Device
openni::VideoStream
openni::VideoFrameRef
Además de estas cuatro clases fundamentales, también se comentarán brevemente otras
clases de soporte así como las estructuras que son proporcionadas por la plataforma para el
almacenamiento de diferentes tipos específicos de datos.
6.2.1.1.
openni::OpenNI
La primera de las principales clases de las que está compuesta O PEN NI 2.0 es openNI::OpenNI. Esta clase es fundamental ya que proporciona un punto de entrada estático a
la API, además de ser empleada para proporcionar acceso a todos los dispositivos en el sistema. Entre las funcionalidades más importantes que ofrece esta clase, destacan la posibilidad
de realizar varios eventos de conexión y desconexión de los dispositivos que se encuentran
disponibles en un momento determinado, así como proporcionar funciones que permitan el
acceso a todos los flujos de datos que son capturados por el sensor.
6.2.1.1.1. Acceso al dispositivo
Para proporcionar el punto de entrada estática a la API, es necesario hacer uso de la función
“initialize()” proporcionado por esta clase. Esta función inicializa todos los controladores de
los sensores disponibles y explora el sistema para localizar los dispositivos que se encuentran
disponibles. Es importante destacar que cualquier aplicación que utiliza O PEN NI debe llamar
a esta función antes de realizar cualquier otro uso de la API.
Una vez que la función “initialize()” haya sido invocada, será posible crear objetos de la
clase “Device” que posteriormente serán empleados para comunicarse con el hardware actual del sensor. La función “enumerateDevices()” de la clase O PEN NI permite averiguar que
107
dispositivos se encuentran conectados al sistema y que se en ese momento están preparados
para ser usados.
Por último, cuando una aplicación está lista para finalizar, la función “shutdown()” debe
ser invocada para apagar todos los controladores y realizar una salida limpia de la ejecución.
6.2.1.1.2. Acceso a los flujos de vídeo
La función “waitForAnyStream()” permite implementar un sistema de pulling para el acceso a los diferentes flujos de información proporcionados por el dispositivo. De esta forma,
cuando es invocada se bloquea hasta que cualquiera de los flujos de datos de la lista pasada
como parámetro tienen nuevos datos disponibles. Esta función es ideal para ser invocada
desde un bucle en el que cada vez que nuevos datos son capturados, se desea realizar alguna
operación con ellos, ya se mostrarlos por pantalla, procesarlos, etc.
6.2.1.1.3. Acceso a los dispositivos a través de eventos
La clase O PEN NI proporciona un framework para el acceso a los dispositivos a través de un
marco de ejecución dirigido por eventos. Para ello, O PEN NI define tres tipos de eventos:
“onDeviceConnected”: Este evento es generado cada vez que un nuevo dispositivo es
conectado y se encuentra disponible a través de la interfaz O PEN NI.
“onDeviceDisconnected”: Este evento es generado genera cuando un dispositivo es
retirado del sistema.
“onDeviceStateChanged”: Este evento es generado cada vez que se cambia alguno los
parámetros del dispositivo.
Para controlar estos eventos, O PEN NI proporciona una serie de clases “listener” que pueden
ser añadidas a través de los siguientes métodos: “addDeviceConnectedListener()”, “addDeviceDisconnectedListener()”, “addDeviceStateChangedListener()”, “removeDeviceConnectedListener()”, “removeDeviceDisconnectedListener()”, “removeDeviceStateChangedListener()”.
Los tres eventos descritos anteriormente proporcionan un puntero a un objeto “OpenNI::DeviceInfo” que puede ser utilizado para obtener los detalles y la identificación del
dispositivo contemplado por el evento. Además, el evento “onDeviceStateChanged” proporciona un puntero a un objeto “DeviceState” que permite ver cuál es el nuevo estado del
dispositivo.
6.2.1.1.4. Información de errores
Muchas funciones proporcionadas por la plataforma tienen un tipo de retorno especial:
108
"Status". De esta forma, cada vez que se produce un error, el estado devuelto por la función
contendrá un código que puede estar tratado por el código correspondiente o simplemente ser
mostrado al usuario. Además, el método “OpenNI::getExtendedError()” devuelve información adicional sobre el error que se ha producido de una manera legible para los humanos.
6.2.1.2.
openni::Device
Esta clase proporciona una interfaz para controlar un único dispositivo hardware. De esta
manera, un objeto “Device” es usado para conectar y configurar un dispositivo y crear los
diferentes objetos “Stream” que permitirán recuperar los flujos de información capturados
por los sensores.
No obstante, antes de que un objeto de la clase “Device” pueda ser conectado a un dispositivo hardware, es necesario que este último se encuentre físicamente conectado al ordenador.
También es necesario que la función “openni:initialize()” haya sido previamente invocada
para inicializar los drivers correspondientes al dispositivo y marcarlo como disponible a través de la API. A continuación se describen las funciones más importantes que se encuentran
disponibles a través de esta clase:
Constructor: Esta función no toma argumentos ya que simplemente crea el objeto en
la memoria para que otras funciones puedan ser invocadas.
Device:open(): Esta función es muy importante ya que es la que realmente conecta el
objeto “Device” con el dispositivo hardware. Para ello toma tan solo la URI del dispositivo como argumento, devolviendo un código de estado indicando si la operación ha
sido realizada con éxito o qué error se ha producido. No obstante, el uso más simple de
esta función es invocarla con la constante “OpenNI::ANY_DEVICE” como URI para
que el sistema se conecte a cualquier dispositivo hardware compatible que se encuentre activo en ese momento. Esto puede resultar verdaderamente útil cuando es posible
suponer con total seguridad que hay exactamente un dispositivo activo conectado al
sistema.
En el caso de que haya múltiples dispositivos conectados al sistema, se debe realizar
antes una llamada al método “enumerateDevices()” de la clase O PEN NI para obtener
una lista de todos los dispositivos que se encuentran conectados y así poder obtener la
URI correspondiente al dispositivo deseado para la función “open()” .
Device:close(): Esta función permite cerrar correctamente el dispositivo de hardware.
de esta forma, tanto el driver como el dispositivo hardware quedarán en un estado
conocido para que las aplicaciones futuras no tengan dificultades para conectarse a
ellos.
Device:isValid(): Esta función permite determinar si existe actualmente un dispositivo
activo conectado a este objeto “Device”.
109
Por último, es necesario destacar que también es posible obtener la información básica
acerca de un dispositivo y que posteriormente puede ser de gran utilidad como son el nombre,
el proveedor, la URI, etc. Para ello, O PEN NI proporciona la clase “OpenNI::DeviceInfo” para
contener toda esta información. De esta manera, si se desea obtener el objeto “DeviceInfo”
de un dispositivo concreto es necesario llamar a la función “Device:getDeviceInfo()”.
6.2.1.3.
openni::VideoStream
Esta clase encapsula todos los flujos de datos creados por la clase de “Device” permitiendo
al programador solicitar que la captura de determinados flujos de datos comiencen (“VideoStream::start()”), paren (“VideoStream::stop()”) o simplemente indicar su configuración.
Una vez que un VideoStream ha sido creado a través de la función “VideoStream::create()”,
los datos pueden ser leídos de ella directamente con la función “VideoStream::readFrame”.
De esta forma, si hay nuevos datos disponibles, esta función facilitará el acceso al objeto
VideoFrameRef más reciente que haya sido generado por el VideoStream. Si no hay ningún
nuevo frame listo todavía, la función se bloqueará hasta que un nuevo frame esté disponible.
Por último, tan sólo destacar que la clase VideoStream ofrece la posibilidad de recuperar
la información capturada por los dispositivos a través de eventos.
6.2.1.4.
openni::VideoFrameRef
Esta clase tiene el objetivo de encapsular todos los datos relacionados a un solo tipo de frames leídos a través de un VideoStream mediante la función “VideoStream::readFrame()”.
De esta forma, mediante la función “VideoFrameRef::getData()” proporciona acceso a la
matriz subyacente que contiene los datos del frame, así como los metadatos que son requeridos por el programador para trabajar con dichos datos. Esta metainformación en las venideras
etapas del proyecto serán básicas para el procesamiento y categorización de los frames que
serán capturados por la aplicación. Algunos de los más destacados son la marca temporal de
captura, la resolución, el índice de frame, etc.
6.2.2
GLUT
OpenGL Utility Toolkit (GLUT) es una interfaz de programación enlazada con ANSI C
y FORTRAN con el objetivo de facilitar el desarrollo de programas basados en OpenGL de
manera independiente del sistema operativo. Las funcionalidades más destacadas ofrecidas
por esta biblioteca de utilidades son:
Múltiples ventanas de renderizado OpenGL.
Dispositivos de entrada sofisticados.
Rutinas para la generación de objetos.
Diversas funciones de gestión de ventanas.
110
Soporte de mapas de bits.
Procesamiento de eventos.
Rutina “idle” y temporizadores.
La biblioteca GLUT original fue escrita por Mark Kilgard, autor de OpenGL Programming
for the X Window System [Kil96] y The Cg Tutorial: The Definitive Guide to Programmable Real-Time Graphics [FK03]. Sin embargo, el proyecto inicial de Kilgard ya no ofrece
mantenimiento y su licencia no libre no permite la redistribución de versiones modificadas
de la biblioteca. Es por este hecho por el que comenzaron a surgir diferentes implementaciones libres de la API implementadas desde cero. La primera fue freeglut4 , con la intención de
convertirse en un clon bastante exacto de la original, aunque con un un pequeño número de
nuevas funciones para hacer frente a las limitaciones de GLUT que más adelante se comentan. Existe también otra variante de freeglut llamada OpenGLUT 5 , que añade algunas nuevas
funcionalidades respecto de la API original.
No obstante, no hay que perder de vista que GLUT surgió con el objetivo de simplificar la
implementación de programas usando OpenGL como herramienta de renderizado y permitir
el desarrollo de código más portable entre diferentes sistema operativos. Es por esta razón
por la que el API de GLUT está compuesto de tan solo unas pocas rutinas para mostrar
escenas gráficas renderizadas a través de OpenGL. Estas rutinas, a su vez, están lógicamente
organizadas en varias sub-APIs de acuerdo a su funcionalidad:
Inicialización: Se encarga del procesamiento de la línea de comandos, la inicialización
del sistema de ventanas y el estado de creación de la ventana inicial.
Procesamiento de eventos: Esta rutina entra en bucle de procesamiento de eventos de
GLUT. Además, no retorna nunca y llama continuamente a los “callbacks” de GLUT
siempre que es necesario.
Gestión de ventanas: Rutinas encargadas de la creación y control de ventanas.
Gestión de superposición: Rutinas encargadas de establecer y gestionar la superposición de ventanas.
Gestión de menús: Rutinas encargadas de crear y controlar los menús “pop-up”.
Registro de devolución de llamadas: Rutinas encargadas de registrar los callbacks
que serán llamados por el bucle de procesamiento de eventos GLUT.
Gestión del “Colormap”: Estas rutinas permiten la manipulación de los mapas de
colores empleados en las ventanas.
Recuperación de estado: Estas rutinas permiten a los programas recuperar el estado
de GLUT.
4
5
http://freeglut.sourceforge.net/
http://openglut.sourceforge.net/
111
Renderizado de fuentes: Estas rutinas permiten el renderizado del trazado y mapas
de bits de las diferentes fuentes.
Renderizado de formas geométricas: Estas rutinas permiten el renderizado de formas
geométricas en tres dimensiones incluyendo esferas, conos, icosaedros, etc.
Para trabajar con esta herramienta, es necesario estar relacionado con algunos aspectos de
la terminología de GLUT. Algunos de los más destacados son los siguientes:
“Callback”: Rutina específica que puede ser registrada en GLUT para ser llamada en
respuesta de un tipo de evento concreto. También es utilizada para referirse a una rutina
“callback” específica para la devolución de una llamada.
“Colormap”: Proporciona un mapeo entre los valores de un píxel y los valores de los
colores RGB.
“Idle”: Estado en el que se notifican los eventos del sistema de ventanas para su procesamiento. Si se existe algún “callback” registrado para el evento correspondiente, será
invocado.
“Menú pop-up”: Menú que puede ser configurado para que aparezca cuando se presiona un botón específico del ratón en una ventana.
“Sistema de ventanas”: Concepto que se refiere al mecanismo y política del sistema
y gestión de ventanas. Por ejemplo, en el sistema X Window, tanto el administrador de
ventanas y como el servidor X son parte integral de lo que GLUT considera el sistema
de ventanas.
Como se puede apreciar, GLUT es una herramienta ideal para programas simples en las que
las necesidades del programador son muy concretas y de alto nivel. Además, introducirse
en la programación con OpenGL utilizando GLUT conlleva normalmente sólo unas pocas
líneas de código y hace innecesario el conocimiento de las APIs específicas de cada sistema
operativo. No obstante, esta biblioteca multiplataforma se encuentra con algunas limitaciones
que dificultan la labor del programador para el desarrollo de tareas específicas. Entre las más
destacadas se encuentran:
La biblioteca exige a los programadores invocar a la función “glutMainLoop()”, función que nunca finaliza. Es por esto por lo que los programadores se encuentran con
serios problemas para integrar GLUT en aplicaciones o bibliotecas en las que es necesario poder tener control sobre su propio ciclo de ejecución. No obstante, existen
diferentes aproximaciones para solucionar este inconveniente. Una de las más habituales consiste introducir una nueva función, que suele llamarse “glutCheckLoop()“,
que ejecute una sola iteración del ciclo de ejecución de GLUT. Otra posible solución
puede ser la de ejecutar GLUT por separado mediante hilos, aunque esto puede ser distinto dependiendo del sistema operativo pudiendo provocar de esta manera problemas
112
de sincronización.
El hecho de que la función “glutMainLoop()” nunca termine supone que el programa no sale nunca del ciclo de ejecución. Otra implementaciones basadas en GLUT,
como por ejemplo freeglut, soluciona este problema introduciendo una nueva función
“glutLeaveMainLoop()” que permite decidir en tiempo de ejecución si salir del bucle
principal.
La biblioteca termina el proceso cuando se cierra la ventana principal del programa
suponiendo un inconveniente en determinadas situaciones en las que este comportamiento puede no ser el deseable. Por eso muchas implementaciones incluyen una
función extra llamada “glutWMCloseFunc()”.
A pesar de estas limitaciones, durante esta etapa del proyecto se decidió emplear GLUT ya
que, además de que la funcionalidad que proporcionaba resultaba completamente suficiente
para los objetivos marcados, ofrecía una solución rápida de aprender, relativamente ligera
en comparación a otras alternativas y que además permitía obtener un código sencillo y
claro.
6.2.3
Primera versión del módulo de captura de imágenes
En esta primera aproximación de la solución se pretende desarrollar la base sobre la que se
asentará el módulo de captura de imágenes. De este modo, el principal objetivo marcado en
esta etapa no será otro que el desarrollo del esqueleto de la aplicación a partir del cual se irán
añadiendo de manera iterativa diversas mejoras y funcionalidades a lo largo del proyecto.
Por lo tanto, será necesario realizar un pequeño estudio acerca de las posibilidades ofrecidas
por las herramientas comentadas en los apartados anteriores y la manera de integrarlas en el
módulo para obtener el máximo rendimiento.
El primer paso realizado para la consecución de este objetivo es la definición de cuáles
serán las funcionalidades deseadas para esta primera versión. Para ello, se han definido los
siguientes hitos:
Captura del flujo de datos de la cámara RGB.
Captura del flujo de datos del sensor de profundidad.
Visualización de los flujos de datos capturados por el dispositivo a través de una interfaz de usuario sencilla y minimalista.
Integración de comandos de teclado básicos que permitan a través de la interfaz de
usuario interactuar con la aplicación:
• Cerrar la aplicación.
• Seleccionar que flujo de datos se debe mostrar por pantalla.
113
Una vez que los hitos que deben ser alcanzados con esta primera iteración del módulo están definidos, es el momento de realizar el primer diseño de clases. Como se puede apreciar
en la Figura 6.17, la solución propuesta está compuesta de dos clases. La clase “Main” es
la clase principal y su función no es otra que inicializar todos los aspectos necesarios para
comenzar a utilizar el dispositivo y controlar que los resultados obtenidos de esta inicialización son los esperados. En segundo lugar se ha definido la clase “Recorder”, encargada de
gestionar todos los aspectos relacionados con el procesado de los flujos obtenidos a través
del dispositivo y su posterior renderizado para mostrarlos por pantalla.
Figura 6.17: Diagrama de clases del módulo de captura de imágenes (versión 1).
Una vez que la solución propuesta para esta primera versión fue implementada, se llevó
a cabo una pequeña batería de pruebas para verificar que los resultados son los deseados
y corregir aquellos errores no deseados que se puedan producir durante la ejecución como
pueden ser desbordamientos de memoria, pérdida de frames, etc. A continuación se muestran
algunas capturas de los resultados obtenidos (ver Figura 6.18 y Figura 6.19)
6.3 Iteración 3: Incorporación de NiTE
Una vez que se han entendido los principios más importantes acerca del funcionamiento
de O PEN NI y GLUT y se tiene la base del módulo de captura de imágenes a partir de la cual
114
Figura 6.18: Módulo de captura de imágenes en modo RGB.
Figura 6.19: Módulo de captura de imágenes en modo profundidad.
se van a implementar el resto de funcionalidades, es el momento de realizar la primera toma
de contacto con NiTE.
Es por este motivo por el que en la presente sección se pretende proporcionar una visión
general acerca de los aspectos más relevantes que deben de ser tenidos en cuenta a la hora de
utilizar la plataforma NiTE. También se desarrollará la forma en que funciona internamente
este middleware así como los principales algoritmos de reconocimiento y seguimiento de
usuarios que pone a disposición de los desarrolladores. No obstante, será necesario proporcionar también una visión aproximada sobre la forma en la que trabaja NiTE internamente,
algo indispensable para solucionar algunos aspectos que deberán de ser mejorados en módulo de captura durante su desarrollo.
Por último, se muestra la evolución que ha ido experimentando el módulo a lo largo de las
diferentes iteraciones según se iban incorporando nuevas funcionalidades y se corregían los
problemas que se iban encontrando.
115
6.3.1
Toma de contacto con NiTE
Como ya se comentaba brevemente en la sección de antecedentes (véase § 4.1.8.2), uno
de los middleware más importantes y potentes para la plataforma O PEN NI es NiTE. De esta
forma, NiTE constituye un de los middlewares más avanzados y robustos del mercado en el
campo de visión por computador en 3D.
NiTE proporciona a los desarrolladores una API relativamente sencilla poniendo a su alcance potentes algoritmos que permiten el diseño de aplicaciones controladas por las manos
y la posición del cuerpo del usuario. Estos algoritmos utilizan la información de profundidad,
color e IR recibida por el sensor para realizar tareas como la localización y seguimiento de
las manos, análisis de escenas (separando a los usuarios del fondo de la imagen), seguimiento
preciso del esqueleto, reconocimiento de gestos, etc.
A continuación se desarrollarán los aspectos más básicos e importantes sobre los dos componentes principales de la API, cuyo análisis y entendimiento es crucial para la presente etapa
del proyecto:
Seguimiento de manos y detección de gestos.
Seguimiento del cuerpo.
6.3.1.1.
Seguimiento de manos y detección de gestos
El seguimiento basado en las manos es la posibilidad que ofrece NiTE para seguir a los
usuarios a través de los algoritmos de seguimiento de manos o detección de gestos discretos. Para alcanzar este objetivo, las aplicaciones que empleen cualquiera de estos dos tipos
de algoritmos deben seguir las instrucciones y convenciones desarrolladas a continuación.
De esta forma, será posible implementar pequeños ejemplos que faciliten el análisis de las
posibilidades reales que ofrecen y por lo tanto recopilar suficiente información de primera
mano que permita determinar si estas funcionalidades de seguimiento de manos y detección
de gestos aportan resultados de valor para el objetivo del proyecto.
Para ello, el primer paso es entender el funcionamiento de la API que, debido a la alta encapsulación que presenta, en primera instancia puede resultar verdaderamente complicada.
Al igual que ocurría con la API de O PEN NI, el primer paso necesario para empezar a emplear
los algoritmos que ofrece NiTE es inicializar la clase “HandTracker” para conectar con el
objeto “Device” relacionado con un dispositivo hardware concreto (véase § 6.2.1.2). De esta forma, cada vez que un objeto “Device” crea un nuevo frame de profundidad, la clase
HandTracker genera los datos correspondientes a la manos a las que se les está realizando
el seguimiento. Toda esta información será devuelta en la clase contenedora “HandTrackerFrameRef” con los siguientes datos:
Frame de profundidad.
Manos identificadas.
116
Posiciones de las manos.
Manos que aparecían en el frame anterior pero que en el actual han desaparecido de la
escena.
Gestos identificados en el frame actual.
En el Listado 6.3 se muestra un fragmento de un pequeño ejemplo de cómo debería realizarse este proceso de detección de gestos. La dinámica a seguir es bastante sencilla, ya que
tan solo es necesario indicar al algoritmo qué gestos son los deseados para realizar el seguimiento (líneas 1 y 2), recuperar los gestos detectados (línea 4) y posteriormente realizar las
operaciones deseadas para aquellos gestos que hayan sido completados (líneas 5-12).
1
2
handTracker . s t a r t G e s t u r e D e t e c t i o n ( nite :: GESTURE_WAVE ) ;
handTracker . s t a r t G e s t u r e D e t e c t i o n ( nite :: GESTURE_CLICK ) ;
4
const nite :: Array < nite :: GestureData >& gestures = handTrackerFrame .
getGestures () ;
for (int i = 0; i < gestures . getSize () ; ++ i )
{
if ( gestures [ i ]. isComplete () )
{
nite :: HandId newId ;
handTracker . sta rtHand Tracki ng ( gestures [ i ]. ge tCu rr en tP os it io n () ,
& newId ) ;
}
}
5
6
7
8
9
10
11
12
Listado 6.3: Detección de poses con NiTE
A pesar de que la detección de gestos que ofrece NiTE podría ser una herramienta verdaderamente útil para el posterior reconocimiento de acciones, uno de los principales objetivos
del proyecto, tras un análisis exhaustivo se ha concluido que para tal fin presenta serias limitaciones. La más destacada es el hecho de que NiTE sólo tiene definido dos tipos de de
gestos:
“Click”: Consiste en acercar la mano hacia la cámara y después alegarla de ella.
“Wave”: Consiste en mover la mano de un lado a lado, como si se estuviera saludando
a la cámara.
Una opción que podría haber sido interesante para enriquecer estos algoritmos es añadir
los gestos deseados a la API. No obstante, es necesario recordar que la licencia bajo la que
este middleware es distribuido lo impide. Por lo tanto, se ha decidido no integrar este tipo de
algoritmos proporcionados por NiTE ya que no aportan valor real a la solución perseguida
por este proyecto.
117
6.3.1.2.
Seguimiento del cuerpo
Los algoritmos de obtención de la posición del cuerpo humano a partir de las articulaciones de los usuarios hacen del middleware NiTE un componente de gran valor para el
desarrollo del presente proyecto. Además, también proporcionan la capacidad de segmentar a los usuarios, detección del plano del suelo, detección de poses y el seguimiento del
esqueleto.
El primer paso que debió seguirse para la correcta integración de estos algoritmos en
este módulo del proyecto fue analizar y comprender como procesa NiTE el flujo de datos
proporcionados por el sensor, que información proporciona y cómo interpretarla y por último
identificar las clases y funciones correspondientes a estos algoritmos así como su manera de
proceder junto con las limitaciones que presenta.
6.3.1.2.1. Funcionamiento
Aunque el funcionamiento interno de NiTE no es de dominio público, realizando un análisis exhaustivo de su forma de trabajar y del API es posible realizar una aproximación de cómo
procede internamente para la detección de usuarios. En la Figura 6.20 se puede apreciar que
los usuarios pasan por tres estados:
Nuevo usuario: Un nuevo usuario ha entrado en la escena pero aún no se ha calibrado
su posición.
Siguiendo usuario: Tras ser detectado un nuevo usuario, este pasa al estado de usuario seguido dónde se encuentra disponible toda la información relativa a su posición,
articulaciones, orientación, etc que se estudiará más adelante.
Usuario perdido: Estado al que pasa un usuario que estaba siendo seguido tras haber
salido de la escena o debido a la incapacidad de los algoritmos de NiTE de proporcionar información precisa sobre él.
Cuando NiTE recibe la señal de realizar el seguimiento de usuarios, aplica internamente
sus algoritmos de procesado a cada frame que es capturado por el dispositivo. Una vez que
ha realizado los cálculos pertinentes, obtiene una lista de todos los posibles usuarios que hay
presentes en la escena. En un segundo paso, NiTE aplica los algoritmos correspondientes
para realizar la calibración de la posición de cada usuario detectado en la etapa anterior. Si
esta última etapa es realizada con éxito, NiTE será capaz de proporcionar toda la información
relativa al usuario.
6.3.1.2.2. Análisis e interpretación de la información proporcionada
La correcta realización del análisis e interpretación de la información ofrecida por los algoritmos de NiTE es crucial y potencialmente crítica para una correcta integración de las
funcionalidades de seguimiento de usuario en este módulo del proyecto. Por este motivo,
118
Figura 6.20: Funcionamiento del seguimiento de usuarios con NiTE [web14u].
durante el desarrollo del proyecto esta etapa abarcó varias semanas ya que un error de interpretación de los resultados sería arrastrado en las etapas posteriores.
En primer lugar, es muy importante tener en cuenta que NiTE trabaja con dos tipos de
coordenadas: Coordenadas de profundidad (proyectivas) y coordenadas del mundo real. Este
último tipo de coordenadas son medidas en milímetros siguiendo un sistema de coordenadas
como el que se muestra en la Figura 6.21. De esta manera, cuando un punto en el espacio
se desplaza hacía la izquierda del dispositivo la coordenada x aumentará; según aumente la
distancia del punto con respecto el suelo mayor será el valor de y; y por último cuando más
alejado se encuentre un punto respecto la Kinect mayor será su componente z. No obstante,
NiTE ofrece la posibilidad de convertir un punto entre ambos tipos de coordenadas.
Figura 6.21: Sistema de coordenadas de NiTE.
NiTE distingue entre los diferentes usuarios que se encuentran mediante un id que le será
119
asignado en el primer frame en el que aparece en escena. Una vez que el usuario es calibrado,
NiTE proporciona la siguiente información:
Límites del usuario: Proporciona un cubo de volumen mínimo que contiene completamente el usuario. Las coordenadas son proyectivas, por lo que son aptas para su uso
directo en un mapa de profundidad.
Centro de masa: Permite encontrar el centro geométrico de la masa del usuario. Este
valor viene dado en las coordenadas del mundo real, por lo que debe ser convertido
antes de ser superpuesto sobre un mapa de profundidad.
Pose: Representa toda la información acerca de una postura específica para un usuario
concreto.
Estado: Este parámetro resultará de vital importancia para filtrar la información proporcionada por NiTE. De esta manera, será posible determinar en qué estado se encuentra un usuario concreto según la Figura 6.20. Es necesario tener en cuenta que
cuando un usuario es perdido, su id podrá volver a ser asignado a otro usuario o volver
a aparecer en escena con un id diferente.
Esqueleto: Está compuesto por un estado y quince articulaciones.
• Estado: Al igual que ocurre con el estado del usuario, este valor permitirá filtrar
aquellos esqueletos según se encuentren en estado de calibración, calibrados o
sin información.
• Articulaciones: En la Figura 6.22 se representan las quince posibles articulaciones que pueden ser monitorizadas a través de NiTE. Cada articulación estará
compuesta a su vez por:
◦ La orientación y confidence: Estimación de la orientación de una articulación en el espacio y su nivel de precisión. La orientación está representada
por un cuaternión (w, x, y, z). El confidence será un valor comprendido entre
0 y 1, siendo 1 el máximo valor de precisión obtenible.
◦ La posición y confidence: Estimación de la posición de una articulación en
el espacio y su nivel de precisión. La posición está representada por las coordenadas (x, y, z) en el mundo real. El confidence será un valor comprendido
entre 0 y 1, siendo 1 el máximo valor de precisión obtenible.
6.3.2
Evolución del módulo de captura de imágenes
En la sección anterior (véase § 6.2) se explicaban los aspectos más importantes sobre
O PEN NI y GLUT así como la forma en la que se afrontó la implementación de la primera
versión del módulo de captura de imágenes. En las siguientes subseciones se pretende desarrollar los aspectos más relevantes sobre el proceso de integración del middleware NiTE
en la solución propuesta y la evolución que ha ido experimentado a lo largo del proyecto.
120
Figura 6.22: Articulaciones detectadas por NiTE [web14u].
Además se presentarán los principales problemas que han ido surgiendo durante su diseño e
implementación así como la soluciones que se han propuesto para su solventación.
6.3.2.1.
Segunda versión
En la primera versión del módulo de captura de imágenes (véase § 6.2.3) se desarrolló
la base a partir de la cual se pretende ir incorporando nuevas funcionalidades. Esta primera
aproximación tan sólo permitía capturar los flujos de datos RGB y de profundidad capturados
por Kinect mediante la plataforma O PEN NI así como su renderizado por pantalla a través del
módulo de GLUT (módulo de OpenGL). Sin embargo, el principal objetivo de este módulo
no es otro que la capacidad de almacenar, y no sólo mostrar, los datos que son capturados
por el dispositivo. Además, se pretende enriquecer esta información recogida mediante los
algoritmos que ofrece NiTE acerca del seguimiento de usuarios estudiados en los apartados
anteriores.
El primer paso que se llevó a cabo para afrontar esta tarea fue definir los hitos esperados de esta nueva iteración del desarrollo del módulo. A continuación se presentan los más
significativos:
Integración de NiTE:
• Seguimiento del esqueleto.
• Distinción entre píxeles pertenecientes a un usuario con los que pertenecen al
entorno.
• Procesamiento de la información de seguimiento.
Almacenamiento en ficheros de las imágenes y metadatos.
Visualización a través de la interfaz de usuario de la combinación del flujo de datos de
121
profundidad y los esqueletos de los usuarios.
Incorporación de nuevos comandos de teclado para permitir interactuar con las nuevas
funcionalidades integradas a través de la interfaz de usuario:
• Dibujar esqueleto.
• Dibujar etiqueta de estado.
• Dibujar centro de masa.
• Dibujar caja de volumen máximo de un usuario en el espacio.
• Dibujar fondo.
• Selección de que flujos de datos se desea almacenar.
• Iniciar el almacenamiento de los datos capturados.
• Mostrar el identificador del frame mostrado por pantalla.
Una vez que los hitos que deben ser alcanzados en esta segunda iteración fueron definidos,
fue necesario rediseñar algún aspecto del modelo de clases que se propuso anteriormente.
Para dar soporte a estas nuevas funcionalidades fue necesario incorporar nuevos métodos que
se encargaran de procesar y almacenar los flujos RGB y profundidad junto con sus metadatos
en ficheros así como el dibujado del esqueleto. Además, también se realizó un proceso de
reestructuración en los métodos ya existentes para integrar los aspectos relacionados con el
seguimiento y tratamiento de las articulaciones de los usuarios. En la Figura 6.23 se muestra
el modelo de clase resultante tras este proceso de análisis y diseño.
Una de las novedades más interesantes que ha sido introducida en esta iteración es la forma en la que se procesa el flujo de datos de profundidad. Hasta el momento, simplemente se
renderizaban los datos capturados por el dispositivo tras un simple procesamiento mediante
el histograma proporcionado por la plataforma O PEN NI. Sin embargo, NiTE ofrece la posibilidad de distinguir qué puntos pertenecen a un usuario y cuáles pertenecen al entorno que
le rodea. De esta forma, resultó muy interesante la idea de introducir una nueva forma de
procesar los datos de profundidad capturados por el dispositivo mediante la combinación de
ambos procesamientos. Por lo tanto, es posible producir imágenes que distingan entre aquellos píxeles que pertenecen a un usuario y los que pertenecen al entorno pintándolos de una
color diferente a la escala de grises. En la Figura 6.24 se muestra el resultado obtenido tras
aplicar ambas técnicas de procesamiento.
Una técnica muy utilizada en el análisis de secuencia de imágenes es el “background substraction”. Esta técnica consiste la eliminación del fondo o “background” y que para el objetivo de este proyecto sería realmente interesante ya que permitiría eliminar mucho ruido permitiendo así obtener mejores resultados en el clasificador de acciones. Por lo tanto, también
se ha introducido la posibilidad de eliminar de la imagen todo aquello que no fueran usuarios pintando de negro aquellos píxeles que no pertenezcan a un usuario (ver Figura 6.25).
El resultado obtenido es comúnmente conocido como “blob”.Esto resulta verdaderamente
122
Figura 6.23: Diagrama de clases del módulo de captura de imágenes (versión 2).
Figura 6.24: Resultado de la combinación de las técnicas de procesamiento.
interesante ya que reducirá sustancialmente la carga en futuras etapas del proyecto debido a
que no sería necesario realizar este proceso mediantes técnicas más complejas.
De manera similar, es posible combinar las funciones de dibujado de figuras proporcionadas por GLUT y la información acerca de la posición de cada una de las articulaciones de los
usuarios facilitada por NiTE. El resultado obtenido se puede observar en las Figuras 6.26 y
6.27. Para conseguir este resultado simplemente ha sido necesario dibujar sobre la imagen
de profundidad líneas que unen cada una de las articulaciones capturadas conformando el
123
Figura 6.25: Resultado de la eliminación del fondo.
esqueleto aproximado del usuario. Además, se han dibujado etiquetas con las coordenadas
correspondientes de cada articulación para obtener de esta forma cierta retroalimentación y
poder así comprobar la precisión de las medidas calculadas por NiTE. Por último, para estudiar de manera visual como varía el nivel de “confidence” para cada articulación que se
comentaba anteriormente (véase § 6.3.1.2.2) se ha integrado en el dibujado del esqueleto la
funcionalidad de variar la intensidad y el color de las líneas en función del valor tomado por
este parámetro.
Figura 6.26: Dibujado del esqueleto sobre la imagen de profundidad.
El último paso que queda para completar esta iteración es el de implementar la funcionalidad de guardado de imágenes tras ser capturadas y procesadas con las técnicas expuestas en
los párrafos anteriores. Para llevar a cabo esta tarea se decidió emplear un formato de imagen sencillo que permitiera guardar en crudo los valores obtenidos. Aunque en la siguiente
interacción se comprobaría que no se trata de la mejor opción, el formato elegido fue Portable PixMap format (PPM). PPM es un formato de imagen sin comprensión perteneciente
a la familia Netpbm diseñado para ser extremadamente fácil de comprender por humanos
124
Figura 6.27: Dibujado del esqueleto eliminando el fondo.
y máquinas. A continuación se muestra cómo es la estructura interna de este formato para
ejemplificar el porqué de su sencillez:
Un “número mágico” que identifica el tipo de fichero (en este caso “P3”).
Un espacio en blanco.
El ancho de la imagen especificado en caracteres ASCII.
Un espacio en blanco.
El alto de la imagen especificado en caracteres ASCII.
Espacio en blanco.
“Maxval”: El valor máximo del color especificado en caracteres ASCII.
Valores de los componentes de cada píxel en caracteres ASCII.
Como se puede apreciar en el ejemplo 6.4 y su correspondiente imagen (Figura 6.28), PPM
es un formato verdaderamente sencillo de entender y procesar. Este hecho permitió poder
generar los ficheros sin herramientas especializadas en el tratamiento de imágenes, ya que al
estar codificado en ASCII, era posible emplear directamente las funciones facilitadas por las
librerías estándar de C++. Además, como ofrece la posibilidad de incluir comentarios dentro
del fichero, la inclusión de los metadatos asociados a cada imagen era realmente sencilla de
realizar con la ventaja de estar contenida en el mismo fichero que los propios datos.
Figura 6.28: Imagen correspondiente al ejemplo 6.4.
125
P3
# The P3 means colors are in ASCII , then 3 columns and 2 rows ,
# then 255 for max color , then RGB triplets
3 2
255
255
0
0
0 255
0
0
0 255
255 255
0
255 255 255
0
0
0
Listado 6.4: Ejemplo del formato PPM.
Por último, para tener organizados los ficheros creados y facilitar así su posterior tratamiento, se ha decidido crear una estructura de directorios que permita separar las imágenes
según el tipo de imagen (RGB o de profundidad). Para ello es necesario indicar como argumentos del programa la ruta y el nombre base dónde se desea que trabaje. Como se puede
apreciar en la Figura 6.29, se crean dos directorios (uno para cada tipo de imagen) donde
se guardarán los ficheros con un nombre significativo. Este nombre estará compuesto por el
nombre base que se ha pasado como argumento, el índice dentro de la secuencia de frames
que le pertenece y por último una marca temporal. Esta decisión fue tomada para que posteriormente sea posible obtener la información más importante sobre una imagen sin necesidad
de abrir el fichero para conocerla.
Figura 6.29: Estructura de directorios.
6.3.2.2.
Tercera versión
La tercera iteración del módulo de captura de imágenes está destinada a la mejora y corrección de problemas. Tras la realización de diversas pruebas de rendimiento, se identificaron
dos contratiempos importantes:
Pérdida de frames debido al procesamiento y la generación de los frames y de los
ficheros.
126
Consumo de memoria excesivo de los ficheros PPM de las imágenes RGB y de profundidad.
No obstante, debido a la complejidad y a la gran variedad de cambios que supone la
resolución de estos dos problemas, se ha decidido abordarlos por separado posponiendo la
solución al problema del excesivo consumo de memoria para la siguiente iteración.
En primer lugar, es importante destacar que la pérdida de frames es un problema potencialmente crítico para el sistema que se está desarrollando ya que se estarían produciendo
saltos en los datos capturados que impedirían obtener la secuencia completa de una acción
y, por lo tanto, espacios temporales en los que el sistema no tendrá información que cotejar.
Como ya se trató en la sección acerca de las especificaciones técnicas (véase § 4.1.4), Kinect
tiene una tasa de captura de 30 frames por segundo. Por consiguiente, teóricamente se deben generar y procesar aproximadamente tres mil ficheros por segundo. No obstante, estas
cifras son siempre teóricas ya que alcanzar esta tasa es realmente difícil debido a diversas
causas:
Retrasos debidos a la comunicación entre Kinect y el ordenador.
Las características técnicas del ordenador (procesador, tarjeta gráfica, etc.) y otros procesos que se encuentren ejecutando en ese momento..
y NiTE introduce carga computacional al realizar tareas de preprocesado y
refinamiento en los datos capturados.
O PEN NI
El procesamiento que se le está realizando a cada frame y su posterior almacenamiento
se está llevando a cabo de manera secuencial.
Como se puede apreciar, el problema más evidente que está produciendo esta gran pérdida
de frames es el procesamiento secuencial. Para solucionar este problema es necesario tener
claro cuál es el orden lógico en la realización de las diversas tareas que se están llevando
a cabo. Como se puede apreciar en la Figura 6.30, cuando se capturan los frames RGB y
de profundidad correspondientes, estos no vuelven a ser capturados hasta que no se hayan
realizado todas las tareas de procesado de las imágenes y almacenamiento en ficheros PPM.
Es en este momento cuando resulta crucial el buen entendimiento acerca de cómo funciona
O PEN NI y NiTE, ya que cuando alguno de ellos recibe un frame, este se encontrará accesible
sólo hasta que otro nuevo frame sea recibido. Por ejemplo, si en un momento dado se están
procesando los frames 13500 y 13521, cuando estos terminen su tratamiento correspondiente, los siguientes frames que estarán disponibles podrían ser el 14001 y 140022. De este
modo, esos 501 frames que no han sido solicitados ya no podrán ser recuperados.
La solución propuesta a este problema consiste en paralelizar algunos aspectos en el tratamiento de las imágenes. De este modo, se podrán diferenciar tres tipos de hilos que han sido
implementado mediante la librería POSIX:
127
Figura 6.30: Modelo de flujo de la ejecución secuencial.
Hilo principal: Encargado de recoger los frames disponibles y realizar las tareas principales del programa.
Hilo procesamiento RGB: Encargado de procesar el frame RGB enviado por el hilo
principal y generar el fichero PPM correspondiente.
Hilo procesamiento profundidad: Encargado de procesar el frame de profundidad
enviado por el hilo principal y generar el fichero PPM correspondiente.
De esta forma, cada vez que el hilo principal recibe nuevos frames generará dos nuevos
hilos (uno por cada tipo de frame) y almacenará sus referencias en una lista. Posteriormente,
cuando el hilo principal reciba una señal de finalización, esperará a que todos los hilos para
los que tiene una referencia almacenada en la lista hayan terminado. Como se puede apreciar,
entre los hilos hijos nunca habrá problemas de sincronización ya que el orden en que se
ejecuten o terminen no afectará a los demás ni al resultado esperado.
Tras realizar de nuevo las pruebas de rendimiento, se observa que la tasa de frames que son
procesados ha aumentado sustancialmente consiguiendo no perder ningún frame ofrecido por
O PEN NI y NiTE. De este modo, se ha logrado solucionar el problema de pérdida de frames
alcanzando una tasa de procesamiento por encima de la necesaria para lograr una secuencia
de imágenes óptima para su posterior tratamiento y clasificación por acciones.
128
Figura 6.31: Modelo de flujo de la ejecución concurrente.
6.3.2.3.
Cuarta versión
Como ya se adelantaba anteriormente, se ha identificado un serio problema que provoca
un consumo excesivo de memoria. De esta forma, uno de los principales objetivos de esta
nueva iteración será el de encontrar una solución apropiada a este problema así como llevar
a cabo los cambios que puede acarrear. Además, se aprovechará para introducir una nueva
funcionalidad que será de gran utilidad para el posterior reconocimiento de acciones.
Anteriormente se explicó como se estructuraba internamente PPM. Además también se
indicaba que este formato no utilizaba ningún tipo de comprensión. Este detalle es muy
importante, ya que debido a la resolución de imagen con la que se está trabajando, se generarán ficheros realmente pesados. Para ser más concretos, tras realizar diversas pruebas se
ha establecido que los ficheros resultantes se encuentran con un tamaño que oscila aproximadamente entre tres y cuatro megabytes. Para ser más conscientes del impacto que puede
conllevar este tamaño de fichero, se han realizado diversas pruebas para comprobar el comportamiento real que presenta el módulo con este formato de imagen. A continuación se
muestra una tabla con los resultados más relevantes (ver Cuadro 6.2).
En vista de los resultados obtenidos, este consumo es totalmente insostenible a largo plazo
ya que mover tal cantidad de ficheros con este tamaño sería terriblemente lento además de las
129
Tiempo (minutos)
No ficheros
Tamaño total (MB)
0,5
1
3
5
10
1300
2694
8673
12461
26643
4680
9429
32090.1
48587.9
102309.3
Cuadro 6.2: Resultados obtenidos con ficheros PPM.
grandes cantidades de espacio de almacenamiento que requeriría. La solución al problema
pasa por emplear un formato de imagen más eficiente y que permita conservar la sencillez y
versatilidad que ofrecía PPM. Tras realizar un pequeño estudio de las diferentes posibilidades
existentes, se ha llegado a la conclusión de que el formato de imagen más conveniente para
el módulo de captura de imágenes es JPEG. JPEG, además de ser un formato de archivo, es un
método de comprensión que utiliza habitualmente un algoritmo de compresión con pérdida
para reducir el tamaño de los archivos de imágenes. Esto quiere decir que al descomprimir o
visualizar la imagen, no se obtiene exactamente la misma imagen de la que se partía antes de
la compresión. No obstante, existen también tres variantes del estándar JPEG que comprimen
la imagen sin pérdida de datos como pueden ser JPEG2000, JPEG-LS y Lossless JPEG.
Tras realizar diferentes pruebas para encontrar el equilibrio perfecto entre calidad y tamaño, se pudo comprobar que para los objetivos del proyecto bastaba con emplear JPEG y no
sus variantes. De esta forma, se asume que la pérdida de calidad en la imagen que supone
la utilización de esta técnica de comprensión no resultará ningún problema para la etapa de
reconocimiento de acciones.
Una vez que el nuevo formato a utilizar estaba claro, llega el momento de integrarlo
en el módulo. Para acometer esta tarea se han empleado las funcionalidades ofrecidas por
OpenCV, biblioteca libre enfocada en la visión artificial. La decisión de emplear OpenCV
estaba basada en que proporcionaba un entorno de desarrollo fácil de utilizar y altamente
eficiente, además de la interoperabilidad que ofrece al tratarse de una distribución multiplataforma disponible para GNU/Linux, Mac OS X y Windows.
Una vez que esta nueva funcionalidad ya ha sido integrada en el módulo, se han vuelto
a realizar las mismas pruebas de rendimiento que se realizaron con los ficheros PPM observando que la mejora en el consumo de memoria e incluso en el rendimiento que presenta el
módulo durante su ejecución ha sido realmente impactante. A continuación se muestra una
tabla con los resultados más relevantes (ver Cuadro 6.3).
En Figura 6.32 y Figura 6.33 se muestran unas gráficas comparativas de las estimaciones
realizadas para el número de ficheros y tamaño en Megabytes respectivamente según el tipo
de formato.
130
Tiempo (minutos)
No ficheros
Tamaño total (MB)
0,5
1
3
5
10
1594
3190
9564
15944
31882
68
159
443.4
709.5
1434.7
Cuadro 6.3: Resultados obtenidos con ficheros JPEG.
Figura 6.32: Gráfico comparativo del no de ficheros entre el formato PPM y JPEG.
No obstante, al introducir esta mejora es necesario realizar más cambios en el módulo.
Hasta este momento todos los metadatos generados para cada frame eran almacenados como un comentario en el interior del fichero PPM correspondiente al frame. Sin embargo, con
JPEG esta opción no es una alternativa viable. Por lo tanto se han tenido que plantear diferentes soluciones que permitieran almacenar la imagen y su correspondiente metainformación
de una manera eficiente y sencilla de procesar posteriormente. Las alternativas mas viables
son las siguientes:
Generación de un contenedor multimedia en el que se almacenará en forma de vídeo
los diferentes frames junto su correspondiente metainformación.
Generación de dos ficheros por cada frame de profundidad:
• Fichero JPEG correspondiente al frame.
• Fichero XML que contenga la metainformación correspondiente al frame.
Aunque la primera opción resulta realmente atractiva ya que tan sólo sería necesario ge131
Figura 6.33: Gráfico comparativo del tamaño total en megabytes entre el formato PPM y
JPEG.
nerar un solo fichero de vídeo para cada flujo de información, en las etapas siguientes del
proyecto se comprobará que esta no es la mejor solución ya que será necesario trabajar a
nivel de fichero de imagen por cada frame capturado. Por lo tanto, se ha decidido integrar la
funcionalidad al módulo de almacenar esta metainformación a través de ficheros XML.
Para llevar a cabo esta tarea, el primer paso que ha sido necesario acometer es decidir qué
librería es la mas interesante para perder el mínimo de eficiencia posible. De este modo, se
ha realizado un análisis de las principales alternativas existentes para el lenguaje de programación que está siendo empleado para el desarrollo de este módulo (C++). A continuación
se presenta un breve resumen de las librerías más interesantes así como sus principales características:
Xerces6 : Ofrece una gran cantidad de funcionalidades (especialmente cuando es combinada con Xalan), pero por el contrario es muy pesada y fuerza al programador a la
gestión de memoria.
RapidXML7 : Excelente para realizar tareas de análisis in situ, pero no es una opción
eficiente en la generación de ficheros XML.
Boost XML8 : Herramienta potente y excelente sintaxis de C++. Sin embargo, el soporte y documentación acerca de la librería es insuficiente.
6
http://xerces.apache.org/
http://rapidxml.sourceforge.net/
8
http://svn.boost.org/svn/boost/trunk/boost/
7
132
Libxml9 : Buena herramienta para la generación, pero es demasiado pesada si tan solo
se requieren realizar tareas de generación de ficheros XML.
XiMOL10 : Herramienta fácil de emplear, aunque para realizar ciertas funciones puede
resultar demasiado simple.
TinyXML11 : Herramienta de licencia libre, ligera, simple e independiente del sistema
operativo.
Tras este análisis, se ha decidido emplear la librería TinyXML debido a que es la solución
que presenta un mayor equilibrio entre sencillez, tamaño y versatilidad. Una vez que se
ha decidido que TinyXML es la solución más apropiada para integrar la funcionalidad de
generación de ficheros XML en el módulo de captura de imágenes, es el momento de diseñar
la estructura más conveniente de estos ficheros. En el Listado 6.5 se muestra cuál ha sido la
estructura elegida, intentando en todo momento generar ficheros que sean fáciles de manejar
e interpretar.
Para finalizar esta iteración, y cómo ya se anticipaba antes, se ha aprovechado para introducir una nueva funcionalidad al módulo. Esta funcionalidad consiste en ofrecer la posibilidad
de generar ficheros de imagen en la cual sólo se represente el esqueleto correspondiente a los
usuarios que aparecen en la escena (ver Figura 6.34). Para ello, se ha hecho uso de las funciones ofrecidas por la librería OpenCV y la metainformación proporcionada por el middleware
NiTE acerca de la posición aproximada de las articulaciones de los usuarios detectados. De
esta forma, fue necesario incluir algún método al modelo de clases así como rediseñar la
forma en la que se construía la estructura de directorios. En el Anexo § B se muestran las
versiones definitivas de ambos diseños.
6.4 Iteración 4: Módulo de reconocimiento de acciones
En esta sección se expone cómo se ha llevado a cabo el diseño e implementación del
módulo de reconocimiento de acciones. Para ello se ha dividido en dos subsecciones que
se distribuyen de la siguiente manera: La primera describe el modelo conceptual que se ha
seguido así como sus principales características. Es muy importante mencionar que se ha
empleado el trabajo desarrollado por Jesús Martínez Del Rincón, Jean-Christophe Nebel y
María Jesús Santofimia Romero12 , por lo que no ha sido necesario llevar el desarrollo desde
cero sino adaptarlo a la solución requerida.
En la segunda se expone el proceso que se ha seguido para la correcta implementación del
mismo. A lo largo de esta subsección se detallaran las diferentes fases y etapas en las que se
9
http://xmlsoft.org/
http://ximol.sourceforge.net/
11
http://www.grinninglizard.com/tinyxml/
12
Código facilitado en la estancia de María José Santofimia Romero en la Kingston University London en
Digital Imaging Research Centre (DIRC) durante el año 2011.
10
133
< frame >
< timestamp > XXX </ timestamp >
< frame_index > XXX </ frame_index >
< users >
< user >
< id > XXX </ id >
< isNew > XXX </ isNew >
< isVisible > XXX </ isVisible >
< isLost > XXX </ isLost >
< skeleton_state > XXX </ skeleton_state >
< joints >
< joint_head >
< position >
< positionx > XXX </ positionx >
< positiony > XXX </ positiony >
< positionz > XXX </ positionz >
< po s i t io n _ co n f id e n ce > XXX </ p os i t i on _ c on f i de n c e >
</ position >
< orientation >
< orientationx > XXX </ orientationx >
< orientationy > XXX </ orientationy >
< orientationz > XXX </ orientationz >
< orientationw > XXX </ orientationw >
< o r i e n t a t i o n _ c o n f i d e n c e > XXX </ o r i e n t a t i o n _ c o n f i d e n c e >
</ orientation >
</ joint_head >
...
</ joints >
</ user >
< user >
...
</ user >
</ users >
</ frame >
Listado 6.5: Estructura fichero XML.
ha dividido el módulo acompañado de diversas comparativas, descripción de las herramientas utilizadas además de numerosos diagramas que facilitarán su completa comprensión.
Finalmente se describe con un alto nivel de detalle los aspectos más relevantes de la solución
generada así como el funcionamiento interno de los diversos submódulos de los que está
compuesto.
6.4.1
Modelo Bag of Words
Entre las diferentes técnicas de aprendizaje que pueden ser aplicadas para realizar la tarea de reconocimiento de acciones humanas [WBR07] [YKS08], el framework Bag of
Words (B OW) [Joa98a] [CDF+ 04] es particularmente adecuado para el desarrollo del módulo de reconocimiento de acciones del presente proyecto. Se ha demostrado que B OW [KB10]
[LAS08] [LP07] es uno de los métodos más precisos para el reconocimiento de acciones,
134
Figura 6.34: Funcionalidad introducida en el módulo (versión 4).
capaz de actuar en una gran variedad de escenarios con un coste computacional realmente
bajo. Al contrario de otras técnicas de clasificación, B OW no requiere ningún algoritmo adicional de segmentación, lo cuál simplifica la tarea de visión por computador haciendo, por lo
tanto, posible trabajar directamente con datos de vídeo. Como consecuencia, la metodología
de B OW ha sido elegida cómo base del presente módulo de visión por computador para el
reconocimiento de acciones.
Es importante destacar que el modelo B OW surgió como una aproximación motivada en
métodos de categorización de texto [Joa98b] [TK02] [LSST+ 02] [CSTL02]. Sin embargo,
la idea de adaptar la categorización de texto a la categorización de vídeo no es algo nuevo.
Un ejemplo de ello es [ZRZ02] dónde se investigó la cuantificación y caracterización de
vectores de pequeñas ventanas cuadradas en imágenes llamadas keyblocks. En este estudio
demostraron que estas características producían más resultados orientados a la semántica que
las aproximaciones basadas en el color y la textura cuando realizaban la combinación con
histogramas y modelos análogos de la categorización de texto. No obstante, a diferencia del
enfoque que se propone a continuación, los keyblocks que generaban no poseían propiedades
de invarianza.
En los siguientes párrafos se describe la aproximación basada en estás técnicas que ha sido
llevada para la implementación del módulo de reconocimiento de acciones. Para ello se hará
uso de unos simples gráficos que ayudarán a facilitar la comprensión del modelo propuesto.
En la Figura 6.35 se muestra el estado inicial del ejemplo.
135
Figura 6.35: Imágenes originales. Extraídas de “Bag-of-words models” (S. Lazebnik, A.
Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero Navarro.
En la categorización de vídeo, de manera similar a la mayoría de las técnicas de aprendizaje, B OW confía en la etapa de entrenamiento para aprender a discriminar características de
una secuencia de vídeo y en la etapa de clasificación que permitirá llevar a cabo el proceso de
reconocimiento. De esta forma, la etapa de entrenamiento que se presenta en este proyecto
consiste en tres pasos bien diferenciados: Creación de un codebook de descriptores de características, generación de un descriptor por cada vídeo que representa una acción disponible
en el dataset de entrenamiento y finalmente entrenar el clasificador con los descriptores de
los vídeos que hayan sido obtenidos. De esta forma, el flujo de trabajo comenzará con la extracción de las características en cada vídeo previamente etiquetado perteneciente al dataset
de entrenamiento (ver Figura 6.36).
Figura 6.36: Extracción de características. Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero Navarro.
Una vez que los las características hayan sido extraídas de los vídeos, se lleva a cabo un
proceso de clustering [KMN+ 02] para agrupar y cuantificar los descriptores obtenidos y así
generar un diccionario (codebook) que proporcionará el vocabulario mediante el cual los datos serán descritos (ver Figura 6.37). Finalmente, cada vídeo del dataset de entrenamiento es
descrito en términos de las nuevas “palabras” del diccionario generado y que posteriormente
será empleado para realizar el proceso de entrenamiento de un clasificador lineal Support
Vector Machines (SVM). De esta forma, el clasificador SVM aprenderá por cada acción defi136
nida el hiperplano óptimo que permita obtener la mejor separación entre los diferentes tipos
de acciones.
Figura 6.37: Generación del diccionario (clustering). Extraídas de “Bag-of-words models”
(S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero
Navarro.
Durante la etapa de clasificación propuesta, las acciones realizadas en los vídeos a analizar
serán reconocidas mediante la aplicación de un procedimiento similar al empleado en la etapa
de entrenamiento. Mediante la aplicación de una técnica de extracción de características
que será descrita en los siguientes apartados se obtendrán los conjuntos de característicos
más significativos de cada secuencia de vídeo. Posteriormente, estas características serán
cuantificadas usando el diccionario (codebook) para generar los descriptores que caracterizan
a cada secuencia de vídeo (ver Figura 6.38).
Finalmente, estos descriptores serán entregados al clasificador SVM con el fin último de
cuantificar la similitud entre cada nueva secuencia de vídeo y cada tipo de acción para las
que haya sido entrenado (ver Figura 6.39). Como resultado se obtendrá una lista de etiquetas
que describirán el la acción que se está realizando en el vídeo.
137
Figura 6.38: Cuantificación de características. Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero Navarro.
Figura 6.39: Clasificador SVM. Extraídas de “Bag-of-words models” (S. Lazebnik, A. Torralba, L. Fei-Fei, D. Lowe, C. Szurka) y adaptadas por Rubén Cantarero Navarro.
6.4.2
Implementación de la solución propuesta
Una vez que los conceptos clave del modelo B OW para el reconocimiento de acciones
expuesto en el apartado anterior ha sido entendido, es el momento de llevar a cabo su implementación. Para ello se han empleado diferentes herramientas como “FFmpeg”, “stipdept”,
“Ann”, “bsvm”, etc que serán descritas en las siguientes subsecciones a lo largo de cada fase
del proceso en el que son empleadas.
No obstante, es importante destacar que para conectar cada una de estas fases y llevar a cabo todo el procedimiento se ha empleado Practical Extraction and Report Language (PERL).
PERL es un lenguaje de propósito general que toma características del lenguaje C, del lenguaje interpretado bourne shell (sh), AWK, sed, Lisp y, en un grado inferior, de muchos otros
lenguajes de programación. Originalmente fue desarrollado para la manipulación de texto y
que hoy en día también es ampliamente utilizado para realizar una gran variedad de tareas
incluyendo administración de sistemas, desarrollo web, programación en red, desarrollo de
GUI, etc. Entre sus principales, características las más destacadas son que es fácil de usar,
soporta tanto la programación estructurada como la programación orientada a objetos y la
programación funcional, tiene incorporado un poderoso sistema de procesamiento de texto
y una enorme colección de módulos disponibles. A continuación se exponen algunas de las
138
ventajas más destacadas que se han deducido tras realizar un breve análisis sobre PERL:
Reduce el ciclo de programación: No es necesario compilar la aplicación, PERL es
interpretado y por ello, los programas pueden ser ejecutados en muchas plataformas
sin necesidad de ser recompilado.
Es portable: Hay un interpretador de PERL para cada variedad de Unix y Windows,
por lo que los cambios que deben ser realizados a una aplicación escrita en este lenguaje son mínimos o nulos.
Potencia y sencillez: Permite realizar muchas tareas que serían más complejas en otros
lenguajes como C o Shell, como por ejemplo la manipulación de archivos de texto.
La sintaxis: La sintaxis de otros lenguajes como Shell, Sed, AWK o C es muy similar
a la de PERL. Inclusive cuenta con herramientas para traducir código de Sed y AWK a
PERL de manera automática.
Extensible: Hay una gran variedad de módulos disponibles que pueden ser incluidos
en las aplicaciones de manera muy sencilla, dando además la posibilidad de desarrollar
módulos propios.
Gratuito.
Como se puede apreciar, las ventajas que ofrece PERL son numerosas. No obstante, una
de las más importantes y que ha sido decisiva en la decisión de emplear PERL y no otro
lenguaje es su gran destreza en el procesado de texto y manipulación de archivos además
de su portabilidad. En los siguientes apartados se podrá valorar como esta característica será
crucial para el desarrollo de los scripts necesarios de una manera cómoda, sencilla y eficiente.
Por el contrario, ha sido necesario llevar a cabo un trabajo extra ya que la utilización de este
lenguaje conlleva una curva de aprendizaje alta debido a la gran cantidad de funcionalidades
que ofrece.
Para llevar a cabo la implementación de un sistema basado en el modelo de B OW ha sido
necesario analizar y diseñar las diferentes fases de las que está compuesto este procedimiento
y que este módulo de reconocimiento de acciones deberá llevar a cabo (ver Figura 6.40).
Desde un punto de vista con un nivel de abstracción más elevado se pueden distinguir las
siguientes:
Configuración inicial: Preparación del entorno para llevar a cabo las tareas necesarias.
Segmentación de vídeos: Tratamiento de los vídeos para su posterior procesamiento.
Extracción de características: Obtención de los descriptores que caracterizan a una
secuencia de vídeo.
Clustering: Realización del proceso de clustering con los descriptores obtenidos.
139
Proceso de reconocimiento/clasificación: Fase de clasificación de las acciones a partir de un clasificador Support Vector Machines (SVM).
Figura 6.40: Diagrama de flujo de la solución propuesta.
No obstante, cada una de estas fases del módulo de reconocimiento de acciones así como
la subtareas de más bajo nivel en las que se subdividen serán descritas en las siguientes
subsecciones con todo nivel de detalle.
Un concepto importante que debe ser entendido son las etapas o modalidades en las que
se divide el proceso necesario para llevar a cabo el reconocimiento y clasificación de acciones. De esta forma se pueden distinguir dos etapas que estarán compuestas por algunas de
las diferentes fases descritas anteriormente. Por lo tanto, este módulo de reconocimiento de
acciones deberá dar soporte a ambas modalidades permitiendo realizar las fases correspondientes en función de la etapa que se este llevando a cabo.
La etapa inicial, también conocida como etapa de “training”, es la encargada de entrenar
al sistema para el posterior reconocimiento y clasificación de acciones que será llevado a
cabo en la siguiente etapa. Por lo tanto, esta etapa de entrenamiento deberá ser realizada tan
140
solo una vez para obtener los elementos que serán requeridos en la realización de la segunda
etapa. Para ello generará los siguientes elementos a partir de un dataset de entrenamiento:
Clusters: Asocia el resultado entre los descriptores de los vídeos de entrenamiento
y los clusters que son formados, generando de esta forma el diccionario o codebook.
Posteriormente, en la siguiente etapa estos clusters serán empleados para medir la
distancia con los clusters obtenidos de los descriptores generados mediante los vídeos
de prueba.
Modelo: Este modelo será empleado en la segunda etapa por el clasificador SVM. De
esta forma, el modelo generado permitirá al clasificador desempeñar su tarea a partir
del cual distinguirá a qué tipo de acción se corresponde en función de este modelo los
datos que le son pasados.
La segunda etapa, también conocida como etapa de “testing”, será realizada tantas veces
como conjuntos de vídeos se desee procesar y clasificar. Para ello, hará uso de los elementos
obtenidos en la etapa de entrenamiento que servirán como base para tomar las decisiones
necesarias en las fases de clustering y clasificación de la segunda etapa.
Aunque ambas etapas serán desgranadas en mayor profundidad en las siguientes subsecciones a través de la explicación de las diferentes fases de las que se componen, este concepto
de training y testing es clave para comprender el proceso necesario para la realización de la
clasificación de acciones basado en el modelo de B OW descrito anteriormente. En la Figura 6.41 se presenta una visión general del orden y los pasos requeridos en este proceso. Como
se puede apreciar, ambas etapas se encuentran bien diferenciadas. Aunque las fases que deben llevarse a cabo son similares, los resultados y finalidad de alguna de ellas difieren un
poco. A continuación se presenta a modo de resumen las principales diferencias entre ambas
etapas para facilitar la comprensión de este proceso:
Datos de entrada: En la etapa de training se emplea un dataset de entrenamiento
mientras que en la etapa de testing se emplea el conjunto de vídeos que se desea clasificar.
Número de veces que se realiza: La etapa de training se realiza una vez para entrenar
al sistema a través de la generación de los elementos de clustering y el modelo del clasificador SVM, mientras que la etapa de testing se realiza tantas veces como conjuntos
de vídeos se desee clasificar.
Fase de clustering (Fase 4): En la etapa de training se obtiene un conjunto de clusters
a partir de los descriptores de los vídeos del dataset de entrenamiento obtenidos en
la fase de extracción de características, mientras que en la etapa de testing se emplea
estos clusters obtenidos en la etapa de training para procesar los descriptores de los
vídeos que se desean clasificar obtenidos en la fase de extracción de características.
141
Fase de reconocimiento (Fase 5): En la etapa de training se obtiene un modelo para
el clasificador SVM de las acciones definidas para ser clasificadas, mientras que en
la etapa de testing se usa en el clasificador SVM el modelo obtenido en la etapa de
training para clasificar en función de las acciones previamente definidas.
Figura 6.41: Diagrama de flujo de según las etapas.
Una vez que se han presentado brevemente las diferentes fases a las que este módulo de
reconocimiento de imágenes debe dar soporte así como las dos etapas necesarias para llevar a cabo el proceso de clasificación, es el momento de definir las acciones que se desean
de identificar. Para ello, se ha empleado las acciones definidas por el dataset INRIA Xmas
Motion Acquisition Sequences (IXMAS)13 . IXMAS es un dataset público desarrollado por
Institut National de Recherche en Informatique et en Automatique (INRIA) y que será empleado posteriormente para llevar a cabo la etapa de training. No obstante, este dataset será
explicado con mayor detalle así como el proceso seguido para el entrenamiento en el capítulo de resultados (véase § 7). A continuación se describen las quince acciones de la vida
cotidiana definidas por IXMAS así como su correspondiente identificador que será empleado
más adelante en el proceso de etiquetado:
(0) Nada: No se está realizando ninguna acción. El usuario está parado.
(1) Mirar reloj: El usuario realiza la acción de mirar el reloj de su muñeca.
(2) Cruzarse de brazos: El usuario realiza la acción de cruzarse de brazos.
(3) Rascarse la cabeza: El usuario realiza la acción de rascarse la cabeza.
(4) Sentarse: El usuario realiza la acción de sentarse en el suelo.
13
http://4drepository.inrialpes.fr/public/viewgroup/6
142
(5) Levantarse: El usuario realiza la acción de levantarse.
(6) Darse la vuelta: El usuario realiza la acción de darse la vuelta sobre sí mismo.
(7) Caminar: El usuario realiza la acción de caminar.
(8) Saludar: El usuario realiza la acción de saludar con su mano.
(9) Dar puñetazo: El usuario realiza la acción de dar puñetazos.
(10) Dar patada: El usuario realiza la acción de dar patadas.
(11) Señalar: El usuario realiza la acción de señalar con el dedo.
(12) Coger: El usuario realiza la acción de coger algo del suelo, una mesa, etc.
(13) Lanzar: El usuario realiza la acción de lanzar algo sobre su cabeza.
(14) Lanzar: El usuario realiza la acción de lanzar algo de abajo hacia arriba.
Con todos los conceptos analizados y entendidos, tan solo queda un tarea antes de comenzar a desarrollar cada una de las fases que componen las etapas de training y testing
anteriormente descritas: Definir la estructura interna del módulo de reconocimiento de acciones. Para ello se ha decidido implementar diferentes submódulos o scripts que serán los
encargados de realizar las tareas especificas de cada fase. De este modo, habrá un programa
principal (“run_all”) encargado de gestionar y ejecutar cada uno de los submódulos desarrollados mediante PERL. A continuación se muestra una lista de estos submódulos según la fase
a la que pertenecen y que en los siguientes apartados serán explicados (ver Figura 6.42):
Fase de segmentación de vídeos: build_segmented_videos.
Fase de extracción de características: avi2stip, stip2featuredescriptors y stip2hof.
Fase de clustering: new_sequence_cluster_choice_k.
Fase de reconocimiento/clasificación: all_rcg_same_file, norm_hist_smallut2libsvm,
norm_hist_biglut2libsvm y recognition_from_cluster_all.
El principal motivo por el que se ha seguido este diseño es tener todas las fases y sus
tareas correspondientes bien compartimentadas, facilitando de este modo su comprensión,
manipulación y depuración. Además, gracias a este diseño se pueden definir cuáles son las
entradas y salidas de cada submódulo o tarea, ofreciendo por lo tanto la capacidad de remplazar un módulo concreto por otro cuyas entradas y salidas sean las mismas. Este hecho ha
sido realmente útil a lo largo del proyecto ya que permite depurar la solución propuesta así
como solucionar los errores que se han ido identificado.
6.4.2.1.
Fase 1: Configuración inicial
Esta fase será idéntica tanto para la etapa de training como para la etapa de testing. Aunque
esta fase no es parte del modelo de B OW, sino una fase específica del sistema a desarrollar, su
143
Figura 6.42: Módulos del sistema.
realización es crucial ya que su principal objetivo es el de preparar todo el entorno del sistema
para llevar a cabo las siguientes fases. Para ello se limpian los directorios correspondientes
borrando los archivos generados de anteriores ejecuciones y creando a su vez los directorios
correspondientes para la nueva ejecución, dejando así un estado consistente para obtener un
correcto funcionamiento.
En la Figura 6.43 se representa cómo es la estructura interna de directorios en el que
trabajará el sistema. Como se puede apreciar, se ha intentado mantener una estructura similar
a las diferentes fases de las que se compone el proceso de reconocimiento/clasificación de
vídeos. Esta decisión de diseño ha sido de vital importancia ya que el sistema procesará
y generará una gran cantidad de archivos a lo largo del proceso y por lo tanto mantener
todo organizado será crucial para obtener un código claro y comprensible en los diferentes
submódulos.
6.4.2.2.
Fase 2: Segmentación de vídeos
Esta fase será idéntica tanto para la etapa de training como para la etapa de testing. Para
desempeñar esta fase se ha desarrollado un programa en PERL (buil_segmented_videos) que
será ejecutado por el programa principal tantas veces como ficheros de texto haya disponibles
en el directorio /videos/truth. Estos ficheros tendrán un nombre con una estructura concreta, ACTOR_frame_segmented.txt, dónde “ACTOR” será el nombre del vídeo. La estructura
interna de estos ficheros también se encuentra predefinida: Cada línea estará compuesta por
el número del frame donde comienza la acción, un espacio en blanco, el número de frame
donde finaliza la acción, un espacio en blanco y el identificador de la acción que se está lle144
Figura 6.43: Estructura de directorios de la solución propuesta.
vando a cabo (véase § 7.1). En el Listado 6.6 se muestra un pequeño ejemplo para facilitar
su comprensión:
Frames del 0 al 220: El usuario no esta realizando ninguna acción.
Frames del 220 al 271: El usuario se encuentra caminando.
Frames del 271 al 310: El usuario ha cogido algún objeto.
Frames del 310 al 327: El usuario está caminando
1
2
3
4
0 220 0
220 271 7
271 310 12
310 327 7
Listado 6.6: Estructura fichero ACTOR_frame_segmented.txt.
La finalidad del programa build_segmented_videos es segmentar los vídeos que contienen
una secuencia de acciones (se encuentran en el directorio /videos) para los cuáles hay un
fichero en el directorio /videos/truth en vídeos más pequeños correspondientes a una única
145
acción. Para indicar cómo deben ser descompuestos estos vídeos se hace uso del fichero
correspondiente donde se indican los frames de inicio y fin de la acción.
Para realizar esta tarea será necesario en primer lugar descomponer cada vídeo a segmentar
en frames, los cuales serán almacenados temporalmente en el directorio /videos/segmented_videos/images/ con un nombre significativo que permita posteriormente ser procesadas por
un procesador de vídeo. Como la tasa de frames por segundo es conocida (en el caso de
Kinect es de 30 frames/segundo), se obtendrán treinta imágenes por cada segundo de vídeo.
Finalmente, el fichero de vídeo resultante tras unir estos frames en vídeos será almacenado en
el directorio /videos/segmented_videos/ACTOR/ACTOR_indice_identificadorDeAcción.avi.
En la Figura 6.44 se muestra un diagrama de fujo dónde se muestra el proceso llevado a cabo
por este programa.
Figura 6.44: Diagrama de flujo de build_segmented_videos.
Continuando con el ejemplo anterior, el proceso que se seguiría para descomponer un
vídeo llamado pepe.avi con su correspondiente fichero pepe_frame_segmented.txt (ver Listado 6.6) sería el siguiente:
146
Paso 1: Se crea un directorio llamado pepe en /videos/segmented_videos/.
Paso 2: Se crea un directorio llamado images en /videos/segmented_videos/.
Paso 3: Se fragmenta el vídeo /videos/pepe.avi en frames que serán almacenados en
/videos/segmented_videos/images/.
Paso 4: Se crea un vídeo en el que el usuario no hace nada llamado pepe_000_0.avi en
/videos/segmented_videos/pepe/ a partir de los frames correspondientes almacenados
en /videos/segmented_videos/images/.
Paso 5: Se crea un vídeo en el que el usuario está andando llamado pepe_001_7.avi en
/videos/segmented_videos/pepe/ a partir de los frames correspondientes almacenados
en /videos/segmented_videos/images/.
Paso 6: Se crea un vídeo en el que el usuario ha cogido algún objeto llamado pepe_002_12.avi en /videos/segmented_videos/pepe/ a partir de los frames correspondientes
almacenados en /videos/segmented_videos/images/.
Paso 7: Se crea un vídeo en el que el usuario está andando llamado pepe_003_7.avi en
/videos/segmented_videos/pepe/ a partir de los frames correspondientes almacenados
en /videos/segmented_videos/images/.
Paso 8: Se elimina el directorio /videos/segmented_videos/images/.
Como se puede apreciar, para descomponer cada vídeo con las secuencias de acciones en
vídeos con una sola acción es necesario descomponerlo antes en frames que serán almacenadas en imágenes. No obstante, llegados a este punto del proyecto y como ya se anticipaba
anteriormente (véase § 6.3.2.3) se ideó una forma para que este proceso no fuera necesario
llevarlo a cabo y así tener una menor carga computacional en el módulo de reconocimiento
de acciones. La solución consiste en almacenar los flujos de información capturados por los
sensores de Kinect directamente en imágenes por cada frame. Una vez incorporada esta modificación en el módulo de captura de imágenes, ya no será necesario este preprocesado de
los vídeos.
Finalmente, tan solo destacar que el procesador de vídeo empleado para realizar todas
estas tareas de segmentación de vídeos es FFmpeg14 . FFmpeg es un proyecto de software
libre muy popular para el tratamiento de datos multimedia que es utilizado en importantes
proyectos como son VLC, MPlayer, HandBrake, Blender, Google Chrome y muchos más.
Concretamente el componente que ha sido empleado es ffmpeg, una potente herramienta de
línea de comandos que permite realizar conversiones entre formatos de vídeo y audio.
6.4.2.3.
Procesamiento
Una vez que se ha preparado el entorno del sistema y se han dividido las secuencias de
vídeo a analizar en vídeos de una sola acción, ya está todo preparado para llevar a cabo el
14
http://www.ffmpeg.org/index.html
147
procesamiento de los mismos siguiendo el modelo B OW expuesto al comienzo de la sección
(véase § 6.4.1). Al contrario de lo que ocurría con las fases de configuración y segmentación, en las siguientes fases ya se introducen pequeñas diferencias en función de la etapa
del procesamiento en la que se encuentre el sistema: training o testing. No obstante, a lo
largo de la descripción de cada fase se describirá en detalle cuáles son esas diferencias y su
finalidad.
Llegado este punto, el programa principal (run_all) se encargará de ejecutar las siguientes
fases para cada uno de los vídeos originales una vez que se hayan generado los vídeos segmentados en la fase anterior. En la Figura 6.45 se representa a muy alto nivel cómo serán las
fases del procesamiento así como las entradas y salidas de cada una en función de la etapa en
la que se encuentre el sistema, donde ya se pueden apreciar las principales diferencias que
caracterizarán a cada etapa.
Figura 6.45: Fases de procesamiento.
6.4.2.3.1. Fase 3: Extracción de características
Antes de comenzar con la implementación de esta fase ha sido necesario llevar a cabo un
primer paso para realizar una exhaustiva investigación y completo análisis sobre las técnicas
existentes para extraer las características más significativas de una secuencia de vídeo y
así poder decidir cuál es la más apropiada para el sistema que se está desarrollado. En los
siguientes párrafos se exponen las conclusiones más importantes que se han extraído de este
análisis y el proceso llevado a cabo para aplicar la técnica escogida. De este modo, el primer
paso descrito por el modelo de B OW quedará implementado.
Cómo ya se comentaba en el capítulo de antecedentes (véase § 4.2), el análisis e interpretación de vídeo es un tema en continúa evolución y crecimiento en el campo de visión
por computador. Los enfoques tradicionales para el análisis de movimiento en secuencias
de vídeo implican principalmente el cálculo del flujo óptico [BFB94] o el seguimiento de
características [SB95] [IB98]. Aunque son efectivas para muchas tareas, ambas técnicas
tienen limitaciones. Las aproximaciones basadas en el flujo óptico capturan el primer orden
de movimiento y por lo tanto a menudo fallan cuando se producen movimientos repentinos.
La soluciones basadas en el seguimiento de características generalmente asumen una apa148
riencia constante en la imagen a lo largo del tiempo y por lo tanto se producen importantes
fallos cuando esta apariencia constante cambia, como por ejemplo en situaciones en la que
dos objetos de la imagen se unen o dividen.
De forma contraría a lo que exponen las anteriores técnicas, la mayoría de los eventos
de interés que se producen en una secuencia de vídeo están caracterizados por importantes
variaciones en los datos de las dimensiones tanto espacial como temporal. Ejemplos de ello
podrían ser escenas en las que una persona entra a una habitación, una persona se sienta,
etc. En el domino espacio-temporal, el cálculo de puntos con variaciones significativas en
las intensidades de una imagen han sido extensamente investigadas en el pasado [FG87]
[HS88] [SMB00]. Este tipo de puntos son comúnmente denominados como “puntos de interés”, los cuales constituyen importantes fuentes de información debido a la gran cantidad
de información que proporcionan para el análisis de vídeo. Como muestra de las posibilidades que ofrecen este tipo de puntos de interés y el importante éxito que han tenido, se han
desarrollado una gran variedad de aplicaciones: indexado de imágenes [SM97], estimación
del flujo óptico y seguimiento [SB95] y reconocimiento [Low99] [HVC00].
Siguiendo este razonamiento, la aproximación que se ha decidido seguir para extraer las
características de las secuencias de vídeo a analizar ha sido la extracción de puntos de interés espacio-temporales, también conocida cómo Space-time Interest Points (STIP). Esta
aproximación fue presentada por Ivan Laptev en 2005 [Lap05] basándose en la idea de
puntos de interés desarrollada por Harris y Stephens en 1988 (conocido como algoritmo Harris3D [SB11]). Con esta técnica es posible detectar estructuras espacio-temporales donde
los valores de las imágenes de una secuencia de vídeo representan variaciones significativas
en la dimensión espacio-temporal. Estos puntos resultan especialmente interesantes ya que
se centran en unos pocos puntos específicos de las imágenes que componen un vídeo. De
esta forma, mediante la integración de la componente del tiempo es posible llevar a cabo
un filtrado de los puntos de interés obtenidos y mantener tan solo aquellos que tienen una
discontinuidad temporal.
Por lo tanto, los puntos de interés de una imagen estarán definidos como píxeles con
variaciones máximas de la intensidad en los píxeles vecinos, representando esquinas, intersecciones, puntos asilados y puntos específicos en la textura de la imagen. De esta forma, es
posible extrapolar esta definición a los STIPs si se consideran una secuencia de vídeo en vez
de una imagen. Consecuentemente, los STIPs pueden ser definidos como píxeles con cambios
significativos en el espacio y tiempo, otorgando la posibilidad de representar movimientos
irregulares del cuerpo humano como rodillas, hombros, etc.
La técnica que se ha empleado en la presente fase del proyecto para generar los STIPs consiste en la búsqueda de puntos que maximicen la variación local de los valores de una imagen
sobre las dimensiones espacio-temporal de manera simultanea. De acuerdo con la teoría de
149
Laptev, una secuencia de vídeo podrá ser por tanto representada mediante la función
f : R2 xR → R
(6.3)
sobre dos dimensiones espaciales (x,y) y una dimensión temporal t. De esta manera, las
características locales espacio-temporales quedan definidas cómo bloques tridimensionales
de secuencias que contienen variaciones en el espacio y el tiempo.
Una vez que se ha decidido la técnica que va a ser empleada para la extracción de características de las secuencias de vídeo, es el momento de implementar la solución propuesta.
Es importante destacar que esa fase será idéntica para las etapas de training y testing, ya que
tanto para el dataset de prueba como para las secuencias de vídeo a clasificar será necesario extraer las características. Para ello se han elaborado tres programas en PERL (avi2stip,
stip2featuredescriptors y stip2hof ) que serán ejecutados por el programa principal. En la Figura 6.46 se representa la secuencia que debe ser llevada a acabo para la generación de los
descriptores que serán empleados en la siguiente fase (clustering).
Figura 6.46: Diagrama de la fase de extracción de características.
El programa avi2stip será el encargado de generar los ficheros que contengan los STIP’s.
En primer lugar, creará un directorio con el mismo nombre del vídeo original concatenado
con la terminación _stip en /extracted_features. El siguiente paso que llevará a cabo será
la generación de un fichero STIP para cada segmento del vídeo original que se este proce150
sando mediante el uso de la herramienta stipdept. stipdept es una aplicación desarrollada
por Ivan Laptev15 cuya finalidad es calcular los descriptores para cada uno de los puntos
de interés espacio-temporal del vídeo que le es pasado como argumento. Este programa
permite integrar la técnica elegida en los párrafos anteriores para la extracción de características. El resultado obtenido a través de esta herramienta consiste en dos tipos descriptores,
Histograms of Oriented Gradients (HOG) y Histograms of Optical Flow (HOF), calculados
mediante cuadros de vídeo tridimensionales para cada STIP detectado. Estos cuadros se encuentran divididos en bloques espacio-temporales de 3x3x2. Los descriptores HOG estarán
compuestos por setenta y dos elementos mientras que los descriptores HOF por noventa.
Tan solo destacar que los parámetros con los que es ejecutado stipdept serán analizados con
mayor detenimiento en el capítulo de resultados (véase § 7).
Aunque la herramienta stipdept permite ver de forma muy visual y en tiempo de ejecución
los puntos de interés que se van calculando sobre el vídeo (ver Figura 6.47), por motivos
de eficiencia esta opción no será utilizada normalmente ya esta visualización supone una
carga computacional importante. No obstante fue de gran utilidad en los primeros pasos para
afianzar los conceptos de STIP y examinar también su comportamiento.
Figura 6.47: Captura de stipdet de una imagen de profundidad capturada con Kinect.
Este fichero “.stip” generado para cada fragmento de vídeo mediante esta herramienta
será almacenado en el directorio /extracted_features/ACTOR_stip/ con el nombre “nombreVideoSgemnetado.stip”. Posteriormente los programas stip2featuredescriptors y stip2hof serán los encargados de extraer de los ficheros .stip los descriptores HOF que serán utilizados
en la fase de clustering. Para ello, simplemente deben desechar la cabecera del fichero .stip
y los siguientes setenta y dos elementos que se corresponden con los descriptores HOG. Los
resultados obtenidos serán almacenados en un nuevo fichero en el directorio /extracted_fea15
http://www.di.ens.fr/~laptev/index.html
151
tures/ACTOR_fearure_descriptors/ con el nombre nombreVideoSgemnetado.hof.
6.4.2.3.2. Fase 4: Clustering
Esta fase se encargará de la realización del proceso de clustering con los descriptores HOF
obtenidos en la fase anterior. Para ello se ha implementado un programa en PERL (new_sequence_cluster_choice_k) con ciertas variaciones en función de la etapa, training o testing,
en la que se encuentre el sistema. Como ya se adelantaba anteriormente, la principal diferencia entre ambas modalidades reside en el procesamiento que se dan a los descriptores y el
resultado que es obtenido.
En la fase de clustering correspondiente a la etapa de training se generarán los clusters característicos para cada una de las secuencias de vídeo que representan las diferentes acciones
que se pretenden clasificar con el sistema que se está desarrollando. Para ello se emplearán
los descriptores resultantes de la fase de extracción de características de los vídeos proporcionados por el dataset de entrenamiento. De esta forma, se está llevando a cabo la tarea del
aprendizaje del vocabulario visual que se presentaba en modelo B OW. Como resultado se
obtienen los archivos clusters_hof_300.pts (codebook) y biglut.lut.
La fase de clustering correspondiente a la etapa de testing se encarga de realizar la asociación entre el conjunto de descriptores obtenidos en la fase anterior a partir de la secuencia
de vídeos que se pretende clasificar y los resultados obtenidos en la fase de clustering en la
etapa de training. Para ello hará uso del fichero clusters_hof_300.pts obtenido en la fase de
clustering de la etapa de training y de una de las herramientas de ANN. ANN 16 es una librería
escrita en C++ destinada a ofrecer estructuras de datos y algoritmos para el cálculo de la
búsqueda de vecinos próximos en ámbitos que presentan un elevado número de dimensiones.
La razón por la que se ha decidido hacer uso del algoritmo de búsqueda aproximada de
vecinos próximos se debe principalmente a que la realización del cálculo exacto en dimensiones mayores de ocho se convierte en una tarea realmente compleja y con una alta carga
computacional. De esta forma, pocos métodos parecen ser significativamente mejores que el
cálculo mediante fuerza bruta de todas las distancias. Sin embargo, se ha mostrado en diversas ocasiones que realizando un cálculo aproximado de los vecinos más próximos es posible
lograr tiempos de ejecución significativamente mejores (en el orden de 10 a 100 veces mejor)
con errores relativamente pequeños.
De esta forma se ha hecho uso de una las aplicaciones distribuidas junto a la librería ANN
para realizar este cálculo. A través de la línea de comandos se le indican los diferentes parámetros que se desea que se tengan en cuenta a la hora de realizar el cálculo. A continuación
se exponen los que han sido empleados en el presente proyecto:
16
http://www.cs.umd.edu/~mount/ANN/
152
Dimensiones del espacio: Este valor se encuentra definido por el numero de elementos
del descriptor HOF obtenido en la fase de extracción de características.
Número máximo de puntos de datos: Valor definido en por el descriptor HOF.
Nombre del fichero que contiene los puntos de datos: Fichero “.hof” calculado en
la fase de extracción de características en la etapa de testing.
Nombre del fichero que contiene los puntos de consulta: Fichero clusters_hof_300.pts obtenido en la fase de extracción de características en la etapa de training.
Una vez proporcionados los datos, la aplicación de ANN construirá una estructura de árbol
de búsqueda, leerá los puntos de consulta y posteriormente realizará el cálculo aproximado
del k vecino más próximo para cada uno con un error . El resultado obtenido consistirá en
los índices y las distancias de cada punto de consulta con respecto los puntos de datos.
Teniendo claro cuál va a ser la técnica empleada para calcular a qué cluster pertenece cada
descriptor y su funcionamiento, es el momento de llevar a cabo su implementación. Para ello
el programa new_sequence_cluster_choice_k realizará los siguientes pasos:
Paso 1: Obtiene la dimensión de los descriptores a partir de los ficheros .hof generados
en la fase anterior.
Paso 2: Crea un fichero smallut.lut en el directorio clustering/. Este fichero representa
una Look Up Table (LUT) que representa la asociación entre cada descriptor y la acción
que representa y que será empleado posteriormente en la fase de clasificación para
preprocesar los datos que serán pasados al clasificador SVM.
Paso 3: Por cada fichero .hof almacenado en el directorio /extracted_features/ACTOR_feature_descriptors realizará las siguientes operaciones:
• Obtiene el número máximo de puntos de datos del descriptor contenido en el
fichero .hof que será pasado como parámetro a la herramienta ANN.
• Almacena en una LUT local este número máximo y que posteriormente será empleado para normalizar el histograma generado en el siguiente paso.
• Almacena en el fichero smallut.lut el número de acción correspondiente al fichero
.hof que se está procesando.
• Ejecuta ANN con los parámetros descritos en los párrafos anteriores y almacena su resultado en un fichero llamado nombreDelFicheroHOF/nearest_cluster_300.hofpts en el directorio /clustering/nearest_neighbour/.
Paso 4: Consiste en la construcción del histograma de clusters para cada secuencia.
Para ello por cada fichero .hofpts generado en el paso anterior construirá su histograma
correspondiente y lo almacenará temporalmente en una variable local.
Paso 5: Consiste en normalizar los histogramas generados en el paso anterior. Para
ello se hará uso del número máximo de puntos de datos de cada descriptor almacenado
153
en la variable LUT generado en el Paso 3 y del histograma generado en el Paso 4. Una
vez normalizado el histograma, será almacenado en un fichero llamado nombreDelFicheroHOF_histogram_norm_300.hofhist en el directorio /clustering/histograms/.
En la Figura 6.48 se muestra un diagrama en el que se representan los diferentes pasos que
acaban de ser descritos. De este modo, el paso de la cuantificación de características descrito
anteriormente en el modelo B OW queda completado.
Figura 6.48: Diagrama de new_sequence_cluster_choice_k
6.4.2.3.3. Fase 5: Proceso de reconocimiento
Esta fase se encargará de llevar a cabo el proceso de clasificación de las acciones mediante
154
un clasificador SVM. Al igual que ocurría en la fase anterior, existirán diferencias importantes
en función de la etapa en la que se encuentre el sistema. Para la implementación de esta fase
se han empleado diferentes programas desarrollados en PERL que se encargarán de llevar a
cabo el preprocesamiento de la información obtenida en la fase de clustering para que pueda
ser empleada finalmente por el clasificador SVM. En la Figura 6.49 se muestra un diagrama
que representa la secuencia de ejecución de los diferentes programas así como las entradas y
salidas de cada uno. En los siguientes apartados serán descritos con mayor detalle en función
de la etapa en la que sean ejecutados.
No obstante, antes de entrar en los detalles de cada etapa y de cómo funcionan internamente estos programas es necesario tener en cuenta algunos conceptos. El primero de ellos
es conocer los aspectos más básicos sobre el funcionamiento de un clasificador SVM. Ya que
no se va a implementar un clasificador desde cero, sino que se va a emplear una solución ya
existente, tan solo será necesario tener una idea básica sobre su funcionamiento.
Los algoritmos SVM pertenecen a la familia de los clasificadores lineales. De este modo,
dado una colección de puntos (subconjunto de un conjunto mayor) en el que cada uno de ellos
pertenece a una de las posibles categorías definidas, un algoritmo basado en la técnica SVM
construirá un modelo capaz de predecir si un nuevo punto (cuya categoría a la que pertenece
se desconoce a priori) pertenece a una categoría u otra previamente definida en el modelo.
Para llevar a cabo este proceso, el algoritmo SVM buscará un hiperplano que permita separar
de la manera más óptima los puntos pertenecientes a cada una de las clases o categorías las
cuales normalmente pueden haber sido proyectadas a un espacio de dimensionalidad superior. No obstante, es importante destacar que este concepto de separación óptima es donde
realmente reside la característica fundamental de los algoritmos SVM: Buscan el hiperplano
que posea la máxima distancia o margen con los puntos que se encuentren más cercanos de
él mismo. Es por este motivo por el que este tipo de algoritmos también son conocidos como
clasificadores de margen máximo.
Una vez que se tiene una idea aproximada sobre el funcionamiento de los algoritmos SVM,
llega el momento de decidir qué implementación del clasificador SVM va a ser empleado en
la solución propuesta. Para ello se hizo un pequeño estudio de la soluciones existentes. Entre
las más destacadas y conocidas se encuentran LIBSVM, SVMTorch II, mySVM, Dlib C++
Library y SVMLigth. Sin embargo, debido a su robustez y a la gran cantidad de funcionalidades que ofrece se ha decidido emplear la distribución BSVM desarrollada por Chih-Chung
Chang y Chih-Jen Lin [HL02b] [HL02a].
Según su especificación, la implementación actual de BSVM toma prestada la estructura
interna de LIBSVM ofreciendo de este modo opciones muy similares. Para solventar algunas
de las limitaciones con las que se encuentra LIBSVM en el proceso de clasificación y regresión, BSVM implementa un método interno de descomposición y una selección múltiple
de conjuntos de trabajo dando como resultado convergencias más rápidas en los casos más
155
complejos.
Esta implementación ofrece dos herramientas, bsvm-train y bsvm-predict17 , que serán empleadas para las etapas de training y testing respectivamente. Aunque los parámetros necesarios para configurar el clasificador serán desarrollados con mayor detalle en los siguientes
apartados, es necesario conocer antes el formato en el que deben ser pasados los datos a estas
herramientas (ver Listado 6.7). Estos datos son pasados por medio de un fichero compuesto
de los siguientes elementos:
Label: Es el valor objetivo de los datos de entrenamiento. Para la clasificación debe
ser un número entero que identifica una clase, mientras que para la regresión debe ser
cualquier numero real. En el archivo de datos de prueba (testing) sólo se utilizan para
calcular precisión. Si no se conocen, esta columna debe de ser rellenada con cualquier
número.
Index: Es un entero que comienza con el valor 1. Sirven para enumerar los elementos
value.
Value: Es un número real.
< label > < index1 >: < value1 > < index2 >: < value2 > ...
< label > < index1 >: < value1 > < index2 >: < value2 > ...
.
.
.
< label > < index1 >: < value1 > < index2 >: < value2 > ...
Listado 6.7: Estructura fichero de datos del clasificador SVM.
De esta forma, el fichero empleado en la etapa de training deberá tener tantos tipos de elementos label como clases distintas se quieran identificar, en este caso quince (véase § 6.4.2).
Por el contrario, en la etapa de training en principio puede ser cualquier número entero al azar
ya que a priori no se conoce a qué clase pertenece el elemento en cuestión. A continuación
se muestra un ejemplo para entender mejor como funciona esta codificación: Imagine que
se tienen dos puntos (x,y) bidimensionales, (0,3) y (5,8), que pertenecen a clases diferentes
(1 y 2 respectivamente) y se desea codificarlos para que pueda ser llevado a cabo el proceso
de clasificación. En la Listado 6.8 se presenta como debería ser el fichero correspondiente
según la etapa en la que se vaya a emplear:
Etapa de training
En la etapa de training se generará un modelo a partir de los datos obtenidos en la fase
anterior (clustering) y que posteriormente será empleado para llevar a cabo el proceso de
17
http://www.csie.ntu.edu.tw/~cjlin/bsvm/
156
// Etapa de training
1 1 :0 2 :3
2 1 :5 2 :8
// Etapa de testing
< Entero cualquiera > 1 :0 2 :3
< Entero cualquiera > 1 :5 2 :8
Listado 6.8: Ejemplo de la estructura fichero de datos del clasificador SVM.
clasificación por el clasificador SVM. Siguiendo el esquema planteado en la Figura 6.49, el
primer programa a ejecutar es all_rcg_same_file cuyo propósito para esta etapa no es otro
que el de preparar el entorno del sistema para que todo se encuentre en un estado correcto e
invocar al siguiente programa en ejecutarse: nom_hist_biglut2libsvm.
Este programa tiene como objetivo preprocesar los datos y dotarles del formato pertinente
para que posteriormente puedan ser empleados por el clasificador SVM. Para ello, deberá
emplear los ficheros generados en la etapa de clustering: biglut.lut (contiene una LUT en la
cual asocia cada histograma con su identificador de acción correspondiente) y clustering_hist_norm_hof_300.hist (contiene todos los histogramas normalizados). A continuación se
describen los pasos que han sido necesarios para realizar correctamente este tratamiento:
Paso 1: Crear fichero learn_hist_norm_hof_300_libsvm en el directorio /recognition_process/.
Paso 2: Por cada línea del fichero clustering_hist_norm_hof_300.hist:
• Paso 2.1: Dividir la línea leída por elementos (separados por un espacio en blanco).
• Paso 2.2: Incluir en el fichero learn_hist_norm_hof_300_libsvm el siguiente número de acción leído del fichero biglut.lut. Este elemento incluido en el fichero
representa el <label>.
• Paso 2.3: Por cada cada elemento obtenido en el paso 2.1:
◦ Paso 2.3.1: Incluir en el fichero learn_hist_norm_hof_300_libsvm un índice (comienza desde 1) seguido por “:”, el siguiente elemento y un salto de
línea. Estos elementos incluidos en el fichero representan el <indexN> y el
<valueN>.
Por último debe ejecutarse el programa recognition_from_cluster_all. En la etapa de training este programa deberá generar el modelo correspondiente a los datos que le son pasados
y que posteriormente será empleado por la etapa de testing. Para ello, simplemente deberá emplear la herramienta bsvm-train incluida en la distribución bsvm. A continuación se
indican algunos de los parámetros más importantes para su configuración:
Fichero de datos de entrenamiento: Fichero learn_hist_norm_hof_300_libsvm ge157
nerado por el programa nom_hist_biglut2libsvm.
Tipo de kernel: Lineal (u0 ∗ v).
Coste: Valor empleado descrito en el capítulo de resultados (véase § 7).
bsvm-train generará cómo resultado el modelo correspondiente al fichero de datos de entrenamiento en el archivo learn_hist_norm_hof_300_libsvm_model_KERNEL_COST en el
directorio /recognition_process/results/.
Etapa de testing
En esta etapa finalmente se determinará a qué clase pertenece cada uno de los segmentos
de vídeo que se generaron al comienzo de todo el proceso en base al modelo obtenido en
la etapa de training. Para ello, siguiendo el esquema propuesto en la Figura 6.49, el primer
programa a ejecutar es all_rcg_same_file cuyo propósito para esta etapa es producir un archivo que contenga todos los histogramas de los vídeos segmentados generados en la fase
de clustering y lanzar el programa nom_hist_smallut2libsvm. Este archivo se ubicará en el
directorio /recognition_process/ con el nombre learn_hist_norm_hof_300t.
De manera similar a nom_hist_biglut2libsvm, el programa nom_hist_smallut2libsvm tiene
como objetivo preprocesar los datos y dotarles del formato pertinente para que posteriormente puedan ser empleados por el clasificador SVM. Para ello, deberá emplear el fichero generado en la etapa de clustering smallut.lut (contiene una LUT en la cual asocia cada histograma
con su identificador de acción correspondiente) y el fichero learn_hist_norm_hof_300t (contiene todos los histogramas normalizados) generado por el programa all_rcg_same_file. A
continuación se describen los pasos que han sido necesarios para realizar correctamente este
tratamiento:
Paso 1: Crear fichero learn_hist_norm_hof_300t_libsvm en el directorio /recognition_process/.
Paso 2: Por cada línea del fichero learn_hist_norm_hof_300t:
• Paso 2.1: Dividir la línea leída por elementos (separados por un espacio en blanco).
• Paso 2.2: Incluir en el fichero learn_hist_norm_hof_300t_libsvm el siguiente número de acción leído del fichero smallut.lut. Este elemento incluido en el fichero
representa el <label>. Este valor sólo es obligatorio en el caso de que se quiera
obtener el grado de precisión en el clasificador.
• Paso 2.3: Por cada cada elemento obtenido en el paso 2.1:
◦ Paso 2.3.1: Incluir en el fichero learn_hist_norm_hof_300t_libsvm un índice (comienza desde 1) seguido por “:”, el siguiente elemento y un salto de
línea. Estos elementos incluidos en el fichero representan el <indexN> y el
<valueN>.
158
El último paso a realizar es llevado a cabo por el programa recognition_from_cluster_all.
A diferencia del comportamiento que presentaba en la etapa de training, en esta ocasión debe
emplear la herramienta bsvm-predict proporcionada por la distribución BSVM. Para ello se
le deben facilitar dos archivos:
Fichero de datos: Archivo learn_hist_norm_hof_300t_libsvm generado por el programa nom_hist_smallut2libsvm.
Modelo: Archivo learn_hist_norm_hof_300_libsvm_model_KERNEL_COST generado en la etapa de training por el programa recognition_from_cluster_all.
Como resultado se obtendrán otros dos archivos ubicados en el directorio /recognition_process/results/ :
classified_result_KERNEL_COST_hof_300_ACTOR: Contiene los índices (véase § 6.4.2)
que identifican la acción predicha para cada fragmento de vídeo.
accuracy_KERNEL_COST_hof_300_ACTOR: Contiene el porcentaje de acierto/precisión obtenido en la predicción de cada fragmento de vídeo.
6.5 Iteración 5: Interfaz gráfica
En la presente sección se pretende desarrollar una interfaz gráfica para los diferentes módulos que se han explicado en las secciones anteriores. El principal objetivo es el de facilitar
la integración y manipulación de las diferentes funcionalidades desarrolladas y adaptadas a
lo largo del proyecto. De esta forma, mediante una interfaz de usuario amigable será posible
trabajar con los diferentes módulos de una manera más cómoda y sencilla.
Para ello se ha empleado la plataforma Qt. Qt es una biblioteca multiplataforma ampliamente usada para desarrollar aplicaciones con interfaz gráfica de usuario, así como también
para el desarrollo de programas sin interfaz gráfica, como herramientas para la línea de comandos y consolas para servidores. Además, Qt ha sido desarrollada como software libre
y de código abierto a través de Qt Project18 . Qt es utilizada en KDE, entorno de escritorio
para sistemas como GNU/Linux o FreeBSD. No obstante, una de las características que hace realmente interesante la utilización de esta plataforma es que Qt utiliza el lenguaje de
programación C++ de forma nativa.
Una vez que se ha elegido la plataforma y el lenguaje de programación a emplear, es
el momento de analizar y diseñar cuáles van a ser las funcionalidades que debe soportar
e implementar esta herramienta. La interfaz de usuario que se propone está organizada en
diferentes pestañas para separar de una forma muy intuitiva las diferentes funcionalidades
que se presentan en la aplicación. A continuación se describen brevemente en los siguientes
apartados.
18
http://qt-project.org/
159
Captura de vídeo
La funcionalidad principal de esta pestaña es la de realizar la captura de vídeo a través
del dispositivo Kinect. Para ofrecer una mayor flexibilidad al usuario, se ha ofrecido la posibilidad de seleccionar mediante los diálogos correspondientes la ruta en la que se desea
almacenar los resultados obtenidos así como el nombre del actor del que se va a realizar la
captura. Una vez que toda esta información ha sido facilitada por el usuario, simplemente
será necesario ejecutar de forma interna el módulo de captura de vídeo desarrollado (véase
§ 6.3.2.3) con los parámetros indicados por el usuario.
Como ya se expuso anteriormente, este módulo da como resultado los diferentes frames
capturados en formato JPEG. Es por ello por lo que también se ha incluido la posibilidad
de, una vez que se han llevado el proceso de captura, transformar estos ficheros JPEG en el
vídeo correspondiente. De esta forma, indicando simplemente la ruta donde se encuentran los
resultados de las diversas capturas y la correspondiente al directorio /BoW 19 , se generarán
los vídeos correspondientes dejándolos preparados para su posterior procesamiento por el
módulo de reconocimiento de acciones.
Finalmente también se ha incluido un área para facilitar al usuario la retroalimentación
pertinente de realizar los diferentes procesos descritos en los párrafos anteriores. En la Figura
6.50 se muestra una captura de la pestaña de “Captura de vídeo”.
Etiquetado de vídeo
En esta pestaña se ofrece al usuario la posibilidad de realizar la tarea de etiquetado de
vídeo de una forma bastante sencilla. Para lograrlo se ha integrado todas las herramientas
que son necesarias en una única interfaz como se puede apreciar en la Figura 6.51. De esta
forma, el usuario tendrá acceso a un pequeño reproductor de vídeo con funcionalidades muy
interesantes para facilitar su trabajo. Algunas de las más destacadas son:
Lista de reproducción integrada.
Controles de pausa, rebobinado, sonido, etc.
Control de velocidad de la reproducción.
Barra de información de la reproducción (tiempo del vídeo, tiempo restante, etc.)
Visualización del frame actual y posibilidad de saltar a un frame concreto.
Herramientas de modificación del color.
Reproducción en pantalla completa.
Histograma.
19
En el directorio /BoW se encuentran los correspondientes directorios y ejecutables del módulo de reconocimiento de acciones.
160
También se ha integrado un pequeño editor de texto para generar los ficheros ACTOR_frame_segmented.txt descritos en la sección anterior (véase § 6.4.2.2). De esta forma el usuario
tendrá todo lo necesario para etiquetar los vídeos en una única interfaz sin necesidad de
manejar un reproductor de vídeo y editor de texto por separado.
No obstante, aunque el usuario tendrá la posibilidad de editar el fichero directamente en
este editor integrado, se ha incluido una funcionalidad extra que facilitará aún más su trabajo.
Esta nueva funcionalidad consiste en proporcionar la posibilidad de que, sin necesidad de ir
deteniendo la reproducción del vídeo, sea posible ir editando el fichero ACTOR_frame_segmented.txt de una manera muy mecánica y sencilla. Para ello se han introducido dos
botones que permiten seleccionar el frame actual del vídeo que se esté reproduciendo y
una lista seleccionable de las diferentes acciones posibles. De esta forma, cuando el usuario
haya indicado los frames de inicio y fin de la acción así como la acción correspondiente,
estos serán introducidos directamente en el editor. Para asegurar que el fichero generado
mantiene la coherencia se han incluido diversos mecanismos que comprueban los elementos
incluidos.
Clasificación
En esta pestaña se ofrece al usuario la posibilidad de ejecutar el módulo de reconocimiento
de acciones. Para ello, una vez haya realizado las funciones incluidas en las dos pestañas
anteriores, el usuario simplemente deberá seleccionar la ruta donde se encuentra el directorio
/BoW.
Finalmente también se ha incluido un área para facilitar al usuario la retroalimentación
pertinente de realizar el proceso de reconocimiento de acciones. En la Figura 6.52 se muestra
una captura de la pestaña de “Clasificación”.
Inspector de resultados
Esta pestaña está pensada para facilitar la revisión de los resultados obtenidos en el proceso de reconocimiento. Para ello el usuario simplemente deberá facilitar la ruta donde se
encuentra el directorio /BoW. El programa se encargará, de forma transparente para el usuario, de procesar todos los resultados que se encuentren disponibles en el directorio /BoW
proporcionado y mostrarlos de una manera amigable para el usuario.
De esta forma, esta última pestaña se ha organizado en tres columnas (ver Figura 6.53):
Vídeos: Lista que permite seleccionar el vídeo (para el cual hay resultados) del que se
desean visualizar los resultados.
Etiquetado: Tabla que muestra el contenido del fichero ACTOR_frame_segmented.txt
correspondiente al vídeo seleccionado.
161
Resultado: Tabla que muestra el resultado obtenido del vídeo seleccionado tras llevar
a cabo el proceso de clasificación. Esta tabla esta compuesta por dos columnas. La
primera indica la acción predicha (de forma textual, no con el índice correspondiente),
mientras que la segunda indica si dicha predicción es correcta o no. Para facilitar aún
más la comprobación de si los resultados obtenidos son correctos se han empleado
diferentes colores (rojo para el incorrecto y verde para el correcto).
Finalmente, también se proporcionará el nivel de precisión (Accuracy) de cada vídeo si
este se encuentra disponible.
162
Figura 6.49: Diagrama de la fase
163de proceso de reconocimiento.
Figura 6.50: Funcionalidad de Grabación.
Figura 6.51: Funcionalidad de etiquetado.
164
Figura 6.52: Sección de clasificación.
Figura 6.53: Sección de Resultados.
165
Capítulo 7
Resultados
E
el presente capítulo se describen los resultados obtenidos tras realizar las pruebas de
precisión al sistema elaborado, además del proceso seguido para su correcta realización. Para ello se han empleado los módulos implementados a lo largo del proyecto (módulo
de captura de imágenes y módulo de reconocimiento de acciones). De este modo, se ha
decidido dividir el capítulo en las siguientes secciones:
N
Dataset de entrenamiento empleado.
Recogida de datos de prueba.
Análisis de los resultados.
Además, también se proporciona al lector la opción de acceder al repositorio (véase https:
//bitbucket.org/arco group/tfg.ruben.cantarero) donde se encuentran todos los recursos generados a lo largo del proyecto.
7.1 Dataset de entrenamiento empleado
En primer lugar es necesario destacar que los vídeos empleados en el estudio deben representar escenarios lo más realistas posible. Esto se debe a que el principal objetivo es llevar
a cabo un experimento de reconocimiento de acciones que son relevantes en la vida real. Es
por este motivo por lo que es muy importante elegir un conjunto de entrenamiento adecuado.
De este modo el conjunto de entrenamiento debe cubrir la mayor variedad de puntos de vista
de la cámara, proporcionando de este modo un entrenamiento independiente del punto de
vista. Además, este conjunto también debe cubrir una cantidad suficientemente grande de
casos que representen las acciones que interesan para el presente estudio. Por último este
conjunto de datos debe estar etiquetado, segmentado y organizado.
Tras realizar una profunda búsqueda y análisis de los datasets disponibles se ha llegado a
la conclusión de que los más adecuados y que mejor se ajustan a los requisitos buscados son
INRIA Xmas Motion Acquisition Sequences (IXMAS) [WRB06] y Hollywood [LMSR08].
El conjunto de entrenamiento Hollywood está orientado hacia la detección de eventos incluyendo acciones significativas pero independientes unas de otras (comer, besar, conducir
un coche, correr, etc.). Por el contrario, el dataset IXMAS está centrado en acciones realiza167
das en un entorno cerrado ofreciendo de este modo una descripción de las acciones posibles
muy exhaustiva. Por lo tanto, las acciones ofrecidas en IXMAS pueden ser combinadas para descibir actividades simples como dar patadas, puñetazos, andar, sentarse, etc. y además
proporciona representaciones completas de un conjunto de acciones realizadas de forma individual. Asimismo, por ser un dataset ampliamente utilizado, permite comparar y validar el
sistema propuesto.
Por consiguiente, se ha decidido emplear el dataset IXMAS para realizar la etapa de entrenamiento del sistema. Este conjunto de entrenamiento está compuesto por trece tipos de
acciones realizadas por doce actores diferentes. Además, cada acción se encuentra grabada de forma simultanea por cinco cámaras diferentes (ver Figura 7.1). A continuación se
muestra un listado de las acciones reconocidas:
(0) Nada: No se está realizando ninguna acción. El usuario está parado.
(1) Mirar reloj: El usuario realiza la acción de mirar el reloj de su muñeca.
(2) Cruzarse de brazos: El usuario realiza la acción de cruzarse de brazos.
(3) Rascarse la cabeza: El usuario realiza la acción de rascarse la cabeza.
(4) Sentarse: El usuario realiza la acción de sentarse en el suelo.
(5) Levantarse: El usuario realiza la acción de levantarse.
(6) Darse la vuelta: El usuario realiza la acción de darse la vuelta sobre sí mismo.
(7) Caminar: El usuario realiza la acción de caminar.
(8) Saludar: El usuario realiza la acción de saludar con su mano.
(9) Dar puñetazo: El usuario realiza la acción de dar puñetazos.
(10) Dar patada: El usuario realiza la acción de dar patadas.
(11) Señalar: El usuario realiza la acción de señalar con el dedo.
(12) Coger: El usuario realiza la acción de coger algo del suelo, una mesa, etc.
(13) Lanzar: El usuario realiza la acción de lanzar algo sobre su cabeza.
(14) Lanzar: El usuario realiza la acción de lanzar algo de abajo hacia arriba.
7.2 Recogida de datos de prueba
Como ya se anticipaba al comienzo del capítulo, se van a emplear dos datasets de acciones
diferentes para evaluar el sistema: Dataset IXMAS y uno capturado mediante el dispositivo
Kinect. El primero de ellos será empleado para llevar a cabo la etapa de entrenamiento o
“training”, mientras que el segundo servirá como conjunto de datos para las pruebas o “testing” (véase § 6.4.2). El principal motivo de esta decisión se basa en que mediante el uso de
168
Figura 7.1: Ejemplo de IXMAS. [wbI14]
dos datasets considerablemente diferentes es posible mostrar la generalidad, las capacidades
y el rendimiento del sistema desarrollado en el presente proyecto.
Para recoger este segundo conjunto de datos para el proceso de testing se ha empleado
el módulo de captura de imágenes desarrollado en el proyecto (véase § 6.2 y § 6.3). De esta
forma, ha sido posible generar un conjunto de entrenamiento propio: “KinbehrDataset”. El
primer paso necesario para la creación de este dataset fue la preparación del escenario en el
que iban a tener lugar las grabaciones. Como se puede apreciar en la Figura 7.2 el escenario
consiste en una única habitación que dispone de los siguientes elementos:
Un libro: Consiste en un libro de crucigramas con la intención de captar la atención
de los actores durante la grabación y potenciar así la realización de la acción coger.
Una silla: Puede ser utilizada y movida por los actores durante la grabación. De este
modo se pretende animar a los actores a realizar la acción sentarse.
Un saco de boxeo: Puede ser empleada por los actores durante la grabación. La forma
más natural de interaccionar con él es mediante puñetazos y patadas.
Una pelota: Puede ser empleada por los actores durante la grabación. La forma más
natural de interaccionar con ella es botándola o lanzarla al aire o contra las paredes
para así realizar la tarea de lanzar o tirar algo.
Mediante la introducción de estos elementos en el escenario se pretende diseñar un dataset
que sea lo más representativo posible respecto de la inmensa variabilidad de acciones de
la vida real, sin perder en ningún momento de vista que debe contener la mayoría de las
acciones integradas en el dataset IXMAS con el que ha sido entrenado el sistema. De esta
manera se conduce a los actores a que de forma natural interaccionen con los elementos
que interesan para los objetivos del sistema. Un ejemplo de ello podría ser como el actor
encuentra el libro, lo recoge (acción coger) y se sienta a leerlo (acción sentarse). Otro ejemplo
169
Figura 7.2: Escenario de grabación empleado.
también podría ser como el actor ve el saco de boxeo y empieza a jugar con el dándole
patadas y puñetazos (acción patada y acción puñetazo).
Una vez que el escenario estaba preparado se comenzó con el proceso de grabación. Para
ello se convocó a quince actores de diferentes estaturas, peso y sexo para obtener la mayor
variedad posible. En el Cuadro 7.1 se muestra un resumen con la información más relevante.
Actor 1
Actor 2
Actor 3
Actor 4
Actor 5
Actor 6
Actor 7
Actor 8
Actor 9
Actor 10
Actor 11
Actor 12
Actor 13
Actor 14
Actor 15
Edad
Sexo
Peso (Kg)
Altura (m)
No de acciones
21
23
20
19
20
20
24
22
22
23
25
28
22
23
23
M
M
M
H
H
H
H
H
M
M
H
H
H
H
H
60
52
65
98
64
80
96
73
52
76
74
68
82
84
98
1.63
1.67
1.65
1.84
1.74
1.77
1.85
1.80
1.65
1.67
1.82
1.72
1.75
1.87
1.85
80
102
121
192
123
73
64
66
98
47
115
53
74
93
52
Cuadro 7.1: Información y número de acciones realizado por cada actor.
Es importante mencionar que este proceso de grabación fue dividido en dos partes bien diferenciadas con objetivos diferentes. De esta forma, por cada actor se realizaban dos procesos
de grabación:
170
Grabación en entorno no guiado: En este proceso de grabación no se le daba ningún
tipo de instrucción al actor. De este modo, se dejaba al actor en la habitación con el
lema “tienes 8 minutos para hacer lo que quieras”.
Grabación en entorno guiado: En este proceso se iba solicitando al actor que realizara repetidamente las acciones que se le fueran indicando. Una de las principales
motivaciones de este proceso es facilitar un conjunto de datos que pueda ser posteriormente empleado para el entrenamiento del sistema.
Como resultado se obtuvieron dos paquetes de vídeos por cada actor capturados mediante
el módulo de captura de imágenes. Estos paquetes están compuestos por tres tipos de vídeos
cada uno: Vídeo RGB, vídeo de profundidad y vídeo de esqueleto. Posteriormente cada una
de estas secuencias grabadas tuvieron que ser manualmente segmentadas y etiquetadas por
acciones (véase § 6.4.2.2) mediante la herramienta elaborada en el presente proyecto (véase § 6.5). Recuérdese que la segmentación automática de vídeos en acciones independientes
queda fuera del alcance y objetivos de este proyecto. Los lectores interesados en la segmentación automática de vídeos puede referirse a [RA00] [con97] [AA01] [SMS07] y
[SWCS08].
Por último es importante destacar que, como los vídeos de las personas pueden considerarse datos de carácter personal, fue necesario la elaboración de un formulario de consentimiento (véase § C). De esta forma, antes de comenzar con el proceso de grabación los actores
debían leer un documento que les era facilitado. En este documento se explicaba el objetivo
del proyecto, el uso de dicha grabación, etc. Además se les facilitaba respuesta a todas las
preguntas que les pudiere surgir acerca del documento o del proceso. Finalmente se les proporcionaba un formulario que debían rellenar y firmar si estaban de acuerdo con el contrato.
Para asegurar la confidencialidad, el único momento en el que quedan relacionados lo vídeos
con los datos identificativos de los actores (nombres y apellidos) es en dicho formulario. De
este modo, los vídeos fueron nombrados como actor1, actor2, etc. Finalmente estos formularios fueron almacenadas en el grupo ARCO, lugar de acceso restringido, para asegurar su
seguridad.
7.3 Análisis de los resultados
Una vez que el dataset KinbehrDataset ha sido generado, segmentado y etiquetado por
acciones, es el momento de realizar el análisis de los resultados obtenidos. No obstante, antes
es necesario aclarar algunos conceptos importantes que se mencionaron anteriormente. Estos
son los valores de algunos de los parámetros empleados por las herramientas stipdept (véase
§ 6.4.2.3.1) y bsvm-train (véase § 6.4.2.3.3). Como a priori no se conoce cuál es el valor
más adecuado para el caso de estudio, se realizaron diferentes pruebas tomando diferentes
valores. De este modo, se pudo determinar qué valores eran los más adecuados para estos
parámetros y así poder obtener los mejores resultados posibles.
171
A continuación se expone el análisis dichos resultados. Estos muestran el porcentaje de
acierto de cada actor según tipo de acción clasificados por la clase de vídeo (RGB, profundidad y esqueleto). En el Cuadro 7.2 se muestra el análisis de resultados correspondientes a
los vídeos obtenidos en el proceso de grabación no guiado y en el Cuadro 7.3 los correspondientes a los vídeos obtenidos en el proceso de grabación guiado. Es importante mencionar
que los guiones representan que el actor correspondiente no ha realizado una determinada
acción. Por último, también se muestra el porcentaje total de acierto del actor para todas las
acciones que ha realizado.
En el Cuadro 7.4 se muestra un resumen del análisis de los resultados obtenidos según
el tipo de acción. Estos resultados representan el porcentaje de acierto clasificados por la
clase de vídeo (RGB, profundidad y esqueleto). En la Figura 7.3 se muestra un gráfico que
representa el porcentaje de acierto según la clase de vídeo para cada acción, considerando
los vídeos grabados en el entorno guiado y no guiado.
Figura 7.3: Porcentaje de acierto de cada acción según el tipo de imagen (entorno guiado y
sin guiar).
En el Cuadro 7.5, el Cuadro 7.6 y el Cuadro 7.7 se muestran las matrices de confusión
correspondientes a cada tipo de vídeo, RGB, profundidad y esqueleto respectivamente. En
el campo de la inteligencia artificial una matriz de confusión es una herramienta de visualización que se emplea en aprendizaje supervisado. Cada columna de la matriz representa
el número de predicciones de cada clase, mientras que cada fila representa a las instancias
en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el
sistema está confundiendo dos clases.
No obstante, es importante tener en cuenta que si en este tipo de matrices el número de
muestras de clases diferentes cambia mucho la tasa de error del clasificador no es representativa de lo bien que realiza la tarea el clasificador. Esto quiere decir que si por ejemplo hay
1000 muestras de la clase 1 y sólo 20 de la clase 2, el clasificador puede tener fácilmente un
172
Actor 1
Actor 2
Actor 3
Actor 4
Actor 5
Actor 6
Actor 7
Actor 8
Actor 9
Actor 10
Actor 11
Actor 12
Actor 13
Actor 14
Actor 15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Total
RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto RGB
Profundidad Esqueleto -
0
-
0
0
0
-
25
25
0
66.6
0
0
50
50
0
33.3
33.3
0
50
0
0
0
0
0
33.3
0
0
0
20
0
0
0
0
33.3
0
66.6
0
0
0
0
0
0
-
50
50
0
66.6
0
50
50
0
0
66.6
33.3
50
33.3
66.6
0
50
25
0
80
60
66.6
20
20
0
50
0
100
0
0
0
100
50
50
0
-
16
0.1
12.5
26.3
0.05
12.5
12.5
0.1
9
17.4
0.1
0
0
0
0
12.5
0.06
0
0
0
0
42.8
0
0
0.1
0
16.7
0
7.7
0
25
6.7
6.6
30
10
10
15
5.5
5.5
14.3
0
0
0
0
0
58
84.2
60
50
50
44.4
31.8
59
33.3
10
70
14.3
100
66.6
100
46.2
46.1
40
50
80
90
25
41.7
40
79.3
89.7
77.8
60
75
75
65
80
75
63.2
68.4
78.9
54.1
75
47.8
38.5
73
61.5
41.6
66.6
41.7
0
0
0
0
0
0
0
0
-
40
40
50
37.5
46.9
43.8
29.4
35.2
12.5
55.7
42.6
50.9
30.3
27.5
21.7
28.6
0.06
7.1
42.8
18.7
10.5
50
25
33.3
50
11.1
11.1
50
0
0
36.2
24.1
20.7
33.3
22.2
22.2
12.5
12.5
12.5
60
40
20
35
20
30
43
60
66.6
20
60
0
50
83.3
66.6
36.1
38.3
29.3
0
33.3
0
0
100
100
100
100
100
22.2
66.6
100
0
100
100
0
0
0
0
36.4
27.3
100
0
100
-
42
41.6
0
75
62.5
42.9
21
26.3
0
15
0
0
14.2
28.6
16.7
50
25
40
26.6
28.6
7.1
60
60
25
100
60
33.3
33.3
33.3
0
0
0
0
50
50
0
50
50
25
33.3
33.3
14.3
33.3
66.6
11.1
0
0
0
0
0
0
0
0
0
0
0
0
50
0
0
50
0
0
11.1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
-
48
43.4
30.5
39.2
32.4
29.2
19.8
25.8
13.9
31.2
27.2
25.5
30.1
27.3
22.2
27.4
17.8
13.6
31.3
28.3
23.3
37.9
24.2
21.9
42.8
39.8
38.6
34.1
36.9
39.1
33.1
27.4
24.7
39.6
39.6
43.4
29.7
33.8
21.1
24.7
35.5
24.7
30.8
26.9
25
Cuadro 7.2: Porcentaje de acierto de cada actor (sin guiar) en cada tipo de actor según el tipo
de imagen.
173
1
Acciones 1
Acciones 2
Acciones 3
Acciones 4
Acciones 5
Acciones 6
Acciones 7
Acciones 8
Acciones 9
Acciones 10
Acciones 11
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
50
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
50
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad 0
Esqueleto 0
RGB
0
Profundidad Esqueleto RGB
50
Profundidad 0
Esqueleto 0
2
3
4
5
6
7
8
9
10
11
12
13
14
Total
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
50
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
100
50
0
100
50
0
0
0
0
0
0
0
0
50
0
50
100
0
30
50
0
0
50
0
50
50
0
50
100
0
100
0
0
50
100
50
50
50
50
100
100
100
100
100
0
0
100
50
50
100
0
100
0
0
50
100
50
50
100
0
50
33.3
0
33.3
0
0
33.3
0
0
33.3
50
0
0
33.3
0
0
25
0
0
100
0
0
0
0
0
33.3
0
0
0
0
0
0
0
0
75
75
75
100
100
100
50
75
100
100
100
100
100
100
100
100
100
100
75
100
100
100
100
100
75
100
75
50
100
100
66.6
100
66.6
0
0
0
0
0
0
0
0
0
50
0
0
0
0
0
50
0
0
0
0
0
0
0
0
0
0
0
50
0
0
0
62.5
75
87.5
42.9
33.3
0
0
0
14.3
30
30
20
0
20
0
55.5
33.3
55.6
25
0
0
33.3
33.3
33.3
71.4
57.1
57.1
25
50
50
28.6
28.6
14.3
50
60
10
50
100
70
10
50
30
66.7
83.3
83.3
33.3
100
66
25
37.5
12.5
75
75
75
0
33.3
66.6
66.6
83.3
66.6
66.6
66.6
50
0
50
50
0
0
0
0
0
50
0
0
50
50
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
33.3
0
0
50
100
0
100
100
20
0
0
0
100
50
50
100
100
0
100
50
50
50
100
0
50
50
0
50
50
0
0
0
0
33.3
0
0
0
0
0
0
0
0
0
0
50
0
0
50
0
0
0
0
0
33.3
0
0
0
50
0
0
0
33.3
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
36.9
39.1
30.4
23.7
25.8
29
18.8
22.9
33
40
29.5
29.5
26.5
29.4
26.5
40.4
30.4
23.9
45.5
29
32.2
28.6
25.8
35.5
35
33.3
30.8
33.3
44.4
40.7
21
23.7
18.4
Cuadro 7.3: Porcentaje de acierto de cada actor (guiado) en cada tipo de actor según el tipo
de imagen.
174
No ocurrencias
Tipo
% acierto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
Profundidad
Esqueleto
RGB
12
0
0
9
0
0
0
0
0
27.8
6.7
18.2
59
28.8
44.7
16.8
10
6
44.8
70.9
64.2
11.5
0
0
37.7
29.7
28
34.5
55
41.9
4.7
0
10.5
41.1
41.2
11.5
3.1
95
Profundidad
Esqueleto
RGB
1
6.9
0
113
Profundidad
Esqueleto
0
0
Mirar reloj
25
Cruzar brazos
22
Rascar cabeza
23
Sentarse
61
Levantarse
61
Darse la vuelta
250
Caminar
361
Saludar
26
Dar puñetazo
453
Dar patada
108
Señalar
21
Coger
175
Lanzar (por encima
de la cabeza)
Lanzar (por debajo
de la cabeza)
Cuadro 7.4: Porcentaje de acierto de cada acción según el tipo de imagen (entorno guiado y
sin guiar).
175
Cruzar Brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
Mirar reloj
Cruzar brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
Mirar Reloj
sesgo hacia la clase 1. Si el clasificador clasifica todas las muestras como clase 1 su precisión
será del 99 %. Esto no significa que sea un buen clasificador, pues tuvo un 100 % de error
en la clasificación de las muestras de la clase 2. En este caso en particular puede resultar
problemático ya que la acción que contiene mas ocurrencias (acción dar puñetazo con un
valor de 453) difiere bastante con respecto la menor (acción señalar con un valor de 21).
0.12
0.00
0.04
0.00
0.00
0.00
0.00
0.00
0.03
0.01
0.00
0.00
0.01
0.03
0.12
0.05
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.10
0.00
0.00
0.04
0.00
0.00
0.00
0.03
0.03
0.00
0.00
0.07
0.00
0.00
0.00
0.01
0.00
0.00
0.12
0.05
0.04
0.28
0.00
0.02
0.01
0.07
0.07
0.08
0.10
0.03
0.02
0.04
0.12
0.23
0.00
0.00
0.61
0.03
0.01
0.00
0.01
0.02
0.10
0.07
0.02
0.04
0.04
0.05
0.04
0.03
0.00
0.17
0.11
0.04
0.04
0.08
0.05
0.04
0.12
0.11
0.00
0.00
0.00
0.00
0.00
0.17
0.54
0.11
0.17
0.10
0.00
0.05
0.11
0.16
0.08
0.09
0.13
0.07
0.05
0.11
0.10
0.15
0.04
0.03
0.14
0.03
0.06
0.07
0.16
0.45
0.35
0.30
0.13
0.18
0.06
0.11
0.38
0.28
0.24
0.20
0.34
0.32
0.04
0.05
0.09
0.07
0.02
0.26
0.14
0.15
0.18
0.33
0.14
0.05
0.23
0.15
0.08
0.00
0.09
0.13
0.00
0.02
0.03
0.04
0.01
0.05
0.10
0.07
0.03
0.03
0.00
0.00
0.00
0.03
0.11
0.00
0.00
0.00
0.00
0.00
0.00
0.41
0.03
0.00
0.12
0.05
0.22
0.07
0.05
0.04
0.00
0.26
0.06
0.02
0.05
0.03
0.02
0.03
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
Cruzar Brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
Mirar reloj
Cruzar brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
Mirar Reloj
Cuadro 7.5: Matriz de confusión de los vídeos RGB (entorno guiado y sin guiar).
0.00
0.00
0.00
0.00
0.02
0.01
0.00
0.00
0.00
0.01
0.00
0.00
0.00
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.00
0.07
0.00
0.02
0.00
0.00
0.09
0.06
0.00
0.02
0.03
0.06
0.00
0.00
0.00
0.00
0.27
0.02
0.00
0.04
0.03
0.03
0.00
0.05
0.02
0.06
0.00
0.00
0.00
0.02
0.05
0.04
0.04
0.09
0.04
0.04
0.00
0.07
0.02
0.04
0.71
0.83
0.74
0.31
0.16
0.36
0.74
0.35
0.16
0.11
0.79
0.09
0.25
0.19
0.00
0.00
0.00
0.02
0.02
0.09
0.11
0.00
0.05
0.02
0.00
0.00
0.06
0.08
0.00
0.00
0.00
0.02
0.04
0.09
0.01
0.04
0.29
0.14
0.00
0.06
0.18
0.23
0.10
0.11
0.11
0.34
0.05
0.35
0.09
0.35
0.27
0.54
0.21
0.26
0.31
0.28
0.14
0.06
0.11
0.09
0.02
0.02
0.00
0.13
0.03
0.02
0.00
0.06
0.09
0.04
0.00
0.00
0.00
0.09
0.38
0.00
0.00
0.00
0.00
0.00
0.00
0.38
0.02
0.01
0.00
0.00
0.05
0.05
0.00
0.00
0.00
0.00
0.04
0.04
0.00
0.00
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
Cuadro 7.6: Matriz de confusión de los vídeos de profundidad (entorno guiado y sin guiar).
176
Mirar Reloj
Cruzar Brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
Mirar reloj
Cruzar brazos
Rascar cabeza
Sentarse
Levantarse
Darse la vuelta
Caminar
Saludar
Dar puñetazo
Dar patada
Señalar
Coger
Lanzar (encima)
Lanzar (debajo)
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.05
0.00
0.00
0.16
0.00
0.01
0.00
0.05
0.05
0.04
0.05
0.00
0.06
0.12
0.00
0.00
0.00
0.00
0.45
0.02
0.01
0.00
0.04
0.05
0.00
0.01
0.01
0.05
0.00
0.06
0.00
0.02
0.00
0.05
0.01
0.09
0.04
0.03
0.05
0.03
0.03
0.09
0.55
0.67
0.47
0.20
0.11
0.23
0.64
0.45
0.23
0.17
0.53
0.06
0.21
0.21
0.00
0.06
0.00
0.00
0.00
0.10
0.14
0.05
0.07
0.02
0.00
0.02
0.04
0.03
0.05
0.00
0.00
0.02
0.11
0.12
0.02
0.09
0.29
0.09
0.00
0.10
0.21
0.23
0.32
0.22
0.53
0.45
0.02
0.38
0.17
0.18
0.19
0.43
0.32
0.50
0.32
0.21
0.05
0.00
0.00
0.09
0.04
0.04
0.00
0.05
0.04
0.09
0.05
0.13
0.04
0.03
0.00
0.00
0.00
0.05
0.28
0.00
0.00
0.00
0.01
0.01
0.00
0.12
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.02
0.00
0.05
0.03
0.06
0.00
0.02
0.07
0.04
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
0.00
Cuadro 7.7: Matriz de confusión de los vídeos de los esqueletos (entorno guiado y sin guiar).
Llegados a este punto es el momento de contrastar y validar los resultados obtenidos y
que se han explicado en los párrafos anteriores con sistemas similares cuyo objetivo final es
también el reconocimiento de acciones. Para ello se ha tomado como referencia el estudio
efectuado por Jesús Martínez Del Rincón, Jean-Christophe Nebel y María Jesús Santofimia
Romero: “Common-sense reasoning for human action recognition” [MDRSN13]. En dicho
estudio se presenta un nuevo método que aprovecha las capacidades de razonamiento en
un sistema de visión por computador dedicado al reconocimiento de la acción humana. Para
ello, proponen una metodología dividida en dos etapas. La primera de ellas está basada en los
mismos principios que el presente proyecto: Bag of Words (B OW). Una vez que han obtenido
los resultados proporcionados en la etapa de aprendizaje basado en el algoritmo máquina,
realizan un procesamiento adicional. Este procesamiento consiste en el análisis y corrección
de las estimaciones iniciales proporcionadas por B OW mediante un sistema de razonamiento
común.
En dicho estudio generan su propio dataset (WaRo11) para obtener los resultados mediante
una cámara RGB normal. En el Cuadro 7.8 se muestra una tabla comparativa de los resultados obtenidos en dicho estudio con respecto a los obtenidos en el presente proyecto. A
continuación se presenta una breve descripción de la tabla para facilitar su comprensión:
La primera columna representa que el sistema [MDRSN13] ha sido entrenado con el
dataset IXMAS y evaluado con WaRo11.
La segunda columna representa que el sistema K IN B EH R ha sido entrenado con el dataset IXMAS y evaluado con KinbehrDataset.
La fila representa que se ha empleado únicamente la etapa de B OW.
177
B OW
Tra. == IXMAS & Test. == WaRo11
Tra. == IXMAS & Test. == KinbehrDataset
RGB: 29.4
RGB: 32.7
Cuadro 7.8: Comparación de resultados con [MDRSN13].
Un aspecto a destacar es que los resultados obtenidos con K IN B EH R son algo mejores con
respecto a los obtenidos en [MDRSN13] en la etapa de B OW. Es importante mencionar que
los vídeos contenidos en el dataset KinbehrDataset son bastante más complejos de evaluar
que WaRo11. Esto se debe principalmente a que los actores en KinbehrDataset se comportan
de una forma más natural, como por ejemplo realizar varias acciones al mismo tiempo.
Por otro lado, en el Cuadro 7.9 se puede observar que los resultados mejoran cuando
el sistema es evaluado con el mismo dataset con el que ha sido entrenado. No obstante,
estos resultados no son del todo realistas ya que estas circunstancias no se van a dar en un
entorno real en el que sea necesario realizar un reconocimiento de acciones. Otro aspecto
a destacar es que los resultados obtenidos cuando se emplea un sistema de razonamiento
adicional (segunda y tercera fila donde n es el número de acciones considerado en el sistema
de razonamiento) son considerablemente mejores. Por lo tanto, es muy posible que mediante
la incorporación de un sistema de razonamiento en K IN B EH R se obtenga una tasa de acierto
mejorada. Este aspecto será comentado en más profundidad en el capítulo Conclusiones y
trabajo futuro (véase § 8).
B OW
B OW
B OW
+ AIRS (n = 1)
+ AIRS (n = 5)
Tra. & Test. == IXMAS
Tra. == IXMAS & Test. == WaRo11
Tra. == IXMAS & Test. == KinbehrDataset
RGB: 63.9
Profundidad: Esqueleto: RGB: RGB: -
RGB: 29.4
Profundidad: Esqueleto: RGB: 35.5
RGB: 51.9
RGB: 32.7
Profundidad: 30.8
Esqueleto: 28
RGB: RGB: -
Cuadro 7.9: Comparación de resultados con [MDRSN13].
Finalmente, para concluir el capítulo es importante explicar algunos de los motivos por los
que la tasa de acierto no es mayor en algunos tipos de acciones. Los factores identificados
más importantes son los siguientes:
En los vídeos de profundidad capturados se ha comprobado que en ciertas ocasiones el
middleware NiTE (véase § 6.3.1) identifica al saco de boxeo como una persona. Esto
puede introducir ruido que dificulte la tarea de clasificación ya que como se aprecia en
la Figura 7.4 se introducen en la escena elementos que no son personas. Este problema
se ve acentuado si el saco de boxeo se encuentra en movimiento.
Un problema muy similar al anterior ocurre con los vídeo de esqueleto. En la Figura 7.5
se aprecia como el middleware NiTE identifica el saco de boxeo como una persona y
por lo tanto es dibujado su “correspondiente” esqueleto.
178
Figura 7.4: Problema encontrado en vídeos de profundidad.
Figura 7.5: Problema encontrado en vídeos de esqueletos.
El dataset IXMAS etiqueta ciertas acciones de una manera muy particular permitiendo
un margen muy pequeño en algunas acciones de las secuencias de vídeos capturadas.
Uno de los ejemplos más llamativos es la “acción sentarse”. En IXMAS esta acción
es siempre etiquetada con un actor sentándose en el suelo, mientras que en las pruebas realizadas se ha etiquetado como “sentarse” cuando un actor se sienta en la silla
proporcionada en el escenario.
179
Capítulo 8
Conclusiones y trabajo futuro
E
este capítulo se analiza el trabajo realizado en la elaboración de este proyecto, mostrando en qué grado han sido logrados los objetivos que fueron marcados al comienzo
de su desarrollo. También se expondrán diversas propuestas de trabajo futuro que podrían
mejorar y extender la funcionalidad del sistema desarrollado.
N
8.1 Objetivos alcanzados
En esta sección se analizarán los objetivos expuestos en el capítulo de objetivos (véase
§ 2), mostrando de esta manera la forma en que han sido resueltos así como el nivel de
satisfacción que ha sido alcanzado con cada uno de ellos.
Es importante comenzar recordando cuál era el objetivo principal del proyecto. Este consistía en el desarrollo de un sistema de reconocimiento de acciones que mediante un algoritmo de “aprendizaje máquina” (machine learning) combinara las imágenes de intensidad y
profundidad obtenidas mediante un dispositivo que lo permitiera. También debía disponer de
una base de conocimiento que contuviera información de alto nivel sobre diferentes tipos de
acciones humanas. Llegados a este punto, es posible decir que este objetivo principal ha sido
cubierto en su totalidad mediante el desarrollo de un sistema compuesto de un clasificador
de máquina de vectores o Support Vector Machines (SVM) y la adopción del modelo Bag of
Words (B OW). En el capítulo anterior (véase § 7) se mostraban los resultados y la precisión
lograda con dicho sistema.
No obstante, se debe recordar que a parte de este objetivo principal, se plantearon una serie
de objetivos más específicos que describían de una forma más concisa lo que se esperaba del
sistema propuesto. A continuación se muestra cómo se ha afrontado la realización estos
objetivos específicos.
Evaluación de mercado. Este objetivo consistía en la realización de un análisis de los diferentes dispositivos Kinect disponibles en el mercado (Kinect for Xbox 360, Kinect for
Windows y Kinect de segunda generación). Además, también se pretendía decidir qué
dispositivo era el más apropiado para el proyecto en base a la información recopilada.
Para ello fue necesario realizar un amplio barrido y filtrado de toda la información que
se encontraba disponible en la web, libros, artículos académicos, así como los proyec181
tos existentes que hacen uso de esta tecnología. El principal problema con el que hubo
de enfrentarse para la consecución de este objetivo fue que la información se encontraba muy dispersa y, en algunas ocasiones, podía llegar a ser un poco contradictoria. Por
último, también es importante destacar que en el momento de decidir qué dispositivo
era el más apropiado se encontraron problemas presupuestarios ya que tan sólo se tenía
la posibilidad de emplear el modelo Kinect for Xbox 360.
Análisis de librerías disponibles. Con este objetivo se pretendía realizar un estudio acerca
de las plataformas y/o librerías disponibles para el dispositivo Kinect elegido. También
se pretendía identificar y analizar las posibilidades que ofrecían cada una, así como las
limitaciones, ventajas y desventajas que presentaban. Para lograr la consecución de
este objetivo fue necesario realizar una profunda búsqueda en diferentes medios y sintetizar toda la información encontrada para destacar la información relevante para el
estudio. Una vez que toda esta información fue procesada, se decidió que la plataforma
más adecuada era O PEN NI. Esto se debía principalmente a su naturaleza multiplataforma y software abierto. También es importante destacar que el hecho de permitir la
incorporación de diferentes middleware la convertía en una opción mucho más atractiva. No obstante, el principal contratiempo encontrado fue que durante la elaboración
del proyecto la compañía creadora de la librería fue comprada y se detuvieron todos
los servicios de soporte que se ofrecían hasta el momento.
Identificación y análisis de los datos recogidos por el dispositivo. Este objetivo, más técnico que los anteriores, consistía en identificar los diferentes tipos de información proporcionados por el modelo de Kinect elegido. Otra tarea a realizar era analizar cómo
debían interpretarse estos flujos de información, así como su manera de manipularlos y
procesarlos. De este modo, fue necesario familiarizarse con diversos conceptos relacionados con el tratamiento de imágenes. Para obtener las habilidades técnicas necesarias
para trabajar con la plataforma O PEN NI y NiTE se empleó una librería de alto nivel
(SimpleOpenNI) mucho más sencilla y fácil de manejar. Gracias a la utilización de
esta librería se analizaron algunos conceptos importantes, como por ejemplo la forma
de interpretar las imágenes de profundidad o las diferencias con respecto a las típicas
imágenes RGB. Una vez que esta primera toma de contacto tuvo lugar, se procedió a
llevar a cabo la esencia de este objetivo: Desarrollar el módulo de captura de imágenes empleando O PEN NI y NiTE. Aunque este objetivo ha sido alcanzado con éxito, no
estuvo falto de problemas y contratiempos que tuvieron que ser resueltos (véase § 6.2
y § 6.3). Algunos de los más destacados fueron el elevado consumo de memoria o la
pérdida de frames durante la captura.
Identificación y análisis del conjunto de acciones a reconocer. Con este objetivo se pretendía identificar qué acciones podían ser monitorizadas y reconocidas. De este modo
fue posible realizar un análisis de los patrones que caracterizan a cada una. Una vez
182
realizado este análisis, se decidió incorporar un nuevo tipo de vídeo, aparte del RGB
y profundidad, que consistía en el esqueleto de los usuarios que estuvieran en escena.
Este objetivo también permitió conocer aspectos que serían relevantes posteriormente
en el análisis e interpretación de los resultados obtenidos en el sistema. Ejemplo de ello
es que en algunas ocasiones aisladas reconocía como personas objetos de las escena.
Adaptación del modelo Bag of Words. Este objetivo partía de la realización de un estudio
que permitiera obtener una visión general acerca del estado del arte sobre las soluciones existentes. De este modo, fue posible identificar, analizar y, lo más importante,
comprender todos los conceptos sobre el funcionamiento de un modelo basado en Bag
of Words (B OW). También se llevó a cabo la adaptación de la solución proporcionada
a las peculiaridades del proyecto. Una vez que todos estos aspectos estaban resueltos,
fue posible la elaboración del módulo de reconocimiento de acciones que, junto con
el módulo de captura de imágenes, constituiría el núcleo del sistema. Para ello fue
necesario obtener diversas habilidades técnicas para la utilización de diferentes herramientas y los conceptos que tenían asociados. Uno de los más importantes fue cómo
obtener puntos de interés espacio-temporales de los vídeos obtenidos mediante la herramienta stipdept1 . No obstante, no fue el único reto ya que estos puntos obtenidos
debían ser procesados mediante técnicas de clustering. Aunque este objetivo fue completado con éxito, supuso todo un reto. Esto se debió principalmente a que muchos de
los conceptos aplicados eran totalmente desconocidos.
Desarrollo de un clasificador (SVM). Este objetivo consistía en realizar un estudio, análisis y diseño de las diferentes técnicas de clasificación existentes y que permitan el
reconocimiento de patrones de las acciones que se pretender monitorizar. También fue
necesario familiarizarse y comprender los conceptos asociados al funcionamiento de
este tipo de clasificadores. De este modo, para la consecución de este objetivo se empleó una solución existente proporcionada por la herramienta BSVM 2 . Posteriormente,
se llevaron a cabo los procesos de entrenamiento y evaluación del mismo. Este objetivo fue completado con éxito. No obstante, se encontraron nuevamente las mismas
dificultades: Algunos los conceptos eran totalmente desconocidos.
Organización del conjunto de sujetos del experimento. Con este objetivo se pretendía que
mediante la utilización de un método científico de recogida de datos se confeccionara
un conjunto de datos (ejemplos de entrenamiento o muestras) de diferentes individuos.
En primer lugar es importante destacar que se decidió emplear dos conjunto de datos
diferentes para la evaluación del sistema desarrollado. El primero de ellos debía ser
un dataset público que permitiera entrenar de forma adecuada al sistema. Para ello se
tuvo que realizar un breve estudio sobre los dataset existentes, donde se identificó que
1
2
http://www.di.ens.fr/~laptev/index.html
http://www.csie.ntu.edu.tw/~cjlin/bsvm/
183
los que mejor se adaptaban a las necesidades del proyecto eran INRIA Xmas Motion
Acquisition Sequences (IXMAS) [WRB06] y Hollywood [LMSR08]. Tras realizar un
análisis en profundidad de ambos, se decidió emplear el dataset IXMAS. Para el segundo de ellos se decidió crear un dataset propio (KinbehrDataset) con vídeos capturados
mediante el módulo de captura de imágenes desarrollado. De esta forma, fue necesario preparar un escenario donde los actores pudieran realizar las diferentes acciones
mediante la inclusión de un saco de boxeo, una pelota, etc. También es importante
mencionar que se decidió realizar dos procesos de grabación bien diferenciados: Guiado y sin guiar. Mientras que en el primero el usuario realizaba las acciones que se le
fueran indicando, en el segundo el actor era dejado sólo en la habitación durante ocho
minutos con la única instrucción de hacer lo que quisiera. Una vez que ya se tenían todos los vídeos, fue necesario la segmentación y etiquetación de los mismos. El último
paso de este objetivo consistió en poner en marcha el sistema con los diferentes dataset
y analizar los resultados obtenidos. El objetivo fue logrado con éxito, aunque para ello
fue necesario enfrentarse a alguna dificultad. Entre las más destacadas fue el coordinar
y organizar a todos los participantes de las grabaciones; la dificultad de realizar una
correcta etiquetación de los vídeos o la elaboración de un formulario adecuado que se
encontrara en consonancia con la legislación vigente acerca de la protección de datos
de carácter personal.
Desarrollo de una interfaz gráfica. Este objetivo consistía en el desarrollo de una interfaz
gráfica que permitiera integrar los diferentes módulos que habían sido desarrollados
durante el proyecto. Para la consecución de este objetivo fue necesario realizar un estudio y análisis de las diferentes soluciones existentes para la implementación de esta
interfaz de usuario que permitiera facilitar la utilización a los futuros usuarios del sistema. Debido a que gran parte del proyecto está escrito en el lenguaje de programación
C++ y debido a la gran cantidad de funcionalidades que ofrece, Qt3 fue la herramienta
elegida para desempeñar esta labor.
Tras este breve análisis de los objetivos marcados al comienzo del proyecto y como conclusión final referente a estos objetivos, es posible afirmar que todos han sido alcanzados
satisfactoriamente.
8.2 Trabajo futuro
La realización del proyecto descrito en la presente memoria ha supuesto la creación de
un sistema de reconocimiento de acciones a través de los vídeos RGB y de profundidad
capturados por el dispositivo Kinect. No obstante, a pesar de cumplir con todos los objetivos
marcados al comienzo del proyecto, es susceptible de diversas mejoras e incorporación de
nuevas funcionalidades. A continuación se presenta un breve resumen de estas mejoras que
3
http://qt-project.org/
184
posiblemente sean abordadas en un Trabajo Fin de Máster.
El proceso de clasificación de acciones propuesta en el presente proyecto está centrado
en el procesamiento de vídeo. Sin embargo, como ya se mencionaba anteriormente, el
middleware NiTE proporciona información bastante precisa sobre la ubicación de las
articulaciones de los usuarios que se encuentran en escena. Hasta el momento, esta
información sólo ha sido aprovechada para generar un nuevo tipo de secuencias de
vídeo: Vídeo de esqueleto. No obstante, al igual que se ha propuesto un clasificador
basado en el procesamiento de vídeo, sería posible desarrollar otro clasificador que
procesara esta información. Es por ello por lo que se ha querido dejar preparado el
módulo de captura de imágenes para la inclusión de esta nueva funcionalidad mediante
el almacenamiento de estos datos en ficheros XML (véase § 6.3.2.3).
En el análisis de los resultados obtenidos (véase § 7) se mencionaban algunas de las
causas por la que en algunas situaciones el nivel de precisión no era mayor. Una de
ellas era debido a que la información proporcionada por el algoritmo NiTE daba lugar, en situaciones concretas, a confusión. Se explicaba como ejemplo de esto lo que
ocurría en algunas ocasiones con el saco de boxeo empleado en la recogida de datos,
donde era reconocido como si fuera una persona. Aunque la licencia bajo la que es distribuida NiTE no permite su modificación, si sería posible desarrollar alguna solución
que analizara los datos proporcionados por NiTE y de este modo eliminar este tipo de
información incorrecta.
En el capítulo de resultados (véase § 7) se anticipaba que, aunque no era objetivo del
presente proyecto, el etiquetado y segmentación automática de vídeos podría facilitar
en gran medida el trabajo necesario para el funcionamiento de un sistema de reconocimiento de acciones. Es por ello por lo que se considera interesante como mejora al
sistema presentado.
Entrenar el sistema con datos obtenidos mediante Kinect, lo que mejoraría sensiblemente la tasa de reconocimiento.
Como ya se anticipaba en el capítulo de resultados (véase § 7), el nivel de precisión
proporcionada por K IN B EH R puede ser mejorado mediante la inclusión de una nueva
etapa en el proceso de reconocimiento. Esta etapa consiste en proporcionar al sistema
la capacidad de razonar los resultados obtenidos en la etapa de clasificación. De este
modo, se podría mejorar considerablemente la tasa de acierto. Un ejemplo muy claro
de ello podría ser que si por ejemplo el clasificador identifica una determinada acción
como levantarse y el actor no se ha sentado en ningún momento, debería descartar este
resultado.
Hoy en día los dispositivos móviles incorporan una gran variedad de sensores (acelerómetros, geolocalización, etc.) que proporcionan información de forma continua:
185
Orientación, altura, posición etc. Además, en este último año se están presentando un
nuevo tipo de dispositivo que es posible que revolucione este campo y que en próximos años mucha gente podría ir equipado con uno: Los dispositivos “wearables”. Este
tipo de información puede resultar muy interesante en la labor de reconocimiento de
acciones, proporcionando por ejemplo el ritmo cardiaco de una persona en un instante
determinado. Es por este motivo por el que se cree que la incorporación de la información facilitada por estos sensores al sistema puede resultar realmente interesante en la
tarea de reconocimiento de acciones.
186
Capítulo 9
Conclusions and future work
This chapter describes the accomplished work during this final year project. To this end,
the objectives stated at the beginning of this document are listed and checked for verification. Finally, future work are also stated in order to outline future system improvements and
functionality extensions.
9.1 Achieved objectives
This section analyses those objectives that were stated in chapter 3, therefore showing the
way how these have been tackled and achieved.
First of all, it is important recall that the main objective of this project was to develop
a system for human action recognition. To this end, this project has followed a machine
learning approach based on the combination of depth and intensity images used as inputs to
the system. This machine learning system should also count on high level information about
different types of human actions. At moment in time, it can be said that this objective has
been fully achieved through the implementation of a system combining the use of a Support
Vector Machines (SVM) and a Bag of Words (B OW) model. Previous chapter shows details
about the system performance and accuracy achieved by this implementation.
However, it should be noted that apart from the main goal, more specific goals were also
stated describing more concrete system results. Next, a description of how these goals have
been tackled is provided.
Market analysis. This objective was intended to carry out a market analysis about different Kinect devices currently available (Kinect for Xbox 360, Kinect for Windows and
Kinect second generation). Moreover, this analysis was also intended to evaluate the
more appropriate device considering the project requirements. In order to accomplish
this goal, a thorough analysis of the information available in the Internet, books, academic papers, and stated-of-the-art project using this technology was carried out. The
main problem that was faced was the information dispersion as well as their lack of
accuracy. Finally, it has to be noted that apart from technological issues, budget considerations had to also be considered. Based on these requirements, Kinect for Xbox
360 was finally chosen.
187
Analysis of available libraries. This objective was intended to analyse existing platforms
and/or libraries available for the chosen Kinect device. Moreover, this objective also
aimed at identifying and analysing the offered functionalites along with their strengths
and weaknesses. Based on the information retrieved from this study, O PEN NI was chosen. The main reasons grounding this selection are that O PEN NI is multiplatform and
open source. Also, O PEN NI supports the integration for different middleware systems.
In this sense, the main obstacle that had to be overcome was the fact that the company
providing the library was bought and discontinue the support services.
Identification and analysis of the device collected data. This objective was intended to carry
out a more technical work consisting in the identification of the different types of information provided by Kinect. An additional task was to analyse how the different
information flows had to be interpreted, manipulated and processed. This task involved acquiring a solid background for image manipulation. SimpleOpenNI was used to
simplify how O PEN NI and NiTE were used. This library was an excellent tool to start
working with new concepts such as RGB or O PEN NI and NiTE depth images. Afterwards, the module for image capture using O PEN NI and NiTE was developed. Despite
having fulfilled this goal, some troubles were experienced though successfully handled
(please refer to § 6.2 and § 6.3). Among the most important ones we can mention the
high memory usage or frame lost during image recording.
Identification and analysis of the set of actions to be considered. This objective was intended to identify the actions that were going to be monitored and therefore recognised. After having carried out this analysis we decided to include a new type of video
recordings, apart from the RGB and depth ones, as it was the actor skeleton recordings.
This object was also an enabling one for later stages such as the system result analysis and interpretation. For example, we realised that some objects in the scene were
considered as humans by our system.
Adapting the Bag of Words Model. This objective started from the analysis of the stateof-the-art for recognising systems intended to select the most appropriate one in terms
of efficiency and accuracy. Therefore, Bag of Words (B OW) model was selected and
implemented in our system taking into account the feature of the project. Once these
issues were handled, a module for action recognition was developed, along with an
additional module for image capture. Different skills and tools were used to this end,
among the most important ones we can highlight obtaining the spatio-temporal points
of interest of videos using the stipdept1 . However, this was not the only challenge since
a clustering process has to be undertaken afterwards.
An (SVM) classifier development. This objective involves the study, analysis, and final implementation of one of the available classification techniques. This module implements
1
http://www.di.ens.fr/~laptev/index.html
188
a pattern recognition approach to support the human action monitoring and recognition. In order to accomplish this goal several approaches were studied, although
BSVM 2 was finally chosen to be implemented. Finally, the system was trained and
tested.
Selecting and organising the set of experimental subjects. This objective is intended to
provide a dataset recorded complying with a scientific methodology in order to be
used for testing and evaluation purposes. Recall that different datasets were used for
training and testing the system. The training system should meet several requirements
such as being a public a basic dataset so that the system could be trained with basic
actions. A thorough revision of the state-of-the-art was carried out in order to identify
those datasets and select the one complying the system requirements. INRIA Xmas
Motion Acquisition Sequences (IXMAS) [WRB06] and Hollywood [LMSR08] datasets were the most appropriate ones, being IXMAS the one chosen for the purpose
of training the system. Afterwards, the system evaluation or testing was carried out
using a self-designed dataset known as KinbehrDataset recorded using the module
implemented in this project for image capture. To this end we had to prepare an appropriate context in which actors could naturally perform the actions the system had been
trained with. Also, for future work, actors were also recording performing actions in
a guided manner attending to provided commands. On the other hand, the unguided
performance of actors were only based on the sole command of being themselves and
staying in the room for 8 minutes. After having recorded all the videos, a process of
segmentation and labelling was carried out. Finally, the system had to be tested using
these videos and accuracy results were collected based on the ground truth information
provided during the segmentation and labelling process. Among the main difficulties
faced during the accomplishment of the objective we can mention the coordination and
organisation of the volunteers participating in this study; also labelling and segmenting videos was tedious although simplified by the supported tool designed during this
project. Finally, it has to be highlighted that the video recording task complies with the
Spanish Law for personal data protection.
Developing a graphical user interface. Due to the fact that different modules were implemented during this project, there was a risk for potential user to find the system difficult
to use. In order to face this problem, it was decided to implement a graphical user interface to abstract the user from having to deal with isolated modules. This interface
makes transparent the way how potential users can run the different modules as though
they were one. Taking into account that most of the project was written in C++, and
due to many features of Qt3 we selected this tool for implementing the graphical user
interface.
2
3
http://www.csie.ntu.edu.tw/~cjlin/bsvm/
http://qt-project.org/
189
It can be therefore concluded that all the objectives stated during the early stage of the
project have been successfully addressed.
9.2 Future work
The project described in this document have consisted in the implementation of a system
for human action recognition based on the video analysis of RGB and depth sequences recorded using the Kinect device. However, despite having met all the objectives initially stated
for this project, several improvements could be carried out in order to extend the system functionality. A list of some of these suggestions is provided underneath and might be tackled
during my Master dissertation.
This project has focused on the use of video sequences, however, the NiTE middleware provides a functionality to obtain precise information about the human skeleton.
Articulation points are provided by this middleware. Despite having been recorded in
the KinbehrDataset this information has not been exploited at all. However, the system
is already prepared form capturing these type of images as well as for obtaining the
articulation points in an XML file (please refer to § 6.3.2.3).
During the evaluation and system analysis presented in the result chapter (please refer
to § 7) we have identified several causes that lead to wrong recognition. One of them is
due to the fact that several objects are considered to be humans, for instance it was quite
common for the boxing bag to be considered as a human whenever it was bouncing.
A possible solution to this issue could consists in the analysis of the data provided by
the NiTE middleware in order to remove this incorrect information. Please note that
modifying the NiTE middleware is not an option since the library license does not
permit modifications.
During the result chapter (please refer to § 7) we already pointed out that the automatic
segmentation and label of videos were totally out of the scope of the project. However,
efforts could be dedicated to this task in order to be totally autonomous during the
training and recognising stage.
So far, the system has been trained with RGB videos. However, it would be desirable
to train and test the system using only Kinect videos.
As it was foreseen during the result chapters (please refer to § 7) the accuracy level provided by K IN B EH R can be improved by including during the recognising stage an upper
supervision layer in which reasoning tasks could be carried out in order to determine
whether the recognised action makes sense in the supervised context. For example,
if the classifier concludes that the actions taking place are the one of standing up the
reasoning system could verify that the actor has previously sat.
Finally, the majority of the mobile phones that can be found in the market already
190
include a great variety of sensors (ranging from accelerometers, geolocalizers, etc.).
These sensors can be used to enhanced the recognition system. Moreover, wearable
devices could also be of a great help in this regard. These devices could provide useful
information for action recognition such as cardiac rhythm. Combining information
from different sources could improve accuracy rates for action recognition.
191
ANEXOS
193
Anexo A
Listados de los ejemplos con Processing
A.1 Ejemplo 1
1
2
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
4
5
void setup ()
{
size (640∗2 , 480) ;
kinect = new SimpleOpenNI ( this ) ;
6
7
kinect . enableDepth () ;
kinect . enableRGB () ;
9
10
11
}
13
14
15
void draw ()
{
kinect . update () ;
PImage depthImage = kinect . depthImage () ;
PImage rgbImage = kinect . rgbImage () ;
17
18
image ( depthImage , 0 , 0) ;
image ( rgbImage , 640 , 0) ;
20
21
22
}
24
25
26
27
void mousePressed () {
color c = get ( mouseX , mouseY ) ;
println ( " r : " + red ( c ) + " g : " + green ( c ) + " b : " + blue ( c ) ) ;
}
Listado A.1: «Ejemplo 1» [Bor12]
195
A.2 Ejemplo 2
1
2
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
4
5
void setup ()
{
size (640 , 480) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
}
6
7
8
9
11
12
13
void draw ()
{
kinect . update () ;
PImage depthImage = kinect . depthImage () ;
image ( depthImage , 0 , 0) ;
15
16
17
}
19
20
21
void mousePressed () {
int[] depthValues = kinect . depthMap () ;
int clickPosition = mouseX + ( mouseY ∗ 640) ;
int millimeters = depthValues [ clickPosition ];
float meters = millimeters /1000;
23
24
26
27
println ( " milimetros :: " + millimeters + " metros : " + meters ) ;
}
Listado A.2: «Ejemplo 2» [Bor12]
196
A.3 Primer ejemplo de nube de puntos
1
2
3
import processing . opengl .∗;
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
5
void setup () {
size (1024 , 768 , OPENGL ) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
}
6
7
8
9
11
12
void draw () {
background (0) ;
14
kinect . update () ;
16
17
translate ( width /2 , height /2 , −1000);
rotateX ( radians (180) ) ;
20
stroke (255) ;
22
23
PVector [] depthPoints = kinect . depthM apReal World () ;
for(int i = 0; i < depthPoints . length ; i ++) {
PVector currentPoint = depthPoints [ i ];
point ( currentPoint .x , currentPoint .y , currentPoint . z ) ;
}
24
25
26
27
}
Listado A.3: «Primer ejemplo Nube de puntos» [Bor12]
197
A.4 Primer ejemplo de nube de puntos con movimiento
1
2
import processing . opengl .∗;
import SimpleOpenNI .∗;
4
SimpleOpenNI kinect ;
7
float rotation = 0;
12
13
void setup () {
size (1024 , 768 , OPENGL ) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
}
15
16
17
void draw () {
background (0) ;
kinect . update () ;
9
10
11
19
20
translate ( width /2 , height /2 , −1000);
rotateX ( radians (180) ) ;
22
translate (0 , 0 , 1000) ;
24
25
rotateY ( radians ( rotation ) ) ;
rotation ++;
27
stroke (255) ;
29
PVector [] depthPoints = kinect . depthM apReal World () ;
31
32
33
34
35
for (int i = 0; i < depthPoints . length ; i +=10) {
PVector currentPoint = depthPoints [ i ];
point ( currentPoint .x , currentPoint .y , currentPoint . z ) ;
}
}
Listado A.4: «Primer ejemplo Nube de puntos con movimiento» [Bor12]
198
A.5 Primer ejemplo de nube de puntos a color
1
2
import processing . opengl .∗;
import SimpleOpenNI .∗;
4
5
SimpleOpenNI kinect ;
float rotation = 0;
12
void setup () {
size (1024 , 768 , OPENGL ) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
kinect . enableRGB () ;
kinect . a l t e r n a t i v e V i e w P o i n t D e p t h T o I m a g e () ;
14
}
16
17
void draw () {
background (0) ;
kinect . update () ;
PImage rgbImage = kinect . rgbImage () ;
7
8
9
10
11
18
19
translate ( width /2 , height /2 , −250);
rotateX ( radians (180) ) ;
translate (0 , 0 , 1000) ;
rotateY ( radians ( rotation ) ) ;
rotation ++;
21
22
23
24
25
PVector [] depthPoints = kinect . depthM apReal World () ;
for (int i = 0; i < depthPoints . length ; i +=1) {
PVector currentPoint = depthPoints [ i ];
stroke ( rgbImage . pixels [ i ]) ;
point ( currentPoint .x , currentPoint .y , currentPoint . z ) ;
}
27
28
29
30
31
32
33
}
Listado A.5: «Primer ejemplo Nube de puntos a color» [Bor12]
199
A.6 Dibujando con Kinect
1
2
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
4
5
6
int closestValue ;
int closestX ;
int closestY ;
8
float lastX ;
float lastY ;
9
15
void setup ()
{
size (640 , 480) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
17
18
}
11
12
13
14
20
21
22
background (0) ;
void draw ()
{
closestValue = 8000;
24
kinect . update () ;
26
int[] depthValues = kinect . depthMap () ;
28
29
for(int y = 0; y < 480; y ++) {
for(int x = 0; x < 640; x ++) {
31
int reversedX = 640−x−1;
33
34
int i = reversedX + y ∗ 640;
int cur rentDe pthVal ue = depthValues [ i ];
36
if( curre ntDept hValue > 610 && curr entDep thVal ue < 1525 &&
cur rentDe pthVal ue < closestValue ) {
closestValue = c urrent DepthV alue ;
closestX = x ;
closestY = y ;
38
39
40
41
42
43
}
}
}
45
46
float interpolatedX = lerp ( lastX , closestX , 0.3 f ) ;
float interpolatedY = lerp ( lastY , closestY , 0.3 f ) ;
48
stroke (255 ,0 ,0) ;
50
strokeWeight (3) ;
52
53
54
line ( lastX , lastY , interpolatedX , interpolatedY ) ;
lastX = interpolatedX ;
lastY = interpolatedY ;
200
56
}
58
59
60
void mousePressed () {
save ( " drawing . png " ) ;
background (0) ;
}
61
Listado A.6: «Dibujando con Kinect» [Bor12]
201
A.7 Álbum de fotos
1
2
import SimpleOpenNI .∗;
SimpleOpenNI kinect ;
4
5
6
int closestValue ;
int closestX ;
int closestY ;
8
9
float lastX ;
float lastY ;
11
12
13
14
15
17
18
19
20
21
23
24
25
26
27
29
30
31
32
34
35
36
37
38
float image1X ;
float image1Y ;
float image1scale ;
int image1width = 100;
int image1height = 100;
float image2X ;
float image2Y ;
float image2scale ;
int image2width = 100;
int image2height = 100;
float image3X ;
float image3Y ;
float image3scale ;
int image3width = 100;
int image3height = 100;
int currentImage = 1;
PImage image1 ;
PImage image2 ;
PImage image3 ;
void setup ()
{
size (640∗2 , 480) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
image1 = loadImage ( " image1 . jpg " ) ;
image2 = loadImage ( " image2 . jpg " ) ;
image3 = loadImage ( " image3 . jpg " ) ;
40
41
42
43
}
45
46
void draw () {
background (0) ;
48
closestValue = 8000;
50
kinect . update () ;
52
int[] depthValues = kinect . depthMap () ;
54
for(int y = 0; y < 480; y ++) {
for(int x = 0; x < 640; x ++) {
55
202
56
57
58
int reversedX = 640−x−1;
int i = reversedX + y ∗ 640;
int cur rentDe pthVal ue = depthValues [ i ];
60
if( curre ntDept hValue > 610 && curr entDep thVal ue < 1525 &&
cur rentDe pthVal ue < closestValue ) {
closestValue = c urrent Depth Value ;
closestX = x ;
closestY = y ;
}
61
62
63
64
65
66
}
68
69
float interpolatedX = lerp ( lastX , closestX , 0.3) ;
float interpolatedY = lerp ( lastY , closestY , 0.3) ;
71
72
switch( currentImage ) {
case 1:
image1X = interpolatedX ;
image1Y = interpolatedY ;
}
73
74
image1scale = map ( closestValue , 610 ,1525 , 0 , 4) ;
break;
case 2:
image2X = interpolatedX ;
image2Y = interpolatedY ;
image2scale = map ( closestValue , 610 ,1525 , 0 , 4) ;
break;
case 3:
image3X = interpolatedX ;
image3Y = interpolatedY ;
image3scale = map ( closestValue , 610 ,1525 , 0 , 4) ;
break;
76
77
78
79
80
81
82
83
84
85
86
87
88
}
image ( image1 , image1X , image1Y , image1width ∗ image1scale , image1height
∗ image1scale ) ;
image ( image2 , image2X , image2Y , image2width ∗ image2scale , image2height
∗ image2scale ) ;
image ( image3 , image3X , image3Y , image3width ∗ image3scale , image3height
∗ image3scale ) ;
90
91
92
lastX = interpolatedX ;
lastY = interpolatedY ;
94
95
97
98
100
101
102
103
104
105
106
image ( kinect . depthImage () , 640 , 0) ;
}
void mousePressed () {
currentImage ++;
if( currentImage > 3) {
currentImage = 1;
}
println ( currentImage ) ;
}
Listado A.7: «Álbum de fotos» [Bor12]
203
A.8 Batería musical
1
2
3
4
5
6
7
8
9
12
13
14
15
16
17
class Hotpoint {
PVector center ;
color fillColor ;
color strokeColor ;
int size ;
int pointsIncluded ;
int maxPoints ;
boolean wasJustHit ;
int threshold ;
Hotpoint (float centerX , float centerY , float centerZ , int boxSize ) {
center = new PVector ( centerX , centerY , centerZ ) ;
size = boxSize ;
pointsIncluded = 0;
maxPoints = 1000;
threshold = 0;
fillColor = strokeColor = color ( random (255) , random (255) , random
(255) ) ;
19
20
}
22
23
24
void setThreshold ( int newThreshold ) {
threshold = newThreshold ;
}
26
27
28
void setMaxPoints (int newMaxPoints ) {
maxPoints = newMaxPoints ;
}
30
31
32
void setColor (float red , float blue , float green ) {
fillColor = strokeColor = color ( red , blue , green ) ;
}
34
35
boolean check ( PVector point ) {
boolean result = false ;
if ( point . x > center . x − size /2 && point . x < center . x + size /2) {
if ( point . y > center . y − size /2 && point . y < center . y + size /2)
{
if ( point . z > center . z − size /2 && point . z < center . z + size
/2) {
result = true ;
pointsIncluded ++;
}
}
}
37
38
39
40
41
42
43
44
return result ;
46
47
}
49
50
51
void draw () {
pushMatrix () ;
translate ( center .x , center .y , center . z ) ;
204
fill ( red ( fillColor ) , blue ( fillColor ) , green ( fillColor ) , 255 ∗
percentIncluded () ) ;
stroke ( red ( strokeColor ) , blue ( strokeColor ) , green ( strokeColor ) ,
255) ;
box ( size ) ;
popMatrix () ;
53
54
55
56
57
}
59
60
61
float percentIncluded () {
return map ( pointsIncluded , 0 , maxPoints , 0 , 1) ;
}
64
65
66
boolean currentlyHit () {
return ( pointsIncluded > threshold ) ;
}
69
70
71
boolean isHit () {
return currentlyHit () && ! wasJustHit ;
}
73
74
void clear () {
wasJustHit = currentlyHit () ;
pointsIncluded = 0;
}
75
76
77
}
Listado A.8: Clase Hotpoint de la aplicación «Batería musical» [Bor12]
2
3
import processing . opengl .∗;
import SimpleOpenNI .∗;
import ddf . minim .∗;
5
SimpleOpenNI kinect ;
7
float rotation = 0;
1
9
10
11
Minim minim ;
AudioPlayer kick ;
AudioPlayer snare ;
13
14
Hotpoint snareTrigger ;
Hotpoint kickTrigger ;
16
float s = 1;
18
void setup () {
size (1024 , 768 , OPENGL ) ;
kinect = new SimpleOpenNI ( this ) ;
kinect . enableDepth () ;
19
20
21
25
minim = new Minim ( this ) ;
snare = minim . loadFile ( " hat . wav " ) ;
kick = minim . loadFile ( " kick . wav " ) ;
27
snareTrigger = new Hotpoint (200 , −400, 700 , 250) ;
23
24
205
kickTrigger = new Hotpoint (−200, −400, 700 , 250) ;
28
30
}
32
33
void draw () {
background (0) ;
kinect . update () ;
34
36
37
translate ( width /2 , height /2 , −1000);
rotateX ( radians (180) ) ;
39
40
translate (0 , 0 , 1400) ;
rotateY ( radians ( map ( mouseX , 0 , width , −180, 180) ) ) ;
42
43
translate (0 , 0 , s ∗ −1000) ;
scale ( s ) ;
46
stroke (255) ;
48
PVector [] depthPoints = kinect . depthM apReal World () ;
50
51
for (int i = 0; i < depthPoints . length ; i +=10) {
PVector currentPoint = depthPoints [ i ];
snareTrigger . check ( currentPoint ) ;
kickTrigger . check ( currentPoint ) ;
53
54
point ( currentPoint .x , currentPoint .y , currentPoint . z ) ;
56
57
}
59
println ( snareTrigger . pointsIncluded ) ;
61
62
63
if( snareTrigger . isHit () ) {
snare . play () ;
}
65
66
67
68
if(! snare . isPlaying () ) {
snare . rewind () ;
snare . pause () ;
}
70
71
72
if ( kickTrigger . isHit () ) {
kick . play () ;
}
74
75
76
77
if(! kick . isPlaying () ) {
kick . rewind () ;
kick . pause () ;
}
79
80
snareTrigger . draw () ;
snareTrigger . clear () ;
82
83
84
kickTrigger . draw () ;
kickTrigger . clear () ;
}
206
86
87
88
89
void stop ()
{
kick . close () ;
snare . close () ;
minim . stop () ;
super . stop () ;
91
92
93
95
96
97
98
99
100
101
102
}
void keyPressed () {
if ( keyCode == 38) {
s = s + 0.01;
}
if ( keyCode == 40) {
s = s − 0.01;
}
}
Listado A.9: Clase principal de la aplicación «Batería musical» [Bor12]
207
Anexo B
Módulo de captura de imágenes
B.1 Diseño definitivo
B.1.1
Modelo de clases definitivo
Figura B.1: Diagrama de clases.
209
B.1.2
Estructura de directorio definitivo
Figura B.2: Estructura de directorios.
210
B.1.3
Modelo de flujo de la ejecución
Figura B.3: Modelo de flujo de la ejecución concurrente.
211
Anexo C
Formulario de consentimiento
En el siguiente anexo se presenta el formulario de consentimiento que fue empleado para
recoger el consentimiento de los actores en la realización de la recogida de datos, que posteriormente fueron utilizados para efectuar las pruebas del sistema desarrollado (véase § 7).
Se encuentra dividido en dos partes:
Información acerca del estudio y condiciones que se estarían aceptando al dar el consentimiento.
• Información general.
• Sobre el estudio.
Formulario de aceptación.
213
Escuela Superior de Informática de Ciudad Real
ÉTICA DE LA INVESTIGACIÓN:
FORMULARIO DE CONSENTIMIENTO DE LA MUESTRA
Título del Proyecto: KinBehR (KINect for human BEHaviour Recognition)
Nombre del investigador: Rubén Cantarero Navarro.
Dirección de contacto del investigador: [email protected]
Nombre del director del proyecto: María José Santofimia Romero.
Dirección de contacto del director del proyecto: [email protected]
SECCIÓN I: Información general
1. Le estamos pidiendo que participe en un estudio.
2. Usted no tiene que participar en el estudio.
3. Si dice que sí, puede dejar de participar en el estudio en cualquier momento.
4. Por favor tome todo el tiempo que necesite para decidir.
SECCIÓN II: Sobre el estudio
1. ¿Para qué firma este documento?: Lo firma para poder participar en el estudio.
2. ¿Por qué se está haciendo este estudio de investigación?. Se trata de un estudio de
investigación que pretende desarrollar un sistema que combine el análisis de imágenes de
intensidad y profundidad con una base de conocimiento donde se contenga información de
alto nivel sobre acciones humanas. Para ello, será necesario generar un dataset en el que se
pueda asegurar que las personas están realizando las acciones con las que se ha entrenado el
sistema pero de una manera racional, es decir, motivada con un objetivo concreto. Por lo
tanto, también será objetivo de este proyecto la generación de dicho dataset a partir de la
grabación y etiquetado de escenarios concretos, donde se realice al menos un número
relevante de las acciones con las que el sistema haya sido entrenado. Dichas acciones
dependerán de las acciones disponibles en los datasets públicos ya que, utilizando un dataset
para entrenar el sistema distinto del utilizado para su evaluación, se asegurará la validez del
sistema propuesto.
3. ¿Qué pasa si digo “sí, quiero participar en el estudio”?. si dice que sí:
a) Realizaremos una grabación de vídeo mediante un dispositivo Kinect.
b) Le daremos un formulario con preguntas para que usted conteste.
c) Si quiere, podemos leerle las preguntas en voz alta y escribir sus respuestas en el
formulario.
d) Estas preguntas no tienen respuestas correctas o incorrectas. Puede saltar cualquier
pregunta si no quiere contestarla.
4. ¿Cuánto tiempo tomará el estudio?. El estudio tomará alrededor de veinte minutos de su
Escuela Superior de Informática de Ciudad Real
tiempo.
5. ¿Qué pasa si digo “no quiero participar en el estudio”?. Nadie le tratará de manera
diferente. A usted no se le penalizará. Aunque no recibirá el beneficio de estar en el estudio,
no perderá otro beneficio.
6. ¿Qué pasa si digo que sí, pero cambio de opinión más tarde?. Usted puede dejar de
participar en el estudio en cualquier momento. A usted no se le penalizará. Aunque no
recibirá el beneficio de estar en el estudio, no perderá otro beneficio.
7. ¿Quién verá mis respuestas?. Las únicas personas autorizadas para ver sus respuestas son
las que trabajan en el estudio y las que se aseguran de que éste se realice de ,manera
correcta. Sus respuestas a la encuesta, su información, y una copia firmada de este
documento se mantendrá bajo llave en nuestros archivos. Cuando compartamos los
resultados del estudio, no incluiremos su nombre. Haremos todo lo posible para que nadie
fuera del estudio sepa que usted participó en él.
8. ¿Quién verá mis grabaciones de vídeo?. Las únicas personas autorizadas para ver sus
grabaciones de vídeo son las que trabajan en el estudio y las que se aseguran de que éste se
realice de ,manera correcta. Estos ficheros se mantendrán bajo llave en nuestros archivos.
Cuando compartamos los resultados del estudio, no incluiremos su nombre. Haremos todo lo
posible para que nadie fuera del estudio sepa que usted participó en él.
9. ¿Cómo se usará y compartirá esta información?.
a) Usaremos su información y su grabación sólo para el estudio que se describe en este
documento.
b) Podemos compartir su malformación con otros miembros de la comunidad
investigadora.
c) Haremos todo lo posible para asegurarnos de que su información permanmezca privada.
Sin embargo, si compartimos información con personas que no estén obligadas a
cumplir con la Regla de Privacidad, la información dejará de estar protegida por esta
Regla de Privacidad. Díganos si tiene alguna duda al respecto.
10.
¿Por cuanto tiempo se usará mi información y mi grabación?. Durante la
duración del proyecto. No usaremos ni compartiremos su información una vez terminado el
estudio.
11.¿Me costará algo participar en el estudio?. No.
12.
Participar en el estudio, ¿me ayudará de alguna manera?. Participar en este
estudio no le ayudará, pero podría ayudar al desarrollo y avance en el I+D+I.
13.
14.
¿Me pagarán por mi tiempo?. No.
¿Qué debo hacer si tengo preguntas?. Por favor, contacte con los miembros del
proyecto, sí:
a) Tiene alguna pregunta sobre el estudio.
b) Tiene preguntas sobre sus derechos.
c) Cree que se ha lesionado de alguna manera por participar en este estudio.
Escuela Superior de Informática de Ciudad Real
15.
¿Se hacen cargo los miembros del proyecto en caso de que me produzca algún
daño?. No.
16.
¿Tengo que firmar este documento?. No. Fírmelo solamente si desea participar en
el estudio.
17.
¿Qué debo hacer si quiero participar en el estudio?. Tiene que firmar este
documento. Le entregaremos una copia. Al participar en este documento esta diciendo que:
a) Está de acuerdo con participar en el estudio.
b) Le hemos explicado la información que contiene este documento y hemos contestado
todas sus preguntas.
Escuela Superior de Informática de Ciudad Real
ÉTICA DE LA INVESTIGACIÓN:
FORMULARIO DE CONSENTIMIENTO DE LA MUESTRA
Título del Proyecto: KinBehR (KINect for human BEHaviour Recognition)
Nombre del investigador: Rubén Cantarero Navarro.
Dirección de contacto del investigador: [email protected]
Nombre del director del proyecto: María José Santofimia Romero.
Dirección de contacto del director del proyecto: [email protected]
A cumplimentar por el participante
1. Sexo: Hombre / Mujer
2. Edad: …......
3. Altura: ….....
4. Peso: ….....
Condiciones de aceptación
a) Confirmo que he leído y entendido la hoja de información para
el estudio anterior y he tenido la oportunidad de hacer
preguntas.
b) Entiendo que mi participación es voluntaria y que soy libre de
retirarme en cualquier momento, sin dar razón.
c) Estoy de acuerdo en participar en el estudio anterior.
d) Estoy de acuerdo en que la entrevista este siendo grabada en
vídeo.
e)
Estoy de acuerdo en el uso de comillas anónimas en las
publicaciones
Escuela Superior de Informática de Ciudad Real
A cumplimentar por el investigador
1. Nombre de actor: ...................................................................................................................................
2. Hora de comienzo de la grabación: ….................................................................................................
3. Hora de finalización de la grabación: …..............................................................................................
4. ¿El participante lleva gafas durante la grabación?: Sí / No
5. ¿Que ropa lleva el participante durante la prueba?: ….....................................................................
…..............................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
6. Observaciones: ......................................................................................................................................
…..............................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
7. Incidencias: ............................................................................................................................................
…..............................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
..................................................................................................................................................................
Nombre del Participante
Fecha
Firma
Nombre del Investigador
Fecha
Firma
Anexo D
Conclusión personal
Con la realización del TFG me ha sido posible afianzar y ampliar muchos de los conocimientos adquiridos durante estos últimos cuatro años. Esto se debe a que, gracias a este
proyecto, he tenido una oportunidad inmejorable para poner en práctica una gran parte de
los conocimientos aprendidos durante estos años. En mi opinión, esto representa un paso
crucial en la formación de un ingeniero, ya que no sólo se pone de manifiesto los conocimientos y habilidades de las que dispone, sino que también tiene la oportunidad de mostrar
su capacidad de adquirir nuevos conocimientos para resolver un problema o enfrentarse a las
dificultades que puedan surgir durante un proyecto de ciertas dimensiones.
Gracias a este proyecto se han adquirido nuevos conocimientos que o bien por la elección
de asignaturas o por cualquier otro motivo no se habían adquirido y desarrollado durante la
carrera. Entre estos conocimientos cabe destacar el aprendizaje y puesta en práctica de una
nueva metodología de desarrollo, con todo lo que esto supone. Además, se han adquirido
conocimientos que a la larga serán muy valiosos en mi vida profesional. Ejemplo de ellos
pueden ser el aprendizaje del lenguaje C++, PERL, o el trabajar con una disciplina de la
informática prácticamente nueva para mi: la visión por computador.
Todo esto ha dado lugar a una serie de retos que se han tenido que ir salvando a lo largo
del proyecto. Uno de los más duros ha sido enfrentarse a materias totalmente nuevas para mí,
donde la mayoría del trabajo realizado consiste en la investigación y aplicación de nuevos
métodos para la resolución de problemas que están en pleno auge, como es el reconocimiento
de acciones. Otro reto especialmente duro ha sido la elaboración de la presente memoria, ya
que es la primera vez que he tenido que afrontar la elaboración de una documentación tan
rigurosa donde toda palabra y referencia debe estar justificada.
Por último, destacar que con la creación de K IN B EH R no se pretende proporcionar una
solución definitiva a un problema tan importante como el reconocimiento de acciones. Simplemente se ha pretendido mostrar una posible forma en la que este complicado problema
puede ser solucionado, dando un paso más hacia la solución del problema del reconocimiento
de acciones humanas.
219
Referencias
[AA01]
Anjum Ali y J. K. Aggarwal. Segmentation and Recognition of Continuous Human Activity. En IEEE Workshop on Detection and Recognition
of Events in Video, páginas 28–, 2001.
[AGO+ 12]
Davide Anguita, Alessandro Ghio, Luca Oneto, Xavier Parra, y Jorge L.
Reyes-Ortiz. Human Activity Recognition on Smartphones Using a Multiclass Hardware-friendly Support Vector Machine. En Proceedings of the
4th International Conference on Ambient Assisted Living and Home Care,
IWAAL’12, páginas 216–223. Springer-Verlag, 2012.
[AL08]
Mohiuddin Ahmad y Seong-Whan Lee. Human Action Recognition Using
Shape and CLG-motion Flow from Multi-view Image Sequences. Pattern
Recogn., 41(7):2237–2252, 2008.
[ann14]
ANN: A Library for Approximate Nearest Neighbor Searching. Website,
2014. Última consulta: 17 Marzo 2014. url: http://www.cs.umd.edu/
~mount/ANN/.
[ASRW02]
Pekka Abrahamsson, Outi Salo, Jussi Ronkainen, y Juhani Warsta. Agile
software development methods - Review and analysis, 2002.
[BFB94]
J. L. Barron, D. J. Fleet, y S. S. Beauchemin. Performance of Optical Flow
Techniques. Int. J. Comput. Vision, 12(1):43–77, 1994.
[Bor12]
Greg Borenstein. Making Things See: 3D vision with Kinect, Processing,
Arduino, and MakerBot. O’Reilly Media, 2012.
[bsv14]
BSVM. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
www.csie.ntu.edu.tw/~cjlin/bsvm/.
[Cat12]
David Catuhe. Programming with the Kinect for Windows Software Development Kit. Developer reference. Microsoft Press, 2012.
[CDF+ 04]
Gabriella Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, y
Cédric Bray. Visual categorization with bags of keypoints. En In Workshop
on Statistical Learning in Computer Vision, ECCV, páginas 1–22, 2004.
221
[con97]
Learning Parameterized Models of Image Motion. En Proceedings of the
1997 Conference on Computer Vision and Pattern Recognition (CVPR ’97),
CVPR ’97, páginas 561–567. IEEE Computer Society, 1997.
[CSTL02]
Nello Cristianini, John Shawe-Taylor, y Huma Lodhi. Latent Semantic Kernels. J. Intell. Inf. Syst., 18(2-3):127–152, 2002.
[Dav12]
Andrew Davison. Kinect Open Source Programming Secrets : Hacking the
Kinect with OpenNI, NITE, and Java: Hacking the Kinect with OpenNI,
NITE, and Java. Mcgraw-hill, 2012.
[dia14]
Apps/Dia - GNOME Wiki! Website, 2014. Última consulta: 17 Marzo
2014. url: https://wiki.gnome.org/Apps/Dia/.
[ema14]
GENU Operating Sytem. GNU Emacs. Website, 2014. Última consulta: 17
Marzo 2014. url: http://www.gnu.org/software/emacs/.
[Fal13]
Soroush Falahati. OpenNI Cookbook. Packt Publishing, 2013.
[FCTL10]
Chin-Hsien Fang, Ju-Chin Chen, Chien-Chung Tseng, y Jenn-JierJames
Lien. Human Action Recognition Using Spatio-temporal Classification.
En Hongbin Zha, Rin-ichiro Taniguchi, y Stephen Maybank, editors, Computer Vision – ACCV 2009, volume 5995 of Lecture Notes in Computer
Science, páginas 98–109. Springer Berlin Heidelberg, 2010.
[ffm14]
FFmpeg. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
www.ffmpeg.org/.
[FG87]
M. A. Föstner y E. Gülch. A Fast Operator for Detection and Precise Location of Distinct Points, Corners and Centers of Circular Features. En ISPRS
Intercommission Workshop, Interlaken, Switzerland, 1987.
[FK03]
Randima Fernando y Mark J. Kilgard. The Cg Tutorial: The Definitive
Guide to Programmable Real-Time Graphics. Addison-Wesley Longman
Publishing Co., Inc., 2003.
[gcc14]
Free Software Foundation. Using GCC: The GNU Compiler Collection,
2010. Website, 2014. Última consulta: 17 Marzo 2014. url: http://gcc.
gnu.org/onlinedocs/gcc/.
[gim14]
GIMP - The GNU Image Manipulation Program. Website, 2014. Última
consulta: 17 Marzo 2014. url: http://www.gimp.org/.
222
[glu14]
GLUT - The OpenGL Utility Toolkit. Website, 2014. Última consulta:
17 Marzo 2014. url: http://www.opengl.org/resources/libraries/
glut/.
[HL02a]
Chih-Wei Hsu y Chih-Jen Lin. A Comparison of Methods for Multiclass
Support Vector Machines. Trans. Neur. Netw., 13(2):415–425, 2002.
[HL02b]
Chih-Wei Hsu y Chih-Jen Lin. A Simple Decomposition Method for Support Vector Machines. Mach. Learn., 46(1-3):291–314, 2002.
[HS88]
Chris Harris y Mike Stephens. A combined corner and edge detector. En
In Proc. of Fourth Alvey Vision Conference, páginas 147–151, 1988.
[HVC00]
Daniela Hall, Vincent Colin de Verdière, y James L. Crowley. Object Recognition Using Coloured Receptive Fields. En Proceedings of the 6th
European Conference on Computer Vision-Part I, ECCV ’00, páginas 164–
177. Springer-Verlag, 2000.
[IB98]
Michael Isard y Andrew Blake. CONDENSATION&Mdash;Conditional
Density Propagation for Visual Tracking. Int. J. Comput. Vision, 29(1):5–
28, 1998.
[Jan12]
Abhijit Jana. Kinect for Windows SDK Programming Guide. Community
experience distilled. Packt Publishing, Limited, 2012.
[Joa98a]
Thorsten Joachims. Text Categorization with Suport Vector Machines:
Learning with Many Relevant Features. En Proceedings of the 10th European Conference on Machine Learning, ECML ’98, páginas 137–142,
London, UK, UK, 1998. Springer-Verlag.
[Joa98b]
Thorsten Joachims. Text Categorization with Support Vector Machines:
Learning with Many Relevant Features, 1998.
[KB10]
Mohamed-Bécha Kaâniche y François Bremond. Gesture Recognition by
Learning Local Motion Signatures. En CVPR 2010 : IEEE Conference
on Computer Vision and Pattern Recognition, San Franscico, CA, United
States, 2010. IEEE Computer Society Press.
[KBC+ 12]
Jeff Kramer, Nicolas Burrus, Daniel Herrera C., Florian Echtler, y Matt
Parker. Hacking the Kinect. Apress, edición 1st, 2012.
[KHP11]
Sean Kean, Jonathan Hall, y Phoenix Perry. Meet the Kinect: An Introduction to Programming Natural User Interfaces. Apressus Series. Apress,
2011.
223
[Kil96]
Mark J. Kilgard. OpenGL Programming for the X Window System. Addison
Wesley Longman Publishing Co., Inc., 1996.
[KJG+ 11]
H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, y T. Serre. HMDB: A Large Video Database for Human Motion Recognition. En Proceedings of
the 2011 International Conference on Computer Vision, ICCV ’11, páginas
2556–2563. IEEE Computer Society, 2011.
[KMN+ 02]
Tapas Kanungo, David M. Mount, Nathan S. Netanyahu, Christine D. Piatko, Ruth Silverman, y Angela Y. Wu. An Efficient k-Means Clustering Algorithm: Analysis and Implementation. IEEE Trans. Pattern Anal. Mach.
Intell., 24(7):881–892, 2002.
[Lap05]
Ivan Laptev. On Space-Time Interest Points. Int. J. Comput. Vision, 64(23):107–123, 2005.
[LAS08]
Jingen Liu, Saad Ali, y Mubarak Shah. Recognizing human actions using
multiple features. 2013 IEEE Conference on Computer Vision and Pattern
Recognition, 0:1–8, 2008.
[LMN10]
MichałLewandowski, Dimitrios Makris, y Jean-Christophe Nebel. View
and Style-independent Action Manifolds for Human Activity Recognition.
En Proceedings of the 11th European Conference on Computer Vision: Part
VI, ECCV’10, páginas 547–560. Springer-Verlag, 2010.
[LMSR08]
Ivan Laptev, Marcin Marszalek, Cordelia Schmid, y Benjamin Rozenfeld.
Learning realistic human actions from movies. 2013 IEEE Conference on
Computer Vision and Pattern Recognition, 0:1–8, 2008.
[Low99]
David Lowe. Object Recognition from Local Scale-Invariant Features. En
Proceedings of the International Conference on Computer Vision-Volume 2
- Volume 2, ICCV ’99, páginas 1150–. IEEE Computer Society, 1999.
[LP07]
Ivan Laptev y Patrick Pérez. Retrieving actions in movies. En IEEE 11th
International Conference on Computer Vision, ICCV 2007, Rio de Janeiro,
Brazil, October 14-20, 2007, páginas 1–8. IEEE, 2007.
[LSST+ 02]
Huma Lodhi, Craig Saunders, John Shawe-Taylor, Nello Cristianini, y
Chris Watkins. Text Classification Using String Kernels. J. Mach. Learn.
Res., 2:419–444, 2002.
[Mar03]
Robert Cecil Martin. Agile Software Development: Principles, Patterns,
and Practices. Prentice Hall PTR, 2003.
224
[MCOUHJ+ 09] Francisco Martinez-Contreras, Carlos Orrite-Urunuela, Elias HerreroJaraba, Hossein Ragheb, y Sergio A. Velastin. Recognizing Human Actions
Using Silhouette-based HMM. 2013 10th IEEE International Conference
on Advanced Video and Signal Based Surveillance, 0:43–48, 2009.
[MDD10]
Nils Brede Moe, Torgeir Dingsøyr, y Tore Dybå. A Teamwork Model for
Understanding an Agile Team: A Case Study of a Scrum Project. Inf. Softw.
Technol., 52(5):480–491, 2010.
[MDRSN13]
Jesús Martínez Del Rincón, Maria J. Santofimia, y Jean-Christophe Nebel. Common-sense Reasoning for Human Action Recognition. Pattern
Recogn. Lett., 34(15):1849–1860, 2013.
[mer14]
Mercurial: Work easier, Work faster, 2014. Website, 2014. Última consulta:
17 Marzo 2014. url: http://mercurial.selenic.com/.
[Mil12]
Rob Miles. Learn the Kinect API. Microsoft Press Series. Microsoft Press,
2012.
[NLT+ 11]
Jean-Christophe Nebel, MichałLewandowski, Jérôme Thévenon, Francisco Martínez, y Sergio Velastin. Are Current Monocular Computer Vision
Systems for Human Action Recognition Suitable for Visual Surveillance
Applications? En Proceedings of the 7th International Conference on Advances in Visual Computing - Volume Part II, ISVC’11, páginas 290–299.
Springer-Verlag, 2011.
[ope14]
OpenCV. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
opencv.org/.
[pro14]
Processing 2. Website, 2014. Última consulta: 17 Marzo 2014. url: http:
//processing.org/.
[qt14]
Qt Project. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
qt-project.org/.
[RA00]
Yong Rui y P. Anandan. Segmenting Visual Actions Based on SpatioTemporal Motion Patterns. En CVPR, páginas 1111–1118. IEEE Computer
Society, 2000.
[SB95]
S. m. Smith y J. m. Brady. ASSET-2: Real-Time Motion Segmentation and
Shape Tracking. IEEE Trans. Pattern Anal. Mach. Intell., 17(8):814–820,
1995.
[SB01]
Ken Schwaber y Mike Beedle. Agile Software Development with Scrum.
Prentice Hall PTR, edición 1st, 2001.
225
[SB11]
Ivan Sipiran y Benjamin Bustos. Harris 3D: A Robust Extension of the
Harris Operator for Interest Point Detection on 3D Meshes. Vis. Comput.,
27(11):963–976, 2011.
[sim14]
OpenNI library for Processing. Website, 2014. Última consulta: 17 Marzo
2014. url: http://code.google.com/p/simple-openni/.
[SM97]
Cordelia Schmid y Roger Mohr. Local Grayvalue Invariants for Image
Retrieval. IEEE Trans. Pattern Anal. Mach. Intell., 19(5):530–535, 1997.
[SMB00]
Cordelia Schmid, Roger Mohr, y Christian Bauckhage. Evaluation of Interest Point Detectors. Int. J. Comput. Vision, 37(2):151–172, 2000.
[SMS04]
Richard M. Stallman, Roland McGrath, y Paul D. Smith. GNU Make: A
Program for Directing Recompilation, for Version 3.81. Free Software
Foundation, 2004.
[SMS07]
Masamichi Shimosaka, Taketoshi Mori, y Tomomasa Sato. Robust Action Recognition and Segmentation with Multi-Task Conditional Random
Fields. En ICRA, páginas 3780–3786. IEEE, 2007.
[sti14]
Space-Time Interest Points. Website, 2014. Última consulta: 17 Marzo
2014. url: http://www.di.ens.fr/~laptev/interestpoints.html.
[Str00]
Bjarne Stroustrup. The C++ Programming Language. Addison-Wesley
Longman Publishing Co., Inc., edición 3rd, 2000.
[SWCS08]
Qinfeng Shi, Li Wang, Li Cheng, y Alexander J. Smola. Discriminative
human action segmentation and recognition using semi-Markov model. En
CVPR. IEEE Computer Society, 2008.
[Tal13]
Nicola Louise Cecilia Talbot. Using LaTeX to Write a PhD Thesis. Dickimaw Books, 2013.
[TK02]
Simon Tong y Daphne Koller. Support Vector Machine Active Learning
with Applications to Text Classification. J. Mach. Learn. Res., 2:45–66,
2002.
[TV98]
Emanuele Trucco y Alessandro Verri. Introductory Techniques for 3-D
Computer Vision. Prentice Hall PTR, 1998.
[VBC10]
Roberto Vezzani, Davide Baltieri, y Rita Cucchiara. HMM Based Action
Recognition with Projection Histogram Features. En Proceedings of the
20th International Conference on Recognizing Patterns in Signals, Speech,
Images, and Videos, ICPR’10, páginas 286–293. Springer-Verlag, 2010.
226
[WA12]
Jarrett Webb y James Ashley. Beginning Kinect Programming with the
Microsoft Kinect SDK. Apressus Series. Apress, 2012.
[wbI14]
IXMAS: 4d-repository :: Public. Website, 2014. Última consulta: 17 Marzo
2014. url: http://4drepository.inrialpes.fr/public/viewgroup/
6.
[WBR07]
Daniel Weinland, Edmond Boyer, y Remi Ronfard. Action Recognition
from Arbitrary Views using 3D Exemplars. En ICCV 2007 - 11th IEEE
International Conference on Computer Vision, páginas 1–7, Rio de Janeiro,
Brésil, 2007. IEEE.
[wbT14a]
TEDCAS: Interfaces de interacción natural para la salud. Website, 2014.
Última consulta: 17 Marzo 2014. url: http://www.tedcas.com/es.
[wbT14b]
Teo Park, media artist. Website, 2014. Última consulta: 17 Marzo 2014.
url: http://www.teopark.com/.
[wbU14]
Ubi Interactive. Website, 2014. Última consulta: 17 Marzo 2014. url:
http://www.ubi-interactive.com/.
[wbV14]
Virtualrehab: Virtual Rehabilitation System. Website, 2014. Última consulta: 17 Marzo 2014. url: http://www.virtualrehab.info/es/.
[web14a]
3D Mesh Generation with KScan3D software and Kinect. Website, 2014.
Última consulta: 17 Marzo 2014. url: http://www.kscan3d.com/.
[web14b]
3D Virtual fitting dressing room/mirror. Website, 2014. Última consulta:
17 Marzo 2014. url: http://www.fitnect.hu.
[web14c]
Android hardware/software design using virtual prototypes Part 3: Integrating Android’s HAL.
Website, 2014.
Última consulta: 17 Marzo 2014.
url: http://www.embedded.
com/design/prototyping-and-development/4401419/
Android-hardware-software-design-using-virtual-/
prototypes---Part-3--Integrating-Android-s-HAL.
[web14d]
ASUS: Xtion PRO. Website, 2014. Última consulta: 17 Marzo 2014. url:
http://www.asus.com/Multimedia/Xtion PRO/.
[web14e]
Data Center Software User Manual. Website, 2014. Última consulta:
17 Marzo 2014. url: http://www.totalphase.com/support/articles/
200424386-Data-Center-Software-User-Manual.
227
[web14f]
Johnny Lee: Free or cheap Wii Remote hacks. Website, 2014. Última consulta: 17 Marzo 2014.
url: http://www.ted.com/talks/
johnny lee demos wii remote hacks.
[web14g]
Jumpido: Educational games for Kinect. Website, 2014. Última consulta:
17 Marzo 2014. url: http://www.jumpido.com/en.
[web14h]
Kinect 3D Hand Tracking. Website, 2014. Última consulta: 17 Marzo 2014.
url: http://cvrlcode.ics.forth.gr/handtracking/.
[web14i]
Kinect Educational App: River Crossing by Kinems.
site, 2014.
Última consulta: 17 Marzo 2014.
http://www.kinecteducation.com/blog/2013/02/12/
kinect-educational-app-river-crossing-by-kinems/.
[web14j]
Kinect for Windows SDK. Website, 2014. Última consulta: 17 Marzo 2014.
url: http://msdn.microsoft.com/en-us/library/hh855347.aspx.
[web14k]
Kinect for Windows: Voice, Movement and Gesture Recognition Technology. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
www.microsoft.com/en-us/kinectforwindows/.
[web14l]
Kinect Math: Kinesthetic Learning Experience. Website, 2014. Última
consulta: 17 Marzo 2014. url: http://kinectmath.org/.
[web14m]
kinect-mssdk-openni-bridge: Experimental module to connect Kinect SDK
to OpenNI. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
code.google.com/p/kinect-mssdk-openni-bridge/.
[web14n]
Kinect para Xbox 360. Website, 2014. Última consulta: 17 Marzo 2014.
url: http://www.xbox.com/es-ES/Kinect.
[web14o]
KinectEDucation. Website, 2014. Última consulta: 17 Marzo 2014. url:
http://www.kinecteducation.com/.
[web14p]
Mando de movimiento PlayStation Move. Website, 2014. Última consulta:
17 Marzo 2014. url: http://es.playstation.com/psmove/.
[web14q]
Media Lab Students Hack Kinect for Cooler Videoconferencing.
Website, 2014.
Última consulta: 17 Marzo 2014.
url:
http://www.media.mit.edu/news/external-links/
media-lab-students-hack-kinect-cooler-videoconferencing.
228
Weburl:
[web14r]
Microsoft Research: Kinect Sign Language Translator expands communication possibilities. Website, 2014. Última consulta: 17 Marzo
2014. url: http://research.microsoft.com/en-us/collaboration/
stories/kinect-sign-language-translator.aspx.
[web14s]
Minority Report (2002) - IMDb. Website, 2014. Última consulta: 17 Marzo
2014. url: http://www.imdb.com/title/tt0181689/.
[web14t]
Nintendo: Wii. Website, 2014. Última consulta: 17 Marzo 2014. url:
https://www.nintendo.es/Wii/Wii-94559.html.
[web14u]
OpenNI: Open Natural Interaction. Website, 2014. Última consulta: 17
Marzo 2014. url: http://www.openni.org/.
[web14v]
Processing 2: Language Reference (API). Website, 2014. Última consulta:
17 Marzo 2014. url: http://www.processing.org/reference/.
[web14w]
Project NAVI, a Kinect Hack That Helps Visually Impaired Navigate Indoors.
Website, 2014.
Última consulta: 17
Marzo 2014.
url: http://www.medgadget.com/2011/03/
project navi a kinect hack that helps visually impaired/
navigate indoors.html.
[web14x]
Real-Time Princess Leia Holography Via Kinect Hack.
Website, 2014.
Última consulta: 17 Marzo 2014.
url: http:
//www.media.mit.edu/news/external-links/2011/01/
real-time-princess-leia-holography-kinect-hack.
[web14y]
SigmaNIL. Website, 2014. Última consulta: 17 Marzo 2014. url: http://
www.sigmanil.com/.
[web14z]
System Development Approaches: Solutionext. Website, 2014. Última
consulta: 17 Marzo 2014. url: http://www.solutionext.co.uk/?p=133.
[WRB06]
Daniel Weinland, Remi Ronfard, y Edmond Boyer. Free Viewpoint Action
Recognition Using Motion History Volumes. Comput. Vis. Image Underst.,
104(2):249–257, 2006.
[WS08]
Liang Wang y David Suter. Visual Learning and Recognition of Sequential
Data Manifolds with Applications to Human Movement Analysis. Comput.
Vis. Image Underst., 110(2):153–172, 2008.
[XZSS12]
Wenyao Xu, Mi Zhang, Alexander A. Sawchuk, y Majid Sarrafzadeh. Corecognition of Human Activity and Sensor Location via Compressed Sensing in Wearable Body Sensor Networks. En Proceedings of the 2012 Ninth
229
International Conference on Wearable and Implantable Body Sensor Networks, BSN ’12, páginas 124–129. IEEE Computer Society, 2012.
[YKS08]
Pingkun Yan, Saad M. Khan, y Mubarak Shah. Learning 4D action feature
models for arbitrary view action recognition. 2013 IEEE Conference on
Computer Vision and Pattern Recognition, 0:1–7, 2008.
[ZRZ02]
Lei Zhu, Al Bing Rao, y Aldong Zhang. Theory of Keyblock-based Image
Retrieval. ACM Trans. Inf. Syst., 20(2):224–257, 2002.
230
Este documento fue editado y tipografiado con LATEX
empleando la clase esi-tfg que se puede encontrar en:
https://bitbucket.org/arco group/esi-tfg
[Respeta esta atribución al autor]
231
Descargar