Subido por kidricelte

ja02 057

Anuncio
RECONOCIMIENTO DE OBJETOS 3D
MEDIANTE ANÁLISIS PCA
M. A. Vicente, O. Reinoso, C. Pérez, J.A. Sabater, J.A. Azorín
Universidad Miguel Hernández
División Ingeniería de Sistemas y Automática
Departamento de Ingeniería, Campus de Elche
Avda. del Ferrocarril s/n 03202 Elche (Alicante) España
[email protected]
Resumen
El objetivo de este artículo es comparar dos
técnicas de reconocimiento de objetos basadas en
PCA. La base de datos de imágenes utilizada para
el reconocimiento es la COIL-20. Los experimentos
demuestran que si se realiza una detección de
bordes de las imágenes antes de realizar el análisis
PCA se obtiene un alto porcentaje de aciertos en el
reconocimiento incluso en presencia de oclusiones.
Palabras Clave : reconocimiento
análisis de componentes principales
1
de
objetos,
INTRODUCCIÓN
El análisis de componentes principales (PCA) o las
eigenimágenes es una técnica de reconocimiento de
caras de gran utilidad que se ha implementado
exitosamente en sistemas comerciales [16]. Sin
embargo, este método de reconocimiento no se
emplea tanto en el reconocimiento de objetos reales
tridimensionales,
aunque
existen
algunas
importantes excepciones [8][10-12], a pesar de que
la mayoría de ellas muestran la debilidad de esta
técnica: su alto grado de sensibilidad frente a
oclusiones.
La apariencia de un objeto real 3D en una imagen
2D depende de la forma del objeto, su color, su
posición en la escena global, sus propiedades
reflectivas y de las características de la iluminación
de la escena y del sensor empleado para la
captación de la misma. Murase y Nayar [11-12]
propusieron una representación basada en la
apariencia de los objetos para reconocer objetos
tridimensionales
basándose
en
sus
eigenrepresentaciones. También Leonardis y
Bishop [10] presentaron un método de
reconocimiento basado en PCA, pero a diferencia
del original donde el cálculo de los coeficientes de
reconocimiento se realiza mediante una simple
proyección de las imágenes en el subespacio
generado, ellos sugirieron un método basado en
generar hipótesis y luego testarlas empleando
subconjuntos de puntos de la imagen.
En su artículo [8] Huang y Camps, presentaron otro
método basado en eigenimágenes utilizando
además relaciones entre las partes segmentadas de
los objetos, mejorando los problemas de oclusión
de otras técnicas anteriores.
El objetivo de este artículo es comparar dos
técnicas de reconocimiento de objetos basadas en
PCA. La base de datos de imágenes utilizada para
el reconocimiento es la COIL-20. Los experimentos
demuestran que si se realiza una detección de
bordes de las imágenes antes de realizar el análisis
PCA se obtiene un alto porcentaje de aciertos en el
reconocimiento incluso en presencia de oclusiones.
2
ANÁLISIS DE COMPONENTES
PRINCIPALES
2.1
INTRODUCCIÓN
Una imagen puede considerarse como un vector de
píxeles donde el valor de cada componente es un
valor en escala de grises (0-255). Por ejemplo, una
imagen de 128x128 puede abrirse y tratarse como
un vector de longitud 16384.
H
φi
ri  1
φ = M
φ i
 N
V
Figura 1: Representación vectorial
de una imagen





De esta manera, la imagen está situada en un
espacio N-dimensional, donde N es el número de
píxeles de la imagen (y la longitud del vector). Esta
representación vectorial de la imagen se considera
el espacio original de la imagen.
Cada imagen se almacena en un vector de longitud
N:
El espacio original de una imagen es uno solo de
los muchos espacios en los que puede examinarse
una imagen.
Otros espacios pueden ser: el
eigenespacio creado por los eigenvectores de la
matriz de covarianza de la imágenes de
entrenamiento (PCA 1 [8],[10-12],[14]), el creado
por los vectores obtenidos mediante un análisis
LDA 2 (discriminantes de Fisher, [7],[15]) o el
creado mediante técnicas de ICA 3 ([3],[5],[9]).
Las imágenes son centradas, sustrayendo la imagen
media de cada vector imagen :
El eigenespacio optimiza la variación entre las
imágenes. El subespacio obtenido mediante LDA
optimiza las características discriminatorias entre
las imágenes y el obtenido mediante ICA, obtiene
los vectores que maximizan la condición de
independencia.
Se combinan los vectores de entrenamiento para
crear una matriz de datos de tamaño NxP (donde P
es el número de imágenes).
El algoritmo básico para identificar imágenes en
diferentes subespacios es el siguiente:
1.
2.
3.
2.2.
Se calcula un subespacio (generado por las
propias imágenes) donde proyectar las
imágenes.
Un vez generado el subespacio, todas las
imágenes
de
entrenamiento
son
proyectadas en el subespacio
Cada imagen test se proyecta en el
subespacio y es comparada con todas las
proyecciones de la imágenes de
entrenamiento por similitud o por medida
de distancias, la imagen de entrenamiento
más similar o más cercana a la imagen test
se utiliza para identificar esa imagen test.
ANÁLISIS PCA
El eigenespacio se calcula identificando los
eigenvectores (vectores propios) de la matriz de
covarianza obtenida del conjunto de imágenes de
entrenamiento. Los eigenvectores correspondientes
a eigenvalores (valores propios) no nulos de la
matriz de covarianza forman una base ortonormal
que refleja las imágenes en un espacio Ndimensional.
1
PCA, Principal Component Analysis
LDA, Linear Discriminant Analysis
3
ICA, Independent Component Analysis
2
[
r
φ i = φ1i K φ N i
]
T
(1)
~i ri r
φ = φ −m
(2)
ri
(3)
donde
r 1
m=
P
P
∑φ
i =1
[
~ ~
~
Φ = φ1 | φ 2 | K | φ P
]
(4)
La matriz de covarianza se obtiene multiplicando Φ
por su traspuesta:
Ω = Φ·Φ T
(5)
La matriz de covarianza tiene como mucho P
eigenvectores asociados a P eigenvalores no nulos,
se supone siempre que P < N, es decir, es mayor el
tamaño de la imagen que el número de imágenes.
Los eigenvectores se ordenan de mayor a menor,
según el valor de su eigenvalor asociado. El
eigenvector asociado al mayor eigenvalor es el
eigenvector que encuentra mayor variación entre las
imágenes. El eigenvector asociado al segundo
mayor eigenvalor es el eigenvector que encuentra la
segunda mayor variación entre las imágenes. Esto
continúa hasta llegar al más pequeño de los valores
propios, cuyo vector propio asociado encuentra la
menor variación entre las imágenes.
El
algoritmo
anterior
se
complica
computacionalmente en la práctica debido a que la
matriz de covarianzas es de tamaño NxN, donde N
es el tamaño del vector imagen (si las imágenes son
de 128x128 (16384), la matriz de covarianzas es de
tamaño 16384x16384); por lo que es costoso hallar
los vectores propios directamente a partir de esta
matriz. Existe una solución a este problema que se
conoce como el truco de Turk y Pentland [14]: hay
un teorema de álgebra lineal que establece que los
eigenvalores de Ω = Φ·Φ T y los de Ω ' = Φ T ·Φ
son los mismos. Por tanto, los eigenvectores de Ω
son los mismos que los de Ω' multiplicados por la
matriz Φ y normalizados. De esta forma, este
teorema puede utilizarse para crear el eigenespacio
a partir de una matriz de tamaño PxP (P es el
número de imágenes) en vez de utilizar una matriz
de covarianzas de tamaño NxN.
2.2.1.
es proyectada dentro del
eigenespacio definido por V̂ :
r
t = V̂ T ⋅ ~
ϕ
Algoritmo original PCA (1 subespacio)
A
continuación
detallamos
el
algoritmo
desarrollado en el apartado anterior, al que
denominaremos PCA original.
Entrenamiento:
1.
2.
3.
Se selecciona un conjunto de imágenes de
entrenamiento y cada imagen es centrada
(ecuación 2).
Se genera la matriz de datos (ecuación 4).
Se obtiene la matriz de covarianzas Ω' :
Ω ' = Φ T ·Φ
(11)
r
La proyección de la imagen test t es
comparada con cada una de las clases.
2.
2.2.2.
El proceso de reconocimiento se divide en dos fases
fundamentales: entrenamiento y test.
mismo
Medidas de distancias
r
Para comparar la proyección de la imagen test t
con cada una de las clases se pueden utilizar
medidas de distancia entre los dos vectores. Las
medidas de distancia más utilizadas son:
norma L1
La norma L1 suma la diferencia absoluta entre las
r
r
componentes de dos vectores ω y t :
M
L1 = ∑ ω i − t i
(12)
i =1
(6)
donde M es el tamaño de ambos vectores.
4.
Se calculan los eigenvalores
eigenvectores de Ω' :
r
Ω '·V' = λ ·V'
donde
r
λ = [λ1 K λ k ]
5.
los
norma L2
(7)
(9)
Cada una de las imágenes de
r
entrenamiento centradas φ i se proyecta en
el subespacio. Para proyectar una imagen
en el subespacio, calculamos el producto
escalar de cada una de las imágenes con
cada uno de los vectores ordenados:
r
~
ωi = V̂ T ⋅ φ i
M
L 2 = ∑ ( ω i −t i ) 2
Test:
Cada imagen test es centrada, ~
ϕ,
substrayéndole la imagen media, y luego
(13)
i= 1
distancia de Mahalanobis
La distancia de Mahalanobis calcula el producto
de las componentes y el valor propio asociado a
cada componente y suma todos esos productos. La
r
distancia de Mahalanobis para dos vectores ω y
r
t es:
N
MAH = −∑ ω i ⋅ t i ⋅h i
(14)
i =1
donde
(10)
r
El nuevo vector ωi de la imagen proyectada
tendrá tantas componentes como número de
eigenvectores haya. A las proyecciones de las
imágenes de entrenamiento dentro del
subespacio se las denomina clases.
1.
La norma L2 o distancia euclídea suma la
diferencia al cuadrado entre las componentes de los
r
r
vectores ω y t :
(8)
Calculamos y ordenamos de mayor a
menor los eigenvectores de Ω según el
valor de los eigenvalores.
V̂ = Φ ·V'
6.
y
hi =
1
λi
(15)
y λ i está referido en la ecuación 8.
2.2.3.
Algoritmo PCA modificado (varios
subespacios).
En el PCA original se obtiene un solo subespacio
para toda la base de datos de los objetos debido a
que cada columna de la matriz de datos Φ es un
objeto diferente. Una modificación sobre este
algoritmo sería calcular un subespacio para cada
objeto, esto es, si la base de datos de los objetos a
reconocer está compuesta por 20 objetos, se
calcularían 20 subespacios.
En las Figuras 2 y 3 podemos apreciar como
difieren los subespacios calculados por cada
algoritmo. En el algoritmo original los vectores
propios (llamados también eigenimagenes o
eigenvectores) son fantasmas de una mezcla de
todos los objetos, mientras que en el algoritmo
modificado, las eigenimagenes son fantasmas de un
mismo objeto.
3.
OBJETOS COIL
En los experimentos se ha utilizado la base de
imágenes de objetos COIL-20 (Columbia Object
Image Library) [13]. La librería COIL-20 está
formada por 1440 imágenes de 20 objetos
diferentes (72 imágenes por cada objeto). Las
imágenes se han adquirido de manera que entre dos
imágenes consecutivas hay una rotación de 5º del
objeto. (Ver Figura 3.)
4.
EXPERIMENTOS
En este apartado se presentan los resultados
obtenidos en los diversos experimentos realizados.
Todos los algoritmos de PCA han sido
programados en MATLAB utilizando las rutinas
LAPACK [1] para calcular los eigenvectores y
eigenvalores. Utilizando un Pentium IV con 256
Mbytes de RAM calcular un sólo subespacio
consume 3 segundos. Durante el proceso de test o
identificación de una nueva imagen se tarda
aproximadamente un segundo si se utiliza el PCA
modificado y apenas unas centésimas de segundo si
se emplea el algoritmo original.
Figura 2: Imágenes de entrenamiento y eigenvectores obtenidos con el PCA original.
Figura 3: Imágenes de entrenamiento para un solo objeto y eigenvectores obtenidos con el PCA modificado.
Para generar los subespacios se han utilizado
además de las imágenes COIL originales (Figura 2),
las imágenes binarias de las COIL (Figura 4), y las
imágenes de bordes (Figura 5), obtenidas mediante
el conocido detector de Canny [4].
Figura 4: Imágenes binarias
La Tabla 1 muestra los mejores resultados
obtenidos con este algoritmo. La medida de
distancia que proporciona un mayor porcentaje de
aciertos es la distancia de Mahalanobis. Podemos
ver también que se alcanzan los mismos porcentajes
de aciertos con las imágenes binarias que con las
completas (64%).
imágenes
entrenamiento
norma
# vectores
% aciertos
imágenes
entrenamiento
norma
# vectores
% aciertos
imágenes
entrenamiento
norma
# vectores
% aciertos
originales
azar mejor
L2
Mah
19
19
52 % 64 %
bordes
mejor azar mejor
L2
L2
Mah
19
19
19
23% 20% 52%
binarias
mejor azar mejor
L2
L2
Mah
19
19
19
56% 55% 64%
mejor
L2
19
57 %
azar
Maha
19
60 %
azar
Mah
19
53%
azar
Mah
19
61%
Tabla 1: Resultados con el PCA original
4.2. RESULTADOS CON EL
ALGORITMO PCA MODIFICADO
Figura 5: Imágenes de bordes
4.1.
RESULTADOS CON
PCA ORIGINAL
EL
ALGORITMO
Como se ha dicho antes, en este método sólo se
utiliza una imagen de cada objeto para generar la
matriz de datos y posteriormente el subespacio.
Esta imagen de entrenamiento puede ser la más
representativa del objeto (mejor) o bien una imagen
elegida al azar.
En este método se genera un subespacio por cada
objeto y según el tipo de imágenes elegidas para la
generación del subespacio es posible realizar dos
tipos de entrenamiento: el que denominamos mejor,
en el que se utilizan 36 imágenes intercaladas, es
decir, entre cada imagen hay una rotación de 10º, y
se dejan las otras 36 imágenes para test, siendo el
que proporciona los mejores resultados ya que se
dispone de casi todas las vistas de un mismo objeto;
y el entrenamiento al azar, donde se seleccionan 36
imágenes aleatoriamente .
Como no todos los objetos presentan el mismo
grado de dificultad en el proceso de
reconocimiento, se han separado en tres grupos4
según su sensibilidad frente al reconocimiento:
§
§
§
En este caso como el tamaño de la matriz de datos
Φ es de 20x20 se obtienen 19 eigenvectores no
nulos, y el mayor porcentaje de aciertos en la
identificación de las imágenes test se obtiene
utilizando todos los eigenvectores.
4
conjunto I: 7,12, 15,16,17,18,20
conjunto II: 1,8, 10, 11, 13
conjunto III:2,3,5,6,9,14,19
numeramos los objetos por filas empezando por
el pato de goma (1)).
En la Tabla 2 se presentan los resultados obtenidos,
por grupos, variando el tamaño del subespacio
(número de vectores), y utilizando diversas medidas
de distancias con el mejor entrenamiento para las
imágenes originales. En este experimento las
normas L2, L1 e infinito proporcionan los mejores
porcentajes de aciertos (85% para la L2), mientras
que la distancia de Mahalanobis es la que peor
funciona (19%) a diferencia de lo que ocurría con el
algoritmo original.
La Tabla 3 muestra el mismo experimento que la
Tabla 2 pero utilizando el entrenamiento aleatorio:
se obtiene un porcentaje algo menor que el mejor
entrenamiento pero más alto de lo esperado (81%).
En ambas tablas se aprecia la separación entre
grupos, el conjunto I es muy fácil de reconocer casi
al 100% utilizando apenas 5 vectores.
Realizando el mismo estudio pero con las imágenes
binarias y de bordes de la librería COIL se obtiene
que el porcentaje de aciertos con las imágenes
binarias para el mejor caso (mejor entrenamiento y
norma L2) desciende hasta el 50%, mientras que
con las imágenes de bordes conseguimos un
sorprendente 95% de aciertos utilizando la distancia
de Mahalanobis. Por tanto, si se realiza una
detección de bordes en las imágenes de
entrenamiento antes de realizar el cálculo del
subespacio, la tasa de éxito en el reconocimiento
aumenta considerablemente.
imágenes
# vectores
5
10
80
81
53
71
84
79
54
72
norma L2
imágenes
# vectores
5
10
originales
15 20 25
92
60
42
65
98
89
55
81
99
85
63
82
norma L2
I
II
III
total
99 100 100 100
89 92 92 94
62 61 60 61
83 84 84 85
93
58
39
63
96
83
53
77
98
80
62
80
98
84
62
81
98
87
56
80
99
90
51
80
100
92
54
82
91
55
40
62
95
83
56
78
5
10
norma L2
I
II
III
total
78
71
52
67
77
65
44
62
76
58
39
58
74
54
36
55
68
50
31
50
Tabla 4. Resultados con imagénes binarias
imágenes
# vectores
5
98
86
56
80
98
86
56
80
I
II
III
total
10
bordes
20
33
35
% aciertos
90
67
50
69
95
83
54
77
98
95
74
89
100 100
99 99
87 87
95 95
% aciertos
97
81
60
79
97
88
60
81
98
86
56
80
Tabla 2. Resultados para el algoritmo modificado
con el mejor entrenamiento y diferentes medidas de
distancias
imágenes
# vectores
% aciertos
Mahalanobis
% aciertos
norma Infinito
I
II
III
total
35
30 35
% aciertos
norma L1
I
II
III
total
30
I
II
III
total
binarias
15 20 25
originales
15 20 25
30 35
% aciertos
85
57
38
60
89
72
53
71
92
72
54
73
96
79
54
76
96
81
55
77
96
84
57
79
97
88
58
81
Tabla 3. Resultados para el algoritmo modificado
con el entrenamiento al azar.
Tabla 5. Resultados con imágenes de bordes
Los experimentos mostrados en las tablas anteriores
se consiguieron utilizando un número de imágenes
de entrenamiento fijo (36). En la gráfica de la
Figura 6 se mu estra el porcentaje de aciertos en el
reconocimiento en función del número de imágenes
de entrenamiento utilizado, y se aprecia una
saturación al sobrepasar las 25 imágenes por objeto.
4.3. RESULTADOS CON OCLUSIONES
También se testaron ambos métodos ante
oclusiones parciales de los objetos (Figuras 7 y 8).
Los resultados obtenidos (Tablas 6 y7 ) indican que
el algoritmo PCA modificado utilizando imágenes
de bordes es el más robusto frente a oclusiones,
proporcionando un 89% de aciertos.
Tasa de reconocimiento
100
90
80
I
70
imágenes
método
norma
% aciertos
II
60
50
III
40
total
originales
PCA orig.
30
bordes
PCA orig.
20
10
0
0
10
20
30
40
50
60
70
Numero de imágenes de entrenamiento
Figura 6. Tasa de reconocimiento frente al tamaño
del conjunto de entrenamiento
originales
PCA modf.
bordes
PCA modf.
Mahalanobis
L2
Mahalanobis
51
9
39
L2
Mahalanobis
L2
Mahalanobis
L2
6
5
30
89
17
Tabla 6. Mejores resultados con una
oclusión del 25% .
Figura 7. Imágenes con una oclusión del 25%
imágenes
método
originales
PCA orig.
bordes
PCA orig.
originales
PCA modf.
bordes
PCA modf.
norma
Mahalanobis
L2
Mahalanobis
L2
Mahalanobis
L2
Mahalanobis
L2
% aciertos
16
7
32
11
2
8
59
5
Tabla 7. Mejores resultados con una
oclusión del 50%
Conclusiones
Se han presentado los resultados obtenidos al
utilizar dos técnicas de reconocimiento de objetos
basadas en PCA.
Figura 8. Imágenes con una oclusión del 50%
Los experimentos demuestran que realizar una
detección de bordes sobre las imágenes originales
mejora considerablemente la tasa de éxito en el
reconocimiento de nuevas imágenes, para uno de
los métodos presentados, incluso en presencia de
oclusiones.
Agradecimientos
El trabajo realizado en este artículo se ha realizado
gracias a la financiación aportada por el MCyT para
el desarrollo del proyecto de investigación
“Modelado
de
espacios
virtuales
para
entrenamiento de sistemas teleoperados en entornos
dinámicos” DPI2001-3827-C02-02
Referencias
[1] Anderson, E., Bai, Z., Bischof, C., Blackford,
S., Demmel, J., Dongarra, J., Du Croz, J.,
Greenbaum, A., Hammarling, S., McKenney,
A., Sorensen, D., LAPACK User's Guide
(http://www.netlib.org/lapack/lug/
lapack_lug.html), Third Edition, SIAM,
Philadelphia, 1999.
[2] Baek, K., Draper, B.A., Ross Beveridge J., Kai
She, PCA vs. ICA: A Comparison on the
FERET Data Set, International Conference on
Computer Vision, Pattern Recognition and
Image
Processing in conjunction with
the 6th JCIS, Durham, North Carolina, March
8-14, 2002.
[3] Bell, A.J., Sejnowski, T.J., Hughes, H., The
`Independent Components' of Natural Scenes
are Edge Filters, Vision Research, 1997.
[4] Canny, J., A computational approach to Edge
Detection, IEEE Trans. Pattern Analysis and
Machine Intelligence, 8-6, pp. 679-698, 1986.
[5] Common, P., Independent component analysis,
A new concept?, Signal Processing, 36:287-314, 1994.
[6] Chandrasekaran, S., Manjunath, B.S., Wang,
Y.F., Winkeler, J., Zhang, H., An Eigenspace
Update Algorithm for Image Analysis.
Graphical Models and Image Processing. Vol
59, Nº 5, Sept., pp 321-332, 1997.
[7] Fisher, R.A., The use of Multiple Measures in
Taxonomic Problems. Ann. Eugenics, 7:179188, 1936.
[8] Huang, C.Y., Camps,O.I., Object Recognition
Using Appearance-Based Parts and Relations..
Proceedings of the IEEE CVPRC 1997.
[9] Hyvärinen, A., Hoyer, P.O., Inki, M.,.
Topographic Independent Component
Analysis. Neural Computation, 13(7):15271558, 2001.
[10] Leonardis, A., Bishop, H., Robust Recognition
Using Eigenimages. Computer Vision and
Image Understanding, 78, no. 1, pages 99-118,
2000.
[11] Murase H., Nayar S.K. Visual Learning and
Recognition of 3-D Objects from Appearance.
International Journal of Computer Vision,
14:5-24, January 1995.
[12] Nayar, S.K., Murase, H., Nene, S.A.,
Parametric Appearance Representation, in
Early Visual Learning, edited by S. K. Nayar
and T. Poggio, Oxford University Press,
February 1996.
[13] Nene, S.A., Nayar, S. K., Murase, H.,
Columbia Object Image Library (COIL-20),
Technical Report CUCS-005-96, February
1996.
[14] Turk, M., Pentland, A., Eigenfaces for
Recognition, Journal of Cognitive
Neuroscience, vol. 3, no. 1, pp.71-86,1991.
[15] Zhao, W., Chellapa, R., Phillips, P.J.,
Subspace Linear Discriminant Analysis for
Face Recognition.1999
[16] The Face Recognition Home Page
http://www.cs.rug.nl/~peterkr/FACE/frhp.html
Descargar