Posición de objetos en imágenes

Anuncio
Determinación de la posición de objetos en imágenes
usando la Transformada de Fourier-Mellin Analítica
Autor :
Mauricio Villegas Santamaría
Directores :
Juan Ramón Torregrosa Sánchez
Jaime Riera Guasp
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
INTRODUCCIÓN
El tema principal de este proyecto es la
extracción de información de imágenes.
Específicamente se extrae información de
la posición de los objetos.
Se desarrollaron y se probaron
algoritmos nuevos, basados en la
Transformada de Fourier-Mellin Analítica.
OBJETIVOS
Objetivo general
Analizar las diferentes aplicaciones que se le
pueden dar a la Transformada de Fourier-Mellin
Analítica y los descriptores invariantes a las
similitudes planas.
.
OBJETIVOS
Objetivos específicos
Presentar de forma clara la Transformada de Fourier-Mellin
Analítica, los descriptores invariantes a las similitudes planas
y la distancia de similitud entre formas.
Implementar la teoría presentada en lenguaje de
programación.
Comprobar que la teoría corresponde con los resultados que
se obtienen en el ordenador.
Desarrollar un algoritmo para determinar la posición de
objetos en imágenes y en vídeos.
Aplicar el algoritmo desarrollado en vídeos reales.
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
FUNDAMENTOS
TEÓRICOS
La Transformada de Fourier-Mellin (FMT)
Para una función en coordenadas polares, la FMT
se expresa de la siguiente forma:
1
M f (k , v ) =
2π
.
∞ 2π
∫ ∫ f (r ,θ )r
0 0
− jv
e
− jkθ
dr
dθ
r
∀(k , v ) ∈ Z × R
FUNDAMENTOS
TEÓRICOS
Cuando dos funciones f y g se relacionan por
g (r ,θ ) = f (αr , θ + β ) ,
se dice que estas funciones tienen similitud plana.
La relación entre las FMTs de funciones con
similitud plana es
.
M g (k , v ) = α jv e jkβ M f (k , v )
FUNDAMENTOS
TEÓRICOS
Usando la expresión anterior, se obtienen
unos descriptores invariantes a la posición
y a las similitudes planas.
f (x,y)
|FFT|
Conversión a
log-polar
|FFT|
|FMT|
Descriptores
invariantes
FUNDAMENTOS
TEÓRICOS
Desventajas de la FMT:
Inestabilidad numérica por el término r -1.
Pérdida de información de la imagen.
Dos objetos diferentes pueden tener los
mismos descriptores invariantes.
Pérdida de la información de la posición.
FUNDAMENTOS
TEÓRICOS
La Transformada de Fourier-Mellin Analítica
(AFMT)
Para una función en coordenadas polares, la AFMT
se expresa de la siguiente forma:
1
M f σ (k , v ) =
.
2π
∞ 2π
∫ ∫ f (r ,θ )r
0 0
σ − jv − jkθ
e
dr
dθ
r
∀(k , v ) ∈ Z × R
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
APROXIMACIÓN DE LA
AFMT
Algoritmo rápido para la aproximación de
la AFMT
 2π 2πσ n 
Mˆ fσ (k , v ) = FFT2 D 
e N  f e n∆ρ , m∆θ
 MN

(
f (x,y)
.
Conversión a
log-polar
Multiplicación
por el factor
FFT



)
AFMT
APROXIMACIÓN DE LA
AFMT
Ejemplo usando el programa “im2logpol”
(0,0)
θ
r
(R,0)
Imagen original
Imagen en escala de
grises, y el área de ésta
que será convertida
Imagen en coordenadas
log-polares
(0,2π)
APROXIMACIÓN DE LA
AFMT
Los métodos de interpolación que se pueden usar
con “im2logpol”
nearest
linear
cubic
spline
.
Ejemplo anterior usando nearest
Ejemplo anterior usando linear
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de
similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
DESCRIPTORES
INVARIANTES
La relación entre las AFMTs de funciones
con similitud plana, es la siguiente:
M gσ (k , v ) = α
−σ + jv
e
jkβ
M fσ (k , v )
El valor absoluto ya no genera
descriptores invariantes.
DESCRIPTORES
INVARIANTES
Descriptores invariantes a las similitudes
planas basados en la AFMT
Existen varias formas de obtener descriptores
invariantes usando la AFMT. En el proyecto se
usó la siguiente:
.I
−1+ j
fσ
(k , v ) = M f (0,0 )
σ
v
σ
e
{
}
M fσ (k , v )
− jk arg M fσ (1, 0 )
DISTANCIA DE
SIMILITUD
Basándose en los descriptores invariantes
a las similitudes planas se puede definir
una “distancia de similitud” entre formas:
(
d I fσ , I gσ
)
2
 ∞

=  ∫ ∑ I fσ (k , v ) − I gσ (k , v ) dv 
 −∞ k∈Z

1
2
DISTANCIA DE
SIMILITUD
Distancia de similitud entre objetos similares y diferentes
(1)
.
(2)
(3)
Objetos distintos
Objetos similares
d(1,2) = 0,9445
d(1,3) = 0,9311
d(2,3) = 0,0760
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
POSICIÓN DE OBJETOS
EN IMÁGENES
Algoritmo para determinar la posición de un objeto
en una imagen:
1. Se define el objeto y se calculan sus descriptores
invariantes.
2. Para cada píxel de la imagen, se calcula la distancia de
similitud (entre los descriptores del objeto y los
descriptores de una región centrada en el píxel).
3. La posición del objeto es la posición del valor mínimo de
las distancias de similitud calculadas.
POSICIÓN DE OBJETOS
EN IMÁGENES
Algoritmo para determinar la posición de un
objeto en una imagen:
1.
.
Se define el objeto
Se calculan sus descriptores
POSICIÓN DE OBJETOS
EN IMÁGENES
Algoritmo para determinar la posición de un
objeto en una imagen:
2.
.
Se calculan los
descriptores AFMT de
la imagen, y se obtiene
la distancia de similitud
con respecto al objeto.
POSICIÓN DE OBJETOS
EN IMÁGENES
Algoritmo para determinar la posición de un
objeto en una imagen:
2.
.
Imagen que contiene el objeto al
cual se determina su posición
Función de distancia de similitud
POSICIÓN DE OBJETOS
EN IMÁGENES
Algoritmo para determinar la posición de un
objeto en una imagen:
3.
1
2
3
4
…
n
1
Píxeles que se deben procesar
2
Valor mínimo encontrado
3
4
…
m
.
Posición del objeto es (n,m)
POSICIÓN DE OBJETOS
EN IMÁGENES
Determinación de la posición de un coche de
juguete en una imagen:
x = 68
Posición encontrada:
y = 193
.
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
POSICIÓN DE OBJETOS
EN VÍDEOS
Algoritmo para determinar la posición de un objeto
en un vídeo
Para reducir el tiempo de ejecución, se define una
máscara que indica las regiones donde es más probable
que esté el objeto.
Hay una máscara para cada fotograma del vídeo.
Se calculan las distancias de similitud sólo en las
regiones más probables.
POSICIÓN DE OBJETOS
EN VÍDEOS
Algoritmo para determinar la posición de un objeto
en un vídeo
Para generar la máscara del primer fotograma:
1. Se resta el primer fotograma del segundo.
2. A partir de la diferencia se genera una imagen binaria
tomando un umbral de 0,25 del valor máximo.
3. Se realiza la operación de cerrar imagen.
4. Se realiza la operación de abrir imagen.
POSICIÓN DE OBJETOS
EN VÍDEOS
Algoritmo para determinar la posición de un objeto
en un vídeo
Ejemplo de la máscara del primer fotograma:
.
Máscara después de
la diferencia entre
fotogramas
Fotogramas
Máscara después de
cerrar y abrir imagen
POSICIÓN DE OBJETOS
EN VÍDEOS
Algoritmo para determinar la posición de un objeto en un
vídeo
Para generar la máscara de los otros fotogramas:
1.
Movimiento lento: Se puede asumir que la posición del objeto
en un fotograma es muy cercana a la posición que tenía en el
fotograma anterior. La máscara es una región pequeña que rodea
la posición anterior del objeto.
2.
Movimiento rápido: La máscara se puede generar usando la
misma técnica del primer fotograma, pero sin cerrar y abrir la
imagen.
POSICIÓN DE OBJETOS
EN VÍDEOS
Se desarrolló un programa con entorno gráfico
que permite definir un objeto y determinar sus
posiciones en un vídeo. “ObMoDe”.
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de una bola en caída libre
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de una bola en caída libre
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Tiempos de cálculo para el vídeo de la bola en caída
libre
Con posición inicial:
4 minutos
18 segundos
Sin posición inicial:
4 minutos
40 segundos
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de coches circulando en una calle
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de coches – prueba coche 1
.
Coche seleccionado
Movimiento del coche
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de coches – prueba coche 2
.
Coche seleccionado
Movimiento del coche
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de coches circulando en una calle
(sin compresión y compensando por el entrelazado)
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Vídeo de coches 2 – prueba coche 1
.
Coche seleccionado
Movimiento del coche
POSICIÓN DE OBJETOS
EN VÍDEOS
Algoritmo para solucionar el problema de
la variación del fondo que rodea los
objetos (algoritmo de radio variable)
Una vez encontrada la posición
del objeto, se calcula la
distancia de similitud para
diferentes radios.
.
POSICIÓN DE OBJETOS
EN VÍDEOS
Comparación entre usar o no el algoritmo
de radio variable
Distancia de similitud mínima
1.20E-01
8.00E-02
6.00E-02
4.00E-02
Radio variable
Radio fijo
28
25
Fotograma
22
19
16
13
10
.
7
0.00E+00
4
2.00E-02
1
Distancia de
similitud
1.00E-01
POSICIÓN DE OBJETOS
EN VÍDEOS
Tiempos de cálculo para el vídeo de coches
circulando en una calle
Con posición inicial:
6 minutos
30 segundos
26 minutos
31 segundos
Usando radio variable:
7 minutos
21 segundos
Interpolación bilineal:
6 minutos
48 segundos
Sin posición inicial:
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
POSIBLES CAMPOS DE
APLICACIÓN
Regulación de tráfico.
ִ Seguimiento de coches.
ִ Identificación de coches.
Astronomía.
ִ Medición de la posición de la luna.
ִ Sistema de seguimiento de objetos celestes.
Laboratorios de física.
ִ Medición de los parámetros de movimiento de un objeto en un
plano específico.
CONTENIDO
Introducción y objetivos del proyecto
Fundamentos teóricos
Aproximación de la AFMT
Descriptores invariantes y distancia de similitud
Posición de objetos en imágenes
Posición de objetos en vídeos
Posibles campos de aplicación
Conclusiones
CONCLUSIONES
La interpolación más indicada es la bilineal.
No hay restricciones para la orientación del
objeto, pero si en el tamaño de éste.
Si varía mucho el tamaño del objeto, es mejor
usar el algoritmo de radio variable.
Mientras mejor es la calidad de la imagen, los
resultados son más fiables.
CONCLUSIONES
La AFMT y sus descriptores invariantes sirven
para determinar la posición de objetos en
imágenes.
Principal ventaja: la invarianza a las similitudes
planas.
Principal desventaja: mucho tiempo de cálculo.
En la actualidad puede ser necesario usar
circuitos integrados especializados.
Hay muchas variables por explorar para
desarrollar mejores algoritmos.
¿Preguntas?
FIN
Descargar