Determinación de la posición de objetos en imágenes usando la Transformada de Fourier-Mellin Analítica Autor : Mauricio Villegas Santamaría Directores : Juan Ramón Torregrosa Sánchez Jaime Riera Guasp CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones INTRODUCCIÓN El tema principal de este proyecto es la extracción de información de imágenes. Específicamente se extrae información de la posición de los objetos. Se desarrollaron y se probaron algoritmos nuevos, basados en la Transformada de Fourier-Mellin Analítica. OBJETIVOS Objetivo general Analizar las diferentes aplicaciones que se le pueden dar a la Transformada de Fourier-Mellin Analítica y los descriptores invariantes a las similitudes planas. . OBJETIVOS Objetivos específicos Presentar de forma clara la Transformada de Fourier-Mellin Analítica, los descriptores invariantes a las similitudes planas y la distancia de similitud entre formas. Implementar la teoría presentada en lenguaje de programación. Comprobar que la teoría corresponde con los resultados que se obtienen en el ordenador. Desarrollar un algoritmo para determinar la posición de objetos en imágenes y en vídeos. Aplicar el algoritmo desarrollado en vídeos reales. CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones FUNDAMENTOS TEÓRICOS La Transformada de Fourier-Mellin (FMT) Para una función en coordenadas polares, la FMT se expresa de la siguiente forma: 1 M f (k , v ) = 2π . ∞ 2π ∫ ∫ f (r ,θ )r 0 0 − jv e − jkθ dr dθ r ∀(k , v ) ∈ Z × R FUNDAMENTOS TEÓRICOS Cuando dos funciones f y g se relacionan por g (r ,θ ) = f (αr , θ + β ) , se dice que estas funciones tienen similitud plana. La relación entre las FMTs de funciones con similitud plana es . M g (k , v ) = α jv e jkβ M f (k , v ) FUNDAMENTOS TEÓRICOS Usando la expresión anterior, se obtienen unos descriptores invariantes a la posición y a las similitudes planas. f (x,y) |FFT| Conversión a log-polar |FFT| |FMT| Descriptores invariantes FUNDAMENTOS TEÓRICOS Desventajas de la FMT: Inestabilidad numérica por el término r -1. Pérdida de información de la imagen. Dos objetos diferentes pueden tener los mismos descriptores invariantes. Pérdida de la información de la posición. FUNDAMENTOS TEÓRICOS La Transformada de Fourier-Mellin Analítica (AFMT) Para una función en coordenadas polares, la AFMT se expresa de la siguiente forma: 1 M f σ (k , v ) = . 2π ∞ 2π ∫ ∫ f (r ,θ )r 0 0 σ − jv − jkθ e dr dθ r ∀(k , v ) ∈ Z × R CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones APROXIMACIÓN DE LA AFMT Algoritmo rápido para la aproximación de la AFMT 2π 2πσ n Mˆ fσ (k , v ) = FFT2 D e N f e n∆ρ , m∆θ MN ( f (x,y) . Conversión a log-polar Multiplicación por el factor FFT ) AFMT APROXIMACIÓN DE LA AFMT Ejemplo usando el programa “im2logpol” (0,0) θ r (R,0) Imagen original Imagen en escala de grises, y el área de ésta que será convertida Imagen en coordenadas log-polares (0,2π) APROXIMACIÓN DE LA AFMT Los métodos de interpolación que se pueden usar con “im2logpol” nearest linear cubic spline . Ejemplo anterior usando nearest Ejemplo anterior usando linear CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones DESCRIPTORES INVARIANTES La relación entre las AFMTs de funciones con similitud plana, es la siguiente: M gσ (k , v ) = α −σ + jv e jkβ M fσ (k , v ) El valor absoluto ya no genera descriptores invariantes. DESCRIPTORES INVARIANTES Descriptores invariantes a las similitudes planas basados en la AFMT Existen varias formas de obtener descriptores invariantes usando la AFMT. En el proyecto se usó la siguiente: .I −1+ j fσ (k , v ) = M f (0,0 ) σ v σ e { } M fσ (k , v ) − jk arg M fσ (1, 0 ) DISTANCIA DE SIMILITUD Basándose en los descriptores invariantes a las similitudes planas se puede definir una “distancia de similitud” entre formas: ( d I fσ , I gσ ) 2 ∞ = ∫ ∑ I fσ (k , v ) − I gσ (k , v ) dv −∞ k∈Z 1 2 DISTANCIA DE SIMILITUD Distancia de similitud entre objetos similares y diferentes (1) . (2) (3) Objetos distintos Objetos similares d(1,2) = 0,9445 d(1,3) = 0,9311 d(2,3) = 0,0760 CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones POSICIÓN DE OBJETOS EN IMÁGENES Algoritmo para determinar la posición de un objeto en una imagen: 1. Se define el objeto y se calculan sus descriptores invariantes. 2. Para cada píxel de la imagen, se calcula la distancia de similitud (entre los descriptores del objeto y los descriptores de una región centrada en el píxel). 3. La posición del objeto es la posición del valor mínimo de las distancias de similitud calculadas. POSICIÓN DE OBJETOS EN IMÁGENES Algoritmo para determinar la posición de un objeto en una imagen: 1. . Se define el objeto Se calculan sus descriptores POSICIÓN DE OBJETOS EN IMÁGENES Algoritmo para determinar la posición de un objeto en una imagen: 2. . Se calculan los descriptores AFMT de la imagen, y se obtiene la distancia de similitud con respecto al objeto. POSICIÓN DE OBJETOS EN IMÁGENES Algoritmo para determinar la posición de un objeto en una imagen: 2. . Imagen que contiene el objeto al cual se determina su posición Función de distancia de similitud POSICIÓN DE OBJETOS EN IMÁGENES Algoritmo para determinar la posición de un objeto en una imagen: 3. 1 2 3 4 … n 1 Píxeles que se deben procesar 2 Valor mínimo encontrado 3 4 … m . Posición del objeto es (n,m) POSICIÓN DE OBJETOS EN IMÁGENES Determinación de la posición de un coche de juguete en una imagen: x = 68 Posición encontrada: y = 193 . CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones POSICIÓN DE OBJETOS EN VÍDEOS Algoritmo para determinar la posición de un objeto en un vídeo Para reducir el tiempo de ejecución, se define una máscara que indica las regiones donde es más probable que esté el objeto. Hay una máscara para cada fotograma del vídeo. Se calculan las distancias de similitud sólo en las regiones más probables. POSICIÓN DE OBJETOS EN VÍDEOS Algoritmo para determinar la posición de un objeto en un vídeo Para generar la máscara del primer fotograma: 1. Se resta el primer fotograma del segundo. 2. A partir de la diferencia se genera una imagen binaria tomando un umbral de 0,25 del valor máximo. 3. Se realiza la operación de cerrar imagen. 4. Se realiza la operación de abrir imagen. POSICIÓN DE OBJETOS EN VÍDEOS Algoritmo para determinar la posición de un objeto en un vídeo Ejemplo de la máscara del primer fotograma: . Máscara después de la diferencia entre fotogramas Fotogramas Máscara después de cerrar y abrir imagen POSICIÓN DE OBJETOS EN VÍDEOS Algoritmo para determinar la posición de un objeto en un vídeo Para generar la máscara de los otros fotogramas: 1. Movimiento lento: Se puede asumir que la posición del objeto en un fotograma es muy cercana a la posición que tenía en el fotograma anterior. La máscara es una región pequeña que rodea la posición anterior del objeto. 2. Movimiento rápido: La máscara se puede generar usando la misma técnica del primer fotograma, pero sin cerrar y abrir la imagen. POSICIÓN DE OBJETOS EN VÍDEOS Se desarrolló un programa con entorno gráfico que permite definir un objeto y determinar sus posiciones en un vídeo. “ObMoDe”. . POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de una bola en caída libre . POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de una bola en caída libre . POSICIÓN DE OBJETOS EN VÍDEOS Tiempos de cálculo para el vídeo de la bola en caída libre Con posición inicial: 4 minutos 18 segundos Sin posición inicial: 4 minutos 40 segundos . POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de coches circulando en una calle . POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de coches – prueba coche 1 . Coche seleccionado Movimiento del coche POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de coches – prueba coche 2 . Coche seleccionado Movimiento del coche POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de coches circulando en una calle (sin compresión y compensando por el entrelazado) . POSICIÓN DE OBJETOS EN VÍDEOS Vídeo de coches 2 – prueba coche 1 . Coche seleccionado Movimiento del coche POSICIÓN DE OBJETOS EN VÍDEOS Algoritmo para solucionar el problema de la variación del fondo que rodea los objetos (algoritmo de radio variable) Una vez encontrada la posición del objeto, se calcula la distancia de similitud para diferentes radios. . POSICIÓN DE OBJETOS EN VÍDEOS Comparación entre usar o no el algoritmo de radio variable Distancia de similitud mínima 1.20E-01 8.00E-02 6.00E-02 4.00E-02 Radio variable Radio fijo 28 25 Fotograma 22 19 16 13 10 . 7 0.00E+00 4 2.00E-02 1 Distancia de similitud 1.00E-01 POSICIÓN DE OBJETOS EN VÍDEOS Tiempos de cálculo para el vídeo de coches circulando en una calle Con posición inicial: 6 minutos 30 segundos 26 minutos 31 segundos Usando radio variable: 7 minutos 21 segundos Interpolación bilineal: 6 minutos 48 segundos Sin posición inicial: CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones POSIBLES CAMPOS DE APLICACIÓN Regulación de tráfico. ִ Seguimiento de coches. ִ Identificación de coches. Astronomía. ִ Medición de la posición de la luna. ִ Sistema de seguimiento de objetos celestes. Laboratorios de física. ִ Medición de los parámetros de movimiento de un objeto en un plano específico. CONTENIDO Introducción y objetivos del proyecto Fundamentos teóricos Aproximación de la AFMT Descriptores invariantes y distancia de similitud Posición de objetos en imágenes Posición de objetos en vídeos Posibles campos de aplicación Conclusiones CONCLUSIONES La interpolación más indicada es la bilineal. No hay restricciones para la orientación del objeto, pero si en el tamaño de éste. Si varía mucho el tamaño del objeto, es mejor usar el algoritmo de radio variable. Mientras mejor es la calidad de la imagen, los resultados son más fiables. CONCLUSIONES La AFMT y sus descriptores invariantes sirven para determinar la posición de objetos en imágenes. Principal ventaja: la invarianza a las similitudes planas. Principal desventaja: mucho tiempo de cálculo. En la actualidad puede ser necesario usar circuitos integrados especializados. Hay muchas variables por explorar para desarrollar mejores algoritmos. ¿Preguntas? FIN