Introducción al procesamiento de imágenes y visión por computadora Procesamiento de imágenes (PI) Modalidades básicas de procesamiento 0. funcional(ventana_de_imagen) nueva ventana_de_imagen (histograma, promedio, momentos estadisticos…) 1. filtros: ventana_de_imagenmascara condición imagen_filtrada_en_ventana filtros: mascara cuadrada, lineal, de cruz (filtro de mediana), de redes neuronales Remark 1Comentario Improtante: Simbolo "" aquí se usa para la operación de convolución. Formalmente, si representar los operandos de la operación de convolucióncomo vectores, entonces propia conolución se representa como un producto punto, es decir "la suma de productos de los componentes correspondientes de ambos vectores." Cambiando en esta regla la palabra "vectores" por "fragmentos rectangulares de una matriz", se obtiene la regla como la convolución funciona para imágenes digitales. Con esta definición es facíl de ver que sea 1 1 0 1 0 -1 0 -1 -1 la máscara que participa en la convolución, entonces el resultado sea "derivada de fragmento de imagen a lo largo de dirección inclinada por 45°: Remark 2. La propiedad teórica muy importante es que cualquier funcional lineal sobre los datos (por ejemplo, sobre un fragmento de umagen digital) se puede presentar como la convolución con una máscara. Opciones generales de filtración 1.1. Eliminación de ruido ("Mejoración" de imagen) Reconocimiento: (reconocimiento de que? que parton? que propiedad?) 1.2. Detección de elementos 1D (cómo definir matemáticamente elementos lineales (edges)?): Nota: La definción formal de "edge" que no lleva a ambiguidad es "edge se detecta en una localidad P y para una dirección V siempre y cuando en P la derivada espacial de la imagen a lo largo de dirección ortogonal a V tiene un máximo". Sin embargo, esta definición lleva a detección de "edges" que muy dificilmente integrados a unos objetos 1D extendidos. 1.3 Detección de elementos 0D (p. e. "interest points", intrersección de curvas 1D) (cómo definir matemáticamente elementos puntuales?) Se puede, elegir patrones funcionales (p.e., parabola, silla, etc.) los cuales tienen un punto singular (p.e., mínimo de parabola) y intentar de aproximar un fragmento de imagen con este patron. Robustez y dependencia de transformaciones afinas de la imagen 2. ventana_de_imagentransformaciónimagen_de_ventana _transformada (Wavelet, Fourier, afina,...) Reversibilidad de las transformaciones Objetivo intuitivo de transformaciones espectrales (Wavelet, Fourier, Haar, etc.): Información espacialmente distribuida en la coordenadas espaciales (usuales) debe pasar a la concentrada en un punto o una linea en las coordenadas espectrales (frecuencias) 3. Imagen imagen procesamiento Opciones básicas: 3.1. Filtración: aplicar algun método de p.1 con mismo filtro de una manera exhaustiva a lo largo de toda imagen solo recorriendo la ventana 3.2. Transformación de p.2 con ventana que coincide con el marco de la imagen completa 3.2. Procesamiento guiado por objetos encontrados (seguimiento de curvas) 4. Imagen 2D Imagen de escala 3D (Multiscale processing) se hace procesamiento (según 3.1 o 3.2 o combinada de ambos) múltiple de misma imagen variando escala ("scale") , es decir, tamaño de la venata en p.1 5. Imagen parámetros para control de robot 6. Minimización de parametros de un funcional de energia en la imagen con una interpretación posterior de resultados. 7. Segmentación Próblemas prácticas de segmentación: Detectar áreas con campos de trigo, maiz, con bosque y todo lo demás. Campos efectados con una plaga. Extraer en una imagen el fondo del objeto propio Segmentación como un problema de filtración Segmentación como un problema de aproximación (relacionado con p.6) 8. Morfologia matématica (detalles - más adelante en curso) Simplificando la idea central, MM se puede expresar como unas técnicas de procesamiento intermendiario basado en aplicación de operadores de dilación y erosión a los resultados de procesamiento anterior. El primero tiene objetivo fusionar los partes de un objeto separados en segmentación previa, mientras el segundo – separar partes de diferentes objetos erroniamente erroniamente fusionados. Visión por computadora (VC) Groso modo, se puede decir que VC es "búsqueda computarizada de 'lo mismo' en imágenes". El diferencia entre VC y PI es que PI se puede considerar como un conjunto de métodos formales (matemáticos), mientras VC aplicando esos métodos toma en cuenta la semántica del objetivo final. Entonces, para presentar áreas principales de VC, hay que clasificar que opciones tiene "lo mismo". 1. Lo que puede detectarse en una imagen como algo que corresponde a un criterio bién definido matemáticamente. Opciones: Objetos locales: Edges Elementos invariantes a un desplazamiento local Puntos de interes Objetos no locales Figuras de una cierta forma (operador de Hugh) 2. Los mismos objetos reales que se pueden extraer en diferentes imagenes. Opciones: fotos calibrados (reconocer rostros en base de datos de IFE) objetos en fotos sacadas desde diferentes puntos de vista base corta (estereo humano) base ancha (wide-base stereo) 3. Lo mismo que corresponde a una idea humana. (Entonces, este área está vinculado orgánicamente con psicología, es decir con estudios de como funcionan algoritmos de visión humana) Letras Jeroglifas Conceptos (casa, arbusto, pez,…) Reconocer objetos de bases de datos geográficos en imágenes Reconocer malformaciones en imágenes radiográficas o tomografias Reconocer expresiones faciales 4. Uso imagen(es) de entrenamiento para reconocimiento y reconstrucción. Dada Sucesión de entrenamiento que demuestra cambios temporales (niño – joven – adulto – viejo) y dada una foto de una persona (p.e., adulta), reconstruir su apariencia en otras edades. 5. Estimación de parámetros Por ejemplo, para control automatico visual de robot Niveles de procesamiento Sin retrolimentación: Early vision (p.e., deteción de elementos de bordes) Itermediate processing (p.e. agrupación de elementos locales en objetos extendidos) Inferencias (p.e., reconocer elementos de estructuras mas grandes como 'pirámide', 'cubo', 'agujero', etc.) Con retroalimentación: Modelos de objetos basados en detectores disponibles que controlan procesamiento de imagen