Hidden Gauss-Markov random measure field models for

Hidden Gauss-Markov random measure field models for efficient image segmentation Mariano Rivera, Omar Ocegueda and José Luis Marroquı́n Abstract— En este trabajo presentamos una aproximación cuadrática del potencial que surge del modelo de campos ocultos la cual es válida si la entropı́a de los distribuciones discretas p(r) es baja. El potencial propuesto es una función cuadrática de las variables pk (r) e incluye un término de control de entropı́a basado en el ı́ndice de Gini. Usando este potencial, es posible utilizar métodos de optimización con restricciones muy eficientes, en particular proponemos un método iterativo de Gauss Seidel que resulta de incorporar parte de las restricciones y manejando aparte el resto. Entre las ventajas del algoritmo final se encuentran la eficiencia, estabilidad, y la posibilidad de ajustar automáticamente los parámetros a partir de los datos de entrada. I. I NTRODUCTION Muchos problemas de visión computacional pueden ser reducidos a un problema de etiquetado que consiste en asignar a cada elemento de un conjunto S un elemento de otro conjunto L, donde S es el conjunto de sitios de la región de interés y L es el conjunto de posibles etiquetas que podemos asignar a los sitios. Cada elemento r de S tiene un conjunto de caracterı́sticas definidas por una o mas imágenes, las cuales representan mediciones del mundo real (brillo en diferentes bandas del espectro electromagnético, calor, distancia a algún objeto, etc.). Debido a la naturaleza de las mismas imágenes, las mediciones hechas en cada sitio no son independientes de las mediciones hechas en el resto de la imagen sino que esperamos que haya relaciones fuertes entre sitios cercanos espacialmente. Esta caracterı́stica hace que los métodos de etiquetado (segmentación) basados en modelos de Campos aleatorios Markovianos resulten superiores, en el contexto de visión computacional, a los métodos que solamente toman en cuenta las caracterı́sticas propias de cada sitio por separado como k-medias o iso-data. Uno de los modelos basados en C.A.M. que ha tenido gran éxito es el modelo de Campos Aleatorios de Medida Markovianos (HMMF) el cual ha sido utilizado en problemas como estimación de la disparidad estereoscópica y segmentación de imágenes de resonancia magnética superando los métodos más sobresalientes de su época. Una caracterı́stica importante de HMMF que lo hace muy atractivo como herramienta de modelación es que está sólidamente fundamentado en la teorı́a de estimación Bayesiana. Por otro lado una desventaja importante es que la función de energı́a resultante es en general difı́cil de optimizar y las restricciones lineales obligan a utilizar métodos de optimización muy pesados, relativamente complejos y sensibles a los parámetros. II. H IDDEN M ARKOV M EASURE F IELD MODEL La estructura del modelo HMMF se compone de un conjunto S de sitios (pixeles de una imagen) y un sistema de vecindades N el cual define un conjunto C de cliques (conjuntos de sitios que son vecinos entre si). La dinámica se compone de dos pasos, el modelo de generación y el modelo de observación. En el modelo de generación suponemos que existe una segmentación verdadera que fue generada mediante el siguiente modelo probabilı́stico (Figura 13): Sea N el numero de sitios en S. Sea SM ⊂ RM tal que ∀x ∈ SM . x ≥0 i = 1, 2, ..., M PM i x = 1 i i=0 N En el primer paso, un campo de probabilidades p ∈ SM es generado con la siguiente probabilidad (distribución de Gibbs) " # X 1 P (p) = exp − WC (p) Z C∈C donde WC son funciones de potencial locales para los cliques C ∈ C y Z es una constante de normalización. Para cada sitio r ∈ S el vector p(r) es una función de densidad discreta donde pk (r) es la probabilidad de que la etiqueta fr ∈ L = {q1 , q2 , ..., qM } del sitio r sea qk . En un segundo paso, el campo de etiquetas f es generado de tal forma que cada etiqueta fr es una muestra independiente con distribución p(r). Fig. 1. Modelo de generación - Observación. Cada una de las M regiones (no necesariamente conexas) está caracterizada por algún rasgo(por ejemplo, el nivel de gris) que modelamos mediante una función paramétrica φi : S → Rm con parámetros θi (una para cada región). Ejemplos de rasgos no escalares son el color y movimiento. Luego asumimos que la imagen verdadera fue generada simplemente evaluando para cada sitio, la función paramétrica correspondiente en el sitio dado. La información con la que contamos para estimar los parámetros {θi } y el campo de probabilidades p es un conjunto de observaciones dado por una imagen g : S → Rd (nótese que g puede ser una imagen multibanda). Denotemos por vk (r) para cada r ∈ S y cada k = 1, 2, ..., M , la probabilidad P (gr | fr = qk ).Notemos que de acuerdo al modelo de generación-observación, el valor de gr es independiente de p dado fr , por lo que la probabilidad condicional conjunta P (g | p) = Y P (gr | p) = r∈S = K YX P (gr | fr = k)P (fr = k) = r∈S k=1 K YX vk (r)pk (r) = r∈S k=1 Y v(r) · p(r) III. Q UADRATIC APPROXIMATION TO HMMF Notemos que si p(r) tiene baja entropı́a entonces log(p(r) · v(r)) ≈ M X k=1 Estamos interesados en una aproximación cuya optimización pueda hacerse de manera eficiente es por esto que elegimos una aproximación cuadrática de la función de energı́a. Las eleccione posibles son n = 1 y n = 2. Experimentalmente, n = 2 es la mejor elección. Para que esta aproximación sea válida, como mencionamos antes, es necesario que cada p(r) sea de baja entropı́a, por lo que requerimos introducir un término que nos permita controlar la entropı́a de estos vectores. Una medida conveniente es el ı́ndice de Gini r∈S G(p(r)) = 1 − Estamos interesados en encontrar una expresión de la distribución a-posteriori P (g | p)P (p) 1 = P (p | g) = P (g) ZP (g) " X M XX −pk (r)2 log(vk (r))+ r∈S k=1 +λ X M X (pk (r) − pk (s))2 − µ <r,s>∈C2 k=1 M XX pk (r)2 r∈S k=1 A. Constrained optimization method WC (p) C∈C Para maximizar esta expresión respecto a p, tomamos el logaritmo natural X X logP (p | g) = c + log(v(r) · p(r)) − WC (p) C∈C lo cual es equivalente a minimizar X X −log(v(r) · p(r)) + WC (p) r∈S U (p, θ) = r∈S r∈S pi (r)2 La función de energı́a es entonces v(r) · p(r) exp(−V (p)) donde V (p) es una función de potencial que define la distribución de Gibbs (a-priori) para p y depende de los cliques asociados al sistema de vecindades V (p) = M X i=1 # Y pk (r)n log(vk (r)) C∈C la minimización del potencial está sujeta a las restricciones lineales PM k=1 pk (r) = 1∀r ∈ S 0 ≤ pk (r) ≤ 1 los autores de este método proponen minimizar U utilizando descenso newtoniano alternadamente sobre p y θ y para manejar las restricciones se propone proyectar los vectores p(r) sobre el simplejo SM . Estos pasos de minimización -proyección tienen un costo computacional muy elevado además de que se requiere ajustar un conjunto de parámetros para la optimización respectoa p y otro conjunto para la optimización respecto a θ. Para acelerar la convergencia, se propone usar “multi-scale approach”. El método comienza a ser cada vez mas complicado debido al término “log(p(r) · v(r))”. El método de los multiplicadores de Lagrange para optimización con restricciones consiste en encontrar un punto crı́tico de la función lagrangiana. Consideremos el problema de optimización con restricciones definido por minx∈Rn f (x) sujeto a ci (x) ≥ 0, i ∈ I ci (x) = 0, i ∈ E donde I es el conjunto de restricciones de desigualdad y E es el conjunto de restricciones de igualdad. La función lagrangiana asociada a este problema es X L[f, c, λ](x) = f (x) − λi ci (x) i∈E∪I Las condiciones de Karush-Kuhn-Tucker, establecen que si x es un mı́nimo local de f en la región factible definida por las restricciones y los gradientes {∇ci (x)} son linealmente independientes, entonces existe un conjunto de multiplicadores de Lagrange {λi } tales que ∇x L[f, c, λ](x) = 0 ci (x) = 0 ci (x) ≥ 0 λi ≥ 0 λi ci (x) = 0 ∀i ∈ E ∀i ∈ I ∀i ∈ I ∀i ∈ I Muchos métodos han sido desarrollados en base a estas condiciones, pero la idea básica detrás de ellos es encontrar de manera eficiente un punto crı́tico de L que las satisfaga. A continuación describimos el método utilizado en este trabajo. La función de energı́a en la que estamos interesados es U (p, θ), donde p es un campo de probabilidades y θ es el conjunto de parámetros de los modelos. Las restricciones son naturalmente, las que definen a p como un campo de medida. Por ahora consideremos únicamente las restricciones de igualdad X pi (r) = 1 ∀r ∈ S (1) i para hacer las cuentas un poco mas limpias usaremos las restricciones de igualdad equivalentes 2ci (x) = 0, es decir P 2 i pi (r) = 2, luego la función Lagrangiana es # "M X X L[U, π](p, θ) = U (p, θ) − 2πr pk (r) − 1 r∈S k=1 donde πr es el multiplicador de Lagrange asociado a la restricción de igualdad para el sitio r. Para encontrar un punto crı́tico de L necesitamos resolver el sistema de ecuaciones dado por (2) por otro lado X ∂U (p, θ) = −2pk (r)(log(vk (r))+µ)+2λ (pk (r)−pk (s)) ∂pk (r) s∈N r sustituyendo en (2) y resolviendo para pk (r), tenemos P πr + λ s∈Nr pk (s) pk (r) = − log vk (r) − µ + λ]Nr (3) donde Nr es el conjunto de sitios s ∈ S que son vecinos de r y ]Nr es su cardinalidad. Sean P nk (r) := λ s∈Nr pk (s) mk (r) := − log vk (r) − µ + λ]Nr Sustituyendo en (1) P ni (r) X πr + nk (r) 1− i m i (r) = 1 ⇒ πr = P 1 mk (r) i m (r) i finalmente, sustituyendo en (3) obtenemos P ni,r 1− M i=1 mi,r nk,r pk (r) = + PM mk,r mk,r i=1 m (4) i,r Hay que recordar que esta expresión es la solución del problema de optimización con restricciones de igualdad (ignoramos las restricciones de desigualdad {0 ≤ pk (r) ≤ 1}). Lo P cual significa que esta solución solamente asegura que i pi (r) = 1∀r ∈ S. Experimentalmente un procedimiento que funciona adecuadamente es proyectar cada variable pk (r) haciendo pk (r) = min{max{pk (r), 0}, 1} Después de esta asignación ya no podemos asegurar que se P cumple la restricción i pi (r) = 1, ası́ que es necesario un segundo paso que consiste en una normalización haciendo pk (r) pk (r) = P i pi (r) gr | (cr = k) = φk (r) + ηr donde cr es la clase a la cual pertenece el sitio r. Recordemos que además del campo de probabilidades p estamos interesados en calcular los parámetros θi de φi , por lo que es deseable que log vk (r) sea fácil de optimizar respecto a θ, es por esto que la elección −(gr − fr )2 1 vk (r) = √ exp 2σ 2 2πσ es muy conveniente, ya que log vk (r) = c − ∂L ∂U = − 2πr = 0 ∂pk (r) ∂pk (r) k Notemos que la expresión (4) está en términos de log vk (r), lo cual sugiere que lo anterior puede ser utilizado en cualquier contexto en el que contemos con dos componentes básicos: un modelo para la imagen verdadera (f ) y un modelo probabilı́stico de la imagen observada (g), es decir {φi } y ηr en el modelo 1 (gr − fr )2 2σ 2 Algunos ejemplos de modelos que podrı́an ser útiles en diferentes problemas de visión computacional de bajo nivel son • φi (r) = µi ∈ R∀r ∈ S, i.e., modelos constantes, útiles en situaciones en las que las imagenes son relativamente sencillas, puede existir alto nivel de ruido pero no son significativas las variaciones espaciales en los modelos debidas a artefactos de iluminación o contraste. Ejemplos de rasgos que se representan con estos modelos (escalares) son el nivel de gris y la disparidad estereoscópica. 2 • φi (r) = µi ∈ R ∀r ∈ S, i.e. modelos constantes bidimensionales que pueden representar desplazamientos en secuencias de imágenes. Esta clase de modelos pueden ser utilizados en segmentación de movimiento o cálculo de flujo óptico en secuencias de imágenes en las que los desplazamientos de interés son relativamente simples como traslaciones. P (i) (i) • φi (r) = j θj Nj (r), donde {Nj } es un conjunto de “funciones base”, como splines de producto tensorial. Esta clase de modelos permiten variaciones espaciales suaves. • φi (r) = fi : R → R, donde {fi } es un conjunto de funciones que podrı́an ser por ejemplo modelos de series de tiempo. Son útiles en situaciones en las que la observación gr es de hecho un conjunto de observaciones (por ejemplo una sucesión de valores tomados en un mismo sitio a lo largo de un periodo de tiempo) En general el paso de estimación de parámetros consiste en resolver para θ el problema de optimización dado por θ∗ = argminθ U (p, θ) (5) IV. E XPERIMENTAL RESULTS En adelante asumiremos que la distribución de ηr es normal. Para mostrar los resultados experimentales comenzaremos con el modelo de φi más sencillo, el de modelos constantes φi (r) = θi ∀r ∈ S. De este modo, la función de potencial es Algorithm 1 Gauss-Seidel (GS) Approach for Marginals Computation with Projection 1: Set the initial model parameters θ0 and initially set p0 = v; 2: Given the tolerance > 0; 3: for i = 1, 2, . . . do 4: for all the pixels r do 5: for all the models k do 6: Compute pikr with (4); 7: Project pikr ← min{max{0, pikr }, 1}; 8: end for all the models {A renormalization of the pir can be performed here} 9: end for all the pixels 10: Update the models θi solving (5) ; 11: if kpi − pi−1 k < then 12: STOP with solution p∗kr = pikr and θ∗ = θi ; 13: end if 14: end for A. Synthetic images A continuación mostramos los resultados obtenidos en la segmentación de imágenes sintéticas. En la figura 2 mostramos una comparación cualitativa de QHMMF, el método original HMMF y Graph cut. Podemos observar que el método propuesto presenta resultados similares al método original de Campos Ocultos, pero es un poco más robusto para niveles altos de ruido. Fig. 2. U (p, θ) = X X (θi − gr )2 √ − µ − log( 2πσ))pi (r2 + ( 2 2σ r∈S i +λ X X i <r,s>∈S Results on synthetic images. La figura 3 muestra una comparación del tiempo de ejecución del método propuesto contra la modelación original de HMMF, en función del número de modelos (constantes). (pi (r) − pi (s))2 El parámetro de la distribución σ puede ser estimado a partir de los datos. Los resultados que mostramos aquı́ fueron obtenidos estimando la varianza local a partir de la imagen original fijando para cada sitio r ∈ S una ventana Wr ⊂ S, cada ventana define una estimación local de la varianza σr2 = X 1 (g(s) − mr )2 kWr k s∈W r Fig. 3. Execution time as a function of the number of (constant) models. donde mr = X 1 g(s) kWr k s∈W r Finalmente dado el conjunto de estimadores locales {σr }, obtenemos un histograma y elegimos como estimador de la varianza la moda de dicho histograma. Este procedimiento resulta ser muy robusto ya que las variaciones en los estimadores σr debidas por ejemplo a los bordes de las imágenes no tienen un efecto importante sobre el estimador elegido (la moda). Para obtener el estimador óptimo de θk , encontramos el punto crı́tico del potencial respecto a cada θk P 2 X (θk − gr ) ∂U 2 r∈S gr pk (r) P = p (r) = 0 ⇒ θ = k k 2 ∂θk σ2 r∈S pk (r) r∈S (6) Una ventaja adicional es el control sobre la entropı́a del campo de probabilidades estimado. Podemos obtener diferentes estimaciones simplemente modificando el parámetro µ. La figura 4 muestra diferentes estimaciones, en cada imagen se grafica, para cada sitio r el valor máximo de p(r). Claramente la mayor incertidumbre se encuentra alrededor de los bordes de la imagen observada. a)µ = 0.005 Fig. 4. b)µ = 0.01 c)µ = 0.02 d)µ = 0.04 Ilustración de la entropı́a para diferentes valores de µ. V. A PPLICATIONS Una aplicación de gran interés es la segmentación de imágenes de resonancia magnética. La tarea es clasificar los voxeles en tres clases: materia blanca, materia gris y lı́quido cefalo-raquı́deo. Mostraremos el desempeño de QHMMF usando tanto imágenes simuladas como reales. La caracterı́stica que define la segmentación en este caso es la intensidad (nivel de gris) de los voxeles. Los voxeles de cada clase no presentan una intensidad constante sino que puede existir cierto nivel de ruido y además puede haber inhomogeneidades espaciales (la intensidad de un modelo varı́a a lo largo de la imágen). Como vimos en la sección anterior QHMMF es muy robusto, por lo que solamente debemos ocuparnos por modelar adecuadamente el efecto de las inhomogeneidades. El modelo que usaremos será el de splines de producto tensorial. A. Splines de producto tensorial El modelo que usaremos está definido por las funciones φk (r) = M X donde < i, j > representa al clique {i, j}, es decir i, j son puntos de control vecinos entre si. Para obtener los parámetros óptimos: ∂U (p, θ) = ∂θk,j =2 X ∂φk X (r)(φk (r) − gr )pk (r)2 + 2η (θk,j − θk,i ) = 0 ∂θk,j r∈S i∈N j donde Nj es el conjunto de puntos de control vecinos del punto de control j. Además ∂φk (r) = Nj (r) ∂θk,j entonces para los parámetros óptimos θ, X X ηθk,j ]Nj + Nj (r) θk,i Ni (r)pk (r)2 = y B(x) =    (1.5−2x2 ) 2 (x2 −3|x|+2.25) 2   0 |x| ∈ [0, 0.5) |x| ∈ [0.5, 1.5) |x| ≥ 1.5 Fig. 5. Puntos de control en el modelo de splines de producto tensorial. Notemos que el paso de optimización respecto a p no varı́a con el uso de splines ya que solamente nos interesa log(vk (r)). Lo único que varı́a es el cálculo de los parámetros óptimos de las splines dado el valor de p. El potencial es XX U (p, θ) = ((φk (r) − gr )2 − µ)pk (r)2 + r∈S k XX +λ (pk (r) − pk (s))2 r∈S k Experimentalmente este modelo presenta problemas de inestabilidad debido a que los valores de θk,j no están ligados entre sı́. Este problema puede ser resuelto regularizando los parámetros, es decir modelas los parámetros θk,j como un campo aleatorio Markoviano, sobre el cual introducimos información a priori X =η i∈Nj j=1 x y Nj (x, y) = N0 (x − xj , y − yj ), N0 (x, y) = B( )B( ) δ δ i r∈S θk,j Nj (r) donde P 2 1 exp−η <i,j> (θi −θj ) Zθ P (θ) = θk,i + X Nj (r)gr pk (r)2 r∈S Este es un sistema de ecuaciones lineales que podemos resolver usando cualquier método estándar como eliminación gaussiana o descomposicón LU, o bien podemos aproximar la solución usando métodos iterativos. El paso de actualización de Jacobi es entonces: (t+1) θk,j η = P i∈Nj h i P P (t) θk,i + r∈S Nj (r)pk (r)2 gr − i6=j θk,i Ni (r) P 2 2 r∈S Nj (r) pk (r) + η]Nj Los pasos antes mencionados describen el modelo para una imagen del volumen de datos. Los resultados que mostramos fueron obtenidos segmentando cada imagen por separado. Un detalle importante que hay que cuidar es el de hacer corresponder cada clase de la segmentación a cada clase de interés, en este caso, la clase con nivel de gris más bajo corresponde al LCR y la clase con nivel más alto a la materia blanca, etc. Efectuamos esta correspondencia en cada iteración de los modelos simplemente ordenándolos por nivel de gris para posteriormente hacer la asignación adecuada. B. Harvard real Brain MRI En este conjunto de datos cada voxel corresponde a un volumen de 1x1x3 mm, esto ocasiona que en un mismo voxel haya mezclas de más de un tejido, este fenómeno es conocido como “efecto de volumen parcial”. Debido a esto existen en los datos de Harvard algunos voxeles cuya composición es una mezcla de LCR y MG (Figura 6), si observamos el ground truth, nos damos cuenta de que esta mezcla fue asignada por el experto a la clase MG. Por tanto para realizar esta segmentación es necesario introducir una cuarta clase que corresponde a los voxeles de mezcla cuyo nivel de gris es más cercano al LCR. La segmentación final asigna la clase 0 a la unión del fondo y el LCR de los ventrı́culos (claramente el nivel de gris de éste es muy cercano al fondo, la asignación final se realiza utilizando la “máscara” que separa los datos en “cerebro” y “no cerebro”), las clases 1 y 2 a Materia Gris y la clase 3 a la materia blanca. Como mencionamos en la sección anterior, la segmentación se realiza de manera independiente en cada corte del volumen. Los resultados que mostramos fueron obtenidos usando cortes coronales (estos son los de mayor resolución). a)Coronal slice Fig. 6. b)QHMMF result c)Ground truth Efecto de volumen parcial y comportamiento de QHMMF. variaciones aleatorias. La log-verosimilitud (en un punto r ∈ S) es entonces √ 1 logP (g1 (r) | g0 (r), fr = qk ) = −log( 2πσ)− 2 (g0 (r)−g1 (r+dk ))2 2σ En general los componentes de dk no son necesariamente enteros por lo que podrı́a ocurrir que r + dk ∈ / S y por tanto g1 (r + dk ) puede no estar definido. Para resolver este problema utilizamos interpolación bicúbica de la imagen g1 . Los modelos {dk } se eligen tratando de cubrir lo mejor posible el rango de movimientos presentes en la imagen, pero dado que no contamos con información al respecto simplemente fijamos manualmente un desplazamiento máximo (en magnitud) R y un factor de discretización m. Elegiremos los desplazamientos dentro de la región dada por [−R, R] × R , [−R, R] discretizándola en (2m + 1)2 modelos. Sea δ = m la discretización queda definida por los modelos di,j = (iδ, jδ)T i, j = −m, −(m − 1), ..., 0, 1, ..., m donde el doble subı́ndice (i, j) fue introducido en lugar de k por claridad. Notemos que una vez obtenida la expresión de la logverosimilitud, el cálculo del campo de probabilidades p es idéntico que en los experimentos anteriores. En los siguientes experimentos se muestran los resultados usando modelos constantes de desplazamiento. Además omitimos el paso de estimación de parámetros, es decir los desplazamientos {dk } se mantienen fijos en todo el proceso. Usaremos la secuencia del Taxi de Hamburgo (Figura 9). El potencial a minimizar es el siguiente Fig. 7. Harvard real Brain MRI segmentation results. U (p, d) = K XX (g0 (r) − g1 (r + di ))2 − µ pi (r)2 + r∈S i=1 +λ X K X (pi (r) − pi (s))2 <r,s>∈C2 i=1 Fig. 8. Harvard real Brain MRI segmentation results,18 new samples. La observación importante es que estamos haciendo el mismo procedimiento para el conjunto de los 20 primeros cerebros y los 18 nuevos obteniendo resultados consistentes. C. Optical Flow Estimation Estamos interesados en modelar el movimiento de los objetos en una secuencia de imágenes. Tı́picamente se asume que los objetos conservan su brillo (nivel de gris) a lo largo de su movimiento. Para utilizar QHMMF es necesario elegir un conjunto discreto de posibles direcciones {dk } que pueden seguir los objetos. Un modelo de observación razonable es Fig. 9. Frames 0 and 19 of the Hamburgh Taxi sequence. Una vez calculado el campo de probabilidades podemos elegir diferentes estimadores del flujo óptico. Para cada sitio r tenemos la distribución discreta p(r), por lo que podemos obtener por ejemplo el valor esperado del desplazamiento en r respecto a la distribución p(r), es decir, elegimos como desplazamiento en r el vector g0 (r) = g1 (r + df (r) ) + ηr donde ηr ∼ N (0, σ). Es decir, el brillo de los objetos se conserva a lo largo de su movimiento salvo por pequeñas v(r) = Ep(r) [d] = K X i=1 di pi (r) llamaremos a este estimador el desplazamiento medio en el sitio r. Más en general podemos elegir los estimadores vn (r) = K X di pi (r)n i=1 y por supuesto el estimador MPM que usamos en segmentación: a)MPM. b)Media. c)p2 . d)Máscara. vM P M (r) = dk , k = argmaxi {pi (r)} Un problema común en los métodos de estimación de flujo óptico de este estilo que incluyen términos de regularización del estilo X kp(r) − p(s)k2 Fig. 11. Adaptable. <r,s>∈C2 es el que se observa en la figura (10), el flujo óptico estimado continúa alrededor de los objetos en movimiento. a)MPM. b)Mean. detectadas como regiones con movimiento no nulo, este problema se corregı́a antes con la regularización completa. Todo esto sugiere que lo que requerimos es realizar las segmentaciones (de nivel de gris y de movimiento) simultaneamente. Una opción es simplemente elegir b(r, s) ∈ [0, 1] en lugar de b(r, s) ∈ {0, 1} para lo cual también podemos usar los resultados de QHMMF de la segmentación de g0 por nivel de gris (una medida relacionada con la entropı́a de p podrı́a resultar). Una variante interesante es la de ajustar un flujo afı́n a cada objeto en movimiento. c)p2 . Fig. 10. f)Mask. Estimación directa. Una idea inmediata para tratar de resolver este problema es hacer que los bordes de movimiento coincidan con los bordes de las imágenes. Para hacer esto primero necesitamos encontrar los bordes de las imágenes. Podemos utilizar el mismo modelo aproximado de campos ocultos para segmentar las imágenes (en realidad solamente necesitamos segmentar g0 ), los bordes quedan determinados por la segmentación. El potencial modificado tiene la forma K XX U (p, d) = (logvi (r) − µ)pi (r)2 + a)Rapidez. b)Flujo Óptico. c)Taxi. d)Coche 1. Fig. 12. Flujo óptico estimado mediante el modelo afı́n para cada objeto en movimiento. r∈S i=1 +λ X b(r, s)kp(r) − p(s)k2 <r,s>∈C2 donde b(r, s) = δ(cr − cs ) en la segmentación de g0 , es decir, es igual a 1 si r y s pertenecen a la misma clase (de la segmentación de g0 ) y es igual a 0 si no. Notemos que una vez hecha la segmentación de g0 , las variables b(r, s) son fijas. En la figura (11) mostramos los resultados del método descrito anteriormente. Podemos observar que en estos resultados los bordes de movimiento están muy bien definidos, aunque también se aprecia un problema relacionado con la sobre-segmentación de g0 , hay algunas regiones sin movimiento que son VI. R ELACI ÓN CON G AUSS -M ARKOV M EASURE F IELDS La formulación clásica del problema de segmentación parte del supuesto de que la imagen observada es una versión distorcionada de una imagen original que fue obtenida a partir de una partición que es justamente la que queremos obtener. En la figura (13) se ilustra este modelo de generación - observación. En el primer paso, un campo de etiquetas f , el cual modelamos como un Campo Aleatorio Markoviano es generado con probabilidad P (f ) = 1 exp (−U (f )) Z donde U (f ) = X VC (f ) C∈C para definir el potencial VC para los cliques C ∈ C generalmente se utiliza el potencial de Issing eligiendo el sistema de 4-vecindades. Este potencial, para un cliqué C =< r, s > está dado por 1 si f (r) 6= f (s) V<r,s> (f ) = 0 si f (r) = f (s) En el siguiente paso, para cada sitio r ∈ S evaluamos f˜(r) = φθk (r) tal que f (r) = qk (la etiqueta asociada al sitio r es qk ). Finalmente, la imagen original f˜ es perturbada con ruido aditivo, el cual es modelado mediante las variables aleatorias independientes e idénticamente distribuidas ηr Lo que hace complejo este problema de optimización es que las variables bi (r) solo pueden tomar uno de los valores {0, 1}, es decir, se trata de un problema de optimización combinatoria y para resolverlo aproximadamente es necesario utilizar métodos como ICM o recocido simulado. Lo anterior da como resultado los estimadores MAP b b, θb para b y θ. Mas en general, en el marco de estimación b b, θ). bayesiana, podemos definir una función de costo C(b b, θ, Una clase importante de funciones de costo es de la forma X Cb (b b, b) = Cr (b b(r), b(r)) r∈S se puede probar que si Cr son funciones no negativas, entonces el estimador Bayesiano óptimo para b(r) es b b(r)∗ = argminb(r) g(r) = f˜(r) + ηr M X Cr (b(r), ek )πk (r) k=1 donde πk (r) = X P (b, θ̄ | g) = P (b(r) = ek , θ̄ | g) b:b(r)=ek define la distribución marginal (discreta) a posteriori π(r) en el sitio r. Fig. 13. Modelo de generación - Observación. Entonces el modelo de observación puede expresarse como g(r) = M X bi (r)φθi (r) + ηr i=1 donde bi (r) = 1 0 si si f (r) = qk f (r) 6= qk El problema de segmentación se traduce en encontrar valores “óptimos” para bi (r) y θi , los parámetros de los modelos. Como criterio de optimalidad usamos la distribución a-posteriori: buscamos los valores de bi (r) y θi que maximicen dicha distribución 1 P (g | b, θ)P (b)P (θ) = P (g) "M # ! Y X X = bk (r)vk (r) exp − VC (b) P (θ) P (b, θ | g) = r∈S C∈C k=1 El factor P (θ) puede asumirse constante (distribución uniforme para los parámetros). También es común en algunas aplicaciones modelar θ como un campo aleatorio markoviano y definir su propio potencial como información a priori Fig. 14. Distribuciones marginales a posteriori. Lo anterior muestra que es posible encontrar estimadores Bayesianos óptimos fácilmente para una clase de funciones de costo muy general, con “solo” encontrar las distribuciones marginales π(r). Muchos métodos han sido propuestos para obtener aproximaciones de las marginales, los más precisos están basados en cadenas de Markov: la idea es construir una sucesión de muestras b(1) , b(2) , ..., b(T ) de la distribución a posteriori b(j) = T (b(j−1) ), entonces usamos el teorema ergódico de Birkhoff para aproximar π(r). Para construir la suceción de muestras {b(j) }Tj=1 de la distribución a posteriori se utilizan métodos como Gibbs-Sampler o Metrópolis. Nuestra estimación de las probabilidades marginales π son las marginales empı́ricas p definidas por T 1 X (t+T0 ) b T t=1 1 P (θ) = exp(−W (θ)) Z p= Maximizar esta distribución es equivalente a minimizar el potencial (tomando logaritmo) Por las propiedades anteriores se cumple U (b, θ) = M XX r∈S i=1 −bi (r)logvi (r) + X C∈C VC (b) + W (θ) E[b] = E[p] = π Los métodos basados en MCMC solo toman en cuenta la propiedad E[p] = π. Usando el teorema central del lı́mite, Una familia de funciones de energı́a que cumplen con esta condición de consistencia está dada por U (p) = M XX X −pk (r)2 log(vk (r))+λ r∈S k=1 M X (pk (r)−pk (s))2 − <r,s>∈C2 k=1 µ M XX pk (r)2 r∈S k=1 Fig. 15. MCMC Approach. el último término es el que controla la entropı́a de las distribuciones p(r), se trata de una penalización del coeficiente de Gini G(p(r)) = 1 − podemos aprovechar una propiedad más de las marginales empı́ricas (figura 16). Fig. 16. GMMF Approach. √ −−∞ → N (0, Σ) n(p − π) − n−→ donde Σ = Cov(b) = E[bi bTi ] − E[bi ]E[bTi ] = Diag(π) − ππ T el problema, claro está, es que no conocemos π y por tanto no conocemos Σ. De cualquier forma, sabemos que la función de distribución asintótica de p está dada por QΣ (p) 1 P (p) = √ exp − 2σ 2 2πσ donde QΣ es alguna función cuadrática positiva definida tal que ∇QΣ (π) = 0. La idea en la que se basa el método GMMF es en modelar la función cuadrática QΣ . Para esto se introduce el concepto de “condición de consistencia” que tiene que ver con el hecho de que si no contamos con información a-priori, las muestras b fueron tomadas de la distribución dada por la verosimilitud, por lo que el valor esperado de p es la verosimilitud (normalizada) (la prueba de esto va mas allá del alcance de este artı́culo). En el artı́culo original en el que se presenta el modelo GMMF se propone una familia de funciones de potencial que cumplen con la condición de consistencia. Un problema con esta familia de funciones es que el campo de medida estimado tiende a ser de alta entropı́a, lo cual hace muy difı́cil la estimación de los parámetros. Con la idea de controlar la entropı́a del campo p estimado, relajamos la condición de consistencia requiriendo únicamente que en ausencia de información a-priori, el estimador óptimo p∗ cumple argmaxk p∗k (r) = argmaxk vk (r) ∀r ∈ S M X pk (r)2 k=1 VII. D ISCUSSION El modelo original HMMF ha sido utilizado con éxito en la resolución de diversos problemas de procesamiento dePimágenes, sin embargo, la presencia del término − r log(v(r) · p(r)) hace que sea necesario utilizar métodos de optimización no lineal, lo cual lo vuelve relativamente complejo e ineficiente. Una propiedad importante de la solución que arroja HMMF es que las distribuciones discretas p(r) tienden a ser de baja entropı́a [ref erencia a campos ocultos]. En este trabajo presentamos una aproximación cuadrática de la función de energı́a que resulta del modelo de campos ocultos con un término de control de entropı́a basado en el coeficiente de Gini, el cual permite que la función resultante permanezca cuadrática. Presentamos además un método de optimización con restricciones en el que se tratan independientemente las restricciones de igualdad E y las de desigualdad I. El resultado es un método iterativo de Gauss-Seidel considerablemente más sencillo y eficiente que los métodos estándar de optimización no lineal. En los resultados experimentales mostramos que este método conserva las propiedades del modelo original HMMF presentando incluso un comportamiento más robusto ante altos niveles de ruido. Mostramos además la posibilidad de obtener un método libre de parámetros mediante la estimación de los parámetros del modelo de ruido a partir de los datos (lo ilustramos mediante la estimación de la varianza) y ajustando el término de regularización experimentalmente. Adicionalmente, el término de control de entropı́a permite obtener diferentes estimaciones del campo de medida, simplemente variando uno de los parámetros del modelo. La versatilidad del modelo se ilustra con la aplicación del método en dos problemas de procesamiento de imágenes. Por un lado en la segmentación de imágenes de resonancia magnética del cerebro utilizando el “Harvard Brain Atlas”, mejorando notablemente los resultados reportados en la literatura y resultados consistentes al utilizar las 18 nuevas muestras recientemente disponibles. Por otro lado mostramos la aplicación al problema de estimación de flujo óptico. VIII. R EFERENCES

Hidden Gauss-Markov random measure field models for

Documentos relacionados

Productos

Apoyo

Hidden Gauss-Markov random measure field models for

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib