Teoría de decisión Bayesiana

Anuncio
Teoría de decisión Bayesiana
Reconocimiento de Patrones – 2013
Duda Capitulo 2
Decisión Bayesiana

Enfoque estadístico fundamental en clasificación
de patrones

Idea: Estudiar probabilidades de tomar decisiones
incorrectas para cuantificar los costos y
compromisos de esas decisiones y diseñar las
estrategias de menor costo
Metodología
1.
2.
Supuestas conocidas todas las probabilidades en
juego estudiaremos como establecer las reglas de
decisión.
Posteriormente analizaremos como proceder cuando
no se conocen las probabilidades completamente.
Ejemplo: Clasificación de brotes y de hierbas
parásitas en cultivos, mediante la captura de
imágenes multiespectrales (4 bandas), con el
objetivo de realizar una fumigación específica.
Ejemplo



Clasificación de brotes y de hierbas parásitas en cultivos,
mediante la captura de imágenes multiespectrales (4
bandas), con el objetivo de realizar una fumigación
específica.
Pre-procesamiento: discriminación suelo –vegetación
Problema de clasificación de 2 clases: cada pixel de
vegetación pertenece a:
w1 – brote
w2 – parásito
C={ w1, w2}
Ω Є C, V. A
Priors


P(w1), P(w2) probabilidades a priori, pixel brote o
parásito. Reflejan conocimiento previo de cuan
probable es que un pixel corresponda a brote o
parásito antes de inspeccionar imagen.
Supondremos P(w1)+P(w2)=1, todo pixel detectado
como vegetación es brote o parásito.
Regla de Decisión


Supongamos que somos forzados a tomar una
decisión y que todos los costos de decisiones
incorrectas son iguales.
Si la única información a la que podemos acceder son
las probabilidades a priori, la regla de decisión
razonable es:
Decido: w1 si P(w1)> P(w2) , w2 en otro caso

Si P(w1)>> P(w2)

Si P(w1) ≈P(w2)
al decidir w1 casi siempre
estamos en lo cierto.
nos equivocamos en
promedio uno de cada dos.
P(error) = min [P(w1), P(w2)]
Densidad de Probabilidad condicionada a la clase

En general disponemos de más información para
tomar decisiones.
Ejemplo: a cada pixel le asociamos un vector
x=(x1,x2,x3,x4) donde xi : reflectancia en la banda
espectral i-ésima.

Modelo:

x
vector aleatorio
p(x/wi) densidad de probabilidad
R  R d ,
 p(x / w )dx  P(x  R / w )
i
R
i
Bayes
Supuesto conocidas las prioris y las densidades condiciona les
Para inferir la naturaleza del pixel de vector de caracterís ticas x,
usamos Bayes : p (x, wi )  P ( wi / x) p (x)  p (x / wi ) P( wi )

p (x / wi ) P ( wi )
P( wi / x) 
p ( x)
2
donde
p (x)   P (x / wi ) P( wi )
i 1
Bayes
Bayes :




verosimilitud  prior
posterior 
evidencia
P(wi /x)- posterior: probabilidad de que la clase sea wi dado
que se midió x .
P(wi ) – prior: conocimiento previo del problema
p(x/ wi)- verosimilitud : de la clase wi respecto a x, cuanto
mayor más probable que la verdadera clase sea wi.
p(x)- evidencia: factor de escala, normaliza a 1.
Regla de Decisión de Bayes
Decido w1 si Pw1 / x   Pw2 / x , w2 en otro caso
P(error )   P(error, x)dx   P(error / x) p(x)dx
R4
R4
 Pw1 / x  si decidimos w2
P(error / x)  
 Pw2 / x  si decidimos w1
P(error ) mínima  P(error / x) mínima x
Bajo esta regla : P(error / x)  min Pw1 / x , Pw2 / x 
Decisión de Bayes
P(w1/x)
w1
P(w2/x)
w2
P(w1 /x)+P(w2 /x)=1
x
En término de probabilidad a priori y verosimilitud la regla es:
Decido w1 si p(x/ w1) P(w1) > p(x/ w2) P(w2) , w2 en otro caso
Eliminando el factor de escala se obtiene una regla equivalente, el
factor de normalización cambia la apariencia de las funciones
discriminantes.



Si p(x/ w1)=p(x/ w2) entonces el medir las
características x, no nos aporta información sobre la
clase; la decisión se basa puramente en las priors.
Si P(w1) =P(w2) la decisión se basa en las
verosimilitudes
La regla de decisión bayesiana combina ambos
factores y toma la decisión que minimiza la
probabilidad de error.
Formalización y generalización




c clases {w1, w2 …. wc}
Espacios de características Rd :
x = (x1, x2, …xd)T : vector de características
x Є Rd : espacio Euclideano dimensión d
Funciones de costos más generales que la
probabilidad de error. Función de costo ó de pérdida:
cuanto me cuesta cometer distinto tipos de errores o
no decidir.
Ej: costo de extraer tejido si es benigno no es igual
costo de no extraer tumor maligno.
Funciones de Costo
C  {w1, w2  . wc } conjunto finito de c categorías
A  {1,  2  .  a } conjunto de a posibles acciones
( i / w j ) : costo asociado a tomar acción  i , cuando
la muestra es en realidad de la clase wj.
Riesgo Condicional
M odelo : x  R d
  C , variable aleatoria
c
p(x / w j ) P( w j )
P ( w j / x) 
p ( x)   p ( x / w j ) P ( w j )
p ( x)
i 1
Observo x, contemplo tomar acción  i , si clase verdadera w j ,
voy a incurrir en un costo  ( i / w j )
El costo medio de tomar la acción  i es el riesgo condiciona l :
c
R ( i / x)  E / x  ( i / )    ( i / w j ) P( w j / x)
j 1
Riesgo Total



Una regla de decisión es una función
α(x) α: Rd →A
que nos dice que acción tomar para cada x
Ej: asigno a una de las clases (1...c) o a la clase de
rechazo.
Riesgo total R: esperanza del riesgo condicional
asociado a una regla de decisión
R  Ex ( R( (x) / x)) 
 R( (x) / x) p(x)dx
Rd
Riesgo de Bayes

Elegir Regla de Decisión que minimice Riesgo Total
R es mínimo  para cada x R(α (x) /x) es mínimo
 para cada x : α * (x)  arg min R (αi /x)
 i A
El riesgo asociado a la Decisión Bayesiana :
R* 
 R( * / x) p(x)dx
Rd
Es ópitmo. En caso de empate entre reglas se puede
tomar cualquiera
Clasificación con 2 clases (sin rechazo)
ij   ( i / w j )
C  w1 , w2 
A  1 ,  2 
R(1 / x)  11P( w1 / x)  12 P( w2 / x)
R( 2 / x)  21P( w1 / x)  22 P( w2 / x)
Regla Bayesiana:
Decido : w1 si R(1 / x)  R( 2 / x) , w2 en otro caso
Razón de Verosimilitud
 (12  22 ) P ( w2 / x)  (21  11) P( w1 / x )
w1

p (x / w1 )   12  22  P ( w2 )


p (x / w2 )   21  11  P ( w1 )
w2
En general 21  11 y12  22 costo de errar mayor
al de acertar.
Interpretación : Decido w1 cuando la razón de verosimil itud
supera un umbral que es independiente de x.
Clasificación de menor tasa de error:
Función de costo simétrica : Costo cero/uno
 (w1,w2 )  C 2
0
 ( i / w j )
1
i  j aciertos
i  j errores
i, j  1...c
Asumo que todos los errores cuestan lo mismo :
c
R ( i / x)    ( i / w j )P ( w j / x)   P ( w j / x)  1  P ( wi / x)
j 1
j i
Clasificación con tasa de error mínima

La decisión bayesiana es aquella que minimiza el
riesgo total y por ende el riesgo condicional para
R(αi/ x) para todo x ↔
Decido wi si P(wi / x)  P(w j / x) para todo j  i

P(wi /x) es la probabilidad condicional de que la
acción αi es correcta. Para minimizar el riesgo tengo
que elegir i que maximiza P(wi /x).
Regla de decisión Bayesiana
λ 12 = λ21 =1
λ11 = λ22 = 0
w1
p (x / w1 )  P( w2 )
p(x / w2 ) 
P( w1 )
w2
p(x/w1 )
p(x/w2 )
P(w2 )
P(w1 )
R2
R1
R2
R1
R2
Ri: región donde se decide wi
No tiene porque ser conexa.
Criterio minimax




En muchos casos es imposible prever la evolución o
los cambios de probabilidades a priori, se busca que
el clasificador funciones correctamente sobre un
rango de priors.
Se diseña el clasificador para que el riesgo en el peor
caso (entre todos los priors posibles) sea mínimo:
estimador minimax
F: espacio de características (Rd)
F  Ri : región en donde el clasificador decide wi
Riesgo Minimax
Considerem os :
C  w1 , w2 
R1  R2  F
R   R( (x) / x) p(x)dx 
Rd
R
 R(
R1
1
/ x) p(x)dx 
 R(
2
/ x) p (x)dx
R2
R( i / x) p (x)  i1 P( w1 / x) p(x)  i 2 P( w2 / x) p(x)
R( i / x) p (x)  i1 p (x / w1 ) P( w1 )  i 2 p (x / w2 ) P( w2 )
Riesgo Minimax
R( i / x) p(x)  i1 p(x / w1 )  i 2 p(x / w2 )P( w1 )  i 2 p(x / w2 )
2
2
R  P( w1 )  (i1 p(x / w1 )  i 2 p(x / w2 ))dx    i 2 p(x / w2 )dx
i 1 Ri
i 1 Ri
R  AP ( w1 )  B
El objetivo es encontrar una regla de decisión (ej.
Determinar R1 y R2) tal que B mínimo y A=0 . Si
podemos encontrar una regla de decisión A=0 la
regla es independiente de las priors.
Riesgo Minimax



Si esta regla existe el riesgo minimax es B*
Rminimax= B* minB(R1 , R2 ) sujeto a A(R1 y R2 )=0
Aún en caso de existir el clasificador minimax, puede
ser difícil encontrar cuando las distribuciones son
complejas.
B*
Riesgo mínimo de
Bayes
P(w1)
Funciones Discriminantes,
Superficies de Decisión
C  w1 , w2 ...wc 
g1(x) g2(x)
x  x1 , x2 ..xd 
Costo
Acción
gc(x)
T
funciones discrimina ntes : g i (x) i  1...c
x1
x2
xd
Decimos que el clasificad or asigna el vector x a la clase wi
si i  j gi (x)  g j (x)
Un clasificador se puede representar como una red que
calcula i funciones discriminantes y elige la clase que
corresponde al discriminante mayor.
Representación Clasificador Bayesiano
Caso genérico : g i (x)   R( i / x)
f : R  R monótona creciente g i i 1 y  f ( g i ) conducen a
c
la misma clasificac ión. La idea es elegir f para simplificar
analítica o computacionalmente.
p (x / wi ) P( wi )
Ej : g i (x)  P( wi / x) 
tasa mínima de error
p ( x)
g i (x)  p(x / wi ) P( wi )
g i (x)  ln p (x / wi )  ln P( wi )
Funciones Discriminantes para
Densidades Normales:

¿Porqué un interés especial en la ley normal?
 Teorema central del límite
 Analíticamente manejable

Tendencia actual: trabajar con estadística no
paramétrica (simulaciones, potencia de cálculo)
Distribución Normal




Clasificación basada en modelos estadísticos
determinados por momentos de primer y segundo
orden.
Problema práctico descripto por conjunto de
entrenamiento {x,w}, no tenemos conocimiento de las
propiedades estocásticas de la fuente de patrones.
Enfoque pragmático: Modelar p(x/w) usando
distribución normal y evaluamos si hipótesis es
sensible.
Encontrar clasificador óptimo para p(x/w) normal.
Densidad Normal Multivariada
 x1 
1
 1



T 1
x    p ( x) 
exp

(
x

μ
)

(
x

μ
)
 2

(2 ) d / 2 (det Σ)1/ 2
 xd 
μ  E (x)   xp(x)dx Valor medio de x

Rd

Σ  E (x  μ)(x  μ)T   (x  μ)(x  μ)T p (x)dx
Rd
Σ : M atriz de covarianza de x
r 2  (x  μ)T  1 (x  μ) Distancia cuadrática de M ahalanobis
Propiedades de Matriz de covarianza
Σ : simétrica  ΣT  Σ, ambas definidas positivas
r  0 x  μ
2
Σ : regular, detΣ  0, detΣT  0,
i  j  ij  cov xi , x j 
i j
 ii  var  xi   0
Valores propios de Σ son definidos positivos.
N(x, μ, Σ) : unimodal, máximo para r 2  0, x  μ
Elipsoides Equidensidad
1
 1

T 1
p
exp

(
x

μ
)

(
x

μ
)
 2

(2 ) d / 2 (det Σ)1/ 2
d
1


2
r  2ln( p)  ln( 2 )  ln(det Σ)
2
2


r 2  (x  μ)T  1 (x  μ)  cte.
Superfieic e cuadrática en un espacio d - dimensiona l
d  2 : elipse
d  3 : elipsoide ó hiperboloide con centro en μ
0.04
0.03
0.02
0.01
0
20
20
15
15
10
10
5
5
0
0
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
0
2
0
2
4
6
8
10
12
14
0
16
0
2
2


0
2
Σ  I  
2
0



6
8
10
12
 112 0 
Σ
2
 0  22 
16
14
12
10
 11  12 
Σ



 21 22 
4
8
6
4
2
0
0
2
4
6
8
10
12
14
16
14
16
Orientación y tamaño del elipsoide
B : matriz de vectores propios de Σ
D : matriz diagonal de valores propios de Σ
Σ  BDBT
Cambio de coordenada s z  BT (x  μ), transformación compuesta
traslación (origen de coordenada s a μ) y rotación por la matríz B.
 r 2  z T D 1z
d
r2  
1
zi
2
i
i : valores propios
Los ejes del elipsoide estan definidos por los b i y la longitud
de los semiejes por i .
Transformaciones de Blanqueado
Transformación de coordenada s que lleva una distribución
normal arbitraria en una distribución esférica (blanca Σ  I )
A w  BD 1/ 2
Ej : Blanqueado usando Σ  BDBT y Cholesky : Σ  LLT
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
2
0
0
2
4
6
8
10
12
14
16
0
0
2
4
6
8
10
12
14
16
Independencia Estadística - Correlación
Independiente  no correlació n
Caso gaussiano : 2 v.a. conjuntame nte gaussianas si su
co - varianza  0  independencia.
Nota : 2 v.a. pueden ser marginalme nte gaussianas sin
serlo conjuntame nte.
Ej : X v.a. gaussiana X  N( 0 ,1 )
1
Y  UX
U   1,1 P(U  1)  P (U  1) 
2
Y : gaussiana
Independencia Estadística - Correlación
P(Y  t )  P(UX  t )  P( X  t ,U  1)  P( X  t ,U  1)
1
1
P(Y  t )  P( X  t )  P( X  t )  P( X  t )
2
2
E ( XY )  E (UX 2 )  E (U ) E ( X 2 )  0
E ( X 2Y 2 )  E ( X 4 )  3


2
E ( X ) E (Y )  E ( X ) E (U ) E ( X )  E ( X )  1
c/u : es gaussiano no lo son conjuntamente Z  XY
tiene covarianza 0 pero no son independientes.
Combinacio nes lineales de v. a. gaussianas son v.a. gaussianas
2
2
2
2
2
2
Funciones discriminantes cuadráticas
Funciones discrimina ntes para clasificar con menor
tasa de error
g i (x)  ln P(x / wi )  ln P( wi )
Si todas las densidades son normales :
1
d
1
1
g i (x)   (x  μ i )T Σ i (x  μ i )  ln 2  ln(det  i )  ln P( wi )
2
2
2
Matrices de covarianza blancas
Σi   2I
Caso I)
g i ( x)  
x  μi
2 2
2
1
 ln P ( wi )  ln( 2 d )
2
Estas funciones no son lineales pero se pueden hacer :
(x  μ i ) (x  μ i )  x x  2μ i x  μ i μ i
T
T
T
T
xT x : podemos ignorarlo (igual  g i )
g i ( x) 
1
2
μi
T
 wi 
T
x  ln P ( wi ) 

1
2
T
μi μi
2
wi0

g i (x)  w i x  wi 0
T
M odelo adecuado ruido blanco gaussiano no correlacio nado
independiente de la clase con varian za   var(r )  var(x)
superpuesto a los vectores prototipos k
wi  i (filtro apareado)
Superficies de Decisión
sij  x / g i (x)  g j (x)


sij  x /( w i  w j )T x  ( wi 0  w j 0 )  0
Reordenand o :



μ i  μ j  P( wi ) 1
1

T
2
0  2 μ i  μ j  x  
ln
 μ i  μ j 
2

P( w j ) 2
μ

μ


i
j


 w ij 
T



sij  x / w ij (x  x 0ij )  0
T
 x 0 ij

16
14
12
10
8
6
4
2
0
16
0
2
14
12
10
8
6
x0ij
4
2
0
0
2
4
6
8
10
12
14
16
4
6
8
10
12
14
16
Superficies de Decisión
Si P(wi )  P(w j )  x 0ij
Si P(wi )  P(w j )  x 0ij
1
 μ i  μ j 
2
se acerca a μ j
Si  2  μ i μ j  sij menos sensibles a los prioris
(los datos tienen poca incertidum bre  creemos más
en las observacio nes)
Duda
Duda
Clasificador de mínima distancia (Euclideo)
P( wi )
  I - Si los prioris son equiprobables o casi ln
0
P( w j )
1
( P( wi ) 
c
i  1,.....c)
Decido : Asignar x a la clase w / i  arg min x  μ i
*
i
*
i 1..c
El clasificad or euclideo es óptimo para clases con distribución
normal con matrices de covarianza iguales y proporcionales
a la identidad y prioris equiprobables.
Caso II) Σ i  Σ
1
1
T
1
g i (x)   x  μ i  Σ x  μ i   ln det Σ  ln P( wi )
2
2
Redefinimo s :
w i  Σ 1μ i

T
g i (x)  w i x  wi 0 con 
1 T 1
wi 0   μ i Σ μ i  ln P( wi )
2

Las superficies de decisión son hiperplanos (lineales) .
w ij (x  x ij 0 )  0
T
w ij  Σ 1 (μ i  μ j )

P( wi )

ln
(μ i  μ j )
con 
P( w j )
x  1 (μ  μ ) 
j
T
1
 0ij 2 i
(
μ

μ
)
Σ
(μ i  μ j )
i
j

A menos que (μ i  μ j ) sea vector propio de Σ el
hiperplano de separación no va ser ortogonal a (μ i  μ j ).
16
14
12
16
10
14
8
12
6
10
4
8
2
6
0
4
2
0
0
2
4
6
8
10
12
14
16
0
2
4
6
8
10
12
14
16
Duda
Clasificador de Mahalanobis (minima
distancia)
P( w )
 i   - Si los prioris son unifor mes o casi ln
P( wi ) 1
(

P( w j ) c
i
P( w j )
0
i  1,.....c)
g i ( x)  ( x  μ i ) ( x  μ i )  r
T
2
Decido : Asignar x a la clase wi* / i *  arg min g i ( x)
i 1..c
El clasificad or de M ahalanobis es óptimo para clases con
distribución normal con matrices de covarianza iguales y
prioris equiprobables.
 i arbitraria s
Caso III :
g i (x)  x Wi x  w i x  wi 0
T
T
1 1

Wi   2 Σ i

con w i  Σ i1μ i

1 T 1
1
wi 0   μ i Σ i μ i  ln(det Σ i )  ln P ( wi )

2
2
Las superficies de decisión son hipercuádricas :
hiperplanos o pares de hiperplanos, hiperesferas,
hiperelipsoides, hiperparaboloides, hiperboloides.
Duda
Duda


Las regiones de decisión no tienen porqué ser simplemente
conexas.
Ej:
p(x/w2 )
P(w )= P(w )
1
p(x/w1 )
R2

R1
R2
Para el caso de c clases las superficies de decisión son
concatenación de pedazos de cuádricas.
2
Cotas de Error de Clasificación para
Densidades Gaussianas
P(error )   P(error / x) p (x)dx
Decisión Bayesiana (C  w1,w2 )
Decido w1 si P( w1 / x)  P( w2 / x), w2 en otro caso 
P(error / x)  min P( w1 / x), P( w2 / x)
P(error )   min P( w1 / x) p (x), P( w2 / x) p(x)dx
P(error )   min  p (x / w1 ) P( w1 ), p(x / w2 ) P( w2 )dx
El cálculo exacto requiere integració n numérica
(impracticable en dimensión  3)
Cotas de Error para Densidades Gaussianas
Se puede estimar una cota superior del error usando
la desigualda d : a,b  0   0,1 min a,b  a  b1 
Supongamos sin pérdida de generalida d que a  b
a
min a,b  b  b 
b

  0,1
P(error )   P  ( w1 )P1  ( w2 ) p  (x / w1 ) p1  (x / w2 )dx
Ejercicio
M ostrar que si p (x / w1 )  N (μ i , Σ i )

1 
p
(
x
/
w
)
p
(x / w2 )dx  exp( k (  ))
1

con k (  ) 
 (1   )
2
μ 2  μ1 
T
( Σ1  (1   ) Σ 2 ) 1 μ 2  μ1 
1  det(Σ1  (1   ) Σ 2 ) 

 ln 

1  
2  det(Σ1 ) det(Σ 2 ) 

P (error )  min P  ( w1 ) P1  ( w2 ) exp( k (  ))
 0 ,1
  1 
 P ( w1 ) P( w2 ) exp   k   
  2 

Chernoff
Bhattacharyya
Bayesianos- Frecuentistas



¿Cómo clasificamos cuando no conocemos las probabilidades
a priori?
Frecuentistas: no tiene sentido hablar de priors solo tienen
sentido los datos
Discusión epistemológica:



Bayesianos: probabilidad indica grado de creencia no tiene porque haber
un experimento
Frecuentistas: la probabilidad es la frecuencia de ocurrencia de un
evento. Tiene que haber datos y experimento.
Criterio de Neyman-Pearson constituye una alternativa frecuentista al
enfoque Bayesiano.
Teorema de Neyman-Pearson



Enfoque alternativo a la minimización del riesgo de
Bayes para la determinación de la regla de decisión.
Neyman-Pearson: Maximiza la probabilidad de
detección sujeto a una probabilidad de falsa alarma
determinada. No involucra priors.
La elección de uno u otro enfoque depende del
problema. En los sistemas de radar y sonar se utiliza
típicamente Neyman-Pearson mientras que en los
sistemas de comunicación y reconocimiento de
patrones se utiliza el riesgo Bayesiano.
Teorema de Neyman-Pearson
Considerem os test de hipótesis simple :
H 0 : x  f 0 (x) hipótesis nula, " lesión benigna" , normal
H1 : x  f1 (x) evento a detectar, " lesión maligna" , enfermo
Ri : región donde se decide H i i  0 ,1
PFA  probabilidad de falsa alarma 
f
0
f0(x)
f1(x)
R0
R1
(x)dx
R1
PD  probabilidad de detección 
 f (x)dx
1
R1
Al ser las densidades positivas si aumenta PD aumenta PFA
Solo puede ser PD  1 y PFA  0 si las densidades son disjuntas
Criterio de Neyman-Pearson


La regla de decisión se construye para maximizar PD bajo la
restricción PFA≤α (el test de tamaño α de mayor potencia).
Solución: Lema de Neyman-Pearson
Para maximizar PD para una PFA   dada la regla de decisión :
H1
f1 (x) 
Λ(x) 
 donde el umbral  se calcula como :
f 0 ( x) 
H0
PFA 
 f (x)dx 
x: Λ(x) 
0
Este test óptimo es único ( un conjunto de probabilidad
nula bajo H 0 ,H1 )
Detección DC en presencia de ruido
H 0: x[ k ]  n[ k ]
presencia de ruido
H1: x[ k ]  A  n[ k ]) señal en presencia de ruido
f 0 ( x )  N (0,  )
f1 ( x )  N ( A,  )
PFA

 A
 Q ( ) y PD  Q (
)


Regla de decisión : Observado x decido H1 si :
 ( x) 
f1 ( x)

f 0 ( x)
Donde      se elige para maximizar PD sujeto a PFA   .
Receiver Operating Characteristic (ROC)

Una forma de resumir el desempeño de un detector NP es
graficando PD contra PFA .

Cada punto de la curva corresponde a una pareja (PD ,PFA)
para un umbral dado.
Ej : f 0  N ( 0 ,  )
2
f1  N ( 1 ,  )
2
PD
1
ROC determinad a por la " discrimina bilidad"
d

1  0

d
Discriminabilidad depende del diseño del receptor
1 PFA
01  0 11  1   1 roja
02  0 12  .6   1 azul
d1  1 d 2  .4
01  0 11  1  01   11  1
roja
02  0 12  .8  02  1  12  .8 azul
Característica de operación (ROC)
Propiedad intrínseca del detector y
no de los costos elegidos.
PD
1
1 PFA
En la práctica se varia un parámetro
que afecta la regla de decisión y se
grafica los resultados de la tasa de
detecciones contra la tasa de falsa
alarmas.
Términos estadísticos para test de hipótesis
Estadísticos
Ingenieros
Test estadístico y umbral
Detector
Hipótesis nula H0
Hipótesis solo ruido
Hipótesis alternativa H1
Hipótesis señal + ruido
Región crítica
Región con presencia de señal
Error tipo I (decido H1 cuando H0
verdadero)
Falsa alarma
Error tipo II (decido H0 cuando H1
verdadero)
Pérdida
Nivel de significancia o tamaño del
test (α).
Probabilidad de Falsa alarma (PFA)
Probabilidad de Error tipo II (β)
Probabilidad de pérdida(PM)
Potencia del test (1-β)
Probabilidad de detección(PD)
Aplicación ROC a diagnóstico médico
Ej: comparación de dos test de diagnóstico de diferentes laboratorios
Sensibilidad: probabilidad de que un test
resulte positivo cuando la enfermedad
esta presente.
Especificidad: probabilidad que un test
resulte negativo cuando la enfermedad
no está presente
Determinación experimental PD y PFA

Analizo en forma experimental utilizando un conjunto de test.
Predicción +
Predicción -
Clase +
TP
FN
Clase -
FP
TN
Matriz de Confusión o Tabla de contingencia
TP
tasa de detección
TP  FN
FP

tasa de falsas alarmas
FP  TN
PD 
PFA

Graficando ROCs puedo comparar la discriminabilidad para comparar
efectividad de tratamientos distintos.
Construcción de curvas ROC

Curvas ROC no paramétricas (funciones de distribución
empírica ) ó paramétricas (ej. Binormal)
Comparación de ROCs
Curvas ROC empíricas de pruebas diagnósticas distintas con
área bajo la curva similares pero comportamiento distinto.
Comparación de ROCs y AUCs
Imagen: Hastie et al.
Comparación de algoritmos de clasificación distintos
Otras medidas de desempeño
Accuracy :
TP  TN
A
TP  TN  FP  FN
Recall :
TP
R
TP  FN
Precision :
P
F - value :
TP
TP  FP
(1   2 )RP
Fv 
 2P  R
156
844
125
49875
573
427
1868
48132
Descargar