Máxima Verosimilitud y Estimación Bayesiana de Parámetros

Anuncio
Máxima Verosimilitud y Estimación
Bayesiana de Parámetros
Reconocimiento de Patrones – 2013
Duda Capítulo 3
Máxima Verosimilitud y Estimación
Bayesiana de Parámetros

En general no disponemos de toda la información
necesaria para diseñar un clasificador óptimo con los
métodos previamente vistos. Se cuenta con un
conocimiento vago y un conjunto de entrenamiento.

Objetivo: encontrar alguna forma de utilizar esta
información para diseñar o entrenar el clasificador

Estimación de las Priors:



Consideraciones físicas del problema ( fronteras suaves)
Experiencia previa, grado de creencia
Estimación de las densidades p(x/w1):


En general: número de datos insuficiente (maldición de la
dimensionalidad)
Si conocemos o suponemos la familia de densidades como
paramétricas el problema se transforma en un problema de
estimación de parámetros y se reduce significativamente.
Estimación de parámetros- dos enfoques

posibles:


Estimador de Máxima Verosimilitud (MLE) –frecuentistas
Estimación Bayesiana
Estimador de Máxima Verosimilitud



Los parámetros son cantidades determinísticas
desconocidas
La mejor estimación es aquella que maximiza la
probabilidad de obtener las muestras observadas
Ventajas:


Buenas propiedades de convergencia a medida que la
cantidad de muestras de entrenamiento aumenta.
Simple
Estimación Bayesiana



Los parámetros son variables aleatorias con una
cierta distribución a priori.
Las observaciones o datos aportan información
que transforma las probabilidades a priori en
densidades a posteriori.
La observación de muestras adicionales tiene por
efecto concentrar las densidades a posteriori en
picos más definidos (“aprendizaje bayesiano”)
Estimador de Máxima Verosimilitud
C conjuntos de datos D1....Dc clasificad os ( D j  w j )
D j : realizació n de un proceso aleatorio iid.
p (x / w j ) tiene forma paramétrica conocida
Ej : p (x / w j )  N (μ j , Σ j )
Notación para explicitar dependencia : p (x / w j , θ j )
con θ j vector de parámetros desconocid os.
Suponemos : θi , θ j son independientes  i  j
c problemas de estimación desacoplados
Estimador de Máxima Verosimilitud
Di conjunto de muestras , de clase wi  estimar p(x/wi ,θi )
Notación simplificada : D  Di , θ  θi D  x1....x n  x i  R d
n
iid  p( D / θ)   p (x k / θ)
k 1
p ( D / θ) : verosimil itud de θ respecto a D
θˆ  θˆ MLE  arg max p ( D / θ)
θ
valor de θ que más concuerda con las observacio nes.
Estimador de Máxima Verosimilitud
Como la función logaritmic a es creciente estricta :
θˆ  arg max log p( D / θ)
l(θ) : log  verosimili tud
θ
Condición necesaria para el estimador M L :  θ l θˆ  0
 Verificar que es un máximo (Hessiana definida negativa)
 Testear todos los máximos locales para encontrar máximo global
Ej: Gaussiana μ y Σ desconocidas
l (μ,Σ)  log p( D / μ, Σ)
 


1 n
d
l (μ, Σ)    log 2  det(Σ 1 )  (x k  μ)T Σ 1 (x k  μ)
2 k 1
Vamos a buscar los ceros del gradiente con respecto a  y  1
n
1 n
 μ l   Σ (x k  μˆ )  μˆ n   x k
n k 1
k 1
1
M edia muestral
Para calcular el gradiente respecto a  -1 precisamos :
A d  d a.b dx1
a T Ab  traza(a T Ab )  traza( Aba T )

traza( A B)   Ail Bil 
traza( AT B)  B
A
l 1 l 1


traza( AB )  B T
A
traza( AT B)  traza( B T A)  traza( AB T )
d
d
T
d
det A   Aik adj T ( A) ik 
k 1

det( A)  adj T ( A) ij  det A( A1 ) ji
Aij


log det( A)  ( A1 ) ji  ( AT ) ji   A log(det A)  AT
Aij
Ej: Gaussiana μ y Σ desconocidas

1 n
 Σ 1 l    Σ 1 (log( 2 ) d detΣ)   Σ 1 traza Σ 1 (x k  μ)(x k  μ)T
2 k 1
1 n T
 Σ 1 l   Σ  (x k  μ)(x k  μ)T  0
2 k 1
n
1
ˆ   (x  μ)(x  μ)T
Σ
k
k
n k 1
covarianza muestral
μ  μˆ
n
1
ˆ   (x  μˆ )(x  μˆ )T
Σ
n
k
k
n k 1

Propiedades del MLE
Sea θˆ un estimador
sesgo :
b(θˆ )  E (θˆ )  θ
- error sistemático
Si b(θˆ )  0 decimos que θˆ es insesgado
Si lim b(θˆ )  0 decimos que θˆ es asintoticamente insesgado
n 
Ejemplo:
1 n
μˆ n   x k
n k 1
x k iid  N(μ, Σ)
1 n
E (μˆ )   E (x k )  μ  μˆ insesgado
n k 1
n
1
Σˆ n   (x k  μˆ n )(x k  μˆ n )T
n k 1


1
1
1
1
T
T
T
T
E ( Σˆ n )    E (x k x k )  2  E (x i x j )   E (x k x i )   E (x k x i )
n k 
n ij
n i
n i

Ejemplo:
 μ)   E x x   μμ
1 
1
2

ˆ
E ( Σ )    Σ  μμ  nΣ  n μμ   Σ  μμ n 
n
n
n
E (x  μ)(x
i
T
T
j
i
j
T
n
k

T
2
2
 1
 n 1 
ˆ
E ( Σ n )  1   Σ  
Σ  Σ
 n
 n 
sesgado

ˆΣ : 


n
asintotica
mente
insesgado


T
T

Propiedades de un estimador


Independientemente de si asumimos θ determinista o aleatorio,
su estimación es una variable aleatoria función de las
observaciones.
Para caracterizar un estimador se calcula su sesgo, su varianza
y su error cuadrático medio.


   
2

ˆ
ˆ
MSE (θ )  E θ  θ 


2
ˆ
ˆ
ˆ
var θ  E θ  E θ
b θˆ  E θˆ  θ




Una medida global del comportamiento la brinda el MSE
Compromiso sesgo-varianza de un
estimador
      
 
            
2

ˆ
ˆ
MSE (θ )  E θ  θ   E θˆ  E θˆ  E θˆ  θ


2
ˆ
ˆ
ˆ
ˆ
ˆ
 var θ  2 E θ  θ E θ  E θ  E θ  θ


MSE (θˆ)  var θˆ  b 2 θˆ
n
 
 
ˆ  b 2 θˆ
ˆ) 
MSE (θ
var
θ

i
i
i 1
2
Comparación MLE –Estimación
Bayesiana

Fenómeno general: Procedimientos con mayor
flexibilidad para adaptarse a los datos (mayor número de
parámetros libres) tienden a tener menos bias pero mayor
varianza.

Ejemplo : Regresión Pag- 467 Duda.
Compromiso Bias- Varianza
Fig. 2.11 Hastie
Propiedades de un estimador



Obtener estimadores insesgados es deseable.
Compromiso sesgo varianza: En algunos casos el introducir un
pequeño sesgo genera una disminución significativa de la
varianza y por lo tanto del error cuadrático medio.
El límite de Cramer-Rao nos da, para un problema de
estimación determinado, la mínima varianza de cualquier
estimador insesgado.
Varianza mínima de un estimador
insesgado
Teorema : Cota de Cramer - Rao
Sea p(x/θ) una pdf tal que : Ex/θ  θ ln p(x/θ)  0 θ
Ex/θ  f (x)    f (x) p(x/θ)dx

Sea θˆ un estimador insesgado de θ  C θˆ  I 1 θ   0
 2

donde Iθ ij   Ex/θ 
ln p(x/θ)
 θi θ j

Iθ  : M atriz de Fisher C θˆ : M atriz de Covarianza

Estimador eficiente

Un estimador insesgado es eficiente si:
ˆ )  I (θ
ˆ)
C (θ

  
ˆ )  I (θ
ˆ)
var( i )  C (θ
ii
ii

Def: Un estimador asintóticamente insesgado es
asintóticamente eficiente si:

C (θˆ ) n
 I 1 θ
asintóticamente de mínima varianza
Propiedad asintótica del MLE
Cuando n   el estimador de máxima verosimil itud θˆ ML


de θ sigue una ley gaussiana N θ,I 1 θ 
θˆ ML es asintóticamente insesgago y asintóticamente eficiente
En problemas de reconocimiento de patrones con conjunto
de entrenamiento grandes los estimadores asintóticamente
insesgados son aceptables.
Si tenemos modelos paramétricos adecuados que ajustan a
los datos el estimador MLE da resultados muy buenos.
¿Qué pasa si asumimos un modelo no ajustado?
p( x / w1 )  N (3,1) azul
p( x / w2 )  N (6,10) verde - distribución real de los datos
p( x / w2 )  N ( ˆ ,1) roja - modelo asumido ˆ
umbral propuesto: 4,5
umbral óptimo  5
Estimación Bayesiana


1.
2.
3.
Estimación de densidades utilizando toda la
información disponible: Prioris y Datos.
Hipótesis:
p(x/θ): conocida pero no se conoce el vector de
parámetros en forma exacta.
Conocimiento a priori de θ en p(θ).
Resto del conocimiento a cerca de θ está
contenido en el conjunto D de muestras tomadas
en forma iid de acuerdo a p(x) desconocida.
Estimación Bayesiana
c
D   Di
Di  D j  
1
Di  wi : muestras de entrenamie nto clase i
D : conjunto de muestras de entrenamie nto
x : una muestra sin clasificar
p (x / wi , D) P( wi / D)
P( wi / x, D)  c
 p(x / w j , D) P( w j / D)
j 1
supondremos : P( wi / D)  P( wi ) prioris conocidas
i  j las muestras Di no tienen influencia sobre p(x / w j , D) :
esto es p(x / w j , D)  p(x / w j , D j ) j
 P(wi / x, D) 
p(x / wi , Di ) P(wi )
c
 p(x / w , D ) P(w )
j 1
j
j
j
Podemos tratar cada clase de forma independiente
para aliviar notación : Di  D, wi  w
p(x / w, D) P(w)
P(w / x, D) 
p(x / D)
Distribución de parámetros

Supondremos que la densidad p(x) es paramétrica de
forma conocida y parámetros θ desconocidos ( p(x/ θ)
completamente conocida)

La observación de muestras aporta nueva información
y da lugar a la probabilidad a posteriori p(θ/D) que
esperamos que sea más en pico en torno al verdadero
valor de θ que el prior p(θ) conocida.
Distribución de parámetros
Objetivo: Encontrar p(x/D) que es lo más cerca que
puedo estar de p(x).
p(x / D)   p (x, θ / D)dθ
p(x, θ / D)  p(x / θ, D) p(θ / D)
 p (x / D)   p (x / θ) p (θ / D)dθ
usando Bayes :
p(θ / D) 
p ( D / θ) p (θ)
 p( D / θ) p(θ)dθ
Ejemplo:
p ( x /  )  N (  ,  2 )  2 : conocido ,
prior sobre  p (  )  N (  0 ,  0 ),
2
 0 : lo que creemos
 0 2 : incertidum bre
p( D /  ) p( )
p(  / D) 
 p( D /  ) p( )d
D  x1 ,......xn 
independientes
 1  n  xk   2    0 2  

p (  / D)    p (xk /  ) p (  )   ´exp    

2
2

 2 k 1 

k 1
0



n
 1  n


  

1
1
2
0

  ´´exp   2  2    2 2  xk  2   
 2  
0 
 0   
  k 1


n
2

1
1    n  
 
p(  / D) 
exp  
2  n
 2   n  
Identificando coeficient es :
n
1
 1


 2  2  2
 n
0

  n  nˆ n   0
 n 2  2  0 2
2

n 0
2
ˆ n
0
 n 
2
2
2
2
n 0  
n 0  


2
2


 2 
0
 n n 2   2
0

i)  n  0 : al aumentar la cantidad de muestras disminuye incertidum bre
n 
ii)  n  ˆ n : la influencia del prior disminuye
n 
iii) si  0     n  ˆ n : confiamos más en los datos que en los priors
si  0  0   n   0 : tenemos confianza   n   0 .
Fig. 3.2 Duda
Obtenida densidad a posteriori, podemos calcular p(x/D)
p(x/D)   p(x/)p(/D)d
 1  x   2    n 2  
d

exp   


2
2
 2



2  n
n



 1  x   n 2 
1


f ( ,  n , x) exp  
2 
2
2 n
 2  n 
2
2
2
 1  2  2 



x



n 
n
n  
donde f ( ,  n , x)   exp  


d
2
2

 2  2 2 

 n 
R
n



 1     2 
 n


 d  2  con  
f ( ,  n , x)   exp  
2
2


2






R


n
1
2 
1

p( x / D)  N (  n ,    n )
2
2
 n : incertidum bre en la estimación de  n
 : incertidum bre nuestra medida
Esto es válido para cada clase,
determinam os p(x/w j ,D j ) j  1..c
Clasificac ión : P ( w j / x, D)  kp( x / w j , D j ) P ( w j )
Decido x  w j* con j*  a rg max P ( w j / x, D)
j
Estimación Bayesiana



A diferencia de MLE que para la estimación de
p(x/D) tiene en cuenta una estimación puntual de
los parámetros en la estimación Bayesiana integra
la densidad a posteriori p(θ/D) .
Para el caso gaussiano multivariado el resultado
es análogo considerando vectores medias y
matrices covarianza.
¿Comó hacemos los cálculos con densidades
cualesquiera?
Aprendizaje Bayesiano Recursivo
Incremental
n
D  x1...x n  iid  p(x/θ)  p( D / θ)   p (x k / θ)
i 1
p (θ / D) 
p ( D / θ) p (θ)
 p( D / θ) p(θ)dθ
Notemos : D i  x1...x i  i  1,...n
p ( D n / θ)  p ( D n 1 / θ) p(x n / θ)
p (θ / D 0 )  p (θ) prior
 p (θ / D n ) 
p (x n / θ) p (θ / D n 1 )
n 1
p
(
x
/
θ
)
p
(
θ
/
D
)dθ
 n
Vínculo con el MLE
Si pD/θ  tiene un pico pronunciado en θ  θˆ
y p θˆ  0 con pθ  suave en un entorno de θˆ ,
como pθ / D   pD/θ  pθ ,
pθ / D  también t iene un pico pronunciado en θˆ

p (x / D)   p (x / θ) pθ / D dθ  p (x / θˆ ) verosimilitud
Estimador MAP
θˆ MAP  arg max p (θ / D)  arg max ln p ( D / θ)  ln p(θ)
θ

si p(θ)  cte  θˆ MAP  θˆ MLE
El estimador M AP no está bien visto por los Bayesianos
ya que reduce una densidad a un valor determinis ta
Overfitting y rol del prior
Considerem os a modo de ejemplo :
Se tiene una base ortonormal de funciones g1,....g m 
y un conjunto de medidas yi  f(xi ) i  1.....n
Objetivo : encontrar un vector θ  1..... m  tal que :
T
m
yi  f(xi )    j g j ( xi ) " explique bien" los datos.
j1
Se busca favorecer la descripción más sencilla : una forma
2
es minimizand o θ .
 g1 ( x1 ).......g m ( x1 ) 


 g1 ( x2 ).......g m ( x2 ) 
G 
........................... 


 g ( x ).......g ( x ) 
m
n 
 1 n
Notación : Y   y1 ,..... yn 
T
M odelo : Y - Gθ  N (0,  d I )  p ( D / θ)
2
Prior : θ  N (0,  m I )  p (θ)
2
θˆ MAP  arg max ln p ( D / θ)  ln p (θ)
θ


1
1
T
T
ˆθ
(Y  Gθ) (Y  Gθ) 
θ θ
MAP  arg max 
2
2
θ
2 m
 2 d

 1

1
1 
T
T
 0   2 G Y  2 G Gθ  2 θ
θ
d
m 
 d
d

m
G G   I θˆ
T

2
MAP
 GT Y

T
2 1
T
ˆθ

G
G


I
G
Y
MAP
El término  θ y por ende el prior, tiene un efecto de
2
2
regulariza ción/ estabilización de la solución, evitando el
overfitting a los datos de entrenamie nto. Si G T G está mal
condiciona da un pequeño cambio en los datos Y da lugar a un
θˆ
completamente distinto. Al sumar 2 I disminuye este efecto
MAP
y la solución se vuelve más estable.
Comparación MLE –Estimación
Bayesiana


1.
2.
3.
Para prioris razonables ambas soluciones son equivalentes cuando n →∞.
¿Qué pasa con conjunto de datos limitados?
Complejidad:
1.
MLE: Cálculo diferencial , métodos gradiente.
2.
Bayesiano: Integración multidimensional.
Interpretabilidad:
1.
MLE: más fácil de intrepretar.
2.
Bayesiano: promedio ponderado de los modelos, refleja incertidumbre.
Confianza en la información a priori.
1.
MLE: asume la forma paramétrica original
2.
Bayesiano: no asume la forma paramétrica original. Ej gaussiana
varianza conocida.
Descargar