Máxima Verosimilitud y Estimación Bayesiana de Parámetros Reconocimiento de Patrones – 2013 Duda Capítulo 3 Máxima Verosimilitud y Estimación Bayesiana de Parámetros En general no disponemos de toda la información necesaria para diseñar un clasificador óptimo con los métodos previamente vistos. Se cuenta con un conocimiento vago y un conjunto de entrenamiento. Objetivo: encontrar alguna forma de utilizar esta información para diseñar o entrenar el clasificador Estimación de las Priors: Consideraciones físicas del problema ( fronteras suaves) Experiencia previa, grado de creencia Estimación de las densidades p(x/w1): En general: número de datos insuficiente (maldición de la dimensionalidad) Si conocemos o suponemos la familia de densidades como paramétricas el problema se transforma en un problema de estimación de parámetros y se reduce significativamente. Estimación de parámetros- dos enfoques posibles: Estimador de Máxima Verosimilitud (MLE) –frecuentistas Estimación Bayesiana Estimador de Máxima Verosimilitud Los parámetros son cantidades determinísticas desconocidas La mejor estimación es aquella que maximiza la probabilidad de obtener las muestras observadas Ventajas: Buenas propiedades de convergencia a medida que la cantidad de muestras de entrenamiento aumenta. Simple Estimación Bayesiana Los parámetros son variables aleatorias con una cierta distribución a priori. Las observaciones o datos aportan información que transforma las probabilidades a priori en densidades a posteriori. La observación de muestras adicionales tiene por efecto concentrar las densidades a posteriori en picos más definidos (“aprendizaje bayesiano”) Estimador de Máxima Verosimilitud C conjuntos de datos D1....Dc clasificad os ( D j w j ) D j : realizació n de un proceso aleatorio iid. p (x / w j ) tiene forma paramétrica conocida Ej : p (x / w j ) N (μ j , Σ j ) Notación para explicitar dependencia : p (x / w j , θ j ) con θ j vector de parámetros desconocid os. Suponemos : θi , θ j son independientes i j c problemas de estimación desacoplados Estimador de Máxima Verosimilitud Di conjunto de muestras , de clase wi estimar p(x/wi ,θi ) Notación simplificada : D Di , θ θi D x1....x n x i R d n iid p( D / θ) p (x k / θ) k 1 p ( D / θ) : verosimil itud de θ respecto a D θˆ θˆ MLE arg max p ( D / θ) θ valor de θ que más concuerda con las observacio nes. Estimador de Máxima Verosimilitud Como la función logaritmic a es creciente estricta : θˆ arg max log p( D / θ) l(θ) : log verosimili tud θ Condición necesaria para el estimador M L : θ l θˆ 0 Verificar que es un máximo (Hessiana definida negativa) Testear todos los máximos locales para encontrar máximo global Ej: Gaussiana μ y Σ desconocidas l (μ,Σ) log p( D / μ, Σ) 1 n d l (μ, Σ) log 2 det(Σ 1 ) (x k μ)T Σ 1 (x k μ) 2 k 1 Vamos a buscar los ceros del gradiente con respecto a y 1 n 1 n μ l Σ (x k μˆ ) μˆ n x k n k 1 k 1 1 M edia muestral Para calcular el gradiente respecto a -1 precisamos : A d d a.b dx1 a T Ab traza(a T Ab ) traza( Aba T ) traza( A B) Ail Bil traza( AT B) B A l 1 l 1 traza( AB ) B T A traza( AT B) traza( B T A) traza( AB T ) d d T d det A Aik adj T ( A) ik k 1 det( A) adj T ( A) ij det A( A1 ) ji Aij log det( A) ( A1 ) ji ( AT ) ji A log(det A) AT Aij Ej: Gaussiana μ y Σ desconocidas 1 n Σ 1 l Σ 1 (log( 2 ) d detΣ) Σ 1 traza Σ 1 (x k μ)(x k μ)T 2 k 1 1 n T Σ 1 l Σ (x k μ)(x k μ)T 0 2 k 1 n 1 ˆ (x μ)(x μ)T Σ k k n k 1 covarianza muestral μ μˆ n 1 ˆ (x μˆ )(x μˆ )T Σ n k k n k 1 Propiedades del MLE Sea θˆ un estimador sesgo : b(θˆ ) E (θˆ ) θ - error sistemático Si b(θˆ ) 0 decimos que θˆ es insesgado Si lim b(θˆ ) 0 decimos que θˆ es asintoticamente insesgado n Ejemplo: 1 n μˆ n x k n k 1 x k iid N(μ, Σ) 1 n E (μˆ ) E (x k ) μ μˆ insesgado n k 1 n 1 Σˆ n (x k μˆ n )(x k μˆ n )T n k 1 1 1 1 1 T T T T E ( Σˆ n ) E (x k x k ) 2 E (x i x j ) E (x k x i ) E (x k x i ) n k n ij n i n i Ejemplo: μ) E x x μμ 1 1 2 ˆ E ( Σ ) Σ μμ nΣ n μμ Σ μμ n n n n E (x μ)(x i T T j i j T n k T 2 2 1 n 1 ˆ E ( Σ n ) 1 Σ Σ Σ n n sesgado ˆΣ : n asintotica mente insesgado T T Propiedades de un estimador Independientemente de si asumimos θ determinista o aleatorio, su estimación es una variable aleatoria función de las observaciones. Para caracterizar un estimador se calcula su sesgo, su varianza y su error cuadrático medio. 2 ˆ ˆ MSE (θ ) E θ θ 2 ˆ ˆ ˆ var θ E θ E θ b θˆ E θˆ θ Una medida global del comportamiento la brinda el MSE Compromiso sesgo-varianza de un estimador 2 ˆ ˆ MSE (θ ) E θ θ E θˆ E θˆ E θˆ θ 2 ˆ ˆ ˆ ˆ ˆ var θ 2 E θ θ E θ E θ E θ θ MSE (θˆ) var θˆ b 2 θˆ n ˆ b 2 θˆ ˆ) MSE (θ var θ i i i 1 2 Comparación MLE –Estimación Bayesiana Fenómeno general: Procedimientos con mayor flexibilidad para adaptarse a los datos (mayor número de parámetros libres) tienden a tener menos bias pero mayor varianza. Ejemplo : Regresión Pag- 467 Duda. Compromiso Bias- Varianza Fig. 2.11 Hastie Propiedades de un estimador Obtener estimadores insesgados es deseable. Compromiso sesgo varianza: En algunos casos el introducir un pequeño sesgo genera una disminución significativa de la varianza y por lo tanto del error cuadrático medio. El límite de Cramer-Rao nos da, para un problema de estimación determinado, la mínima varianza de cualquier estimador insesgado. Varianza mínima de un estimador insesgado Teorema : Cota de Cramer - Rao Sea p(x/θ) una pdf tal que : Ex/θ θ ln p(x/θ) 0 θ Ex/θ f (x) f (x) p(x/θ)dx Sea θˆ un estimador insesgado de θ C θˆ I 1 θ 0 2 donde Iθ ij Ex/θ ln p(x/θ) θi θ j Iθ : M atriz de Fisher C θˆ : M atriz de Covarianza Estimador eficiente Un estimador insesgado es eficiente si: ˆ ) I (θ ˆ) C (θ ˆ ) I (θ ˆ) var( i ) C (θ ii ii Def: Un estimador asintóticamente insesgado es asintóticamente eficiente si: C (θˆ ) n I 1 θ asintóticamente de mínima varianza Propiedad asintótica del MLE Cuando n el estimador de máxima verosimil itud θˆ ML de θ sigue una ley gaussiana N θ,I 1 θ θˆ ML es asintóticamente insesgago y asintóticamente eficiente En problemas de reconocimiento de patrones con conjunto de entrenamiento grandes los estimadores asintóticamente insesgados son aceptables. Si tenemos modelos paramétricos adecuados que ajustan a los datos el estimador MLE da resultados muy buenos. ¿Qué pasa si asumimos un modelo no ajustado? p( x / w1 ) N (3,1) azul p( x / w2 ) N (6,10) verde - distribución real de los datos p( x / w2 ) N ( ˆ ,1) roja - modelo asumido ˆ umbral propuesto: 4,5 umbral óptimo 5 Estimación Bayesiana 1. 2. 3. Estimación de densidades utilizando toda la información disponible: Prioris y Datos. Hipótesis: p(x/θ): conocida pero no se conoce el vector de parámetros en forma exacta. Conocimiento a priori de θ en p(θ). Resto del conocimiento a cerca de θ está contenido en el conjunto D de muestras tomadas en forma iid de acuerdo a p(x) desconocida. Estimación Bayesiana c D Di Di D j 1 Di wi : muestras de entrenamie nto clase i D : conjunto de muestras de entrenamie nto x : una muestra sin clasificar p (x / wi , D) P( wi / D) P( wi / x, D) c p(x / w j , D) P( w j / D) j 1 supondremos : P( wi / D) P( wi ) prioris conocidas i j las muestras Di no tienen influencia sobre p(x / w j , D) : esto es p(x / w j , D) p(x / w j , D j ) j P(wi / x, D) p(x / wi , Di ) P(wi ) c p(x / w , D ) P(w ) j 1 j j j Podemos tratar cada clase de forma independiente para aliviar notación : Di D, wi w p(x / w, D) P(w) P(w / x, D) p(x / D) Distribución de parámetros Supondremos que la densidad p(x) es paramétrica de forma conocida y parámetros θ desconocidos ( p(x/ θ) completamente conocida) La observación de muestras aporta nueva información y da lugar a la probabilidad a posteriori p(θ/D) que esperamos que sea más en pico en torno al verdadero valor de θ que el prior p(θ) conocida. Distribución de parámetros Objetivo: Encontrar p(x/D) que es lo más cerca que puedo estar de p(x). p(x / D) p (x, θ / D)dθ p(x, θ / D) p(x / θ, D) p(θ / D) p (x / D) p (x / θ) p (θ / D)dθ usando Bayes : p(θ / D) p ( D / θ) p (θ) p( D / θ) p(θ)dθ Ejemplo: p ( x / ) N ( , 2 ) 2 : conocido , prior sobre p ( ) N ( 0 , 0 ), 2 0 : lo que creemos 0 2 : incertidum bre p( D / ) p( ) p( / D) p( D / ) p( )d D x1 ,......xn independientes 1 n xk 2 0 2 p ( / D) p (xk / ) p ( ) ´exp 2 2 2 k 1 k 1 0 n 1 n 1 1 2 0 ´´exp 2 2 2 2 xk 2 2 0 0 k 1 n 2 1 1 n p( / D) exp 2 n 2 n Identificando coeficient es : n 1 1 2 2 2 n 0 n nˆ n 0 n 2 2 0 2 2 n 0 2 ˆ n 0 n 2 2 2 2 n 0 n 0 2 2 2 0 n n 2 2 0 i) n 0 : al aumentar la cantidad de muestras disminuye incertidum bre n ii) n ˆ n : la influencia del prior disminuye n iii) si 0 n ˆ n : confiamos más en los datos que en los priors si 0 0 n 0 : tenemos confianza n 0 . Fig. 3.2 Duda Obtenida densidad a posteriori, podemos calcular p(x/D) p(x/D) p(x/)p(/D)d 1 x 2 n 2 d exp 2 2 2 2 n n 1 x n 2 1 f ( , n , x) exp 2 2 2 n 2 n 2 2 2 1 2 2 x n n n donde f ( , n , x) exp d 2 2 2 2 2 n R n 1 2 n d 2 con f ( , n , x) exp 2 2 2 R n 1 2 1 p( x / D) N ( n , n ) 2 2 n : incertidum bre en la estimación de n : incertidum bre nuestra medida Esto es válido para cada clase, determinam os p(x/w j ,D j ) j 1..c Clasificac ión : P ( w j / x, D) kp( x / w j , D j ) P ( w j ) Decido x w j* con j* a rg max P ( w j / x, D) j Estimación Bayesiana A diferencia de MLE que para la estimación de p(x/D) tiene en cuenta una estimación puntual de los parámetros en la estimación Bayesiana integra la densidad a posteriori p(θ/D) . Para el caso gaussiano multivariado el resultado es análogo considerando vectores medias y matrices covarianza. ¿Comó hacemos los cálculos con densidades cualesquiera? Aprendizaje Bayesiano Recursivo Incremental n D x1...x n iid p(x/θ) p( D / θ) p (x k / θ) i 1 p (θ / D) p ( D / θ) p (θ) p( D / θ) p(θ)dθ Notemos : D i x1...x i i 1,...n p ( D n / θ) p ( D n 1 / θ) p(x n / θ) p (θ / D 0 ) p (θ) prior p (θ / D n ) p (x n / θ) p (θ / D n 1 ) n 1 p ( x / θ ) p ( θ / D )dθ n Vínculo con el MLE Si pD/θ tiene un pico pronunciado en θ θˆ y p θˆ 0 con pθ suave en un entorno de θˆ , como pθ / D pD/θ pθ , pθ / D también t iene un pico pronunciado en θˆ p (x / D) p (x / θ) pθ / D dθ p (x / θˆ ) verosimilitud Estimador MAP θˆ MAP arg max p (θ / D) arg max ln p ( D / θ) ln p(θ) θ si p(θ) cte θˆ MAP θˆ MLE El estimador M AP no está bien visto por los Bayesianos ya que reduce una densidad a un valor determinis ta Overfitting y rol del prior Considerem os a modo de ejemplo : Se tiene una base ortonormal de funciones g1,....g m y un conjunto de medidas yi f(xi ) i 1.....n Objetivo : encontrar un vector θ 1..... m tal que : T m yi f(xi ) j g j ( xi ) " explique bien" los datos. j1 Se busca favorecer la descripción más sencilla : una forma 2 es minimizand o θ . g1 ( x1 ).......g m ( x1 ) g1 ( x2 ).......g m ( x2 ) G ........................... g ( x ).......g ( x ) m n 1 n Notación : Y y1 ,..... yn T M odelo : Y - Gθ N (0, d I ) p ( D / θ) 2 Prior : θ N (0, m I ) p (θ) 2 θˆ MAP arg max ln p ( D / θ) ln p (θ) θ 1 1 T T ˆθ (Y Gθ) (Y Gθ) θ θ MAP arg max 2 2 θ 2 m 2 d 1 1 1 T T 0 2 G Y 2 G Gθ 2 θ θ d m d d m G G I θˆ T 2 MAP GT Y T 2 1 T ˆθ G G I G Y MAP El término θ y por ende el prior, tiene un efecto de 2 2 regulariza ción/ estabilización de la solución, evitando el overfitting a los datos de entrenamie nto. Si G T G está mal condiciona da un pequeño cambio en los datos Y da lugar a un θˆ completamente distinto. Al sumar 2 I disminuye este efecto MAP y la solución se vuelve más estable. Comparación MLE –Estimación Bayesiana 1. 2. 3. Para prioris razonables ambas soluciones son equivalentes cuando n →∞. ¿Qué pasa con conjunto de datos limitados? Complejidad: 1. MLE: Cálculo diferencial , métodos gradiente. 2. Bayesiano: Integración multidimensional. Interpretabilidad: 1. MLE: más fácil de intrepretar. 2. Bayesiano: promedio ponderado de los modelos, refleja incertidumbre. Confianza en la información a priori. 1. MLE: asume la forma paramétrica original 2. Bayesiano: no asume la forma paramétrica original. Ej gaussiana varianza conocida.