Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012) 1 Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por Máxima Verosimilitud (Marzo 2012) Iván López Espejo Deducción de la estimación por máxima verosimilitud de los parámetros correspondientes a las distribuciones de probabilidad de un modelo probabilístico generativo de clasificación gaussiano de 2 clases e iguales matrices de covarianza con el fin de calcular posteriormente el hiperplano de decisión para la clasificación de muestras entrantes al sistema. I. INTRODUCCIÓN E trabajo se deduce la estimación por máxima verosimilitud de los parámetros correspondientes a las distribuciones de probabilidad de un modelo probabilístico generativo de clasificación gaussiano de = ܭ2 clases e iguales matrices de covarianza. Una vez estimados estos, es posible calcular el hiperplano de decisión en base a la función logística sigmoidal. Calculado este, es posible clasificar una nueva muestra de entrada al sistema en una de las dos clases posibles sin más que estudiar la probabilidad de pertenencia a cada una de las clases a partir de la anterior función logística. Para completar el trabajo, a partir de los resultados obtenidos, se realiza una implementación en MatLab con la que llevar a cabo una experimentación práctica. N ESTE ே ሺ࢚|Π, ࣆଵ , ࣆ , ሻ = ෑሾࣨሺ࢞ |ࣆଵ , ሻΠሿ௧ ሾࣨሺ࢞ |ࣆ , ሻሺ1 − Πሻሿሺଵି௧ሻ , ୀଵ donde, como se puede observar, sólo las probabilidades conjuntas de las muestras que pertenecen a su clase pesan en el anterior baremo. Los parámetros que deseamos estimar a continuación por máxima verosimilitud son las probabilidades a priori de cada clase, las medias de cada una de ellas y su matriz de covarianza. Para simplificar el cálculo, optimizamos sobre el logaritmo de la función de verosimilitud, pues su monotonía no cambia tras este tipo de composición: ே log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ = ݐ logሺࣨሺ࢞ |ࣆଵ, ሻΠሻ + + ሺ1 − ݐ ሻ log൫ࣨሺ࢞ |ࣆ , ሻሺ1 − Πሻ൯, ୀଵ II. DESARROLLO Partimos de poseer un conjunto de ܰ muestras agrupables en dos clases según sendas distribuciones gaussianas. Para cada muestra, además, se tiene un valor de etiqueta, ݐ , que indica a priori la pertenencia de dicha muestra a una clase, es decir, ሼ࢞ , ݐ ሽ, 0 ݐ = ൜ 1 ݊ = 1,2, … , ܰ, ⇔ ࢞ ∈ ∁ , ⇔ ࢞ ∈ ∁ଵ donde, como se ve, ݐ toma el valor 0 si la muestra ࢞ pertenece a la clase 0 (∁ ) o el valor 1 si pertenece a la clase 1 (∁ଵ ). La probabilidad a priori de la primera clase es ܲሺ∁ଵ ሻ = Π, de tal forma que, como sólo se poseen dos clases, la probabilidad a priori de la segunda es su complementario, es decir, ܲሺ∁ ሻ = ሺ1 − Πሻ. Dado que hemos dicho que la densidad de probabilidad condicional de las muestras dada la clase se modela como una distribución gaussiana, las probabilidades conjuntas de las muestras y las clases se expresan, a partir de la Regla de Bayes, como ܲሺ࢞ , ∁ ሻ = ܲሺ࢞ |∁ ሻܲሺ∁ ሻ = ࣨሺ࢞ |ࣆ , ሻሺ1 − Πሻ, ܲሺ࢞ , ∁ଵ ሻ = ܲሺ࢞ |∁ଵ ሻܲሺ∁ଵ ሻ = ࣨሺ࢞ |ࣆଵ, ሻΠ. Sea ࢚ = ሺݐଵ, ݐଶ , … , ݐே ሻ் el vector de etiquetas de pertenencia a una clase para las ܰ muestras, la función de verosimilitud se expresa como ୀଵ ே donde la distribución normal multivariada de dos clases se expresa como ࣨሺ࢞ |ࣆ, ሻ = 1 1 exp ൜− ሺ࢞ − ࣆሻ் ିଵ ሺ࢞ − ࣆሻൠ, ଵ/ଶ 2ߨ|| 2 y, en términos logarítmicos como ଵ log ࣨሺ࢞ |ࣆ, ሻ = −log ൬2ߨ||ଶ ൰ − 1 − ሺ࢞ − ࣆሻ் ିଵ ሺ࢞ − ࣆሻ. 2 Sustituyendo la anterior expansión en el desarrollo logarítmico de la función de verosimilitud, esta resulta ே ே ୀଵ ୀଵ ே ଵ log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ = ݐ log Π − ݐ log ൬2ߨ||ଶ ൰ − ே 1 − ݐ ሺ࢞ − ࣆଵ ሻ் ିଵ ሺ࢞ − ࣆଵ ሻ + ሺ1 − ݐ ሻ logሺ1 − Πሻ − 2 ே ୀଵ ே ୀଵ 1 − ሺ1 − ݐ ሻ logሺ2ߨ||ଵ/ଶ ሻ − ሺ1 − ݐ ሻ ሺ࢞ − ࣆ ሻ் ିଵ ሺ࢞ − ࣆ ሻ. 2 ୀଵ ୀଵ Derivando con respecto a Π la anterior expresión e igualando a 0 optimizamos para calcular por máxima verosimilitud la probabilidad a priori de la primera clase y, por ende, la de la segunda: Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012) ே ே ୀଵ ୀଵ ߲ log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ 1 1 = 0 ⇒ ݐ = ሺ1 − ݐ ሻ. ߲Π Π 1−Π La anterior derivada es trivial, pues sólo depende de dos términos logarítmicos en la sumatoria de la función logverosimilitud. Vamos a continuación a renombrar las sumatorias en ambos miembros de la anterior derivada. La suma de las etiquetas ݐ nos proporciona la cantidad de muestras pertenecientes a la primera clase, es decir: Como vemos, sólo un término de la sumatoria (el del exponente de la gaussiana correspondiente) depende de la media de la clase 1. Para mayor facilidad de cálculo, expandimos su argumento: = ࢞ ሺ࢞ − ࣆଵ ሻ் ିଵ ሺ࢞ − ࣆଵ ሻ = ࢞ − ࢞ ் ିଵ ࣆଵ − ࣆଵ ் ିଵ ࢞ + ࣆଵ ் ିଵ ࣆଵ . ் ିଵ A continuación tenemos en cuenta las siguientes tres identidades de derivación matricial para resolver el cálculo: ߲ሺ࢞ሻ = ் , ߲࢞ ே ݐ = ܰଵ . ߲ሺ்࢞ ሻ = , ߲࢞ ୀଵ De otro lado, la suma del complementario, ሺ1 − ݐ ሻ, nos proporciona la cantidad de muestras pertenecientes a la clase 0, es decir: ே ሺ1 − ݐ ሻ = ܰ . ୀଵ La suma de ambos términos nos proporciona la cantidad total de muestras, ܰ, de la forma: ܰ = ܰ + ܰଵ . Sustituyendo lo anterior en el resultado de la derivada parcial de la función log-verosimilitud con respecto a Π, llegamos a que la estimación ML de Π es ܰଵ ܰ 1 ܰ ܰ = ⇒ −1 = ⇒ Πିଵ = +1⇒ Π 1−Π Π ܰଵ ܰଵ Nଵ Nଵ ⇒Π= = . N + Nଵ N Como era de esperar, la probabilidad a priori de ∁ଵ es el número de muestras pertenecientes a dicha clase sobre el total, siendo la probabilidad a priori de la clase ∁ su complementario, es decir, ܲሺ∁ ሻ = ሺ1 − Πሻ = 1 − Nଵ N − Nଵ N = = , N N N o, en otras palabras, el número de muestras pertenecientes a ∁ sobre el total. A continuación, llevamos a cabo un procedimiento análogo al anterior para obtener la estimación de la media de la clase 1. Comenzamos derivando la función log-verosimilitud con respecto a ࣆଵ : ߲ log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ =0⇒ ߲ࣆଵ ே ߲ 1 ⇒− ቌ ݐ ሺ࢞ − ࣆଵ ሻ் ିଵ ሺ࢞ − ࣆଵ ሻቍ = 0. ߲ࣆଵ 2 ୀଵ 2 ߲ሺ்࢞ ࢞ሻ = ࢞ + ் ࢞. ߲࢞ Aplicándolas, llegamos a que la anterior derivada finalmente puede ser expresada como ே ݐ ሾ−ሺ࢞ ் ିଵ ሻ் − ିଵ ࢞ + ିଵ ࣆଵ + ሺିଵ ሻ் ࣆଵ ሿ = 0. ୀଵ Puesto que la matriz de covarianza es una matriz simétrica ( = ் ), siendo su inversa también simétrica, ିଵ ࣆଵ + ሺ ିଵ ሻ் ࣆଵ = 2ିଵ ࣆଵ . Además, por la regla de trasposición del producto matricial, tenemos que ሺ࢞ ் ିଵ ሻ் = ሺ ିଵ ሻ் ࢞ . Aplicando además de nuevo la propiedad de simetría, el primer par de monomios del corchete puede simplificarse a su vez como −ሺ࢞ ் ିଵ ሻ் − ିଵ ࢞ = −2ିଵ࢞ . Teniendo esto en cuenta, la estimación ML de ࣆଵ resulta finalmente ே ே ே ୀଵ ୀଵ ݐ 2 ିଵ ሺࣆଵ − ࢞ ሻ = 0 ⇒ ࣆଵ ݐ = ݐ ࢞ ⇒ ୀଵ ⇒ ࣆଵ = ே 1 ݐ ࢞ . ܰଵ ୀଵ Como era de esperar, resulta la media muestral del conjunto de muestras de la clase 1. Procedemos a continuación de forma análoga con el fin de estimar la media de la clase 0: ⇒− ߲ log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ =0⇒ ߲ࣆ ே ߲ 1 ቌ ሺ1 − ݐ ሻ ሺ࢞ − ࣆ ሻ் ିଵ ሺ࢞ − ࣆ ሻቍ = 0. ߲ࣆ 2 ୀଵ Aplicando las mismas identidades de derivación matricial que en el caso anterior, llegamos a Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012) ே ே ିଵ + ሺ1 − ݐ ሻ ሺ࢞ − ࣆ ሻሺ࢞ − ࣆ ሻ் = 0. 2 ሺ1 − ݐ ሻ ሾ−ሺ࢞ ் ିଵ ሻ் − ିଵ ࢞ + ିଵ ࣆ + ሺିଵ ሻ் ࣆ ሿ = 0. ୀଵ Simplificando a partir de las mismas consideraciones, llegamos a que la estimación ML de la media de la clase 0 es ே ே ே ୀଵ ୀଵ ሺ1 − ݐ ሻ2ିଵ ሺࣆ − ࢞ ሻ = 0 ⇒ ࣆ ሺ1 − ݐ ሻ = ሺ1 − ݐ ሻ ࢞ ⇒ ୀଵ ே 1 ⇒ ࣆ = ሺ1 − ݐ ሻ ࢞ , ܰ ୀଵ es decir, de nuevo, la media muestral del conjunto de muestras pertenecientes a ∁ . Finalmente, llevamos a cabo la estimación de la matriz de covarianza de ambas clases. De nuevo, derivamos la función log-verosimilitud, en este caso, respecto de . Teniendo en cuenta únicamente los términos dependientes de la matriz de covarianza, el problema se reduce a resolver la siguiente ecuación: ߲ log ሺ࢚|Π, ࣆଵ , ࣆ , ሻ =0⇒ ߲ ே ே 1 1 ߲ ⇒ ൭− ݐ log|| − − ݐ ሺ࢞ − ࣆଵ ሻ் ିଵ ሺ࢞ − ࣆଵ ሻ − 2 ߲ 2 ୀଵ ே ୀଵ 1 − ሺ1 − ݐ ሻ log|| − 2 ୀଵ ே 1 − ሺ1 − ݐ ሻሺ࢞ − ࣆ ሻ் ିଵ ሺ࢞ − ࣆ ሻ൱ = 0. 2 ୀଵ Para resolver la derivada del logaritmo del determinante de hacemos uso de la siguiente identidad de derivación matricial: ߲ log|| = ሺିଵ ሻ் . ߲ Análogamente, aplicamos la siguiente identidad para resolver la derivada en los términos del argumento de la exponencial de las gaussianas: ߲ࢇ் ିଵ ࢈ = −ሺିଵ ሻ் ࢇ࢈் ሺିଵ ሻ் . ߲ Sustituyendo, la derivada resulta finalmente: ே ே ே ୀଵ ே ୀଵ 1 1 1 − ݐ ିଵ + ݐ ିଵ ሺ࢞ − ࣆଵ ሻሺ࢞ − ࣆଵ ሻ் ିଵ − ሺ1 − ݐ ሻିଵ + 2 2 2 ୀଵ 1 + ሺ1 − ݐ ሻିଵ ሺ࢞ − ࣆ ሻሺ࢞ − ࣆ ሻ் ିଵ = 0. 2 ୀଵ Para simplificar, multiplicamos por la derecha por la matriz de covarianza, resultando en ே ܰଵ ିଵ ܰ − + ݐ ሺ࢞ − ࣆଵ ሻሺ࢞ − ࣆଵ ሻ் − + 2 2 2 ୀଵ 3 ୀଵ Multiplicando ambos términos de la ecuación por 2 y sacando factor común la matriz de covarianza inversa, ே ே ିଵ ݐ ሺ࢞ − ࣆଵ ሻሺ࢞ − ࣆଵ ሻ் + ሺ1 − ݐ ሻ ሺ࢞ − ࣆ ሻሺ࢞ − ࣆ ሻ் ൩ = ୀଵ ୀଵ = ܰ + ܰଵ = ܰ. Finalmente, la estimación ML de la matriz de covarianza resulta = ே ே ୀଵ ୀଵ 1 ݐ ሺ࢞ − ࣆଵ ሻሺ࢞ − ࣆଵ ሻ் + ሺ1 − ݐ ሻ ሺ࢞ − ࣆ ሻሺ࢞ − ࣆ ሻ் ൩, ܰ que de nuevo se traduce, como era de esperar, en la covarianza muestral. La probabilidad de la primera clase dada la muestra se puede expresar en términos de la función logística como ܲሺ∁ଵ |࢞ ሻ = ߪሺ்࢝ ࢞ + ݓ ሻ, donde ߪሺ்࢝ ࢞ + ݓ ሻ = 1+݁ 1 ି൫࢝ ࢞ ା௪బ ൯ Además, tenemos que ܽ = ்࢝ ࢞ + ݓ = log . ሺ∁భ |࢞ ሻ ሺ∁బ |࢞ ሻ , de tal forma que en el límite, cuando las dos clases son equiprobables, ܽ = 0 = ்࢝ ࢞ + ݓ , lo que constituye nuestro hiperplano de decisión. Resolviendo la anterior ecuación, llegamos a la forma explícita del hiperplano de decisión: ݔ ்࢝ ࢞ + ݓ = 0 ⇒ ሺݓଵ ݓଶ ሻ ቀݕቁ + ݓ = 0 ⇒ ݓଵ ݔ+ ݓଶ ݕ+ ݓ = 0 ⇒ ݓଵ ݔ+ ݓ ⇒ ݕሺݔሻ = − , ݓଶ donde ࢝ = ିଵ ሺࣆଵ − ࣆ ሻ +ࣆଶ் ିଵ ࣆଶ + log ሺ∁భ ሻ ሺ∁బ . ሻ y ݓ = − ࣆଵ ் ିଵ ࣆଵ + ଵ ଶ Finalmente se ha llevado a cabo una implementación en MatLab que realiza todo el proceso: generación de muestras de dos clases según distribuciones gaussianas, estimación de sus parámetros por máxima verosimilitud, cálculo del hiperplano de decisión y clasificación de una nueva muestra de entrada. La figura 1 muestra un ejemplo de resultado del funcionamiento de las rutinas programadas. Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012) 8 6 4 2 0 Clase 0 Clase 1 Hiperplano Muestra clasificada -2 -4 -4 -2 0 2 4 6 8 2 4 6 8 8 7 6 Clase 0 Clase 1 Hiperplano Muestra clasificada 5 4 3 2 1 0 -1 -2 -4 -2 0 6 4 2 0 -2 Clase 0 Clase 1 Hiperplano Muestra clasificada -4 -6 -3 -2 -1 0 1 2 3 4 6 4 2 0 -2 Clase 0 Clase 1 Hiperplano Muestra clasificada -4 -6 -3 -2 -1 0 1 2 3 4 Fig. 1. De arriba a abajo: (a) dos clases con vectores de medias ሺ0,0ሻ y ሺ5,5ሻ y matriz de covarianzas diagonal con autovalores 0.8 y 0.6 donde se clasifica una muestra muy cercana al hiperplano de decisión, (b) igual caso que (a) pero donde se clasifica una muestra con claridad en la clase 0, (c) dos clases con vectores de medias ሺ1,0ሻ y ሺ0,2ሻ y matriz de covarianzas diagonal con autovalores 1 y 2 donde se clasifica una muestra muy cercana al hiperplano de decisión, (d) igual caso que (c) pero donde se clasifica una muestra más probable en clase 0. 4