Modelado Probabilístico Generativo Gaussiano de 2

Anuncio
Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012)
1
Modelado Probabilístico Generativo Gaussiano de 2 Clases con
Estimación de Parámetros por Máxima Verosimilitud
(Marzo 2012)
Iván López Espejo
Deducción de la estimación por máxima verosimilitud de los parámetros correspondientes a las distribuciones de probabilidad de un
modelo probabilístico generativo de clasificación gaussiano de 2 clases e iguales matrices de covarianza con el fin de calcular
posteriormente el hiperplano de decisión para la clasificación de muestras entrantes al sistema.
I. INTRODUCCIÓN
E
trabajo se deduce la estimación por máxima
verosimilitud de los parámetros correspondientes a las
distribuciones de probabilidad de un modelo probabilístico
generativo de clasificación gaussiano de ‫ = ܭ‬2 clases e
iguales matrices de covarianza. Una vez estimados estos, es
posible calcular el hiperplano de decisión en base a la función
logística sigmoidal. Calculado este, es posible clasificar una
nueva muestra de entrada al sistema en una de las dos clases
posibles sin más que estudiar la probabilidad de pertenencia a
cada una de las clases a partir de la anterior función logística.
Para completar el trabajo, a partir de los resultados
obtenidos, se realiza una implementación en MatLab con la
que llevar a cabo una experimentación práctica.
N ESTE
ே
‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ = ෑሾࣨሺ࢞௡ |ࣆଵ , ઱ሻΠሿ௧೙ ሾࣨሺ࢞௡ |ࣆ଴ , ઱ሻሺ1 − Πሻሿሺଵି௧೙ሻ ,
௡ୀଵ
donde, como se puede observar, sólo las probabilidades
conjuntas de las muestras que pertenecen a su clase pesan en
el anterior baremo. Los parámetros que deseamos estimar a
continuación por máxima verosimilitud son las probabilidades
a priori de cada clase, las medias de cada una de ellas y su
matriz de covarianza. Para simplificar el cálculo, optimizamos
sobre el logaritmo de la función de verosimilitud, pues su
monotonía no cambia tras este tipo de composición:
ே
log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ = ෍ ‫ݐ‬௡ logሺࣨሺ࢞௡ |ࣆଵ, ઱ሻΠሻ +
+ ෍ሺ1 − ‫ݐ‬௡ ሻ log൫ࣨሺ࢞௡ |ࣆ଴ , ઱ሻሺ1 − Πሻ൯,
௡ୀଵ
II. DESARROLLO
Partimos de poseer un conjunto de ܰ muestras agrupables en
dos clases según sendas distribuciones gaussianas. Para cada
muestra, además, se tiene un valor de etiqueta, ‫ݐ‬௡ , que indica a
priori la pertenencia de dicha muestra a una clase, es decir,
ሼ࢞௡ , ‫ݐ‬௡ ሽ,
0
‫ݐ‬௡ = ൜
1
݊ = 1,2, … , ܰ,
⇔ ࢞௡ ∈ ∁଴ ,
⇔ ࢞௡ ∈ ∁ଵ
donde, como se ve, ‫ݐ‬௡ toma el valor 0 si la muestra ࢞௡
pertenece a la clase 0 (∁଴ ) o el valor 1 si pertenece a la clase 1
(∁ଵ ). La probabilidad a priori de la primera clase es ܲሺ∁ଵ ሻ =
Π, de tal forma que, como sólo se poseen dos clases, la
probabilidad a priori de la segunda es su complementario, es
decir, ܲሺ∁଴ ሻ = ሺ1 − Πሻ. Dado que hemos dicho que la
densidad de probabilidad condicional de las muestras dada la
clase se modela como una distribución gaussiana, las
probabilidades conjuntas de las muestras y las clases se
expresan, a partir de la Regla de Bayes, como
ܲሺ࢞௡ , ∁଴ ሻ = ܲሺ࢞௡ |∁଴ ሻܲሺ∁଴ ሻ = ࣨሺ࢞௡ |ࣆ଴ , ઱ሻሺ1 − Πሻ,
ܲሺ࢞௡ , ∁ଵ ሻ = ܲሺ࢞௡ |∁ଵ ሻܲሺ∁ଵ ሻ = ࣨሺ࢞௡ |ࣆଵ, ઱ሻΠ.
Sea ࢚ = ሺ‫ݐ‬ଵ, ‫ݐ‬ଶ , … , ‫ݐ‬ே ሻ் el vector de etiquetas de pertenencia a
una clase para las ܰ muestras, la función de verosimilitud se
expresa como
௡ୀଵ
ே
donde la distribución normal multivariada de dos clases se
expresa como
ࣨሺ࢞௡ |ࣆ, ઱ሻ =
1
1
exp ൜− ሺ࢞௡ − ࣆሻ் ઱ ିଵ ሺ࢞௡ − ࣆሻൠ,
ଵ/ଶ
2ߨ|઱|
2
y, en términos logarítmicos como
ଵ
log ࣨሺ࢞௡ |ࣆ, ઱ሻ = −log ൬2ߨ|઱|ଶ ൰ −
1
− ሺ࢞௡ − ࣆሻ் ઱ ିଵ ሺ࢞௡ − ࣆሻ.
2
Sustituyendo la anterior expansión en el desarrollo logarítmico
de la función de verosimilitud, esta resulta
ே
ே
௡ୀଵ
௡ୀଵ
ே
ଵ
log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ = ෍ ‫ݐ‬௡ log Π − ෍ ‫ݐ‬௡ log ൬2ߨ|઱|ଶ ൰ −
ே
1
− ෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆଵ ሻ + ෍ሺ1 − ‫ݐ‬௡ ሻ logሺ1 − Πሻ −
2
ே
௡ୀଵ
ே
௡ୀଵ
1
− ෍ሺ1 − ‫ݐ‬௡ ሻ logሺ2ߨ|઱|ଵ/ଶ ሻ − ෍ሺ1 − ‫ݐ‬௡ ሻ ሺ࢞௡ − ࣆ଴ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆ଴ ሻ.
2
௡ୀଵ
௡ୀଵ
Derivando con respecto a Π la anterior expresión e igualando
a 0 optimizamos para calcular por máxima verosimilitud la
probabilidad a priori de la primera clase y, por ende, la de la
segunda:
Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012)
ே
ே
௡ୀଵ
௡ୀଵ
߲ log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ
1
1
= 0 ⇒ ෍ ‫ݐ‬௡ =
෍ሺ1 − ‫ݐ‬௡ ሻ.
߲Π
Π
1−Π
La anterior derivada es trivial, pues sólo depende de dos
términos logarítmicos en la sumatoria de la función logverosimilitud. Vamos a continuación a renombrar las
sumatorias en ambos miembros de la anterior derivada. La
suma de las etiquetas ‫ݐ‬௡ nos proporciona la cantidad de
muestras pertenecientes a la primera clase, es decir:
Como vemos, sólo un término de la sumatoria (el del
exponente de la gaussiana correspondiente) depende de la
media de la clase 1. Para mayor facilidad de cálculo,
expandimos su argumento:
= ࢞௡
ሺ࢞௡ − ࣆଵ ሻ் ઱ିଵ ሺ࢞௡ − ࣆଵ ሻ =
઱ ࢞௡ − ࢞௡ ் ઱ିଵ ࣆଵ − ࣆଵ ் ઱ିଵ ࢞௡ + ࣆଵ ் ઱ିଵ ࣆଵ .
் ିଵ
A continuación tenemos en cuenta las siguientes tres
identidades de derivación matricial para resolver el cálculo:
߲ሺ࡭࢞ሻ
= ࡭் ,
߲࢞
ே
෍ ‫ݐ‬௡ = ܰଵ .
߲ሺ்࢞ ࡭ሻ
= ࡭,
߲࢞
௡ୀଵ
De otro lado, la suma del complementario, ሺ1 − ‫ݐ‬௡ ሻ, nos
proporciona la cantidad de muestras pertenecientes a la clase
0, es decir:
ே
෍ሺ1 − ‫ݐ‬௡ ሻ = ܰ଴ .
௡ୀଵ
La suma de ambos términos nos proporciona la cantidad total
de muestras, ܰ, de la forma:
ܰ = ܰ଴ + ܰଵ .
Sustituyendo lo anterior en el resultado de la derivada parcial
de la función log-verosimilitud con respecto a Π, llegamos a
que la estimación ML de Π es
ܰଵ
ܰ଴
1
ܰ଴
ܰ଴
=
⇒ −1 =
⇒ Πିଵ =
+1⇒
Π 1−Π Π
ܰଵ
ܰଵ
Nଵ
Nଵ
⇒Π=
= .
N଴ + Nଵ
N
Como era de esperar, la probabilidad a priori de ∁ଵ es el
número de muestras pertenecientes a dicha clase sobre el total,
siendo la probabilidad a priori de la clase ∁଴ su
complementario, es decir,
ܲሺ∁଴ ሻ = ሺ1 − Πሻ = 1 −
Nଵ N − Nଵ N଴
=
= ,
N
N
N
o, en otras palabras, el número de muestras pertenecientes a ∁଴
sobre el total.
A continuación, llevamos a cabo un procedimiento análogo
al anterior para obtener la estimación de la media de la clase 1.
Comenzamos derivando la función log-verosimilitud con
respecto a ࣆଵ :
߲ log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ
=0⇒
߲ࣆଵ
ே
߲ 1
⇒−
ቌ ෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆଵ ሻቍ = 0.
߲ࣆଵ 2
௡ୀଵ
2
߲ሺ்࢞ ࡭࢞ሻ
= ࡭࢞ + ࡭் ࢞.
߲࢞
Aplicándolas, llegamos a que la anterior derivada finalmente
puede ser expresada como
ே
෍ ‫ݐ‬௡ ሾ−ሺ࢞௡ ் ઱ିଵ ሻ் − ઱ିଵ ࢞௡ + ઱ ିଵ ࣆଵ + ሺ઱ିଵ ሻ் ࣆଵ ሿ = 0.
௡ୀଵ
Puesto que la matriz de covarianza es una matriz simétrica
(઱ = ઱் ), siendo su inversa también simétrica, ઱ ିଵ ࣆଵ +
ሺ઱ ିଵ ሻ் ࣆଵ = 2઱ିଵ ࣆଵ . Además, por la regla de trasposición del
producto matricial, tenemos que ሺ࢞௡ ் ઱ ିଵ ሻ் = ሺ઱ ିଵ ሻ் ࢞௡ .
Aplicando además de nuevo la propiedad de simetría, el
primer par de monomios del corchete puede simplificarse a su
vez como −ሺ࢞௡ ் ઱ ିଵ ሻ் − ઱ ିଵ ࢞௡ = −2઱ିଵ࢞௡ . Teniendo esto
en cuenta, la estimación ML de ࣆଵ resulta finalmente
ே
ே
ே
௡ୀଵ
௡ୀଵ
෍ ‫ݐ‬௡ 2઱ ିଵ ሺࣆଵ − ࢞௡ ሻ = 0 ⇒ ࣆଵ ෍ ‫ݐ‬௡ = ෍ ‫ݐ‬௡ ࢞௡ ⇒
௡ୀଵ
⇒ ࣆଵ =
ே
1
෍ ‫ݐ‬௡ ࢞௡ .
ܰଵ
௡ୀଵ
Como era de esperar, resulta la media muestral del conjunto de
muestras de la clase 1.
Procedemos a continuación de forma análoga con el fin de
estimar la media de la clase 0:
⇒−
߲ log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ
=0⇒
߲ࣆ଴
ே
߲ 1
ቌ ෍ሺ1 − ‫ݐ‬௡ ሻ ሺ࢞௡ − ࣆ଴ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆ଴ ሻቍ = 0.
߲ࣆ଴ 2
௡ୀଵ
Aplicando las mismas identidades de derivación matricial que
en el caso anterior, llegamos a
Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012)
ே
ே
઱ ିଵ
+
෍ሺ1 − ‫ݐ‬௡ ሻ ሺ࢞௡ − ࣆ଴ ሻሺ࢞௡ − ࣆ଴ ሻ் = 0.
2
෍ሺ1 − ‫ݐ‬௡ ሻ ሾ−ሺ࢞௡ ் ઱ିଵ ሻ் − ઱ ିଵ ࢞௡ + ઱ ିଵ ࣆ଴ + ሺ઱ିଵ ሻ் ࣆ଴ ሿ = 0.
௡ୀଵ
Simplificando a partir de las mismas consideraciones,
llegamos a que la estimación ML de la media de la clase 0 es
ே
ே
ே
௡ୀଵ
௡ୀଵ
෍ሺ1 − ‫ݐ‬௡ ሻ2઱ିଵ ሺࣆ଴ − ࢞௡ ሻ = 0 ⇒ ࣆ଴ ෍ሺ1 − ‫ݐ‬௡ ሻ = ෍ሺ1 − ‫ݐ‬௡ ሻ ࢞௡ ⇒
௡ୀଵ
ே
1
⇒ ࣆ଴ =
෍ሺ1 − ‫ݐ‬௡ ሻ ࢞௡ ,
ܰ଴
௡ୀଵ
es decir, de nuevo, la media muestral del conjunto de muestras
pertenecientes a ∁଴ .
Finalmente, llevamos a cabo la estimación de la matriz de
covarianza de ambas clases. De nuevo, derivamos la función
log-verosimilitud, en este caso, respecto de ઱. Teniendo en
cuenta únicamente los términos dependientes de la matriz de
covarianza, el problema se reduce a resolver la siguiente
ecuación:
߲ log ‫݌‬ሺ࢚|Π, ࣆଵ , ࣆ଴ , ઱ሻ
=0⇒
߲઱
ே
ே
1
1
߲
⇒
൭− ෍ ‫ݐ‬௡ log|઱| − − ෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆଵ ሻ −
2
߲઱
2
௡ୀଵ
ே
௡ୀଵ
1
− ෍ሺ1 − ‫ݐ‬௡ ሻ log|઱| −
2
௡ୀଵ
ே
1
− ෍ሺ1 − ‫ݐ‬௡ ሻሺ࢞௡ − ࣆ଴ ሻ் ઱ ିଵ ሺ࢞௡ − ࣆ଴ ሻ൱ = 0.
2
௡ୀଵ
Para resolver la derivada del logaritmo del determinante de ઱
hacemos uso de la siguiente identidad de derivación matricial:
߲ log|࡭|
= ሺ࡭ିଵ ሻ் .
߲࡭
Análogamente, aplicamos la siguiente identidad para resolver
la derivada en los términos del argumento de la exponencial
de las gaussianas:
߲ࢇ் ࡭ିଵ ࢈
= −ሺ࡭ିଵ ሻ் ࢇ࢈் ሺ࡭ିଵ ሻ் .
߲࡭
Sustituyendo, la derivada resulta finalmente:
ே
ே
ே
௡ୀଵ
ே
௡ୀଵ
1
1
1
− ෍ ‫ݐ‬௡ ઱ ିଵ + ෍ ‫ݐ‬௡ ઱ ିଵ ሺ࢞௡ − ࣆଵ ሻሺ࢞௡ − ࣆଵ ሻ் ઱ ିଵ − ෍ሺ1 − ‫ݐ‬௡ ሻ઱ିଵ +
2
2
2
௡ୀଵ
1
+ ෍ሺ1 − ‫ݐ‬௡ ሻ઱ିଵ ሺ࢞௡ − ࣆ଴ ሻሺ࢞௡ − ࣆ଴ ሻ் ઱ ିଵ = 0.
2
௡ୀଵ
Para simplificar, multiplicamos por la derecha por la matriz de
covarianza, resultando en
ே
ܰଵ ઱ ିଵ
ܰ଴
− +
෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻሺ࢞௡ − ࣆଵ ሻ் −
+
2
2
2
௡ୀଵ
3
௡ୀଵ
Multiplicando ambos términos de la ecuación por 2 y sacando
factor común la matriz de covarianza inversa,
ே
ே
઱ ିଵ ൥෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻሺ࢞௡ − ࣆଵ ሻ் + ෍ሺ1 − ‫ݐ‬௡ ሻ ሺ࢞௡ − ࣆ଴ ሻሺ࢞௡ − ࣆ଴ ሻ் ൩ =
௡ୀଵ
௡ୀଵ
= ܰ଴ + ܰଵ = ܰ.
Finalmente, la estimación ML de la matriz de covarianza
resulta
઱=
ே
ே
௡ୀଵ
௡ୀଵ
1
൥෍ ‫ݐ‬௡ ሺ࢞௡ − ࣆଵ ሻሺ࢞௡ − ࣆଵ ሻ் + ෍ሺ1 − ‫ݐ‬௡ ሻ ሺ࢞௡ − ࣆ଴ ሻሺ࢞௡ − ࣆ଴ ሻ் ൩,
ܰ
que de nuevo se traduce, como era de esperar, en la covarianza
muestral.
La probabilidad de la primera clase dada la muestra se
puede expresar en términos de la función logística como
ܲሺ∁ଵ |࢞௡ ሻ = ߪሺ்࢝ ࢞௡ + ‫ݓ‬଴ ሻ, donde
ߪሺ்࢝ ࢞௡ + ‫ݓ‬଴ ሻ =
1+݁
1
ି൫࢝೅ ࢞೙ ା௪బ ൯
Además, tenemos que ܽ = ்࢝ ࢞௡ + ‫ݓ‬଴ = log
.
௉ሺ∁భ |࢞೙ ሻ
௉ሺ∁బ |࢞೙ ሻ
, de tal
forma que en el límite, cuando las dos clases son
equiprobables, ܽ = 0 = ்࢝ ࢞௡ + ‫ݓ‬଴ , lo que constituye nuestro
hiperplano de decisión. Resolviendo la anterior ecuación,
llegamos a la forma explícita del hiperplano de decisión:
‫ݔ‬
்࢝ ࢞ + ‫ݓ‬଴ = 0 ⇒ ሺ‫ݓ‬ଵ ‫ݓ‬ଶ ሻ ቀ‫ݕ‬ቁ + ‫ݓ‬଴ = 0 ⇒ ‫ݓ‬ଵ ‫ ݔ‬+ ‫ݓ‬ଶ ‫ ݕ‬+ ‫ݓ‬଴ = 0 ⇒
‫ݓ‬ଵ ‫ ݔ‬+ ‫ݓ‬଴
⇒ ‫ݕ‬ሺ‫ݔ‬ሻ = −
,
‫ݓ‬ଶ
donde
࢝ = ઱ ିଵ ሺࣆଵ − ࣆ଴ ሻ
+ࣆଶ் ઱ ିଵ ࣆଶ + log
௉ሺ∁భ ሻ
௉ሺ∁బ
.
ሻ
y
‫ݓ‬଴ = − ࣆଵ ் ઱ ିଵ ࣆଵ +
ଵ
ଶ
Finalmente se ha llevado a cabo una implementación en
MatLab que realiza todo el proceso: generación de muestras
de dos clases según distribuciones gaussianas, estimación de
sus parámetros por máxima verosimilitud, cálculo del
hiperplano de decisión y clasificación de una nueva muestra
de entrada. La figura 1 muestra un ejemplo de resultado del
funcionamiento de las rutinas programadas.
Modelado Probabilístico Generativo Gaussiano de 2 Clases con Estimación de Parámetros por ML (Marzo 2012)
8
6
4
2
0
Clase 0
Clase 1
Hiperplano
Muestra clasificada
-2
-4
-4
-2
0
2
4
6
8
2
4
6
8
8
7
6
Clase 0
Clase 1
Hiperplano
Muestra clasificada
5
4
3
2
1
0
-1
-2
-4
-2
0
6
4
2
0
-2
Clase 0
Clase 1
Hiperplano
Muestra clasificada
-4
-6
-3
-2
-1
0
1
2
3
4
6
4
2
0
-2
Clase 0
Clase 1
Hiperplano
Muestra clasificada
-4
-6
-3
-2
-1
0
1
2
3
4
Fig. 1. De arriba a abajo: (a) dos clases con vectores de medias ሺ0,0ሻ y ሺ5,5ሻ y
matriz de covarianzas diagonal con autovalores 0.8 y 0.6 donde se clasifica
una muestra muy cercana al hiperplano de decisión, (b) igual caso que (a) pero
donde se clasifica una muestra con claridad en la clase 0, (c) dos clases con
vectores de medias ሺ1,0ሻ y ሺ0,2ሻ y matriz de covarianzas diagonal con
autovalores 1 y 2 donde se clasifica una muestra muy cercana al hiperplano de
decisión, (d) igual caso que (c) pero donde se clasifica una muestra más
probable en clase 0.
4
Descargar