Maestría en Bioinformática Probabilidad y Estadística: Clase 9

Anuncio
Probabilidades de absorción
Estimación de parámetros
Maestrı́a en Bioinformática
Probabilidad y Estadı́stica: Clase 9
Gustavo Guerberoff
[email protected]
Facultad de Ingenierı́a
Universidad de la República
Mayo de 2010
Probabilidades de absorción
Contenidos
1
Probabilidades de absorción
1
Estimación de parámetros
Estimador de Máxima Verosimilitud
Estimador de Máxima Probabilidad a Posteriori
Estimador de Valor Esperado a Posteriori
Estimación de parámetros
Probabilidades de absorción
Estimación de parámetros
Probabilidades de absorción
En la clase pasada calculamos las probabilidades de absorción
en un caso particular; veremos ahora cómo se estudia el
problema en el caso general.
Descomposición canónica de E: Descomponemos el
espacio de estados de la siguiente manera:
E = T ∪ C1 ∪ C2 ∪ C3 . . .
donde T es la clase de estados transitorios y los conjuntos Ci
son clases de comunicación cerradas (formadas, por ejemplo,
por estados absorbentes).
Probabilidades de absorción
Estimación de parámetros
Ordenamos E de manera que los estados transitorios queden
en primer lugar y escribimos la matriz de transición de la
siguiente manera:
Q R
P=
0 P̃
donde:
Q es una matriz cuadrada representando las transiciones
de T a T :
Q = {pij : i ∈ T , j ∈ T }.
R es una matriz (no necesariamente cuadrada)
representando las transiciones de T a T c :
R = {pij : i ∈ T , j ∈ T c }.
P̃ es una matriz cuadrada representando las transiciones
en las clases cerradas.
Probabilidades de absorción
Estimación de parámetros
Para cada i ∈ T , j ∈ T c , denotamos:
uij = probabilidad de que el proceso sea absorbido por el
estado j dado que el estado inicial es i.
Estas son las probabilidades de absorción que nos interesan
calcular. Condicionando al primer paso de la cadena se obtiene
el sistema de ecuaciones lineales:
uij =
X
pik ukj + pij , i ∈ T , j ∈ T c .
k∈T
Observación: Agrupando las probabilidades de absorción en
una matriz
U = {uij : i ∈ T , j ∈ T c }
Probabilidades de absorción
Estimación de parámetros
el sistema de ecuaciones queda:
U = QU + R,
y la solución es:
U = (I − Q)−1 R.
La matriz I es la identidad restringida a los estados transitorios.
Se prueba que la matriz I − Q es invertible, de manera que la
solución para U es única.
Probabilidades de absorción
Estimación de parámetros
Estimación de parámetros
En problemas prácticos, las probabilidades de transición en
una cadena de Markov son parámetros desconocidos que se
necesitan estimar a partir de los datos. Antes de comentar los
diferentes métodos que se usan para estimar estos parámetros
veamos un ejemplo con detalle.
Problema de muestreo: Consideremos una población de
tamaño N (N muy grande) y supongamos que nos interesa
estudiar el conjunto de individuos con un cierto atributo.
Denotamos con A a la cantidad de individuos con ese atributo
en la población, y suponemos que queremos estimar el
parámetro:
p=
A
.
N
Probabilidades de absorción
Estimación de parámetros
Procedemos de la siguiente manera: Tomamos un muestra de
tamaño n con reposición (n << N) e interpretamos en el
contexto de Éxitos y Fracasos: el experimento i corresponde a
Éxito (resp. Fracaso) si el individuo seleccionado posee (resp.
no posee) el atributo que estamos estudiando.
Formalmente introducimos las variables:
Xi =
1 si el experimento i corresponde a Éxito
0 si el experimento i corresponde a Fracaso
De esta manera tenemos un conjunto X1 , X2 , . . . , Xn de
variables independientes de Bernoulli de parámetro p.
Probabilidades de absorción
Estimación de parámetros
Función de verosimilitud: Supongamos que se observan los
siguientes resultados para las variables:
X1 = a1 , X2 = a2 , . . . , Xn = an .
Para cada valor fijo de p ∈ [0, 1] calculamos la probabilidad de
que hayan ocurrido esos datos que observamos (que, para ser
consistenes con la notación que usaremos más adelante,
denotamos D).
P(D|p) = P(X1 = a1 , X2 = a2 , . . . , Xn = an |p)
= P(X1 = a1 |p)P(X2 = a2 |p) . . . P(Xn = an |p).
En la segunda igualdad hemos usado independencia de las
variables de Bernoulli. L(p) = P(D|p) es la función de
verosimilitud: para cada valor de p nos dice qué tan verosı́mil
es haber obtenido los datos D que realmente obtuvimos.
Probabilidades de absorción
Estimación de parámetros
Notemos que, de manera compacta, podemos escribir:
P(Xi = ai |p) = pai (1 − p)1−ai ,
para i = 1, 2, . . . , n.
De manera que:
P(D|p) =
n
Y
pai (1 − p)1−ai = p
Pn
i=1
ai
Pn
(1 − p)n−
i=1
ai
.
i=1
Estimador de Máxima Verosimilitud: Estimamos p por el
valor p̂ que maximiza P(D|p):
p̂ = argmaxp P(D|p).
Probabilidades de absorción
Estimación de parámetros
Cálculo de p̂: Conviene trabajar con log(L(p)). Igualando a 0
la derivada con respecto a p de esa función, es muy sencillo
verificar que el valor que maximiza la verosimilitud es:
Pn
ai
p̂ = i=1 .
n
Esto es, p̂ es la proporción de individuos en la muestra que
tienen el atributo que estamos considerando.
Probabilidades de absorción
Estimación de parámetros
Estimación de parámetros: tres enfoques generales
En el caso general, hay varios abordajes para estimar
parámetros. Supongamos que estamos considerando un
modelo (por ejemplo, una cadena de Markov) y que queremos
estimar un conjunto de parámtros θ (por ejemplo, las
probabilidades de transición de la cadena) a partir de un
conjunto de datos D (por ejemplo, n observaciones sucesivas
de la cadena).
Estimador de Máxima Verosimilitud: Como vimos en el
ejemplo, una manera de obtener un estimador de θ es
considerar el valor θMV que maximiza la verosimilitud:
θMV = argmaxθ P(D|θ).
Probabilidades de absorción
Estimación de parámetros
Ejemplo: Supongamos que queremos estimar pij para dos
estados i, j ∈ E de una cadena de Markov. Entonces
observamos una realización de n pasos de la cadena y
denotamos:
nij = cantidad de transiciones observadas del estado i al
estado j,
ni• = cantidad de transiciones observadas que comienzan en
el estado i.
El estimador de máxima verosimilitud para pij es:
p̂ij =
nij
.
ni•
Probabilidades de absorción
Estimación de parámetros
Estimador de Máxima Probabilidad a Posteriori:
Supongamos que haya cierto conocimiento a priori acerca de
la distribución de los parámetros θ. Esta información
está especificada a través de la distribución de probabilidad a
priori P(θ) (que se elige de una manera razonable). Una vez
que hemos observado un conjunto de datos D, se calcula la
distribución a posteriori para θ usando la fórmula de Bayes:
P(θ|D) =
P(D|θ)P(θ)
P(D)
El estimador de Máxima Probabilidad a Posteriori se obtiene
maximizando P(θ|D):
θMPP = argmaxθ P(D|θ)P(θ).
Notar que hemos ignorado el denominador P(D) ya que no
depende de θ.
Probabilidades de absorción
Estimación de parámetros
Estimador de Valor Esperado a Posteriori: Conociendo la
distribución de probabilidad a posteriori, P(θ|D), se puede
estimar θ por el valor esperado:
Z
VEP
θ
= θP(θ|D)dθ.
Ejemplo: Es muy común, cuando se tienen muchos estados
en una cadena o pocas observaciones, que muchas
transiciones no se observen. De manera que podrı́a haber
estados i, j ∈ E tales que nij = 0, aún cuando pij 6= 0. En esos
casos los estimadores de máxima verosimilitud estarı́an
subestimando probabilidades. Usando probabilidades a priori
adecuadas (ver Durbin et al., Biological Secuence Analysis,
Capı́tulo 11) los estimadores de valor esperado a posteriori
para las probabilidades de transición resultan de la forma:
Probabilidades de absorción
Estimación de parámetros
p̂ij =
nij + αij
,
ni• + Ai
donde αij son parámetros positivos
que son especificados con
P
la distribución a priori, y Ai = j∈E αij . Los parámetros αij se
llaman pseudoconteos.
Descargar