Probabilidades de absorción Estimación de parámetros Maestrı́a en Bioinformática Probabilidad y Estadı́stica: Clase 9 Gustavo Guerberoff [email protected] Facultad de Ingenierı́a Universidad de la República Mayo de 2010 Probabilidades de absorción Contenidos 1 Probabilidades de absorción 1 Estimación de parámetros Estimador de Máxima Verosimilitud Estimador de Máxima Probabilidad a Posteriori Estimador de Valor Esperado a Posteriori Estimación de parámetros Probabilidades de absorción Estimación de parámetros Probabilidades de absorción En la clase pasada calculamos las probabilidades de absorción en un caso particular; veremos ahora cómo se estudia el problema en el caso general. Descomposición canónica de E: Descomponemos el espacio de estados de la siguiente manera: E = T ∪ C1 ∪ C2 ∪ C3 . . . donde T es la clase de estados transitorios y los conjuntos Ci son clases de comunicación cerradas (formadas, por ejemplo, por estados absorbentes). Probabilidades de absorción Estimación de parámetros Ordenamos E de manera que los estados transitorios queden en primer lugar y escribimos la matriz de transición de la siguiente manera: Q R P= 0 P̃ donde: Q es una matriz cuadrada representando las transiciones de T a T : Q = {pij : i ∈ T , j ∈ T }. R es una matriz (no necesariamente cuadrada) representando las transiciones de T a T c : R = {pij : i ∈ T , j ∈ T c }. P̃ es una matriz cuadrada representando las transiciones en las clases cerradas. Probabilidades de absorción Estimación de parámetros Para cada i ∈ T , j ∈ T c , denotamos: uij = probabilidad de que el proceso sea absorbido por el estado j dado que el estado inicial es i. Estas son las probabilidades de absorción que nos interesan calcular. Condicionando al primer paso de la cadena se obtiene el sistema de ecuaciones lineales: uij = X pik ukj + pij , i ∈ T , j ∈ T c . k∈T Observación: Agrupando las probabilidades de absorción en una matriz U = {uij : i ∈ T , j ∈ T c } Probabilidades de absorción Estimación de parámetros el sistema de ecuaciones queda: U = QU + R, y la solución es: U = (I − Q)−1 R. La matriz I es la identidad restringida a los estados transitorios. Se prueba que la matriz I − Q es invertible, de manera que la solución para U es única. Probabilidades de absorción Estimación de parámetros Estimación de parámetros En problemas prácticos, las probabilidades de transición en una cadena de Markov son parámetros desconocidos que se necesitan estimar a partir de los datos. Antes de comentar los diferentes métodos que se usan para estimar estos parámetros veamos un ejemplo con detalle. Problema de muestreo: Consideremos una población de tamaño N (N muy grande) y supongamos que nos interesa estudiar el conjunto de individuos con un cierto atributo. Denotamos con A a la cantidad de individuos con ese atributo en la población, y suponemos que queremos estimar el parámetro: p= A . N Probabilidades de absorción Estimación de parámetros Procedemos de la siguiente manera: Tomamos un muestra de tamaño n con reposición (n << N) e interpretamos en el contexto de Éxitos y Fracasos: el experimento i corresponde a Éxito (resp. Fracaso) si el individuo seleccionado posee (resp. no posee) el atributo que estamos estudiando. Formalmente introducimos las variables: Xi = 1 si el experimento i corresponde a Éxito 0 si el experimento i corresponde a Fracaso De esta manera tenemos un conjunto X1 , X2 , . . . , Xn de variables independientes de Bernoulli de parámetro p. Probabilidades de absorción Estimación de parámetros Función de verosimilitud: Supongamos que se observan los siguientes resultados para las variables: X1 = a1 , X2 = a2 , . . . , Xn = an . Para cada valor fijo de p ∈ [0, 1] calculamos la probabilidad de que hayan ocurrido esos datos que observamos (que, para ser consistenes con la notación que usaremos más adelante, denotamos D). P(D|p) = P(X1 = a1 , X2 = a2 , . . . , Xn = an |p) = P(X1 = a1 |p)P(X2 = a2 |p) . . . P(Xn = an |p). En la segunda igualdad hemos usado independencia de las variables de Bernoulli. L(p) = P(D|p) es la función de verosimilitud: para cada valor de p nos dice qué tan verosı́mil es haber obtenido los datos D que realmente obtuvimos. Probabilidades de absorción Estimación de parámetros Notemos que, de manera compacta, podemos escribir: P(Xi = ai |p) = pai (1 − p)1−ai , para i = 1, 2, . . . , n. De manera que: P(D|p) = n Y pai (1 − p)1−ai = p Pn i=1 ai Pn (1 − p)n− i=1 ai . i=1 Estimador de Máxima Verosimilitud: Estimamos p por el valor p̂ que maximiza P(D|p): p̂ = argmaxp P(D|p). Probabilidades de absorción Estimación de parámetros Cálculo de p̂: Conviene trabajar con log(L(p)). Igualando a 0 la derivada con respecto a p de esa función, es muy sencillo verificar que el valor que maximiza la verosimilitud es: Pn ai p̂ = i=1 . n Esto es, p̂ es la proporción de individuos en la muestra que tienen el atributo que estamos considerando. Probabilidades de absorción Estimación de parámetros Estimación de parámetros: tres enfoques generales En el caso general, hay varios abordajes para estimar parámetros. Supongamos que estamos considerando un modelo (por ejemplo, una cadena de Markov) y que queremos estimar un conjunto de parámtros θ (por ejemplo, las probabilidades de transición de la cadena) a partir de un conjunto de datos D (por ejemplo, n observaciones sucesivas de la cadena). Estimador de Máxima Verosimilitud: Como vimos en el ejemplo, una manera de obtener un estimador de θ es considerar el valor θMV que maximiza la verosimilitud: θMV = argmaxθ P(D|θ). Probabilidades de absorción Estimación de parámetros Ejemplo: Supongamos que queremos estimar pij para dos estados i, j ∈ E de una cadena de Markov. Entonces observamos una realización de n pasos de la cadena y denotamos: nij = cantidad de transiciones observadas del estado i al estado j, ni• = cantidad de transiciones observadas que comienzan en el estado i. El estimador de máxima verosimilitud para pij es: p̂ij = nij . ni• Probabilidades de absorción Estimación de parámetros Estimador de Máxima Probabilidad a Posteriori: Supongamos que haya cierto conocimiento a priori acerca de la distribución de los parámetros θ. Esta información está especificada a través de la distribución de probabilidad a priori P(θ) (que se elige de una manera razonable). Una vez que hemos observado un conjunto de datos D, se calcula la distribución a posteriori para θ usando la fórmula de Bayes: P(θ|D) = P(D|θ)P(θ) P(D) El estimador de Máxima Probabilidad a Posteriori se obtiene maximizando P(θ|D): θMPP = argmaxθ P(D|θ)P(θ). Notar que hemos ignorado el denominador P(D) ya que no depende de θ. Probabilidades de absorción Estimación de parámetros Estimador de Valor Esperado a Posteriori: Conociendo la distribución de probabilidad a posteriori, P(θ|D), se puede estimar θ por el valor esperado: Z VEP θ = θP(θ|D)dθ. Ejemplo: Es muy común, cuando se tienen muchos estados en una cadena o pocas observaciones, que muchas transiciones no se observen. De manera que podrı́a haber estados i, j ∈ E tales que nij = 0, aún cuando pij 6= 0. En esos casos los estimadores de máxima verosimilitud estarı́an subestimando probabilidades. Usando probabilidades a priori adecuadas (ver Durbin et al., Biological Secuence Analysis, Capı́tulo 11) los estimadores de valor esperado a posteriori para las probabilidades de transición resultan de la forma: Probabilidades de absorción Estimación de parámetros p̂ij = nij + αij , ni• + Ai donde αij son parámetros positivos que son especificados con P la distribución a priori, y Ai = j∈E αij . Los parámetros αij se llaman pseudoconteos.