' $ Cadenas de Markov y aplicaciones en biologı́a computacional Alex Sánchez Departament d’Estadı́stica U.B. Estadı́stica i Bioinformàtica & Cadenas de Markov en Biologia Computacional ' % Alex Sánchez Esquema del tema $ Modelos de secuencias biológicas Cadenas de Markov • Definición y conceptos básicos • Ecuaciones de Chapman Kolmogorov • Distribuciones estacionarias e invariantes Inferencia con cadenas de Markov • Verosimilitud • Estimación (MV) de los parámetros. Aplicaciones de los MM en biocomputación • Islas CpG • Modelos de evolucion molecular • Matrices de sustitución & Departament d’Estadı́stica U.B. 1 % Cadenas de Markov en Biologia Computacional ' 1. Alex Sánchez $ Modelos probabilı́sticos de secuencias biológicas Deseamos responder cuestiones del tipo de: • Reconocimiento de patrones: ¿Esta secuencia es un sitio de “splice”? • Discriminación entre modelos: ¿A que se parece más esta proteı́na, a una hemoglobina o a una mioglobina? • Búsqueda en bases de datos: ¿Qué secuencias, si hay alguna, de SWISS PROT son parecidas a una dada? Los modelos probabilı́sticos de secuencias biológicas resultan adecuados para hacerlo & 2 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Puntuación de secuencias La idea básica en muchos métodos, es puntuar las secuencias con la probabilidad que les asigna un modelo M dado, X S(x) = P (x|M), P (x|M) = 1. ∀x Esto permite tambien establecer una medida de cuan verosimil resulta un modelo, a la vista de una secuencia: L(M|x) ∝ P (x|M) & Departament d’Estadı́stica U.B. 3 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Podemos reformular las cuestiones anteriores en términos de probabilidad o verosimilitud. Por ejemplo: La cuestión sobre reconocimiento de patrones: • ¿Esta secuencia es un sitio de “splice”? • equivale a preguntarse si: ¿Es P (x|Msplice ) suficientemente alta para decidir que sı́ lo es? El problema de discriminación entre modelos: • ¿A que se parece más esta proteı́na, a una hemoglobina o a una mioglobina? • Será equivalente a ¿Que es relativamente mayor L(Mmiog |x) o L(Mhemo |x)? & 4 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Más sobre modelos probabilı́sticos ... Stochastic Modeling Techniques: Understanding and using hidden Markov models • 2.1. What is a model y • 2.2. Bayesian statistics When does a sequence fit a model? http://www.cse.ucsc.edu/research/compbio/sam.html & Departament d’Estadı́stica U.B. 5 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Tipos de modelos para secuencias Los tipos más utilizados de modelos son: Secuencias de sucesos independientes Modelos de Cadenas de Markov Modelos Ocultos de Markov & 6 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 2. Alex Sánchez % $ Modelos de independencia Podemos imaginar que una secuencia de nucleótidos (AN) o aminoácidos (proteı́nas) se origina a partir de lanzamientos independientes de una moneda de 4 (AN) o 20 caras (AA) • Por ejemplo en los AN podemos obtener A, con probabilidad PA , C con probabilidad PC , G con probabilidad PG y T con probabilidad 1 − PA − PC − PG . • Observamos la secuencia de resultados O = GAT T ACA. Podemos modelizar esta situación suponiendo que tenemos realizaciones independientes de una variable aleatoria que toma valores en {0, 1}4 segun cada nucleótido sea A, C, G, T con probabilidades PA , PC , PG , PT & Departament d’Estadı́stica U.B. 7 % Cadenas de Markov en Biologia Computacional ' 2.1. Alex Sánchez $ Probabilidad y verosimilitud Bajo el modelo de independencia (M ) la probabilidad de observar la secuencia O será: P (O|M ) = PG · PA · PT · PT · PA · PC · PA = PA3 · PC1 · PG1 · PT2 Dada una secuencia formada por nA , As, nC Cs, etc la verosimilitud del modelo M será: L(M |O) = PAnA · PCnC · PGnG · PTnT . & 8 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez Estimación de los parámetros % $ La estimación máximo verosimil de los parametros resulta (confı́rmelo): nA b M L nC b M L nG b M L nT PbAM L = , PC = , PG = , PT = . n n n n Una estimación bayesiana, tomando como prior una distribución de Dirichlet, X Dir(αqA , ..., αqT ), qi = 1 y como estimador la media de la distribución posterior(MPE) da un resultado similar: ni + αqi PbiM P E = , i = A, C, G, T. n+α salvo por los pseudocontajes αqi , que a veces se interpretan como una pequeña perturbación de la muestra para evitar estimaciones iguales a cero. & Departament d’Estadı́stica U.B. 9 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Los modelos de independencia resultan útiles como modelo nulo pero suponer que hay independencia entre los sucesos suele ser una simplificación excesiva. • Correlaciones entre los nucleotidos debido a su pertenencia a uno u otro codon, • Correlaciones entre codones por la presencia de señales, • Correlaciones entre las secuencias de AA debido a los plegamientos de las proteinas... En estos casos resultan adecuados modelos capaces de capturar las relaciones de dependencia entre un suceso y los anteriores. Uno de los más adecuados son las cadenas de Markov. & 10 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 3. Alex Sánchez % $ Cadenas de Markov Procesos estocásticos Definición. Propiedad de Markov (Matriz de) Probabilidades de transición Calculos con cadenas de Markov • Probabilidad de una secuencia de observaciones • Probabilidad de encontrarse en un estado en tras n transiciones. • Probabilidad de todos los estados a cada transiciópn. Distribuciones estacionarias. Cadenas estacionarias & Departament d’Estadı́stica U.B. 11 % Cadenas de Markov en Biologia Computacional ' 3.1. Alex Sánchez $ Procesos estocásticos o aleatorios Un proceso estocástico (random process) en tiempo discreto es una familia (o una sucesión) de variables aleatorias X0 , X1 , X2 , ... = {Xn }n≥0 . Normalmente estas variables son dependientes, es decir el valor de una de ellas depende le las restantes a traves de su distribución conjunta. Tı́picamente Xn describe algún fenómeno que evoluciona en el tiempo (ej. Población) o el espacio. Más: http://en.wikipedia.org/wiki/Stochastic_process & 12 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Ejemplos de procesos estocásticos Proceso de Bernouilli: Xi ∼ b(1, p): Repeticiones independientes de una observación que puede valer 1 o 0. Paseo aleatorio (random walk ) Sea X0 = 0 y Xi = Xi−1 + Zi , i ≥ 1, donde Z1 , Z2 , etc. son variables iid tales que: P (Zi = −1) = p, P (Zi = 1) = 1 − p. En este caso el futuro Xn+1 , Xn+2 , ... tan sólo depende del estado actual Xn . Proceso de Poisson & Departament d’Estadı́stica U.B. 13 % Cadenas de Markov en Biologia Computacional ' 3.2. Alex Sánchez Conceptos básicos sobre cadenas de Markov $ Las cadenas de Markov son un tipo de proceso estocástico, {Xj }j≥0 , de gran importancia en bioinformática Suelen describir procesos discretos que evolucionan en el tiempo (generaciones) o en el espacio (secuencias biológicas) En cada instante la cadena visita uno (Si ) de un cierto número de estados posibles S = {S1 , ...., SN }. Caracterı́stica principal: Propiedad de Markov (falta de memoria): Sólo importa el estado actual para predecir el estado futuro: P (Xj+1 = kj+1 |X0 = k0 , X1 = k1 , ..., Xj = kj ) = P (Xj+1 = kj+1 |Xj = kj ). & Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 14 Alex Sánchez % $ Figura 1: Una cadena de Markov evoluciona entre un conjunto de estados. A menudo se indican los estados S1 , ..., SN como 1, 2, ..., N para simplificar la notación. & Departament d’Estadı́stica U.B. 15 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Figura 2: Las cadenas de Markov tambien pueden describirse mediante máquinas de estados o autómatas finitos & 16 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Orden de una cadena de Markov El orden de una cadena de Markov establece el número de estados anteriores de los cuales depende la probabilidad de un estado, en un instante dado del proceso: Ası́, dado S = {S1 , ..., SN }, en una cadena de primer orden tendremos: P (Xj+1 = kj+1 |X0 = k0 , X1 = k1 , ..., Xj = kj ) = P (Xj+1 = kj+1 |Xj = kj ), y en una cadena de orden dos P (Xj+1 = kj+1 |Xj = kj , Xj−1 = kj−1 , ..., X0 = k0 ) = P (Xj+1 = kj+1 |Xj = kj , Xj−1 = kj−1 ), & Departament d’Estadı́stica U.B. 17 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Ejemplo: Modelos de cadenas de Markov para el ADN Los valores que toma un proceso discreto no son necesariamente numéricos, ni el ı́ndice indica necesariamente el tiempo. En una secuencia de ADN tendremos S = {A, C, G, T } y n la posición del nucleótido n en la secuencia, es decir Xi indica el nucleótido que aparece en la posición iésima. Teniendo en cuenta el código genético no parece realista que un nucleótido sea independiente de sus predecesores. Una cadena de Markov sobre S puede ser una mejor aproximación. Si deseamos tener en cuenta dependencias más complejas nos basaremos en cadenas de orden superior a 1. & 18 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Matriz de probabilidades de transición Dada una cadena de Markov X0 , X1 , ... sobre un estado de espacios S, por ejemplo S = {A, C, G, T } podemos agrupar en una matriz cuadrada todas las probabilidades de transición de un estado a otro. Si aij = P (Xn+1 transición es: p11 p 21 P= p31 p41 & = j|Xn = i) la matriz de probabilidades de p12 p13 p22 p23 p32 p33 p42 p43 Departament d’Estadı́stica U.B. p14 4 p24 X pij = 1, i = 1, ..., 4. , p34 j=1 p44 19 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Probabilidades de transición de n pasos Si indicamos por Pijn = P (Xn+m = j|Xm = i) , el teorema de Chapman-Kolmogorov establece que: Pijn = ∞ X n m Pik Pkj . k=0 Asi : P (n+m) = P (n) P (m) , (n) y por inducción: Pij = P n . & 20 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Distribución inicial de una CM El estado inicial de una cadena de Markov, X0 suele ser también aleatorio y en general se considera que su valor viene determinado por una distribución de probabilidad inicial. Sea πj = π(j) = P (X0 = Sj ), j ∈ S = {S1 , ..., SN } La distribución de probabilidad inicial suele representarse como el vector fila: π = (π(1), ..., π(N )) = (P (X0 = S1 ), ..., P (X0 = SN )) . & Departament d’Estadı́stica U.B. 21 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez Estado inicial y final en las CM $ El estado inicial del sistema suele describirse mediante un vector de probabilidades iniciales π = (πi ); πi = P (Si ), i = 1, ...N En vez de las probabilidades iniciales podemos definir unos estados inicial y final que no se corresponden con estados “reales” sino que son estados silenciosos • El sistema siempre empieza en el estado inicial, B = Inicio = 0 πi = P (X1 = Si ) = pInicio,i = a0,i • El sistema siempre acaba en el estado final E = Fin. Este estado es menos relevante puesto que en general suele definirse pt,Fin = τ, ∀t ∈ S. & 22 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Figura 3: Una cadena de Markov con estado inicial y final & Departament d’Estadı́stica U.B. 23 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Probabilidad de una secuencia de observaciones Como consecuencia de la propiedad de Markov, la probabilidad de que una cadena M recorra un “camino” dado, es decir pase por una determinada sucesión de estados, k1 k2 ...kL es: P (X1 = k1 , X2 = k2 , ..., XL = kL |M) = P (k1 , k2 , ..., kL ) = P (X1 = k1 ) · P (X2 = k2 |X1 = k1 ) · . . . ·P (XL = kL |XL−1 = kL−1 ) = P1 (k1 )pk1 k2 pk2 k3 · · · · · pkL−1 kL = (indicando ki = i) = P1 (k1 )p12 p23 · · · · · pL−1L . & 24 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Verosimilitud de un modelo de cadena de Markov De manera recı́proca a la fórmula anterior, la verosimilitud de un modelo de cadena de markov, M, dada una secuencia de observaciones k1 , ..., kL será: L (M |k1 , k2 , ..., kL ) = = π(k1 )p12 p23 · · · · · pL−1L π(k1 ) L−1 Y pi−1,i i Como en el caso de los modelos de independencia la verosimilitud puede utilizarse para puntuar (score una secuencia (ver ejemplo de las islas CpG, más adelante). & Departament d’Estadı́stica U.B. 25 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Otras caracterı́sticas de las cadenas de Markov Entre los conceptos interesantes a destacar en el estudio de las cadenas de Markov cabe destacar Ecuaciones de Chapmann-Kolmogorov Probabilidades de transición de n pasos Distribución estacionaria y distribución lı́mite de una cadena de Markov Clasificación de los estados de las cadenas de Markov y Caracterización de las CM por sus estados. Cadenas ergódicas, cadenas reversibles Cadenas de Markov en tiempo continuo ... & 26 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' Alex Sánchez % $ Más información en... De un curso de bioinformática en U. Zurich... http://mathweb.unizh.ch/~dasven/bio02markov.pdf Un muy buen curso de procesos estocásticos http://www.stat.sfu.ca/~lockhart/richard/380/00_3/ lectures/08/web.html Un paseo por la Wikipedia, enciclopedia gratis en internet http://en.wikipedia.org/wiki/Markov_chain El juego de la escalera, como motivación. Ejemplos en R! http://wiener.math.csi.cuny.edu/st/Projects/ ChutesAndLadders/ChutesAndLadders.pdf & Departament d’Estadı́stica U.B. 27 % Cadenas de Markov en Biologia Computacional ' 4. Alex Sánchez $ Estimación en las cadenas de Markov Sea x una secuencia de observaciones de una cadena finita de Markov, con K estados, y con matriz de probabilidades de transición P = pij , i, j = 1..K, x = x0 x1 ...xL La verosimilitud del modelo és: L(M|x) = n Y i=1 pji−1 j = K K Y Y n pijij . i=1 j=1 & Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 28 Alex Sánchez % $ Cálculos directos llevan al siguiente estimador máximo verosı́mil de pij : nij , pbij = n siendo nij el numero de transiciones entre los estados i, j y n el total de transiciones. & Departament d’Estadı́stica U.B. 29 % Cadenas de Markov en Biologia Computacional ' 5. Alex Sánchez Aplicación: Las islas CpG $ El par de nucleótidos CG es relativamente raro en las secuencias de DNA excepto en ciertos fragmentos, biológicamente significantes, de varios centenares de nucleótidos de longitud, en que son muy abundantes. Dichos fragmentos se denominan islas CpG, y en contraste el resto del genoma es el oceano. Podemos observar la secuencia de dinucleótidos pero no sabemos a que tipo de región pertence cada fragmento O = AACAT {z A} | {zCCG} AT | ACAT | {z A} CGT No CpG? Isla CpG? No CpG? Una cuestión relevante: Dada un fragmento de una secuencia genómica, ¿cómo podemos decidir si proviene o no de una isla CpG? & Departament d’Estadı́stica U.B. 30 % Cadenas de Markov en Biologia Computacional ' $ 5.1. Alex Sánchez Modelización de las islas CpG Las islas CpG (los océanos) presentan una peculiaridad 1. Hay más Cs y Gs en las islas (más As y Ts en los océanos) 2. La probabilidad de hallar una G despues de un nucleótido será mayor en una isla (menor en un océano) si en la posición actual hay una C que si no la hay Un modelo de Markov de orden 1 puede capturar estas relaciones de dependencia. Las probabilidades de cada transición van a depender de si estamos en una isla CpG o no −→ Construimos un modelo de markov para cada caso & Departament d’Estadı́stica U.B. 31 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Figura 4: Modelo de Markov para las islas CpG & 32 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 5.2. Alex Sánchez % $ Estimación de las probabilidades De bancos de datos genómicos podemos extraer secuencias pertenecientes a islas CpG (grupo “+”) y pertenecientes al océanos (grupo “-”). Las probabilidades de transición se estimaran mediante ∗ máxima verosimilitud: Si Cst representa el número de veces que el nucleótido t sigue al s en una secuencia, siendo ∗ ∈ {+, −} y s, t ∈ {A, C, G, T } las probabilidades de transición estimadas son: + − Cst Cst − a+ = , a = P P st st + − . k Csk k Csk & Departament d’Estadı́stica U.B. 33 % Cadenas de Markov en Biologia Computacional ' Alex Sánchez $ Figura 5: Estimación de las probabilidades en cada modelo. Al basarse en una secuencia corta aparece un cero en la transición C → G. Un enfoque bayesiano con pseudocontajes remediarı́a este problema! & 34 Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 5.3. Alex Sánchez % $ Discriminación entre secuencias Supongamos que queremos puntuar una secuencia para decidir si corresponde a una isla CpG o a un océano Disponemos de 2 modelos • El modelo “+” de las islas CpG • El modelo “-” de los océanos. La idea subyacente tras el sistema de puntuaciones es: • Si la secuencia pertenece a una isla CpG tendrá una probabilidad más alta sobre el modelo “+” que sobre el “-” • Si la secuencia no es de una isla CpG la probabilidad que le asignará el modelo “-” será mayor & Departament d’Estadı́stica U.B. 35 % Cadenas de Markov en Biologia Computacional ' 5.4. Alex Sánchez Puntuación de una secuencia $ En vez de multiplicar probabilidades, sumaremos los logaritmos de las razones de probabilidades segun cada modelo y calcularemos un log-odds ratio P (O|+) S(O) = log P (O|−) ! QL + i=1 aoi−1 oi = log QL − i=1 aoi−1 oi ! L L X X a+ oi−1 oi = = βoi−1 oi log a− oi−1 oi i=1 i=1 La decisión de si la secuencia es o no una isla CpG dependerá de que los valores sean más o menos altos & Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 36 Alex Sánchez % $ Figura 6: Matriz de puntuaciones basada en los modelos del ejemplo anterior. Al basarse en secuencias cortas la transición C → G se puntuará como un 1. Deberı́an tomarse más valores para mejorar la estimación o bien adoptar un enfoque bayesiano con pseudocontajes! & Departament d’Estadı́stica U.B. 37 % Cadenas de Markov en Biologia Computacional ' 6. Alex Sánchez $ Un ejemplo numérico De un conjunto de secuencias de ADN humano se extrajeron 48 islas CpG potenciales. Se derivaron 2 modelos de Markov, uno para las islas CpG y otro para los océanos A partir de ellas se construyo la tabla de razones de verosimilitud βoi−1 oi Esta tabla se utilizó para puntuar todas las secuencias. La figura siguiente muestra como las islas CpG obtienen efectivamente una mayor puntuación. & Departament d’Estadı́stica U.B. Cadenas de Markov en Biologia Computacional ' 38 Alex Sánchez % $ Figura 7: Histograma de las puntuaciones normalizadas para la longitud. La trama oscura corresponde a islas CpG y la clara a océanos & Departament d’Estadı́stica U.B. 39 % Cadenas de Markov en Biologia Computacional ' 7. Alex Sánchez $ Bibliografı́a y enlaces Durbin Richard et al. (1998) Biological sequence analysis. Cambridge University Press Koski, Timo. (2002) Hidden Markov Models in Bioinformatics. Kluwer Rabiner, L.R. (1989) A tutorial on hidden markov models and selected applications in speech recognition.Proceedings of the IEEE 77:257-286 Un enlace a materiales y enlaces sobre MMO http://www.bio.ub.es/estad/personal/alexsanchez/ personal/materials/HMM_Links.htm & Departament d’Estadı́stica U.B. 40 %