Modelos de Markov en bioinformática

Anuncio
'
$
Cadenas de Markov y aplicaciones
en biologı́a computacional
Alex Sánchez
Departament d’Estadı́stica U.B.
Estadı́stica i Bioinformàtica
&
Cadenas de Markov en Biologia Computacional
'
%
Alex Sánchez
Esquema del tema
$
Modelos de secuencias biológicas
Cadenas de Markov
• Definición y conceptos básicos
• Ecuaciones de Chapman Kolmogorov
• Distribuciones estacionarias e invariantes
Inferencia con cadenas de Markov
• Verosimilitud
• Estimación (MV) de los parámetros.
Aplicaciones de los MM en biocomputación
• Islas CpG
• Modelos de evolucion molecular
• Matrices de sustitución
&
Departament d’Estadı́stica U.B.
1
%
Cadenas de Markov en Biologia Computacional
'
1.
Alex Sánchez
$
Modelos probabilı́sticos de secuencias
biológicas
Deseamos responder cuestiones del tipo de:
• Reconocimiento de patrones: ¿Esta secuencia es un
sitio de “splice”?
• Discriminación entre modelos: ¿A que se parece más
esta proteı́na, a una hemoglobina o a una mioglobina?
• Búsqueda en bases de datos: ¿Qué secuencias, si hay
alguna, de SWISS PROT son parecidas a una dada?
Los modelos probabilı́sticos de secuencias biológicas resultan
adecuados para hacerlo
&
2
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Puntuación de secuencias
La idea básica en muchos métodos, es puntuar las secuencias
con la probabilidad que les asigna un modelo M dado,
X
S(x) = P (x|M),
P (x|M) = 1.
∀x
Esto permite tambien establecer una medida de cuan verosimil
resulta un modelo, a la vista de una secuencia:
L(M|x) ∝ P (x|M)
&
Departament d’Estadı́stica U.B.
3
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Podemos reformular las cuestiones anteriores en términos de
probabilidad o verosimilitud. Por ejemplo:
La cuestión sobre reconocimiento de patrones:
• ¿Esta secuencia es un sitio de “splice”?
• equivale a preguntarse si: ¿Es P (x|Msplice ) suficientemente
alta para decidir que sı́ lo es?
El problema de discriminación entre modelos:
• ¿A que se parece más esta proteı́na, a una hemoglobina o a
una mioglobina?
• Será equivalente a ¿Que es relativamente mayor
L(Mmiog |x) o L(Mhemo |x)?
&
4
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Más sobre modelos probabilı́sticos ...
Stochastic Modeling Techniques: Understanding and using
hidden Markov models
• 2.1. What is a model y
• 2.2. Bayesian statistics When does a sequence fit a model?
http://www.cse.ucsc.edu/research/compbio/sam.html
&
Departament d’Estadı́stica U.B.
5
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Tipos de modelos para secuencias
Los tipos más utilizados de modelos son:
Secuencias de sucesos independientes
Modelos de Cadenas de Markov
Modelos Ocultos de Markov
&
6
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
2.
Alex Sánchez
%
$
Modelos de independencia
Podemos imaginar que una secuencia de nucleótidos (AN) o
aminoácidos (proteı́nas) se origina a partir de lanzamientos
independientes de una moneda de 4 (AN) o 20 caras (AA)
• Por ejemplo en los AN podemos obtener A, con
probabilidad PA , C con probabilidad PC , G con
probabilidad PG y T con probabilidad 1 − PA − PC − PG .
• Observamos la secuencia de resultados O = GAT T ACA.
Podemos modelizar esta situación suponiendo que tenemos
realizaciones independientes de una variable aleatoria que toma
valores en {0, 1}4 segun cada nucleótido sea A, C, G, T con
probabilidades PA , PC , PG , PT
&
Departament d’Estadı́stica U.B.
7
%
Cadenas de Markov en Biologia Computacional
'
2.1.
Alex Sánchez
$
Probabilidad y verosimilitud
Bajo el modelo de independencia (M ) la probabilidad de
observar la secuencia O será:
P (O|M ) = PG · PA · PT · PT · PA · PC · PA = PA3 · PC1 · PG1 · PT2
Dada una secuencia formada por nA , As, nC Cs, etc la
verosimilitud del modelo M será:
L(M |O) = PAnA · PCnC · PGnG · PTnT .
&
8
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
Estimación de los parámetros
%
$
La estimación máximo verosimil de los parametros resulta
(confı́rmelo):
nA b M L
nC b M L
nG b M L
nT
PbAM L =
, PC =
, PG =
, PT =
.
n
n
n
n
Una estimación bayesiana, tomando como prior una
distribución de Dirichlet,
X
Dir(αqA , ..., αqT ),
qi = 1
y como estimador la media de la distribución posterior(MPE)
da un resultado similar:
ni + αqi
PbiM P E =
, i = A, C, G, T.
n+α
salvo por los pseudocontajes αqi , que a veces se interpretan
como una pequeña perturbación de la muestra para evitar
estimaciones iguales a cero.
&
Departament d’Estadı́stica U.B.
9
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Los modelos de independencia resultan útiles como modelo nulo
pero suponer que hay independencia entre los sucesos suele ser
una simplificación excesiva.
• Correlaciones entre los nucleotidos debido a su pertenencia
a uno u otro codon,
• Correlaciones entre codones por la presencia de señales,
• Correlaciones entre las secuencias de AA debido a los
plegamientos de las proteinas...
En estos casos resultan adecuados modelos capaces de capturar
las relaciones de dependencia entre un suceso y los anteriores.
Uno de los más adecuados son las cadenas de Markov.
&
10
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
3.
Alex Sánchez
%
$
Cadenas de Markov
Procesos estocásticos
Definición. Propiedad de Markov
(Matriz de) Probabilidades de transición
Calculos con cadenas de Markov
• Probabilidad de una secuencia de observaciones
• Probabilidad de encontrarse en un estado en tras n
transiciones.
• Probabilidad de todos los estados a cada transiciópn.
Distribuciones estacionarias. Cadenas estacionarias
&
Departament d’Estadı́stica U.B.
11
%
Cadenas de Markov en Biologia Computacional
'
3.1.
Alex Sánchez
$
Procesos estocásticos o aleatorios
Un proceso estocástico (random process) en tiempo discreto es
una familia (o una sucesión) de variables aleatorias
X0 , X1 , X2 , ... = {Xn }n≥0 .
Normalmente estas variables son dependientes, es decir el valor
de una de ellas depende le las restantes a traves de su
distribución conjunta.
Tı́picamente Xn describe algún fenómeno que evoluciona en el
tiempo (ej. Población) o el espacio.
Más: http://en.wikipedia.org/wiki/Stochastic_process
&
12
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Ejemplos de procesos estocásticos
Proceso de Bernouilli: Xi ∼ b(1, p): Repeticiones
independientes de una observación que puede valer 1 o 0.
Paseo aleatorio (random walk ) Sea X0 = 0 y Xi = Xi−1 + Zi ,
i ≥ 1, donde Z1 , Z2 , etc. son variables iid tales que:
P (Zi = −1) = p, P (Zi = 1) = 1 − p. En este caso el futuro
Xn+1 , Xn+2 , ... tan sólo depende del estado actual Xn .
Proceso de Poisson
&
Departament d’Estadı́stica U.B.
13
%
Cadenas de Markov en Biologia Computacional
'
3.2.
Alex Sánchez
Conceptos básicos sobre cadenas de Markov
$
Las cadenas de Markov son un tipo de proceso estocástico,
{Xj }j≥0 , de gran importancia en bioinformática
Suelen describir procesos discretos que evolucionan en el
tiempo (generaciones) o en el espacio (secuencias biológicas)
En cada instante la cadena visita uno (Si ) de un cierto número
de estados posibles S = {S1 , ...., SN }.
Caracterı́stica principal: Propiedad de Markov (falta de
memoria): Sólo importa el estado actual para predecir el estado
futuro:
P (Xj+1
=
kj+1 |X0 = k0 , X1 = k1 , ..., Xj = kj )
=
P (Xj+1 = kj+1 |Xj = kj ).
&
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
14
Alex Sánchez
%
$
Figura 1: Una cadena de Markov evoluciona entre un conjunto de
estados. A menudo se indican los estados S1 , ..., SN como 1, 2, ..., N
para simplificar la notación.
&
Departament d’Estadı́stica U.B.
15
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Figura 2: Las cadenas de Markov tambien pueden describirse mediante máquinas de estados o autómatas finitos
&
16
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Orden de una cadena de Markov
El orden de una cadena de Markov establece el número de
estados anteriores de los cuales depende la probabilidad de un
estado, en un instante dado del proceso:
Ası́, dado S = {S1 , ..., SN }, en una cadena de primer orden
tendremos:
P (Xj+1
=
kj+1 |X0 = k0 , X1 = k1 , ..., Xj = kj )
=
P (Xj+1 = kj+1 |Xj = kj ),
y en una cadena de orden dos
P (Xj+1
= kj+1 |Xj = kj , Xj−1 = kj−1 , ..., X0 = k0 )
= P (Xj+1 = kj+1 |Xj = kj , Xj−1 = kj−1 ),
&
Departament d’Estadı́stica U.B.
17
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Ejemplo: Modelos de cadenas de Markov para el ADN
Los valores que toma un proceso discreto no son necesariamente
numéricos, ni el ı́ndice indica necesariamente el tiempo.
En una secuencia de ADN tendremos S = {A, C, G, T } y n la
posición del nucleótido n en la secuencia, es decir Xi indica el
nucleótido que aparece en la posición iésima.
Teniendo en cuenta el código genético no parece realista que un
nucleótido sea independiente de sus predecesores.
Una cadena de Markov sobre S puede ser una mejor
aproximación. Si deseamos tener en cuenta dependencias más
complejas nos basaremos en cadenas de orden superior a 1.
&
18
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Matriz de probabilidades de transición
Dada una cadena de Markov X0 , X1 , ... sobre un estado de
espacios S, por ejemplo S = {A, C, G, T } podemos agrupar en
una matriz cuadrada todas las probabilidades de transición de
un estado a otro.
Si aij = P (Xn+1
transición es:

p11

p
 21
P=
p31

p41
&
= j|Xn = i) la matriz de probabilidades de
p12
p13
p22
p23
p32
p33
p42
p43
Departament d’Estadı́stica U.B.
p14


4
p24 
 X
pij = 1, i = 1, ..., 4.
,
p34 
 j=1
p44
19
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Probabilidades de transición de n pasos
Si indicamos por
Pijn = P (Xn+m = j|Xm = i) ,
el teorema de Chapman-Kolmogorov establece que:
Pijn =
∞
X
n m
Pik
Pkj .
k=0
Asi : P (n+m) = P (n) P (m) ,
(n)
y por inducción: Pij = P n .
&
20
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Distribución inicial de una CM
El estado inicial de una cadena de Markov, X0 suele ser
también aleatorio y en general se considera que su valor viene
determinado por una distribución de probabilidad inicial.
Sea πj = π(j) = P (X0 = Sj ), j ∈ S = {S1 , ..., SN }
La distribución de probabilidad inicial suele representarse como
el vector fila:
π = (π(1), ..., π(N )) = (P (X0 = S1 ), ..., P (X0 = SN )) .
&
Departament d’Estadı́stica U.B.
21
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
Estado inicial y final en las CM
$
El estado inicial del sistema suele describirse mediante un
vector de probabilidades iniciales
π = (πi );
πi = P (Si ), i = 1, ...N
En vez de las probabilidades iniciales podemos definir unos
estados inicial y final que no se corresponden con estados
“reales” sino que son estados silenciosos
• El sistema siempre empieza en el estado inicial,
B = Inicio = 0
πi = P (X1 = Si ) = pInicio,i = a0,i
• El sistema siempre acaba en el estado final E = Fin. Este
estado es menos relevante puesto que en general suele
definirse pt,Fin = τ, ∀t ∈ S.
&
22
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Figura 3: Una cadena de Markov con estado inicial y final
&
Departament d’Estadı́stica U.B.
23
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Probabilidad de una secuencia de observaciones
Como consecuencia de la propiedad de Markov, la probabilidad
de que una cadena M recorra un “camino” dado, es decir pase
por una determinada sucesión de estados, k1 k2 ...kL es:
P (X1 = k1 , X2 = k2 , ..., XL = kL |M)
= P (k1 , k2 , ..., kL )
= P (X1 = k1 ) · P (X2 = k2 |X1 = k1 ) · . . .
·P (XL = kL |XL−1 = kL−1 )
= P1 (k1 )pk1 k2 pk2 k3 · · · · · pkL−1 kL = (indicando ki = i)
= P1 (k1 )p12 p23 · · · · · pL−1L .
&
24
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Verosimilitud de un modelo de cadena de Markov
De manera recı́proca a la fórmula anterior, la verosimilitud de
un modelo de cadena de markov, M, dada una secuencia de
observaciones k1 , ..., kL será:
L (M |k1 , k2 , ..., kL ) =
=
π(k1 )p12 p23 · · · · · pL−1L
π(k1 )
L−1
Y
pi−1,i
i
Como en el caso de los modelos de independencia la
verosimilitud puede utilizarse para puntuar (score una
secuencia (ver ejemplo de las islas CpG, más adelante).
&
Departament d’Estadı́stica U.B.
25
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Otras caracterı́sticas de las cadenas de Markov
Entre los conceptos interesantes a destacar en el estudio de las
cadenas de Markov cabe destacar
Ecuaciones de Chapmann-Kolmogorov
Probabilidades de transición de n pasos
Distribución estacionaria y distribución lı́mite de una cadena
de Markov
Clasificación de los estados de las cadenas de Markov y
Caracterización de las CM por sus estados.
Cadenas ergódicas, cadenas reversibles
Cadenas de Markov en tiempo continuo ...
&
26
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
%
$
Más información en...
De un curso de bioinformática en U. Zurich...
http://mathweb.unizh.ch/~dasven/bio02markov.pdf
Un muy buen curso de procesos estocásticos
http://www.stat.sfu.ca/~lockhart/richard/380/00_3/
lectures/08/web.html
Un paseo por la Wikipedia, enciclopedia gratis en internet
http://en.wikipedia.org/wiki/Markov_chain
El juego de la escalera, como motivación. Ejemplos en R!
http://wiener.math.csi.cuny.edu/st/Projects/
ChutesAndLadders/ChutesAndLadders.pdf
&
Departament d’Estadı́stica U.B.
27
%
Cadenas de Markov en Biologia Computacional
'
4.
Alex Sánchez
$
Estimación en las cadenas de Markov
Sea x una secuencia de observaciones de una cadena finita de
Markov, con K estados, y con matriz de probabilidades de
transición P = pij , i, j = 1..K,
x = x0 x1 ...xL
La verosimilitud del modelo és:
L(M|x) =
n
Y
i=1
pji−1 j =
K
K Y
Y
n
pijij .
i=1 j=1
&
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
28
Alex Sánchez
%
$
Cálculos directos llevan al siguiente estimador máximo
verosı́mil de pij :
nij
,
pbij =
n
siendo nij el numero de transiciones entre los estados i, j y n el
total de transiciones.
&
Departament d’Estadı́stica U.B.
29
%
Cadenas de Markov en Biologia Computacional
'
5.
Alex Sánchez
Aplicación: Las islas CpG
$
El par de nucleótidos CG es relativamente raro en las
secuencias de DNA excepto en ciertos fragmentos,
biológicamente significantes, de varios centenares de
nucleótidos de longitud, en que son muy abundantes.
Dichos fragmentos se denominan islas CpG, y en contraste el
resto del genoma es el oceano.
Podemos observar la secuencia de dinucleótidos pero no
sabemos a que tipo de región pertence cada fragmento
O = AACAT
{z A}
| {zCCG} AT
| ACAT
| {z A} CGT
No CpG?
Isla CpG?
No CpG?
Una cuestión relevante: Dada un fragmento de una secuencia
genómica, ¿cómo podemos decidir si proviene o no de una isla
CpG?
&
Departament d’Estadı́stica U.B.
30
%
Cadenas de Markov en Biologia Computacional
'
$
5.1.
Alex Sánchez
Modelización de las islas CpG
Las islas CpG (los océanos) presentan una peculiaridad
1.
Hay más Cs y Gs en las islas (más As y Ts en los océanos)
2.
La probabilidad de hallar una G despues de un nucleótido
será mayor en una isla (menor en un océano) si en la
posición actual hay una C que si no la hay
Un modelo de Markov de orden 1 puede capturar estas
relaciones de dependencia.
Las probabilidades de cada transición van a depender de si
estamos en una isla CpG o no −→ Construimos un modelo de
markov para cada caso
&
Departament d’Estadı́stica U.B.
31
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Figura 4: Modelo de Markov para las islas CpG
&
32
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
5.2.
Alex Sánchez
%
$
Estimación de las probabilidades
De bancos de datos genómicos podemos extraer secuencias
pertenecientes a islas CpG (grupo “+”) y pertenecientes al
océanos (grupo “-”).
Las probabilidades de transición se estimaran mediante
∗
máxima verosimilitud: Si Cst
representa el número de veces que
el nucleótido t sigue al s en una secuencia, siendo ∗ ∈ {+, −} y
s, t ∈ {A, C, G, T } las probabilidades de transición estimadas
son:
+
−
Cst
Cst
−
a+
=
,
a
=
P
P
st
st
+
− .
k Csk
k Csk
&
Departament d’Estadı́stica U.B.
33
%
Cadenas de Markov en Biologia Computacional
'
Alex Sánchez
$
Figura 5: Estimación de las probabilidades en cada modelo. Al
basarse en una secuencia corta aparece un cero en la transición
C → G. Un enfoque bayesiano con pseudocontajes remediarı́a este
problema!
&
34
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
5.3.
Alex Sánchez
%
$
Discriminación entre secuencias
Supongamos que queremos puntuar una secuencia para decidir
si corresponde a una isla CpG o a un océano
Disponemos de 2 modelos
• El modelo “+” de las islas CpG
• El modelo “-” de los océanos.
La idea subyacente tras el sistema de puntuaciones es:
• Si la secuencia pertenece a una isla CpG tendrá una
probabilidad más alta sobre el modelo “+” que sobre el “-”
• Si la secuencia no es de una isla CpG la probabilidad que le
asignará el modelo “-” será mayor
&
Departament d’Estadı́stica U.B.
35
%
Cadenas de Markov en Biologia Computacional
'
5.4.
Alex Sánchez
Puntuación de una secuencia
$
En vez de multiplicar probabilidades, sumaremos los logaritmos
de las razones de probabilidades segun cada modelo y
calcularemos un log-odds ratio
P (O|+)
S(O) = log
P (O|−)
!
QL +
i=1 aoi−1 oi
= log QL −
i=1 aoi−1 oi
!
L
L
X
X
a+
oi−1 oi
=
=
βoi−1 oi
log
a−
oi−1 oi
i=1
i=1
La decisión de si la secuencia es o no una isla CpG
dependerá de que los valores sean más o menos altos
&
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
36
Alex Sánchez
%
$
Figura 6: Matriz de puntuaciones basada en los modelos del ejemplo
anterior. Al basarse en secuencias cortas la transición C → G se
puntuará como un 1. Deberı́an tomarse más valores para mejorar la
estimación o bien adoptar un enfoque bayesiano con pseudocontajes!
&
Departament d’Estadı́stica U.B.
37
%
Cadenas de Markov en Biologia Computacional
'
6.
Alex Sánchez
$
Un ejemplo numérico
De un conjunto de secuencias de ADN humano se extrajeron 48
islas CpG potenciales.
Se derivaron 2 modelos de Markov, uno para las islas CpG y
otro para los océanos
A partir de ellas se construyo la tabla de razones de
verosimilitud βoi−1 oi
Esta tabla se utilizó para puntuar todas las secuencias.
La figura siguiente muestra como las islas CpG obtienen
efectivamente una mayor puntuación.
&
Departament d’Estadı́stica U.B.
Cadenas de Markov en Biologia Computacional
'
38
Alex Sánchez
%
$
Figura 7: Histograma de las puntuaciones normalizadas para la longitud. La trama oscura corresponde a islas CpG y la clara a océanos
&
Departament d’Estadı́stica U.B.
39
%
Cadenas de Markov en Biologia Computacional
'
7.
Alex Sánchez
$
Bibliografı́a y enlaces
Durbin Richard et al. (1998) Biological sequence analysis.
Cambridge University Press
Koski, Timo. (2002) Hidden Markov Models in Bioinformatics.
Kluwer
Rabiner, L.R. (1989) A tutorial on hidden markov models and
selected applications in speech recognition.Proceedings of the
IEEE 77:257-286
Un enlace a materiales y enlaces sobre MMO
http://www.bio.ub.es/estad/personal/alexsanchez/
personal/materials/HMM_Links.htm
&
Departament d’Estadı́stica U.B.
40
%
Descargar