Sonia Jimenez

Anuncio
La creciente complejidad y diversidad de la información biológica existente ha derivado en la
creación de bases de datos más especializadas distribuidas por todo el mundo.
La comparación de secuencias nos va a permitir descubrir regiones conservadas a través de
alineamientos múltiples. Si estas homologías se concentran en residuos funcionales de la
proteína (por ejemplo: centro activo) la probabilidad de un origen evolutivo común es mayor.
Estos aspectos han permitido el surgimiento de métodos de comparación de secuencias para la
búsqueda de homologías como son los patrones, perfiles (conjunto alineado de secuencias que
contiene un dominio) y HMMs (modelos estadísticos de la estructura primaria de las
secuencias).
Motivo: si observamos un alineamiento múltiple de proteínas homólogas veremos que algunas columnas varían
bastante, mientras que otras están más conservadas. Cuando observamos ciertas columnas cercanas con una alta
conservación, es decir, cuando encontramos trocitos de las secuencias que se conservan más que otros y que
podrían caracterizar funcionalmente a las proteínas, entonces solemos hablar de MOTIVOS. (ver ejemplo en el
alineamiento de más arriba)
Dominio: el concepto de dominio define una unidad estructural independiente en las proteínas. Sin embargo se
utiliza con cierta laxitud: por ejemplo, en estudios genéticos de deleción a veces se utiliza como sinónimo de la parte
mínima de la secuencia capaz de realizar la función estudiada. En las bases de datos de dominios como PFam, un
dominio se suele corresponder con el núcleo del dominio estructural, aquella zona más similar entre todas las
proteínas de una familia, aunque no tiene por qué coincidir exactamente con los límites del dominio estructural.
Existen distintos métodos para describir y localizar motivos:
1. Expresiones regulares o patrones: Los alineamientos múltiples son la fuente principal para
determinar que partes de la secuencia son más importantes para su función o estructura. A
partir de la información que contiene un alineamiento múltiple se obtiene un patrón o expresión
regular utilizados para caracterizar motivos, indicando que posiciones son más importantes y
cuales pueden variar y que variaciones pueden sufrir. Las expresiones regulares deben ser lo
más cortas posibles, pero suficientemente largas para que sean específicas de la familia (es
decir, que no sean al azar), debe presentar alta sensibilidad y alta especificidad. Existen bases
de datos como PROSITE donde se almacenan los patrones regulares o motivos recopilados a
lo largo del tiempo. Esto lo hacen consultando la bibliografía y analizando alineamientos
múltiples. Luego ensayan los patrones sobre SWISS-PROT para estudiar su sensibilidad y
especificidad.
2. Creación de perfiles: Son más sensibles que las expresiones regulares, se debe a que los
perfiles integran más información completa sobre las características conservadas y variables de
la región de la secuencia que definen. Es una matriz de sustitución específica para cada
posición de la secuencia. A partir del alineamiento múltiple se construye dicha matriz teniendo
en cuenta la frecuencia de los aminoácidos en cada posición así como sus propiedades
fisicoquímicas.
Una diferencia entre los perfiles y las expresiones regulares o patrones es que no solo se limita
a pequeñas regiones con un alto índice de similitud, sino que presenta una mayor utilidad a la
hora de definir regiones o dominios más extensos que puedan caracterizar familias de proteínas
más que motivos. El perfil puede cubrir tanto regiones conservadas como variables del
alineamiento.
(Adaptación del esquema "The role of pattern databases in sequence analysis ". Attwood TK.)
3. Perfiles HMMs: Se muestran como una forma más sensible, incluyendo los patrones
reguladores y perfiles convencionales, de búsqueda de homólogos remotos y dominios
conservados basados en una descripción estadística de la estructura primaria consenso de una
familia de proteínas.
Existen muchas bases de datos que utilizan estos métodos. Hoy en día es costumbre la
búsqueda en bases de datos de patrones, ya que selecciona patrones de residuos conservados
dentro de grupos de secuencias relacionadas.
Una serie de programas que nos permiten detectar la presencia de patrones, comparando
nuestra secuencia problema con bases de datos son: PROSITE, PRINTS, BLOCKS (Análisis
estructural por homología de una proteína). , PRODOM . Que almacenan motivos o dominios
presentes en un gran número de proteínas y que están relacionados con alguna propiedad
funcional.
Introducción
El la década del 60 los modelos ocultos de Markov, de aquí en adelante denominados HMM,
surgieron como una herramienta aplicada al procesamiento del habla, un modelo estadístico
que, a través de un algoritmo de aprendizaje, extraía las principales características
estocásticas(Teoría estadística de los procesos cuya evolución en el tiempo es aleatoria, tal
como la secuencia de las tiradas de un dado) de una cadena de habla.
Con el advenimiento de los proyectos geonómicos, una gran cantidad de información
proveniente del secuenciamiento de distintos genomas, aparece en escena trayendo consigo
un problema: como extraer de estos datos, experimentalmente obtenidos, la información
subyacente, es decir, como de la gran cantidad de secuencias de ADN y proteínas
almacenadas en bases de datos, descubrir las propiedades estadísticas o determinísticas que
permitan hacer análisis, modelos y juntamente con la generación de estos últimos, obtener
hipótesis que se confirmen a través de experimentación.
Nuevamente, como en la década del 60, los HMM aparecen como una poderosa herramienta
para el análisis de datos geonómicos y proteómicos. Los HMM son ampliamente utilizados en el
área de bioinformática para el modelado de familias de proteínas, alineamientos múltiples y
modelado de estructuras 2D y 3D.
Modelos ocultos de Markov
Un modelo oculto de Markov (HMM) es un conjunto finito de estados.
Las transiciones entre estados están dadas por un conjunto de probabilidades de transición.
En cualquier estado particular, la observación puede ser generada, de acuerdo a la distribución
de probabilidades de emisión.
Sólo el resultado observable, no el estado, es visible a un observador externo por lo que los
estados están “ocultos”.
Alfabeto
 = { b1, b2, …, bM }
Conjunto de estados
 = { 1, ..., K }
Probabilidades de transición entre dos estados cualesquiera
aij = prob. de transición del estado i al estado j
ai1 + … + aiK = 1, para todos los estados i = 1…K
Probabilidades iniciales a0i
a01 + … + a0K = 1
Probabilidades de emisión dentro de cada estado
ei(b) = P( xi = b | i = k)
ei(b1) + … + ei(bM) = 1, para todos los estados i = 1…K
En cada paso de tiempo t, lo único que afecta los futuros estados es el estado actual t
P(t+1 =k | “cualquier cosa que pasó”) =
P(t+1 =k | 1, 2, …, t, x1, x2, …, xt)=
P(t+1 =
k | t)
Las 3 preguntas sobre los HMM:
- Evaluacion
Dado un HMM M y una secuencia x, encontrar
Prob[ x|M]
- Decodificacion
Dado un HMM M, y una secuencia x, encontrar la secuencia de estados  que maximiza P[ x, 
|M]
- Aprendizaje
Dado un HMM M, con probabilidad transición/emisión desconocidas,
y una secuencia x,
encontrar los parámetros  = (ei(.), aij) que maximizan P[ x |  ]
DECODIFICACION
Dada una secuencia de observaciones X, encuentre la secuencia de est. x
DNA coding (C) vs non-coding (N)
x = …AACCTTCCGCGCAATATAGGTAACCCCGG…
= …NNCCCCCCCCCCCCCCCCCNNNNNNNN…
Queremos encontrar  = 1, ……, N,
tal que P[ x,  ] esté maximizado
* = argmax P[ x,  ]
Podemos usar programación dinámica
Sea Vk(i) = max{1,…,i-1} P[x1…xi-1, 1, …, i-1, xi, i = k]
= Probabilidad de la secuencia de estados más verosímil que termina en el
estado i = k
Algoritmo de Viterbi
Es similar a “alinear” un conjunto de estados de una secuencia.
Complejidad temporal: O(K2N) K=nº estados
Complejidad espacial: O(KN)
N=longitud
VITERBI
Inicialización:
V0(0) = 1
Vk(0) = 0, para todo k > 0
Iteración:
Vj(i) = ej(xi) maxk Vk(i-1) akj
Terminación:
P(x, *) = maxk Vk(N)
FORWARD
Inicialización:
f0(0) = 1
fk(0) = 0, para todo k > 0
Iteración:
fl(i) = el(xi) k fk(i-1) akl
Terminación
P(x) = k fk(N) ak0
Algoritmos de entrenamiento
Tenemos un conjunto de secuencias de ejemplo del tipo de las que queremos que el modelo
ajuste (secuencias de entrenamiento), que suponemos independientes.
Si conocieramos el camino de estados que recorrió el modelo, los estados no están ocultos (el
HMM se transforma en una cadena de Markov), en la cual los estimadores de máximoa
verosimilitud para las frecuencias de emisión y transición se obtienen a partir de las frecuencias
de observaciones.
Si tenemos información (biológica o física) que nos aporte información previa a la distribución
de probabilidades podemos agregársela al modelo como pseudocuentas.
Objetivo: Dada una secuencia de observaciones, encontrar el modelo más probable que
generae esa secuencia
Problema: No conocemos las frecuencias relativas de los estados ocultos visitados.
No se conocen soluciones analíticas
Nos acercamos a la solución por sucesivas aproximaciones.
El problema ahora es la optimización, por lo que se pueden usar muchas heurísticas (simulated
annealing, algoritmos genéticos, etc)
Algoritmo Baum-Welch
Este es el algoritmo de Expectation-Maximization (EM) para la estimación de parámetros.
Aplicable a cualquier proceso estocástico
Encuentra las frecuencias esperadas de los posibles valores de las variables ocultas.
Calcula las distribuciones de máxima verosimilitud de las variables ocultas en base a las
probabilidades forward y backward.
Repite estos pasos hasta satisfacer algún criterio de convergencia.
Complejidad temporal: nº iteraciones*O(N2 T)
Aplicaciones de los HMM
Los modelos probabilísticos están tomando uyna mayor importantica en el análisis biológico,
particularmente en problemas de análisis con muchos parámetros.
Puesto que muchos problemas en biología computacional se reducen al análisis de secuencias
lineales cortas, los modelos basados en HMM han sido aplicados a muchos problemas
Búsqueda de genes, mapas híbridos de radiación, unión de mapas genéticos, análisis
filogenético y predicción de la estructura secundaria de las proteinas.
Las aplicaciones más exitosas son los perfiles HMM y HMM-based gene finders.
Perfiles HMMs
Profile HMM es una herramienta mediante la cual, a partir de un HMM entrenado con un
conjunto de secuencias previamente alineadas (CLUSTAW) se puede obtener las
características estocásticas (profile) de una familia de secuencias de ADN o proteínas.
En las proteínas se observan regiones de longitud considerable donde no participan gaps ni
inserciones de residuos (una inserción es la aparición de uno o mas aminoácidos con una
distribución de probabilidad background). Para estas porciones de las secuencias se puede
armar un modelo donde sólo participen estados de match, con probabilidad 1 de transición
entre un estado y el siguiente y con probabilidades de emisión de residuos calculadas a partir
de su frecuencia de aparición. En la figura siguiente se muestra un HMM que modele este tipo
de regiones
En el estado de match1 (M1) se emiten los símbolos de los aminoácidos A1...A21 con las
probabilidades de emisión que resultan de la frecuencia de aparición de estos en la columna 1
de las secuencias presentadas como datos, se procede de la misma manera para las restantes
columnas y se fuerzan a 1 las probabilidades de transición entre un estado y el siguiente. En
realidad dado que hay aminoácidos que pueden no aparecer en una columna se utilizan
técnicas que permitan evitar errores de overflow, uno de estos métodos es usar una
pseudocuenta sumada al denominador donde se calcula la razón frecuencial con que se
estiman las probabilidades de emisión. El modelo obtenido es similar al utilizado en PSSM.
La realidad indica que en las secuencias de aminoácidos se observan porciones donde es
posible hallar consenso (estados de match) y otras donde o bien la aparición de aminoácidos
responde a una probabilidad de background (estados de insert) o aparecen gaps (estados de
delete). Para modelar estos estado se introducen dos estados más en cada unidad de tiempo
del HMM, un estado de insert y uno de delete. Las probabilidades de emisión de los estados de
insert responden a las probabilidades background de aminoácidos, esto tiene la ventaja de que,
al calcular un score, la emisión de un aminoácido con probabilidad background es cero.
Cuando los caminos que recorren las secuencias de entrenamiento sobre el HMM no son
conocidos se utiliza el algoritmo Baum-Welch para estimar los parámetros del profile.
En general un profile HMM es un caso particular de un HMM, por lo tanto el método de
aprendizaje de los parámetros puede ser cualquiera de los utilizados para HMM.
La Figura 2 muestra un HMM para un alineamiento de cuatro secuencias con tres posiciones. Las
columnas del alineamiento son los tres estados ( m1, m2, m3) del sistema con 20 probabilidades
de ser un residuo ( barras correspondientes a las frecuencias observadas de los 20 posibles
aminoácidos) cuatro estados de inserción ( i0, i1, i2, i3) y tres estados de deleción ( d1, d2, d3). Las
flechas representan las probabilidades de transición entre estados. Todos o algunos de los
parámetros se pueden estimar del sistema estudiado.
La figura 2 muestra un HMM para un alineamiento de 4 secuencias con tres posiciones o
estados (m1, m2, m3) en la terminología de HMMs. Cada posición tiene los 20 valores de
probabilidad de ser uno de los 20 posibles aminoácidos (barras), cuatro estados de inserción
(i0, i1, i2, i3) y tres estados de deleción (d1, d2, d3 ). Las flechas representan las probabilidades
de transición entre estados. Todos o algunos de los parámetros se estiman del alineamiento. La
ventaja de usar HMMs es que tienen una bases probabilísticas formales y por tanto se puede
usar teoría probabilística Bayesiana para definir los parámetros del sistema. La ventaja práctica
de esto es que los HMMs pueden ser derivados con secuencias no alineadas, siendo el
alineamiento uno de los resultados del proceso de obtención del perfil.
Conclusiones
Los modelos ocultos de Markov (HMM) proporcionan una herramienta para la modelización de
secuencias de ADN, ARN y proteínas, el descubrimiento de zonas de secuencias cuyas
propiedades estadísticas son distintas a las esperadas por azar (background) como es el caso
de islas CG y posibles genes y actualmente están empezando a ser utilizados para
modelización de estructuras tridimensionales.
Computacionalmente tienen un costo aceptable, O(MT), comparados con los algoritmos de
búsqueda y alineación (múltiple) y una potencia ya comprobada en toda la teoría de
procesamiento del habla. Existen algoritmos de entrenamiento para los HMM como Viterbi y
Baum-Welch, ampliamente utilizados que convergen en aproximadamente 10 a 15 iteraciones
para la modelización de proteínas o ADN. También es posible encontrar paquetes públicos para
la aplicación de HMM y bases de datos de profile HMM como Pfam.
SOFTWARE PARA PERFILES HMM
Hay múltiples paquetes de software que están disponibles para implementar perfiles HMM:
La principal diferencia que existe entre ellos es la arquitectura que adoptan:
•
Un HMM está compuesto por una serie de nodos o estados cada uno de los cuales
•
•
•
emite símbolos (entre 4 o 20 posibles aminoácidos) con una probabilidad dada.
Los estados están conectados secuencialmente existiendo probabilidades de
transición entre ellos. Además existen probabilidades de inserción y borrado.
BLOCKS y META-MEME representan los modelos de motivos, los clásicos HMM .
HMMER2 “Plan7” y ‘profile’ HMM representan la nueva generación de perfiles HMM en
SAM, HMMER y PFTOOLS.
Hay dos modelos diferenciados para el autor:


Modelos de perfiles: modelos con estados de inserción y borrado asociados con cada
estado encontrado, permitiendo inserciones y borrados en la secuencia seleccionada.
Modelos de motivos: modelos dominados por cadenas de estados encontrados
(modelando bloques sin huecos de secuencias consenso), separados por un pequeño
número de estados insertados modelando los espacios entre los bloques sin huecos.
Veamos algunas características de algunos de ellos:
SAM, HMMER, PFTOOLS y HMMpro implementan modelos basados al menos en una
parte en los perfiles originales HMM de Krogh (1994).
 Estos paquetes están argumentados en un simple modelo que trata con múltiples
dominios, secuencias alineadas y alineamientos locales.
 El alineamiento local o global no es necesariamente esencial en el algoritmo, pero esto
demuestra que la probabilística es una parte del modelo de arquitectura
 SAM y HMMER
Usan mezclas Dirichet en muchas distribuciones para ayudar al numero de parámetro
libres. Si adoptan el hibrido HMM/neural network techniques esto se acentúa.
 HMMER y PFTOOLS
Son usados en primer lugar para construir bases de datos de búsqueda de modelos
donde están presentes los alineamientos.
 PROBE, META-MEME y BLOCKS
Asumen distintos modelos de motivos, los alineamientos consisten en uno o mas
bloques sin huecos, separados por secuencias ‘intervening’ que son asumidas para ser
aleatorias. PROBE y META-MEME adoptan modelos probabilísticos para los huecos.
 GENEWISE
Es una sofisticada aplicación de búsqueda por ventanas que puede tomar un HMMER
de modelo de proteína.

PSI-BLAST
No es una aplicación HMM, pero usa los principios de los modelos probabilísticos para
construir ‘HMM-like models’ para múltiples alineamientos.

LIBRERIAS PARA PERFILES HMM
El software para perfiles HMM esta bien para:
 Modelar una secuencia en particular de una familia de interés.
 Buscar secuencias homologas en una base de datos.
Ahora necesitamos buscar una secuencia simple en una librería de perfiles HMM.
Construir una librería requiere un largo número de múltiples alineamientos de comunes
dominios.
Dos largas colecciones de perfiles HMMs están disponibles:
 Pfam

PROSITE
Ambas bases de datos están disponibles en la web:
Las principales características de ambas son:
Pfam
Es una base de datos compuesta por los perfiles HMMs obtenidos para distintos
dominios o regiones conservadas de proteínas.
Contiene múltiples alineamientos de proteínas y perfiles-HMMs de esas familias de
proteínas. Es una base de datos semiautomática, cuyo objetivo es ser completa y exacta.
 PROSITE
Es una base de datos que contiene información detallada sobre todos los motivos de
secuencia de proteína conocidos. Los motivos son descritos mediante patrones regulares.




PROSITE contiene perfiles para 290 dominios de proteínas, y Pfam contiene 1313.
Hay muchas discusiones sobre el número de familias de proteínas que hay, el número
de 1000 fue citado en alguna ocasión, otros defienden que todas las familias tienen
aproximadamente el mismo número.
Ninguno de estos servidores de perfiles están maduros, ambas bases de datos para
perfiles software están rápidamente cambiando.
HMMs PARA RECONOCIMIENTO DE PLIEGUES
Los scores de los perfiles son calculados con estructuras de datos en lugar de
secuencias. Ej. ‘3D/1D profiles’.
Di Francesco usó perfiles HMM para modelar la segunda estructura de secuencias,
modificando el SAM code para emitir un alfabeto de estructura secundaria de proteína.
¿Como puede HMM asumir su posición de independiente y esperar ser un modelo
realista de estructura de proteína?
Algunos métodos de reconocimiento utilizan algoritmos de programación dinámica,
que son usados para encontrar la secuencia/estructura optima alineada.
La sección de reconocimiento de CASP (Current Assement of Struccture Prediction)
es uno de los mas interesantes métodos de reconocimiento de cómo HMMs se desarrollan.
En CASP las secuencias de proteínas son solventadas a través de criptografía o
NMR, que esta disponible para grupos computacionales de predicción de estructuras.
CONCLUSIÓN
El proyecto del genoma humano amenaza con abrumarnos en un diluvio de secuencias de
datos.
Las populares anotaciones de largas secuencias son muy difíciles para muchas personas.
El desarrollo de métodos robustos para automatizar la clasificación y anotación de
secuencias es imperativo.
Surge la esperanza de que desarrollando métodos de perfiles HMM, se pueda suministrar
una segunda lista de éstos que sean sólidos, sensatos y estadísticamente basados en
herramientas de análisis, que completen los análisis BLAST y FASTA.
La combinación del poder del software HMM y las largas secuencias alineadas en bases de
datos para conservar dominios de proteínas, debería de hacer de esta esperanza una
realidad.
Descargar