algoritmos para p función de p lgoritmos para predicción de

Anuncio
ALGORITMOS PARA PREDICCIÓN DE LA
FUNCIÓN DE PROTEÍNAS
Estefanía Prior Cano
Sergio Tejeda Pastor
Ing. Telecomunicació
Telecomunicación
Ing. Telecomunicación
Telecomunicació
[email protected]
[email protected]
@alumnos.uc3m.es
RESÚMEN
Este trabajo pretende realizar un estudio general de
algunas herramientas útiles a la hora de llevar a cabo
un proceso de alineamiento de secuencias de ADN o
ARN o estructuras proteicas además de presentar
algunos de los algoritmos de clasificación de
proteínas más utilizados en la actualidad. Todo ello
desde el punto de vista de las aplicaciones basadas en
Inteligencia Artificial englobadas en el campo de
trabajo conocido como bioinformática.
Palabras clave
Proteína, ADN, homología, Blast, Psi
Psi-blast, BSI,
HMM, Systers, Tribes.
1. INTRODUCCIÓN
La maduración de la Biología Molecular, las nuevas
técnicas que han dado lugar al acceso a miles de
datos, el mayor poder computacional, los nuevos
algoritmos, han cambiado la actitud de muchos
científicos sobre cómo solucionar algunos de sus
problemas, y ha propiciado el nacimiento de nuevas
disciplinas como la Bioinformática.
Figura 1 - Aplicaciones de la bioinformática
La bioinformática es la aplicación de tecnología a la
gestión y análisis de datos biológicos
biológicos. Los términos
bioinformática, biología computacional y biología de
sistemas son utilizados en muchas situaciones como
sinónimos y hacen referencia a campos de estudios
interdisciplinarios muy vinculados, que requieren el
uso o el desarrollo de diferentes técnicas que incluyen
informática, matemática aplicada
aplicada, estadística,
informática, inteligencia artificial,
artificial
etc., para
solucionar problemas, analizar datos, o simular
sistemas o mecanismos, todos ellos de índole
biológica. El núcleo principal de estas técnicas se
encuentra
tra en la utilización de recursos informáticos
para solucionar o investigar problemas sobre escalas
de tal magnitud que sobrepasan el discernimiento
humano.
Los principales esfuerzos de investigación en estos
campos incluyen el alineamiento de secuencias, la
predicción de genes, montaje del genoma,
alineamiento estructural de proteínas, predicción de
estructura de proteínas, etc. También es posible
realizar agrupaciones de datos que poseen
información semejante, o inferir la estructura o
función de una proteína
teína desconocida a partir de la
secuencia e información estructural de proteínas
homólogas, por ejemplo.. El objetivo final es realizar
simulaciones de procesos biológicos o realizar
modelos matemáticos, que permitan predecir el
comportamiento de sistemas biológicos complejos y
en último término, modificar o incluso diseñar estos
sistemas en base a determinadas necesidades.
Figura 2 - La bioinformática construye modelos
matemáticos en base a los datos disponibles
El caso del genoma humano puede ser ilustrativo del
reto al que nos enfrentamos: en palabras del premio
Nobel Sydney Brenner: "Enviar un hombre a la Luna
es muy fácil. Lo difícil es traerle de vuelta. Con el
genoma pasa lo mismo. Describir el genoma humano
es trivial. Pero cuando acabemos, habrá que traerlo de
vuelta: comprender el significado, resolver los
grandes problemas de la biología de nuestra especie".
2. BÚSQUEDA DE HOMÓLOGOS
La comparación de genomas, genes y proteínas de
distintas especies es la aproximación más intuitiva y
directa para interpretar el libro de instrucciones que
hay en los genomas.
Hay muchos enfoques para aproximarse al
conocimiento de la función de las proteínas. El más
clásico, y también más fiable y eficiente, se basa en la
observación de que las proteínas homólogas
conservan algún parecido funcional. Gracias a la
tecnología de las matrices de ADN, podemos conocer
los patrones de expresión de miles de genes en
distintas situaciones: aquellos genes con patrones
similares, sean o no homólogos, es posible que estén
implicados en los mismos procesos celulares. Por otra
parte, los esfuerzos que se están aplicando para
describir el mapa de interacciones proteína-proteína
también pueden arrojar luz sobre este problema, ya
que si sabemos con quién interacciona una proteína
podemos suponer que realiza una función similar o
complementaria a la de sus compañeras.
Existen numerosos métodos de búsqueda para
encontrar secuencias parecidas entre la enorme
cantidad de secuencias de las bases de datos. Estos
métodos se basan en modelos estadísticos para
determinar cuándo estos parecidos se deben a que
ambas proteínas comparten un mismo origen (son
homólogas) y cuándo se deben a parecidos al azar.
Algunos de estos métodos son los siguientes:
2.1 BLAST (Basic Local Alignment
Search Tool)
Es un programa informático de alineamiento de
secuencias de tipo local, ya sea de ADN o de
proteínas. El programa es capaz de comparar una
secuencia problema (también denominada query)
contra una gran cantidad de secuencias que se
encuentren en una base de datos. El algoritmo
encuentra las secuencias de la base de datos que
tienen mayor parecido a la secuencia problema.
BLAST es desarrollado por los Institutos Nacionales
de Salud del gobierno de EE. UU., por lo que es de
dominio público y puede usarse gratuitamente desde
el servidor del Centro Nacional para la Información
Biotecnológica (NCBI). Esta aplicación se puede
encontrar en: http://blast.ncbi.nlm.nih.gov/Blast.cgi
Es importante mencionar que BLAST usa un
algoritmo heurístico por lo que no nos puede
garantizar que ha encontrado la solución correcta. Sin
embargo, BLAST es capaz de calcular la
significación de sus resultados, por lo que nos provee
de un parámetro para juzgar los resultados que se
obtienen.
El método de BLAST resulta muy útil para conocer
de forma rápida cuáles son los homólogos cercanos
de una proteína, pero no es capaz de distinguir los
homólogos remotos de los falsos homólogos.
Existen varios programas de la familia BLAST. Los
más comunes son Blastp y Blastn para aminoácidos y
nucleótidos respectivamente.
Algoritmo BLAST
BLAST usa una matriz de sustitución de aminoácidos
o nucleótidos para calificar sus alineamientos. Dicha
matriz contiene la puntuación (también llamada
score) que se le da al alinear un nucleótido o un
aminoácido X de la secuencia A con otro aminoácido
Y de la secuencia B. La matriz de substitución en la
que está representado, mediante un valor numérico, la
frecuencia con que se observan los posibles cambios
entre aminoácidos o la frecuencia con que éstos se
conservan. Las matrices más usadas para calificar
alineamientos de proteínas son la BLOSUM y la
PAM. También se permite al usuario definir su propia
matriz. En el caso de BLOSUM, la matriz se
construye analizando alineamientos múltiples y
contando la frecuencia con que se observan las
posibles sustituciones de aminoácidos.
El algoritmo de BLAST tiene tres etapas principales:
ensemillado, extensión y evaluación. A continuación
se describen brevemente cada una de ellas:
Primera etapa. Ensemillado o seeding: BLAST
busca coincidencias exactas de una pequeña longitud
fija W entre la secuencia de consulta y las secuencias
de la base de datos. Sólo se consideran significativas
las palabras que tengan una puntuación mayor a T (T
se puede ajustar) y que se encuentren al menos a una
distancia A de otra palabra. Ajustando los parámetros
T, A y W se puede escoger entre hacer un
alineamiento sensible pero lento, o uno más rápido
pero con menor sensibilidad.
Por ejemplo, dadas las secuencias AGTTAC y
ACTTAG y el largo de palabra W = 3, BLAST
podría identificar la subcadena coincidente TTA que
es común en amb as secuencias.
Segunda etapa. Extensión: BLAST trata de extender
la coincidencia en ambas direcciones, comenzando
por las semillas obtenidas en la etapa anterior de
manera que extiende la coincidencia de la semilla
inicial de longitud W en cada dirección en un intento
de estimular el puntaje de alineación. Inserciones y
eliminaciones no son consideradas durante esta etapa.
La extensión realizada en este punto se realiza
haciendo uso del algoritmo de Smith-Waterman.
BLAST va extendiendo el alineamiento hasta que la
puntuación del alineamiento descienda X o más
puntos con respecto a la puntuación más alta obtenida
anteriormente. Aquí reside el factor heurístico del
BLAST, ya que al imponer el límite X, evita extender
a lo largo de toda la secuencia todos los
alineamientos (proceso que llevaría demasiado
tiempo). El peligro que esto conlleva es que el
programa se puede quedar atorado en un máximo
local. Es por ello que la definición de X es
determinante para el resultado.
Posteriormente, BLAST realiza un alineamiento con
huecos entre la secuencia de consulta y la secuencia
de la base de datos usando una variación del
algoritmo de Smith-Waterman.
Figura 3 - Representación gráfica de los resultados
arrojados por BLAST. El nivel de identidad se
representa con colores
•
•
•
Figura 4 - Listado de las secuencias con algún
nivel de homología según los resultados de
BLAST. Las secuencias contienen un link de
acceso, una breve denominación y los estimativos
estadísticos
•
Tercera etapa. Evaluación: Una vez terminada la
extensión de todas las palabras, cada uno de los
alineamientos realizados es evaluado para determinar
su significación estadística. Los alineamientos
resultantes son llamados pares de alta puntuación
(High Score Pairs o HSPs, por sus siglas en inglés), y
se determina su significación tomando en cuenta la
probabilidad que tiene dicho alineamiento de haber
sido obtenido por azar de acuerdo al tamaño de la
base de datos. Al final se reportan sólo los
alineamientos que hayan obtenido una probabilidad
mayor a E (e-valor o valor de corte).
Consideraciones con BLAST:
•
BLAST es heurístico y por lo tanto puede
que no encuentre la solución óptima. Esto
hay que tenerlo en cuenta a la hora de
extraer conclusiones.
BLAST NO garantiza que las secuencias
que alinea sean homólogas ni que tengan la
misma función, simplemente provee
posibles candidatos. Se necesitan más
análisis para anotar correctamente una
secuencia.
La puntuación del BLAST depende del
largo de la secuencia, una secuencia muy
corta tendrá una puntuación menor que una
grande simplemente por la cantidad de
caracteres que tiene.
El e-valor depende del tamaño de la base de
datos. Para bases de datos muy pequeñas, evalores altos son más significativos que
para bases de datos muy grandes.
•
A pesar de lo que comúnmente se piensa,
las secuencias con la mejor puntuación o el
mejor e-valor NO necesariamente son los
mejores candidatos a ser genes homólogos.
Es importante analizar todos los
alineamientos que encuentra el programa y
sacar conclusiones en base al resultado
global.
BLAST tiene varios parámetros por defecto
que en general funcionan bien para la
mayoría de los casos, pero habrá
situaciones en las que es necesario
cambiarlos para obtener mejores resultados.
No hay forma de saber exactamente qué
parámetro es el óptimo, y se tienen que
realizar múltiples pruebas hasta encontrar
las mejores condiciones.
lejanos de parecidos al azar. El HMM está compuesto
por un conjunto de estados (por ejemplo cada una de
las posiciones de un alineamiento múltiple). Cada
estado 'emite' símbolos (por ejemplo residuos
observados en una determinada posición) de acuerdo
a unas probabilidades de emisión de símbolos, y los
estados están interconectados por probabilidades de
transición entre estados, de modo que a partir de un
estado se indica con qué probabilidad puede
producirse un salto directo al siguiente nodo. En otras
palabras, es un modelo que, una vez entrenado con un
conjunto de proteínas homólogas, indica con qué
probabilidad se podría obtener cualquier secuencia de
símbolos a partir del mismo.
Figura 5 - Detalles y alineamientos entre la
secuencia problema y las reportadas en NCBI
según el programa BLAST.
Se observa la
denominación de la secuencia, el porcentaje de
identidad, los gaps que se encontraron y el puntaje
obtenido.
2.2 PSI-BLAST
Esta variante de BLAST trabaja en el contexto de
familias de proteínas para cuantificar los parecidos y
encontrar homólogos remotos. Se trata de un
programa iterativo que va calculando sus propias
matrices de sustitución en cada iteración. Al inicio,
hace un Blastp normal, usando una matriz estándar
para calificar los alineamientos. De las secuencias
obtenidas en este alineamiento, el programa genera
una nueva matriz de sustitución, basándose en las
frecuencias de los aminoácidos de las secuencias
obtenidas en los alineamientos. Usa esta nueva matriz
para realizar otro alineamiento. Esto permite en
general encontrar nuevos alineamientos, que son
usados para calcular una nueva matriz. El proceso se
repite tantas veces como el usuario lo indique, o hasta
que ya no se encuentran nuevos alineamientos.
Existen más algoritmos de alineamiento de
secuencias posteriores a estos, y que tienen su propio
nicho. Algunos de ellos son SSearch (básicamente
una implementación del Smith&Waterman) y BLAT.
El primero es más ’sensitivo’, a costa de más tiempo
de ejecución, mientras que el tercero se usa para
realizar de forma eficiente comparaciones masivas de
genoma contra genoma y cromosoma contra
cromosoma.
2.3 HMMs: modelos de Markov
ocultos
Una limitación de los métodos anteriores es que la
base probabilística para determinar las puntuaciones
no es sólida. Los perfiles de tipo HMM alivian en
gran medida esta limitación, lo cual se manifiesta en
una mayor efectividad para distinguir homólogos
Aplicándolo a la búsqueda de homólogos podemos
usarlo para determinar la probabilidad con que cada
secuencia de una base de datos podría ser generada a
partir del HMM, lo cual guarda relación con la
probabilidad de que esas secuencias tengan un origen
común con las usadas para construir el modelo.
2.4 Búsquedas con secuencias
intermedias (BSI)
Este método se basa en la aplicación de la propiedad
transitiva de la homología entre proteínas: si dos
proteínas A y B son homólogas, y B es homóloga a
una tercera proteína C, entonces A y C también son
homólogas; esta propiedad sólo es aplicable cuando
las regiones o dominios homólogos se corresponden:
en el caso de proteínas multidominio sólo se cumple
si el dominio compartido entre A y B es el mismo que
el compartido entre B y C. Naturalmente, la
propiedad
transitiva
se
puede
extender
indefinidamente.
Una vez encontrados los homólogos cercanos a una
proteína mediante un método de búsqueda tal que
BLAST, podemos utilizar las secuencias obtenidas
para, mediante nuevas búsquedas, encontrar sus
homólogos cercanos, que pueden ser lejanos con
respecto a la proteína inicial. Es como dar un paseo
por el espacio de secuencias, saltando de unas
proteínas a otras en cada “ronda” BLAST. Hay que
tener en cuenta que estos saltos nunca podrán ser muy
grandes debido a las limitaciones de los métodos
tradicionales de búsqueda. Hay ciertos aspectos que
deben tenerse en cuenta a la hora de usar BSI:
Selección de subsecuencias: Las búsquedas han de
realizarse con las regiones de las secuencias que
presuntamente son homólogas, y no con las proteínas
completas. En el caso de búsquedas BSI con una sola
iteración esto es sencillo: basta con extraer el
fragmento de la secuencia que ha alineado
significativamente y utilizarlo para lanzar la nueva
búsqueda. Cuando realizamos múltiples rondas
BLAST sucede que, a partir de la segunda iteración,
en que buscamos con todos los homólogos
encontrados en la primera iteración, un nuevo
homólogo podrá ser encontrado, alineando regiones
más o menos diferentes en los distintos casos.
Para seleccionar la subsecuencia que deberá ser
utilizada en la siguiente ronda se extraen los
fragmentos de secuencia del nuevo homólogo que
han alineado en cada caso, y se unen todos aquellos
fragmentos que se superpongan al menos un 50%.
Limitación del espacio de búsqueda: Una de las
limitaciones prácticas de este método es el enorme
número de búsquedas de tipo BLAST que tiene que
realizar, especialmente en familias de proteínas muy
numerosas. Además, cuando una proteína no
homóloga se incluye erróneamente en el proceso,
arrastra a todas las de su familia en las siguientes
iteraciones. Para minimizar algunos de estos
aspectos, se fija un límite máximo variable del
número de secuencias obtenidas.
Por ejemplo, si el límite máximo se fija en 1500
búsquedas y en la N iteración ya se han realizado
1200 búsquedas, y éstas han permitido encontrar 500
nuevas proteínas parecidas, se seleccionan las 300
con una mayor puntuación acumulada, de forma
análoga a cómo se seleccionan los conjuntos de
fragmentos, descartando las otras 200.
positivos. En un caso real no es fácil saber si ha
sucedido esto o no.
El método de BSI permite cartografiar el espacio de
secuencias, ya que en los resultados se especifican las
distancias evolutivas entre los positivos encontrados.
Esto nos permite trazar los caminos que han
conducido a que se encuentre cada proteína, por lo
que esa información puede ayudarnos a discriminar
los verdaderos positivos de los falsos. Además,
disponer de un mapa del espacio de secuencias hace
posible que podamos tratar de identificar grupos de
proteínas diferenciados del resto, que posiblemente se
correspondan con familias o subfamilias de proteínas
con funciones particulares. También podemos
indagar en las relaciones evolutivas que hay entre las
distintas familias, lo que nos puede dar una visión
más profunda de la función de las proteínas así como
de los procesos evolutivos en sí mismos.
Quizás la principal desventaja del método de BSI es
el elevado coste computacional que tiene,
especialmente si lo comparamos con los rápidos
métodos de BLAST y PSI-BLAST. Este coste
depende del tamaño de la familia de proteínas que
estemos estudiando, ya que por cada nuevo homólogo
encontrado se realiza una búsqueda BLAST.
2.5 Comparativas
3. CLASIFICACIÓN DE
PROTEÍNAS
La efectividad del método BSI es comparable a la de
PSI-BLAST y superior a la de BLAST: A un mismo
nivel de especificidad (detectar bien no homólogos),
tanto BSI como PSI-BLAST permiten detectar más
del doble de homologías remotas que BLAST. Es
decir, son mucho más sensibles. El método BSI
puede alcanzar una sensibilidad superior a PSIBLAST, pero con un alto coste en pérdida de
especificidad. A un nivel de especificidad similar,
BSI es menos sensible que PSI-BLAST.
Una vez que hemos llevado a cabo un proceso de
búsqueda de homólogos, uno de los aspectos más
importantes en cuanto al análisis de proteínas es su
clasificación. Así, puede ser necesario llevar a cabo
una agrupación de proteínas atendiendo a distintos
criterios. Estas aproximaciones presentan distintas
características según el método de clasificación
aplicado, el conjunto de proteínas por clasificar y la
información que persiguen obtener. Entre las
herramientas más utilizadas en la agrupación de
proteínas se encuentran las siguientes:
Cuando hacemos un alineamiento múltiple se revela
cierta información como qué posiciones son más
importantes, lo cual es utilizado por PSI-BLAST pero
no por BSI, de ahí la menor sensibilidad de este
último.
La baja especificidad del método de BSI se explica
porque cuando se incluye un falso positivo en la lista
de secuencias intermedias, éste, en las siguientes
rondas, arrastra a todos sus homólogos (también
falsos positivos); en el caso de PSI-BLAST puede
que la incorporación de un solo falso positivo no
tenga suficiente peso en el perfil como para provocar
la inclusión de sus homólogos. Sin embargo, a veces
sucede que el perfil de PSI-BLAST se contamina y
aparecen en los resultados numerosos falsos
3.1 Árboles filogenéticos
Un árbol filogenético de un grupo de especies
relacionadas biológicamente es un árbol que
representa el curso evolutivo de tales especies. Este
tipo de métodos de representación también pueden
ser aplicados a otros campos, tales como la
clasificación de proteínas.
Existen muchos métodos para construir árboles que
puedan ser usados para datos moleculares. Cada
método tiene sus ventajas y desventajas. De acuerdo a
los tipos de datos usados, los métodos se dividen en
dos categorías:
1) Métodos basados en distancia. En estos métodos
se calcula una distancia para todos los pares de
secuencias de ADN (o aminoácidos), y el árbol
filogenético se construye considerando las relación
entre estas distancias. Una vez que los valores de
distancia se han obtenido, hay varios métodos para
obtener el árbol.
2) Métodos basados en caracteres discretos. En
estos métodos se usan datos con estados de caracteres
discretos tales como estados de nucleótidos en
secuencias de ADN, y el árbol se construye
considerando las secuencias de ADN en cada
posición de carácter o nucleótido.
Para ambas categorías existen varios métodos
diferentes para construir árboles que están basados en
diferentes principios, entre los que destaca el método
UPGMA (Unweighted Pair Group Method with
Arithmetic Means), que se engloba dentro de los
métodos basados en distancia.
divergencia, aunque no garantiza que obtengamos el
árbol con una longitud de las ramas mínima.
Los métodos basados en caracteres, aplicados a
proteínas, tienen en cuenta cada una de las posiciones
de un alineamiento múltiple, y procuran obtener
aquel árbol que concuerde mejor con las sustituciones
observadas. Cuando los homólogos son lejanos una
diferencia observada en una posición puede equivaler
a varias mutaciones sucesivas por lo que estos
métodos pueden producir resultados erróneos.
3.2 SYSTERS
El objetivo es la clasificación automática de todas las
proteínas en grupos de forma jerárquica, en
superfamilias, familias y subfamilias. A partir de los
parecidos entre las secuencias, encontrados con
BLAST, se realiza un primer agrupamiento utilizando
el algoritmo de agrupamiento por simple enlace.
Estos grupos luego son divididos en otros más
pequeños utilizando un algoritmo de corte mínimo, lo
cual resulta en una jerarquía.
3.3 TRIBES
Figura 6 - Ejemplo de árbol filogenético
El funcionamiento básico del método de UPGMA es
el siguiente: primeramente, cada secuencia está
representada por un nodo y se unen los dos nodos
más cercanos en un nuevo nodo (representa el
ancestro de ambas secuencias). Entonces se vuelven a
calcular las distancias entre los nodos aún no unidos y
el nuevo nodo. Y se vuelven a unir los dos nodos más
cercanos y a recalcular las distancias. Y así hasta que
el árbol está completo. Este método asume que en las
distintas ramas del árbol el ritmo al que han divergido
es constante, ya que el cálculo de la distancia entre un
nuevo nodo AB (el ancestro de los nodos A y B) y los
otros se toma como la media de la distancia de los
dos nodos A y B y cada uno de los otros. Sin
embargo, rara vez el reloj molecular es constante, por
lo que este método puede generar árboles incorrectos.
Otro método basado en distancias es el de unión al
vecino (Saitou & Nei, 1987). Éste método asume que
el mejor árbol es aquél en el que la longitud total de
las ramas es menor. En cada etapa se unen los dos
nodos que minimizan la longitud del árbol.
Seguidamente se recalculan las distancias entre el
nuevo nodo y el resto. Este proceso se repite hasta
que el árbol está completo. Tiene las ventajas de que
es rápido y de que no asume un ritmo constante de
Aplica un método llamado TRIBE-MCL, el cual está
basado en el algoritmo de Markov cluster o grupo de
Markov. En un grafo en el que las secuencias
parecidas están conectadas entre sí en un grupo de
proteínas
correspondiente
a
una
familia
encontraremos muchas conexiones. De este modo es
fácil imaginar que existen más caminos posibles
(definidos por los arcos que conectan los nodos) entre
dos secuencias de una misma familia que entre
secuencias que, aunque conectadas, sean de familias
distintas. Si simulamos random walks o paseos
aleatorios por el grafo, aquellos caminos por los que
pasemos más frecuentemente definirán las familias de
proteínas. Este método es bastante robusto.
3.4 SequenceSpace
Ésta es una aproximación a la clasificación de las
proteínas un poco distinta de las otras y puede
aplicarse tanto para identificar residuos funcionales
en las proteínas como para determinar qué familias
existen. El punto de partida es un alineamiento
múltiple. Cada proteína del alineamiento se
representa como un vector, de modo que situamos
cada proteína en un espacio de secuencias con un
número de dimensiones proporcional a la longitud
tenga el alineamiento (20xL, de los veinte tipos de
aminoácidos por la longitud del alineamiento).
Mediante un análisis de componentes principales se
pueden proyectar las proteínas sobre un espacio de
menos dimensiones y así visualizar qué grupos de
proteínas hay en el alineamiento. Paralelamente se
puede identificar qué posiciones del alineamiento
múltiple reflejan de un mejor modo la situación de las
proteínas, los cuales posiblemente están relacionados
con las funciones particulares de cada familia o
subfamilia.
Una de las aplicaciones más directas de conocer la
secuencia de genes que componen el genoma humano
es que se puede conocer la base molecular de muchas
enfermedades genéticas y se puede realizar un
diagnóstico
adecuado.
Algunas
de
estas
enfermedades son, por ejemplo, enfermedad de
Gaucher, Alzheimer, enfermedad de Huntington o
síndrome de Marfan.
El diagnóstico de cierta enfermedad, gracias al PGH
se puede realizar de manera presintomática y prenatal
(medicina predictiva).
Figura 7 - Esquema clustering
3.5 PROTOMAP
El objetivo que persigue es obtener una clasificación
jerárquica del conjunto de todas las proteínas
conocidas. Para ello, calcula el parecido entre todas
las secuencias mediante métodos como el de BLAST.
Esta información es representada mediante un grafo
G(V, E), que es una estructura de datos en la que hay
nodos y arcos que unen los nodos entre sí. En el caso
de grafos con peso estos arcos tienen asociado un
valor. En PROTOMAP cada secuencia es
representada por un nodo y las relaciones entre las
secuencias (cuando existen) se plasman mediante un
arco entre los nodos con un valor asociado
equivalente al del e-value (valor esperado).
4. APLICACIONES
Como sabemos, las proteínas están íntimamente
relacionadas con los genes, puesto que los genes son
secuencias de nucleótidos que contienen información
necesaria para la síntesis de proteínas. Esto significa
que en función de los genes que sinteticen una
proteína, así será la función de esta. Es por ello que es
tan importante conocer la función de las proteínas y,
por consiguiente, del genoma humano.
La alteración de la secuencia de ADN que constituye
el genoma humano puede causar la expresión
anormal de uno o más genes, originando un fenotipo
patológico. Las enfermedades genéticas pueden estar
causadas por mutación de la secuencia de ADN,
produciendo proteínas incorrectas, alterando el nivel
de expresión de un gen, o por alteraciones
cromosómicas,
numéricas
o
estructurales.
Actualmente el número de enfermedades genéticas
conocidas es aproximadamente de 4.000.
El Proyecto Genoma Humano (PGH) fue un proyecto
internacional de investigación científica con el
objetivo fundamental de determinar la secuencia de
pares de bases químicas que componen el ADN e
identificar y cartografiar los aproximadamente
20.000-25.000 genes del genoma humano desde un
punto de vista físico y funcional.
Una vez que se conocen qué genes producen qué
enfermedades, y las características para diagnosticar
una enfermedad conociendo la secuencia de bases, es
necesario realizar una terapia para acabar con esa
enfermedad.
La terapia farmacológica se ve también facilitada por
el PGH ya que éste permite encontrar alteraciones en
la secuencia del ADN de genes específicos y esto
conlleva a que se realice el tratamiento con
medicamentos de una manera dirigida, neutralizando
las alteraciones y modificando favorablemente el
curso de la enfermedad de forma más efectiva que los
tratamientos de la medicina actual, que están
generalmente dirigidos a aliviar los síntomas.
El PGH permite además, en relación con la
farmacología, modificar los medicamentos para que
se ajusten a las características genéticas del paciente
y así poder metabolizar el fármaco de la mejor
manera posible, lo que en consecuencia, elimina o
minimiza los efectos secundarios indeseables del
mismo.
La terapia génica es una consecuencia directa del
PGH y supone la probabilidad de curar las
enfermedades
hereditarias
insertando
copias
funcionales de genes defectivos o ausentes en el
genoma de un individuo para tratar dicha
enfermedad.
El estudio de las enfermedades genéticas
frecuentemente se ha englobado dentro de la genética
de poblaciones. Los resultados del Proyecto Genoma
Humano son de gran importancia para la
identificación de nuevas enfermedades genéticas y
para el desarrollo de nuevos y mejores sistemas de
diagnóstico genético, así como para la investigación
en nuevos tratamientos.
ANEXO A: Definiciones relevantes
Genoma: Es la totalidad de la información genética
que posee un organismo en particular.
Bases: Compuestos orgánicos que forman el ADN.
Hay cuatro: Adenina (A), Timina (T), Citosina (C) y
Guanina (G).
Aminoácidos: Un aminoácido es una molécula
orgánica formada por una secuencia de tres bases
(tripleta o codón). Es una molécula orgánica con un
grupo amino (-NH2) y un grupo carboxílico (-COOH;
ácido). Los aminoácidos más frecuentes y de mayor
interés son aquellos que forman parte de las
proteínas.
Proteínas: Son macromoléculas formadas por
cadenas lineales de aminoácidos. Las proteínas se
sintetizan dependiendo de cómo se encuentren
regulados los genes que las codifican de manera que
la información genética determina en gran medida
qué proteínas tiene una célula, un tejido y un
organismo.
Proteínas homólogas: Dos proteínas son homólogas
si reflejan un origen común. Existen numerosos
métodos, como veremos más adelante, para encontrar
parecidos entre secuencias de proteínas. Si estos
parecidos no son demasiado claros es difícil saber si
dos proteínas son realmente homólogas, o si los
parecidos se deben al azar.
Algoritmo de Smith-Waterman: Es una reconocida
estrategia para realizar alineamiento local de
secuencias biológicas (ADN, ARN o proteínas); es
decir que determina regiones similares entre un par
de secuencias. Este algoritmo garantiza encontrar el
alineamiento local óptimo con respecto al sistema de
puntaje que está siendo utilizado.
Alineamiento de secuencias: Forma de representar y
comparar dos o más secuencias o cadenas de ADN,
ARN, o estructuras primarias proteicas para resaltar
sus zonas de similitud, que podrían indicar relaciones
funcionales o evolutivas entre los genes o proteínas
consultados.
Cadena de Márkov: Es una serie de eventos, en la
cual la probabilidad de que ocurra un evento depende
del evento inmediato anterior. En efecto, las cadenas
de este tipo tienen memoria. Recuerdan el último
evento y esto condiciona las posibilidades de los
eventos futuros.
Modelo oculto de Márkov: o HMM (por sus siglas
del inglés, Hidden Markov Model) es un modelo
estadístico en el que se asume que el sistema a
modelar es un proceso de Márkov de parámetros
desconocidos. El objetivo es determinar los
parámetros desconocidos (u ocultos, de ahí el
nombre) de dicha cadena a partir de los parámetros
observables. La arquitectura general de un HMM se
muestra en la siguiente figura, donde x(t) es el
parámetro desconocido e y(t) el parámetro
observable:
Figura 8 - Arquitectura general de un HMM
Especificidad: Probabilidad de que un sujeto sano
tenga un resultado negativo en la prueba. En este
caso, es la probabilidad de que decidir que dos
proteínas no son homologas cuando, efectivamente,
no lo son.
Sensibilidad:
Probabilidad
de
clasificar
correctamente a un individuo enfermo. En este caso,
es la probabilidad de decidir que dos proteínas sí son
homologas cuando, efectivamente, lo son.
REFERENCIAS
[1] Bioinformática:
http://es.wikipedia.org/wiki/Bioinform%C3%A1
tica
[2] Alineamiento de secuencias:
http://es.wikipedia.org/wiki/Alineamiento_de_se
cuencias
[3] Software alineamiento de secuencias:
http://es.wikipedia.org/wiki/Anexo:Software_pa
ra_alineamiento_de_secuencias
[4] Smith-Waterman:
http://es.wikipedia.org/wiki/Algoritmo_SmithWaterman
[5] Blast: http://es.wikipedia.org/wiki/BLAST
[6] Algoritmo Blast:
http://bioinformaticos.com.ar/articulos/algoritmo
-blast
[7] Análisis de genomas:
http://darwin.uvigo.es/people/fabascal/tesis.pdf
[8] Bioinformática para novatos:
http://silvioalejandro.tripod.com/
[9] Alineamiento de secuencias:
http://www.madrimasd.org/blogs/bioinformatica
/2006/09/01/39376
[10] Tutorial Blast:
http://www.ncbi.nlm.nih.gov/Education/BLAST
info/tut1.html
[11] Tutorial Blast:
http://www.ncbi.nlm.nih.gov/Education/BLAST
info/tut2.html
[12] Proceso de Markov:
http://es.wikipedia.org/wiki/Proceso_de_M%C3
%A1rkov
[13] HMM:
http://es.wikipedia.org/wiki/Modelo_oculto_de_
M%C3%A1rkov
[14] Aplicaciones de la IA al análisis de
Biosecuencias:
http://www.uv.mx/mia/egresados/documents/MI
AJULIOCeSARSANDRiAREYNOSO.pdf
[15] Gen: http://es.wikipedia.org/wiki/Gen
[16] Proyecto Genoma Humano:
http://es.wikipedia.org/wiki/Proyecto_Genoma_
Humano
Descargar