ALINEAMIENTO DE SECUENCIAS Una de las premisas básicas en

Anuncio
ALINEAMIENTO DE SECUENCIAS
Una de las premisas básicas en Biología establece que la secuencia de una proteína
determina su estructura tridimensional y, a su vez, la estructura 3D determina la
función. Por tanto, será muy probable que secuencias similares den lugar a moléculas
con estructura y función parecidas. Uno de los objetivos más ambiciosos de la
Bioinformática (algunos lo llaman el "Santo Grial") consiste en llegar determinar la
estructura tridimensional de una proteína a partir de su secuencia de aminoácidos.
La comparación de secuencias es la herramienta bioinformática básica que permite
extraer la información funcional, estructural y evolutiva contenida en las secuencias
biológicas. Cuando se comparan dos o más secuencias, los objetivos son:
•
•
•
•
determinar (y cuantificar) el grado de similitud que hay entre ellas
determinar si existe algún tipo de relación entre ellas o si el parecido es
simplemente fruto de la casualidad
detectar la presencia de motivos estructurales y/o funcionales conservados
construir árboles filogenéticos que reflejen sus relaciones evolutivas
Para comparar secuencias es necesario hacer un alineamiento. Alinear secuencias
consiste en escribirlas una encima de otra de modo que el número de símbolos que
coinciden en una misma posición sea máximo. Si es necesario, se pueden introducir
huecos en cualquiera de las secuencias. Los huecos (gaps) introducidos en las
secuencias también se denominan indels (insertion/deletion) ya que se pueden
considerar, indistintamente, como la inserción de un residuo en una de las secuencias o
como la desaparición (o deleción) de un residuo en otra.
En cada posición del alineamiento habrá caracteres que podrán ser iguales o no. Se
utiliza un sistema de puntuación que otorga a cada pareja de caracteres un valor
distinto en función de que sean iguales (match), sean distintos (mismatch) o haya un
indel. La puntuación de un alineamiento se calcula sumando la puntuación de cada
una de las posiciones y nos ayuda a determinar si las secuencias están realmente
relacionadas o si su parecido se debe al azar. El alineamiento que obtiene la mayor
puntuación se denomina alineamiento óptimo.
En función del número de secuencias que se comparan podemos distinguir:
•
Alineamiento de dos secuencias: se comparan dos secuencias utilizando
diversos métodos como, por ejemplo, la matriz de puntos (dot-plot), algoritmos
de programación dinámica (Needleman-Wunsch o Smith-Waterman) o
algoritmos heurísticos (FASTA, BLAST).
•
Alineamiento múltiple de secuencias: se comparan más de dos secuencias.
Para ello se pueden utilizar diversos programas basados en algoritmos
heurísticos como, por ejemplo, CLUSTALW.
Una variante interesante del análisis de secuencias consiste en comparar una
secuencia consigo misma mediante una matriz de puntos. Este método permite poner
de manifiesto características interesantes de la secuencia como repeticiones,
inversiones, regiones palindrómicas, etc. No permite profundizar mucho en el análisis
de la secuencia pero nos garantiza que no vamos a pasar por alto nada obvio.
Los alineamientos de dos secuencias pueden ser de tres tipos:
•
•
•
Alineamiento global: Es especialmente útil cuando las secuencias se parecen
bastante, tienen una longitud similar y los dominios conservados se encuentran
en el mismo orden. Abarca la totalidad de las secuencias comparadas, es decir,
intenta alinear todos y cada uno de los residuos de las dos secuencias. Este tipo
de alineamiento nos permitirá determinar si las secuencias son homólogas o no,
si pertenecen a una misma familia o construir un árbol filogenético. Se utiliza el
algoritmo de Needleman-Wunsch, una variante del algoritmo de programación
dinámica.
Alineamiento local: Es el más utilizado y resulta especialmente útil cuando se
comparan secuencias muy divergentes, de igual o distinta longitud, pero que
pueden contener una o más regiones conservadas con similitud local. Las
regiones conservadas suelen corresponder a dominios estructurales o funcionales
(centros activos, regiones de interacción con otras moléculas, exones, etc.) que
resultan cruciales para el mantenimiento de la estructura y/o función de la
molécula. Se utiliza el algoritmo de Smith-Waterman, una variante del
algoritmo de programación dinámica.
Alineamiento semiglobal: Es especialmente útil cuando se comparan
secuencias de longitud muy distinta o secuencias en las que el final de una se
solapa con el inicio de la otra. En este caso no sería adecuado un alineamiento
global (ya que trataría de forzar el alineamiento a la totalidad de la secuencia) ni
uno local (que podría no abarcar la totalidad del solapamiento). Permite (1)
detectar las regiones de solapamiento que nos permitan ensamblar contigs a
partir de fragmentos más pequeños, (2) comparar ADNc o EST (expressed
sequence tags) con ADN genómico para así poder distinguir los exones de los
intrones y determinar la estructura del gen, y (3) descubrir patrones en una
secuencia mucho más larga. Se utiliza una variante del algoritmo de SmithWaterman que no aplica penalizaciones ni al inicio ni al final de la secuencia
más larga.
Alineamiento global
Alineamiento local
Alineamiento semiglobal
Al comparar dos secuencias puede ocurrir:
•
Que sean idénticas: En este caso, lo más probable es que una descienda
directamente de la otra por mecanismos hereditarios (transferencia vertical de
genes).
•
Que sean parecidas: En este caso, el parecido puede deberse a que ambas
secuencias descienden de un ancestro común (homología) o a que se trata de un
caso de evolución convergente (analogía)
Es importante recordar que dos secuencias son homólogas cuando ambas descienden de
una misma secuencia ancestral. O son homólogas o no lo son y, por tanto, no tiene
sentido hablar de un porcentaje de homología. Serán más o menos parecidas en
función de la distancia evolutiva que las separe y este parecido sí se puede expresar en
forma de porcentaje de identidad o de similitud. Por regla general, cuando el porcentaje
de residuos idénticos entre dos secuencias supera el 30% la probabilidad de que sean
homólogas supera el 90%. Por debajo de este valor nos encontramos en la llamada
“zona crepuscular" (twilight zone), en la el que porcentaje de identidad no permite
determinar si son homólogas o no.
Se distinguen tres tipos de homología:
•
Ortología: La divergencia entre las secuencias es posterior a un proceso de
especiación. El ancestro común del que derivan todas las secuencias es el
cenancestro de los taxa a partir de los cuales se han obtenido las secuencias.
Estas secuencias suelen desempeñar la misma función en organismos distintos.
La filogenia real de las secuencias coincide con la filogenia real de los taxa de
donde proceden.
•
Paralogía: La divergencia entre las secuencias es posterior a un proceso de
duplicación génica dentro de un mismo organismo. Cada una de las secuencias
puede ir evolucionando de distinta forma y en algunos casos pueden adquirir
nuevas funciones. Cuando se tienen secuencias ortólogas y parálogas mezcladas,
el árbol filogenético que se obtiene refleja la filogenia real de las secuencias
pero no la de los taxa de donde proceden.
•
Xenología: La divergencia entre las secuencias es posterior a un proceso de
transferencia de material genético de una especie a otra (transferencia
horizontal de genes). La presencia de secuencias xenólogas da lugar a árboles
genéticos muy distorsionados, lo que facilita su detección.
Consejos útiles a la hora de hacer alineamientos
A la hora de hacer un alineamiento hay varios aspectos clave que hay que tener en
cuenta. En primer lugar hay que decidir qué tipo de alineamiento conviene hacer, en
función de los objetivos que se persiguen.
En segundo lugar, hay que determinar si es preferible trabajar con la secuencia del
ADN o "traducir" el ADN según los 6 marcos abiertos de lectura posibles y después
alinear las secuencias proteicas. Cuando se hacen alineamientos de secuencias de
ADN hay que tener en cuenta que:
•
•
•
•
•
los 4 nucleótidos aparecen con la misma frecuencia en las bases de datos
todos los cambios posibles tienen una probabilidad similar
el proceso es lento porque las secuencias son largas
para conseguir resultados significativos los alineamientos tienen que ser más
largos
se tiende a buscar la coincidencia exacta de los caracteres
Los alineamientos de secuencias de proteínas son más sensibles, ya que:
•
•
•
•
aportan más información (cada nucleótido aporta 2 bits, mientras que cada
aminoácido más de 4) y, por lo tanto, se pueden obtener resultados significativos
con alineamientos más cortos
como el código genético está degenerado, casi 1/3 de las bases no está sometido
a la presión selectiva
las búsquedas en bases de datos de proteínas son más rápidas (ya que no son tan
grandes y carecen de secuencias no codificantes)
la probabilidad de sustituir un aminoácido por otro varía mucho, lo que aumenta
la eficacia de las búsquedas
Sin embargo, cuando se analiza una secuencia de ADN que corresponde a un gen no
codificante, no queda más remedio que trabajar con la secuencia de nucleótidos.
En tercer lugar hay que decidir cuál es el sistema de puntuación más adecuado. En el
caso de secuencias de nucleótidos hay que decidir cuál es el modelo evolutivo que
vamos a adoptar (si todos los cambios son igual de probables o no) y en el caso de
secuencias de proteínas hay que decidir qué matriz de puntuación (PAM, BLOSUM,
etc.) y qué tipo de penalizaciones se van a emplear.
Por último, hay que establecer un método para determinar la significación
estadística del alineamiento. Este parámetro permite calcular la probabilidad de que las
secuencias estén verdaderamente relacionadas y de que su parecido no se deba
simplemente al azar.
Descargar