ALINEAMIENTO DE SECUENCIAS Una de las premisas básicas en Biología establece que la secuencia de una proteína determina su estructura tridimensional y, a su vez, la estructura 3D determina la función. Por tanto, será muy probable que secuencias similares den lugar a moléculas con estructura y función parecidas. Uno de los objetivos más ambiciosos de la Bioinformática (algunos lo llaman el "Santo Grial") consiste en llegar determinar la estructura tridimensional de una proteína a partir de su secuencia de aminoácidos. La comparación de secuencias es la herramienta bioinformática básica que permite extraer la información funcional, estructural y evolutiva contenida en las secuencias biológicas. Cuando se comparan dos o más secuencias, los objetivos son: • • • • determinar (y cuantificar) el grado de similitud que hay entre ellas determinar si existe algún tipo de relación entre ellas o si el parecido es simplemente fruto de la casualidad detectar la presencia de motivos estructurales y/o funcionales conservados construir árboles filogenéticos que reflejen sus relaciones evolutivas Para comparar secuencias es necesario hacer un alineamiento. Alinear secuencias consiste en escribirlas una encima de otra de modo que el número de símbolos que coinciden en una misma posición sea máximo. Si es necesario, se pueden introducir huecos en cualquiera de las secuencias. Los huecos (gaps) introducidos en las secuencias también se denominan indels (insertion/deletion) ya que se pueden considerar, indistintamente, como la inserción de un residuo en una de las secuencias o como la desaparición (o deleción) de un residuo en otra. En cada posición del alineamiento habrá caracteres que podrán ser iguales o no. Se utiliza un sistema de puntuación que otorga a cada pareja de caracteres un valor distinto en función de que sean iguales (match), sean distintos (mismatch) o haya un indel. La puntuación de un alineamiento se calcula sumando la puntuación de cada una de las posiciones y nos ayuda a determinar si las secuencias están realmente relacionadas o si su parecido se debe al azar. El alineamiento que obtiene la mayor puntuación se denomina alineamiento óptimo. En función del número de secuencias que se comparan podemos distinguir: • Alineamiento de dos secuencias: se comparan dos secuencias utilizando diversos métodos como, por ejemplo, la matriz de puntos (dot-plot), algoritmos de programación dinámica (Needleman-Wunsch o Smith-Waterman) o algoritmos heurísticos (FASTA, BLAST). • Alineamiento múltiple de secuencias: se comparan más de dos secuencias. Para ello se pueden utilizar diversos programas basados en algoritmos heurísticos como, por ejemplo, CLUSTALW. Una variante interesante del análisis de secuencias consiste en comparar una secuencia consigo misma mediante una matriz de puntos. Este método permite poner de manifiesto características interesantes de la secuencia como repeticiones, inversiones, regiones palindrómicas, etc. No permite profundizar mucho en el análisis de la secuencia pero nos garantiza que no vamos a pasar por alto nada obvio. Los alineamientos de dos secuencias pueden ser de tres tipos: • • • Alineamiento global: Es especialmente útil cuando las secuencias se parecen bastante, tienen una longitud similar y los dominios conservados se encuentran en el mismo orden. Abarca la totalidad de las secuencias comparadas, es decir, intenta alinear todos y cada uno de los residuos de las dos secuencias. Este tipo de alineamiento nos permitirá determinar si las secuencias son homólogas o no, si pertenecen a una misma familia o construir un árbol filogenético. Se utiliza el algoritmo de Needleman-Wunsch, una variante del algoritmo de programación dinámica. Alineamiento local: Es el más utilizado y resulta especialmente útil cuando se comparan secuencias muy divergentes, de igual o distinta longitud, pero que pueden contener una o más regiones conservadas con similitud local. Las regiones conservadas suelen corresponder a dominios estructurales o funcionales (centros activos, regiones de interacción con otras moléculas, exones, etc.) que resultan cruciales para el mantenimiento de la estructura y/o función de la molécula. Se utiliza el algoritmo de Smith-Waterman, una variante del algoritmo de programación dinámica. Alineamiento semiglobal: Es especialmente útil cuando se comparan secuencias de longitud muy distinta o secuencias en las que el final de una se solapa con el inicio de la otra. En este caso no sería adecuado un alineamiento global (ya que trataría de forzar el alineamiento a la totalidad de la secuencia) ni uno local (que podría no abarcar la totalidad del solapamiento). Permite (1) detectar las regiones de solapamiento que nos permitan ensamblar contigs a partir de fragmentos más pequeños, (2) comparar ADNc o EST (expressed sequence tags) con ADN genómico para así poder distinguir los exones de los intrones y determinar la estructura del gen, y (3) descubrir patrones en una secuencia mucho más larga. Se utiliza una variante del algoritmo de SmithWaterman que no aplica penalizaciones ni al inicio ni al final de la secuencia más larga. Alineamiento global Alineamiento local Alineamiento semiglobal Al comparar dos secuencias puede ocurrir: • Que sean idénticas: En este caso, lo más probable es que una descienda directamente de la otra por mecanismos hereditarios (transferencia vertical de genes). • Que sean parecidas: En este caso, el parecido puede deberse a que ambas secuencias descienden de un ancestro común (homología) o a que se trata de un caso de evolución convergente (analogía) Es importante recordar que dos secuencias son homólogas cuando ambas descienden de una misma secuencia ancestral. O son homólogas o no lo son y, por tanto, no tiene sentido hablar de un porcentaje de homología. Serán más o menos parecidas en función de la distancia evolutiva que las separe y este parecido sí se puede expresar en forma de porcentaje de identidad o de similitud. Por regla general, cuando el porcentaje de residuos idénticos entre dos secuencias supera el 30% la probabilidad de que sean homólogas supera el 90%. Por debajo de este valor nos encontramos en la llamada “zona crepuscular" (twilight zone), en la el que porcentaje de identidad no permite determinar si son homólogas o no. Se distinguen tres tipos de homología: • Ortología: La divergencia entre las secuencias es posterior a un proceso de especiación. El ancestro común del que derivan todas las secuencias es el cenancestro de los taxa a partir de los cuales se han obtenido las secuencias. Estas secuencias suelen desempeñar la misma función en organismos distintos. La filogenia real de las secuencias coincide con la filogenia real de los taxa de donde proceden. • Paralogía: La divergencia entre las secuencias es posterior a un proceso de duplicación génica dentro de un mismo organismo. Cada una de las secuencias puede ir evolucionando de distinta forma y en algunos casos pueden adquirir nuevas funciones. Cuando se tienen secuencias ortólogas y parálogas mezcladas, el árbol filogenético que se obtiene refleja la filogenia real de las secuencias pero no la de los taxa de donde proceden. • Xenología: La divergencia entre las secuencias es posterior a un proceso de transferencia de material genético de una especie a otra (transferencia horizontal de genes). La presencia de secuencias xenólogas da lugar a árboles genéticos muy distorsionados, lo que facilita su detección. Consejos útiles a la hora de hacer alineamientos A la hora de hacer un alineamiento hay varios aspectos clave que hay que tener en cuenta. En primer lugar hay que decidir qué tipo de alineamiento conviene hacer, en función de los objetivos que se persiguen. En segundo lugar, hay que determinar si es preferible trabajar con la secuencia del ADN o "traducir" el ADN según los 6 marcos abiertos de lectura posibles y después alinear las secuencias proteicas. Cuando se hacen alineamientos de secuencias de ADN hay que tener en cuenta que: • • • • • los 4 nucleótidos aparecen con la misma frecuencia en las bases de datos todos los cambios posibles tienen una probabilidad similar el proceso es lento porque las secuencias son largas para conseguir resultados significativos los alineamientos tienen que ser más largos se tiende a buscar la coincidencia exacta de los caracteres Los alineamientos de secuencias de proteínas son más sensibles, ya que: • • • • aportan más información (cada nucleótido aporta 2 bits, mientras que cada aminoácido más de 4) y, por lo tanto, se pueden obtener resultados significativos con alineamientos más cortos como el código genético está degenerado, casi 1/3 de las bases no está sometido a la presión selectiva las búsquedas en bases de datos de proteínas son más rápidas (ya que no son tan grandes y carecen de secuencias no codificantes) la probabilidad de sustituir un aminoácido por otro varía mucho, lo que aumenta la eficacia de las búsquedas Sin embargo, cuando se analiza una secuencia de ADN que corresponde a un gen no codificante, no queda más remedio que trabajar con la secuencia de nucleótidos. En tercer lugar hay que decidir cuál es el sistema de puntuación más adecuado. En el caso de secuencias de nucleótidos hay que decidir cuál es el modelo evolutivo que vamos a adoptar (si todos los cambios son igual de probables o no) y en el caso de secuencias de proteínas hay que decidir qué matriz de puntuación (PAM, BLOSUM, etc.) y qué tipo de penalizaciones se van a emplear. Por último, hay que establecer un método para determinar la significación estadística del alineamiento. Este parámetro permite calcular la probabilidad de que las secuencias estén verdaderamente relacionadas y de que su parecido no se deba simplemente al azar.