1 Práctica VII: Alineamiento múltiple de secuencias Objetivo general

Anuncio
Práctica VII: Alineamiento múltiple de secuencias
Objetivo general
Ø El alumno conocerá las distintas técnicas computacionales que existen para
construir alineamientos múltiples de secuencias.
Objetivos específicos:
Ø Aprender los principios fundamentales de las técnicas de alineamiento múltiple
progresivas y reiterativas.
Ø Realizar el alineamiento múltiple de secuencias, mediante programas que empleen
algoritmos progresivos.
Ø Calcular el alineamiento múltiple de secuencias, mediante programas que empleen
algoritmos reiterativos.
Introducción
Los alineamientos múltiples generan un resumen altamente informativo de las
variaciones que han sufrido un grupo de secuencias relacionadas. Con dichos alineamientos
es posible identificar con facilidad las zonas que se han conservado o aquellas que ha
variado durante la evolución de la secuencias. Dicha información suele ser de utilidad para
inferir la estructura o la función de diversas moléculas. Por otra parte, haciendo un análisis
detallado de los cambios que han ocurrido es posible realizar inferencias filogenéticas que
permiten estimar el probable camino evolutivo que dio origen a las secuencias que
componen el alineamiento. Otra aplicación importante de los alineamientos múltiples es
que estos pueden codificarse en forma estadística; de esta forma la información que
contienen puede emplearse para realizar búsquedas altamente sensibles para la localización
de otros homólogos de las secuencias que componen el alineamiento.
Un alineamiento múltiple es aquel alineamiento en el que se incluen más de dos
secuencias. Las técnicas computacionales que existen para generar alineamientos múltiples,
no son una simple generalización de las técnicas empleadas para alinear dos secuencias.
Recordemos que en el alineamiento de parejas de secuencias, se puede recurrir a las
técnicas de programación dinámica o a métodos heurísticos. No obstante, en general dichas
técnicas no son aplicables directamente al alineamiento de más de dos secuencias, ya que la
complejidad de dichos algoritmos es del orden O(nk) donde n es la longitud promedio de
las secuencias y k el número de ellas. Esta clase de órdenes representan tiempo y memoria
que son excesivos para la mayor parte de las aplicaciones prácticas. Por tal motivo, los
alineamientos múltiples suelen calcularse por otras estrategias, que si bien no garantizan la
obtención de alineamientos óptimos, permiten resolver el problema en forma satisfactoria
para distintas aplicaciones. No obtante, es importante conocer las limitaciones que posee
cada método para de esa forma comenzar a estimar que tan apropiado es un alineamiento
generado por una estrategia determinada.
Entre las técnicas más ampliamente utilizadas para el cálculo alineamiento
múltiples debemos citar los métodos “progresivos”. Dicha estrategia fue propuesta por
1
primera vez por Feng y Doolittle. Los métodos progresivos consisten en 3 pasos básicos: i)
Realizar el alineamiento de todas combinaciones de parejas de secuencias. En este paso se
pueden emplear incluso técnica de programación dinámica, pero solo se utilizan para el
alineamiento de dos de secuencias a la vez. ii) Generar un árbol guía con los grados de
similitud o las puntuaciones del alineamiento de cada pareja el cual será utilizado para
determinar el orden en que se las secuencias se incorporarán al alineamiento múltiple. iii)
Alinear en forma progresiva todas las secuencias según el orden dictado por el árbol guía.
La serie de programas Clustal W/X son los representantes más populares actualmente de los
programas basado en las técnicas progresivas de alineamiento.
Un problema común de los alineamientos progresivos es que los errores cometidos
tempranamente en el alineamiento, se acumulan a medida que avanza el algoritmo
provocando que las secuencias más divergentes no se alineen de manera satisfactoria. A
dicho fenómeno se le conoce como “propagación del error”. Por tal motivo se han
desarrollado distintas técnicas que buscan, en un principio corregir o prevenir lo errores que
se producen en las técnicas progresivas.
En las técnicas reiterativas, por ejemplo, se puede partir de un alineamiento
calculado por técnicas progresivas, este alineamiento inicial se evalúa y posteriormente hay
un proceso repetitivo en el cual las secuencias se alinean varias veces tratando en cada caso
de identificar cambios con el alineamiento previo y en su caso mejorar su puntuación. Este
proceso se repite hasta que la calidad del alineamiento ya no mejora significativamente o
hasta que se ha cumplido un número determinado de repeticiones del alineamiento. Existen
diversos programas basado en esta estrategia entre los que se puede nombrar DIALIGN, el
cual emplea una técnica reiterativa hasta lograr un alineamiento múltiple en el que las
secuencias comparten el mayor número de bloques de residuos similares o “diagonales”.
MultAlin utiliza primero un alineamiento progresivo, entonces recalcula el agrupamiento de
secuencias basándose ahora en el nuevo alineamiento y vuelve a calcular el alineamiento
múltiple; este proceso se repite hasta que los agrupamientos ya no cambien. El programa
Parallel PRRN debe su alta eficiencia al empleo de un sistema de cómputo distribuido con
32 procesadores (en paralelo), por lo que realiza el análisis en un tiempo razonable. De
especial interés es el programa Muscle del EBI, el cual calcula distancias entre grupos de
secuencias basadas en el número de palabras que comparten las secuencias y
posteriormente combina una estrategia reiterativa para corregir discrepancias entre el
alineamiento y el árbol guía.
Existen otras técnicas más complejas que a menudo combinan ideas de diversas
estrategias. A dichas estrategias se les conoce comunmente como cooperativas. Un ejemplo
de estas técnicas es el programa T-Coffee el cual, si bien utiliza un técnica de alineamiento
de tipo progresiva, permite incorporar datos de consistencia entre diversos criterios para
evaluar la calidad de los alineamientos, y así generar alineamientos múltiples de alta
calidad.
Finalmente existen también técnicas basadas en criterios estadísticos, pero estas
estrategias merecen un capítulo aparte, por lo que se analizarán en una práctica posterior.
2
Recursos informáticos utilizados:
•
•
•
•
•
•
Bases de datos del NCBI (http://www.ncbi.nlm.nih.gov)
Clustal X 2.0
Servidor T-Coffee (http://www.tcoffee.org)
Servidor DIALIGN2 (http://www.genomatix.de/cgi-bin/dialign/dialign.pl)
Servidor MultAlin (http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html)
Servicios para el alineamiento múltiple de secuencias del EBI
(http://www.ebi.ac.uk/Tools/msa/)
Procedimiento
I. Descarga de secuencias de serin-proteasas de tripsina. Las serin-proteasas son
enzimas que hidrolizan enlaces peptídicos mediante un mecanismo que involucra una
“triada catalítica” de residuos de histidina, serina y ácido aspártico, los cuales se encuentran
altamente conservados; no obstante el grado de divergencia es muy amplio en esta familia.
En esta práctica se realizará una búsqueda de homólogos pertenecientes a esta familia de
proteínas y posteriormente se realizará el alineamiento múltiple de las secuencias para tratar
de localizar las zonas mejor conservadas e identificar regiones importantes para su
estructura y función.
1. Búsqueda de homólogos con BLAST. Ingresar a la página de BLAST y utilizar el
programa blastp para buscar homólogos de la proteína con clave de acceso P00760,
considerando solamente los residuos del 18 al 246 y empleando la base de datos del
Protein Data Bank (PDB). Para el formato de los resultados configure 1000 resultados
para tener la seguridad de poder localizar todas las proteínas homólogas que se
mencionan en la siguiente tabla. En la sección de alineamientos marque la casilla de las
proteínas solicitadas y descargue las secuencias es un solo archivo el formato FASTA.
Note que la primera secuencia de esta tabla es idéntica a la secuencia problema.
Tabla 1: Claves de acceso de las serin-proteasas a descargar para el alineamiento
ID
Cadena
ID
Cadena
ID
Cadena
1F0T
A
1CO7
E
1EKB
B
5PTP
A
1H4W
A
1HAG
E
1TAW
A
1TON
A
1SGT
A
1TFX
A
1FN8
A
1MCT
A
1PPZ
A
2. Con un editor de texto editar el archivo de las secuencias para dejar exclusivamente la
clave de acceso y la cadena (en caso de haberla) como el título de cada secuencia (por
ejemplo 1F0TA, 1TONA, 1HAGA, etc). Recuerde que en este proceso no debe
3
eliminarse el símbolo ‘>’ al comienzo del título de la secuencia ya que es esencial para
que los programas reconozcan correctamente el formato FASTA. El archivo
serin_proteasas.fasta se usará para llevar a cabo el alineamiento múltiple con los
diversos programas citados en la práctica.
II. Alineamiento de secuencias con Clustal X. Ejecutar el programa Clustal X 2.0 y llevar
a cabo los siguientes pasos para calcular el alineamiento de las serin-proteasas descargadas
previamente:
1. Carga de las secuencias de tripsinas en el formato FASTA. Leer las secuencias de la
tripsinas dando clic en el menu “File” y después en la opción la opción del menú “Load
sequences”.
2. Configuración de los parámetros para el alineamiento de pares de secuencias. Dar
clic en el menú “Alignment” -> “Alignment Parameters” y seleccionar -> “Pairwise
Alignment Parameters”. En el cuadro mostrado marcar la matriz BLOSUM 30, y
mantener los valores predeterminados de penalización para la apertura y la extensión de
huecos.
3. Configuración de los parámetros para el alineamiento múltiple. Abrir el menú
“Alignment” > “Alignment Parameters” y seleccionar “Multiple Alignment
Parameters”. En este cuadro seleccionar como matriz “BLOSUM Series”.
4. Alineamiento de las secuencias. Realizar el alineamiento múltiple para lo cual se abre
el menú “Alignment” y entonces la opción “Do complete alignment”. Se abre un cuadro
indicando los nombres de los archivos de salida del alineamiento y la ruta de
almacenamiento. Verificar los nombres de los archivos de salida y la ruta adecuada y
entonces proceder a calcular el alineamiento.
5. Inspección de los archivos obtenidos. Examinar el archivo que contiene el
alineamiento producido (extensión *.aln) y abrirlo con un editor de texto. Por otra parte
examinar el archivo con la extensión *.dnd (necesitará algún programa para visualizar
árboles filogenéticos). Este archivo corresponde al árbol guía del alineamiento. Observe
si hay alguna correspondencia entre la forma como se acomodan la secuencias en el
alineamiento y su agrupamiento en el árbol guía.
6. Análisis del alineamiento en la interfaz gráfica de Clustal X. Observe el código de
color empleado para el alineamiento. El código de color empleado por defecto por
Clustal se describe en la ayuda del programa. Trate de determinar que propiedades de
los aminoácidos se han tomado en cuenta para elaborar este código de color. El código
nos permite identificar en el alineamiento las regiones mejor conservadas. En la parte
inferior del alineamiento se incluye un gráfico en el cual se muestra como varía el grado
de conservación (calidad del alineamiento) a lo largo del mismo.
7. Triada HDS de las serín-proteasas y otros residuos altamente conservados.
Identifique las columnas con los residuos conservados de Histidina (columna 80
4
aproximadamente), Acido Aspártico (columna 145 aprox.) y Serina (en la columna 250
aprox) pertenecientes a la triada catalítica. Verifique si el alineamiento es correcto y
observe el grado de conservación en torno a las regiones que incluyen a estos residuos.
Por otro lado identifique columnas de residuos de Cisteína, este aminoácido puede
forma puentes disulfuro los cuales son muy importantes para el mantenimiento de la
estructura de estas proteínas.
8. Identificación de regiones y residuos potencialmente mal alineados. Examine las
regiones 160-210 y 230-250 del alineamiento y trate de identificar visualmente residuos
incorrectamente alineados. Dar clic en el menú “Quality” y después en “Calculate LowScoring Segments”. Los residuos poco consistentes con los alineamientos se muestran
en tonos resaltados. En el menú “Quality” activar la opción “Show excepcional
residues”. Observe que la presencia de estos residuos es mayor en las zonas
escasamente conservadas.
III. Alineamiento múltiple de secuencias con Clustal W del EBI.
1. Repetir el alineamiento previo de las secuencias con el programa Clustal W del servidor
EBI del EMBL. Utilizar la matriz Blosum para el cálculo de los alineamientos.
2. Una vez calculado el alineamiento presionar el botón “Start Jalview” para visualizar el
alineamiento con el programa JalView. ¿Qué ventajas y desventajas presenta el uso de
la versión WEB del programa Clustal W?.
IV. Alineamiento de las secuencias empleando T-Coffee
1. Ingresar a la página del servidor T-Coffee.
2. Cargar el archivo de secuencias de tripsinas en formato FASTA. Alternativamente
puede copiar y pegar las secuencias en formato fasta en el cuadro de la páginas.
3. Examinar las opciones que proporciona T-Coffee para el cálculo del alineamiento
múltiple. Entre estas opciones podrá notar que el programa puede combinar diversas
estrategias de alineamiento y seleccionar diversos formatos para el archivos de
resultados.
4. Opcionalmente puede ingresar su correo electrónico para recibir una notificación
cuando termine el alineamiento, lo cual es conveniente cuando se alinean varias
secuencias (para este ejemplo no es necesario).
5. Presionar el botón “Submit” y esperar la recepción de resultados.
6. Revisar los resultados obtenidos especialmente el archivo score_html o score_pdf.
Observe y discuta como se evalúa la calidad del alineamiento múltiple.
5
V. Alineamiento de las secuencias empleando Expresso 3D-Coffee
Seguir las instrucciones anteriores pero en la página principal de T-Coffee seleccionar la
aplicación Expresso (3DCoffee). Para que esta aplicación funcione correctamente el
archivo FASTA deberá cumplir con el formato de título propuesto en la práctica anterior en
el cual los títulos de las secuencias se forman de una clave de 5 letras formada por el ID de
PDB y la letra que identifica a la cadena derivada de la estructura. Esta clave la utiliza
Expresso para localizar las estructuras en la base de datos PDB y evaluar la consistencia
con el alineamiento estructural. No es necesario que de todas las secuencias se conozca la
estructura. Comparar el alineamiento obtenido con el producido en T-Coffee (normal) e
identificar sus diferencias.
VI Alineamiento multiple con DIALIGN2.
1. Ingresar a la página de DiAlign2.
2. Cargar el archivo a analizar, dando clic “Browse” y seleccionar el archivo de tripsinas
en formato fasta.
3. Marcar el tipo de secuencias a alinear, en este caso proteínas.
4. Dar clic en “Load Sequences for DiAlign”.
5. En la siguiente página escribir su dirección de correo electrónico y un nombre para el
archivo de resultados (opcional).
6. Dar clic en el link de “More options” y en esa página en la sección “Additional output”
activar la casilla que proporciona el archivo de resultados en formato Fasta.
7. Dar clic en “Start Alignment”. Los resultados se enviaran a su correo electrónico.
8. Para poder emplear el alineamiento en formato FASTA en otros programas este se
deberá copiar y pegar en un archivo de texto.
9. Examinar el alineamiento obtenido y discuta los resultados obtenidos. En particular
¿Cómo es el grado de conservación para las regiones catalíticas importantes de estas
secuencias?
VII. Alineamiento empleando MultiAlin.
1.
2.
3.
4.
5.
Ingresar a la página de MultAlin.
Cargar el archivo de tripsinas con el botón “Browse”.
No se modificaran las opciones predeterminadas pero se recomienda revisar los
parámetros del programa.
Presionar el icono “Start MultAlin”.
En la página de resultados buscar la sección “Available files” y en la opción de
“Results as a fasta file” dar clic derecho y elegir “Guardar destino como” nombrar
al archivo como MALIGTRIP.fasta y guardar en la carpeta de bioinfo.
6
VIII. Alineamiento con los programas Muscle, MAFFT y KAlign:
1.
2.
3.
4.
Ingresar a la página de herramientas para el cáclulo de alinemientos múltiples del EBI.
Seleccione el programa correspondiente (Muscle, MAFT o KAlign)
Cargar el archivo de tripsinas en formato FASTA con el botón examinar.
Verificar las opciones disponibles para cada programa, en particular preste atención a
los formatos de salida que ofrece cada programa (Se recomienda utilizar el formato
Clustal para los resultados).
5. Calcular el alineamiento y guardar los resultados obtenidos.
6. En todas estas aplicaciones, al igual que para el programa ClustalX examinado
previamente hay distintas opciones para visualizar el alineamiento. Particularmente
puede examinar los alineamientos obtenidos con el programa JalView.
Guía para el reporte de la práctica
1. Elaborar un cuadro en el cual se resuman los parámetros que ofrecen los distintos
programas para el cálculo de alineamientos múltiples. Completar la información del
cuadro consultando en la documentación de cada programa el significado de los
diferentes parámetros.
2. Recolectar los archivos de los alineamientos generados con cada programa. Estos
alineamientos serán importados posteriormente con diversos editores. ¿Puede juzgar
visualmente si algunos de los alineamientos generados con estos programas fueron los
mismos?
3. Examinar los alineamientos obtenidos con cada programa (puede examinarlos
inicialmente abriéndolos en la interfaz de ClustalX) y resumir en un cuadro las
características de los mismos en torno a: i) Los residuos pertenecientes a la triada
catalítica y otros residuos importantes tales como las cisteínas (¿cuántos puentes
disulfuro se forman en estas proteínas?), ii) El número de regiones altamente
conservadas. iii) El número de huecos presentes en cada alineamiento. iv) La presencia
de regiones con residuos alineados incorrectamente.
4. Investigue otras características funcionales y estructurales de las serín-proteasas y con
esta información explique que importancia tienen otras zonas conservadas de las
secuencias con la estructura-función de estas proteínas.
5. Observe el agrupamiento de las secuencias en los diversos árboles gruía producidos por
cada programa y discuta si existe correspondencia entre el alineamiento, el
agrupamiento de las secuencias en el árbol y la calidad del alineamiento. Identifique si
hay grupos de secuencias en los que los problemas de alineamiento o las discrepancias
entre alineamientos calculados con diferentes programas son más frecuentes.
6. Discuta si el agrupamiento de las secuencias y los problemas o discrepancias detectados
en los alineamiento guarda relación con los valores de expectación de la búsqueda con
BLAST.
7. Describa como puede ayudar el coloreado empleando por cada programa para la
interpretación del alineamiento (Por ejemplo el empleado en Clustal, JalView y TCoffee). ¿Qué propiedades se tomaron en cuenta para elaborar cada código de color.
¿Qué relación existe entre el coloreado por columnas y el histograma que genera Clustal
7
o JalView para identificar las columnas total o parcialmente conservadas? Investigue si
existen otros códigos de color para identificar zonas conservadas en los alineamientos y
en qué propiedades se basan.
Preguntas
1. Explicar porqué el algoritmo de programación dinámica no puede emplearse para
producir un alineamiento múltiple óptimo para varias secuencias como se da para el
caso de los alineamientos de pares de secuencias.
2. ¿Qué información biológica sería deseable conocer para evaluar y refinar un
alineamiento múltiple?
3. ¿Qué características tendría el alineamiento de secuencias muy divergentes en
programas como Clustal?
4. Clustal utiliza alineamientos de programación dinámica globales. ¿Qué cuidados se
deben tener en cuanto a las secuencias utilizadas antes de proceder a alinearlas con este
tipo de programas?
5. ¿Cuándo se recomienda utilizar el sistema de puntuación PAM/Gonnet o el BLOSUM?
6. ¿Cuál es el efecto de utilizar penalizaciones altas o bajas para los huecos en el
alineamiento?
7. ¿Recomendaría el uso de alguno de los programas descritos en esta práctica para el
alineamiento múltiple de secuencias de DNA codificantes? ¿Qué problemas se podrían
presentar en esta clase de alineamientos?
8. ¿Cuáles pueden ser las ventajas y desventajas de los algoritmos progresivos y de los
algoritmos reiterativos?
9. ¿Pueden los alineamientos progresivos o los reiterativos producir un alineamiento
óptimo?
8
Bibliografía
1. Chenna, R., et al. (2003): "Multiple sequence alignment with the Clustal series of programs."
Nucleic Acids Res 31(13): 3497-3500.
2. Nicholas, H. B., Jr., et al. (2002): "Strategies for multiple sequence alignment." Biotechniques
32(3): 572-574, 576, 578 passim.
3. Thompson, J. D., et al. (1994): "CLUSTAL W: improving the sensitivity of progressive
multiple sequence alignment through sequence weighting, position-specific gap penalties and
weight matrix choice." Nucleic Acids Res 22(22): 4673-4680.
4. Thompson, J. D., et al. (1997): "The CLUSTAL_X windows interface: flexible strategies for
multiple sequence alignment aided by quality analysis tools." Nucleic Acids Res 25(24): 48764882.
5. Mount D. W. (2001): Bioinformatics: sequence and genome analysis, Cold Spring Harbor
Laboratory Press, New York, USA, pp: 152-155.
6. Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley
Publishing New York. USA. pp:279-314.
7. DIALIGN-T: an improved algorithm for segment-based multiple sequence alignment.
Subramanian AR, Weyer-Menkhoff J, Kaufmann M, Morgenstern B. BMC Bioinformatics.
2005 Mar 22;6:66.
8. Strategies for multiple sequence alignment.. Nicholas HB Jr, Ropelewski AJ, Deerfield DW
2nd., Biotechniques. 2002 Mar;32(3):572-4, 576, 578 passim. Review.
9. T-Coffee: A novel method for multiple sequence alignments. C.Notredame, D. Higgins, J.
Heringa, Journal of Molecular Biology, Vol 302, pp205-217,2000
10. Comprehensive study on iterative algorithms of multiple sequence alignment. Hirosawa, M.,
Totoki, Y., Hoshida, M., and Ishikawa, M. (1995) CABIOS 11, 13-18.
11. Edgar R.C. (2004): MUSCLE: a multiple sequence alignment method with reduced time and
space complexity.BMC Bioinformatics 5: 113.
12. Edgar R.C. (2004): MUSCLE: multiple sequence alignment with high accuracy and high
throughput. Nucleic Acids Research 32(5): 1792-1797.
13. O'Sullivan O., Suhre K., Abergel C., Higgins D.G., Notredame C. (2004): 3DCoffee:
Combining Protein Sequences and Structures within Multiple Sequence Alignments. Journal of
Molecular Biology 340: 385-395.
9
Descargar