Práctica VII: Alineamiento múltiple de secuencias Objetivo general Ø El alumno conocerá las distintas técnicas computacionales que existen para construir alineamientos múltiples de secuencias. Objetivos específicos: Ø Aprender los principios fundamentales de las técnicas de alineamiento múltiple progresivas y reiterativas. Ø Realizar el alineamiento múltiple de secuencias, mediante programas que empleen algoritmos progresivos. Ø Calcular el alineamiento múltiple de secuencias, mediante programas que empleen algoritmos reiterativos. Introducción Los alineamientos múltiples generan un resumen altamente informativo de las variaciones que han sufrido un grupo de secuencias relacionadas. Con dichos alineamientos es posible identificar con facilidad las zonas que se han conservado o aquellas que ha variado durante la evolución de la secuencias. Dicha información suele ser de utilidad para inferir la estructura o la función de diversas moléculas. Por otra parte, haciendo un análisis detallado de los cambios que han ocurrido es posible realizar inferencias filogenéticas que permiten estimar el probable camino evolutivo que dio origen a las secuencias que componen el alineamiento. Otra aplicación importante de los alineamientos múltiples es que estos pueden codificarse en forma estadística; de esta forma la información que contienen puede emplearse para realizar búsquedas altamente sensibles para la localización de otros homólogos de las secuencias que componen el alineamiento. Un alineamiento múltiple es aquel alineamiento en el que se incluen más de dos secuencias. Las técnicas computacionales que existen para generar alineamientos múltiples, no son una simple generalización de las técnicas empleadas para alinear dos secuencias. Recordemos que en el alineamiento de parejas de secuencias, se puede recurrir a las técnicas de programación dinámica o a métodos heurísticos. No obstante, en general dichas técnicas no son aplicables directamente al alineamiento de más de dos secuencias, ya que la complejidad de dichos algoritmos es del orden O(nk) donde n es la longitud promedio de las secuencias y k el número de ellas. Esta clase de órdenes representan tiempo y memoria que son excesivos para la mayor parte de las aplicaciones prácticas. Por tal motivo, los alineamientos múltiples suelen calcularse por otras estrategias, que si bien no garantizan la obtención de alineamientos óptimos, permiten resolver el problema en forma satisfactoria para distintas aplicaciones. No obtante, es importante conocer las limitaciones que posee cada método para de esa forma comenzar a estimar que tan apropiado es un alineamiento generado por una estrategia determinada. Entre las técnicas más ampliamente utilizadas para el cálculo alineamiento múltiples debemos citar los métodos “progresivos”. Dicha estrategia fue propuesta por 1 primera vez por Feng y Doolittle. Los métodos progresivos consisten en 3 pasos básicos: i) Realizar el alineamiento de todas combinaciones de parejas de secuencias. En este paso se pueden emplear incluso técnica de programación dinámica, pero solo se utilizan para el alineamiento de dos de secuencias a la vez. ii) Generar un árbol guía con los grados de similitud o las puntuaciones del alineamiento de cada pareja el cual será utilizado para determinar el orden en que se las secuencias se incorporarán al alineamiento múltiple. iii) Alinear en forma progresiva todas las secuencias según el orden dictado por el árbol guía. La serie de programas Clustal W/X son los representantes más populares actualmente de los programas basado en las técnicas progresivas de alineamiento. Un problema común de los alineamientos progresivos es que los errores cometidos tempranamente en el alineamiento, se acumulan a medida que avanza el algoritmo provocando que las secuencias más divergentes no se alineen de manera satisfactoria. A dicho fenómeno se le conoce como “propagación del error”. Por tal motivo se han desarrollado distintas técnicas que buscan, en un principio corregir o prevenir lo errores que se producen en las técnicas progresivas. En las técnicas reiterativas, por ejemplo, se puede partir de un alineamiento calculado por técnicas progresivas, este alineamiento inicial se evalúa y posteriormente hay un proceso repetitivo en el cual las secuencias se alinean varias veces tratando en cada caso de identificar cambios con el alineamiento previo y en su caso mejorar su puntuación. Este proceso se repite hasta que la calidad del alineamiento ya no mejora significativamente o hasta que se ha cumplido un número determinado de repeticiones del alineamiento. Existen diversos programas basado en esta estrategia entre los que se puede nombrar DIALIGN, el cual emplea una técnica reiterativa hasta lograr un alineamiento múltiple en el que las secuencias comparten el mayor número de bloques de residuos similares o “diagonales”. MultAlin utiliza primero un alineamiento progresivo, entonces recalcula el agrupamiento de secuencias basándose ahora en el nuevo alineamiento y vuelve a calcular el alineamiento múltiple; este proceso se repite hasta que los agrupamientos ya no cambien. El programa Parallel PRRN debe su alta eficiencia al empleo de un sistema de cómputo distribuido con 32 procesadores (en paralelo), por lo que realiza el análisis en un tiempo razonable. De especial interés es el programa Muscle del EBI, el cual calcula distancias entre grupos de secuencias basadas en el número de palabras que comparten las secuencias y posteriormente combina una estrategia reiterativa para corregir discrepancias entre el alineamiento y el árbol guía. Existen otras técnicas más complejas que a menudo combinan ideas de diversas estrategias. A dichas estrategias se les conoce comunmente como cooperativas. Un ejemplo de estas técnicas es el programa T-Coffee el cual, si bien utiliza un técnica de alineamiento de tipo progresiva, permite incorporar datos de consistencia entre diversos criterios para evaluar la calidad de los alineamientos, y así generar alineamientos múltiples de alta calidad. Finalmente existen también técnicas basadas en criterios estadísticos, pero estas estrategias merecen un capítulo aparte, por lo que se analizarán en una práctica posterior. 2 Recursos informáticos utilizados: • • • • • • Bases de datos del NCBI (http://www.ncbi.nlm.nih.gov) Clustal X 2.0 Servidor T-Coffee (http://www.tcoffee.org) Servidor DIALIGN2 (http://www.genomatix.de/cgi-bin/dialign/dialign.pl) Servidor MultAlin (http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html) Servicios para el alineamiento múltiple de secuencias del EBI (http://www.ebi.ac.uk/Tools/msa/) Procedimiento I. Descarga de secuencias de serin-proteasas de tripsina. Las serin-proteasas son enzimas que hidrolizan enlaces peptídicos mediante un mecanismo que involucra una “triada catalítica” de residuos de histidina, serina y ácido aspártico, los cuales se encuentran altamente conservados; no obstante el grado de divergencia es muy amplio en esta familia. En esta práctica se realizará una búsqueda de homólogos pertenecientes a esta familia de proteínas y posteriormente se realizará el alineamiento múltiple de las secuencias para tratar de localizar las zonas mejor conservadas e identificar regiones importantes para su estructura y función. 1. Búsqueda de homólogos con BLAST. Ingresar a la página de BLAST y utilizar el programa blastp para buscar homólogos de la proteína con clave de acceso P00760, considerando solamente los residuos del 18 al 246 y empleando la base de datos del Protein Data Bank (PDB). Para el formato de los resultados configure 1000 resultados para tener la seguridad de poder localizar todas las proteínas homólogas que se mencionan en la siguiente tabla. En la sección de alineamientos marque la casilla de las proteínas solicitadas y descargue las secuencias es un solo archivo el formato FASTA. Note que la primera secuencia de esta tabla es idéntica a la secuencia problema. Tabla 1: Claves de acceso de las serin-proteasas a descargar para el alineamiento ID Cadena ID Cadena ID Cadena 1F0T A 1CO7 E 1EKB B 5PTP A 1H4W A 1HAG E 1TAW A 1TON A 1SGT A 1TFX A 1FN8 A 1MCT A 1PPZ A 2. Con un editor de texto editar el archivo de las secuencias para dejar exclusivamente la clave de acceso y la cadena (en caso de haberla) como el título de cada secuencia (por ejemplo 1F0TA, 1TONA, 1HAGA, etc). Recuerde que en este proceso no debe 3 eliminarse el símbolo ‘>’ al comienzo del título de la secuencia ya que es esencial para que los programas reconozcan correctamente el formato FASTA. El archivo serin_proteasas.fasta se usará para llevar a cabo el alineamiento múltiple con los diversos programas citados en la práctica. II. Alineamiento de secuencias con Clustal X. Ejecutar el programa Clustal X 2.0 y llevar a cabo los siguientes pasos para calcular el alineamiento de las serin-proteasas descargadas previamente: 1. Carga de las secuencias de tripsinas en el formato FASTA. Leer las secuencias de la tripsinas dando clic en el menu “File” y después en la opción la opción del menú “Load sequences”. 2. Configuración de los parámetros para el alineamiento de pares de secuencias. Dar clic en el menú “Alignment” -> “Alignment Parameters” y seleccionar -> “Pairwise Alignment Parameters”. En el cuadro mostrado marcar la matriz BLOSUM 30, y mantener los valores predeterminados de penalización para la apertura y la extensión de huecos. 3. Configuración de los parámetros para el alineamiento múltiple. Abrir el menú “Alignment” > “Alignment Parameters” y seleccionar “Multiple Alignment Parameters”. En este cuadro seleccionar como matriz “BLOSUM Series”. 4. Alineamiento de las secuencias. Realizar el alineamiento múltiple para lo cual se abre el menú “Alignment” y entonces la opción “Do complete alignment”. Se abre un cuadro indicando los nombres de los archivos de salida del alineamiento y la ruta de almacenamiento. Verificar los nombres de los archivos de salida y la ruta adecuada y entonces proceder a calcular el alineamiento. 5. Inspección de los archivos obtenidos. Examinar el archivo que contiene el alineamiento producido (extensión *.aln) y abrirlo con un editor de texto. Por otra parte examinar el archivo con la extensión *.dnd (necesitará algún programa para visualizar árboles filogenéticos). Este archivo corresponde al árbol guía del alineamiento. Observe si hay alguna correspondencia entre la forma como se acomodan la secuencias en el alineamiento y su agrupamiento en el árbol guía. 6. Análisis del alineamiento en la interfaz gráfica de Clustal X. Observe el código de color empleado para el alineamiento. El código de color empleado por defecto por Clustal se describe en la ayuda del programa. Trate de determinar que propiedades de los aminoácidos se han tomado en cuenta para elaborar este código de color. El código nos permite identificar en el alineamiento las regiones mejor conservadas. En la parte inferior del alineamiento se incluye un gráfico en el cual se muestra como varía el grado de conservación (calidad del alineamiento) a lo largo del mismo. 7. Triada HDS de las serín-proteasas y otros residuos altamente conservados. Identifique las columnas con los residuos conservados de Histidina (columna 80 4 aproximadamente), Acido Aspártico (columna 145 aprox.) y Serina (en la columna 250 aprox) pertenecientes a la triada catalítica. Verifique si el alineamiento es correcto y observe el grado de conservación en torno a las regiones que incluyen a estos residuos. Por otro lado identifique columnas de residuos de Cisteína, este aminoácido puede forma puentes disulfuro los cuales son muy importantes para el mantenimiento de la estructura de estas proteínas. 8. Identificación de regiones y residuos potencialmente mal alineados. Examine las regiones 160-210 y 230-250 del alineamiento y trate de identificar visualmente residuos incorrectamente alineados. Dar clic en el menú “Quality” y después en “Calculate LowScoring Segments”. Los residuos poco consistentes con los alineamientos se muestran en tonos resaltados. En el menú “Quality” activar la opción “Show excepcional residues”. Observe que la presencia de estos residuos es mayor en las zonas escasamente conservadas. III. Alineamiento múltiple de secuencias con Clustal W del EBI. 1. Repetir el alineamiento previo de las secuencias con el programa Clustal W del servidor EBI del EMBL. Utilizar la matriz Blosum para el cálculo de los alineamientos. 2. Una vez calculado el alineamiento presionar el botón “Start Jalview” para visualizar el alineamiento con el programa JalView. ¿Qué ventajas y desventajas presenta el uso de la versión WEB del programa Clustal W?. IV. Alineamiento de las secuencias empleando T-Coffee 1. Ingresar a la página del servidor T-Coffee. 2. Cargar el archivo de secuencias de tripsinas en formato FASTA. Alternativamente puede copiar y pegar las secuencias en formato fasta en el cuadro de la páginas. 3. Examinar las opciones que proporciona T-Coffee para el cálculo del alineamiento múltiple. Entre estas opciones podrá notar que el programa puede combinar diversas estrategias de alineamiento y seleccionar diversos formatos para el archivos de resultados. 4. Opcionalmente puede ingresar su correo electrónico para recibir una notificación cuando termine el alineamiento, lo cual es conveniente cuando se alinean varias secuencias (para este ejemplo no es necesario). 5. Presionar el botón “Submit” y esperar la recepción de resultados. 6. Revisar los resultados obtenidos especialmente el archivo score_html o score_pdf. Observe y discuta como se evalúa la calidad del alineamiento múltiple. 5 V. Alineamiento de las secuencias empleando Expresso 3D-Coffee Seguir las instrucciones anteriores pero en la página principal de T-Coffee seleccionar la aplicación Expresso (3DCoffee). Para que esta aplicación funcione correctamente el archivo FASTA deberá cumplir con el formato de título propuesto en la práctica anterior en el cual los títulos de las secuencias se forman de una clave de 5 letras formada por el ID de PDB y la letra que identifica a la cadena derivada de la estructura. Esta clave la utiliza Expresso para localizar las estructuras en la base de datos PDB y evaluar la consistencia con el alineamiento estructural. No es necesario que de todas las secuencias se conozca la estructura. Comparar el alineamiento obtenido con el producido en T-Coffee (normal) e identificar sus diferencias. VI Alineamiento multiple con DIALIGN2. 1. Ingresar a la página de DiAlign2. 2. Cargar el archivo a analizar, dando clic “Browse” y seleccionar el archivo de tripsinas en formato fasta. 3. Marcar el tipo de secuencias a alinear, en este caso proteínas. 4. Dar clic en “Load Sequences for DiAlign”. 5. En la siguiente página escribir su dirección de correo electrónico y un nombre para el archivo de resultados (opcional). 6. Dar clic en el link de “More options” y en esa página en la sección “Additional output” activar la casilla que proporciona el archivo de resultados en formato Fasta. 7. Dar clic en “Start Alignment”. Los resultados se enviaran a su correo electrónico. 8. Para poder emplear el alineamiento en formato FASTA en otros programas este se deberá copiar y pegar en un archivo de texto. 9. Examinar el alineamiento obtenido y discuta los resultados obtenidos. En particular ¿Cómo es el grado de conservación para las regiones catalíticas importantes de estas secuencias? VII. Alineamiento empleando MultiAlin. 1. 2. 3. 4. 5. Ingresar a la página de MultAlin. Cargar el archivo de tripsinas con el botón “Browse”. No se modificaran las opciones predeterminadas pero se recomienda revisar los parámetros del programa. Presionar el icono “Start MultAlin”. En la página de resultados buscar la sección “Available files” y en la opción de “Results as a fasta file” dar clic derecho y elegir “Guardar destino como” nombrar al archivo como MALIGTRIP.fasta y guardar en la carpeta de bioinfo. 6 VIII. Alineamiento con los programas Muscle, MAFFT y KAlign: 1. 2. 3. 4. Ingresar a la página de herramientas para el cáclulo de alinemientos múltiples del EBI. Seleccione el programa correspondiente (Muscle, MAFT o KAlign) Cargar el archivo de tripsinas en formato FASTA con el botón examinar. Verificar las opciones disponibles para cada programa, en particular preste atención a los formatos de salida que ofrece cada programa (Se recomienda utilizar el formato Clustal para los resultados). 5. Calcular el alineamiento y guardar los resultados obtenidos. 6. En todas estas aplicaciones, al igual que para el programa ClustalX examinado previamente hay distintas opciones para visualizar el alineamiento. Particularmente puede examinar los alineamientos obtenidos con el programa JalView. Guía para el reporte de la práctica 1. Elaborar un cuadro en el cual se resuman los parámetros que ofrecen los distintos programas para el cálculo de alineamientos múltiples. Completar la información del cuadro consultando en la documentación de cada programa el significado de los diferentes parámetros. 2. Recolectar los archivos de los alineamientos generados con cada programa. Estos alineamientos serán importados posteriormente con diversos editores. ¿Puede juzgar visualmente si algunos de los alineamientos generados con estos programas fueron los mismos? 3. Examinar los alineamientos obtenidos con cada programa (puede examinarlos inicialmente abriéndolos en la interfaz de ClustalX) y resumir en un cuadro las características de los mismos en torno a: i) Los residuos pertenecientes a la triada catalítica y otros residuos importantes tales como las cisteínas (¿cuántos puentes disulfuro se forman en estas proteínas?), ii) El número de regiones altamente conservadas. iii) El número de huecos presentes en cada alineamiento. iv) La presencia de regiones con residuos alineados incorrectamente. 4. Investigue otras características funcionales y estructurales de las serín-proteasas y con esta información explique que importancia tienen otras zonas conservadas de las secuencias con la estructura-función de estas proteínas. 5. Observe el agrupamiento de las secuencias en los diversos árboles gruía producidos por cada programa y discuta si existe correspondencia entre el alineamiento, el agrupamiento de las secuencias en el árbol y la calidad del alineamiento. Identifique si hay grupos de secuencias en los que los problemas de alineamiento o las discrepancias entre alineamientos calculados con diferentes programas son más frecuentes. 6. Discuta si el agrupamiento de las secuencias y los problemas o discrepancias detectados en los alineamiento guarda relación con los valores de expectación de la búsqueda con BLAST. 7. Describa como puede ayudar el coloreado empleando por cada programa para la interpretación del alineamiento (Por ejemplo el empleado en Clustal, JalView y TCoffee). ¿Qué propiedades se tomaron en cuenta para elaborar cada código de color. ¿Qué relación existe entre el coloreado por columnas y el histograma que genera Clustal 7 o JalView para identificar las columnas total o parcialmente conservadas? Investigue si existen otros códigos de color para identificar zonas conservadas en los alineamientos y en qué propiedades se basan. Preguntas 1. Explicar porqué el algoritmo de programación dinámica no puede emplearse para producir un alineamiento múltiple óptimo para varias secuencias como se da para el caso de los alineamientos de pares de secuencias. 2. ¿Qué información biológica sería deseable conocer para evaluar y refinar un alineamiento múltiple? 3. ¿Qué características tendría el alineamiento de secuencias muy divergentes en programas como Clustal? 4. Clustal utiliza alineamientos de programación dinámica globales. ¿Qué cuidados se deben tener en cuanto a las secuencias utilizadas antes de proceder a alinearlas con este tipo de programas? 5. ¿Cuándo se recomienda utilizar el sistema de puntuación PAM/Gonnet o el BLOSUM? 6. ¿Cuál es el efecto de utilizar penalizaciones altas o bajas para los huecos en el alineamiento? 7. ¿Recomendaría el uso de alguno de los programas descritos en esta práctica para el alineamiento múltiple de secuencias de DNA codificantes? ¿Qué problemas se podrían presentar en esta clase de alineamientos? 8. ¿Cuáles pueden ser las ventajas y desventajas de los algoritmos progresivos y de los algoritmos reiterativos? 9. ¿Pueden los alineamientos progresivos o los reiterativos producir un alineamiento óptimo? 8 Bibliografía 1. Chenna, R., et al. (2003): "Multiple sequence alignment with the Clustal series of programs." Nucleic Acids Res 31(13): 3497-3500. 2. Nicholas, H. B., Jr., et al. (2002): "Strategies for multiple sequence alignment." Biotechniques 32(3): 572-574, 576, 578 passim. 3. Thompson, J. D., et al. (1994): "CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice." Nucleic Acids Res 22(22): 4673-4680. 4. Thompson, J. D., et al. (1997): "The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools." Nucleic Acids Res 25(24): 48764882. 5. Mount D. W. (2001): Bioinformatics: sequence and genome analysis, Cold Spring Harbor Laboratory Press, New York, USA, pp: 152-155. 6. Claverie J.M., Notredame C. (2003): Bioinformatics for dummies. For Dummies Series, Wiley Publishing New York. USA. pp:279-314. 7. DIALIGN-T: an improved algorithm for segment-based multiple sequence alignment. Subramanian AR, Weyer-Menkhoff J, Kaufmann M, Morgenstern B. BMC Bioinformatics. 2005 Mar 22;6:66. 8. Strategies for multiple sequence alignment.. Nicholas HB Jr, Ropelewski AJ, Deerfield DW 2nd., Biotechniques. 2002 Mar;32(3):572-4, 576, 578 passim. Review. 9. T-Coffee: A novel method for multiple sequence alignments. C.Notredame, D. Higgins, J. Heringa, Journal of Molecular Biology, Vol 302, pp205-217,2000 10. Comprehensive study on iterative algorithms of multiple sequence alignment. Hirosawa, M., Totoki, Y., Hoshida, M., and Ishikawa, M. (1995) CABIOS 11, 13-18. 11. Edgar R.C. (2004): MUSCLE: a multiple sequence alignment method with reduced time and space complexity.BMC Bioinformatics 5: 113. 12. Edgar R.C. (2004): MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research 32(5): 1792-1797. 13. O'Sullivan O., Suhre K., Abergel C., Higgins D.G., Notredame C. (2004): 3DCoffee: Combining Protein Sequences and Structures within Multiple Sequence Alignments. Journal of Molecular Biology 340: 385-395. 9