PRACTICA VIII: EDICION Y EVALUACION DE ALINEAMIENTOS MULTIPLES DE SECUENCIAS OBJETIVOS: Conocer diferentes técnicas que permitan evaluar la calidad de un alineamiento múltiple. OBJETIVOS ESPECIFICOS: - Comprender la importancia de la edición y evaluación de alineamientos múltiples. Editar alineamientos múltiples con editores especializados. Evaluar alineamientos múltiples por las técnicas de suma de pares, entropía mínima, consistencia con árboles filogenéticos y la función COFFEE. Determinar en función de los resultados de la evaluación que algoritmos produjeron los mejores alineamientos. INTRODUCCION. El alineamiento múltiple de secuencias tanto de proteínas como de DNA es una herramienta muy importante en bioinformática. Tradicionalmente, el alineamiento múltiple se ha utilizado para identificar regiones conservadas o residuos importantes en una familia de proteínas o estudios evolutivos en los cuales se tratan de establecer las relaciones evolutivas entre diferentes organismos. Otra aplicación importante es la identificación de dominios funcionales y la modelación tridimensional de estructuras. No obstante su importancia, las diferentes técnicas que permiten producir alineamientos múltiples se basan en técnicas heurísticas, las cuales en principio no permiten el cálculo de alineamientos óptimos, especialmente cuando el grado de divergencia entre las secuencias es elevado. Se han descrito varios métodos para evaluar la calidad de los alineamientos múltiples. Un sistema de evaluación de alineamientos múltiples debería tomar en cuenta al menos dos características: (1) el hecho de que algunas posiciones están más conservadas que otras y (2) el hecho de que las secuencias en el alineamiento no son independientes sino que están relacionadas a través de un árbol filogenético. Además casi todos los métodos empleados para evaluar un alineamiento asumen que las columnas individuales del mismo son independientes estadísticamente. En general la idea básica para evaluar los alineamientos múltiples es considerar que en un alineamiento óptimo el número de cambios que deben ocurrir para producir las secuencias observadas a partir de un ancestro común, debería ser el mínimo. Sin embargo, el verdadero curso evolutivo es desconocido y los métodos existentes solo pueden hacer estimaciones a partir del curso estimado a partir de un alineamiento y por lo tanto puede desviarse considerablemente del curso real. Por lo tanto estos métodos pueden no ser totalmente consistentes con las propiedades evaluadas. A continuación se describen algunas estrategias comúnmente utilizadas en la evaluación. Entropía mínima. Para el caso de los alineamientos múltiples, la entropía puede emplearse para medir el grado de conservación de cada columna del alineamiento. Utilizando la definición de entropía dado por Shannon, la puntuación de una columna puede calcularse mediante la expresión: Si = −∑ pia log2 ( pia ) a donde pia es la frecuencia observada del residuo a en la columna i del alineamiento. La sumatoria indica que el producto de esta frecuencia por su probabilidad debe sumarse para todos los residuos posibles (20 para el caso de las proteínas, aunque también pueden considerarse a los huecos como un símbolo adicional). La expresión anterior calcula un valor mínimo para el caso en que todos los residuos sean idénticos y da un valor máximo cuando todos los residuos están presentes en las mismas proporciones, de este modo puede verse que en el caso de un alineamiento óptimo la entropía del mismo (la suma total a través de todas las columnas del alineamiento) debería alcanzar el mínimo posible. Suma de pares (SP): Puede considerarse a este método como una extensión del método empleado para evaluar los alineamientos entre pares de secuencias. La puntuación SP de una columna puede calcularse mediante la expresión: Si = n ∑ s(mi , m j ) i =1, j =1 en donde s(mi, mj) es la puntuación que le corresponde al par de residuos mi, mj de acuerdo a una matriz de puntuación determinada tal como PAM o BLOSUM. En este caso la suma alcanzará un máximo cuando todos los residuos de la columna sean idénticos. Consistencia con árboles evolutivos. Si se conociera el árbol filogenético correcto para las secuencias que integran el alineamiento, puede verificarse que tan consistes son diferentes partes del mismo con el árbol dado y el alineamiento correcto debería ser aquel que maximizara la probabilidad del árbol. No obstante el modelo evolutivo puede ser muy complejo, aunque una aproximación al árbol puede alcanzarse por otros métodos tales como parsimonia o distancias. Una variante de este tipo de evaluación, la función de puntuación COFFEE (Consistency based Objective Function For alignmEnt Evaluation) refleja el grado de consistencia entre un alineamiento múltiple de secuencias y una biblioteca de alineamientos globales y locales de pares de secuencias. En su forma más simplificada la consistencia global de un alineamiento es igual al número de pares de residuos presente en los alineamientos múltiples y que están presentes en la biblioteca, dividida entre el número total de pares de residuos observados en el alineamiento. Esta medición da una puntuación entre 0 y 1 y el valor máximo corresponderá a la máxima consistencia posible. Actualmente la función COFFEE puede estimar consistencia entre otros criterios, por ejemplo entre alineamientos calculados por diferentes estrategias. Incorporación de información estructural. Cuando se dispone de información estructural para un grupo de secuencias, puede evaluarse en que grado el alineamiento es consistente con la estructura de las proteínas. Esta característica es muy importante para la rectificación de alineamientos múltiples y esta basada en la premisa de que la estructura se conserva aún más que la secuencia para proteínas homólogas. Algunas técnicas de alineamiento pueden guiarse mediante la información estructural de los homólogos reportados y en estos casos la calidad de los alineamientos suele ser más alta que por cualquier otro método. Recursos informáticos empleados. GeneDoc Versión 2.7 Servidor T-COFFEE (http://www.tcoffee.org/) Servidor WebLogo (http://weblogo.berkeley.edu/). Procedimiento. Edición y evaluación de alineamientos con GeneDoc. GeneDoc es un editor de alineamientos desarrollado por el Centro de Supercómputo de la Universidad de Pittsburg. Además de sus características para la edición de alineamientos que le permiten corregir alineamientos y generar presentaciones de los mismos de alta calidad para publicación, incorpora de funciones para evaluar la calidad de los alineamientos producidos. 1. Lectura del alineamiento en GeneDoc. GeneDoc puede abrir directamente archivos almacenados en el formato Multiple Sequence Format (MSA) también conocido como GCG. Cuando no es posible la lectura a partir de este formato se pueden importar las secuencias mediante la opción “Import” del menú “File” de este programa. Esta operación muestra un cuadro de diálogo con diferentes opciones de formatos entre las que se incluyen Clustal, Fasta (Pearson) y Phylip entre otros. La gran mayoría de los programas que producen alineamientos múltiples permiten exportar los alineamientos producidos a alguno de estos formatos. Una vez que se ha leído el archivo este aparece en el editor y puede grabarse ahora en el formato MSA. 2. Configuración de la presentación del alineamiento con GeneDoc. La opción “Configure” del menú “Project” permite configurar varias de las opciones para la presentación e impresión del alineamiento. El cuadro “Configure” presenta varias carpetas para la configuración de la presentación entre las que destacan: a. Project: “Font settings” permite modificar el tamaño de las letras, “Seq Bloq Sizing” permite variar el número de residuos presentados por cada renglón del alineamiento. b. Print: Presenta opciones para la impresión del alineamiento. c. Shade: Muestra opciones para producir un alineamiento coloreado empleado diversos criterios, tales como el grado de conservación (Conserved), las propiedades químicas de los residuos (Property), información estructural (Structure) o las propiedades fisicoquímicas de Taylor (PhysioChem), entre otros. Puede ser necesario proporcionar otros datos para producir ciertos tipos de sombreado, por ejemplo para usar el modo Structure debe proveerse información estructural a través de archivos PDF. Para el ejemplo de esta práctica se utilizará el modo de sombreado basado en las propiedades fisicoquímicas. Al utilizar este método se debe activar la opción “Conservation” en “Coloring” para destacar las columnas que se han conservado en función de esta propiedad. Figura 1: Interfaz de usuario del programa GeneDoc. GeneDoc es un editor de alineamientos de secuencias avanzado con características para la modificación de los alineamientos, opciones para dar formato para la presentación e impresión de alineamientos, así como para la evaluación de la calidad de alineamientos. El programa fue desarrollado por el Centro de Supercómputo de la Universidad de Pittsburg. 3. Selección de bloques para copiar e impresión del alineamiento. Ir al menú “Edit” y activar la opción “Select Blocks for Copy”. Al activar esta opción se seleccionan bloques del alineamiento al dar un clic sobre ellos con el ratón. Los bloques seleccionados pueden copiarse a archivos de diversos formatos mediante la opción “Copy Selected Blocks to” del menú “Edit”. Entre los formatos de archivo posibles se tienen archivos de imágenes (Metafile, Pic, Bitmap) o de texto con formato (HTML, RTF). El formato Rich Text Format (RTF) es compatible con muchos procesadores de texto tal como Word, por lo que este será el formato recomendado para esta práctica. Para esto se deben seleccionar todos los bloques del alineamiento y posteriormente copiarlos al archivo RTF. Posteriormente se puede visualizar el alineamiento almacenado en el archivo RTF con el programa Word. Si el alineamiento aparece distorsionado pueden cambiarse las opciones de configuración con el cuadro “Configure” del menú “Project” antes de copiarlo con GeneDoc o bien cambiando las opciones de márgenes, orientación de página y tamaño de letra del procesador de texto. Se sugieren para esta práctica el tamaño de letra de 8 puntos y 100 caracteres por renglón del alineamiento para la configuración. 4. Edición del alineamiento. La edición del alineamiento se encuentra bloqueda por defecto. Se puede activar dando un clic en la opción “Residue Edit Mode” del menú “Edit” con lo cual los residuos de las secuencias pueden ahora editarse mediante el teclado. Se debe ser cuidadoso con esta opción ya que su uso indebido puede alterar las secuencias y no se dispone de una opción para deshacer los cambios. El menú “Arregment” incorpora además otras herramientas útiles tales como: a. Grab and Drag Sequences: Permite desplazar bloques de una secuencia. Cada bloque esta delimitado por los huecos en las secuencias. Los bloque pueden desplazarse seleccionándolos con el izquierdo del ratón y manteniendo presionado el botón pueden arrastrarse a la posición deseada. b. Slide sequences: Permite desplazar secuencias enteras con el ratón. c. Insert Gap into Sequence: Permite insertar un hueco en una secuencia con un clic con el botón izquierdo del ratón en la posición deseada del alineamiento. d. Delete Gap from Sequence: Permite eliminar un hueco en una secuencia con un clic con el botón izquierdo del ratón en el hueco deseado. e. Select sequences to work on: Abre un cuadro de diálogo que permite seleccionar en cuales secuencias operarán las opciones definidas en los incisos f en adelante. f. Complement section: Permite calcular la secuencia complementaria de las secuencias seleccionadas (solo para el caso de DNA). g. Insert/delete gap in/from Other Sequences: Estas opciones insertan o eliminan huecos en todas las secuencias seleccionadas excepto en aquella en la que se hizo clic con el ratón. Los huecos se insertan o eliminan en la posición en la que estaba situado el ratón al hacer el clic. h. Insert/Delete Gap Column: Permiten insertar o eliminar una columna de huecos completa al hacer un clic con el ratón en la posición deseada. 5. Evaluación del alineamiento. La evaluación del alineamiento consta de tres etapas: a. Elección del sistema de evaluación: En el menú “Score” se pueden seleccionar cuatro métodos diferentes para la evaluación: Sum of Pairs, Phylogen Tree, Numed Tree, LogOdds (Entropía). Dar un clic en la opción de evaluación deseada (Para esta práctica se utilizarán la suma de pares y la entropía para evaluar los alineamientos). b. Seleccionar las columnas del alineamiento a evaluar. Al activar la opción “Select columns” del menú “Score” se pueden seleccionar las columnas del alineamiento a evaluar, para esto se debe dar un clic con el ratón en la primera columna de la sección a evaluar y un clic en la última columna, con lo que la sección seleccionada se mostrará sombreada en el editor. c. Evaluación del alineamiento. Una vez seleccionadas las columnas se debe dar un clic en la opción “Score selection” del menú Score, con lo cual la puntuación del mismo se mostrará en la parte superior de la sección seleccionada aproximadamente a la mitad de la misma. El dato numérico se debe anotar manualmente ya que no se almacena al guardar la secuencia. d. Precauciones para las opciones de evaluación basadas en árboles. Para las opciones Phylogen Tree y Numed Tree el árbol filogenético debe cargarse previamente mediante la opción “Manage Expresión” del menú “Tree”. El cuadro mostrado presenta una opción “Import” la cual permite cargar archivos en el formato DND, que es el que producen algunos programas para el alineamiento de secuencias tal como Clustal o T-Coffee. No obstante, el uso de estas opciones puede requerir tiempos de cómputo muy largos ya que este método emplea el algoritmo de máxima parsimonia para evaluar la consistencia de los alineamientos producidos. 6. Incorporación de anotaciones en el alineamiento. GeneDoc, permite anotar datos importantes y almacenarnos junto con el alineamiento. Las anotaciones se realizan de manera manual mediante la opción “Titling facility” del menún “Project” la cual abre un cuadro de diálogo que permite anotar datos en una sección de comentarios, anexar datos importantes tales como el sistema de puntuación y programa empleados para producir el alineamiento. Para conservar esta anotación el alineamiento deberá guardarse en el formato MSA, que es la opción por defecto de la opción “Save” del menú “Alignment”. 7. Evaluar los alineamientos de las secuencias de tripsinas obtenidos por los programas: Clustal, T-Coffee, Dialign, Parallel PRRN, Multalin, HMMER y Clustal Profile. Para esta práctica se utilizarán los métodos de evaluación “Sum of Pairs” y “LogOdds”, por lo que ambas puntuaciones deberán evaluarse para evaluar cada alineamiento. Con estas puntuaciones se deberá elaborar una tabla en la cual se resuman las dos puntuaciones para cada alineamiento. El cálculo de la puntuación basada en el árbol filogenético se deja como un cálculo opcional ya que esta paso puede requerir entre 15 y 60 minutos de procesamiento dependiendo de la velocidad de la computadora. Si se realiza este cálculo se sugiera cargar el árbol guía producido por Clustal X como se indica en el paso 5. Evaluación de alineamientos con el método de consistencia de T-Coffee. El servidor T-Coffee permite también la evaluación de la calidad de los alineamientos producidos por diferentes programas. Para esto los alineamientos deben cargarse mediante la opción “Evaluation”, del programa (http://igs-server.cnrsmrs.fr/Tcoffee/tcoffee_cgi/index.cgi). Se ofrecen dos opciones de evaluación: “Core” la cual se basa en la consistencia del alineamiento múltiple con alineamientos globales y locales derivados de las secuencias involucradas y la opción “iRMSD-APDB” la cual permite evaluar la consistencia con información estructural a partir de archivos PDB. Cada uno de los alineamientos producidos con los programas empleados en las prácticas 10-12 deberán ser evaluados con las dos opciones: 1. Evaluación del alineamiento con T-Coffee-Core: Se debe sumistrar el archivo en formato Clustal (si se tiene el alineamiento en otro formato se recomienda convertirlo a formato Clustal con el programa Clustal X). Posteriormente se debe someter el archivo al análisis y examinar los resultados mostrados en el archivo score_html. Guardar el alineamiento y registrar la puntuación obtenida (score). 2. Evaluación del alineamiento con T-Coffee-iRMSD-APDB. Sumistrar el alineamiento de las secuencias en formato Clustal, FASTA o MSF. El formato puede convertirse con el programa Clustal X. Los nombres de los archivos de secuencias deben renombrarse considerando la clave PDB y la cadena empleada para el alineamiento. Por ejemplo una secuencia con clave de acceso del PDB 1F0T, de la cual se utilizó la cadena A para el alineamiento, debería nombrarse 1F0TA. Se siguió esta convención en el nombre de las secuencias alineadas en las prácticas 10 a 13, por lo que no es necesario modificar los nombres para este ejercicio. Someter el alineamiento al análisis y reportar las puntuaciones reportadas en el archivo score_html y descargar el alineamiento en PDB. Creación de Logos a partir de los alineamientos múltiples de secuencias. Los logos de secuencias son representaciones gráficas de los alineamientos múltiples de secuencias de aminoácidos o de nucleótidos desarrolladas por Tom Schneider y Mike Stephens. Cada logo consiste de apilamientos de símbolos para cada posición del alineamiento de secuencias. La altura total de cada símbolo en la pila es proporcional a la frecuencia relativa de cada aminoácido o nucleótidos en cada posición en el alineamiento Un logo facilita la visualización de las regiones conservadas en el alineamiento múltiple que pueden pertenecer a un sitio de unión, a un motivo importante para la función de las moléculas, o a alguna región de interés de las secuencias. 1. Creación de logos con WEBLogo. Entrar a la página del programa WEBLogo (http://weblogo.berkeley.edu/logo.cgi). Se habre una página WEB que permite pegar el alineamiento en un cuadro o leerlo desde un archivo con el botón examinar. Para este ejercicio se crearán tres logos para las regiones en torno a los aminoácidos que integran la triada catalítica de las serín-proteasas, para lo cual se utilizará el alineamiento mejor conservado que se halla obtenido según la evaluación del punto anterior. El alineamiento se debe proporcionar en formato Fasta o Clustal. 2. El formato de imagen se deberá cambiar a PNG o GIF y se sugiere el tamaño de imagen por defecto (18x5cm) proporcionado por el programa. 3. En la sección de Opciones Avanzadas del programa se debe establecer la sección del alineamiento empleada para crear el logo. Se sugieren los intervalos 50-80, 120-140 y 220-250 para crear los tres logos para el entorno de los aminoácidos que integran la triada catalítica (puede ser que necesite ajustar estos intervalos para centrar los aminoácidos de interés dependiendo del alineamiento escogido para esta operación. 4. Una vez configurados los parámetros, se debe presionar el botón “Create Logo” con lo cual este se mostrará en una ventana. El logo se puede guardar como una imagen dando clic en el con el botón derecho del ratón y presionando la opción del menú “Guardar imagen como…” (en Internet Explorer). (Nota: se ha observado una falla en este paso en las versiones recientes del Internet Explorer. Si esto sucede se puede guardar presionando la tecla imprimir pantalla, la cual permite capturar la imagen de la pantalla y pegarla en un editor de imagenes, en donde se puede recortar). Guía para el reporte de la práctica: 1. Elaborar una tabla en la que se indique el nombre de los programas empleados para producir los alineamientos de las secuencias de tripsinas producidos en las prácticas 10 a 12 (Clustal, T-Coffee, Parallel PRRN, Dialign2, MultAlin, HMM y Clustal profile), y las puntuaciones obtenidas por los diferentes esquemas de puntuación utilizados en esta práctica (SP, LogOdds o entropía, consistencia con árboles filogenéticos (opcional), COFFEE core y T-Coffee-iRMSD-APDB). A partir del análisis de esta tabla indique cual considera que fue el mejor de los alineamientos obtenidos. 2. Incluya en el informe, además de la tabla impresiones del alineamiento producido con Clustal y del mejor alineamiento obtenido según el análisis anterior producido con GeneDoc, utilizando tamaño de letra de 10 puntos, sombreado por propiedades fisicoquímicas y renglones con 100 residuos. Destaque en estos alineamientos las zonas importantes de estas secuencias para su función (triada catalítica). ¿Existe alguna relación entre la calidad de los alineamientos producidos y los valores de Expectación producidos por la búsqueda en Blast que se realizó en la práctica 10? 3. Incluya impresiones de los tres logos de la triada catalítica en el informe de su práctica. ¿Cómo es el grado de conservación de las secuencias en estas tres regiones? ¿Que ventajas ofrece el logo con respecto a la vista tradicional del alineamiento múltiple? Preguntas. 1. ¿Qué criterios considera que son importantes y que se deben tomar en cuenta al evaluar la calidad de un alineamiento múltiple? 2. Es importante la producción de alineamientos de buena calidad, sin embargo ¿para que aplicaciones considera que la calidad de los alineamientos es de importancia vital para el análisis? 3. ¿A que se pueden atribuir las “contradicciones” encontradas al evaluar la calidad de alineamientos múltiples utilizando diferentes esquemas de puntuación? 4. ¿Cuál de las técnicas de puntuación estudiadas en esta práctica consideraría la más confiable y porqué? ¿cuáles podrían ser sus posibles limitaciones o desventajas? 5. ¿El número de secuencias empleadas en la construcción del alineamiento tendrá un efecto en las discrepancias observadas entre los esquemas de puntuación? 6. El alineamiento óptimo según algún criterio de puntuación determinado ¿se puede considerar biológicamente correcto? Bibliografía 1. Armougom F., Moretti S., Poirot O, Audic S, Dumas P, Schaeli B, Keduas V, Notredame C. (2006): Expresso: automatic incorporation of structural information in multiple sequence alignments using 3D-Coffee. Nucleic Acids Res, 2006, 34, Web Server issue, W604–W608. 2. Brenner S. E., Chothia C., Hubbard T. J. P. (1998): Assessing sequence comparison methods with reliable structurally identified evolutionary relationships. Proc. Natl. Acad. Sci. USA. 95:6073-6078. 3. Chang JM, Di Tommaso P, Notredame C. (2014): TCS: a new multiple sequence alignment reliability measure to estimate alignment accuracy and improve phylogenetic tree reconstruction. Mol Biol Evol. 2014 Jun;31(6):1625-37 4. Henikoff J.G., Henikoff S. (1996): Using substitution probabilities to improve position-specific scoring matrices. CABIOS, 12(2): 135-143. 5. Karplus K., Birong H. (2001): Evaluation of multiple alignment programs by SAMT99 using the BaliBASE multiple alignment test set. Bioinformatics, 17(8):713-720. 6. Mount D. W. (2001): Bioinformatics: sequence and genome analysis, Cold Spring Harbor Laboratory Press, New York, USA, pp:151-153. 7. Nicholas, H. B., Jr., et al. (2002): Strategies for multiple sequence alignment. Biotechniques 32(3): 572-574, 576, 578 passim. 8. Schneider TD, Stephens RM. (1990). Sequence Logos: A New Way to Display Consensus Sequences. Nucleic Acids Res. 18:6097-6100 9. Thompson J. D., Koehl P., Ripp R. Poch O. (2005): BAliBASE 3.0: Latest developments of the multiple sequence alignment benchmark. PROTEINS: Structure, Function, and Bioinformatics 61:127–136.