PRACTICA IV: ALINEAMIENTO DE PAREJAS DE SECUENCIAS POR PROGRAMACION DINAMICA Objetivo General Ø Que el alumno conozca el fundamento de los distintos métodos para el alineamiento por parejas de secuencias de DNA y proteínas y aplica distintos métodos para calcularlos.. Objetivos Particulares Que el alumno conozca y aplique: Ø Las distintas estrategias computacionales que pueden utilizarse para realizar la comparación de secuencias biológicas. Ø Las distintas clases de alineamientos que pueden calcularse para parejas de secuencias de DNA o proteínas. Ø Las matrices de puntuación empleadas para la comparación de secuencias de aminoácidos y de nucleótidos. Ø Los algoritmos que existen para el cálculo de alineamientos globales y locales. Ø Los diferentes métodos de optimización para calcular el alineamiento de parejas de secuencias de DNA y proteínas. INTRODUCCIÓN La comparación de secuencias es una técnica científica la cual, en cierto modo, no permite realizar estudios de “arqueología molecular” en los que se puede descubrir qué partes de las secuencias de DNA o de las proteínas, se han conservado a través del proceso evolutivo y que otras regiones han variado o incluso se han perdido o adicionado. Dichos estudios son de importancia para la biología molecular ya que de esta forma se pueden identificar las regiones de una secuencia que están asociadas a distintas funciones biológicas. Asimismo, la comparación de secuencias también nos puede servir para, reconstruir la historia evolutiva de un grupo de secuencias, predecir la estructura o función de genes y proteínas. La comparación de pares de secuencias puede considerarse la operación básica en la cual se fundamentan muchas de las técnicas de análisis de que se emplean en la bioinformática. Por otra parte, en estos estudios también se debe considerar que no todas las secuencias de DNA o de proteína evolucionan de la misma manera y que la complejidad en la composición de las mismas es diferente. Por un lado, las secuencias de DNA pueden dividirse en dos grandes grupos: Las que codifican secuencias de aminoácidos (secuencias codificantes) y las que no los codifican. En una secuencia de DNA codificante, es importante recordar que el código genético es degenerado. Este permite que en el DNA puedan ocurrir mutaciones “silenciosa” que no producen cambios en la secuencia de aminoácidos que codifican. Además, el alfabeto de la secuencias de DNA es más reducido comparado con aquel empleado en las proteínas (cuatro letras frente a veinte). Como consecuencia, la secuencia de DNA codificante tiene mayor libertad de variación y como consecuencia, su grado de conservación se diluye más rápidamente, que el 1 grado de conservación entre las secuencias de aminoácidos que se traducen a partir de ella. Por tal motivo, cuando estos estudios se desean realizar para determinar si hay una relación evolutiva entre los genes, a menudo es más eficiente estudiar el grado de conservación de las proteínas que estos producen. En cambio, la evolución de las secuencias de DNA que no codifican proteínas es aún más compleja. Por una lado muchas de estas secuencia pueden codificar RNAs con funciones especiales. En estas a menudo hay grados de conservación excepcionalmente altos y además en muchos casos las variaciones observadas permiten que la estructura secundaria que adoptan algunas de estas moléculas se conserve. Esto es importante para mantener la función de estas moléculas. En otras puede haber funciones regulatorias que provocan la conservación solo en ciertas regiones de la secuencia. y por otra porque un parte de la secuencia de nucleótidos puede cambiar sin que esto se refleje en la de aminoácidos (cambios sinónimos) debido a la degeneración del código genético. Por otra parte existen dos tipos distintos de alineamientos entre parejas de secuencias: el alineamiento global que involucra las secuencias completas con una puntuación máxima y el alineamiento local en el que se trata de encontrar los fragmentos de ambas en donde se concentra la mayor similitud entre las secuencias produciendo entonces un alineamiento con una puntuación máxima. Ambas clases de alineamientos tienen diferentes aplicaciones y es importante conocer en que circunstancias deben aplicarse. Por ejemplo el alineamiento local es local es adecuado cuando se busca saber si existe alguna relación evolutiva entre dos secuencias. LGPSSKQTGKGC-SRIWDN | | ||| | | LN-ITKSAGKGAIMRLGDA GLOBAL -------GKG-------||| -------GKG-------- LOCAL Figura 1: Alineamiento global y local. El alineamiento global trata de incluir la totalidad de los residuos de ambas secuencias, en cambio el alineamiento local solo incluye la zona de mayor similitud de las secuencias. Si bien existen distintas formas de comparar secuencias, a menudo se busca encontrar el alineamiento óptimo en el cual se alcanza a distinguir el mayor parecido entre ellas. Se puede considerar que dicho alineamiento es el que con mayor probabilidad refleja los cambios que se han producido a lo largo de la evolución. El alineamiento entre dos secuencias en donde han ocurrido únicamente substituciones de residuos es bastante simple de calcular (incluso muchas veces puede calcularse sin la ayuda de técnicas computacionales), sin embargo cuando además de las sustituciones se incluyen otros eventos evolutivos tales como las inserciones y eliminaciones de residuos el problema se complica sustancialmente, ya que el número posible de combinaciones de alineamientos es enorme. Existen técnicas de programación dinámica o de análisis en etapas que permiten encontrar los alineamientos óptimos en función del sistema de evaluación elegido. La programación dinámica consiste en dividir el problema del alineamiento en sub-alineamientos, cada solución parcial en una etapa posterior puede ser calculada recurriendo a un número fijo de 2 soluciones parciales de etapas anteriores; y la etapa final contiene la solución global. Para el alineamiento de secuencias se utilizan principalmente el algoritmo de programación dinámica basado en el método de Needleman y Wunsch (y mejorado posteriormente por Gotoh) para producir alineamientos globales, mientras que para alineamientos locales, el algoritmo de Smith y Waterman es el más utilizado. Por otra parte, existen técnicas heurísticas que en general encuentran soluciones cercanas a las óptimas (sub-optimas) pero en tiempos considerablemente más cortos que los que requieren las técnicas de programación dinámica. Estas técnicas son bastante importantes cuando en dicho estudio se va a practicar en bases de datos con miles o millones de secuencias. Entre estas técnicas se pueden destacar los algoritmos FASTA y BLAST. Este tipo de técnicas se estudiaran posteriormente. Finalmente, las diversas técnicas computacionales descritas calculan un valor numérico o puntuación para el alineamiento de secuencias. Un aspecto muy importante de este dato es su interpretación biológica. Para el estudio de secuencias de proteínas la puntuación se calcula empleando tablas o matrices que proporcionan valores apropiados para cada pareja de aminoácidos o para todos los tipos de substitución de estos residuos por otros. Es importante que dichos sistemas de puntuación tomen en cuenta las propiedades fisicoquímicas de los residuos y su conservación a través de la historia evolutiva. Para el estudio de secuencias de proteínas existen dos series de matrices ampliamente utilizadas, la PAM (Porcentaje de Mutación Aceptada) y la BLOSUM (Matriz de Sustitución de Bloques). Las matrices PAM están basadas en un árbol filogenético derivado de alineamientos robustos y precisos de secuencias altamente conservadas, en las cuales las frecuencias de mutación a cualquier distancia evolutiva deseada son estimadas por extrapolación usando modelos de Markov de tiempo-reversible. En cambio las matrices BLOSUM se derivan un gran conjunto de alineamientos con diversos grados de conservación y evitan la extrapolación para estimar las frecuencias de mutación para diferentes distancias evolutivas, utilizando bloques conservados de proteínas con similitud definida. Diversos estudios han mostrado que las matrices BLOSUM muestran mayor sensibilidad en el análisis estructural de proteínas, no obstante las matrices PAM aún se utilizan especialmente para estudios filogenéticos. Es importante destacar que para la comparación de secuencias de DNA existen matrices PAM, sin embargo no se utilizan tan ampliamente como en el caso de las proteínas. Con mayor frecuencia la similitud de las secuencias de DNA se evalúa con matrices que asignan un valor positivo a la identidad y un valor negativo a las diferencias de residuos. En una práctica posterior se explorará la forma como estos datos se interpretan de forma estadística para poder estimar si existe en la relación evolutiva entre la secuencias en estudio. RECURSOS INFORMÁTICOS Programas EMBOSS para Windows 2.10.0-0.8 (ver instalación del programa en el apéndice) Sitios WEB a utilizar http://www.ncbi.nlm.nih.gov/ (National Center of Biotechnology Information _ NCBI) http://biomedbiotec.encb.ipn.mx/emboss (Servidor EMBOSS de la ENCB) http://emboss.sourceforge.net/ (Página principal del proyecto EMBOSS) 3 DESARROLLO I. Descarga de secuencias. 1. Buscar en las bases de datos del NCBI las secuencias V01169, V01180, CAA24495 y CAA24503. Resumir en una tabla los siguientes datos para estas secuencias: Clave de acceso, titulo, organismo de origen, tipo de secuencia (aminoácidos o nucleótidos) y longitud. 2. Descargar las secuencias anteriores en el formato FASTA. Para las secuencias de DNA extraer la secuencia FASTA de la sección CDS del registro en GenBank que codifica para la proteína en estudio (src). Guardar las secuencias en una carpeta agregando la extensión *.fasta. II. Comparación de secuencias de DNA o PROTEINAS mediante gráficas de matriz de puntos. Una gráfica de matriz de puntos (dotplot) es una representación gráfica en la cual cada secuencia es asignada a uno de los ejes cartesianos y en aquellas las coordenadas en donde exista identidad o semejanza entre las secuencias se coloca un punto en la imagen. De esta forma cuando las dos secuencias tienen regiones altamente similares, muchos puntos se alinean para formar líneas diagonales. Por lo tanto a simple vista es posible ver donde hay regiones de similitud locales, pues éstas producirán líneas diagonales largas. También es fácil ver otras características como repeticiones (forman líneas diagonales paralelas), y las inserciones o eliminaciones (que forman rupturas o discontinuidades en las líneas diagonales). Para este ejercicio se utilizará el programa dotmatcher de la suite EMBOSS. EMBOSS es una colección de herramientas para bioinformática que ha sido desarrollado por la comunidad Europea originalmente para plataformas UNIX/LINUX aunque ahora también ha sido transportado a plataformas Windows. 1. Ejecutar el programa EMBOSS. La versión WEB proporciona una interfaz gráfica para el programa. En las instalaciones locales para Linux, Mac OS X o Windows el programa se puede ejecutar desde la terminal de comandos o bien se puede utilizar la interfaz gráfica de los programas Jemboss. En este ejercicio se asumirá el uso de la interfaz gráfica del programa (figura 2). 2. Ingresar a la opción del menú “Alignment”, seleccionar la opción “Dot Plot” y ejecutar el programa Dotmatcher. 3. En la ventana del programa se pueden localizar dos secciones para cargar secuencias. Leer las secuencias V01169.fasta y V01180.fasta en las secciones correspondientes. Seleccionar la matriz EBLOSUM62 para efectuar la comparación y la opción PNG para el formato de los gráficos. Al presionar el botón “Go” el programa deberá mostrar una ventana con varias carpetas. Seleccionar la carpeta correspondiente al archivo PNG para observar la gráfica. 4. Repetir el paso anterior pero ahora para las secuencias de aminoácidos CAA24495.fasta y CAA24503.fasta y utilizar la matriz EDNAFULL para la comparación. 4 Figura 2: Interfaz gráfica del programa EMBOSS. EMBOSS es una suite de programas gratuita y de código abierto (open source) para llevar a cabo diversos análisis bioinformaticos. Fue desarrollada originalmente para plataformas UNIX/LINUX (http://emboss.sourceforge.net/) 5. Compare las gráficas que fueron obtenidas tanto para secuencias de DNA como para proteínas y discuta si este es el resultado que se esperaba obtener en torno al posible origen de estas secuencias. 6. Otras opciones avanzadas pueden configurase en el programa Dotmatcher, presionando el botón “Advanced Options”. Este programa utiliza un valor de referencia o umbral (calculado utilizando una matriz de substitución) para definir si un punto debe ser trazado. El punto se muestra únicamente si la puntuación en una ventana de longitud específica ubicada sobre alguna de las diagonales posibles rebasa al umbral. La puntuación es la suma de las comparaciones de residuos de las dos secuencias dentro de la ventana usando una matriz dada. Observe el efecto que tiene el uso de diferentes combinaciones de estos valores en esta sección. III. Alineamiento de secuencias de DNA y proteínas mediante los algoritmos Needleman/Wunsch y de Smith/Waterman. Para este ejercicio se utilizarán los programas Needle y Water de la suite de programas EMBOSS. Para ejecutar estos programas. a) Alineamiento global de las secuencias de proteínas: 1. Ejecutar el programa mEMBOSS con lo cual se muestra la interfaz gráfica de los programas. 5 2. Ingresar a la opción del menú “Alignment”, seleccionar la opción Global y ejecutar el programa Needle para llevar a cabo el alineamiento global de las secuencias mediante el algoritmo de Needleman/Wunsch. 3. En las secciones correspondientes leer las secuencias de aminoácidos CAA24495.fasta y CAA24503.fasta. 4. Configurar la opciones necesarias para el alineamientos: Matrix file = EPAM250 , Gap opening penalty = 14.0 y Gap extension penalty =2”. Presionar el botón GO para realizar el cálculo del alineamiento. 5. Guarde el alineamiento con el nombre de archivo prot_aln_global.txt Observe detenidamente el alineamiento obtenido. El archivo incluye un resumen indicando el método empleado para el alineamiento, las secuencias empleadas, porcentajes de identidad, similitud, huecos, el esquema de puntuación empleado y la puntuación del alineamiento (global) que fue calculado por el programa. b) Para el alineamiento local de secuencias de proteínas: 1. Repetir los pasos del ejercicio anterior pero ahora utilizando el programa Water que emplea el algoritmo de Smith y Waterman para el cálculo de alineamientos locales. Los parámetros del alineamiento son los mismos que para el alineamiento global. Guarde el archivo obtenido con el nombre prot_aln_local.txt. 2. Compare el alineamiento local con el global e identifique las principales diferencias entre ambos tipos de alineamiento. c) Para el alineamiento global de secuencias de DNA: 1. Repetir los pasos del inciso “a” de esta sección con el programa Needle pero ahora con las secuencias de DNA, V01169.fasta y V01180.fasta. Utilizar EDNAFULL como la matriz de comparación, 10.0 para la penalización por apertura de hueco (Gap opening penalty) y 0.5 para la penalización por extensión de huecos (Gap extension penalty). 2. Guardar el alineamiento obtenido con el nombre dna_aln_global.txt d) Para el alineamiento local de secuencias de DNA: 1. Repetir los pasos del inciso anterior pero ahora con el programa Water. Guardar el alineamiento obtenido con el nombre dna_aln_local.txt. 2. Compare los alineamiento global y local para DNA para establecer las diferencias entra ambas clases de alineamiento. A su vez compárelos con los alineamientos obtenidos para las proteínas y con las gráficas de puntos calculadas con Dotmatcher. Determine si hay correspondencia entre los resultados de los alineamientos y lo que se observó en las gráficas. 6 V. Actividad: Alineamiento paramétrico. 1. 2. 3. Empleando los programas de EMBOSS, calcule alineamientos locales 5 matrices entre PAM20 y PAM250. Utilice una penalización por apertura de huecos (Gap opening penalty) de 100 y de 10 para la extensión de los mismos (Gap extension penalty). Repita el análisis pero ahora utilizando 5 matrices BLOSUM elegidas entre BLOSUM30 y BLOSUM90. Construya gráficas en las cuales en el eje de las abcisas coloque el valor numérico de la matriz (BLOSUM o PAM) y en el de las ordenadas la puntuación del alineamiento. Con los datos de este ejercicio trate de responder lo siguiente: 1. ¿Cuál es el efecto que tiene sobre los alineamientos el uso de los valores de penalización por apertura de los huecos que se han utilizado en esta sección? 2. Para una serie definida de matrices (PAM o BLOSUM) ¿Cuál es la matriz que recomendaría para efectuar el alineamiento de las secuencias? 3. ¿Qué estrategia podría proponer para seleccionar la combinación de penalizaciones más apropiada para el alineamiento de secuencias? GUIA PARA EL REPORTE DE LA PRÁCTICA 1. Imprimir las gráficas generadas por Dotmatcher para la comparación de DNA y Proteínas. 2. Imprimir únicamente los alineamientos locales y globales para DNA y proteínas obtenidos con la matriz DNAFULL, PAM250 y BLOSUM62, en el formato por defecto producido por EMBOSS (verifique que el formato del alineamiento no se distorsione en su reporte). 3. Elaborar un cuadro en el que se resuman los datos de los alineamientos de DNA y Proteínas obtenidos con todas las matrices que se solicitaron en la práctica (ver actividad V), reportando la matriz empleada para el alineamiento y la información cuantitativa de estos alineamientos: número de columnas (longitud del alineamiento), número y porcentaje de: residuos idénticos, residuos similares, huecos y puntuación (score) del alineamiento. 4. Elabore gráficas de la puntuación de los alineamientos de la tabla anterior vs el valor numérico de la matriz empleada para las matrices PAM y BLOSUM. 5. Elabore una discusión de los resultados anteriores en la cual explique: a) Las gráficas de Dotmatcher para DNA y Proteínas y una breve descripción de sus características y diferencias. b) Las diferencias cualitativas y cuantitativas que observa, de acuerdo a los datos de su tabla, entre alineamientos Globales y Locales. 7 c) La relación que se aprecia entre el score de los alineamiento locales y el valor numérico de la puntuación de la matriz que se ha empleado para calcular los alineamientos. d) La relación que pueden tener las gráficas y los alineamientos obtenidos, con el origen biológico de las secuencias que se están estudiando. Para esto investigue en la base de datos del NCBI el origen de las 4 secuencias empleadas. PREGUNTAS 1. Describa la técnica empleada por el programa Dotmatcher para elaborar la gráfica de matriz de puntos explicando brevemente la función del valor de umbral (threshold) y del tamaño de ventana (window size) (consulte la documentación de EMBOSS para este programa). 2. Investigar en que consiste el algoritmo de alineamiento global de Needleman y Wunsch. 3. Explicar en que consiste el algoritmo de alineamiento local de Smith y Waterman. 4. A nivel de los algoritmos anteriores ¿qué diferencias existen entre el alineamiento global y el local? 5. Investigue en qué consisten las matrices PAM y BLOSUM empleadas para comparar secuencias de proteínas. 6. ¿Cuál es el significado del número incluido en las matrices PAM y BLOSUM y que relación tiene con el grado de conservación de las secuencias? 7. Investigue las matrices se emplean comúnmente para la comparación de secuencias de DNA y los parámetros toman en cuenta. 8. Los alineamientos globales y locales generan una puntuación. Describa brevemente todos los parámetros que se emplean para calcularla (matrices y penalizaciones). 9. Mediante un ejemplo en el cual muestre una sección de alineamiento con huecos explique como se calcula la puntuación de un alineamiento. Además explique, desde el punto de vista matemático (probabilístico) ¿qué representa dicha puntuación? 10. Investigue para qué aplicaciones son útiles los alineamientos globales y para cuales los locales. Además explique en qué casos un alineamiento local puede ser igual a un alineamiento global o viceversa. BIBLIOGRAFÍA 1. Berg J. M., Tymoczko J. L., Stryer L (2012): Biochemistry. 7a. ed W. H. Freeman and Company. New York, USA, pp 173-194. 2. Dayhoff MO, Schwartz RM, Orcutt, BC. (1978): A model of Evolutionary Change in Proteins. Atlas of Protein Sequence and Structure. 345-352 pp. 3. Eddy, SR. (2004): What is dynamic programming? Nature Biotechnology. 22(7):909-910. 4. Gotoh O. (1986): Alignment of three biological sequences with an efficient traceback procedure. J Theor Biol. 121(3):327-37. 5. Henikoff S, Henikoff J, (1992): Amino acid substitution matrices from proteins block. Proc. Natl. Acad. Sci. USA. 89:10915-10919. 6. Korf, I, Yadell, M, Bedell, J, (2003): Sequence similarity. En Blast. O’Reilly. 55-71 pp. 7. Needleman SB, Wunsch CD (1970): A general method applicable to the search for similarities in the amino acid sequence of two proteins. Mol Biol. 48(3):443-53. 8 8. Smith TF, Waterman MS.(1981a): Identification of common molecular subsequences. J Mol Biol. 147(1):195-7. 9. Yu Y, Wootton J, Altscul S. (2003). The compositional adjustment of amino acid substitution matrices. PNAS. 100(26): 15688-15693. 9