1 Objetivo General Que el alumno conozca el fundamento de los

Anuncio
PRACTICA IV: ALINEAMIENTO DE PAREJAS DE SECUENCIAS POR PROGRAMACION
DINAMICA
Objetivo General
Ø Que el alumno conozca el fundamento de los distintos métodos para el alineamiento por
parejas de secuencias de DNA y proteínas y aplica distintos métodos para calcularlos..
Objetivos Particulares
Que el alumno conozca y aplique:
Ø Las distintas estrategias computacionales que pueden utilizarse para realizar la
comparación de secuencias biológicas.
Ø Las distintas clases de alineamientos que pueden calcularse para parejas de secuencias de
DNA o proteínas.
Ø Las matrices de puntuación empleadas para la comparación de secuencias de aminoácidos
y de nucleótidos.
Ø Los algoritmos que existen para el cálculo de alineamientos globales y locales.
Ø Los diferentes métodos de optimización para calcular el alineamiento de parejas de
secuencias de DNA y proteínas.
INTRODUCCIÓN
La comparación de secuencias es una técnica científica la cual, en cierto modo, no permite
realizar estudios de “arqueología molecular” en los que se puede descubrir qué partes de las
secuencias de DNA o de las proteínas, se han conservado a través del proceso evolutivo y que
otras regiones han variado o incluso se han perdido o adicionado. Dichos estudios son de
importancia para la biología molecular ya que de esta forma se pueden identificar las regiones de
una secuencia que están asociadas a distintas funciones biológicas. Asimismo, la comparación de
secuencias también nos puede servir para, reconstruir la historia evolutiva de un grupo de
secuencias, predecir la estructura o función de genes y proteínas. La comparación de pares de
secuencias puede considerarse la operación básica en la cual se fundamentan muchas de las
técnicas de análisis de que se emplean en la bioinformática.
Por otra parte, en estos estudios también se debe considerar que no todas las secuencias de
DNA o de proteína evolucionan de la misma manera y que la complejidad en la composición de
las mismas es diferente. Por un lado, las secuencias de DNA pueden dividirse en dos grandes
grupos: Las que codifican secuencias de aminoácidos (secuencias codificantes) y las que no los
codifican. En una secuencia de DNA codificante, es importante recordar que el código genético
es degenerado. Este permite que en el DNA puedan ocurrir mutaciones “silenciosa” que no
producen cambios en la secuencia de aminoácidos que codifican. Además, el alfabeto de la
secuencias de DNA es más reducido comparado con aquel empleado en las proteínas (cuatro
letras frente a veinte). Como consecuencia, la secuencia de DNA codificante tiene mayor libertad
de variación y como consecuencia, su grado de conservación se diluye más rápidamente, que el
1
grado de conservación entre las secuencias de aminoácidos que se traducen a partir de ella. Por
tal motivo, cuando estos estudios se desean realizar para determinar si hay una relación evolutiva
entre los genes, a menudo es más eficiente estudiar el grado de conservación de las proteínas que
estos producen.
En cambio, la evolución de las secuencias de DNA que no codifican proteínas es aún más
compleja. Por una lado muchas de estas secuencia pueden codificar RNAs con funciones
especiales. En estas a menudo hay grados de conservación excepcionalmente altos y además en
muchos casos las variaciones observadas permiten que la estructura secundaria que adoptan
algunas de estas moléculas se conserve. Esto es importante para mantener la función de estas
moléculas. En otras puede haber funciones regulatorias que provocan la conservación solo en
ciertas regiones de la secuencia. y por otra porque un parte de la secuencia de nucleótidos puede
cambiar sin que esto se refleje en la de aminoácidos (cambios sinónimos) debido a la
degeneración del código genético.
Por otra parte existen dos tipos distintos de alineamientos entre parejas de secuencias: el
alineamiento global que involucra las secuencias completas con una puntuación máxima y el
alineamiento local en el que se trata de encontrar los fragmentos de ambas en donde se concentra
la mayor similitud entre las secuencias produciendo entonces un alineamiento con una
puntuación máxima. Ambas clases de alineamientos tienen diferentes aplicaciones y es
importante conocer en que circunstancias deben aplicarse. Por ejemplo el alineamiento local es
local es adecuado cuando se busca saber si existe alguna relación evolutiva entre dos secuencias.
LGPSSKQTGKGC-SRIWDN
|
| |||
| |
LN-ITKSAGKGAIMRLGDA
GLOBAL
-------GKG-------|||
-------GKG--------
LOCAL
Figura 1: Alineamiento global y local. El alineamiento global trata de incluir la totalidad de los residuos de ambas
secuencias, en cambio el alineamiento local solo incluye la zona de mayor similitud de las secuencias.
Si bien existen distintas formas de comparar secuencias, a menudo se busca encontrar el
alineamiento óptimo en el cual se alcanza a distinguir el mayor parecido entre ellas. Se puede
considerar que dicho alineamiento es el que con mayor probabilidad refleja los cambios que se
han producido a lo largo de la evolución. El alineamiento entre dos secuencias en donde han
ocurrido únicamente substituciones de residuos es bastante simple de calcular (incluso muchas
veces puede calcularse sin la ayuda de técnicas computacionales), sin embargo cuando además de
las sustituciones se incluyen otros eventos evolutivos tales como las inserciones y eliminaciones
de residuos el problema se complica sustancialmente, ya que el número posible de combinaciones
de alineamientos es enorme.
Existen técnicas de programación dinámica o de análisis en etapas que permiten
encontrar los alineamientos óptimos en función del sistema de evaluación elegido. La
programación dinámica consiste en dividir el problema del alineamiento en sub-alineamientos,
cada solución parcial en una etapa posterior puede ser calculada recurriendo a un número fijo de
2
soluciones parciales de etapas anteriores; y la etapa final contiene la solución global. Para el
alineamiento de secuencias se utilizan principalmente el algoritmo de programación dinámica
basado en el método de Needleman y Wunsch (y mejorado posteriormente por Gotoh) para
producir alineamientos globales, mientras que para alineamientos locales, el algoritmo de Smith y
Waterman es el más utilizado. Por otra parte, existen técnicas heurísticas que en general
encuentran soluciones cercanas a las óptimas (sub-optimas) pero en tiempos considerablemente
más cortos que los que requieren las técnicas de programación dinámica. Estas técnicas son
bastante importantes cuando en dicho estudio se va a practicar en bases de datos con miles o
millones de secuencias. Entre estas técnicas se pueden destacar los algoritmos FASTA y
BLAST. Este tipo de técnicas se estudiaran posteriormente.
Finalmente, las diversas técnicas computacionales descritas calculan un valor numérico o
puntuación para el alineamiento de secuencias. Un aspecto muy importante de este dato es su
interpretación biológica. Para el estudio de secuencias de proteínas la puntuación se calcula
empleando tablas o matrices que proporcionan valores apropiados para cada pareja de
aminoácidos o para todos los tipos de substitución de estos residuos por otros. Es importante que
dichos sistemas de puntuación tomen en cuenta las propiedades fisicoquímicas de los residuos y
su conservación a través de la historia evolutiva.
Para el estudio de secuencias de proteínas existen dos series de matrices ampliamente
utilizadas, la PAM (Porcentaje de Mutación Aceptada) y la BLOSUM (Matriz de Sustitución de
Bloques). Las matrices PAM están basadas en un árbol filogenético derivado de alineamientos
robustos y precisos de secuencias altamente conservadas, en las cuales las frecuencias de
mutación a cualquier distancia evolutiva deseada son estimadas por extrapolación usando
modelos de Markov de tiempo-reversible. En cambio las matrices BLOSUM se derivan un gran
conjunto de alineamientos con diversos grados de conservación y evitan la extrapolación para
estimar las frecuencias de mutación para diferentes distancias evolutivas, utilizando bloques
conservados de proteínas con similitud definida. Diversos estudios han mostrado que las matrices
BLOSUM muestran mayor sensibilidad en el análisis estructural de proteínas, no obstante las
matrices PAM aún se utilizan especialmente para estudios filogenéticos. Es importante destacar
que para la comparación de secuencias de DNA existen matrices PAM, sin embargo no se
utilizan tan ampliamente como en el caso de las proteínas. Con mayor frecuencia la similitud de
las secuencias de DNA se evalúa con matrices que asignan un valor positivo a la identidad y un
valor negativo a las diferencias de residuos. En una práctica posterior se explorará la forma como
estos datos se interpretan de forma estadística para poder estimar si existe en la relación evolutiva entre la
secuencias en estudio.
RECURSOS INFORMÁTICOS
Programas
EMBOSS para Windows 2.10.0-0.8 (ver instalación del programa en el apéndice)
Sitios WEB a utilizar
http://www.ncbi.nlm.nih.gov/ (National Center of Biotechnology Information _ NCBI)
http://biomedbiotec.encb.ipn.mx/emboss (Servidor EMBOSS de la ENCB)
http://emboss.sourceforge.net/ (Página principal del proyecto EMBOSS)
3
DESARROLLO
I. Descarga de secuencias.
1. Buscar en las bases de datos del NCBI las secuencias V01169, V01180, CAA24495 y
CAA24503. Resumir en una tabla los siguientes datos para estas secuencias: Clave de acceso,
titulo, organismo de origen, tipo de secuencia (aminoácidos o nucleótidos) y longitud.
2. Descargar las secuencias anteriores en el formato FASTA. Para las secuencias de DNA
extraer la secuencia FASTA de la sección CDS del registro en GenBank que codifica para la
proteína en estudio (src). Guardar las secuencias en una carpeta agregando la extensión
*.fasta.
II. Comparación de secuencias de DNA o PROTEINAS mediante gráficas de matriz de
puntos.
Una gráfica de matriz de puntos (dotplot) es una representación gráfica en la cual cada
secuencia es asignada a uno de los ejes cartesianos y en aquellas las coordenadas en donde exista
identidad o semejanza entre las secuencias se coloca un punto en la imagen. De esta forma
cuando las dos secuencias tienen regiones altamente similares, muchos puntos se alinean para
formar líneas diagonales. Por lo tanto a simple vista es posible ver donde hay regiones de
similitud locales, pues éstas producirán líneas diagonales largas. También es fácil ver otras
características como repeticiones (forman líneas diagonales paralelas), y las inserciones o
eliminaciones (que forman rupturas o discontinuidades en las líneas diagonales).
Para este ejercicio se utilizará el programa dotmatcher de la suite EMBOSS. EMBOSS es
una colección de herramientas para bioinformática que ha sido desarrollado por la comunidad
Europea originalmente para plataformas UNIX/LINUX aunque ahora también ha sido
transportado a plataformas Windows.
1. Ejecutar el programa EMBOSS. La versión WEB proporciona una interfaz gráfica para el
programa. En las instalaciones locales para Linux, Mac OS X o Windows el programa se
puede ejecutar desde la terminal de comandos o bien se puede utilizar la interfaz gráfica de
los programas Jemboss. En este ejercicio se asumirá el uso de la interfaz gráfica del programa
(figura 2).
2. Ingresar a la opción del menú “Alignment”, seleccionar la opción “Dot Plot” y ejecutar el
programa Dotmatcher.
3. En la ventana del programa se pueden localizar dos secciones para cargar secuencias. Leer las
secuencias V01169.fasta y V01180.fasta en las secciones correspondientes. Seleccionar la
matriz EBLOSUM62 para efectuar la comparación y la opción PNG para el formato de los
gráficos. Al presionar el botón “Go” el programa deberá mostrar una ventana con varias
carpetas. Seleccionar la carpeta correspondiente al archivo PNG para observar la gráfica.
4. Repetir el paso anterior pero ahora para las secuencias de aminoácidos CAA24495.fasta y
CAA24503.fasta y utilizar la matriz EDNAFULL para la comparación.
4
Figura 2: Interfaz gráfica del programa EMBOSS. EMBOSS es una suite de programas gratuita y de código
abierto (open source) para llevar a cabo diversos análisis bioinformaticos. Fue desarrollada originalmente para
plataformas UNIX/LINUX (http://emboss.sourceforge.net/)
5. Compare las gráficas que fueron obtenidas tanto para secuencias de DNA como para
proteínas y discuta si este es el resultado que se esperaba obtener en torno al posible origen de
estas secuencias.
6. Otras opciones avanzadas pueden configurase en el programa Dotmatcher, presionando el
botón “Advanced Options”. Este programa utiliza un valor de referencia o umbral (calculado
utilizando una matriz de substitución) para definir si un punto debe ser trazado. El punto se
muestra únicamente si la puntuación en una ventana de longitud específica ubicada sobre
alguna de las diagonales posibles rebasa al umbral. La puntuación es la suma de las
comparaciones de residuos de las dos secuencias dentro de la ventana usando una matriz
dada. Observe el efecto que tiene el uso de diferentes combinaciones de estos valores en esta
sección.
III. Alineamiento de secuencias de DNA y proteínas mediante los algoritmos
Needleman/Wunsch y de Smith/Waterman.
Para este ejercicio se utilizarán los programas Needle y Water de la suite de programas
EMBOSS. Para ejecutar estos programas.
a) Alineamiento global de las secuencias de proteínas:
1. Ejecutar el programa mEMBOSS con lo cual se muestra la interfaz gráfica de los programas.
5
2. Ingresar a la opción del menú “Alignment”, seleccionar la opción Global y ejecutar el
programa Needle para llevar a cabo el alineamiento global de las secuencias mediante el
algoritmo de Needleman/Wunsch.
3. En las secciones correspondientes leer las secuencias de aminoácidos CAA24495.fasta y
CAA24503.fasta.
4. Configurar la opciones necesarias para el alineamientos: Matrix file = EPAM250 , Gap
opening penalty = 14.0 y Gap extension penalty =2”. Presionar el botón GO para realizar el
cálculo del alineamiento.
5. Guarde el alineamiento con el nombre de archivo prot_aln_global.txt
Observe detenidamente el alineamiento obtenido. El archivo incluye un resumen indicando el
método empleado para el alineamiento, las secuencias empleadas, porcentajes de identidad,
similitud, huecos, el esquema de puntuación empleado y la puntuación del alineamiento (global)
que fue calculado por el programa.
b) Para el alineamiento local de secuencias de proteínas:
1. Repetir los pasos del ejercicio anterior pero ahora utilizando el programa Water que emplea
el algoritmo de Smith y Waterman para el cálculo de alineamientos locales. Los parámetros
del alineamiento son los mismos que para el alineamiento global. Guarde el archivo obtenido
con el nombre prot_aln_local.txt.
2. Compare el alineamiento local con el global e identifique las principales diferencias entre
ambos tipos de alineamiento.
c) Para el alineamiento global de secuencias de DNA:
1. Repetir los pasos del inciso “a” de esta sección con el programa Needle pero ahora con las
secuencias de DNA, V01169.fasta y V01180.fasta. Utilizar EDNAFULL como la matriz de
comparación, 10.0 para la penalización por apertura de hueco (Gap opening penalty) y 0.5
para la penalización por extensión de huecos (Gap extension penalty).
2. Guardar el alineamiento obtenido con el nombre dna_aln_global.txt
d) Para el alineamiento local de secuencias de DNA:
1. Repetir los pasos del inciso anterior pero ahora con el programa Water. Guardar el
alineamiento obtenido con el nombre dna_aln_local.txt.
2. Compare los alineamiento global y local para DNA para establecer las diferencias entra
ambas clases de alineamiento. A su vez compárelos con los alineamientos obtenidos para las
proteínas y con las gráficas de puntos calculadas con Dotmatcher. Determine si hay
correspondencia entre los resultados de los alineamientos y lo que se observó en las gráficas.
6
V. Actividad: Alineamiento paramétrico.
1.
2.
3.
Empleando los programas de EMBOSS, calcule alineamientos locales 5 matrices entre
PAM20 y PAM250. Utilice una penalización por apertura de huecos (Gap opening penalty)
de 100 y de 10 para la extensión de los mismos (Gap extension penalty).
Repita el análisis pero ahora utilizando 5 matrices BLOSUM elegidas entre BLOSUM30 y
BLOSUM90.
Construya gráficas en las cuales en el eje de las abcisas coloque el valor numérico de la
matriz (BLOSUM o PAM) y en el de las ordenadas la puntuación del alineamiento.
Con los datos de este ejercicio trate de responder lo siguiente:
1. ¿Cuál es el efecto que tiene sobre los alineamientos el uso de los valores de penalización
por apertura de los huecos que se han utilizado en esta sección?
2. Para una serie definida de matrices (PAM o BLOSUM) ¿Cuál es la matriz que
recomendaría para efectuar el alineamiento de las secuencias?
3. ¿Qué estrategia podría proponer para seleccionar la combinación de penalizaciones más
apropiada para el alineamiento de secuencias?
GUIA PARA EL REPORTE DE LA PRÁCTICA
1. Imprimir las gráficas generadas por Dotmatcher para la comparación de DNA y Proteínas.
2. Imprimir únicamente los alineamientos locales y globales para DNA y proteínas obtenidos
con la matriz DNAFULL, PAM250 y BLOSUM62, en el formato por defecto producido por
EMBOSS (verifique que el formato del alineamiento no se distorsione en su reporte).
3. Elaborar un cuadro en el que se resuman los datos de los alineamientos de DNA y Proteínas
obtenidos con todas las matrices que se solicitaron en la práctica (ver actividad V), reportando
la matriz empleada para el alineamiento y la información cuantitativa de estos alineamientos:
número de columnas (longitud del alineamiento), número y porcentaje de: residuos idénticos,
residuos similares, huecos y puntuación (score) del alineamiento.
4. Elabore gráficas de la puntuación de los alineamientos de la tabla anterior vs el valor
numérico de la matriz empleada para las matrices PAM y BLOSUM.
5. Elabore una discusión de los resultados anteriores en la cual explique:
a) Las gráficas de Dotmatcher para DNA y Proteínas y una breve descripción de sus
características y diferencias.
b) Las diferencias cualitativas y cuantitativas que observa, de acuerdo a los datos de su tabla,
entre alineamientos Globales y Locales.
7
c) La relación que se aprecia entre el score de los alineamiento locales y el valor numérico
de la puntuación de la matriz que se ha empleado para calcular los alineamientos.
d) La relación que pueden tener las gráficas y los alineamientos obtenidos, con el origen
biológico de las secuencias que se están estudiando. Para esto investigue en la base de
datos del NCBI el origen de las 4 secuencias empleadas.
PREGUNTAS
1. Describa la técnica empleada por el programa Dotmatcher para elaborar la gráfica de matriz
de puntos explicando brevemente la función del valor de umbral (threshold) y del tamaño de
ventana (window size) (consulte la documentación de EMBOSS para este programa).
2. Investigar en que consiste el algoritmo de alineamiento global de Needleman y Wunsch.
3. Explicar en que consiste el algoritmo de alineamiento local de Smith y Waterman.
4. A nivel de los algoritmos anteriores ¿qué diferencias existen entre el alineamiento global y el
local?
5. Investigue en qué consisten las matrices PAM y BLOSUM empleadas para comparar
secuencias de proteínas.
6. ¿Cuál es el significado del número incluido en las matrices PAM y BLOSUM y que relación
tiene con el grado de conservación de las secuencias?
7. Investigue las matrices se emplean comúnmente para la comparación de secuencias de DNA
y los parámetros toman en cuenta.
8. Los alineamientos globales y locales generan una puntuación. Describa brevemente todos los
parámetros que se emplean para calcularla (matrices y penalizaciones).
9. Mediante un ejemplo en el cual muestre una sección de alineamiento con huecos explique
como se calcula la puntuación de un alineamiento. Además explique, desde el punto de vista
matemático (probabilístico) ¿qué representa dicha puntuación?
10. Investigue para qué aplicaciones son útiles los alineamientos globales y para cuales los
locales. Además explique en qué casos un alineamiento local puede ser igual a un
alineamiento global o viceversa.
BIBLIOGRAFÍA
1. Berg J. M., Tymoczko J. L., Stryer L (2012): Biochemistry. 7a. ed W. H. Freeman and Company.
New York, USA, pp 173-194.
2. Dayhoff MO, Schwartz RM, Orcutt, BC. (1978): A model of Evolutionary Change in Proteins.
Atlas of Protein Sequence and Structure. 345-352 pp.
3. Eddy, SR. (2004): What is dynamic programming? Nature Biotechnology. 22(7):909-910.
4. Gotoh O. (1986): Alignment of three biological sequences with an efficient traceback procedure. J
Theor Biol. 121(3):327-37.
5. Henikoff S, Henikoff J, (1992): Amino acid substitution matrices from proteins block. Proc. Natl.
Acad. Sci. USA. 89:10915-10919.
6. Korf, I, Yadell, M, Bedell, J, (2003): Sequence similarity. En Blast. O’Reilly. 55-71 pp.
7. Needleman SB, Wunsch CD (1970): A general method applicable to the search for similarities in
the amino acid sequence of two proteins. Mol Biol. 48(3):443-53.
8
8. Smith TF, Waterman MS.(1981a): Identification of common molecular subsequences. J Mol Biol.
147(1):195-7.
9. Yu Y, Wootton J, Altscul S. (2003). The compositional adjustment of amino acid substitution
matrices. PNAS. 100(26): 15688-15693.
9
Descargar