PRACTICA VIII: EDICION Y EVALUACION DE ALINEAMIENTOS

Anuncio
PRACTICA VIII: EDICION Y EVALUACION DE ALINEAMIENTOS
MULTIPLES DE SECUENCIAS
OBJETIVOS:
Conocer diferentes técnicas que permitan evaluar la calidad de un alineamiento
múltiple.
OBJETIVOS ESPECIFICOS:
-
Comprender la importancia de la edición y evaluación de alineamientos
múltiples.
Editar alineamientos múltiples con editores especializados.
Evaluar alineamientos múltiples por las técnicas de suma de pares, entropía
mínima, consistencia con árboles filogenéticos y la función COFFEE.
Determinar en función de los resultados de la evaluación que algoritmos
produjeron los mejores alineamientos.
INTRODUCCION.
El alineamiento múltiple de secuencias tanto de proteínas como de DNA es una
herramienta muy importante en bioinformática. Tradicionalmente, el alineamiento
múltiple se ha utilizado para identificar regiones conservadas o residuos importantes en
una familia de proteínas o estudios evolutivos en los cuales se tratan de establecer las
relaciones evolutivas entre diferentes organismos. Otra aplicación importante es la
identificación de dominios funcionales y la modelación tridimensional de estructuras.
No obstante su importancia, las diferentes técnicas que permiten producir alineamientos
múltiples se basan en técnicas heurísticas, las cuales en principio no permiten el cálculo
de alineamientos óptimos, especialmente cuando el grado de divergencia entre las
secuencias es elevado. Se han descrito varios métodos para evaluar la calidad de los
alineamientos múltiples.
Un sistema de evaluación de alineamientos múltiples debería tomar en cuenta al
menos dos características: (1) el hecho de que algunas posiciones están más conservadas
que otras y (2) el hecho de que las secuencias en el alineamiento no son independientes
sino que están relacionadas a través de un árbol filogenético. Además casi todos los
métodos empleados para evaluar un alineamiento asumen que las columnas individuales
del mismo son independientes estadísticamente. En general la idea básica para evaluar
los alineamientos múltiples es considerar que en un alineamiento óptimo el número de
cambios que deben ocurrir para producir las secuencias observadas a partir de un
ancestro común, debería ser el mínimo. Sin embargo, el verdadero curso evolutivo es
desconocido y los métodos existentes solo pueden hacer estimaciones a partir del curso
estimado a partir de un alineamiento y por lo tanto puede desviarse considerablemente
del curso real. Por lo tanto estos métodos pueden no ser totalmente consistentes con las
propiedades evaluadas. A continuación se describen algunas estrategias comúnmente
utilizadas en la evaluación.
Entropía mínima. Para el caso de los alineamientos múltiples, la entropía puede
emplearse para medir el grado de conservación de cada columna del alineamiento.
Utilizando la definición de entropía dado por Shannon, la puntuación de una columna
puede calcularse mediante la expresión:
Si = −∑ pia log2 ( pia )
a
donde pia es la frecuencia observada del residuo a en la columna i del alineamiento. La
sumatoria indica que el producto de esta frecuencia por su probabilidad debe sumarse
para todos los residuos posibles (20 para el caso de las proteínas, aunque también
pueden considerarse a los huecos como un símbolo adicional). La expresión anterior
calcula un valor mínimo para el caso en que todos los residuos sean idénticos y da un
valor máximo cuando todos los residuos están presentes en las mismas proporciones, de
este modo puede verse que en el caso de un alineamiento óptimo la entropía del mismo
(la suma total a través de todas las columnas del alineamiento) debería alcanzar el
mínimo posible.
Suma de pares (SP): Puede considerarse a este método como una extensión del método
empleado para evaluar los alineamientos entre pares de secuencias. La puntuación SP de
una columna puede calcularse mediante la expresión:
Si =
n
∑ s(mi , m j )
i =1, j =1
en donde s(mi, mj) es la puntuación que le corresponde al par de residuos mi, mj de
acuerdo a una matriz de puntuación determinada tal como PAM o BLOSUM. En este
caso la suma alcanzará un máximo cuando todos los residuos de la columna sean
idénticos.
Consistencia con árboles evolutivos. Si se conociera el árbol filogenético correcto para
las secuencias que integran el alineamiento, puede verificarse que tan consistes son
diferentes partes del mismo con el árbol dado y el alineamiento correcto debería ser
aquel que maximizara la probabilidad del árbol. No obstante el modelo evolutivo puede
ser muy complejo, aunque una aproximación al árbol puede alcanzarse por otros
métodos tales como parsimonia o distancias.
Una variante de este tipo de evaluación, la función de puntuación COFFEE
(Consistency based Objective Function For alignmEnt Evaluation) refleja el grado de
consistencia entre un alineamiento múltiple de secuencias y una biblioteca de
alineamientos globales y locales de pares de secuencias. En su forma más simplificada
la consistencia global de un alineamiento es igual al número de pares de residuos
presente en los alineamientos múltiples y que están presentes en la biblioteca, dividida
entre el número total de pares de residuos observados en el alineamiento. Esta medición
da una puntuación entre 0 y 1 y el valor máximo corresponderá a la máxima
consistencia posible. Actualmente la función COFFEE puede estimar consistencia entre
otros criterios, por ejemplo entre alineamientos calculados por diferentes estrategias.
Incorporación de información estructural. Cuando se dispone de información
estructural para un grupo de secuencias, puede evaluarse en que grado el alineamiento
es consistente con la estructura de las proteínas. Esta característica es muy importante
para la rectificación de alineamientos múltiples y esta basada en la premisa de que la
estructura se conserva aún más que la secuencia para proteínas homólogas. Algunas
técnicas de alineamiento pueden guiarse mediante la información estructural de los
homólogos reportados y en estos casos la calidad de los alineamientos suele ser más alta
que por cualquier otro método.
Recursos informáticos empleados.
GeneDoc Versión 2.7
Servidor T-COFFEE (http://www.tcoffee.org/)
Servidor WebLogo (http://weblogo.berkeley.edu/).
Procedimiento.
Edición y evaluación de alineamientos con GeneDoc.
GeneDoc es un editor de alineamientos desarrollado por el Centro de Supercómputo de
la Universidad de Pittsburg. Además de sus características para la edición de
alineamientos que le permiten corregir alineamientos y generar presentaciones de los
mismos de alta calidad para publicación, incorpora de funciones para evaluar la calidad
de los alineamientos producidos.
1. Lectura del alineamiento en GeneDoc. GeneDoc puede abrir directamente
archivos almacenados en el formato Multiple Sequence Format (MSA) también
conocido como GCG. Cuando no es posible la lectura a partir de este formato se
pueden importar las secuencias mediante la opción “Import” del menú “File” de este
programa. Esta operación muestra un cuadro de diálogo con diferentes opciones de
formatos entre las que se incluyen Clustal, Fasta (Pearson) y Phylip entre otros. La
gran mayoría de los programas que producen alineamientos múltiples permiten
exportar los alineamientos producidos a alguno de estos formatos. Una vez que se
ha leído el archivo este aparece en el editor y puede grabarse ahora en el formato
MSA.
2. Configuración de la presentación del alineamiento con GeneDoc. La opción
“Configure” del menú “Project” permite configurar varias de las opciones para la
presentación e impresión del alineamiento. El cuadro “Configure” presenta varias
carpetas para la configuración de la presentación entre las que destacan:
a. Project: “Font settings” permite modificar el tamaño de las letras, “Seq Bloq
Sizing” permite variar el número de residuos presentados por cada renglón del
alineamiento.
b. Print: Presenta opciones para la impresión del alineamiento.
c. Shade: Muestra opciones para producir un alineamiento coloreado empleado
diversos criterios, tales como el grado de conservación (Conserved), las
propiedades químicas de los residuos (Property), información estructural
(Structure) o las propiedades fisicoquímicas de Taylor (PhysioChem), entre
otros. Puede ser necesario proporcionar otros datos para producir ciertos tipos de
sombreado, por ejemplo para usar el modo Structure debe proveerse información
estructural a través de archivos PDF.
Para el ejemplo de esta práctica se utilizará el modo de sombreado basado en las
propiedades fisicoquímicas. Al utilizar este método se debe activar la opción
“Conservation” en “Coloring” para destacar las columnas que se han conservado en
función de esta propiedad.
Figura 1: Interfaz de usuario del programa GeneDoc. GeneDoc es un editor de alineamientos de
secuencias avanzado con características para la modificación de los alineamientos, opciones para dar
formato para la presentación e impresión de alineamientos, así como para la evaluación de la calidad
de alineamientos. El programa fue desarrollado por el Centro de Supercómputo de la Universidad de
Pittsburg.
3. Selección de bloques para copiar e impresión del alineamiento. Ir al menú “Edit”
y activar la opción “Select Blocks for Copy”. Al activar esta opción se seleccionan
bloques del alineamiento al dar un clic sobre ellos con el ratón. Los bloques
seleccionados pueden copiarse a archivos de diversos formatos mediante la opción
“Copy Selected Blocks to” del menú “Edit”. Entre los formatos de archivo posibles
se tienen archivos de imágenes (Metafile, Pic, Bitmap) o de texto con formato
(HTML, RTF). El formato Rich Text Format (RTF) es compatible con muchos
procesadores de texto tal como Word, por lo que este será el formato recomendado
para esta práctica. Para esto se deben seleccionar todos los bloques del alineamiento
y posteriormente copiarlos al archivo RTF. Posteriormente se puede visualizar el
alineamiento almacenado en el archivo RTF con el programa Word. Si el
alineamiento aparece distorsionado pueden cambiarse las opciones de configuración
con el cuadro “Configure” del menú “Project” antes de copiarlo con GeneDoc o
bien cambiando las opciones de márgenes, orientación de página y tamaño de letra
del procesador de texto. Se sugieren para esta práctica el tamaño de letra de 8 puntos
y 100 caracteres por renglón del alineamiento para la configuración.
4. Edición del alineamiento. La edición del alineamiento se encuentra bloqueda por
defecto. Se puede activar dando un clic en la opción “Residue Edit Mode” del menú
“Edit” con lo cual los residuos de las secuencias pueden ahora editarse mediante el
teclado. Se debe ser cuidadoso con esta opción ya que su uso indebido puede alterar
las secuencias y no se dispone de una opción para deshacer los cambios. El menú
“Arregment” incorpora además otras herramientas útiles tales como:
a. Grab and Drag Sequences: Permite desplazar bloques de una secuencia. Cada
bloque esta delimitado por los huecos en las secuencias. Los bloque pueden
desplazarse seleccionándolos con el izquierdo del ratón y manteniendo
presionado el botón pueden arrastrarse a la posición deseada.
b. Slide sequences: Permite desplazar secuencias enteras con el ratón.
c. Insert Gap into Sequence: Permite insertar un hueco en una secuencia con un
clic con el botón izquierdo del ratón en la posición deseada del alineamiento.
d. Delete Gap from Sequence: Permite eliminar un hueco en una secuencia con
un clic con el botón izquierdo del ratón en el hueco deseado.
e. Select sequences to work on: Abre un cuadro de diálogo que permite
seleccionar en cuales secuencias operarán las opciones definidas en los incisos f
en adelante.
f. Complement section: Permite calcular la secuencia complementaria de las
secuencias seleccionadas (solo para el caso de DNA).
g. Insert/delete gap in/from Other Sequences: Estas opciones insertan o
eliminan huecos en todas las secuencias seleccionadas excepto en aquella en la
que se hizo clic con el ratón. Los huecos se insertan o eliminan en la posición en
la que estaba situado el ratón al hacer el clic.
h. Insert/Delete Gap Column: Permiten insertar o eliminar una columna de
huecos completa al hacer un clic con el ratón en la posición deseada.
5. Evaluación del alineamiento. La evaluación del alineamiento consta de tres etapas:
a. Elección del sistema de evaluación: En el menú “Score” se pueden seleccionar
cuatro métodos diferentes para la evaluación: Sum of Pairs, Phylogen Tree,
Numed Tree, LogOdds (Entropía). Dar un clic en la opción de evaluación
deseada (Para esta práctica se utilizarán la suma de pares y la entropía para
evaluar los alineamientos).
b. Seleccionar las columnas del alineamiento a evaluar. Al activar la opción
“Select columns” del menú “Score” se pueden seleccionar las columnas del
alineamiento a evaluar, para esto se debe dar un clic con el ratón en la primera
columna de la sección a evaluar y un clic en la última columna, con lo que la
sección seleccionada se mostrará sombreada en el editor.
c. Evaluación del alineamiento. Una vez seleccionadas las columnas se debe dar
un clic en la opción “Score selection” del menú Score, con lo cual la puntuación
del mismo se mostrará en la parte superior de la sección seleccionada
aproximadamente a la mitad de la misma. El dato numérico se debe anotar
manualmente ya que no se almacena al guardar la secuencia.
d. Precauciones para las opciones de evaluación basadas en árboles. Para las
opciones Phylogen Tree y Numed Tree el árbol filogenético debe cargarse
previamente mediante la opción “Manage Expresión” del menú “Tree”. El
cuadro mostrado presenta una opción “Import” la cual permite cargar archivos
en el formato DND, que es el que producen algunos programas para el
alineamiento de secuencias tal como Clustal o T-Coffee. No obstante, el uso de
estas opciones puede requerir tiempos de cómputo muy largos ya que este
método emplea el algoritmo de máxima parsimonia para evaluar la consistencia
de los alineamientos producidos.
6. Incorporación de anotaciones en el alineamiento. GeneDoc, permite anotar datos
importantes y almacenarnos junto con el alineamiento. Las anotaciones se realizan
de manera manual mediante la opción “Titling facility” del menún “Project” la cual
abre un cuadro de diálogo que permite anotar datos en una sección de comentarios,
anexar datos importantes tales como el sistema de puntuación y programa
empleados para producir el alineamiento. Para conservar esta anotación el
alineamiento deberá guardarse en el formato MSA, que es la opción por defecto de
la opción “Save” del menú “Alignment”.
7. Evaluar los alineamientos de las secuencias de tripsinas obtenidos por los
programas: Clustal, T-Coffee, Dialign, Parallel PRRN, Multalin, HMMER y
Clustal Profile. Para esta práctica se utilizarán los métodos de evaluación “Sum of
Pairs” y “LogOdds”, por lo que ambas puntuaciones deberán evaluarse para evaluar
cada alineamiento. Con estas puntuaciones se deberá elaborar una tabla en la cual
se resuman las dos puntuaciones para cada alineamiento. El cálculo de la puntuación
basada en el árbol filogenético se deja como un cálculo opcional ya que esta paso
puede requerir entre 15 y 60 minutos de procesamiento dependiendo de la velocidad
de la computadora. Si se realiza este cálculo se sugiera cargar el árbol guía
producido por Clustal X como se indica en el paso 5.
Evaluación de alineamientos con el método de consistencia de T-Coffee.
El servidor T-Coffee permite también la evaluación de la calidad de los alineamientos
producidos por diferentes programas. Para esto los alineamientos deben cargarse
mediante la opción “Evaluation”, del programa (http://igs-server.cnrsmrs.fr/Tcoffee/tcoffee_cgi/index.cgi).
Se ofrecen dos opciones de evaluación: “Core” la cual se basa en la consistencia del
alineamiento múltiple con alineamientos globales y locales derivados de las secuencias
involucradas y la opción “iRMSD-APDB” la cual permite evaluar la consistencia con
información estructural a partir de archivos PDB. Cada uno de los alineamientos
producidos con los programas empleados en las prácticas 10-12 deberán ser evaluados
con las dos opciones:
1. Evaluación del alineamiento con T-Coffee-Core: Se debe sumistrar el archivo en
formato Clustal (si se tiene el alineamiento en otro formato se recomienda
convertirlo a formato Clustal con el programa Clustal X). Posteriormente se debe
someter el archivo al análisis y examinar los resultados mostrados en el archivo
score_html. Guardar el alineamiento y registrar la puntuación obtenida (score).
2. Evaluación del alineamiento con T-Coffee-iRMSD-APDB. Sumistrar el
alineamiento de las secuencias en formato Clustal, FASTA o MSF. El formato
puede convertirse con el programa Clustal X. Los nombres de los archivos de
secuencias deben renombrarse considerando la clave PDB y la cadena empleada
para el alineamiento. Por ejemplo una secuencia con clave de acceso del PDB 1F0T,
de la cual se utilizó la cadena A para el alineamiento, debería nombrarse 1F0TA. Se
siguió esta convención en el nombre de las secuencias alineadas en las prácticas 10 a
13, por lo que no es necesario modificar los nombres para este ejercicio. Someter el
alineamiento al análisis y reportar las puntuaciones reportadas en el archivo
score_html y descargar el alineamiento en PDB.
Creación de Logos a partir de los alineamientos múltiples de secuencias.
Los logos de secuencias son representaciones gráficas de los alineamientos múltiples de
secuencias de aminoácidos o de nucleótidos desarrolladas por Tom Schneider y Mike
Stephens. Cada logo consiste de apilamientos de símbolos para cada posición del
alineamiento de secuencias. La altura total de cada símbolo en la pila es proporcional a
la frecuencia relativa de cada aminoácido o nucleótidos en cada posición en el
alineamiento Un logo facilita la visualización de las regiones conservadas en el
alineamiento múltiple que pueden pertenecer a un sitio de unión, a un motivo
importante para la función de las moléculas, o a alguna región de interés de las
secuencias.
1. Creación de logos con WEBLogo. Entrar a la página del programa WEBLogo
(http://weblogo.berkeley.edu/logo.cgi). Se habre una página WEB que permite pegar
el alineamiento en un cuadro o leerlo desde un archivo con el botón examinar. Para
este ejercicio se crearán tres logos para las regiones en torno a los aminoácidos que
integran la triada catalítica de las serín-proteasas, para lo cual se utilizará el
alineamiento mejor conservado que se halla obtenido según la evaluación del punto
anterior. El alineamiento se debe proporcionar en formato Fasta o Clustal.
2. El formato de imagen se deberá cambiar a PNG o GIF y se sugiere el tamaño de
imagen por defecto (18x5cm) proporcionado por el programa.
3. En la sección de Opciones Avanzadas del programa se debe establecer la sección del
alineamiento empleada para crear el logo. Se sugieren los intervalos 50-80, 120-140
y 220-250 para crear los tres logos para el entorno de los aminoácidos que integran
la triada catalítica (puede ser que necesite ajustar estos intervalos para centrar los
aminoácidos de interés dependiendo del alineamiento escogido para esta operación.
4. Una vez configurados los parámetros, se debe presionar el botón “Create Logo” con
lo cual este se mostrará en una ventana. El logo se puede guardar como una imagen
dando clic en el con el botón derecho del ratón y presionando la opción del menú
“Guardar imagen como…” (en Internet Explorer). (Nota: se ha observado una falla
en este paso en las versiones recientes del Internet Explorer. Si esto sucede se puede
guardar presionando la tecla imprimir pantalla, la cual permite capturar la imagen de
la pantalla y pegarla en un editor de imagenes, en donde se puede recortar).
Guía para el reporte de la práctica:
1. Elaborar una tabla en la que se indique el nombre de los programas empleados para
producir los alineamientos de las secuencias de tripsinas producidos en las prácticas
10 a 12 (Clustal, T-Coffee, Parallel PRRN, Dialign2, MultAlin, HMM y Clustal
profile), y las puntuaciones obtenidas por los diferentes esquemas de puntuación
utilizados en esta práctica (SP, LogOdds o entropía, consistencia con árboles
filogenéticos (opcional), COFFEE core y T-Coffee-iRMSD-APDB). A partir del
análisis de esta tabla indique cual considera que fue el mejor de los alineamientos
obtenidos.
2. Incluya en el informe, además de la tabla impresiones del alineamiento producido
con Clustal y del mejor alineamiento obtenido según el análisis anterior producido
con GeneDoc, utilizando tamaño de letra de 10 puntos, sombreado por propiedades
fisicoquímicas y renglones con 100 residuos. Destaque en estos alineamientos las
zonas importantes de estas secuencias para su función (triada catalítica). ¿Existe
alguna relación entre la calidad de los alineamientos producidos y los valores de
Expectación producidos por la búsqueda en Blast que se realizó en la práctica 10?
3. Incluya impresiones de los tres logos de la triada catalítica en el informe de su
práctica. ¿Cómo es el grado de conservación de las secuencias en estas tres
regiones? ¿Que ventajas ofrece el logo con respecto a la vista tradicional del
alineamiento múltiple?
Preguntas.
1. ¿Qué criterios considera que son importantes y que se deben tomar en cuenta al
evaluar la calidad de un alineamiento múltiple?
2. Es importante la producción de alineamientos de buena calidad, sin embargo ¿para
que aplicaciones considera que la calidad de los alineamientos es de importancia
vital para el análisis?
3. ¿A que se pueden atribuir las “contradicciones” encontradas al evaluar la calidad de
alineamientos múltiples utilizando diferentes esquemas de puntuación?
4. ¿Cuál de las técnicas de puntuación estudiadas en esta práctica consideraría la más
confiable y porqué? ¿cuáles podrían ser sus posibles limitaciones o desventajas?
5. ¿El número de secuencias empleadas en la construcción del alineamiento tendrá un
efecto en las discrepancias observadas entre los esquemas de puntuación?
6. El alineamiento óptimo según algún criterio de puntuación determinado ¿se puede
considerar biológicamente correcto?
Bibliografía
1. Armougom F., Moretti S., Poirot O, Audic S, Dumas P, Schaeli B, Keduas V,
Notredame C. (2006): Expresso: automatic incorporation of structural information
in multiple sequence alignments using 3D-Coffee. Nucleic Acids Res, 2006, 34,
Web Server issue, W604–W608.
2. Brenner S. E., Chothia C., Hubbard T. J. P. (1998): Assessing sequence comparison
methods with reliable structurally identified evolutionary relationships. Proc. Natl.
Acad. Sci. USA. 95:6073-6078.
3. Chang JM, Di Tommaso P, Notredame C. (2014): TCS: a new multiple sequence
alignment reliability measure to estimate alignment accuracy and improve
phylogenetic tree reconstruction. Mol Biol Evol. 2014 Jun;31(6):1625-37
4. Henikoff J.G., Henikoff S. (1996): Using substitution probabilities to improve
position-specific scoring matrices. CABIOS, 12(2): 135-143.
5. Karplus K., Birong H. (2001): Evaluation of multiple alignment programs by SAMT99 using the BaliBASE multiple alignment test set. Bioinformatics, 17(8):713-720.
6. Mount D. W. (2001): Bioinformatics: sequence and genome analysis, Cold Spring
Harbor Laboratory Press, New York, USA, pp:151-153.
7. Nicholas, H. B., Jr., et al. (2002): Strategies for multiple sequence alignment.
Biotechniques 32(3): 572-574, 576, 578 passim.
8. Schneider TD, Stephens RM. (1990). Sequence Logos: A New Way to Display
Consensus Sequences. Nucleic Acids Res. 18:6097-6100
9. Thompson J. D., Koehl P., Ripp R. Poch O. (2005): BAliBASE 3.0: Latest
developments of the multiple sequence alignment benchmark. PROTEINS:
Structure, Function, and Bioinformatics 61:127–136.
Descargar