ALINEAMIENTO DE PROTEINAS-2005

Anuncio
UNIVERSIDAD PERUANA CAYETANO HEREDIA
FACULTAD DE CIENCIAS Y FILOSOFIA
DEPARTAMENTO BIOQUIMICA, BIOLOGIA MOLECULAR Y FARMACOLOGIA
SECCION BIOQUIMICA Y BIOLOGIA MOLECULAR
ALINEAMIENTO DE SECUENCIAS
1. OBJETIVOS
a) Conocer los diferentes métodos utilizados para el alineamiento de múltiples
secuencias, de aminoácidos y nucleótidos.
b) Comprender la aplicación de los métodos de alineamiento de secuencias en el
área de Bioquímica, Bioinformática y Biología Molecular.
2. INTRODUCCIÓN
¿Qué es una secuencia?
Es una serie de elementos encadenados uno detrás de otros y que determinan, en parte,
la estructura tridimensional de una molécula. Existen secuencias de nucleótidos y
secuencias de aminoácidos, dependiendo de la molécula a que nos refiramos (ADN/ARN
o proteínas). La secuencia se representa por letras, de acuerdo a la nomenclatura de la
molécula
en
cuestión.
¿Para qué comparar secuencias?
Se puede decir que la comparación de secuencias es una forma de hacer arqueología, de
descubrir qué partes de las secuencias son más importantes (están más conservadas) y
descubrir qué proteínas tienen un origen común (que tienen un mismo origen evolutivo).
La comparación de secuencias también nos puede servir para predecir la estructura de
las proteínas (las proteínas homólogas tienen una misma arquitectura tridimensional), o
también nos puede ayudar a predecir la función de las proteínas, aunque en este aspecto
hay que ser cautelosos ya que a lo largo de la evolución proteínas con un origen común
pueden terminar desarrollando distintas funciones.
Una de las aplicaciones más importantes del alineamiento de secuencias es la
determinación de una similitud suficiente entre dos o más secuencias que justifique la
inferencia de una homología evolutiva entre ellas. La homología indica si dos
secuencias son homólogas o no, dependiendo del grado de similitud y la significancia
estadística del alineamiento. Es poco probable que dos proteínas con secuencias
similares de aminoácidos hayan evolucionado independientemente. Tales similitudes
indican, por lo tanto, que las dos proteínas deben estar relacionadas y que comparten un
ancestro común. Las proteínas relacionadas se dice que son homólogas.
¿Por qué varían las secuencias entre si?
Durante la evolución, los genes sufren mutaciones (por ej.: cambios puntuales,
rearreglos, duplicaciones). Como resultado, algunas proteínas sufren cambios, por
ejemplo a nivel de su estructura primaria que puede determinar un cambio o no en su
estructura terciaria. Además de estas mutaciones puntuales (sustitución de un
aminoácido por otro), la secuencia de una proteína puede perder algunos de sus
aminoácidos (mutación por deleción) o tener aminoácidos insertados (mutación por
inserción). Estos cambios posibilitan que ciertas proteínas contengan regiones que
presentan homología con varias otras proteínas. Si se examinan las diferencias entre
dos proteínas homólogas, se observa una tendencia general de encontrar residuos de
1
aminoácidos químicamente similares en la misma posición (residuos conservados) en
ciertas regiones. La sustitución, por ejemplo, de un residuo acídico (ej.: Glu por Asp) es
probable de tener una menor consecuencia para las interacciones con residuos cercanos
que la sustitución de Glu por Val, un residuo hidrofóbico.
Al encontrar un alto grado de similitud de secuencia entre dos proteínas, uno podría
inferir que comparten una historia evolutiva común, y a partir de ello podríamos anticipar
que tendrán estructuras 3D similares así como funciones biológicas similares (figura 1).
Todo esto tomando en cuenta que las condiciones del medio ambiente se mantengan las
mismas, de manera que la función se haya preservado durante el curso de la evolución.
¿Cómo comparar secuencias?
La elección de comparar secuencias de nucleótidos o de aminoácidos depende de la
información que busquemos. Uno de los aspectos más importantes para decidir qué
queremos comparar radica en que el parecido entre secuencias de nucleótidos con un
origen común se pierde más rápidamente que el parecido en las secuencias de
aminoácidos correspondientes: por una parte porque el alfabeto es más reducido (cuatro
letras frente a veinte) y por otra porque la secuencia de nucleótidos puede cambiar sin
que esto se refleje en la de aminoácidos (cambios sinónimos).
La comparación de secuencias de nucleótidos es apropiada cuando:
2
-
-
-
queremos comparar secuencias muy parecidas, en las que quizás sólo hay
diferencias en uno o dos nucleótidos (estudios filogenéticos de poblaciones,
SNPs, etc).
queremos identificar genes: si comparamos zonas equivalentes del genoma de
ratón y del genoma de humano, vemos que las regiones exónicas están más
conservadas que las intrónicas.
queremos comparar secuencias no codificantes.
La comparación de secuencias de aminoácidos es apropiada cuando:
- queremos buscar homólogos, ya sean más o menos cercanos o sean lejanos: no
sólo el parecido en la secuencia aminoacídica se pierde más lentamente, sino que
sabemos que algunos aminoácidos tienen propiedades más parecidas que otros,
por lo que podemos darle más sentido a los cambios que observamos.
- queremos
identificar
regiones
importantes
de
las
proteínas.
El método comparativo más común es el alineamiento de secuencias. Este puede
involucrar dos secuencias (“pairwise alignment”) o más de dos secuencias (“multiple
alignment”).
Alineamiento local
Existen dos formas de alinear dos secuencias: intentando encontrar los dos fragmentos
de ambas secuencias que tienen un alineamiento con una puntuación máxima (local) o
aquél alineamiento de las secuencias completas también con una puntuación máxima
(global).
El alineamiento local es adecuado cuando las proteínas no se parecen a lo largo de toda
su secuencia (figura 2), por ejemplo si una tiene un dominio A y otro B y la otra tiene un
dominio A y otro C (B y C no son homólogos y no tendría sentido intentar alinearlos).
Figura 2. Esquema de un alineamiento local y global entre dos secuencias no muy
parecidas.
Incluyendo información de sustituciones para mejorar el alineamiento se logra encontrar
un alineamiento que refleje mejor, con mayor probabilidad, la historia evolutiva: qué
sustituciones, deleciones e inserciones han hecho divergir a dos secuencias. Lo que se
hace no es asignar un "punto" por cada coincidencia de letras, sino que cada par de
letras del alfabeto tiene un peso asociado, así, Leu e Ile (que son muy parecidos) tienen
3
una puntuación positiva, mientras que Trp y Asp (muy distintos) tienen una puntuación
negativa.
Problema: se conocen millones de secuencias y para compararlas necesitamos una
solución computacional: ¿cómo decirle al ordenador que encuentre el mejor alineamiento
entre dos secuencias? Rpta: Mediante matrices de sustitución.
Matrices de sustitución
¿Cómo determinar si una sustitución determinada (p.e. Cys -> Met) ha de tener una
puntuación positiva o negativa, es decir, si es un cambio sin mucha trascendencia o por
el contrario, las características de ambos residuos son muy distintas?
Las matrices de sustitución más conocidas son PAM y BLOSUM. Básicamente se
construyen analizando alineamientos; a partir de ellos calculan la frecuencia con que
cada par de residuos aparece sustituido (en una misma posición del alineamiento), y lo
comparan con la frecuencia que por azar debería observarse esa sustitución (el producto
de las frecuencias con que aparecen en las proteínas cada uno de los aminoácidos).
Por ejemplo, en BLOSUM62 vemos que D -> E (aspártico -> glutámico, ambos ácidos) =
2, mientras que D -> L (aspártico -> leucina, ácido a hidrofóbico) = -4. Esto nos indica que
en los alineamientos utilizados para construir la matriz BLOSUM62, se observó con
mayor frecuencia de la esperada el cambio D->E, no así el cambio D->L. Algunos de los
residuos cuya conservación parece más importante son el W (11), la C (9), la H (8), la P
(7), etc.
Las distintas matrices BLOSUM como blosum45, blosum62 o blosum80, se construyen a
partir de alineamientos en los que las secuencias se parecen al menos un 45%, un 62% o
un 80%. La más usada es la blosum62. En teoría la blosum80 proporcionaría mejores
alineamientos cuando trabajásemos con secuencias cercanas, y la blosum45 con
secuencias más lejanas.
El cálculo del mejor alineamiento se hace de forma similar al del caso de la comparación
por identidades. En el siguiente ejemplo se aprecia claramente.
AGLS
ATLT Según Blosum62: 4+(-2)+4+1 = 7.
AGLS
ATLT Según Blosum62: 0+(-1)+(-2) = -3.
... (etcétera)
Se rellena la matriz de este modo y después se busca el valor más alto.
Alineamiento Múltiple
El alineamiento múltiple involucra a varias secuencias simultáneamente. Los métodos se
basan en los algoritmos de alineamiento progresivo en los que una serie de
alineamientos par a par (“pairwise”) son conducidos para alinear grupos mayores de
secuencias que se presumen -de inicio- de ser homólogas.
Uno de los programas de alineamiento múltiple más comúnmente usados es el
CLUSTALW. Este programa toma un conjunto de secuencias ingresadas y realiza una
búsqueda de homología por comparación “par a par” de las secuencias. Una matriz de
4
distancia es calculada de acuerdo a la divergencia de cada par de secuencias; con esta
matriz se elabora un árbol guía filogenético. Seguidamente, las secuencias son
alineadas progresivamente de acuerdo al orden de la ramificación en el árbol guía. En
cada paso, un algoritmo de programación dinámica es utilizado con una matriz de peso
por residuo. La inclusión de “gaps” (espacios) es necesaria puesto que permite
representar eventos de inserción o deleción al comparar dos o más secuencias, pero es
controlada por un puntaje de penalidad.
Búsquedas de parecidos en las bases de datos.
Actualmente las bases de datos contienen un gran número de secuencias, y crecen de
forma exponencial. Por ejemplo en Genbank ya hay más de 28.000 millones de pares de
bases (nucleótidos), correspondientes a más de 22 millones de secuencias. Por otra
parte conocemos aproximadamente un millón y medio de secuencias de proteínas.
En este contexto, aplicar algoritmos como el de pairwise no es factible, ya que tardarían
demasiado tiempo (a no ser que dispusiéramos de máquinas especiales que trabajasen
en paralelo). Por eso existen métodos como BLAST y FASTA que aplican heurísticas (o
"truquillos") para reducir el tiempo de búsqueda. Estos "truquillos" no garantizan el
resultado óptimo pero casi siempre funcionan, y la ganancia en tiempo hace que
compense usarlos.
Existen muchos otros métodos y programas de alineamiento (MultAlin, ProfilsScan,
Macaw, etc.), y se puede verificar que cada uno de ellos puede dar diferentes resultados.
Esto no implica que un método sea mejor que otro.
El usuario debe optar
cuidadosamente por una técnica particular, haciendo los ajustes finales de alineamiento
probablemente a mano.
3. MÉTODOS Y SOFTWARE
Primera Parte: Alineamiento entre 2 secuencias
En esta parte de la práctica utilizaremos el programa ClustalW (versión 1.81) del EMBL
disponible on-line, para generar interactivamente un alineamiento entre 2 secuencias
problema. Para ello tenemos que seguir los siguientes pasos:
(1) El servidor ClustalW del EMBL se encuentra localizado en la siguiente URL:
http://www.ebi.ac.uk/clustalw/
(2) Debes ingresar las secuencias de aminoácidos que deseas alinear, en alguno de los
formatos aceptados. Por ejemplo se puede usar el formato FASTA.
(3) El alineamiento efectuado lo puedes visualizar segundos después de ingresar tus
secuencias problema y también te lo envia a tu correo electrónico
(4) Interpreta la gráfica obtenida del alineamiento efectuado.
Las secuencias problema son:
>Protein X1
MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTV
TAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPVVDPYDMPGTSYSTPGMSGYSSGG
ASGSGGPSTSGTTSGPGPARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRN
RRRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGP
LAEVRDLPGSAPAKEDGFSWLLPPPPPPPLPFQTSQDAPPNLTASLFTHSEVQVLGDPF
PVVNPSYTSSFVLTCPEVSAFAGAQRTSGSDQPSDPLNSPSLLAL
>Proteína X2
5
MFQAFPGDYDSGSRCSSSPSAESQYLSSVDSFGSPPTAAASQECAGLGEMPGSFVPTV
TAITTSQDLQWLVQPTLISSMAQSQGQPLASQPPAVDPYDMPGTSYSTPGLSAYSTGGA
SGSGGPSTSTTTSGPVSARPARARPRRPREETLTPEEEEKRRVRRERNKLAAAKCRNR
RRELTDRLQAETDQLEEEKAELESEIAELQKEKERLEFVLVAHKPGCKIPYEEGPGPGPL
AEVRDLPGSTSAKEDGFGWLLPPPPPPPLPFQSSRDAPPNLTASLFTHSEVQVLGDPFP
VVSPSYTSSFVLTCPEVSAFAGAQRTSGSEQPSDPLNSPSLLAL
Segunda parte: Búsqueda de proteínas homólogas
Buscaremos proteínas homólogas utilizando sistemas basados en similitud de secuencia,
empleando el programa BLAST (en el E.M.B.L.) on-line: http://dove.emblheidelberg.de/Blast2/
La secuencia problema es:
>prot0
MASVRKAFPRRLVGLTSLRAVSTSSMGTLPKQVKIVEVGPRDGLQNEKSIVPTPVKIRLI
DMLSEAGLPVIEATSFVSPNWVPQMADHSDVLKGIQKFPGINYPVLTPNMKGFEEAVAA
GAKEVSVFGAVSELFTRKNANCSIEESFQRFAGVMQAAQAASISVRGYVSCALGCPYEG
KVSPAKVAEVAKKLYSMGCYEISLGDTIGVGTPGLMKDMLTAVMHEVPVTALGVHCHDTI
GQALANTLVALQMGVSVVDSSVAGLGGCPYAKGASGNLATEDLVYMLNGLGIHTGVNL
QKLLEAGDFICQALNRKTSSKVAQATCKL
1. Copia la secuencia anterior en la ventana central.
2. Elegir el programa "blastp" y la base de datos "nrdb" (las diferentes opciones
disponibles se pueden consultar en los enlaces contiguos).
3. Seleccionar la matriz BLOSUM62 y enviar el trabajo.
4. ¿De qué proteína se trata?
5. ¿Cuál es la función de las proteínas homólogas a ella?
6. ¿Qué significa el gráfico de líneas que acompaña a los resultados?
7. Una vez obtenido el resultado, bájate a tu ordenador las primeras 6 secuencias
(selecciónalas de la lista) y guárdalas en formato de texto.
Tercera parte: Generación de un alineamiento múltiple
Una cantidad notable de información puede obtenerse a partir del alineamiento múltiple
de los miembros de una familia de proteínas. Se utilizará nuevamente el servidor
"ClustalW"
del
European
Bioinformatics
Institute.
1.
2.
3.
4.
5.
6.
Copiar las secuencias del paso anterior en la ventana central.
Realizar el alineamiento como se indicó en la primera parte
Enviar el trabajo y analizar los resultados.
¿Qué se puede comentar de la familia de proteínas?
¿Hay algún parecido entre este resultado y el gráfico de líneas anterior?
¿Se pueden localizar residuos conservados?
4. CUESTIONARIO
1. Responder a cada una de las preguntas planteadas en las 3 partes de la práctica.
2. ¿Cómo influyen los “gaps” en la significancia estadística de los alineamientos?
6
3. ¿Qué precauciones se deben tomar durante un alineamiento frente a la existencia de
posibles secuencias repetitivas o regiones de baja complejidad (low-complexity
regions)?
4. Un concepto de similitud y homología puede extenderse al ADN. ¿Es posible
encontrar secuencias de ADN con una alta similitud (~66%), pero que no sean
homólogas (que no correspondan a la misma proteína)?
Referencias bibliográficas
1. Attwood T.K. & Parry-Smith D.J. (1999) Introduction to Bioinformatics. Addison
Wesley Longman. England.
2. Baxewanis A.D. & Ouellette B.F.F. (1998) Bioinformatics: A Practical Guide to the
Analysis of Genes and Proteins. John Wiley & Sons. USA.
3. Thompson J.D., Higgins D.G. & Gibson T.J. (1994) CLUSTAL W: improving the
sensitivity of progressive multiple sequence alignment through sequence weighting,
position-specific gap penalties and weight matrix choice. Nucleic Acids Research
22:4673-4680.
4. Altschul SF et al. (1990) Basic local alignment search tool. J Mol Biol 215:403-10.
5. NCBI website www.ncbi.nlm.nih.gov
7
Descargar