Introducción a la bioinformática

Anuncio
Introducción a la bioinformática
Alineamiento de proteı́nas
Pregunta 1: Obtener secuencias usando BLAST
La triosa fosfato isomerasa (TIM) es una enzima que funciona en la glicólisis. Se
dice que es una enzima catalı́ticamente perfecta. Para este ejercicio empezará con
la secuencia de la TIM de conejo y buscará proteı́nas emparentadas en las bases de
datos en lı́nea. Esta es la secuencias de la TIM de músculo de conejo en formato
FASTA:
>gi|136066|sp|P00939|TPIS_RABIT Triosephosphate isomerase (TIM) (Triosephosphate isomerase)
APSRKFFVGGNWKMNGRKKKNLGELITTLNAAKVPADTEV
VCAPPTAYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPG
MIKDCGATWVVLGHSERRHVFGESDELIGQKVAHALSEGLG
VIACIGEKLDEREAGITEKVVFEQTKVIADNVKDWSKVVLAYE
PVWAIGTGKTATPQQAQEVHEKLRGWLKSNVSDAVAQSTRII
YGGSVTGATCKELASQPDVDGFLVGGASLKPEFVDIINAKQ
1. Vaya a http://www.ncbi.nlm.nih.gov/BLAST y siga los vı́nculos al BLAST
de proteı́na contra proteı́na (blastp) Ejecute una búsqueda BLAST copiando y
pegando la secuencia de la TIM en el campo de captura de texto (“SEARCH”).
Encuentre un homólogo humano de la TIM de músculo de conejo. Hay varios
registros que se refieren a proteı́nas humanas. Primero hay dos que provienen
de bases de datos de estructuras tridimensionales (“Chain A, Human Triosephosphate Isomerase Of New Crystal FormSequence ID: pdb|1WYI|A” y “Chain
A, Crystal Structure Of Recombinant Human Triosephosphate Isomerase At 2.8
Angstroms Resolution. Triosephosphate Isomerase Related Human Genetic Disorders And Comparison With The Trypanosomal Enzyme Sequence ID: pdb|1HTI|A”)
pero el tercer registro relacionado con humanos es “triosephosphate isomerase
isoform 1 [Homo sapiens] Sequence ID: ref NP 000356.1”
1
y es una liga a otra base de datos en donde esta proteı́na se describe con mayor
detalle (los registros en NCBI que empiezan con XP llevan a registros de la base
de datos “PROTEIN”). Hay una columna que indica el score (497) seguida de
otra que indica el valor “e.o valor de expectancia (8e-176). En bioinformática y
evolución molecular se dice que dos proteı́nas son homólogas si surgieron de un
ancestro común. Una “regla de dedo”(que no siempre es estrictamente cierta)
es que, además, dos proteı́nas son ortólogas si surgieron de un ancestro común
y llevan a cabo la misma función en dos especies diferentes. ¿La NP 000356.1 es
un ortólogo humano de la TIM de músculo de conejo? ¿Cuál es el porcentaje de
identidad de ambas enzimas? Encuentre otro homólogo humano de la enzima
de músculo de conejo. Pulse la liga que está subrayaada y marcada en azul para
ver su ficha en la base de datos Protein. Selecciones FASTA como formato de
despliegue y pulse el botón “Display”. Copie el texto FASTA y guárdelo en
un archivo de texto (si está usando un procesador de palabras como word o
Write de OpenOffice asegúrese de guradar en formato de “sólo texto”). Guarde
el archivo para más tarde (se sugiere usar un nombre como TIM-FASTA.txt o
algo similar).
2. En lugar de tener que leer toda la salida de BLAST para encontrar los homólogos de la TIM provenientes de, por ejemplo, plantas, bacterias y arqueas, pueden usarse opciones de BLAST para restringir la búsqueda. Regrese a la página
de BLAST de proteı́na-proteı́na y pegue la secuencia de conejo en el campo de
captura de texto SEARCH. Esta vez busque la opción de seleccionar Archaea
como taxón para realizar la búsqueda y lance la búsqueda BLAST. Seleccione
una de las secuencias obtenidas y guárdela en formato FASTA. Repita este
proceso para obtener una TIM de viridiplantae y una de bacteria. Combina las
cinco secuencias en formato FASTA (conejo, humano, arquea, planta y bacteria)
en un sólo archivo de sólo texto (por ejemplo, con el nombre TIM5Fasta.txt).
Siga las reglas del formato Fasta indicadas en el apéndice.
Pregunta 2: Búsqueda iterada de proteı́nas
En esta pregunta, usted realizará una búsqueda iterada de BLAST de proteı́nas,
usando los resultados de cada iteración para formar la nueva secuencia de búsqueda.
1. Corra la siguiente secuencia utilizando PSI-BLAST: http://www.ncbi.nlm.
nih.gov/blast/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome
>WHOAMI
2
STKKKPLTQEQLEDARRLKAIYEKKKNELGLSQESVADKMGMGQSGVG
ALFNGINVLQAYNAALLAKILKVSVEEFSPSIAREIYEMYEAVSMQPSLRS
EYEYPVFSHVQAGMFSPELRTFTKGDAERWVSTTKKASDSAFWLEVEG
NSMTAPTGSKPSFPDGMLILVDPEQAVEPGDFCIARLGGDEFTFKKLIRD
SGQVFLQPLNPQYPMIPCNESCSVVGKVIASQWPEETFG
2. ¿Qué tan larga es la secuencia problema? ¿Qué tan larga(s) es(son) las secuencias más parecidas? ¿Cuántas posiciones concuerdan en el alineamiento?
3. Encuentre las posiciones donde la secuencia porblema es diferente del mejor
resultado. ¿Qué puede usted decir (en resumen) sobre los aminoácidos que
cada secuencia tiene en esas posiciones?. Usted puede encontrar aquı́ una
tabla de códigos de aminoácidos: http://www.expasy.ch/sprot/userman.
html#Appendix_B. Puede consultar esta guı́a de la estructura quı́mica y las caracterı́sticas de los aminoácidos: http://www.escience.ws/b572/L9/L9.htm.
4. Ahora realice la iteración 2 del PSI-BLAST.
5. Encuentre la primera secuencia que aparece ahora en los resultados de esta
iteración y anote su número de referencia.
6. Lleve a cabo más iteraciones de PSI-BLAST, y observe el número de resultados
que arroja cada una de ellas y los valores de E. ¿El número de resultados
aumenta o disminuye mientras al aumentar el número de iteraciones? ¿Qué pasa
con los valores de E? ¿Por qué piensa que sucede esto?
7. ¿Después de cuántas iteraciones ya ni aparecieran más resultados nuevos?
8. Digamos que una base de datos contiene muchas secuencias, incluyendo las
secuencias “A” y “B”. Cuando realizamos una búsqueda de BLAST con la
secuencia A contra la base de datos, el mejor resultado es la secuencia B, con
un puntaje de 500 y un valor de E 2e-100. Ahora realizamos una búsqueda
de BLAST con la secuencia B contra la base de datos. ¿Qué podemos predecir
sobre el puntaje, el valor de E, y la posición de la secuencia A en los resultados?
9. Digamos una base de datos contiene muchas secuencias. Cuando realizamos una
búsqueda de la BLAST con la secuencia X contra la base de datos, el mejor
resultado es la secuencia Y, con un puntaje de 300 y un valor E de 2e-60. Un año
más tarde, volvemos a la base de datos, que por supuesto ha crecido mientras
tanto. Ahora realizamos una búsqueda de BLAST con la misma secuencia X
que antes. ¿Qué podemos predecir sobre el puntaje, el valor de E y la posición
de la secuencia Y en los resultados?
3
Pregunta 3: Comparaciones entre nucleótidos y proteı́nas
En esta pregunta, llevaremos a cabo diversas comparaciones entre las secuencias
de proteı́na y secuencias de nucleótido.
1. En dos ventanas del navegador, vaya a la base de datos de SWISS-PROT:
http://www.expasy.ch/sprot/
2. Realice una búsqueda para RL1 SERMA en una ventana y RL1 HALCU en la
otra.
3. Basado puramente en la sección de comentarios en las páginas resultantes,
¿qué tipo de semejanzas usted esperarı́a ver entre las proteı́nas?
4. Copie las dos secuencias de proteı́nas en formato FASTA en un procesador de
textos.
5. Utilizando las ligas que se encuentran en la sección de referencias cruzadas vaya
a la entrada de GenBank para cada proteı́na
6. Copie las secuencias de ambos genes en formato FASTA.
7. Al comparar una secuencia de nucleótidos contra una secuencia de proteı́na,
¿se transforma la secuencia de nucleótidos en aminoácidos alrevés? ¿Por qué?
8. Vaya en a la página de la BLAST pareado: http://blast.ncbi.nlm.nih.gov/
Blast.cgi
9. Ahora vamos a realizar 5 comparaciones pareadas. En cada caso, compararemos
una secuencia relacionada con RL1 HALCU y una relacionada con RL1 SERMA.
Las cinco búsquedas son:
A. La secuencia de nucleótidos de RL1 HALCU contra la secuencia de nucleótidos de RL1 SERMA.
B. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de la
proteı́na para RL1 SERMA.
C. La secuencia de nucleótidos traducida para RL1 HALCU contra la secuencia
de la proteı́na para RL1 SERMA.
D. La secuencia de la proteı́na para RL1 HALCU contra la secuencia de nucleótido traducida para RL1 SERMA.
4
E. La secuencia de nucleótido traducida para RL1 HALCU contra la secuencia
de nucleótido traducida para RL1 SERMA.
Imprima los resultados para cada una de estas cinco comparaciones, etiquetándolas A a E como arriba.
Usted puede encontrar una descripción de todos los tipos diferentes de la
BLAST aquı́: http://www.ncbi.nlm.nih.gov/blast/html/BLASThomehelp.
html#BLAST2SEQ
10. ¿Si la comparación B tomó 0.1 segundos y toma 0.01 segundos para traducir
una secuencia de nucleótidos a una de sus secuencias posibles de proteı́na,
aproximadamente cuanto tiempo esperarı́a que tomara la comparación C? ¿Y
la comparación E?
11. ¿Qué comparación, A o B, dio un mejor resultado? ¿por qué?
12. ¿Qué comparación, B o E, tiene un valor más significativo de E? ¿Puede usted
sugerir por qué?
13. ¿Qué comparación, C o D, tiene un valor más significativo de E? Sugiera una
razón por la que esto es ası́.
14. ¿Qué comparación, B o C, tenı́a un valor más significativo de E? ¿Cómo se
comparan sus puntajes? ¿Puede usted explicar esto?
15. ¿Cuándo se alinea una secuencia de proteı́na contra una secuencia de nucleótidos, cuál es la diferencia (si es que la hay) entre usar BLASTX o usar
TBLASTN?
Pregunta 4: Matrices de Comparación de Proteı́nas
En esta pregunta, utilizaremos diferentes matrices de comparación de aminoácidos.
1. En 2 ventanas separadas, vaya a la página del NCBI y realice una búsqueda
de Proteı́na para rta rat en una ventana y el lshr rat en la otra.
2. Extraiga las dos secuencias en formato de FASTA.
3. Vaya a la página de comparación pareada : http://www.expasy.ch/tools/
sim-prot.html
5
4. Seleccione “User-entered sequence” en ambos lugares y copie sus secuencias sin
la lı́nea de descripción. Fije el número de alineamientos que se realizarán a 1.
5. Realice los alineamientos usando BLOSUM30, BLOSUM62 y BLOSUM100,
anote el puntaje de cada uno.
6. Realice los alineamientos usando PAM120, PAM250 y PAM400, anote el puntaje de cada uno.
7. ¿Qué matrices dieron los mejores alineamientos?
8. ¿Usted piensa que estas secuencias de la tienen una relación cercana, distante,
o no tienen relación entre sı́? ¿Por qué?
Para contestar a esto, usted puede utilizar la liga “PRSS” en algunos de sus
resultados. Esto le llevará a otro informe que incluye información que puede
ser convertida fácilmente en un valor de E.
Traiga por favor su listado y respuestas a la conferencia siguiente. Si hay algunos
problemas, envı́e por correo electrónico por favor Gideon en el gdg@ cs.technion.ac.il.
6
Descargar