Lab7-Desarrollo_Bioinformatica

Anuncio
Biol. 3030 – Biología del Desarrollo
Ejercicio 7 – Bioinformática y Secuenciación
Bioinformática
Bioinformactica es un nuevo campo de la biotecnología que se ocupa
en el almacenamiento y la manipulación de secuencias de información
de DNA de las cuales se puede obtener información biológica útil.
Casi rutinariamente, datos del análisis de secuencias de DNA son
sometidos a una base de datos usando la internet (WWW) para
identificar genes o productos de genes.
Secuenciación
Para el análisis de una secuencia se realizan cuatro reacciones
enzimáticas por separado, una por cada nucleótido. Cada reacción
contiene la DNA polimerasa, el templado de cadena sencilla que se
quiere secuenciar, un iniciador (primer) que se le unirá, los cuatro
nucleótidos trifosfatados, y alguno de os deoxinucleotidos marcado
radioactivamente como [32]P-ATP y el amortiguador apropiado. Las
reacciones
contienen
los
dideoxitrifosfatados como sigue:
la de G contiene dideoxiGTP, la de
C dideoxiCTP, la de A dideoxiATP y
la
de
G
dideoxiGTP.
Las
concentraciones
de
estos
son
ajustadas
para
que
sean
incorporadas a la cadena creciente
al azar y con baja frecuencia.
Una vez el dideoxi es incorporado,
la Síntesis de DNA se detiene
porque esta base esta modificada
de manera que no tiene el 3’OH
necesario para la
adición del
próximo nucleótido a la azúcar. La
incorporación
de
este
dideoxinucloeotido
facilita
la
generación de fragmentos dentro de
fragmentos
y asi determinar la
ubicación de los nucleótidos en el Figura 1. Ejemplo de reacción dideoxyGTP con
DNA.
Una
reacción
contendrá fragmentos generados
millones de cadenas crecientes y
por lo tanto grupos de fragmentos dentro de fragmentos. Cada
fragmento terminado en una posición distinta correspondiente al la
incorporación al azar del dideoxiNTP.
Como un ejemplo de estos fragmentos dentro de fragmentos producidos
por una reacción hipotética de G de un pedazo de DNA contiene:
- dATP, dTTP, dCTP, dGTP y [32]P-ddGTP
- DNA pol y amortiguador
1
- Templado de DNA,
La
reacción
generara
fragmentos
todos
terminados
en
ddGTP
radioactivo de distintos tamaños, (Figura 1) unos dentro de otros
que son complementarios a la secuencia que usted quiere secuenciar.
Fragmentos similares se obtendrán para cada ddNTP en sus respectivas
reacciones.
Es obvio que juntos todos los fragmentos generados por las
reacciones dideoxi G, A, T , C agrupados contendrán fragmentos de
todos los tamaños sucesivos de todos los nucleótidos para la
secuencia de la figura 2
Figura 2 –
Representación
grafica de una
autoradiografía
electroforesis
separando los
fragmentos
generados. La
figura muestra
la reacción G
que contiene
los fragmentos
de 21, 23, 25,
29,
31nucleotidos
de longitud.
Diez y siete
de ellos son parte del primer y el resto son añadidos durante la
síntesis de novo.
Los productos de las reacciones G, A, T, y C son separados en una
gel de PAGE vertical. En el carril 1 esta la reacción G y en el 2 la
de A y así sucesivamente. Es importante notar que la cadena siendo
secuenciada tendrá las bases opuestas a las que se leen. Por ejemplo
la reacción G en el tubo identificara las C en el templado siendo
secuenciado. Luego de la electroforesis se realiza una
autoradiografia colocando la gel sobre una película de rayos X. Como
los fragmentos emiten radioactividad su posición se podrá detectar
como bandas oscuras en la película. Además de isotopos de fosforo
también se pueden usar métodos no isotópicos sino fluorescentes y
secuenciadores automatizados que ya reemplazan los isotópicos.
Una gel tendrá varios grupos de reacciones de secuenciación GATC. En
la figura 2 las bandas oscuras representan las bandas producidas por
la radioactividad emitida por cada fragmento que donde termina la
síntesis con la base dideoxi correspondiente. La secuencia deducida
2
del autoradiograma es la complementaria al DNA usado como templado.
Este método de secuenciación se conoce como Sanger.
Los datos de la secuenciación de DNA tiene usos limitado a menos que
se pueda convertir en información biológica útil. Bioinformática es
el componente critico de la secuenciación porque se involucra en
unir la tecnología computacional con la biotecnología. El uso
diseminado del internet ha hecho posible la adquisición con relativa
facilidad de información de distintos proyectos de genomas. En un
análisis típico, como primer paso, luego de obtener la data de
secuenciación de DNA, el biólogo molecular buscara similaridades de
DNA usando varias bases de datos en el WWW. Esta búsqueda lo
dirigirá a la identificación de DNA secuenciado o a identificar su
relación con genes relacionados.
Las regiones codificantes para
proteínas pueden ser identificadas fácilmente por la composición de
nucleótidos. Asi mismo las regiones no codificantes se pueden
identificar por la interrupción debido a codones de terminación. El
significado funcional de las nuevas secuencias de DNA seguirá en
aumento y será cada vez mas importante según se continúe generando
mas y mas información y generándose mas y mejores motores de
búsqueda.
Ejercicio practico:
Introducción
En este momentos varios grupos de investigación alrededor del mundo
están inmersos en la determinación de la secuencia del genoma
humano. Avances en la secuenciación del DNA y en la bioinformática
hace y hará posible que esta información se pueda usar como una
herramienta de diagnostico clínico. Es de notar que varios genomas
mas pequeños como el de Sacharomyces cerevisiae y Helicobacter
pilori ya están completos.
El propósito de este ejercicio es introducir al estudiante a la
bioinformática. Para que se obtenga experiencia en la búsqueda en
bases de datos, los estudiantes utilizaran servicios gratuitos ya
ofrecidos por el NCBI y que se puede acceder a través del WWW. Al
presente ya hay varios de estos como GenBank, secuencias de
nucleótidos en EMBL, las traducciones de los CDS no redundantes de
GenBank (secuencias de proteínas). Los estudiantes pueden usar
cualquiera de estas bases de datos asi como otras disponibles en el
internet para este ejercicio. Para simplificar se ilustrara el uso
del NCBI. Estos ejercicios involucran el uso de BLASTN para comparar
secuencias de nucleótidos y BLASTP para secuencias de aminoácidos en
las bases de datos.
1. Google  NCBI  National Center for Biotechnology
2. Aparece lo siguiente
- esta es la pagina de entrada del NCBI.
3
3.
Escoges sequence analysis y en la pagina que aparece bajas y
escoges Basic Local Aligment Search Tool (BLAST).
4. Al llegar a la siguiente escoges nucleotide blast. Además de
este hay otras opciones pero son para nosotros lo que nos
interesa es para secuencias de nucleótidos.
5. bajo nucleotide blast, click en el standard nucleotidenucleotide BLAST (blastn). Las otras opciones son mas
complicadas para aplicaciones especificas. Aquí hay tres
secciones:
- enter query sequence
- choose search set
- program selection
4
6. Para comenzar a entrar la secuencia escribe lo siguiente
exactamente: atgcccggccccccaggggggcagaggcgccgc. Puede ser
minúscula o mayúsculas. Una vez escrita la secuencia, click en
el Blast .
7. A veces el servidor esta ocupado y los resultados tardan, solo
hay que tratar de nuevo. A continuación hay un ejemplo de cómo
se pueden esperar los resultados>
5
Al observar el reporte del Blastn nuestra secuencia presenta un
pareo mejor con la proteína efectora CD42 humana. Esta fue la que
obtuvo la mayor puntuación. Revisión de las dos secuencias alineadas
muestra que nuestra secuencia de 32 nucleótidos es idéntica al
segmento de nucleótido de CDC42. Como regla general, una identidad
de nucleótidos de mas de 21 pb entre dos muestras indica usualmente
que las secuencias están relacionadas. Excepción los poli A.
Ejercicio 1:
Para familiarizarse con las autoradiografias lea la secuencia #1.
- comience en la flecha y léala desde abajo por los primeros 20
nucleótidos. Regístrela y sométala al NCBI con blastn.
- Comiéncela de nuevo pero léala hasta cubrir 30 nucleótidos.
Registre, sométala usando blastn.
- La secuencia se puede introducir directamente o leer, pasarla a
un papel y luego al programa.
- Es critico que usted no confunda los carriles mientras lee. La
gel contiene carriles para A, C, G T de izquierda a derecha.
- Leer secuencias implica leer desde 53, esto se consigue de
abajo hacia arriba.
- Note que la mayor parte del espacio entre nucleótidos y la
intensidad de las bandas es básicamente similar. Ignore las
bandas pálidas y escoja las oscuras.
Resultados para muestra 1:
- cuales son los nombres de los genes?
- A cuales especies pertenecen los genes?
Ejercicio 2
Ahora que estas familiarizado con la búsqueda por blast, lea la
secuencia para la autoradiografia 2. Si hay duda en cuales bandas
escoger, use su juicio.
6
Ahora Lea la secuencia, comenzando unos 6 cm mas arriba del
comienzo. Debe leer como sigue
5’…ggacgacggtatggaatagagaggaagttcct..3’
- Someta la secuencia usando blasn
- Recuerde que la secuencia se introduce 53
- El DNA es DS y contiene hebra superior 53 y la inferior 35.
Algunas veces estas corresponden a la hebra codificante y no
codificante.
- Si hay duda de las posiciones exactas con bandas exactas, use
una N que significa que puede ser cualquier nucleótido.
- Una vez se reciba los resultados, baje y busque
- Cual es el nombre del gen?
- Compárela con la secuencia del genbank, cual hebra usted leyó?
Ejercicio 3.
- Las secuencias se pueden acceder buscando en el GenBank por su
numero de acceso.
- La información mostrada describe la secuencia del DNA y o el
gen, los científicos que contribuyeron y cierta información
como la proteína y la secuencia de aminoácido para el cual
codifica.
- Resultados para la muestra 3:
- Cual es el nombre del gen?
- Aproximadamente cuantos aminoácidos tiene este gen?
Ejercicio 4
- Esta sección demuestra la interacción de dos proteínas
codificadas por dos genes. Las interacciones proteína a
proteína juegan un rol importante en virtualmente todos los
procesos celulares.:
- Transducción de señal
Lea la secuencia de DNA de la muestra 4. Comience desde abajo y
registre la secuencia
Luego comience 1/3 de la secuencia mas arriba y lea la secuencia
desde ahí.
Someta cada secuencia por separado usando Blastn
Resultados de la muestra 4:
- esta muestra contiene dos secuencias de DNA, Cuales son los
nombres de los genes?
- Cuales son las funciones de las dos proteínas codificadas?
- Como estas proteínas interactúan en una célula?
Parte II – Secuenciación:
7
Aunque la secuenciación del DNA existe desde los tempranos 1970, no
fue hasta los 90s que el proceso completo fue automatizado. En
particular la automatización por secuenciadores de DNA analiza
rápida y eficientemente reacciones de secuenciación en un
secuenciador de un solo carril donde corren todas las reacciones
dideoxi con fluorocromos fluorescentes. De esta forma se pensaba
secuenciar el genoma humano para el 2002, pero se logro terminar
para el 2006.
El proyecto del genoma human pretendía determinar la localización de
los 80-100000 genes del genoma humano. La combinación de la
secuenciación y la bioinformática crearía una herramienta muy útil
para el diagnostico clínico.
La revolución genética continuara generando nuevos descubrimientos.
Mientras los científicos siguen identificando genes que causan
enfermedades o diferencias fenotípicas hay un peligro creciente de
ver los seres humanos como meramente un conjunto de genes.
Entendiendo lo ético, legal, y social con sus implicaciones en el
conocimiento genético y en el desarrollo de pólizas y opciones para
la consideración publica. Por ejemplo los desordenes psiquiátricos
que se están tratando de caracterizar científicamente como
esquizofrenia, la inteligencia y la conducta criminal en términos de
genes. La ética detrás del monitoreo prenatal para enfermedades en
embriones humanos
Los datos determinados por el lector laser es enviados a la por los
robots es impresa a colores con picos para cada color:
Ejercicio 1:
Ahora que estas familiarizados en la entrada de datos, lea el
análisis de la secuencia del secuenciador automático 1, 2, 3,
(cualquier carril).
Se le proveerán ejemplos de los reportes de un secuenciador
automático. Note los colores de los picos que son verdes, azules,
negros y rojos, cada uno especificando un nucleótido, (A, C, G, y T,
respectivamente). Para la secuencia que se le proveyó:
- lea la secuencia de DNA de uno de las hojas impresas
- Identifique la secuencia de nucleótidos de este análisis de gel
(100-200)
- Escriba aproximadamente 70 bases en la caja de búsqueda usand
blastn de NCBI.
- Usando blastn busque la base de datos NR, identifique el gen
que esta secuencia identifica
- Pueden variar los nombres
- La secuencia es siempre entrada 53
8
- DNA es cadena doble, y pueden ser codificante o no codificante
la cadena que se lee.
Cual es el nombre del gen?
Comparado al genBank, cual es la cadena que usted leyó?
Ejercicio # 2
- Las secuencias se pueden acceder usando el numero de acceso de
GenBank
- La información mostrada describe la secuencia de DNA y el gene,
los científicos e información de la proteína y los aminoácidos
para los cuales codifica
- Intercambien el documento del secuenciador con otro grupo
- Someta la secuencia a un análisis blast.
Referencias:
NCBI – National Center for Biotechnology Information
CSHL – Cold Spring Harbor Laboratory – Animations
9
Descargar