post genomica

Anuncio
POST GENOMICA
INGENIERIA GENETICA 2015
Jorge Muschietti
INGEBI
DBBE-FCEN-UBA
Proyectos genomas finalizados
www.tigr.org
Proyectos genomas finalizados
www.tigr.org
Proyectos genomas finalizados
www.tigr.org
!!
TOTAL!NUMBER!OF!
SPECIES!
(ESTIMATED)!
NUMBER!OF!SPECIES!
IDENTIFIED/!
DESCRIBED!
(APPROXIMATE)!
NUMBER!OF!SPECIES!
WITH!COMPLETE!
GENOMES!SEQUENCES*!
(ESTIMATED)!
BACTERIA,!ARCHAEA!
100,000!to!10!million!!
12,000!(460!cultured!
Archaea)!
17,420!bacteria,!362!
Archaea!genomes!!
FUNGI!
1.5!million!
100,000!
356!
INSECTS!
10!million!
1!million!
98!
PLANTS!
435,000!(land!plants!and!
green!algae)!
300,000!
150!
TERRESTRIAL!
VERTEBRATES,!FISH!!
80,500!(5,500!
mammalian)!!
62,345!(5,487!
mammalian)!
235!(80!mammalian)!
MARINE!
INVERTEBRATES!!
6.5!million!
1.3!million!
60!
OTHER!
INVERTEBRATES!
1!million!nematode,!
several!
thousandDrosophila!
23,000!nematode,!
1,300!Drosophila!
17!nematode,!
21!Drosophila!
!
http://www.the-scientist.com/?articles.view/articleNo/39742/title/Sequencing-the-Tree-of-Life/
Approaches post-genómicos
Microarrays
Hibridación
Detección
3' Gene Expression Analysis Arrays
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Rhesus Macaque Genome Array
Rice Genome Array
Soybean Genome Array
Sugar Cane Genome Array
Tomato Genome Array
Vitis vinifera (Grape) Genome Array
Wheat Genome Array
Xenopus tropicalis Genome Array
Xenopus laevis Genome Arrays
o Xenopus laevis Genome Array
o Xenopus laevis Genome 2.0 Array
* Yeast Genome 2.0 Array
* Zebrafish Genome Array
*
*
*
*
*
*
*
Arabidopsis ATH1 Genome Array
Bovine Genome Array
Canine Genome 2.0 Array
Chicken Genome Array
Citrus Genome Array
Cotton Genome Array
Drosophila Genome Arrays
o Drosophila Genome 2.0 Array
o Drosophila Genome Array
Human Genome Arrays
o HT HG-U133+ PM Array Plate
o HT Human Genome U133 Array Plate Set
o Human Genome U133 Plus 2.0 Array
o Human Genome U133 Set
Maize Genome Array
Medicago Genome Array
Mouse Genome Arrays
o HT MG-430 PM Array Plate
o HT Mouse Genome 430 Array Plate Set
o Mouse Expression Set 430
o Mouse Genome 430 2.0 Array
Plasmodium/Anopheles Genome Array
Poplar Genome Array
Porcine Genome Array
Rat Genome Arrays
o HT Rat Focus Array Plate
o HT RG-230 PM Array Plate
o Rat Expression Set 230
Luego de medir la emisión de los dos colorantes, se normalizan los
valores de las dos condiciones y suponiendo que la señal es proporcional
a la cantidad de mRNA, se obtiene la relación Cy3/Cy5. Si la relación es
>1 se dice que ese gen esta siendo inducido y si es <1 reprimido.
Diseño experimental
Saber como se analizarán los datos es parte del diseño
experimental
Tamaño y complejidad del experimento determinan como
será el análisis.
Variabilidad biológica y técnica
Fuentes de variabilidad
Preparación de la muestra
(RNA)
Kerr, M. K., and Churchill, G. A. (2001). Experimental design for gene expression
design for gene expression microarrays. Bioestatistics 2, 183-201
Microarrays de exones
Se basa en las anotaciones previas de los
proyectos genomas y solo cubre un set particular
de regiones del genoma. No cubre:
• Todos los exones
• Intrones
• Regiones intergénicas
Whole-Genome Tiling Array
Tiling arrays
Ventajas de tiling array
• La sensibilidad obtenida por medio de los “tiling arrays” permite
detectar transcriptos de muy baja expresión.
• Permite analizar de una vez numerosas muestras y secuencias.
• El diseño experimental de la secuencia de los oligos a ser incluidos en
el chip no depende de las anotaciones previas de los proyectos genoma.
Tiling de una región intergénica del chr 20 que no contenía ESTs o
genes anotados
Diferencias entre “tiling arrays” y “whole genome expression
arrays”
Ejemplo de un nuevo transcripto, no
anotado previamente, en un región
intergénica.
Gen anotado en la cadena incorrecta
Descubrimiento de un nuevo exón para un
gen previamente anotado
?
ChIP-chip
La combinación de la
inmunoprecipitación de
cromatina (ChIP) con los
microarreglos (chip) permite
crear mapas de las interacciones
(con resolución de alrededor 1
Kb) in vivo entre el DNA y sus
proteínas asociadas al conocer
con precisión los elementos del
chip.
Feb2004, Affymetrix
Usan ChIP-chip sobre tiling arrays de los cromosomas 21 y 22, utlizando 3
factores de transcripción: cMyc, Sp1 y p53, encontrando 353, 756 y 48 TFBS
(transcription factors binding sites)
Analizando cada una de las regiones de binding, solo el 22% corresponde a
regiones 5’ de los genes. Las zonas 3’ podrían corresponder a enhancers/silencers
de genes mas alejados y hay una alta correlación con non-coding RNAs.
Encontraron frente a un
estímulo la misma regulación
entre los coding “C” y los
noncoding “NC” RNAs.
El genoma tendría cantidades
comparables de C y NC RNAs a
los cuales se les pega el mismo
TF frente al mismo estímulo.
Sugiere una completa revisión
de como estos nuevos sitios
podrían estar regulando la
maquinaria transcripcional.
ChIP-Seq
ChIP-Seq
Usan la técnica de chip-seq para construir un
mapa de interacción del TF NRSF (neuronrestrictive silencer factor) con el DNA. Es un
inhibidor transcripcional.
Luego de obtener el DNA, obtuvieron 5 millones
de secuencias. Mapearon estas regiones en el
genoma e identificaron clusters. Siguieron dos
criterios: por lo menos 13 seq independientes y
un enriquecimiento mayor a 5 c/r al control.
El cluster mas grande tenía 6718 lecturas.
Aca se muestra la unión
de NRSF a un gen
NeuroD1 que es
negativamente regulado
por NRSF.
Hasta ahora no habían
podido encontrar un
sitio de binding ni aún
restreando por métodos
computacionales hasta
100 kb en el promotor.
Encuentran un sitio
dentro del gen de
NeuroD1
Ventajas y desventajas de ChIP-chip vs ChIP-seq
• Con chip-seq se analiza todo el genoma no solo los DNAs
que estan en el array. No sería una ventaja frente a tiling
arrays.
• No implica hibridaciones.
• Mas barato q tiling arrays.
• N o se necesita que el array esté disponible
comercialmente para poder llevar a cabo el experimento.
RNA-seq
• Descubrir nuevos transcriptos aún los mas
homólogos.
• Encontrar mutaciones.
• Identificar nuevas splice junctions y sus
variantes
• Cuantificar alelos muy poco abundantes y de
expresión específica.
• Encontrar ncRNAS.
RNA-seq
Uan RNA-seq de una sola célula.
Detectaron la expresión de
5.270 mas genes que el chip.
Identificaron 1752 splice
junctions desconocidas.
Approaches post-genómicos
Proteómica
• Fin: no es solo identificar todas las proteínas
celulares sino hacer un mapa 3D de la célula.
• Proteoma es dinámico (diferencia con el genoma).
Refleja el momento en el que se lo estudia.
• De un genoma hay infinitos proteomas.
• Anotación del genoma: Estudiar la expresión y número de
genes. Difícil de predecir. Splicing alternativo.
• Estudios de expresión: RNA arrays no son veraces c/r al
patrón proteico de expresión. One gene-one protein.
• Función de proteínas: Alto % de “unknown function
proteins”.
• Modificaciones post-traduccionales: Fosforilación y
glicosilación. Phosphoproteomics. Glycoproteomics.
• Localización intracelular: Mapa 3D de la célula
• Interacción proteína-proteína: Armar mapa de
interacciones entre proteínas. Mapas funcionales.
Dos híbridos
Two hybrid arrays
No sirve para complejos pero permite hacer mapas dentro de complejos.
Ventajas: Diferencia positivos reales de artefactos. Se tiene una
representación perfecta del 100% de ORF (dif. con library). Imparcial.
Desventajas: Plegamiento, diferente microentorno celular, no ve
complejos.
Origen e identificación de falsos positivos debidos
a mutaciones al azar en Y2H y en Y2H-arrays
Y2H
Y2H-Arrays
-L
Nature FEB2000
• 6000 ORF-AD + 192
ORF-BD
• YTH convencional:
• Pooled 6000 ORF-AD +
6000 ORF-BD en placas
-L,W,H
Mapa de nuevas interacciones
LSM2,4 y 8 (prots de splicing) usadas como sonda.
YTH arrays, YTH library screening
• Compilaron interacciones (YTH y CO-IP) en levaduras en una base de
datos (pej del paper anterior).
• Analizaron 2709 interacciones publicadas de solo 2039 proteínas (554
sin función; 6000 total). Las ponen en un soft y les sale una sola
network de 1548 proteínas con 2358 “links” y otras mas chicas.
• Se testeó la funcion predicha (basada en sus interacciones en la red)
con proteínas caracterizadas anteriormente: 72% de predicción
correcta de 1393 proteínas caracterizadas con por lo menos UN partner
caracterizado.
• Asignar función a proteínas desconocidas.
http://depts.washington.edu/sfields/project_overview.html
Mapa de interacciones con 1548 proteínas de levaduras
Close-up del mapa de interacciones.
Metabolismo lípidos, citoquinesis, cell structure, estructúra
cromatina fusión de membranas.
Figure 2: Interactions between functional groups.Numbers in parentheses indicate, first, the number of interactions
within a group, and second, the number of proteins in a group. Numbers near connecting lines indicate the number
of interactions between proteins of the two connected groups. For example, there are 77 interactions between the
21 proteins involved in membrane fusion and the 141 proteins involved in vesicular transport (upper left corner);
23 protein interactions connect the 21 proteins involved in membrane fusion. Only connections with 15 or more
interactions are included here. Note that only proteins with known function are shown (many of these have several
functions). The sum of all interactions in this diagram is therefore smaller than the number of all interactions.
Interacción entre proteínas de diferentes compartimentos celulares
Predicción de función por interacciones proteína- proteína.
Global views of
the proteininteraction map
Subcellular localization view.
This view shows the fly
interaction map with each
protein colored by its Gene
Ontology Cellular Component
annotation. This map has been
filtered by only showing
proteins with less than or
equal to 20 interactions and
with at least one Gene
Ontology annotation (not
necessarily a cellular
component annotation). We
show proteins for all
interactions with a confidence
score of 0.5 or higher. This
results in a map with 2346
proteins and 2268 interactions
STRING, un base de datos de interacciones proteína-proteína
http://string-db.org
A red line indicates the presence of fusion evidence; a green line – neighborhood
evidence; a blue line - coocurrence evidence; a purple line - experimental evidence;
a yellow line – textmining evidence; a light blue line - database evidence; a black
line - coexpression evidence
Descargar