POST GENOMICA INGENIERIA GENETICA 2015 Jorge Muschietti INGEBI DBBE-FCEN-UBA Proyectos genomas finalizados www.tigr.org Proyectos genomas finalizados www.tigr.org Proyectos genomas finalizados www.tigr.org !! TOTAL!NUMBER!OF! SPECIES! (ESTIMATED)! NUMBER!OF!SPECIES! IDENTIFIED/! DESCRIBED! (APPROXIMATE)! NUMBER!OF!SPECIES! WITH!COMPLETE! GENOMES!SEQUENCES*! (ESTIMATED)! BACTERIA,!ARCHAEA! 100,000!to!10!million!! 12,000!(460!cultured! Archaea)! 17,420!bacteria,!362! Archaea!genomes!! FUNGI! 1.5!million! 100,000! 356! INSECTS! 10!million! 1!million! 98! PLANTS! 435,000!(land!plants!and! green!algae)! 300,000! 150! TERRESTRIAL! VERTEBRATES,!FISH!! 80,500!(5,500! mammalian)!! 62,345!(5,487! mammalian)! 235!(80!mammalian)! MARINE! INVERTEBRATES!! 6.5!million! 1.3!million! 60! OTHER! INVERTEBRATES! 1!million!nematode,! several! thousandDrosophila! 23,000!nematode,! 1,300!Drosophila! 17!nematode,! 21!Drosophila! ! http://www.the-scientist.com/?articles.view/articleNo/39742/title/Sequencing-the-Tree-of-Life/ Approaches post-genómicos Microarrays Hibridación Detección 3' Gene Expression Analysis Arrays * * * * * * * * * * * * * * * * * Rhesus Macaque Genome Array Rice Genome Array Soybean Genome Array Sugar Cane Genome Array Tomato Genome Array Vitis vinifera (Grape) Genome Array Wheat Genome Array Xenopus tropicalis Genome Array Xenopus laevis Genome Arrays o Xenopus laevis Genome Array o Xenopus laevis Genome 2.0 Array * Yeast Genome 2.0 Array * Zebrafish Genome Array * * * * * * * Arabidopsis ATH1 Genome Array Bovine Genome Array Canine Genome 2.0 Array Chicken Genome Array Citrus Genome Array Cotton Genome Array Drosophila Genome Arrays o Drosophila Genome 2.0 Array o Drosophila Genome Array Human Genome Arrays o HT HG-U133+ PM Array Plate o HT Human Genome U133 Array Plate Set o Human Genome U133 Plus 2.0 Array o Human Genome U133 Set Maize Genome Array Medicago Genome Array Mouse Genome Arrays o HT MG-430 PM Array Plate o HT Mouse Genome 430 Array Plate Set o Mouse Expression Set 430 o Mouse Genome 430 2.0 Array Plasmodium/Anopheles Genome Array Poplar Genome Array Porcine Genome Array Rat Genome Arrays o HT Rat Focus Array Plate o HT RG-230 PM Array Plate o Rat Expression Set 230 Luego de medir la emisión de los dos colorantes, se normalizan los valores de las dos condiciones y suponiendo que la señal es proporcional a la cantidad de mRNA, se obtiene la relación Cy3/Cy5. Si la relación es >1 se dice que ese gen esta siendo inducido y si es <1 reprimido. Diseño experimental Saber como se analizarán los datos es parte del diseño experimental Tamaño y complejidad del experimento determinan como será el análisis. Variabilidad biológica y técnica Fuentes de variabilidad Preparación de la muestra (RNA) Kerr, M. K., and Churchill, G. A. (2001). Experimental design for gene expression design for gene expression microarrays. Bioestatistics 2, 183-201 Microarrays de exones Se basa en las anotaciones previas de los proyectos genomas y solo cubre un set particular de regiones del genoma. No cubre: • Todos los exones • Intrones • Regiones intergénicas Whole-Genome Tiling Array Tiling arrays Ventajas de tiling array • La sensibilidad obtenida por medio de los “tiling arrays” permite detectar transcriptos de muy baja expresión. • Permite analizar de una vez numerosas muestras y secuencias. • El diseño experimental de la secuencia de los oligos a ser incluidos en el chip no depende de las anotaciones previas de los proyectos genoma. Tiling de una región intergénica del chr 20 que no contenía ESTs o genes anotados Diferencias entre “tiling arrays” y “whole genome expression arrays” Ejemplo de un nuevo transcripto, no anotado previamente, en un región intergénica. Gen anotado en la cadena incorrecta Descubrimiento de un nuevo exón para un gen previamente anotado ? ChIP-chip La combinación de la inmunoprecipitación de cromatina (ChIP) con los microarreglos (chip) permite crear mapas de las interacciones (con resolución de alrededor 1 Kb) in vivo entre el DNA y sus proteínas asociadas al conocer con precisión los elementos del chip. Feb2004, Affymetrix Usan ChIP-chip sobre tiling arrays de los cromosomas 21 y 22, utlizando 3 factores de transcripción: cMyc, Sp1 y p53, encontrando 353, 756 y 48 TFBS (transcription factors binding sites) Analizando cada una de las regiones de binding, solo el 22% corresponde a regiones 5’ de los genes. Las zonas 3’ podrían corresponder a enhancers/silencers de genes mas alejados y hay una alta correlación con non-coding RNAs. Encontraron frente a un estímulo la misma regulación entre los coding “C” y los noncoding “NC” RNAs. El genoma tendría cantidades comparables de C y NC RNAs a los cuales se les pega el mismo TF frente al mismo estímulo. Sugiere una completa revisión de como estos nuevos sitios podrían estar regulando la maquinaria transcripcional. ChIP-Seq ChIP-Seq Usan la técnica de chip-seq para construir un mapa de interacción del TF NRSF (neuronrestrictive silencer factor) con el DNA. Es un inhibidor transcripcional. Luego de obtener el DNA, obtuvieron 5 millones de secuencias. Mapearon estas regiones en el genoma e identificaron clusters. Siguieron dos criterios: por lo menos 13 seq independientes y un enriquecimiento mayor a 5 c/r al control. El cluster mas grande tenía 6718 lecturas. Aca se muestra la unión de NRSF a un gen NeuroD1 que es negativamente regulado por NRSF. Hasta ahora no habían podido encontrar un sitio de binding ni aún restreando por métodos computacionales hasta 100 kb en el promotor. Encuentran un sitio dentro del gen de NeuroD1 Ventajas y desventajas de ChIP-chip vs ChIP-seq • Con chip-seq se analiza todo el genoma no solo los DNAs que estan en el array. No sería una ventaja frente a tiling arrays. • No implica hibridaciones. • Mas barato q tiling arrays. • N o se necesita que el array esté disponible comercialmente para poder llevar a cabo el experimento. RNA-seq • Descubrir nuevos transcriptos aún los mas homólogos. • Encontrar mutaciones. • Identificar nuevas splice junctions y sus variantes • Cuantificar alelos muy poco abundantes y de expresión específica. • Encontrar ncRNAS. RNA-seq Uan RNA-seq de una sola célula. Detectaron la expresión de 5.270 mas genes que el chip. Identificaron 1752 splice junctions desconocidas. Approaches post-genómicos Proteómica • Fin: no es solo identificar todas las proteínas celulares sino hacer un mapa 3D de la célula. • Proteoma es dinámico (diferencia con el genoma). Refleja el momento en el que se lo estudia. • De un genoma hay infinitos proteomas. • Anotación del genoma: Estudiar la expresión y número de genes. Difícil de predecir. Splicing alternativo. • Estudios de expresión: RNA arrays no son veraces c/r al patrón proteico de expresión. One gene-one protein. • Función de proteínas: Alto % de “unknown function proteins”. • Modificaciones post-traduccionales: Fosforilación y glicosilación. Phosphoproteomics. Glycoproteomics. • Localización intracelular: Mapa 3D de la célula • Interacción proteína-proteína: Armar mapa de interacciones entre proteínas. Mapas funcionales. Dos híbridos Two hybrid arrays No sirve para complejos pero permite hacer mapas dentro de complejos. Ventajas: Diferencia positivos reales de artefactos. Se tiene una representación perfecta del 100% de ORF (dif. con library). Imparcial. Desventajas: Plegamiento, diferente microentorno celular, no ve complejos. Origen e identificación de falsos positivos debidos a mutaciones al azar en Y2H y en Y2H-arrays Y2H Y2H-Arrays -L Nature FEB2000 • 6000 ORF-AD + 192 ORF-BD • YTH convencional: • Pooled 6000 ORF-AD + 6000 ORF-BD en placas -L,W,H Mapa de nuevas interacciones LSM2,4 y 8 (prots de splicing) usadas como sonda. YTH arrays, YTH library screening • Compilaron interacciones (YTH y CO-IP) en levaduras en una base de datos (pej del paper anterior). • Analizaron 2709 interacciones publicadas de solo 2039 proteínas (554 sin función; 6000 total). Las ponen en un soft y les sale una sola network de 1548 proteínas con 2358 “links” y otras mas chicas. • Se testeó la funcion predicha (basada en sus interacciones en la red) con proteínas caracterizadas anteriormente: 72% de predicción correcta de 1393 proteínas caracterizadas con por lo menos UN partner caracterizado. • Asignar función a proteínas desconocidas. http://depts.washington.edu/sfields/project_overview.html Mapa de interacciones con 1548 proteínas de levaduras Close-up del mapa de interacciones. Metabolismo lípidos, citoquinesis, cell structure, estructúra cromatina fusión de membranas. Figure 2: Interactions between functional groups.Numbers in parentheses indicate, first, the number of interactions within a group, and second, the number of proteins in a group. Numbers near connecting lines indicate the number of interactions between proteins of the two connected groups. For example, there are 77 interactions between the 21 proteins involved in membrane fusion and the 141 proteins involved in vesicular transport (upper left corner); 23 protein interactions connect the 21 proteins involved in membrane fusion. Only connections with 15 or more interactions are included here. Note that only proteins with known function are shown (many of these have several functions). The sum of all interactions in this diagram is therefore smaller than the number of all interactions. Interacción entre proteínas de diferentes compartimentos celulares Predicción de función por interacciones proteína- proteína. Global views of the proteininteraction map Subcellular localization view. This view shows the fly interaction map with each protein colored by its Gene Ontology Cellular Component annotation. This map has been filtered by only showing proteins with less than or equal to 20 interactions and with at least one Gene Ontology annotation (not necessarily a cellular component annotation). We show proteins for all interactions with a confidence score of 0.5 or higher. This results in a map with 2346 proteins and 2268 interactions STRING, un base de datos de interacciones proteína-proteína http://string-db.org A red line indicates the presence of fusion evidence; a green line – neighborhood evidence; a blue line - coocurrence evidence; a purple line - experimental evidence; a yellow line – textmining evidence; a light blue line - database evidence; a black line - coexpression evidence