Redes de Interacción de Proteínas David Juan. Grupo de Diseño de Proteínas. CNB-CSIC [email protected] Conjuntos de interacciones detectadas experimentalmente Uetz et al. Nature. 2000 (YEAST) Ito et al. PNAS. 2001 (YEAST) Gavin et al. Nature. 2002 (YEAST) Ho et al. Nature. 2002 (YEAST) Giot et al. Science. 2003 (FLY) Li et al. Science. 2004 (WORM) Butland et al. Nature. 2005 (E. coli) Barrios-Rodiles et al. Science. 2005 (MAMMALIAN) Rual et al. Nature. 2005 (HUMAN) Yeast two-hybrid Yeast two-hybrid & localizaciónn celular Yeast two-hybrid Algunos problemas: -> Falsos negativos: ->Interferencia de los dominios fusionados. ->Interacciones 1 Vs 1, no tiene en cuenta efectos cooperativos. ->Falsos positivos: ->Interacciones mediadas por terceras proteínas. ->Es capaz de obtener interacciones lábiles, pero esto lo hace más vulnerable a uniones inexpecíficas. ->Aunque el ensayo es in vivo, las condiciones no (sobre-expresión, forzado en el núcleo, etc) ->Baja reproducibilidad. Purificación de complejos (TAP-MS y HMS-PCI) Purificación de complejos Se generan redes diferentes de las de y2h Nodos = complejos; Enlaces=comparten elementos Modos de representación binaria de los datos obtenidos de complejos Purificación de complejos Algunos problemas: ->Falsos negativos: ->Interferencia del TAP-cassette en la interacción (~18% de las proteínas no son funcionalmente viables). ->Proteína no expresada en el momento de la lisis (se ha relacionado con la concentración de mRNA). ->Sesgo en contra de proteínas pequeñas (<15K). ->Detecta principalmente interacciones estables (se pierde las lábiles). ->Falsos positivos: ->Proteínas pegajosas. ->Se estima un 70% de complejos reproducibles. ->Interacciones establecidas durante la lisis. Solapamiento de los datos experimentales Complejos gran escala Y2H gran escala Text Mining Experimentos pequeña escala Estrategias combinadas Redes de interacciones predichas Una revisión: Valencia & Pazos.Curr. Op. Struct. Biol. 2002 Principios ➔ Se sabe que proteínas funcionalmente relacionadas tienden a coordinar su evolución. ➔ La interacción es una forma muy fuerte de relación funcional. ➔ Esto implica que la detección de proteínas que hayan evolucionado coordinadamente puede ayudarnos a predecir interacciones Principios ➔ La evolución se estudia a través de la comparación de secuencias homólogas con funciones comparables. ➔ Tanto la evolución génica, como la interacción de proteínas se han de estudiar en el contexto de los organismos. ➔ Las trazas de evolución coordinada se encuentran por la acumulación de señales en un número alto de organismos. ➔ Nos interesa identificar las proteínas que estan históricamente relacionadas (homólogas), y desarrollan la misma función (equivalogas). Buscando evolución coordinada Perfiles filogenéticos ➔ Un perfil filogenético es un vector que define la ausencia/presencia de un representante de un conjunto de equivalogos en cada organismo. ➔ Las proteínas que interaccionan han de estar en los mismos organismos ➔ ➔ La evolución tiende a eliminar proteínas innecesarias Comparar perfiles filogenéticos da una medida muy burda de evolución coordinada. Buscando evolución coordinada Gene neighbourhood ➔ Dos genes se consideran vecinos cuando están próximos en un genoma (menos de 600bp) ➔ Se sabe que en procariotas esta vecindad se usa para para optimizar la coordinación de su expresión. ➔ Además genes próximos pueden ser eliminados y transferidos juntos. ➔ La conservación de esta proximidad a lo largo de diferentes organismos es una señal de evolución coordinada. Dandekar et al. TIBS. 1998. Overbeek et al. PNAS. 1999. Buscando evolución coordinada Gene fusion ➔ Se sabe que se generan secuencias híbridas por fusión de otras más simples. ➔ Esto permite coordinación de desempeñadas proteínas. ➔ una las por mayor funciones ambas Además permite el incremento de la complejidad de los organismos por combinación y especialización de dominios (eucariotas). Marcotte et al. Science 1999 Marcotte et al. Nature 1999 Enright et al. Nature 1999. Buscando evolución coordinada Métodos basados en secuencia Hay otro nivel de coevolución posible: coevolución de secuencias. ➔ Este nivel supone paralelismos históricos que deberían ser ➔ detectables comparando la evolución de las secuencias de diferentes conjuntos de equivalogos. ➔ Para ello, construímos alineamientos múltiples de secuencias de estos conjuntos. ➔ Después hacemos pares de alineamientos comparables extrayendo aquellas secuencias de los mismos organismos para ambos conjuntos. Buscando evolución coordinada MirrorTree Las proteínas que interaccionan comparten un conjunto de ➔ restricciones evolutivas comunes. Este método intenta detectar la coevolución al nivel de secuencias ➔ comparando una simplificación de los árboles evolutivos de pares de alineamientos. ➔ Se construye una matriz de distancias para cada alineamiento ➔ Se calcula la correlación de ambas matrices. Pazos & Valencia. Proteins. 2002 Buscando evolución coordinada In silico two-hybrid ➔ Para un número de casos se ha mostrado la existencia de patrones de substituciones correlacionados entre diferentes posiciones de una secuencia (relacionado con proximidad espacial). ➔ Se cree que esto se debe a la coevolución de estas posiciones (mutaciones recíprocas). ➔ Siguiendo esta lógica, buscamos estos comportamientos, no intra-proteína, sino inter-proteína en pares de alineamientos comparables. ➔ Una ventaja de este método es que permite la identificación de los resíduos responsables de este comportamiento (¿sitios de unión?) Pazos & Valencia. Prot Eng. 2002 Métodos de predicción de interacciones Métodos de predicción de interacciones Métodos de predicción de interacciones Test data sets KEGG Prediction Methods IH MT PP GN Combination of methods GF Any EcoCyc ABSTRACT SENTENCE HP DIP D+K+E+S+H 0.23 0.25 0.08 0.05 0.04 0.26 0.11 98/430 32/128 69/873 41/750 2/51 10/38 111/1044 0.23 0.19 0.08 0.06 0.02 0.18 0.11 89/384 33/175 67/861 45/763 1/43 7/39 108/969 0.36 0.84 0.09 0.05 0.01 0.1 0.16 175/481 61/73 101/1169 51/1108 2/252 5/48 212/1329 0.78 0.77 0.6 0.5 0.12 0.61 0.63 509/652 258/334 634/1083 468/939 7/59 57/93 774/1233 0.86 0.33 0.24 0.14 0.33 0.39 0.74 533/623 68/209 127/521 65/461 2/6 9/23 551/740 0.53 0.47 0.21 0.15 0.03 0.31 0.31 1253/2371 381/816 880/4260 562/3798 12/393 66/214 1579/5044 0.71 0.65 0.49 0.44 0.13 0.76 0.61 Any­2 119/167 60/92 105/216 86/194 2/16 16/21 143/236 1 1 0.86 0.77 0 1 0.97 Any­3 29/29 10/10 24/28 20/26 0/2 5/5 31/32 1 1 1 0.67 ­­ 1 1 Any­4 3/3 1/1 3/3 2/3 0/0 1/1 3/3 Algunos problemas generales de los métodos de predicción -> Falsos negativos: -> Se requiere una señal clara a lo largo de varios organimos. -> Si la detección de proteínas equiválogas falla, no se encuentra la señal. -> Falsos positivos: -> Las relaciones filogenéticas entre los organismos, suponen sesgos que pueden producir señales erróneas. -> La evolución coordinada puede tener problemas para distinguir entre interacción física y asociación funcional. -> La evolución coordinada sufre de cierta transitividad (si a-b y b-c entonces a-c). -> El nivel de especificidad depende de la similitud entre las secuencias (distancias globales). EciD (E. coli interaction Database) http://www.pdg.cnb.uam.es/ecid STRING http://string.embl.de/ Otras redes relacionadas con interacción (basadas en literatura) Blaschke & Valencia. Genome Inform Ser Workshop Genome Inform. 2001 Hoffmann & Valencia. Nat. Genetics. 2004 Selecting terms that indicate interaction Rules (frames) to identify the interactions Extraction of the interactions Pubmed 15M entries Selection of the text corpus SUISEKI Extraction of protein nam c Human expert manipula Action words are for example: activate, associated with, bind, interact, phosphorylate, regulate * [protein A] ... verb indicating an action ... [protein B] “After extensive purification, Cdk2 was still bound to cyclin D1” Hoffmann Valencia Nat Genet 20 Otras evaluaciones de conjuntos de interacciones von Mering et al. Nature. 2002 Lee et al. Science. 2004 Otra comparación de métodos (respecto a complejos) TAP + mass spec Biochemical identification In silico predictions Array data Y2h systems Comparación más reciente (funcional) + Predicción funcional Algunos análisis de redes de interacción Una revisión: Barabasi & Oltvai. Nat. Rev. Genetics. 2004 Un trabajo reciente: Lee et al. Science. 2004 Robustez ¿Cómo reacciona la red a la eliminación de nodos al azar? Evolución de las redes ➔ Estructura de la red: Red libre de escala. ➔ Coherente con un crecimiento por unión preferencial. ➔ Se han desarrollado simulaciones incluyendo crecimiento de la red por duplicación génica. Prediciendo función con redes de interacción ➔ Contexto de red o dime con quien andas y te diré quien eres ➔ Se asigna función basándose en la función de los nodos vecinos. ➔ Se reduce el número de enlaces entre proteínas con función diferente. Vazquez et al, Nat Biotech. 2003 Integrando información Aproximación bayesiana estableciencio calidades en función de rutas metabólicas. Lee et al. Science. 2004. Futuro ➔ Está claro que los conjuntos de interacciones están lejos de ser completos. ¿Hasta dónde pueden ayudar los métodos de predicción? ➔ ➔ Las interacciones son importantes, pero sólo parte del sistema La mayoría de los estudios no integran diferentes tipos de redes interacción, coexpresión, metabolismo, regulación génica, etc. ➔ Las redes de interacción no representan la naturaleza dinámica de la célula. ➔ El análisis de las redes es muy joven, por lo que se requieren nuevos estudios para llegar a comprenderlas. ➔ Estos avances ayudarán a mejorar las predicciones de función, relevancia de las proteínas, etc. Ruegos y preguntas ¡Manos arriba! y/o [email protected]