Redes de Interacción de Proteínas

Anuncio
Redes de Interacción de Proteínas
Antonio Rausell
[email protected]
CNIO. Grupo de Biología Computacional y
Estructural.
Interacciones entre proteínas
Fundamentales para comprender la función de las proteínas.
Intervienen en el control del ciclo celular, diferenciación celular, plegamiento de
proteínas, señalización, transcripción, traducción, modificación post-traduccionales y
transporte.
Las interacciones pueden alterar las propiedades cinéticas de los enzimas, permitir la
canalización de secuencias de reacciones, crear nuevos sitios de unión, inactivar o
destruir una proteína, cambiar su especificidad, tener un papel regulatorio, etc.
Se pueden clasificar en:
Interacciones estables: asociados a los complejos con múltiples subunidades
(Hemoglobina, RNA polimerasa, etc).
Interacciones transitorias: implicadas en el control de la mayoria de los procesos
celulares. Normalmente requieren de un conjunto de condiciones que provocan la
reacción.
Interacciones entre proteínas
El estudio de proteínas o interacciones concretas no es suficiente para explicar
algunos fenotipos o procesos biológicos, en los que intervienen un número variado de
ellos, interrelacionados mediante una red característica de interacciones.
Análisis basados en la agrupación de enfermedades por fenotipos sugieren
relaciones a nivel de sub-redes inesperadas.
Lim et al. Cell. 2006.
Conjuntos masivos de
interacciones
detectadas
experimentalmente
Uetz et al. Nature. 2000 (YEAST)
Ito et al. PNAS. 2001 (YEAST)
Gavin et al. Nature. 2002 (YEAST)
Ho et al. Nature. 2002 (YEAST)
Giot et al. Science. 2003 (FLY)
Li et al. Science. 2004 (WORM)
Butland et al. Nature. 2005 (E. coli)
Barrios-Rodiles et al. Science. 2005
(MAMMALIAN)
Rual et al. Nature. 2005 (HUMAN)
Yeast twohybrid
Fields & Song. Nature. 1989.
Yeast two-hybrid & localizaciónn
celular
Yeast two-hybrid
Algunos problemas
•Falsos negativos:


Interferencia de los dominios fusionados.
Interacciones 1 Vs 1, no tiene en cuenta efectos cooperativos.
•Falsos positivos:




Interacciones mediadas por terceras proteínas.
Es capaz de obtener interacciones lábiles, pero esto lo hace más
vulnerable a uniones inexpecíficas.
Aunque el ensayo es in vivo, las condiciones no suelen serlo (sobreexpresión, forzado en el núcleo, etc)
Baja reproducibilidad.
Purificación de complejos (TAP-MS y
HMS-PCI)
Purificación de
complejos
Se generan redes diferentes de las de y2h
Nodos = complejos; Enlaces=comparten elementos
Se desconoce la topología (interacciones prot-prot) de los
complejos.
Modos de
representación
binaria de los datos
obtenidos de
complejos
Purificación de complejos
Algunos problemas
•Falsos negativos:
Interferencia
del TAP-cassette en la interacción (~18% de las proteínas no son
funcionalmente viables).
Proteína no expresada en el momento de la lisis (se ha relacionado con la
concentración de mRNA).
Sesgo en contra de proteínas pequeñas (<15K).
Detecta principalmente interacciones estables (se pierde las lábiles).
En mamíferos requiere sobre-expresión.
•Falsos positivos:
Proteínas
pegajosas.
Se estima un 70% de complejos reproducibles.
Interacciones establecidas durante la lisis.
Solapamiento de los datos experimentales
Complejos gran escala
Y2H gran escala
Text Mining
Experimentos pequeña escala
Combinando estrategias
Redes de interacciones
predichas
Una revisión:
Valencia & Pazos.Curr. Op. Struct. Biol. 2002
Algunas ideas de partida



Se
sabe
que
proteínas
funcionalmente
relacionadas tienden a presentar una evolución
coordinada.
La interacción es una forma muy fuerte de
relación funcional.
Esto implica que la detección de proteínas que
hayan evolucionado coordinadamente puede
ayudarnos a predecir interacciones
Algunas ideas de partida




La evolución se estudia a través de la comparación de
secuencias homólogas con funciones comparables.
Tanto la evolución génica, como la interacción
de
proteínas se han de estudiar en el contexto de los
organismos.
Las trazas de evolución coordinada se encuentran por la
acumulación de señales en un número alto de
organismos.
Nos interesa identificar las proteínas que estan
históricamente relacionadas (homólogas), y desarrollan
la misma función (equivalogas).
Buscando evolución coordinada
Perfiles filogenéticos
Un perfil filogenético es un vector que define la
ausencia/presencia de un representante de un
conjunto de equivalogos en cada organismo.

Las proteínas que interaccionan han de estar en los
mismos organismos

La
evolución
tiende
a
eliminar
proteínas
innecesarias

Estos perfiles se pueden extender a parecidos entre
una secuencia de referencia y sus ortólogos.

Buscando evolución coordinada
Gene neighbourhood
Dos genes se consideran vecinos cuando
están próximos en un genoma (menos de
600bp)

Se sabe que en procariotas esta
vecindad se usa para para optimizar la
coordinación de su expresión.

Además genes próximos pueden ser
eliminados y transferidos juntos.

La conservación de esta proximidad a lo
largo de diferentes organismos es una
señal de evolución coordinada.

Dandekar et al. TIBS. 1998.
Overbeek et al. PNAS. 1999.
Buscando evolución coordinada
Gene fusion
La
evolución
genera
secuencias híbridas por fusión
de otras más simples.

Esto
permite
una
mayor
coordinación de las funciones
desempeñadas
por
ambas
proteínas.

Además permite el incremento
de la complejidad de los
organismos por combinación y
especialización de dominios
(eucariotas).

La presencia de estas fusiones
sugiere una interacción entre
las secuencias homólogas no
fusionadas.

Marcotte et al. Science 1999
Marcotte et al. Nature 1999
Enright et al. Nature 1999.
Buscando evolución coordinada
Métodos basados en secuencia
Hay otro nivel de coordinación posible:
coevolución de secuencias.

Buscamos paralelismos históricos que
deberían ser detectables comparando la
evolución
de
las
secuencias
de
diferentes conjuntos de equivalogos.

Para ello, construímos alineamientos
múltiples de secuencias de estos
conjuntos.

Después
hacemos
pares
de
alineamientos comparables extrayendo
aquellas secuencias de los mismos
organismos para ambos conjuntos.

Best hit
Fully sequenced
Genomes
10E-5
BLAST
10E-5
Reference
Genome
Best hit
Very strict homology assignment
(same ancestor, different
organism and the best possible
coupling)
MUSCLE
Practical definition of
equivalogy
Set of equivalogs
MSAs
Buscando evolución coordinada
MirrorTree


Las proteínas que interaccionan tienden a compartir un conjunto
de restricciones evolutivas comunes.
Este método intenta detectar la coevolución al nivel de secuencias
comparando una simplificación de los árboles evolutivos de pares
de alineamientos.
HISX_ECOLI
Pazos & Valencia. Prot.
Eng. 2001
HIS4_ECOLI
Pazos & Valencia. Proteins. 2002
Buscando evolución coordinada
In silico two-hybrid




Para un número de casos se ha
mostrado la existencia de patrones
de substituciones correlacionados
entre diferentes posiciones de una
secuencia
(relacionado
con
proximidad espacial).
Se cree que esto se debe a la
coevolución de estas posiciones
(mutaciones recíprocas).
Siguiendo esta lógica, buscamos
estos comportamientos, no intraproteína, sino inter-proteína en pares
de alineamientos comparables.
Una ventaja de este método es que
apunta a resíduos relacionados con
la interacción.
Pazos & Valencia. Proteis.
2002
Algunos problemas generales de
los métodos de predicción
-> Falsos negativos:
-> Se requiere una señal clara a lo largo de varios organismos.
-> Si la detección de proteínas equiválogas falla, no se encuentra la señal.
-> Una interacción dada no necesariamente debe mostrar ninguno de los indicios
usados.
-> Falsos positivos:
-> Las relaciones filogenéticas entre los organismos, suponen sesgos que pueden
producir señales erróneas.
-> La evolución coordinada tiene problemas para distinguir entre interacción física y
asociación funcional.
-> La evolución coordinada sufre de cierta transitividad (si a-b y b-c entonces a-c).
-> El nivel de especificidad depende de la similitud entre las secuencias (distancias
globales).
EciD (E. coli interaction
Database)
http://www.pdg.cnb.uam.es/ecid
STRING
http://string.embl.de/
Otras redes relacionadas con
interacción
(basadas en literatura)
Blaschke & Valencia. Genome Inform Ser Workshop
Genome Inform. 2001
Hoffmann & Valencia. Nat. Genetics. 2004
lecting terms that
dicate interaction
ules (frames) to identify
the interactions
Extraction of the
interactions
Pubmed
15M entries
Selection of the text corpus
SUISEKI
Extraction of protein names
c
Human expert manipulation
Action words are for
xample:
activate, associated with, bind, interact, phosphorylate, regulate
* [protein A] ... verb indicating an action ... [protein B]
“After extensive purification, Cdk2 was still bound to cyclin
D1”
Hoffmann & Valencia Nat Genet
Algunas evaluaciones de
conjuntos
de interacciones
von Mering et al. Nature. 2002
Lee et al. Science. 2004
Otra comparación de métodos (respecto a
complejos)
Comparación más reciente (funcional)
+
Predicción funcional
Aprendiendo de las redes de interacción
Una revisión: Barabasi & Oltvai. Nat. Rev. Genetics.
2004
Otros:
Lee et al. Science. 2004
He & Zhang. PLoS Gen. 2006
Algunas carácterísticas




Conectividad: número de enlaces de
un nodo.
Distribución Power-Law de
conectividades -> p(k)~k-γ
(¿Scalefree?).
Camino mínimo: el mínimo número
de enlaces que hay que recorrer para
ir de un nodo a otro.
Camino mínimo medio es mucho más
corto que la de redes con topología
generada al azar (Small world).
Algunas carácterísticas







Conectividad: número de enlaces de
un nodo.
Distribución Power-Law de
conectividades -> p(k)~k-γ
(Scalefree).
Coeficiente de clustering: mide la
densidad de conexiones alrededor de
un nodo: 2n1/(k*(k-1))
Los nodos más conectados (hubs),
parecen tener menores coeficientes
de clustering (¿redes jerárquicas?).
Presenta módulos difíciles de
detectar (¿Jerárquica?, ¿ruido?. ¿?).
Assortativity: tendencia de un
elemento a sociarce con otro similar
a él (en conectividad).
Los nodos más conectados suelen
estar unidos a otros con pocas
interacciones (disassortativity ->
¿ruido?).
Algunas carácterísticas




Distribución Power-Law de
conectividades -> p(k)~k-γ
(¿Scale-free?)
Robusta a eliminación de nodos al
azar.
Los nodos más conectados suelen
estar unidos a otros con pocas
interacciones.
Presenta módulos difíciles de
detectar (¿Jerárquica?).
Algunas carácterísticas






Distribución Power-Law de
conectividades -> p(k)~k-γ
(¿Scale-free?)
Robusta a eliminación de nodos al
azar.
Los nodos más conectados suelen
estar unidos a otros con pocas
interacciones.
Presenta módulos difíciles de
detectar (¿Jerárquica?).
Assortativity: tendencia de un
elemento a sociarce con otro
similar a él.
Los nodos más conectados suelen
estar unidos a otros con pocas
interacciones (disassortativity).
Algunas carácterísticas




Robustez: capacidad para mantener su
estructura global ante delecciones de
nodos o enlaces.
En las redes de interacciones los hubs
tienden a ser esenciales.
Mayor robustez ante fallos aleatorios
(eliminación de nodos al azar)
Menor robustez ante ataques dirigidos a
los hubs.
Explicación alternativa: lo esencial son las
interacciones, y los hubs tienen más
probabilidades de estar implicados en una
interacción esencial.

Evolución de las redes
Estructura de la red: Red libre de
escala.

Coherente con un crecimiento por
unión preferencial.

Se han desarrollado simulaciones
incluyendo crecimiento de la red
por duplicación génica.

Los grafos no bastan
Las interacciones no son sólo relaciones
entre nodos.

Las interacciones tienen superficies de
distinto tamaño y pueden ser solapantes
(mutuamente excluyentes).


Teniendo esto en cuenta se ve que:



Mayor superficie de interacción
supone menor velocidad de evolución.
Los “date hubs” son aquellos con
interacciones mutuamente
excluyentes.
La duplicación sólo explica el
crecimiento de los “date hubs”.
Kim et al. Science 2006.
Motivos, Función y
Conservación
Se pueden describir motivos de un
número pequeño de nodos y unas
conexiones determinadas entre ellos.

Algunos de estos motivos están sobrerepresentados
en
las
redes
de
interacción (y2h).

Se puede ver que existe relación entre
los motivos y el tipo de proceso celular.

Además, los motivos más conectados
están
más
conservados
entre
organismos (relacionado con la robustez
de la red)

Wutchty, Oltvai & Barabasi. Nat. Genet. 2003.
Añadiendo la variable temporal
Interacciones + Expresión
Ulrik de Lichtenberg,Lars Juhl Jensen,Søren Brunak,Peer Bork.Dynamic Complex Formation During the Yeast Cell Cycle. Science.2005.307,724-7
Interacciones + Expresión + Módulos
funcionales
Coordenada radial: basada en el tráfico que atraviesa al nodo
Coordenada angular: minimiza la longitud de las conexiones
Color: Niveles de expresión 20 min después de un golpe de
calor
Valente & Cusick. Nucleic Acids Research. 2006
Prediciendo función con redes de interacción
Contexto de red o dime con quien
andas y te diré quien eres.

Se asigna función basándose en la
función de los nodos vecinos.

Se reduce el número de enlaces entre
proteínas con función diferente.

Vazquez et al, Nat Biotech. 2003
Predicción de función
integrando información
Aproximación
estableciencio
confianzas en
metabólicas.
bayesiana
función
Lee et al. Science. 2004.
de
rutas







Futur
o
Está claro que los conjuntos de interacciones están lejos de ser
completos. ¿Hasta dónde pueden ayudar los métodos de
predicción?
Las interacciones son importantes, pero sólo parte del sistema
La mayoría de los estudios no integran diferentes tipos de redes
interacción, coexpresión, metabolismo, regulación génica, etc.
Las redes de interacción no representan la naturaleza dinámica
de la célula.
El análisis de las redes es muy joven, por lo que se requieren
nuevos estudios para llegar a comprenderlas.
Estos avances ayudarán a mejorar las predicciones de función,
relevancia de las proteínas, etc.
El estudio dinámico de los sistemas biológicos y de sus
respuestas a determinadas condiciones (estrés, enfermedades,
envejecimiento, etc) debe apoyarse en el conocimiento de las
redes de interacción, regulación, rutas metabólicas, ...
Ruegos y
preguntas
¡Manos arriba!
y/o
[email protected]
Descargar