Predicción de estructura de proteínas

Anuncio
Predicción de estructura de proteínas
Iakes Ezkurdia
Michael Tress
Gonzalo López
[email protected]
[email protected]
[email protected]
C.N.I.O.
Grupo de Biología
Computacional Estructural
El plegamiento de proteínas viene
determinado por su secuencia de
aminoácidos
Cadenas laterales
Las propiedades de las
cadenas laterales afectan al
empaquetamiento y a
características locales como
la estructura secundaria
El plegamiento de una proteína se debe a una red estable de interacciones entre
aminoácidos.
Por qué es importante predecir estructuras?
Por qué es importante predecir estructuras?
Obtención de secuencias de proteínas (a partir de DNA secuenciado)
es rápido y barato. Con la obtención de estructuras ocurre lo contrario.
Resctricciones: X-ray -> obtención de un cristal
NMR -> asignación del espectro
En general, pequeñas variaciones en la secuencia de
una proteína no afectan demasiado a la estructura 3D.
Espacio de
secuencias
Espacio estructural
En definitiva, podemos generar
modelos de estructuras 3D para
proteínas de estructura desconocida
Proteínas con secuencias
muy distintas pueden tener
un plegamiento similar:
Divergencia y convergencia
evolutivas
20%
Genómica estructural
Bases de datos de estructuras de proteínas
Protein Data Bank y otras
PDB – Repositorio de todas las
estructuras conocidas
SCOP y CATH – Clasificación de
estructuras proteicas.
Relaciones estructurales entre
proteínas.
PDBSum – Análisis de las
estructuras de PDB
Protein Data Bank y otras
1CRN
Cadena
HEADER
TITLE
TITLE
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
COMPND
SOURCE
SOURCE
SOURCE
IMMUNE SYSTEM
10-MAY-01
1IM9
CRYSTAL STRUCTURE OF THE HUMAN NATURAL KILLER CELL
2 INHIBITORY RECEPTOR KIR2DL1 BOUND TO ITS MHC LIGAND HLA-CW4
MOL_ID: 1;
2 MOLECULE: HLA CLASS I HISTOCOMPATIBILITY ANTIGEN, CW-4
3 CW*0401 ALPHA CHAIN;
4 CHAIN: A, E;
5 ENGINEERED: YES;
6 MOL_ID: 2;
15 MOLECULE: KILLER CELL IMMUNOGLOBULIN-LIKE RECEPTOR 2DL1;
16 CHAIN: D;
17 ENGINEERED: YES
MOL_ID: 1;
2 ORGANISM_SCIENTIFIC: HOMO SAPIENS;
3 ORGANISM_COMMON: HUMAN;
Código PDB
Protein name
Protein Data Bank y otras
ATOM: una linea por cada átomo que incluye las coordenadas
cartesianas del átomo en el espacio
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
N
CA
C
O
CB
OG1
CG2
N
CA
C
O
CB
OG1
CG2
N
CA
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
CYS
CYS
1
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
17.047
16.967
15.685
15.268
18.170
19.334
18.150
15.115
13.856
14.164
14.993
12.732
13.308
12.484
13.488
13.660
14.099
12.784
12.755
13.825
12.703
12.829
11.546
11.555
11.469
10.785
9.862
10.711
9.439
11.442
11.241
10.707
3.625
4.338
5.133
5.594
5.337
4.463
6.304
5.265
6.066
7.379
7.443
5.261
4.926
3.895
8.417
9.787
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
13.79
10.80
9.19
9.85
13.02
15.06
14.23
7.81
8.31
5.80
6.94
10.32
12.81
11.90
5.24
5.39
...
Átomo aminoácido
Nº aa
X
Y
Z
B-factor
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
Alineamientos estructurales
Superposición de 2 (o más) estructuras,
minimizando las distancias entre átomos
equivalentes
A menudo solo se usan los C alpha
Un alineamiento estructural se puede convertir en
uno de secuencia.
Se pueden estudiar las modificaciones estructurales
y funcionales debidas a la evolución, entre proteínas
homólogas
Hay distintos métodos basados en
distintos principios:
-DALI (contact maps)
-Mammoth (secondary structure)
-SSAP (dynamic programming)
-LGA (longest segment)
Similitud estructural
Podemos comparar estructuras
homologas, modelos, etc
RMSD: Root Mean Squared
Deviation == distancia media
entre átomos equivalentes
SCOP (Structural Classification of Proteins)
Descripción de relaciones estructurales obtenidas de visu.
SUPERFAMILIA: Probable origen
evolutivo común. Pueden contener
secuencias disimilares pero las
características estructurales y
funcionales sugieren un origen común
FAMILIA: Relación evolutiva obvia.
Generalmente secuencias por encima
del 30% de identidad de secuencia.
FOLD: Alta similitud estructural.
Proteínas que comparten la
organización de los segmentos de
estructura secundaria y las mismas
conexiones topológicas
The CATH Database
Similar a SCOP. Hay 4 niveles de clasificación y se genera de forma
semiautomática
Class: Estr. Secundaria y empaquetamiento
Architecture: Parecido a nivel de dominio
Topology (FOLD family): overall shape and
connectivities.
Homologous superfamily: proteínas con
un ancestro común. Busquedas por similitud
de secuencia y posteriormente
alineamientos estructurales usando el
programa: SSAP
More Structural Databases/Alignment
Programs
MSD: Macromolecular Structure Database
CE: Combinatorial Extension structure comparison and database
DALI: structural alignment program and database of alignments
LGA: structural comparison and structural alignments
PDBSUM: collection of structural links for each template
FireDB: database of functionally important residues in structures
CSA: collection of catalytic sites in the PDB
Predicción de características 1D
Gonzalo López
[email protected]
C.N.I.O.
Grupo de Biología
Computacional Estructural
Sumario
Introduccion
•
•
•
Definición de características 1D.
Estructura de proteínas
Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Definición de características 1D
•
Denominamos características 1D de una secuencia a aquellas que
pueden ser representadas por un único valor asociado a cada
aminoácido (B. Rost).
•
Estos valores suelen tomar la forma de etiquetas de estado, como
por ejemplo en el caso de la estructura secundaria (H->hélice, E>lámina, T->giro)
•
En algunos métodos, las asignaciones van acompañadas de un
valor de fiabilidad.
•
Las valores asociados pueden ser relativos (la accesibilidad al
solvente puede representarse en porcentages)
Definición de características 1D
•
Algunas características 1D:
–
–
–
–
–
–
•
Estructura secundaria
Accesibilidad al solvente
Modificaciones post-traduccionales
Péptidos señal
Regiones desordenadas
Regiones transmembrana
El estudio de estas propiedades ayuda a caracterizar funcional y
estructuralmente una proteína.
– Los métodos de predicción de estructura basados en el
reconocimiento del plegamiento, se nutren de estas técnicas
– Peptidos señal y regiones transmembrana -> localización celular
– Las modificaciones post-transcripcionales -> procesos biológicos
como la regulación
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Aminoácidos esenciales
>Estructura Primaria
ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT
GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF
KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV
YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY
LSTQSALSKDPNEKRDHMVLLEFVTAAGITHGMDELYK
Enlace peptídico
Diagramas de Ramachandran
Pro
Gly
Estructura secundaria (helice α)
α
Estructura secundaria (lámina β)
• Cadenas β
βa
βp
α
Estructura secundaria
• Giros
¿Se puede obtener analíticamente la
estructura?
•
•
•
Ha sido verificado para muchas proteínas, que la estructura 3D de una
proteína (es decir su plegamiento) viene determinada esencialmente por la
especificidad de la secuencia.
Dificultad para obtener valores suficientemente precisos de parámetros
físicos fundamentales para la resolución del problema.
El cálculo pormenorizado de la influencia sobre cada resíduo del resto de los
aminoácidos de la secuencia, así como del solvente resulta
computacionalmente intratable.
Aproximaciones alternativas
+++ Extrapolación de estructura/función por homología de secuencia
(secuencia→secuencia).
++
Reconocimiento de plegamiento / Threading (secuencia→estructura
conocida).
+
Predicción de estructura ab initio (secuencia→→nueva estructura,
pero sólo aprox.)
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Construcción de un predictor
Preparación (i)
1.- Definición del problema
2.- Extracción de un conjunto de
entrenamiento que debe:
–
–
–
–
representativo de la realidad
ser fiable, poco ruido
estar limpio de redundancias
debe estar equilibrado
3.- Determinar de qué datos
disponemos que puedan
contener información sobre el
problema a resolver.
1.- Predicción de estructura
secundaria
2.- Conjunto de entrenamiento:
• Conjunto de proteínas que
contenga contenga estructuras
con distintos plegamientos, con
formas alfa, beta, giros, etc
3.- tipo de aminoácido,
hidrofobicidad, ventana de
residuos, información evolutiva,
carga, etc.
Construcción de un predictor
Preparación (ii)
4.- Decidir qué método vamos a usar
para construir el predictor (Redes
Neuronales, Algoritmos genéticos,
HMMs, Sistemas basados en reglas,
SVM, ...).
5.- Elegir una codificación de la
información asociada al problema
acorde a éste y compatible con el
método elegido.
4.- Redes Neuronales, SVM…
5.- Todo se puede representar
como un vector numérico.
ej: el tipo de aminoácido es un
vector de 20 dígitos (0,1) donde
cada posición representa un tipo.
Construcción de un predictor
Preparación (iii)
6.- Entrenar el sistema, es decir
introducir la información sobre el
problema, hasta que el método
establezca una relación
(normalmente compleja e imperfecta)
entre ella y la solución del problema.
7.- Comprobar el éxito del predictor
generado frente a un conjunto de
validación independiente del de
entrenamiento.
6.- La red neuronal se construye
acorde con los datos de
entrenamiento. Nos valemos de la
teoría de aprendizaje automático
para alcanzar el aprendizaje
óptimo.
7.- El conjunto de validación es de
similares características al de
entrenamiento, sin embargo el
conjunto de datos es distinto.
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Por que es importante predecir
1D
Muchos métodos de predicción de estructura utilizan predicción de estructura
secundaria.
Es muy importante para Fold Recognition y esencial para métodos ab-initio.
Además se suele usar a posterioi para decidir qué modelo es el más plausible
y refinarlo, comparando la estructura secundaria del modelo con la predicha.
1D Prediction
Fold Recognition
Homology
Modelling
Por que es importante la prediccion de
estructura secundaria?
Es el primer paso hacia la predicción de estructura
3D. El siguiente sería colocar los elementos de
estr. secundaria en el espacio
Se usa en Fold Recognition combinandola con
perfiles de secuencia.
Tambien puede ayudar a la predicción de funcion
de las proteínas por busquedas de motivos de
estructura secundaria similares.
Estructura secundaria (DSSP)
1
ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT
TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT
51
GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF
SS SS GGGGHHHHSSS GGG B GGGGGG HHHHTTTT EEEEEEEEE
101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV
TTS EEEEEEEEEEETTEEEEEEEEEEE
TTSTTTTT B S
EEE
151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY
EEEEEGGGTEEEEEEEEEEEETTS EEEEEEEEEEEESSSS
SEE
201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK
EEEEEEEE TT SSEEEEEEEEEEES
T = giro estabilizado por P de H
H = α-helice, ~4 aa por vuelta
G = helice 310, ~3 aa por vuelta
I = helice phi, ~5 aa por vuelta
B = conformacion β
E = conformacion β formando lamina
S = giro (sin P de H)
Kabsch and Sander (1983) Biopolymers 22, 2577-2637
DSSP estudia la est 2ª en
archivos de coordenadas
atómicas basándose en
patrones que tienen en
cuenta:
•Geometría
•Puentes de Hidrógeno
Primera generación de métodos
Métodos estadísticos basados simplemente en la tendencia de cada
aminoácido a formar cada uno de los elementos de estructura
secundaria
•Chou y Fasman en 1974, propusieron el primero de estos métodos.
Emplearon estadísticas extraídas de las 15 estructuras resueltas por
cristalografía de rayos-X en aquella época. Estas probabilidades fueron
calculadas para cada resíduo por separado. Más adelante este método
mostró una exactitud del 57% sobre 62 proteínas.
•Garnier (1978). Estimó las probabilidades para interacciones de pares
de resíduos significativas, obteniendo una mayor fiabilidad (~60%).
Primera generación de métodos
Chou-Fasman
Name
Alanine
Arginine
Aspartic Acid
Asparagine
Cysteine
Glutamic Acid
Glutamine
Glycine
Histidine
Isoleucine
Leucine
Lysine
Methionine
Phenylalanine
Proline
Serine
Threonine
Tryptophan
Tyrosine
Valine
P(a)
142
98
101
67
70
151
111
57
100
108
121
114
145
113
57
77
83
108
69
106
P(b)
83
93
54
89
119
037
110
75
87
160
130
74
105
138
55
75
119
137
147
170
P(turn)
66
95
146
156
119
74
98
156
95
47
59
101
60
60
152
143
96
96
114
50
f(i)
0.06
0.070
0.147
0.161
0.149
0.056
0.074
0.102
0.140
0.043
0.061
0.055
0.068
0.059
0.102
0.120
0.086
0.077
0.082
0.062
f(i+1)
0.076
0.106
0.110
0.083
0.050
0.060
0.098
0.085
0.047
0.034
0.025
0.115
0.082
0.041
0.301
0.139
0.108
0.013
0.065
0.048
f(i+2)
0.035
0.099
0.179
0.191
0.117
0.077
0.037
0.190
0.093
0.013
0.036
0.072
0.014
0.065
0.034
0.125
0.065
0.064
0.114
0.028
f(i+3)
0.058
0.085
0.081
0.091
0.128
0.064
0.098
0.152
0.054
0.056
0.070
0.095
0.055
0.065
0.068
0.106
0.079
0.167
0.125
0.053
Glu, Met y Ala : fuertes formadores de hélices.
Val, Ile y Tyr: fuertes formadores de láminas.
Pro: fuerte tendencia a no formar hélices ni láminas
Gly: alto grado de libertad, favorece la formación de giros
Segunda generación de métodos
•
La principal característica de estos métodos es la utilización de
ventanas de resíduos adyacentes en secuencia, incluyendo así
información de contexto a la predicción.
•
Un gran número de algoritmos de predicción se usaron en esta
generación de métodos:
Redes Neuronales Artificiales
Teoría de Grafos
Métodos basados en reglas
Estadística multivariable
...
Esta innovación acercó la predicción de estructura secundaria a la
barrera del 70% de fiabilidad.
Segunda generación de métodos
• Limitaciones
– Fiabilidad (prediccciones 3-estados < 70%)
– Se obtienen bajas fiabilidades para cadenas-β
– La hélices y láminas predichas tienden a ser demasiado cortas.
• Debido a:
– El número de estructuras disponibles sigue siendo demasiado
pequeño para extrapolar al espacio de secuencias. Difiriendo a
veces entre distintos cristales para la misma secuencia.
– NO se tienen en cuenta los efectos provocados por resíduos
situados a grandes distancias en secuencia (pero no en el
espacio)
Tercera generación de métodos
Iniciada por Levin en 1993 (~69%) y Rost y Sander en 1994 (PHD 72%)
– La principal innovación de esta tercera generación es la inclusión
de información evolutiva adicional en forma de alineamientos
múltiples (Levin, 1993).
– Además, se resuelve el sesgo en las predicciones de cadenas-β
β
balanceando el conjunto de entrenamiento (dado que las
estructuras contienen más hélices que láminas; Rost y Sander,
1994)
Tercera generación de métodos
Red neuronal PHD
Información de secuencia de la
familia de la proteína
Perfil derivado del alineamiento
múltiple para una ventana de
resíduos adyacentes
Rost et al. (1997) J. Mol. Biol. 270: 471-480
Tercera generación de métodos
–
Varios métodos han seguido estrategias similares a PHD, mejorando sus
resultados a través del prefiltrado de los alineamientos de entrada y la
extensión de los perfiles mediante PSIBLAST introducido por David Jones
en PSIPRED (1999) con fiabilidades próximas al 77% o mediante HMMs
usados por Kevin Karplus et al. en SAMT99sec (1999).
–
Otros métodos siguen una estrategia diferente, buscando el consenso de
diferentes métodos, como es el caso de Jpred2 (Cuff y Barton, 2000).
Ejemplos de fiabilidad de predicción de
estructura secundaria
Métodos de Primera generación:
Chou & Fasman, Lim, GORI
Métodos de Segunda generación:
Schneider, ALB, GORIII
Métodos de Tercera generación:
LPAG, COMBINE, S83, NSSP, PHD
Ejemplos de fiabilidad de predicción de
estructura secundaria
Sequence based
Accuracy
Statistics
Chow-Fassman (1974)$
GOR1/GOR3 (1978/1987)$
DSC (1996)$
Nearest neighbour methods
PREDATOR (1996)$
NNSSP (1995)$
Neural Networks Methods
PHD (1993)$
PsiPRED (1999)$
JNET (1999)$
57%
63%/66%
70%
75%
72%
74%
75.7%
73%??
Structure based
Hidden Markov Models
SAM-T99/SAM-T02 (1999/2002)$
~76%
La fiabilidad depende de la proteína
Fiabilidad de PHD
usando un conjunto
de proteínas de
prueba
Problemas no resueltos
– NO se tienen en cuenta los efectos provocados
por resíduos situados a grandes distancias en
secuencia (pero no en el espacio)
– Proteínas con características inusuales deben
tratarse con cuidado
– Las predicciones siguen cosiderando sólo tres
estados
– Malos alineamientos producen malas predicciones
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Desorden estructural
• Algunas regiones de las secuencias no
pueden clasificarse en ninguno de los
tipos de estructura secundaria
• Estas regiones normalmente no son
visibles en los cristales y están
desordenadas.
• Las regiones desordenadas son rizos,
caracterizados
normalmente
por
elevados niveles de aminoácidos
polares junto con bajos de aromáticos o
regiones de baja complejidad.
• Algunas regiones desordenadas cortas,
sin importancia funcional aparente,
suelen hallarse en los extremos de las
cadenas proteicas.
Más desorden
• Las regiones más largas suelen estar
conservadas en posición a lo largo de familias
de proteínas. Estas regiones se relacionan con
conexión entre dominios, sitios proteolíticos,
así como con reconocimiento y unión tanto a
ligandos como a otras proteínas.
• Suelen encontranse en ciertas enzimas,
como en aquellas involucradas en el
crecimiento y división celular o en fosforilación
proteica.
• Entre ellas estas proteínas se hallan factores
y reguladores de transcripción y kinasas entre
otras.
Ejemplo de proteína desordenada
el factor de crecimiento nervioso β
(PDB: 1bet), que sólo es estable
como dímero
Una evaluación de los métodos
(CASP 6)
193 ISTZORAN (Zoran Obradovic, Temple
University) red neuronal.
096 CaspIta (Tosatto et al., Univ. of Padova)
support vector machines
003 Jones UCL (David Jones, University
College London) support vector machines
(DISOPRED)
347 DRIP PRED (sevidor de Bob MacCallum,
Stockholm) Kohonen self-organizing maps
472 Softberry. Combinación de red neuronal,
función
lineal
discriminante
y
un
procedimiento suavizado.
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Utilidad de la accesibilidad al solvente
• Al
igual
que
con
las
predicciones
de
estructura
secundaria, se puede estudiar la
plausibilidad de las estructuras
predichas por un método dado
mediante
el
uso
de
la
información de accesibilidad al
solvente (usando DSSP o
NACCESS).
• Además esta infomación puede
ser de utilidad en otros ámbitos,
como
la
predicción
de
superficies de interacción entre
proteínas
o
de
sitios
funcionales.
Roßbach et al. BMC Structural Biology 2005 5:7
Definición operativa
La mayoría de los métodos
reducen el problema a la
predicción de dos estados
Ls
Oculto: acc. relativa <16%
Expuesto: acc. relativa >= 16%
Información utilizada
Aunque la accesibilidad es una función de la
hidrofobicidad, los métodos basados en
perfiles de esta propiedad producen unas
predicciones pobres.
La predicción de accesibilidad mejora por el
uso de ventanas en secuencia.
Al igual que ocurre con la estructura
secundaria, la accesibilidad al solvente es una
propiedad sujeta a fuertes restricciones
evolutivas, por lo que su predicción se
beneficia del uso de alineamientos múltipes.
En la mayoría de los casos las metodologías
usadas son pequeñas variaciones de las
usadas en la predicción de estructura
secundaria
Algunos métodos
• PHDacc y PROFacc (B. Rost) emplean redes neuronales e
infomación de alineamientos múltiples. Son los únicos métodos
que predicen valores reales para accesibilidades relativas (de una
matriz con los valores 0, 1, 4, 9, 16, 25, 36, 49, 64, 81).
• JPred2 usa perfiles de PSIBLAST como entrada para sus redes
neuronales y devuelve predicciones del tipo oculto/expuesto.
• Estos métodos tienen una porcentaje de acierto del 70-75%
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Tipos de proteínas transmembrana
Proteínas transmembrana en PDB
total
Fuente: http://pdbtm.enzim.hu/
nr
PDB
50094
30000
TM
854
267
Alpha
726
229
Beta
126
26
El problema
• La obtención de estructuras
tridimensionales de proteínas
transmembrana es un gran problema,
ya que raramente producen cristales y
su estudio por NMR es muy
complicado.
• De hecho aún no es posible una
predicción de estructuras
transmembrana a nivel atómico
Hernanz-Falcon P, Rodriguez-Frade JM, Serrano A,
Juan D, del Sol A, Soriano SF, Roncal F, Gomez L,
Valencia A, Martinez-A C, Mellado M. Nat Immunol. 2004
Feb;5(2):216-23.
Predicción de hélices transmembrana
Dos reglas básicas
(1) Las hélices transmembrana
tienden a tener una logitud de 2030 resíduos con una hidrofobidad
total alta.
(2) Las regiones de conexión
entre hélices del interior del
citoplasma tienen una carga
positiva mayor que las del
exterior
TRUCO: las hélices
transmembrana vistas en un
alineamiento muliple de
secuencia no suelen incluir gaps
(restricción de longitud mínima)
Pero siempre hay excepciones
Region extracelular
Region transmembrana
Region citoplasmatica
Algunos métodos de predicción de
hélices transmembrana
MEMSAT - http://bioinf.cs.ucl.ac.uk/psipred/
Algoritmo de programación dinámica que hace predicciones basadas en tablas
estadísticas compiladas de los datos de proteínas de membrana.
TMAP - http://www.mbb.ki.se/tmap/index.html
Usa estadíticas extraídas de perfiles de secuencia.
TopPred2 - http://bioweb.pasteur.fr/seqanal/interfaces/toppred.html
Promedia los valores de hidropatía con una ventana trapezoidal
HMMTOP - http://www.enzim.hu/hmmtop/
Se definen 5 estados estructurales y mediante HMMs para generar fragmentos de
secuencia que maximizen la frecuencia de cada estado.
PHDhtm - http://www.embl-heidelberg.de/predictprotein/
Combina redes neuronales, alineamientos múltiples y programación dinámica
(proporciona un índice de fiabilidad).
DAS - http://www.enzim.hu/DAS/DAS.html
Utiliza alineamientos múltiples de un conjunto no redundante de proteínas de
membrana.
TMHMM - http://www.cbs.dtu.dk/services/TMHMM/
Métodos estadísticos y HMMs que ayudan a mejorar la localización y orientación de
hélices trans-membrana.
Ejemplo de predicción de topología
Fiabilidad
•
Los métodos actuales dicen identificar
correctamente >90% de los segmentos
trasmembrana y predecir
correctamente la topología en >80% de
los casos.
•
Sin embargo, el pequeño tamaño de los
conjuntos de entrenamiento (hay 229
estructuras conocidas) hacen estas
estimaciones poco fiables (¿~70%?)
•
Se sabe que todos los métodos tienden
a predecir péptidos señal como helices
transmembrana, así como a
sobrepredecir en proteínas globulares.
También hay predictores de barriles beta
•
Recientemente han aparecido algunos métodos orientados a la
predicción de barriles beta en membrana externa de bacterias
Gramm negativas. Se basan en HMM.
•
•
•
PRED-TMBB
PROF-TMB
La escasez de estructuras distintas disponibles (sólo 26) hace que
resulte muy difícil evaluar la calidad de dichos métodos (75-80%).
Sumario
Introduccion
• Definición de características 1D.
• Estructura de proteínas
• Metodología: Implementación de un predictor.
Predicción de características 1D
•
Estructura secundaria
•
Desorden estructural
•
Accesibilidad al solvente
•
Proteínas transmembrana
•
Otras características 1D
Predicción de péptidos señal
Cadenas peptídicas cortas (3-60 aa) que dirigen el tranporte
post-transduccional de una proteína
TIPOS:
• Señales N-terminal: matriz mitocondrial, retículo endoplasmático, peroxisoma
• Señales C-terminal: peroxisoma, RE
Transporte al núcleo (NLS)
-Pro-Pro-Lys-Lys-Lys-Arg-Lys-Val-
Tranporte a RE
H2N-Met-Met-Ser-Phe-Val-Ser-Leu- Leu-Leu-Val-Gly-Ile-Leu-Phe- TrpAla-Thr-Glu-Ala-Glu-Gln- Leu-Thr-Lys-Cys-Glu-Val-Phe- Gln-
Retención en RE
-Lys-Asp-Glu-Leu-COOH
Transporte a matriz mitocondrial
H2N-Met-Leu-Ser-Leu-Arg-Gln-Ser- Ile-Arg-Phe-Phe-Lys-Pro-Ala- ThrArg-Thr-Leu-Cys-Ser-Ser- Arg-Tyr-Leu-Leu-
Transporte a peroxisoma
(PTS1) -Ser-Lys-Leu-COOH
Transporte a perosisoma
(PTS2) H2N-----Arg-Leu-X5-His-Leu-
Péptidos señal: algunos recursos disponibles
SPdb – http://proline.bic.nus.edu.sg/spdb/
Archaea
Bacteria
Eukaryotes
Viruses
Sub-Total
Exp. Verificadas
7
553
2114
74
2748
Predichas
99
4701
14190
804
19794
TOTAL
106
5254
16304
878
22542
Servidores de predicción:
PSORT – predicción de péptidos señal y sitios de localización
TargetP – predicción de localización subcelular
SignalP – predicción de péptido señal
Algunos predictores de otras características 1D
(Modificaciones Post-Transcripcionales).
ExPASy Proteomics tools http://www.expasy.ch/tools/
ChloroP – predicción de péptidos de cloroplasto
NetOGlyc – predicción de sitios de O-glicosilación en proteínas de mamífero
Big-PI – prediccíon de sitios de modificación por glycosil-phosphatidyl inositol(GPI)
DGPI – predicciónde sitios de anclaje y rotura para proteínas modificadas por GPI
NetPhos – predicción de sitios de fosforilación (Ser, Thr, Tyr) en eucariotas
NetPicoRNA - prediction of cleavage sites for proteases in the picornavirus
NMT – predicción de N-miristoilacion en N-terminales
Sulfinator – predicción de sitios de sulfatación en tirosinas
Prácticas de predicción 1D
http://ubio.bioinfo.cnio.es/Cursos/doctoradoUAM2008/Estructuras/Practicals1D/
Descargar