tema 7

Anuncio
Revisión 23/10/13
TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE
MACROMOLECULAS
Las macromoléculas biológicas son en definitiva estructuras que se rigen por las
leyes comunes de la física y que como tal pueden ser descritas teóricamente igual que lo
son otros sistemas químicos. No obstante en la práctica somos capaces de entender el
comportamiento de casi cualquier sistema químico, pero tenemos dificultades para
entender, por ejemplo, el funcionamiento de la mayoria de proteínas. La razón no está
ciertamente en la naturaleza de la química que pasa en las moléculas biológicas (que
suele ser sencilla), sino en una serie de problemas prácticos que dificultan la descripción
teórica:
•
Tenemos solo un conocimiento parcial del conjunto de procesos
bioquímicos en la célula (p.ej. conocemos bien catabolismo y
anabolismo, pero no los networks de señalización, control del
ciclo celular,...). A menudo no reproducimos el comportamiento
de una macromolécula, porque no sabemos en realidad que está
afectando su comportamiento.
•
Tenemos una gran incertidumbre sobre la naturaleza del “entorno
fisiológico”. Mucho de lo que sabemos de proteínas está obtenido
por experimentos con proteina en muy alta dilución, mientras que
en el interior de la célula el 20% en masa del citoplasma son
proteínas, que no sabemos como interaccionan entre ellas.
•
Las macromoléculas biológicas: proteínas, ácidos nucleicos son
muy grandes lo que complica su descripción atomística,
especialmente cuando las representamos rodeadas de solvente.
Las técnicas que veremos en este capítulo son metodologías desarrolladas para
intentar paliar el problema de la descripción de los grandes sistemas bioquímicos. Estas
estrategias se pueden clasificar en 2 tipos: estadísticas o macroscópicas, y
microscópicas o físicas.
-1-
Revisión 23/10/13
Los
métodos
estadísticos
(que
asimilaremos
aquí
a
técnicas
bioinformáticas) emplean básicamente principios de comparación. La idea es analizar
bases de datos de estructura, de secuencia, de función,…, para poder así derivar reglas
en función de lo conocido que permitan describir lo desconocido. Los métodos
físicos o microscópicos (que asimilaremos a técnicas de simulación) aspiran a
entender los sistemas biológicos a partir de principios físicos fundamentales.
BIOINFORMATICA ESTRUCTURAL
La Bioinformática hace hoy de soporte a todas las facetas de la investigación en
biología, desde ensamblados de genomas hasta la biología de sistemas. Nosotros en esta
asignatura solo mencionaremos las técnicas básicas de bioinformática estructural.
Métodos de predicción de propiedades primarias de las proteínas
Hay un buen número de propiedades primarias de las proteínas que pueden ser
inferidas directamente a partir de su secuencia. Entre ellas el punto isoeléctrico, la masa
atomica, la curva de titración, el coeficiente de extinción y muchas otras características
fisicoquímicas que se pueden derivar a partir del conocimiento de la composición en
aminoácidos de una proteína.
Una herramienta muy útil son los perfiles de hidrofobicidad. Para obtenerlos se
calcula en unas ventanas de residuos determinadas cual es la hidrofobicidad media en
cada residuo a partir de los coeficientes de partición (p.ej octanol/agua o
clorofomo/agua) de los aminoácidos. Este tipo de perfil es muy útil, para por ejemplo
determinar regiones internas (tipicamente hidrofóbicas) o externas (tipicamente
hidrofílicas) de proteínas. También es información que se puede procesar para
determinar regiones transmembranas, regiones de interacción proteína proteína, etc.
Un ejemplo del tipo de perfil que se obtiene se muestra en la Figura 1. En el eje
de abcisas esta la secuencia y en ordenadas el índice de hidrofobicidad. Valores
positivos implican partes hidrofóbicas de la proteína
-2-
Revisión 23/10/13
Figura 1. Perfíl de hidrofobicidad de una proteína globular
Perfiles similares a este sirven para predecir la exposición o no de un residuo a
partir unicamente del conocimiento de la secuencia. Modificaciones de estos perfiles,
combinados con reconocimiento de secuencias dianas se han empleado para reconocer
sitios de glicosilación de proteínas, de sulfatación, miristinelización,..., o de proteínas
especialmente sensibles a la degradación proteolítica (p.ej proteínas con secuencias
PEST expuestas). También son útiles en la predicción de determinantes antigénicos. Ver
el servidor de Swisprott para más detalles http://www.expasy.ch
Predicción de funcionalidad por similitud de secuencia
Se sabe que el grado de divergencia en el espacio de secuencias es mucho más
grande que el del espacio de estructuras y de función. Eso hace que si 2 secuencias
tienen una secuencia muy parecida tengan grandes posibilidades de tener la misma
funcionalidad y en bastantes ocasiones la misma estructura. Por otro lado, se ha
constatado que existen determinadas pautas en secuencia que están asociadas a distintas
funciones. Estas dos observaciones dan lugar a dos familias de técnicas de predicción de
funcionalidad por similitud de secuencia:
i)
Técnicas de similitud global. Aquí la idea es alinear la proteína problema con
toda la base de datos (programas como BLAST o FASTA permiten hacer esto
-3-
Revisión 23/10/13
con gran rapidez) de proteínas de función conocida, a menudo ordenadas en
familias funcionales. En resultado del programa es un listado de proteínas
similares en cuanto a la secuencia a la problema, con un índice estadístico que
reporta lo significativo de la similitud (un alineamiento será más significativo
cuanto mas perfecta sea la correspondencia de aminoácidos y cuanto mas
largo sea), y un listado que indica donde son parecidas las 2 proteínas (donde
se alinean) y donde no lo son. Si la comparación da resultados de similitud
significativa se asume que la proteína problema tendrá la misma función que
la proteína homóloga detectada. Esta técnica es la que constituye el método
fundamental de anotación de los genomas en los proyectos de secuenciación
masivos. Un ejemplo de Input de este tipo de búsqueda y su correspondiente
output están en la Figura 2. Cuando se quieren encontrar similitudes remotas
es a menudo necesario hacer ciclos iterativos que buscan relaciones entre dos
proteinas A y B no directas sino via la similitud con una tercera proteina C,
debilmente similar a las dos. Esto lo ejecutan progamas iterativos caso de
PsiBlast (Figura 3)
ii)
Técnicas de similitud de segmentos característicos. Se ha detectado que
determinadas secuencias cortas de Aa están asociadas a determinadas
funcionalidades. Esto ha dado lugar a la generación de bases de datos como
ProSITE. Aquí por lo tanto no se valora la similitud global de la secuencia,
sino la presencia de secuencias cortas significativas de función. Para un
ejemplo de búsqueda ProSITE véase Figura 4. Destacar que los perfiles
ProSITE deben usarse con cuidado y siempre vigilando la significación
estadística de los “hits”, porque es comun encontrar matches a perfiles muy
cortos, con poca significación real.
INPUT BLAST QUERY
-4-
Revisión 23/10/13
Accession number or sequence
Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW
format.
MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPH
OUTPUT BLAST QUERY
Query length: 61 AA
Date run: 2003-09-08 17:20:12 UTC+0100 on sib-blast.unil.ch
Program: NCBI BLASTP 2.2.5 [Nov-16-2002]
Database: XXtremblnew; XXtrembl; XXswissprot
1,249,251 sequences; 402,609,643 total letters
Swiss-Prot Release 41.22 of 29-Aug-2003
TrEMBL
Release 24.10 of 29-Aug-2003
TrEMBL_new of 29-Aug-2003
Taxonomic view
NiceBlast view
Printable view
List of potentially matching sequences
Send selected sequences to
Clustal W (multiple alignment)
Enviar consulta
Include query sequence
Db AC
Description
Score E-value
tr Q8XMW7
Hypothetical protein CPE0571 [CPE0571] [Clostridium
pe... 142 5e-34
tr Q8EMU9
Hypothetical conserved protein [OB2741]
[Oceanobacillu... 74 2e-13
sp Q58481
YA81_METJA Hypothetical protein MJ1081 [MJ1081]
[Metha... 69 8e-12
tr Q97KL0
Uncharacterized conserved protein YjbQ/UPF0047
family,... 69 8e-12
tr Q8R842
Hypothetical protein TTE2189 [TTE2189]
[Thermoanaeroba... 66 7e-11
-5-
Revisión 23/10/13
Figura 2. Ejemplo de una por similitud de secuencia de una proteína problema
contra Swisprott/TREMBL
Taxonomy reports
Distribution of 63 Blast Hits on the Query Sequence
Mouse-over to show defline and scores. Click to show alignments
>gi|18309553|ref|NP_561487.1|
conserved hypothetical protein
[Clostridium perfringens]
gi|18144230|dbj|BAB80277.1|
conserved hypothetical protein
[Clostridium perfringens str. 13]
Length = 135
Score = 113 bits (283), Expect = 7e-25
Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%)
Query: 1
60
MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV
MNNFFKHTLETHT
QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV
-6-
Revisión 23/10/13
Sbjct: 1
59
MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV
Figura 3. Ejemplo de los alineamientos óptimos de psiBlast obtenidos en el caso.
Calculado desde el servidor http://www.ncbi.nlm.nih.gov/blast/
ScanProsite
Scan Swiss-Prot with a PROSITE pattern
Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries
PDOC00965 PS01253 FIBRONECTIN_1 Type I fibronectin domain.
Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C-x(6,9)-C
Approximate number of expected random pattern matches in Swiss-Prot release
41.0 (122564 sequences): 0.18 [Ref: PMID 11535175]
>P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38)
(Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA).
125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...C
Figura 4. Ejemplo de búsqueda de perfiles PROSITE en una proteína problema.
En este caso encuentra en la proteína la presencia de un prosite característico de
fibronectinas. Véase Expasy para una explicación de la gramática de los Perfiles
ProSite.
Técnicas de predicción de estructura secundaria
Existen muchos programas y servidores que predicen la estructura secundaria de
una proteína a partir de su secuencia. Todos ellos derivan del propuesto originalmente
por Chou y Fasman. En la actualidad encontramos decenas de servidores que realizan
cálculos de estructura secundaria, e incluso servidores de servidores por los que se
puede enviar al cálculo a varios programas y coger los resultados de consenso. Solo en
el web site de Swissprot encontramos más de una decena de estos servidores, que a
menudo se entrenan automáticamente cada vez que aumentan las proteinas de estructura
conocida
depositadas
en
el
Protein
Data
Bank
(PDB:
http://www.rcsb.org/pdb/home/home.do). Se calcula que para proteínas globulares el
-7-
Revisión 23/10/13
acierto es cercano al 80%, pero en realidad la precisión depende del tipo de proteína,
siendo mayor para proteínas citoplasmáticas ricas en hélice alfa.
La filosofía de los métodos es siempre la misma: i) exploración de las bases de
datos de estructura 3-D (PDB), ii) elaboración de unas reglas de estructura, iii)
aplicación de las reglas a la proteína problema. Las reglas que se establecen pueden ser
de diverso tipo, pero siempre relacionan la estructura primaria con niveles superiores de
estructuración que van desde la secundaria a la terciaria. De todas las técnicas
estadísticas de predicción de estructura de proteínas comentaremos únicamente como un
ejemplo el método original de Chou y Fasman. Estos autores asumen que la estructura
secundaria de una proteína está en uno de estos 3 estados: hélice α, hoja β y giro. Al
analizar PDB (Biochemistry 17, 4277 (1978)) encontraron la distribución de residuos en
cada una de estas estructuras, de ella derivaron “propensiones” que representan la
tendencia intrínseca de un aminoácido a estar en una determinada estructura secundaria.
Las propensiones se insertan como reglas matemáticas para predecir la estructura
secundaria en “ventanas” de 5-6 residuos que se van desplazando un aminoácido cada
vez para cubrir toda la proteína.
Aminoacido
Ala
Cys
Leu
Met
Glu
Gln
His
Lys
P(α)
P(β)
P(turn)
1,29
1,11
1,3
1,47
1,44
1,27
1,22
1,23
0,9
0,74
1,02
0,97
0,75
0,8
1,08
0,77
0,78
0,8
0,59
0,39
1
0,97
0,69
0,96
Val
Ile
Phe
Tyr
Trp
Thr
0,91
0,97
1,07
0,72
0,99
0,82
1,49
1,45
1,32
1,25
1,14
1,21
0,47
0,51
0,58
1,05
0,75
1,03
Gly
Ser
Asp
Asn
Pro
0,56
0,82
1,04
0,9
0,52
0,92
0,95
0,72
0,76
0,64
1,64
1,33
1,41
1,23
1,91
Arg
0,96
0,99
0,88
-8-
Revisión 23/10/13
Figura 5. Propensiones de formar Estructuras secundarias método de Chou-Fasman.
Con estas propensiones individuales se calculan directamente las promedios en
ventanas que son las que permiten predecir la existencia o no a un tipo de estructura
(véase Figura 6). En la Figura 5 los residuos del primer grupo forman fácilmente helice
alfa, los segundos favorecen la hoja beta y los terceros los giros. Las prolinas raramente
están en hélices.
•
Cada secuencia con 6 o mas residuos y <P(α)> ≥1,03 y <P(α)> ≥ <P(β)> y
que no tengan Pro son hélices α.
•
Fragmentos de 5 residuos o más con <P(β)> ≥1,05 y <P(β)> ≥ <P(α)> será
hoja beta
•
Tetrapéptidos con <P(α)> < 0.9 y <P(turn)> > <P(α)> son posiblemente
giros.
Figura 6. Reglas fundamentales de Chou-Fasman
Los métodos de predicción de estructura secundaria son rápidos y precisos.
Sirven no solo para asignar motivos estructurales sino para reconocer similitud en
proteínas que no son visibles, tener una idea del plegamiento global en algunos casos, o
incluso inferir aspectos de la función de la proteína. Presentan no obstante algunos
problema:
i)
Son estadísticos, es decir funcionarán si la proteína se parece a lo que estaba
en la base de datos.
ii)
Proporcionan solo información 2-D, no información tridimensional que es la
más útil
iii)
Proporcionan información sólo sobre estructuras secundarias canónicas
(algunos métodos tienen más de 3 estados, pero son pocos). No entienden de
modificaciones estructurales sobre motivos canónicos.
iv)
Son más precisas para hélices que para cadenas beta.
v)
Son más precisas en proteína globulares citoplasmáticas.
-9-
Revisión 23/10/13
vi)
Pueden dar resultados incorrectos en caso de proteínas intrinsecamente
desordenadas.
vii)
Como todos los métodos estadísticos permiten predecir, pero no entender
porqué.
Técnicas de predicción de fragmentos transmembrana
Las proteínas de membrana son muy difíciles de cristalizar, por lo que se conoce
aún poco sobre sobre su estructura. De hecho programas de diseño de fármacos enteros
que intentan obener fármacos contra, por ejemplo, receptores de membrana acoplados a
proteinas G, o sobre algunos canales iónicos, se deben realizar utilizando modelos de
estructura, no estructuras experimentales reales. La modelización es pues importante y
se inicia normalmente por la determinación de los fragmentos de transmembranas. Los
métodos que los predicen se basan en combinar algoritmos de homología con métodos
de predicción de estructura secundaria y perfiels de hidrofobicidad.. Todo ello da reglas
probabilísticas que también ayudan a la predicción. Son programas que pueden cometer
errores, pero que han sido clave en asignación funcional de muchos receptores de
membrana (véase por ejemplo
http://sosui.proteome.bio.tuat.ac.jp/cgi-bin/sosui.cgi?/sosui_submit.html). En tanto que
las familias funcionales de receptores, transportadores o iones tienen una alta homología
estructural (a menudo no de secuencia) la determinación de un determinado pattern de
segmentos transmebrana puede arrojar mucha luz sobre la funcionalidad de una proteína
problema.
Técnicas de predicción de dominios estructurales
Las proteínas suelen plegarse en torno a dominios estructurales que son regiones
globulares, típicamente de unos 100-150 residuos. Es muy importante conocer de una
proteína problema donde están los dominios, por diversas razones: i) zonas entre
dominio son sitios naturales de corte de proteínas que después se intentarán resolver por
NMR, ii) proteínas muy diferentes de modo global pueden tener por el contrario
dominios similares, iii) los dominios estructurales suelen tener implicaciones
funcionales e incluso nos pueden dar idea de cual ha sido la evolución de la proteína.
- 10 -
Revisión 23/10/13
Los métodos que predicen dominios a partir de secuencia suelen trabajar con
técnicas de homología a partir de alineamientos múltiples (alineamientos a nivel de
dominio de muchas proteínas de estructura conocida). Existen bases de datos específicas
de alineamientos múltiples de dominios como PFAM. Si encuentras una secuencia que
encaja en uno de estos alineamientos tienes una alta garantía que ese fragmento se
asigne a un dominio estructural. Para mejorar la precisión se añaden datos sobre la
presencia de determinadas pautas de estructura, p.ej la presencia de regiones de baja
complejidad
de
secuencia,
regiones
con
péptido
señal,...
(véase
http://www.sanger.ac.uk/Software/Pfam/). Mediante este tipo de programas se pueden
anotar dominios en estructuras grandes de proteínas.
En el ejemplo de abajo se muestra un alineamiento múltiple que define un tipo
de dominios comunes a una famiila de proteínas (alfa-kinasa). Se pueden ver los
residuos que definen el dominio. Estos alineamientos son contra lo que nosotros
lanzaríamos nuestra proteína problema para que por su alineamiento (con respecto a ese
alineamiento global de referencia) tuviéramos la definición del dominio.
Q9P201/571-786
LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ......................
...............EEILGRYVGKDYKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIP
STILLILEDKTIKG.....CISVEPYILGEFVKLSNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHR
DVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTNFGKRGIFYFFNNQHVECNEIC Q9P201
Q9HEI0/537-758
MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS.....................
.........RHVVKEFKTDGDDEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFV
VTSCFKCNDRRGSQ...GKCMSIEPFLAGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGR
FLVCDLQGVG.......KTMTDPAIHTLDP...YRFSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0
KMHA_DICDI/561-800
ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMIS
PISKNNEAMTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFL
MSWVVELIDRSPSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQ
MIVVDIQGVD.......DLYTDPQIHTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527
O76739/34-235
IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP.....................
..............DQGLVGKFST...NKKTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFL
PSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNSG......YVSS.DARNTPQSFSHFSYELSNHE
LLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL..QTHKCNPVC O76739
KMHB_DICDI/119-320
IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK......................
...............SGASGRYVSKIGKKPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFL
QSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNNNSG......FVSN.DERNTPQSFSHFTYEHSNHQ
LLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKFL..DTHKCNAIC P90648
EF2K_RAT/112-317
TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN......................
.........FLHAQHWKGASNYVAKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIM
- 11 -
Revisión 23/10/13
QMCIIELKDRQGQ.....PLFHLEHYIEGKYIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQ
LIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGVRGMALFF..YSHACNRIC P70531
(…)
Figura 7. Ejemplo de alineamiento múltipe que aparece en una familia PFAM
http://www.sanger.ac.uk/Software/Pfam/.
El tipo de output que obtendremos final sería similar a:
Description from Swissprot for PIG1_BOVIN :
Source
Domain
Start End
1-phosphatidylinositol-4,5-bisphosphate
phosphodiesterase gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase cgamma-1) (plc-ii)(plc-148)
Pfam PH
33
142
321
465
Pfam
PI-PLC-X
Pfam-B_30023
484
549
Pfam
SH2
550
639
Pfam SH2
PH 33-142
Pfam SH3
668
741
794
849
Pfam
[1291 residues]
Pfam
PH (Partial)
864
931
Pfam
PI-PLC-Y
952
1070
Pfam
C2
1090
1177
Pfam
Pfam-B_37780 1212
PH
864-931
PI-PLC-Y 952-1070
Smart PH
33
C2 1090-1177
Smart PLCXc
320
1291
Context: efhand 156-184
PI-PLC-X 321-465
SH2 550-639
SH2 668-741
SH3 794-849
144
464
Key
signal peptide:
pfamA:
>
Context:
>
smart:
>
transmembrane:
>
low complexity:
>
- 12 -
coiled coil:
>
pfamB:
>
Revisión 23/10/13
Smart
PH
489
680
Smart
SH2
548
645
Smart
SH2
666
747
...
Figura 8.
Output de PFAM para
1-phosphatidylinositol-4,5-bisphosphate phosphodiesterase
gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase c-gamma-1) (plc-ii)(plc-148).
Estos métodos de asignación de dominios son muy potentes y no precisan
conocimiento estructural de la proteína. Sus limitaciones se encuentran en los casos de
proteínas de estructura inusual o sin homólogos conocidos.
Técnicas de predicción de estructura terciaria por homología
Es posible predecir con bastante precisión la estructura tridimensional de una
proteína a partir de la secuencia cuando la proteína problema tiene una identidad de
secuencia superior al 30% con una proteína de estructura tridimensional conocida. Los
modelado por homología se basan en superponer lo mejor posible los backbones de las
proteínas problema y molde ajustando en lo posible las cadenas laterales coincidentes.
Los segmentos que no se sobreponen se simulan a partir de datos estructurales de
motivos tipo (p.ej loops), el conjunto se optimiza y relaja para evitar violaciones de
esqueleto covalente o choques de cadenas laterales. Un proceso de modelización de
proteínas. Por ejemplo con el programa MODELLER o con el sistema automático de
- 13 -
Revisión 23/10/13
SWISPROT dan no únicamente una solución sino varias que se “puntúan” en función
de criterios fundamentalmente energéticos (i.e. que tan estable parece el modelo
generado). Todas las diferentes soluciones generadas deben ser evaluadas en cuanto a su
capacidad para explicar datos experimentales y de hecho es posible incorporar datos
experimentales como restricción en la creación de los modelos.
La técnica es muy poderosa, cuando la homología es fuerte el “backbone: i.e la
cadena principal” modelada se parecerá mucho a la problema. Los problemas se
presentan a dos niveles:
i)
Los modelos no suelen tener la misma calidad en las cadenas laterales
que en la cadena principal.
ii)
No todas las partes de la estructura estan igual de bien modeladas. Por
ejemplos los loops suelen no ser muy fiables.
iii)
Cuando la identidad de secuencia baja por debajo del 30% entramos en
una zona (twilight-zone) donde está poco clara la calidad del modelo.
Cuando bajamos del 20% de identidad la técnica no es aplicable.
iv)
Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios
dominios no son modeladas con fiabilidad.
Técnicas de predicción de estructura terciaria por threading
Las técnicas de threading sirven para modelar estructuras en casos en los que la
identidad de secuencia es muy baja. También sirven para hacer asignación de función a
proteínas para las que los métodos de secuencia no encuentran homólogos cercanos.
Son técnicas de alto riesgo, que solo se justifican cuando no existen otras alternativas.
La idea fundamental de las técnicas de threading (ej. THREADER) es la de que la
proteína problema, a pesar de no tener identidad notable con ninguna de las bases de
datos tendra un motivo de plegamiento (fold) que será alguno de los que se han
reportado en las bases de datos de estructura como CATH o SCOP. Estas bases de datos
clasifican todas las proteínas definiendo diferentes tipos de FOLD canónicos. La
clasificación se hace en diversos niveles de jerarquía. Por ejemplo en CATH tenemos
descripciones jerárquicas como la que muestra la Figura 9 que permiten agrupar tipos de
folds para usar como referencia en cálculos de Threading
- 14 -
Revisión 23/10/13
Figura 9. Ejemplo de clasificación (3
primeros niveles) de la base de datos
CATH de C.Orengo.
Los
métodos
de
threading
colocan la cadena de la proteína
problema en cada uno de los posibles
folds de referencia y evalúan que tan
estable es la secuencia problema en
cada uno de los folds. El más estable se
recuperará
como
el
plegamiento
candidato y la proteína(s) que den este
fold se considerarán relacionadas con la
proteína problema. La técnica es poco precisa, y trabaja únicamente a nivel de dominio
estructural.
Existen diferentes programas que permiten realizar “threading” e incluso
servidores que envían el cálculo a diferentes programas y derivan una predicción
consenso. Por ejemplo www.bioinfo.pl, www.sbc.su.se o www.sbg.bio.ic.ac.uk).
Métodos de predicción ab initio a partir de potenciales estadísticos.
Representan la frontera entre métodos estadísticos y físicos. Tratan de predecir
cual será la estructura terciaria de proteínas a partir de potenciales estadísticos que dan
idea de la preferencia de un residuo por un determinado entorno y algunas otras reglas
sobre, por ejemplo similitudes en pequeños motivos de estructura, cercania a estructuras
conocidas
etc.
Programas
como
Rossetta
de
D.Baker
(https://www.rosettacommons.org/) han permitido obtener modelos “ab initio” de
estructura de proteínas pequeñas y en algun caso predecir a priori cual seria la estructura
y la función de una proteína totalmente diseñada in silico sin ningún tipo de similitud
con ninguna proteína conocida. Son métodos no obstante aplicables únicamente a
- 15 -
Revisión 23/10/13
proteínas pequeñas y globulares y que aún en estos casos tienen un elevado nivel de
riesgo y requieren un nivel de experiencia muy alto en su uso.
Los potenciales estadísticos que alimentan métodos como ROSSETTA se
derivan de observar la distribución global y relativa de aminoácidos en proteínas a partir
de lo que se deriva un conjunto de funciones que describen las posiciones relativas mas
comunes de pares de residuos. Los potenciales estadísticos se implementan en
programas como PROSA-II (https://prosa.services.came.sbg.ac.at/prosa.php) que
permiten determinar lo estable que está un determinado residuo en su entorno proteico
teniendo en cuenta como son otros miles de entornos proteicos. Los perfiles tipo
PROSA no solo se emplean en cálculos ab initio de estructura de proteínas, sino que son
muy empleados en el refinado de estructuras experimentales por NMR o Rayos X para
determinar la posible existencia de errores (véase ejemplo de perfiles PROSA en la
Figura 10).
Very stable
low stability
Hidrophobic
Cβ-Cβ
Total
http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_
Figure 10. Perfil de PROSA representado estabilidad de residuos en una proteína.
Técnicas de predicción de proteínas intrinsecamente desordenadas
- 16 -
Revisión 23/10/13
Recientemente se ha detectado que una parte de las proteínas funcionales carecen
intrinsicamente de toda o parte de esctructura definido, adoptándolas en muchos casos
para ineraccionar con ligandos. En bacterias se cree que es sobre un 5% pero para
eucariotas evolucionados se cree que llega al 40%. Si nos centramos en proteinas de
señalización se cree que se llegaria al 60-70% en organismos como el humano. Que una
proteína sea intrisecamente desordenada no quiere decir que toda ella carezca de
estructura (en algún caso si, ver Figura 11), sino que tiene grandes segmentos sin
estructura, que coexisten a veces con cores estructurales muy marcados.
La predicción de IDP (intrinsically disordered proteins) se basa en algunas
características comunes de las proteínas desordenadas, por ejemplo, contenido bajo de
residuos hidrofóbicos y alto en residuos cargados. También es común que muestren
grandes regiones de baja complejidad, es decir segmentos repetidos con solo muy poca
variación de aminoácidos y una baja predicción de estructura secundaria clásica. Hay
diferentes programa para la predicción de IDP. Algunos de los más usados son
posiblemente IUPRED (Bioinformatics 2005, 21, 3433; http://iupred.enzim.hu/),
DISPROT (http://www.disprot.org/ ) o DisEMBL (http://dis.embl.de/). Un detalle del
tipo de output que producen lo teneis en la Figura 12.
Figura 11. Comparación entre los “ensembles” de NMR de una proteína
intrinsecamente desordenada y una plegada tradicional.
- 17 -
Revisión 23/10/13
Figura 12. Imagen resultante de DisEMBL donde se pueden observar diferentes
indicadores de probabilidad de desorden a lo largo de la secuencia, mostrándose
probabilidad alta de desorden en el segmento 20-100 de la proteína.
- 18 -
Revisión 23/10/13
METODOS MICROSCOPICOS/FISICOS (de simulación)
Pretenden predecir y simular la estructura y el comportamiento de las
macromoléculas, empleando para ello las reglas elementales de la física y de la química.
Existen dos grupos de técnicas microscópicas claramente diferenciadas: i)
técnicas derivadas de la mecánica cuántica y ii) técnicas derivadas de la mecánica
clásica. Las dos técnicas tienen el mismo objetivo: describir el sistema a nivel atómico,
pero las diferencias entre ellas son claras. La mecánica cuántica introduce los grados de
libertad de núcleos y electrones, mientras que la mecánica clásica considera únicamente
la posición de los núcleos. La mecánica cuántica calcula las interacciones moleculares
rigurosamente, basándose en primeros principios, mientras que la mecánica clásica se
basa en el uso de campos de fuerza empíricos. La mecánica cuántica supone que las
partículas se ven gobernadas por las leyes básicas de la física cuántica, mientras que la
mecánica clásica supone que las moléculas son partículas clásicas gobernadas por las
leyes de la mecánica Newtoniana.
MECANICA CLASICA
La energía de una molécula se expresa como una función únicamente de las
posiciones de los núcleos. No se consideran por lo tanto los electrones de modo
explicito, lo que simplifica mucho el cálculo con respecto a la mecánica cuántica.
La energía del sistema se expresa no como un complejo conjunto de ecuaciones
diferenciales como en la mecánica cuántica, sino de manera mucho más simple, a partir
de un conjunto de ecuaciones simples (el “force-field”) que relacionan las posiciones
relativas de los núcleos con la energía del sistema. Estas ecuaciones deben introducir de
modo implícito el efecto de los electrones. Por ejemplo, los electrones de un enlace que
une dos átomos no se incluyen en el cálculo, pero su efecto (mantener unidos los 2
átomos) se consigue reproducir introduciendo una ecuación de tipo parabólico que haga
que los 2 átomos tiendan a estar a una distancia propia de un enlace s.
- 19 -
Revisión 23/10/13
Las ecuaciones del force-field se escogen a partir de evidencias experimentales.
Por ejemplo, en el caso comentado anteriormente, sabemos que al alargar o acortar el
enlace entre 2 átomos se produce un aumento de la energía, la cual sigue un perfil que
se representa según una función de Morse. Este perfil puede obviamente obtenerse a
partir de cálculo cuántico, pero es también fácil reproducirlo en las cercanías de la
distancia de equilibrio por un potencial armónico como el de Hooke (Kstr(l-lo)2).
Energy
Morse
200
180
160
140
120
100
80
60
40
20
0
Bond length
Figura 11. Ejemplo de la dependencia de la energía con la longitud de enlace (Morse).
Energy
Hooke
80
70
60
50
40
30
20
10
0
Bond length
Figura 12. Ejemplo de la dependencia de la energía con la longitud de enlace (Hooke).
- 20 -
Revisión 23/10/13
Nótese que cada tipo de enlace tendrá una constante de fuerza (K) y una
distancia óptima de equilibrio (lo). Así un enlace doble C=C tendrá una distancia más
corta que un enlace C-C simple, y más larga que un enlace triple C≡C. Asimismo, la
constante de fuerza del enlace triple será más grande que la del doble y esta más que la
de un enlace sencillo. De esta manera vemos como podemos ir describiendo las distintas
interacciones que existen entre núcleos empleando ecuaciones empíricas sencillas.
El conjunto de ecuaciones que expresan la energía en función de las coordenadas
nucleares es el “force-field”. Su forma general es la que se muestra más abajo:
Non bonded-terms
Bonded-terms
Other restrains
E = E str + Ebnd + Etor + E nb + Eother
Donde distinguimos los “bonded-terms” (términos de enlace), los non-bonded-terms
(términos de no-enlace) y “otros”.
Interacciones de enlace
Son las que se median por enlaces covalentes. Incluyen:
Stretching. Representa la resistencia de dos átomos enlazados a variar su distancia de
enlace. Se suele representar por ecuaciones parabólicas del tipo del potencial de Hooke.
La constante de fuerza da idea de la deformabilidad del enlace y la distancia de
equilibrio de su longitud.
Estr =
∑K
str
(l − lo ) 2
bonds
Bending. Es la interacción que nos da la resistencia de tres átomos enlazados
consecutivamente a variar su ángulo de equilibrio. Se suele representar por ecuaciones
parabólicas del tipo del potencial de Hooke. La constante de fuerza da idea de la
deformabilidad del ángulo y la distancia de equilibrio de su amplitud.
- 21 -
Revisión 23/10/13
∑K
Ebnd =
ang
(Θ − Θ o ) 2
angles
Torsión. Es el término que se emplea para representar la energética de la rotación
respecto a enlaces químicos. Suele representarse por una serie de Fourier con términos
de distinta periodicidad (normalmente 1,2, 3).
Por ejemplo la rotación del etano (Figura 13) respecto al enlace C-C será
representado por un solo término de Fourier de periodicidad 3, mientras que la rotación
respecto al enlace C=C del eteno lo será por un término de periodicidad 2 (Figura 14).
Periodicidad 3
10
Energy
8
6
4
2
360
315
270
225
180
135
90
45
0
0
degrees
Figura 13. Ejemplo de torsión de periodicidad 3.
dih
V3
(1 + cos 3Φ)
n =1 2
Etor = ∑∑
tor
Donde V3 es el potencial de la barrera (8 en la Figura 17), 3 es la periodicidad y F es el
ángulo diedro
- 22 -
Revisión 23/10/13
Periodicidad 2
10
Energy
8
6
4
2
360
315
270
225
180
135
90
45
0
0
degrees
Figura 14. Ejemplo de torsión de periodicidad 2.
dih
V2
(1 − cos 2Φ )
n =1 2
Etor = ∑∑
tor
Donde el signo negativo en el coseno sirve para simular el cambio de fase en la
serie de Fourier de periodicidad 2. Véase Figura 18.
En general, podemos considerar que la torsión se expresará como una expansión
de términos de Fourier de orden 1, 2 y 3.
3
Vn
(1 + cos nΦ − γ )
n =1 2
Etor = ∑∑
tor
Interacciones de no-enlace
Son las interacciones entre átomos que están separados por más de 3 enlaces covalentes.
En diferentes force-fields se encuentran diferentes ecuaciones dentro de este término.
No obstante, considerando los campos de fuerza más sencillos vemos que existen
Interacciones electrostáticas. Representan las interacciones entre las distribuciones de
carga de los distintos átomos de la molécula. Suelen representarse por un simple
- 23 -
Revisión 23/10/13
potencial Coulómbico donde Rmn es la distancia entre los átomos y Qm, Qn son las
cargas centradas en los mismos. La constante dieléctrica ε sirve para introducir efecto
de “screening” electrostático del solvente.
QmQn
m , n ε ( Rmn ) Rmn
Eele = ∑
Coulomb potential
1000
0
4
3,6
3,2
2,8
2,4
2
1,6
1,2
0,9
0,7
0,5
Energy
500
-500
-1000
Distance
Figura 15. Ejemplo de un potencial electrostático atractivo y otro repulsivo.
Interacciones de van der Waals. La interacción de van der Waals es usado en los forcefields con un fin doble: i) evitar la “fusión” de átomos no unidos de carga de signo
opuesto, ii) representar las interacciones atractivas a corta distancia fruto de las fuerzas
dispersivas. El perfil clásico de una interacción de van der Waals es el que se muestra
más abajo, que se suele representar con una parte repulsiva a muy cortas distancias que
depende normalmente de la potencia 12 de la distancia interatómica, mas un término
atractivo que actúa básicamente a distancias intermedias que depende de la potencia 6
de la distancia interatómica.
 Aij Cij 
Evw = ∑  12 − 6 

Rij 
i , j  Rij
- 24 -
Revisión 23/10/13
Donde Aij y Cij son parámetros que definen la interacción de van der Waals
entre átomos. Normalmente se calcula a partir de reglas combinatorias como la que
mostramos más abajo:
i
Aij = (ε iε j )1/ 2 ( Rvw
+ Rvwj )12
i
Cij = 2 × (ε iε j )1/ 2 ( Rvw
+ Rvwj ) 6
ε aquí representa la “dureza” del átomo es decir que tan atractor es a largas distancias y
repulsivo a cortas. Rvw es el radio de van der Waals que define el tamaño del átomo, es
decir donde deja de ser atractivo y donde repulsivo el potencial.
Partición van der Waals
20
Energy
15
10
5
0
-5
2,2
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
4
-10
distance
Figura 16. Perfil con la distancia de una interacción típica de van der Waals. En azul
aparece la interacción total, en magenta la repulsiva y en amarillo la atractiva.
Parametrización
- 25 -
Revisión 23/10/13
Los force-fields contienen toda una serie de parámetros que definen los diversos
tipos de interacción y que deben ser conocidos antes de realizar el cálculo. El proceso de
determinación de estos parámetros es lo que se conoce como parametrización, y es una
de las etapas básicas en el desarrollo de un force-field. La parametrización se hace
siempre ajustando los cálculos de mecánica clásica a otros datos de más calidad, que
pueden ser los derivados de la mecánica cuántica, o de medidas experimentales.
Stretchings y bendings: Se pueden derivar de cálculos cuánticos en los que se
perturbe los valores de equilibrio de enlaces y ángulos, o bien del análisis de las
matrices de fuerza cuánticas del sistema. Experimentalmente se derivan de datos de
espectroscopia IR (constantes de fuerza) y de datos de microondas, rayos X y otros.
Torsiones. Se pueden determinar a partir de datos cuánticos ajustando los
perfiles de rotación. Experimentalmente son más dificiles de obtener, normalmente se
derivan a partir de datos de espectroscopía de NMR.
Electrostático. Las cargas se derivan a partir normalmente de cálculos cuánticos
donde se calcula la densidad de carga y se integra sobre los núcleos. Experimentalmente
es difícil, pero pueden ajustarse a partir de datos sobre densidades electrónicas
derivadas de Rayos X, o bien por ajuste de datos clásicos de una simulación de un
líquido a su comportamiento experimental (Figura 21).
Van der Waals. Se pueden determinar cuánticamente a partir de perfiles de
interacción entre dos moléculas, o bien experimentalmente a partir de datos de
empaquetamiento cristalino, o bien por ajuste de datos clásicos de una simulación de un
líquido a su comportamiento experimental.
METODOS QUE EMPLEAN LA MECANICA CLASICA
El force-field permite expresar la energía de la molécula como una función de
las coordenadas de los núcleos. Esta información puede ser procesada de diversas
maneras dando lugar a una serie de técnicas
- 26 -
Revisión 23/10/13
Mecánica molecular (MM). La técnica clásica más sencilla. Su objetivo es
encontrar la disposición espacial de los núcleos más estable, esto es, la que minimiza la
energía del sistema.
Dinámica molecular (MD). La información sobre la energética del sistema se
procesa para obtener las fuerzas que actúan sobre cada átomo. Estas fuerzas son
entonces usadas para determinar las trayectorias de cada átomo (esto es las posiciones
que los átomos van tomando a lo largo del tiempo).
MECANICA Y DINAMICA MOLECULAR
MARCOS DE APLICACION
Las técnicas de MM y MD al estar basadas en mecánica clásica presentan una serie de
ventajas e inconvenientes con respecto a las técnicas de mecánica cuántica:
i) Si los parámetros que se incorporan al force-field son buenos los resultados
son de una alta calidad.
ii) Es mucho más rápida que la mecánica cuántica, lo que permite estudiar
sistemas de gran tamaño, e incluso analizar su comportamiento a lo largo del tiempo. En
mecánica clásica se han llegado a estudiar sistemas con decenas de millones de átomos
durante periodos de nano to microsegundo, mientras que en mecánica cuántica es dificil
estudiar (estáticamente) mas de unas decenas.
Las limitaciones son obvias:
i) Todos los resultados dependen de la calidad y la transferabilidad del forcefield.
ii) No son aplicables a reacciones químicas o al estudio de cualquier proceso que
deba ser descrito teniendo en cuenta la naturaleza cuántica de las moléculas. Por
ejemplo sistemas fuertemente polarizados, con transferencia de carga, etc.
- 27 -
Revisión 23/10/13
Estas características son las que marcan sus campos de aplicación. Así para
moléculas pequeñas o para estudiar reacciones químicas se empleará preferentemente
las técnicas cuánticas. Las técnicas clásicas serán la elección en la mayoría de los casos
siempre que el sistema sea más grande de 100 átomos, no sufra reacciones o cambios en
la estructura covalente del mismo. En algunos casos, por ejemplo estudio de reacciones
enzimáticas, donde es preciso un nivel de descripción cuántico solo en una parte del
sistema, mientras que el resto se puede describir clásicamente se puede recurrir a
descripciones mixtas, los denominados métodos QM/MM.
METODOS DE MECANICA MOLECULAR
Estos métodos son los más simples, y tienen por objetivo encontrar la conformación de
mínima energía de un sistema y su energía. El diagrama de flujo de un programa de
mecánica molecular se muestra más abajo y consta de varias etapas: i) a partir de unas
coordenadas iniciales (R) se calcula la energía del sistema, ii) se calcula la derivada de
la energía respecto al movimiento de los átomos, iii) se trata de encontrar la
conformación del sistema que de un mínimo de energía (derivada primera 0, derivada
segunda positiva).
- 28 -
Revisión 23/10/13
{x}0
NO
Epot
g= Epot/∂x
Converg
ido?
Algoritmo de
búsqueda
SI
Nuevo conjunto {x}1
Final
Figura 17. Algoritmo general de un programa de mecánica molecular (MM).
El resultado de la minimización es una conformación estable del sistema y un
valor de mínima energía del mismo. La mecánica molecular se emplea no solo para
obtener una estructura energéticamente estable del sistema, sino para predecir
cualitativamente la energía de interacción entre 2 moléculas, por ejemplo, si tenemos
una proteína que interacciona con 2 moléculas A y B, es fácil calcular cual de ellas se
unirá más fuertemente restando las energías potenciales de los complejos proteína-A y
proteína-B.
La mecánica molecular es una técnica muy sencilla y computacionalmente muy
económica, lo que la hace muy eficaz en bioquímica. No obstante, esta técnica presenta
2 serias limitaciones ( a parte de las propias de cualquier técnica clásica).
i)
El sistema se ve estáticamente. Esto es se obtiene una “foto” del mismo, en
el mejor de los casos en su forma más estable, pero no se tiene idea de su
flexibilidad, de su movilidad al largo del tiempo.
- 29 -
Revisión 23/10/13
ii)
No se pueden introducir efectos de temperatura en el cálculo, de hecho la
descripción que se obtiene del sistema se corresponde a T= 0 K.
iii) Es imposible para un sistema grande estar
seguro de que el mínimo localizado es el
mínimo absoluto y no un mínimo relativo. El
sistema de optimización de geometría es muy
dependiente de las coordenadas del punto
inicial
considerado
en
el
proceso
de
optimización. Véase Figura de la derecha
Figura 18. Superficie de Energía Potencial
Estas limitaciones son las que dieron lugar al desarrollo de las técnicas de
dinámica molecular.
TECNICAS DE DINAMICA MOLECULAR
La dinámica tiene como objetivo obtener una visión de las trayectorias que un
sistema sigue a lo largo del tiempo. Esto puede usarse para:
•
OBTENER VISIONES PROMEDIO DE UN SISTEMA (ESTO
SE DENOMINA ENSEMBLE DE BOLTZMAN)
•
OBTENER
REPRESENTACIONES
DE
TRANSICIONES
TEMPORALES
•
OBTENER DESCRIPCIÓN DE LA TERMODINÁMICA DEL
SISTEMA A PARTIR DE LA FÍSICA ESTADÍSTICA
•
RELAJAR LA GEOMETRIA DE UN SISTEMA
•
ESTUDIAR LA FLEXIBILIDAD DE EQUILIBRIO DE UN
SISTEMA
- 30 -
Revisión 23/10/13
•
OBTENER REPRESENTACIONES DEL CAMBIO DE UN
SISTEMA DEBIDO A PERTURBACIONES EXTERNAS
El esquema de un programa de dinámica molecular es como el que se muestra
más abajo: i) para la conformación inicial (Ro) se calcula la energía potencial del
sistema (via force-field) y se estima la energía cinética (Ek=0.5 mv2) a partir de unas
velocidades iniciales generadas al azar para una temperatura dada (Ek= Etermica= 1.5 N
kbT) (donde N es el número de grados de libertad del sistema y kb es la constante de
Boltzman), ii) se deriva la energía (respecto R) sobre cada átomo para obtener las
fuerzas sobre cada átomo, iii) se calculan las aceleraciones sobre cada átomo, iv) las
aceleraciones se integran numéricamente una vez para dar las velocidades en un nuevo
intervalo de tiempo, v) las velocidades se integran para dar las nuevas posiciones
después de un cierto tiempo, vi) con las nuevas posiciones y velocidades se vuelve a
calcular las nuevas energías potenciales y cinéticas y se repite todo el proceso.
Nótese que al repetirse el proceso se va obteniendo un archivo con las posiciones
y velocidades de los distintos átomos del sistema a lo largo del tiempo (la trayectoria),
lo cual nos informa sobre la historia del sistema a lo largo del tiempo.
- 31 -
Revisión 23/10/13
Epot {xi}
Fi= -∂Epot/∂xi
ai= Fi/mi
vi (t+dt)=v(t)i+ai dt
xi (t+dt)=x(t)i+vi dt
Figura 19. Esquema general de un algoritmo de dinámica molecular
El esquema general se puede modificar para poder simular determinadas
condiciones experimentales como presión constante o temperatura constante. La
integración de las ecuaciones de Newton es numérica debido a la complejidad del
funcional empleado para expresar la energía. Para que la integración sea correcta debe
darse por lo tanto que la etapa de integración sea más pequeña que el movimiento más
rápido del sistema (las vibraciones de enlace de los átomos que está en la escala del
femtosegundo 10-15 seg). Eso significa que hacer una trayectoria de 1 nanosegundo
requiera realizar más de 1 millón. Se pueden restringir los movimientos más rápidos del
sistema (vibraciones de enlace), eso permite aumentar la escala de integración hasta 2
fts, pero aún así se requieren muchísimos cálculos para poder representar un proceso de
relevancia biológica. De hecho la MD es posiblemente la técnica que consume más
recursos computacionalmente en la actualidad. A pesar de ello es muy empleada por su
capacidad para describir sistemas clásicos a lo largo del tiempo.
METODOS FÍSICO DE COARSE GRAIN
- 32 -
Revisión 23/10/13
Aún con los ordenadores más potentes la MD atomístic descrita más arriba es una
técnica costosa que cuesta que proporcione muestreos más allá del microsegundo (todo
y que ya en 2011 se publicaron trayectorias de 1 milisegundo), por lo que han sido
varios los grupos que han intentado desarrollar métodos que proporcionen información
dinámica más sencillos. De ellos comentaremos dos:
DINAMICA COARSE-GRAIN
Son cálculos idénticos a los comentados más arriba, pero donde se condensan átomos en
grupos a fin de: i) reducir los grados de libertad del sistema, ii) al tener partículas más
pesadas, que se moveran más lentamente, poder aumentar la etapa de integración. Hay
diferentes variantes de estos métodos, desde los que realizan una condensación muy
pequeña hasta los que simplifican todo un residuo en una partícula, o incluso un grupo
de 4 residuos. El uso de estos métodos requiere una reparmetrización total del campo de
fuerzas que utilice mucha información experimental sobre el sistema y en algun caso el
uso de restricciones experimentales, como por ejemplo el conocimiento sobre la
estructura secundaria de la proteína que se mantiene fija a lo largo de la simulación.
Cuando se emplean estos métodos normalmente se obvía una descripción atomistica del
solvente, que se introduce como un continuo (por ejemplo modificando la constante
dieléctrica), con lo que se reduce todavia más el tamaño del sistema simulado,
aumentando las posibilidades de simularlo por periodos más largos y de manera más
eficiente
ELASTIC NETWORK MODELS
Son métodos desarollados muy recientemente, extremadamente simples, pero
sorprendentemente útiles para describir la flexibilidad de proteínas y ácidos nucleicos
respecto a la posición de equilibrio. No son útiles para representar grandes movimientos
como folding/unfolding, pero si para estudiar como una macromolécula oscila respecto
a su conformación nativa. Emplean típicamente una descripción coarse-grain muy
simple, por ejemplo cada residuo se representa solo por la posición de su carbono alfa.
- 33 -
Revisión 23/10/13
Los métodos ENM asumen que una proteía reaccionará respecto a la perturbación de su
conformación de equilibrio. También asumen el denominado principio de “no
fustración” que implica que cada residuo está en un entorno favorable para él y que
reaccionará si este se quiere modificar. Se asume que la reacción de un residuo al
cambio de su entorno es armónica y que se puede evaluar a partir de ver como cambian
las distancias de ese residuo respecto a todos sus vecinos dentro de un cutoff
(típicamente 10 Å). La mayoría de los métodos emplean una relación cuadrática entre la
energia y la distancia (ver figura 19). Así el funcional de energía que modula la
respuesta del sistema a cambios en la geometria será:
E = ∑ δ ij K (Rij − R 0ij ) 2
i, j
Donde δij es una función discontinua si las dos particulas estan dentro del cutoff vale 1,
sino vale 0; Rij es la distancia entre la partícula i & j existente y Rij0 es la de equilibrio
que se toma como aquella encontrada en la estructura experimental. K es una constante
de fuerza que se puede ajustar para que las oscilaciones de la proteína reproduzcan las
detectadas experimentalmente o por cálculos de MD.
Figura 19. Representación coarse grain de una proteína y su funcional de interacciones
ENM, cada linea representará una interacción armónica.
- 34 -
Revisión 23/10/13
Una vez se tiene este funcional, en lugar de hacer dinámica con él se suele emplear
técnicas de modos normales. Es decir como el potencial es harmónico centrado en la
estructura de equilibrio sabemos que está será un mínimo de energía con lo cual la
matriz de derivadas segundas (el Hessiano) nos dara las matrices de fuerza y con una
cierta manipulación de frecuencias. Asignaremos los movimientos de la proteína a esas
frecuencias de vibración (para una descripción mas detallada de la técnica miraos
http://mmb.pcb.ub.es/FlexServ/help/NMA.php).
- 35 -
Descargar