Revisión 23/10/13 TEMA 7. METODOS TEORICOS PARA EL ESTUDIO DE MACROMOLECULAS Las macromoléculas biológicas son en definitiva estructuras que se rigen por las leyes comunes de la física y que como tal pueden ser descritas teóricamente igual que lo son otros sistemas químicos. No obstante en la práctica somos capaces de entender el comportamiento de casi cualquier sistema químico, pero tenemos dificultades para entender, por ejemplo, el funcionamiento de la mayoria de proteínas. La razón no está ciertamente en la naturaleza de la química que pasa en las moléculas biológicas (que suele ser sencilla), sino en una serie de problemas prácticos que dificultan la descripción teórica: • Tenemos solo un conocimiento parcial del conjunto de procesos bioquímicos en la célula (p.ej. conocemos bien catabolismo y anabolismo, pero no los networks de señalización, control del ciclo celular,...). A menudo no reproducimos el comportamiento de una macromolécula, porque no sabemos en realidad que está afectando su comportamiento. • Tenemos una gran incertidumbre sobre la naturaleza del “entorno fisiológico”. Mucho de lo que sabemos de proteínas está obtenido por experimentos con proteina en muy alta dilución, mientras que en el interior de la célula el 20% en masa del citoplasma son proteínas, que no sabemos como interaccionan entre ellas. • Las macromoléculas biológicas: proteínas, ácidos nucleicos son muy grandes lo que complica su descripción atomística, especialmente cuando las representamos rodeadas de solvente. Las técnicas que veremos en este capítulo son metodologías desarrolladas para intentar paliar el problema de la descripción de los grandes sistemas bioquímicos. Estas estrategias se pueden clasificar en 2 tipos: estadísticas o macroscópicas, y microscópicas o físicas. -1- Revisión 23/10/13 Los métodos estadísticos (que asimilaremos aquí a técnicas bioinformáticas) emplean básicamente principios de comparación. La idea es analizar bases de datos de estructura, de secuencia, de función,…, para poder así derivar reglas en función de lo conocido que permitan describir lo desconocido. Los métodos físicos o microscópicos (que asimilaremos a técnicas de simulación) aspiran a entender los sistemas biológicos a partir de principios físicos fundamentales. BIOINFORMATICA ESTRUCTURAL La Bioinformática hace hoy de soporte a todas las facetas de la investigación en biología, desde ensamblados de genomas hasta la biología de sistemas. Nosotros en esta asignatura solo mencionaremos las técnicas básicas de bioinformática estructural. Métodos de predicción de propiedades primarias de las proteínas Hay un buen número de propiedades primarias de las proteínas que pueden ser inferidas directamente a partir de su secuencia. Entre ellas el punto isoeléctrico, la masa atomica, la curva de titración, el coeficiente de extinción y muchas otras características fisicoquímicas que se pueden derivar a partir del conocimiento de la composición en aminoácidos de una proteína. Una herramienta muy útil son los perfiles de hidrofobicidad. Para obtenerlos se calcula en unas ventanas de residuos determinadas cual es la hidrofobicidad media en cada residuo a partir de los coeficientes de partición (p.ej octanol/agua o clorofomo/agua) de los aminoácidos. Este tipo de perfil es muy útil, para por ejemplo determinar regiones internas (tipicamente hidrofóbicas) o externas (tipicamente hidrofílicas) de proteínas. También es información que se puede procesar para determinar regiones transmembranas, regiones de interacción proteína proteína, etc. Un ejemplo del tipo de perfil que se obtiene se muestra en la Figura 1. En el eje de abcisas esta la secuencia y en ordenadas el índice de hidrofobicidad. Valores positivos implican partes hidrofóbicas de la proteína -2- Revisión 23/10/13 Figura 1. Perfíl de hidrofobicidad de una proteína globular Perfiles similares a este sirven para predecir la exposición o no de un residuo a partir unicamente del conocimiento de la secuencia. Modificaciones de estos perfiles, combinados con reconocimiento de secuencias dianas se han empleado para reconocer sitios de glicosilación de proteínas, de sulfatación, miristinelización,..., o de proteínas especialmente sensibles a la degradación proteolítica (p.ej proteínas con secuencias PEST expuestas). También son útiles en la predicción de determinantes antigénicos. Ver el servidor de Swisprott para más detalles http://www.expasy.ch Predicción de funcionalidad por similitud de secuencia Se sabe que el grado de divergencia en el espacio de secuencias es mucho más grande que el del espacio de estructuras y de función. Eso hace que si 2 secuencias tienen una secuencia muy parecida tengan grandes posibilidades de tener la misma funcionalidad y en bastantes ocasiones la misma estructura. Por otro lado, se ha constatado que existen determinadas pautas en secuencia que están asociadas a distintas funciones. Estas dos observaciones dan lugar a dos familias de técnicas de predicción de funcionalidad por similitud de secuencia: i) Técnicas de similitud global. Aquí la idea es alinear la proteína problema con toda la base de datos (programas como BLAST o FASTA permiten hacer esto -3- Revisión 23/10/13 con gran rapidez) de proteínas de función conocida, a menudo ordenadas en familias funcionales. En resultado del programa es un listado de proteínas similares en cuanto a la secuencia a la problema, con un índice estadístico que reporta lo significativo de la similitud (un alineamiento será más significativo cuanto mas perfecta sea la correspondencia de aminoácidos y cuanto mas largo sea), y un listado que indica donde son parecidas las 2 proteínas (donde se alinean) y donde no lo son. Si la comparación da resultados de similitud significativa se asume que la proteína problema tendrá la misma función que la proteína homóloga detectada. Esta técnica es la que constituye el método fundamental de anotación de los genomas en los proyectos de secuenciación masivos. Un ejemplo de Input de este tipo de búsqueda y su correspondiente output están en la Figura 2. Cuando se quieren encontrar similitudes remotas es a menudo necesario hacer ciclos iterativos que buscan relaciones entre dos proteinas A y B no directas sino via la similitud con una tercera proteina C, debilmente similar a las dos. Esto lo ejecutan progamas iterativos caso de PsiBlast (Figura 3) ii) Técnicas de similitud de segmentos característicos. Se ha detectado que determinadas secuencias cortas de Aa están asociadas a determinadas funcionalidades. Esto ha dado lugar a la generación de bases de datos como ProSITE. Aquí por lo tanto no se valora la similitud global de la secuencia, sino la presencia de secuencias cortas significativas de función. Para un ejemplo de búsqueda ProSITE véase Figura 4. Destacar que los perfiles ProSITE deben usarse con cuidado y siempre vigilando la significación estadística de los “hits”, porque es comun encontrar matches a perfiles muy cortos, con poca significación real. INPUT BLAST QUERY -4- Revisión 23/10/13 Accession number or sequence Enter a Swiss-Prot/TrEMBL accession number or a PROTEIN sequence in RAW format. MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPH OUTPUT BLAST QUERY Query length: 61 AA Date run: 2003-09-08 17:20:12 UTC+0100 on sib-blast.unil.ch Program: NCBI BLASTP 2.2.5 [Nov-16-2002] Database: XXtremblnew; XXtrembl; XXswissprot 1,249,251 sequences; 402,609,643 total letters Swiss-Prot Release 41.22 of 29-Aug-2003 TrEMBL Release 24.10 of 29-Aug-2003 TrEMBL_new of 29-Aug-2003 Taxonomic view NiceBlast view Printable view List of potentially matching sequences Send selected sequences to Clustal W (multiple alignment) Enviar consulta Include query sequence Db AC Description Score E-value tr Q8XMW7 Hypothetical protein CPE0571 [CPE0571] [Clostridium pe... 142 5e-34 tr Q8EMU9 Hypothetical conserved protein [OB2741] [Oceanobacillu... 74 2e-13 sp Q58481 YA81_METJA Hypothetical protein MJ1081 [MJ1081] [Metha... 69 8e-12 tr Q97KL0 Uncharacterized conserved protein YjbQ/UPF0047 family,... 69 8e-12 tr Q8R842 Hypothetical protein TTE2189 [TTE2189] [Thermoanaeroba... 66 7e-11 -5- Revisión 23/10/13 Figura 2. Ejemplo de una por similitud de secuencia de una proteína problema contra Swisprott/TREMBL Taxonomy reports Distribution of 63 Blast Hits on the Query Sequence Mouse-over to show defline and scores. Click to show alignments >gi|18309553|ref|NP_561487.1| conserved hypothetical protein [Clostridium perfringens] gi|18144230|dbj|BAB80277.1| conserved hypothetical protein [Clostridium perfringens str. 13] Length = 135 Score = 113 bits (283), Expect = 7e-25 Identities = 59/61 (96%), Positives = 59/61 (96%), Gaps = 1/61 (1%) Query: 1 60 MNNFFKHTLETHTAAQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV MNNFFKHTLETHT QSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV -6- Revisión 23/10/13 Sbjct: 1 59 MNNFFKHTLETHT-PQSMSKITSYIREDIKNSNIENGIVVVYCPHTTAGITINENADPDV Figura 3. Ejemplo de los alineamientos óptimos de psiBlast obtenidos en el caso. Calculado desde el servidor http://www.ncbi.nlm.nih.gov/blast/ ScanProsite Scan Swiss-Prot with a PROSITE pattern Swiss-Prot Release 41.22 of 29-Aug-2003: 133723 entries PDOC00965 PS01253 FIBRONECTIN_1 Type I fibronectin domain. Pattern: C-x(6,8)-[LFY]-x(5)-[FYW]-x-[RK]-x(8,10)-C-x-C-x(6,9)-C Approximate number of expected random pattern matches in Swiss-Prot release 41.0 (122564 sequences): 0.18 [Ref: PMID 11535175] >P98140 (FA12_BOVIN) Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF) (Fragment) [Bos taurus (Bovine)] (593 AA). 125 - 160 CfepqffrfFheneiWhRlepagvvk..CqCkgpnaq...C Figura 4. Ejemplo de búsqueda de perfiles PROSITE en una proteína problema. En este caso encuentra en la proteína la presencia de un prosite característico de fibronectinas. Véase Expasy para una explicación de la gramática de los Perfiles ProSite. Técnicas de predicción de estructura secundaria Existen muchos programas y servidores que predicen la estructura secundaria de una proteína a partir de su secuencia. Todos ellos derivan del propuesto originalmente por Chou y Fasman. En la actualidad encontramos decenas de servidores que realizan cálculos de estructura secundaria, e incluso servidores de servidores por los que se puede enviar al cálculo a varios programas y coger los resultados de consenso. Solo en el web site de Swissprot encontramos más de una decena de estos servidores, que a menudo se entrenan automáticamente cada vez que aumentan las proteinas de estructura conocida depositadas en el Protein Data Bank (PDB: http://www.rcsb.org/pdb/home/home.do). Se calcula que para proteínas globulares el -7- Revisión 23/10/13 acierto es cercano al 80%, pero en realidad la precisión depende del tipo de proteína, siendo mayor para proteínas citoplasmáticas ricas en hélice alfa. La filosofía de los métodos es siempre la misma: i) exploración de las bases de datos de estructura 3-D (PDB), ii) elaboración de unas reglas de estructura, iii) aplicación de las reglas a la proteína problema. Las reglas que se establecen pueden ser de diverso tipo, pero siempre relacionan la estructura primaria con niveles superiores de estructuración que van desde la secundaria a la terciaria. De todas las técnicas estadísticas de predicción de estructura de proteínas comentaremos únicamente como un ejemplo el método original de Chou y Fasman. Estos autores asumen que la estructura secundaria de una proteína está en uno de estos 3 estados: hélice α, hoja β y giro. Al analizar PDB (Biochemistry 17, 4277 (1978)) encontraron la distribución de residuos en cada una de estas estructuras, de ella derivaron “propensiones” que representan la tendencia intrínseca de un aminoácido a estar en una determinada estructura secundaria. Las propensiones se insertan como reglas matemáticas para predecir la estructura secundaria en “ventanas” de 5-6 residuos que se van desplazando un aminoácido cada vez para cubrir toda la proteína. Aminoacido Ala Cys Leu Met Glu Gln His Lys P(α) P(β) P(turn) 1,29 1,11 1,3 1,47 1,44 1,27 1,22 1,23 0,9 0,74 1,02 0,97 0,75 0,8 1,08 0,77 0,78 0,8 0,59 0,39 1 0,97 0,69 0,96 Val Ile Phe Tyr Trp Thr 0,91 0,97 1,07 0,72 0,99 0,82 1,49 1,45 1,32 1,25 1,14 1,21 0,47 0,51 0,58 1,05 0,75 1,03 Gly Ser Asp Asn Pro 0,56 0,82 1,04 0,9 0,52 0,92 0,95 0,72 0,76 0,64 1,64 1,33 1,41 1,23 1,91 Arg 0,96 0,99 0,88 -8- Revisión 23/10/13 Figura 5. Propensiones de formar Estructuras secundarias método de Chou-Fasman. Con estas propensiones individuales se calculan directamente las promedios en ventanas que son las que permiten predecir la existencia o no a un tipo de estructura (véase Figura 6). En la Figura 5 los residuos del primer grupo forman fácilmente helice alfa, los segundos favorecen la hoja beta y los terceros los giros. Las prolinas raramente están en hélices. • Cada secuencia con 6 o mas residuos y <P(α)> ≥1,03 y <P(α)> ≥ <P(β)> y que no tengan Pro son hélices α. • Fragmentos de 5 residuos o más con <P(β)> ≥1,05 y <P(β)> ≥ <P(α)> será hoja beta • Tetrapéptidos con <P(α)> < 0.9 y <P(turn)> > <P(α)> son posiblemente giros. Figura 6. Reglas fundamentales de Chou-Fasman Los métodos de predicción de estructura secundaria son rápidos y precisos. Sirven no solo para asignar motivos estructurales sino para reconocer similitud en proteínas que no son visibles, tener una idea del plegamiento global en algunos casos, o incluso inferir aspectos de la función de la proteína. Presentan no obstante algunos problema: i) Son estadísticos, es decir funcionarán si la proteína se parece a lo que estaba en la base de datos. ii) Proporcionan solo información 2-D, no información tridimensional que es la más útil iii) Proporcionan información sólo sobre estructuras secundarias canónicas (algunos métodos tienen más de 3 estados, pero son pocos). No entienden de modificaciones estructurales sobre motivos canónicos. iv) Son más precisas para hélices que para cadenas beta. v) Son más precisas en proteína globulares citoplasmáticas. -9- Revisión 23/10/13 vi) Pueden dar resultados incorrectos en caso de proteínas intrinsecamente desordenadas. vii) Como todos los métodos estadísticos permiten predecir, pero no entender porqué. Técnicas de predicción de fragmentos transmembrana Las proteínas de membrana son muy difíciles de cristalizar, por lo que se conoce aún poco sobre sobre su estructura. De hecho programas de diseño de fármacos enteros que intentan obener fármacos contra, por ejemplo, receptores de membrana acoplados a proteinas G, o sobre algunos canales iónicos, se deben realizar utilizando modelos de estructura, no estructuras experimentales reales. La modelización es pues importante y se inicia normalmente por la determinación de los fragmentos de transmembranas. Los métodos que los predicen se basan en combinar algoritmos de homología con métodos de predicción de estructura secundaria y perfiels de hidrofobicidad.. Todo ello da reglas probabilísticas que también ayudan a la predicción. Son programas que pueden cometer errores, pero que han sido clave en asignación funcional de muchos receptores de membrana (véase por ejemplo http://sosui.proteome.bio.tuat.ac.jp/cgi-bin/sosui.cgi?/sosui_submit.html). En tanto que las familias funcionales de receptores, transportadores o iones tienen una alta homología estructural (a menudo no de secuencia) la determinación de un determinado pattern de segmentos transmebrana puede arrojar mucha luz sobre la funcionalidad de una proteína problema. Técnicas de predicción de dominios estructurales Las proteínas suelen plegarse en torno a dominios estructurales que son regiones globulares, típicamente de unos 100-150 residuos. Es muy importante conocer de una proteína problema donde están los dominios, por diversas razones: i) zonas entre dominio son sitios naturales de corte de proteínas que después se intentarán resolver por NMR, ii) proteínas muy diferentes de modo global pueden tener por el contrario dominios similares, iii) los dominios estructurales suelen tener implicaciones funcionales e incluso nos pueden dar idea de cual ha sido la evolución de la proteína. - 10 - Revisión 23/10/13 Los métodos que predicen dominios a partir de secuencia suelen trabajar con técnicas de homología a partir de alineamientos múltiples (alineamientos a nivel de dominio de muchas proteínas de estructura conocida). Existen bases de datos específicas de alineamientos múltiples de dominios como PFAM. Si encuentras una secuencia que encaja en uno de estos alineamientos tienes una alta garantía que ese fragmento se asigne a un dominio estructural. Para mejorar la precisión se añaden datos sobre la presencia de determinadas pautas de estructura, p.ej la presencia de regiones de baja complejidad de secuencia, regiones con péptido señal,... (véase http://www.sanger.ac.uk/Software/Pfam/). Mediante este tipo de programas se pueden anotar dominios en estructuras grandes de proteínas. En el ejemplo de abajo se muestra un alineamiento múltiple que define un tipo de dominios comunes a una famiila de proteínas (alfa-kinasa). Se pueden ver los residuos que definen el dominio. Estos alineamientos son contra lo que nosotros lanzaríamos nuestra proteína problema para que por su alineamiento (con respecto a ese alineamiento global de referencia) tuviéramos la definición del dominio. Q9P201/571-786 LLLKYSK...KSELWTAQETIVYLGDYLTVKKKGRQRNA.FWVHHLHQ...................... ...............EEILGRYVGKDYKEQKGLWHHFTDVERQMTAQHYVTEFNKRLYEQNIPTQIFYIP STILLILEDKTIKG.....CISVEPYILGEFVKLSNNTK.....VVKTEYKATEYGLAYGHFSYEFSNHR DVVVDLQGWVTGNGKGLIYLTDPQIHSVD......QKVFTTNFGKRGIFYFFNNQHVECNEIC Q9P201 Q9HEI0/537-758 MLDRMME...SDTNMPVSVFGLNLCKRRTPFAKGALRLASFACTECSRS..................... .........RHVVKEFKTDGDDEDD.GSGNRSLAHLVDDMRSQALCKAFALEFNSLLADC..PEHNIDFV VTSCFKCNDRRGSQ...GKCMSIEPFLAGKFVKYNGNAGYANKEANLTHDPSNQAAQAFSHFTFERSRGR FLVCDLQGVG.......KTMTDPAIHTLDP...YRFSLSQTNLGAEGFMFFF..AYHECNHLC Q9HEI0 KMHA_DICDI/561-800 ILWEFDP...IINKWIRLSMKLKVERK..PFAEGALREA.YHTVSLGVGTDENYPLGTTTKLFPPIEMIS PISKNNEAMTQLKNGTKFVLKLYKKEAEQQASRELYFEDVKMQMVCRDWGNKFNQKK.....PPKKIEFL MSWVVELIDRSPSSNGQPILCSIEPLLVGEFKKNNSNYG......AVLT.N.RSTPQAFSHFTYELSNKQ MIVVDIQGVD.......DLYTDPQIHTPD.....GKGFGLGNLGKAGINKFI..TTHKCNAVC P42527 O76739/34-235 IKWELTIGDDLKPKWTHSIVCVSIEKT..PFAKGSCRTA.HKLKDWSQP..................... ..............DQGLVGKFST...NKKTTRDSYFTDVLMQTFCAKWAEKFNEAK.....PPKPITFL PSYVYELIDHPPP....YPVCGGEPFIEGDYKKHNNNSG......YVSS.DARNTPQSFSHFSYELSNHE LLIVDIQGVN.......DFYTDPQIHTKS.....GEGFGEGNLGETGFHKFL..QTHKCNPVC O76739 KMHB_DICDI/119-320 IKWEYDP.YTTTAQWTCTATLVKVEPV..PFAEGAFRKA.YHTLDLSK...................... ...............SGASGRYVSKIGKKPTPRPSYFEDVKMQMIAKKWADKYNSFK.....PPKKIEFL QSCVLEFVDRTSS....DLICGAEPYVEGQYRKYNNNSG......FVSN.DERNTPQSFSHFTYEHSNHQ LLIIDIQGVG.......DHYTDPQIHTYD.....GVGFGIGNLGQKGFEKFL..DTHKCNAIC P90648 EF2K_RAT/112-317 TRHRYNA...VTGEWLKDEVLIKMASQ..PFGRGAMREC.FRTKKLSN...................... .........FLHAQHWKGASNYVAKRYLEPVDRSVYFEDVQLQMEAKLWGEEYNRHK.....PPKQVDIM - 11 - Revisión 23/10/13 QMCIIELKDRQGQ.....PLFHLEHYIEGKYIKYNSNSG......FVRDDNIRLTPQAFSHFTFERSGHQ LIVVDIQGVG.......DLYTDPQIHTEK.....GTDFGDGNLGVRGMALFF..YSHACNRIC P70531 (…) Figura 7. Ejemplo de alineamiento múltipe que aparece en una familia PFAM http://www.sanger.ac.uk/Software/Pfam/. El tipo de output que obtendremos final sería similar a: Description from Swissprot for PIG1_BOVIN : Source Domain Start End 1-phosphatidylinositol-4,5-bisphosphate phosphodiesterase gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase cgamma-1) (plc-ii)(plc-148) Pfam PH 33 142 321 465 Pfam PI-PLC-X Pfam-B_30023 484 549 Pfam SH2 550 639 Pfam SH2 PH 33-142 Pfam SH3 668 741 794 849 Pfam [1291 residues] Pfam PH (Partial) 864 931 Pfam PI-PLC-Y 952 1070 Pfam C2 1090 1177 Pfam Pfam-B_37780 1212 PH 864-931 PI-PLC-Y 952-1070 Smart PH 33 C2 1090-1177 Smart PLCXc 320 1291 Context: efhand 156-184 PI-PLC-X 321-465 SH2 550-639 SH2 668-741 SH3 794-849 144 464 Key signal peptide: pfamA: > Context: > smart: > transmembrane: > low complexity: > - 12 - coiled coil: > pfamB: > Revisión 23/10/13 Smart PH 489 680 Smart SH2 548 645 Smart SH2 666 747 ... Figura 8. Output de PFAM para 1-phosphatidylinositol-4,5-bisphosphate phosphodiesterase gamma 1(ec 3.1.4.11) (plc-gamma-1) (phospholipase c-gamma-1) (plc-ii)(plc-148). Estos métodos de asignación de dominios son muy potentes y no precisan conocimiento estructural de la proteína. Sus limitaciones se encuentran en los casos de proteínas de estructura inusual o sin homólogos conocidos. Técnicas de predicción de estructura terciaria por homología Es posible predecir con bastante precisión la estructura tridimensional de una proteína a partir de la secuencia cuando la proteína problema tiene una identidad de secuencia superior al 30% con una proteína de estructura tridimensional conocida. Los modelado por homología se basan en superponer lo mejor posible los backbones de las proteínas problema y molde ajustando en lo posible las cadenas laterales coincidentes. Los segmentos que no se sobreponen se simulan a partir de datos estructurales de motivos tipo (p.ej loops), el conjunto se optimiza y relaja para evitar violaciones de esqueleto covalente o choques de cadenas laterales. Un proceso de modelización de proteínas. Por ejemplo con el programa MODELLER o con el sistema automático de - 13 - Revisión 23/10/13 SWISPROT dan no únicamente una solución sino varias que se “puntúan” en función de criterios fundamentalmente energéticos (i.e. que tan estable parece el modelo generado). Todas las diferentes soluciones generadas deben ser evaluadas en cuanto a su capacidad para explicar datos experimentales y de hecho es posible incorporar datos experimentales como restricción en la creación de los modelos. La técnica es muy poderosa, cuando la homología es fuerte el “backbone: i.e la cadena principal” modelada se parecerá mucho a la problema. Los problemas se presentan a dos niveles: i) Los modelos no suelen tener la misma calidad en las cadenas laterales que en la cadena principal. ii) No todas las partes de la estructura estan igual de bien modeladas. Por ejemplos los loops suelen no ser muy fiables. iii) Cuando la identidad de secuencia baja por debajo del 30% entramos en una zona (twilight-zone) donde está poco clara la calidad del modelo. Cuando bajamos del 20% de identidad la técnica no es aplicable. iv) Solo es fiable cuando se aplica a nivel de dominio. Proteínas con varios dominios no son modeladas con fiabilidad. Técnicas de predicción de estructura terciaria por threading Las técnicas de threading sirven para modelar estructuras en casos en los que la identidad de secuencia es muy baja. También sirven para hacer asignación de función a proteínas para las que los métodos de secuencia no encuentran homólogos cercanos. Son técnicas de alto riesgo, que solo se justifican cuando no existen otras alternativas. La idea fundamental de las técnicas de threading (ej. THREADER) es la de que la proteína problema, a pesar de no tener identidad notable con ninguna de las bases de datos tendra un motivo de plegamiento (fold) que será alguno de los que se han reportado en las bases de datos de estructura como CATH o SCOP. Estas bases de datos clasifican todas las proteínas definiendo diferentes tipos de FOLD canónicos. La clasificación se hace en diversos niveles de jerarquía. Por ejemplo en CATH tenemos descripciones jerárquicas como la que muestra la Figura 9 que permiten agrupar tipos de folds para usar como referencia en cálculos de Threading - 14 - Revisión 23/10/13 Figura 9. Ejemplo de clasificación (3 primeros niveles) de la base de datos CATH de C.Orengo. Los métodos de threading colocan la cadena de la proteína problema en cada uno de los posibles folds de referencia y evalúan que tan estable es la secuencia problema en cada uno de los folds. El más estable se recuperará como el plegamiento candidato y la proteína(s) que den este fold se considerarán relacionadas con la proteína problema. La técnica es poco precisa, y trabaja únicamente a nivel de dominio estructural. Existen diferentes programas que permiten realizar “threading” e incluso servidores que envían el cálculo a diferentes programas y derivan una predicción consenso. Por ejemplo www.bioinfo.pl, www.sbc.su.se o www.sbg.bio.ic.ac.uk). Métodos de predicción ab initio a partir de potenciales estadísticos. Representan la frontera entre métodos estadísticos y físicos. Tratan de predecir cual será la estructura terciaria de proteínas a partir de potenciales estadísticos que dan idea de la preferencia de un residuo por un determinado entorno y algunas otras reglas sobre, por ejemplo similitudes en pequeños motivos de estructura, cercania a estructuras conocidas etc. Programas como Rossetta de D.Baker (https://www.rosettacommons.org/) han permitido obtener modelos “ab initio” de estructura de proteínas pequeñas y en algun caso predecir a priori cual seria la estructura y la función de una proteína totalmente diseñada in silico sin ningún tipo de similitud con ninguna proteína conocida. Son métodos no obstante aplicables únicamente a - 15 - Revisión 23/10/13 proteínas pequeñas y globulares y que aún en estos casos tienen un elevado nivel de riesgo y requieren un nivel de experiencia muy alto en su uso. Los potenciales estadísticos que alimentan métodos como ROSSETTA se derivan de observar la distribución global y relativa de aminoácidos en proteínas a partir de lo que se deriva un conjunto de funciones que describen las posiciones relativas mas comunes de pares de residuos. Los potenciales estadísticos se implementan en programas como PROSA-II (https://prosa.services.came.sbg.ac.at/prosa.php) que permiten determinar lo estable que está un determinado residuo en su entorno proteico teniendo en cuenta como son otros miles de entornos proteicos. Los perfiles tipo PROSA no solo se emplean en cálculos ab initio de estructura de proteínas, sino que son muy empleados en el refinado de estructuras experimentales por NMR o Rayos X para determinar la posible existencia de errores (véase ejemplo de perfiles PROSA en la Figura 10). Very stable low stability Hidrophobic Cβ-Cβ Total http://lore.came.sbg.ac.at:8080/CAME/CAME_EXTERN/ProsaII/index_ Figure 10. Perfil de PROSA representado estabilidad de residuos en una proteína. Técnicas de predicción de proteínas intrinsecamente desordenadas - 16 - Revisión 23/10/13 Recientemente se ha detectado que una parte de las proteínas funcionales carecen intrinsicamente de toda o parte de esctructura definido, adoptándolas en muchos casos para ineraccionar con ligandos. En bacterias se cree que es sobre un 5% pero para eucariotas evolucionados se cree que llega al 40%. Si nos centramos en proteinas de señalización se cree que se llegaria al 60-70% en organismos como el humano. Que una proteína sea intrisecamente desordenada no quiere decir que toda ella carezca de estructura (en algún caso si, ver Figura 11), sino que tiene grandes segmentos sin estructura, que coexisten a veces con cores estructurales muy marcados. La predicción de IDP (intrinsically disordered proteins) se basa en algunas características comunes de las proteínas desordenadas, por ejemplo, contenido bajo de residuos hidrofóbicos y alto en residuos cargados. También es común que muestren grandes regiones de baja complejidad, es decir segmentos repetidos con solo muy poca variación de aminoácidos y una baja predicción de estructura secundaria clásica. Hay diferentes programa para la predicción de IDP. Algunos de los más usados son posiblemente IUPRED (Bioinformatics 2005, 21, 3433; http://iupred.enzim.hu/), DISPROT (http://www.disprot.org/ ) o DisEMBL (http://dis.embl.de/). Un detalle del tipo de output que producen lo teneis en la Figura 12. Figura 11. Comparación entre los “ensembles” de NMR de una proteína intrinsecamente desordenada y una plegada tradicional. - 17 - Revisión 23/10/13 Figura 12. Imagen resultante de DisEMBL donde se pueden observar diferentes indicadores de probabilidad de desorden a lo largo de la secuencia, mostrándose probabilidad alta de desorden en el segmento 20-100 de la proteína. - 18 - Revisión 23/10/13 METODOS MICROSCOPICOS/FISICOS (de simulación) Pretenden predecir y simular la estructura y el comportamiento de las macromoléculas, empleando para ello las reglas elementales de la física y de la química. Existen dos grupos de técnicas microscópicas claramente diferenciadas: i) técnicas derivadas de la mecánica cuántica y ii) técnicas derivadas de la mecánica clásica. Las dos técnicas tienen el mismo objetivo: describir el sistema a nivel atómico, pero las diferencias entre ellas son claras. La mecánica cuántica introduce los grados de libertad de núcleos y electrones, mientras que la mecánica clásica considera únicamente la posición de los núcleos. La mecánica cuántica calcula las interacciones moleculares rigurosamente, basándose en primeros principios, mientras que la mecánica clásica se basa en el uso de campos de fuerza empíricos. La mecánica cuántica supone que las partículas se ven gobernadas por las leyes básicas de la física cuántica, mientras que la mecánica clásica supone que las moléculas son partículas clásicas gobernadas por las leyes de la mecánica Newtoniana. MECANICA CLASICA La energía de una molécula se expresa como una función únicamente de las posiciones de los núcleos. No se consideran por lo tanto los electrones de modo explicito, lo que simplifica mucho el cálculo con respecto a la mecánica cuántica. La energía del sistema se expresa no como un complejo conjunto de ecuaciones diferenciales como en la mecánica cuántica, sino de manera mucho más simple, a partir de un conjunto de ecuaciones simples (el “force-field”) que relacionan las posiciones relativas de los núcleos con la energía del sistema. Estas ecuaciones deben introducir de modo implícito el efecto de los electrones. Por ejemplo, los electrones de un enlace que une dos átomos no se incluyen en el cálculo, pero su efecto (mantener unidos los 2 átomos) se consigue reproducir introduciendo una ecuación de tipo parabólico que haga que los 2 átomos tiendan a estar a una distancia propia de un enlace s. - 19 - Revisión 23/10/13 Las ecuaciones del force-field se escogen a partir de evidencias experimentales. Por ejemplo, en el caso comentado anteriormente, sabemos que al alargar o acortar el enlace entre 2 átomos se produce un aumento de la energía, la cual sigue un perfil que se representa según una función de Morse. Este perfil puede obviamente obtenerse a partir de cálculo cuántico, pero es también fácil reproducirlo en las cercanías de la distancia de equilibrio por un potencial armónico como el de Hooke (Kstr(l-lo)2). Energy Morse 200 180 160 140 120 100 80 60 40 20 0 Bond length Figura 11. Ejemplo de la dependencia de la energía con la longitud de enlace (Morse). Energy Hooke 80 70 60 50 40 30 20 10 0 Bond length Figura 12. Ejemplo de la dependencia de la energía con la longitud de enlace (Hooke). - 20 - Revisión 23/10/13 Nótese que cada tipo de enlace tendrá una constante de fuerza (K) y una distancia óptima de equilibrio (lo). Así un enlace doble C=C tendrá una distancia más corta que un enlace C-C simple, y más larga que un enlace triple C≡C. Asimismo, la constante de fuerza del enlace triple será más grande que la del doble y esta más que la de un enlace sencillo. De esta manera vemos como podemos ir describiendo las distintas interacciones que existen entre núcleos empleando ecuaciones empíricas sencillas. El conjunto de ecuaciones que expresan la energía en función de las coordenadas nucleares es el “force-field”. Su forma general es la que se muestra más abajo: Non bonded-terms Bonded-terms Other restrains E = E str + Ebnd + Etor + E nb + Eother Donde distinguimos los “bonded-terms” (términos de enlace), los non-bonded-terms (términos de no-enlace) y “otros”. Interacciones de enlace Son las que se median por enlaces covalentes. Incluyen: Stretching. Representa la resistencia de dos átomos enlazados a variar su distancia de enlace. Se suele representar por ecuaciones parabólicas del tipo del potencial de Hooke. La constante de fuerza da idea de la deformabilidad del enlace y la distancia de equilibrio de su longitud. Estr = ∑K str (l − lo ) 2 bonds Bending. Es la interacción que nos da la resistencia de tres átomos enlazados consecutivamente a variar su ángulo de equilibrio. Se suele representar por ecuaciones parabólicas del tipo del potencial de Hooke. La constante de fuerza da idea de la deformabilidad del ángulo y la distancia de equilibrio de su amplitud. - 21 - Revisión 23/10/13 ∑K Ebnd = ang (Θ − Θ o ) 2 angles Torsión. Es el término que se emplea para representar la energética de la rotación respecto a enlaces químicos. Suele representarse por una serie de Fourier con términos de distinta periodicidad (normalmente 1,2, 3). Por ejemplo la rotación del etano (Figura 13) respecto al enlace C-C será representado por un solo término de Fourier de periodicidad 3, mientras que la rotación respecto al enlace C=C del eteno lo será por un término de periodicidad 2 (Figura 14). Periodicidad 3 10 Energy 8 6 4 2 360 315 270 225 180 135 90 45 0 0 degrees Figura 13. Ejemplo de torsión de periodicidad 3. dih V3 (1 + cos 3Φ) n =1 2 Etor = ∑∑ tor Donde V3 es el potencial de la barrera (8 en la Figura 17), 3 es la periodicidad y F es el ángulo diedro - 22 - Revisión 23/10/13 Periodicidad 2 10 Energy 8 6 4 2 360 315 270 225 180 135 90 45 0 0 degrees Figura 14. Ejemplo de torsión de periodicidad 2. dih V2 (1 − cos 2Φ ) n =1 2 Etor = ∑∑ tor Donde el signo negativo en el coseno sirve para simular el cambio de fase en la serie de Fourier de periodicidad 2. Véase Figura 18. En general, podemos considerar que la torsión se expresará como una expansión de términos de Fourier de orden 1, 2 y 3. 3 Vn (1 + cos nΦ − γ ) n =1 2 Etor = ∑∑ tor Interacciones de no-enlace Son las interacciones entre átomos que están separados por más de 3 enlaces covalentes. En diferentes force-fields se encuentran diferentes ecuaciones dentro de este término. No obstante, considerando los campos de fuerza más sencillos vemos que existen Interacciones electrostáticas. Representan las interacciones entre las distribuciones de carga de los distintos átomos de la molécula. Suelen representarse por un simple - 23 - Revisión 23/10/13 potencial Coulómbico donde Rmn es la distancia entre los átomos y Qm, Qn son las cargas centradas en los mismos. La constante dieléctrica ε sirve para introducir efecto de “screening” electrostático del solvente. QmQn m , n ε ( Rmn ) Rmn Eele = ∑ Coulomb potential 1000 0 4 3,6 3,2 2,8 2,4 2 1,6 1,2 0,9 0,7 0,5 Energy 500 -500 -1000 Distance Figura 15. Ejemplo de un potencial electrostático atractivo y otro repulsivo. Interacciones de van der Waals. La interacción de van der Waals es usado en los forcefields con un fin doble: i) evitar la “fusión” de átomos no unidos de carga de signo opuesto, ii) representar las interacciones atractivas a corta distancia fruto de las fuerzas dispersivas. El perfil clásico de una interacción de van der Waals es el que se muestra más abajo, que se suele representar con una parte repulsiva a muy cortas distancias que depende normalmente de la potencia 12 de la distancia interatómica, mas un término atractivo que actúa básicamente a distancias intermedias que depende de la potencia 6 de la distancia interatómica. Aij Cij Evw = ∑ 12 − 6 Rij i , j Rij - 24 - Revisión 23/10/13 Donde Aij y Cij son parámetros que definen la interacción de van der Waals entre átomos. Normalmente se calcula a partir de reglas combinatorias como la que mostramos más abajo: i Aij = (ε iε j )1/ 2 ( Rvw + Rvwj )12 i Cij = 2 × (ε iε j )1/ 2 ( Rvw + Rvwj ) 6 ε aquí representa la “dureza” del átomo es decir que tan atractor es a largas distancias y repulsivo a cortas. Rvw es el radio de van der Waals que define el tamaño del átomo, es decir donde deja de ser atractivo y donde repulsivo el potencial. Partición van der Waals 20 Energy 15 10 5 0 -5 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 -10 distance Figura 16. Perfil con la distancia de una interacción típica de van der Waals. En azul aparece la interacción total, en magenta la repulsiva y en amarillo la atractiva. Parametrización - 25 - Revisión 23/10/13 Los force-fields contienen toda una serie de parámetros que definen los diversos tipos de interacción y que deben ser conocidos antes de realizar el cálculo. El proceso de determinación de estos parámetros es lo que se conoce como parametrización, y es una de las etapas básicas en el desarrollo de un force-field. La parametrización se hace siempre ajustando los cálculos de mecánica clásica a otros datos de más calidad, que pueden ser los derivados de la mecánica cuántica, o de medidas experimentales. Stretchings y bendings: Se pueden derivar de cálculos cuánticos en los que se perturbe los valores de equilibrio de enlaces y ángulos, o bien del análisis de las matrices de fuerza cuánticas del sistema. Experimentalmente se derivan de datos de espectroscopia IR (constantes de fuerza) y de datos de microondas, rayos X y otros. Torsiones. Se pueden determinar a partir de datos cuánticos ajustando los perfiles de rotación. Experimentalmente son más dificiles de obtener, normalmente se derivan a partir de datos de espectroscopía de NMR. Electrostático. Las cargas se derivan a partir normalmente de cálculos cuánticos donde se calcula la densidad de carga y se integra sobre los núcleos. Experimentalmente es difícil, pero pueden ajustarse a partir de datos sobre densidades electrónicas derivadas de Rayos X, o bien por ajuste de datos clásicos de una simulación de un líquido a su comportamiento experimental (Figura 21). Van der Waals. Se pueden determinar cuánticamente a partir de perfiles de interacción entre dos moléculas, o bien experimentalmente a partir de datos de empaquetamiento cristalino, o bien por ajuste de datos clásicos de una simulación de un líquido a su comportamiento experimental. METODOS QUE EMPLEAN LA MECANICA CLASICA El force-field permite expresar la energía de la molécula como una función de las coordenadas de los núcleos. Esta información puede ser procesada de diversas maneras dando lugar a una serie de técnicas - 26 - Revisión 23/10/13 Mecánica molecular (MM). La técnica clásica más sencilla. Su objetivo es encontrar la disposición espacial de los núcleos más estable, esto es, la que minimiza la energía del sistema. Dinámica molecular (MD). La información sobre la energética del sistema se procesa para obtener las fuerzas que actúan sobre cada átomo. Estas fuerzas son entonces usadas para determinar las trayectorias de cada átomo (esto es las posiciones que los átomos van tomando a lo largo del tiempo). MECANICA Y DINAMICA MOLECULAR MARCOS DE APLICACION Las técnicas de MM y MD al estar basadas en mecánica clásica presentan una serie de ventajas e inconvenientes con respecto a las técnicas de mecánica cuántica: i) Si los parámetros que se incorporan al force-field son buenos los resultados son de una alta calidad. ii) Es mucho más rápida que la mecánica cuántica, lo que permite estudiar sistemas de gran tamaño, e incluso analizar su comportamiento a lo largo del tiempo. En mecánica clásica se han llegado a estudiar sistemas con decenas de millones de átomos durante periodos de nano to microsegundo, mientras que en mecánica cuántica es dificil estudiar (estáticamente) mas de unas decenas. Las limitaciones son obvias: i) Todos los resultados dependen de la calidad y la transferabilidad del forcefield. ii) No son aplicables a reacciones químicas o al estudio de cualquier proceso que deba ser descrito teniendo en cuenta la naturaleza cuántica de las moléculas. Por ejemplo sistemas fuertemente polarizados, con transferencia de carga, etc. - 27 - Revisión 23/10/13 Estas características son las que marcan sus campos de aplicación. Así para moléculas pequeñas o para estudiar reacciones químicas se empleará preferentemente las técnicas cuánticas. Las técnicas clásicas serán la elección en la mayoría de los casos siempre que el sistema sea más grande de 100 átomos, no sufra reacciones o cambios en la estructura covalente del mismo. En algunos casos, por ejemplo estudio de reacciones enzimáticas, donde es preciso un nivel de descripción cuántico solo en una parte del sistema, mientras que el resto se puede describir clásicamente se puede recurrir a descripciones mixtas, los denominados métodos QM/MM. METODOS DE MECANICA MOLECULAR Estos métodos son los más simples, y tienen por objetivo encontrar la conformación de mínima energía de un sistema y su energía. El diagrama de flujo de un programa de mecánica molecular se muestra más abajo y consta de varias etapas: i) a partir de unas coordenadas iniciales (R) se calcula la energía del sistema, ii) se calcula la derivada de la energía respecto al movimiento de los átomos, iii) se trata de encontrar la conformación del sistema que de un mínimo de energía (derivada primera 0, derivada segunda positiva). - 28 - Revisión 23/10/13 {x}0 NO Epot g= Epot/∂x Converg ido? Algoritmo de búsqueda SI Nuevo conjunto {x}1 Final Figura 17. Algoritmo general de un programa de mecánica molecular (MM). El resultado de la minimización es una conformación estable del sistema y un valor de mínima energía del mismo. La mecánica molecular se emplea no solo para obtener una estructura energéticamente estable del sistema, sino para predecir cualitativamente la energía de interacción entre 2 moléculas, por ejemplo, si tenemos una proteína que interacciona con 2 moléculas A y B, es fácil calcular cual de ellas se unirá más fuertemente restando las energías potenciales de los complejos proteína-A y proteína-B. La mecánica molecular es una técnica muy sencilla y computacionalmente muy económica, lo que la hace muy eficaz en bioquímica. No obstante, esta técnica presenta 2 serias limitaciones ( a parte de las propias de cualquier técnica clásica). i) El sistema se ve estáticamente. Esto es se obtiene una “foto” del mismo, en el mejor de los casos en su forma más estable, pero no se tiene idea de su flexibilidad, de su movilidad al largo del tiempo. - 29 - Revisión 23/10/13 ii) No se pueden introducir efectos de temperatura en el cálculo, de hecho la descripción que se obtiene del sistema se corresponde a T= 0 K. iii) Es imposible para un sistema grande estar seguro de que el mínimo localizado es el mínimo absoluto y no un mínimo relativo. El sistema de optimización de geometría es muy dependiente de las coordenadas del punto inicial considerado en el proceso de optimización. Véase Figura de la derecha Figura 18. Superficie de Energía Potencial Estas limitaciones son las que dieron lugar al desarrollo de las técnicas de dinámica molecular. TECNICAS DE DINAMICA MOLECULAR La dinámica tiene como objetivo obtener una visión de las trayectorias que un sistema sigue a lo largo del tiempo. Esto puede usarse para: • OBTENER VISIONES PROMEDIO DE UN SISTEMA (ESTO SE DENOMINA ENSEMBLE DE BOLTZMAN) • OBTENER REPRESENTACIONES DE TRANSICIONES TEMPORALES • OBTENER DESCRIPCIÓN DE LA TERMODINÁMICA DEL SISTEMA A PARTIR DE LA FÍSICA ESTADÍSTICA • RELAJAR LA GEOMETRIA DE UN SISTEMA • ESTUDIAR LA FLEXIBILIDAD DE EQUILIBRIO DE UN SISTEMA - 30 - Revisión 23/10/13 • OBTENER REPRESENTACIONES DEL CAMBIO DE UN SISTEMA DEBIDO A PERTURBACIONES EXTERNAS El esquema de un programa de dinámica molecular es como el que se muestra más abajo: i) para la conformación inicial (Ro) se calcula la energía potencial del sistema (via force-field) y se estima la energía cinética (Ek=0.5 mv2) a partir de unas velocidades iniciales generadas al azar para una temperatura dada (Ek= Etermica= 1.5 N kbT) (donde N es el número de grados de libertad del sistema y kb es la constante de Boltzman), ii) se deriva la energía (respecto R) sobre cada átomo para obtener las fuerzas sobre cada átomo, iii) se calculan las aceleraciones sobre cada átomo, iv) las aceleraciones se integran numéricamente una vez para dar las velocidades en un nuevo intervalo de tiempo, v) las velocidades se integran para dar las nuevas posiciones después de un cierto tiempo, vi) con las nuevas posiciones y velocidades se vuelve a calcular las nuevas energías potenciales y cinéticas y se repite todo el proceso. Nótese que al repetirse el proceso se va obteniendo un archivo con las posiciones y velocidades de los distintos átomos del sistema a lo largo del tiempo (la trayectoria), lo cual nos informa sobre la historia del sistema a lo largo del tiempo. - 31 - Revisión 23/10/13 Epot {xi} Fi= -∂Epot/∂xi ai= Fi/mi vi (t+dt)=v(t)i+ai dt xi (t+dt)=x(t)i+vi dt Figura 19. Esquema general de un algoritmo de dinámica molecular El esquema general se puede modificar para poder simular determinadas condiciones experimentales como presión constante o temperatura constante. La integración de las ecuaciones de Newton es numérica debido a la complejidad del funcional empleado para expresar la energía. Para que la integración sea correcta debe darse por lo tanto que la etapa de integración sea más pequeña que el movimiento más rápido del sistema (las vibraciones de enlace de los átomos que está en la escala del femtosegundo 10-15 seg). Eso significa que hacer una trayectoria de 1 nanosegundo requiera realizar más de 1 millón. Se pueden restringir los movimientos más rápidos del sistema (vibraciones de enlace), eso permite aumentar la escala de integración hasta 2 fts, pero aún así se requieren muchísimos cálculos para poder representar un proceso de relevancia biológica. De hecho la MD es posiblemente la técnica que consume más recursos computacionalmente en la actualidad. A pesar de ello es muy empleada por su capacidad para describir sistemas clásicos a lo largo del tiempo. METODOS FÍSICO DE COARSE GRAIN - 32 - Revisión 23/10/13 Aún con los ordenadores más potentes la MD atomístic descrita más arriba es una técnica costosa que cuesta que proporcione muestreos más allá del microsegundo (todo y que ya en 2011 se publicaron trayectorias de 1 milisegundo), por lo que han sido varios los grupos que han intentado desarrollar métodos que proporcionen información dinámica más sencillos. De ellos comentaremos dos: DINAMICA COARSE-GRAIN Son cálculos idénticos a los comentados más arriba, pero donde se condensan átomos en grupos a fin de: i) reducir los grados de libertad del sistema, ii) al tener partículas más pesadas, que se moveran más lentamente, poder aumentar la etapa de integración. Hay diferentes variantes de estos métodos, desde los que realizan una condensación muy pequeña hasta los que simplifican todo un residuo en una partícula, o incluso un grupo de 4 residuos. El uso de estos métodos requiere una reparmetrización total del campo de fuerzas que utilice mucha información experimental sobre el sistema y en algun caso el uso de restricciones experimentales, como por ejemplo el conocimiento sobre la estructura secundaria de la proteína que se mantiene fija a lo largo de la simulación. Cuando se emplean estos métodos normalmente se obvía una descripción atomistica del solvente, que se introduce como un continuo (por ejemplo modificando la constante dieléctrica), con lo que se reduce todavia más el tamaño del sistema simulado, aumentando las posibilidades de simularlo por periodos más largos y de manera más eficiente ELASTIC NETWORK MODELS Son métodos desarollados muy recientemente, extremadamente simples, pero sorprendentemente útiles para describir la flexibilidad de proteínas y ácidos nucleicos respecto a la posición de equilibrio. No son útiles para representar grandes movimientos como folding/unfolding, pero si para estudiar como una macromolécula oscila respecto a su conformación nativa. Emplean típicamente una descripción coarse-grain muy simple, por ejemplo cada residuo se representa solo por la posición de su carbono alfa. - 33 - Revisión 23/10/13 Los métodos ENM asumen que una proteía reaccionará respecto a la perturbación de su conformación de equilibrio. También asumen el denominado principio de “no fustración” que implica que cada residuo está en un entorno favorable para él y que reaccionará si este se quiere modificar. Se asume que la reacción de un residuo al cambio de su entorno es armónica y que se puede evaluar a partir de ver como cambian las distancias de ese residuo respecto a todos sus vecinos dentro de un cutoff (típicamente 10 Å). La mayoría de los métodos emplean una relación cuadrática entre la energia y la distancia (ver figura 19). Así el funcional de energía que modula la respuesta del sistema a cambios en la geometria será: E = ∑ δ ij K (Rij − R 0ij ) 2 i, j Donde δij es una función discontinua si las dos particulas estan dentro del cutoff vale 1, sino vale 0; Rij es la distancia entre la partícula i & j existente y Rij0 es la de equilibrio que se toma como aquella encontrada en la estructura experimental. K es una constante de fuerza que se puede ajustar para que las oscilaciones de la proteína reproduzcan las detectadas experimentalmente o por cálculos de MD. Figura 19. Representación coarse grain de una proteína y su funcional de interacciones ENM, cada linea representará una interacción armónica. - 34 - Revisión 23/10/13 Una vez se tiene este funcional, en lugar de hacer dinámica con él se suele emplear técnicas de modos normales. Es decir como el potencial es harmónico centrado en la estructura de equilibrio sabemos que está será un mínimo de energía con lo cual la matriz de derivadas segundas (el Hessiano) nos dara las matrices de fuerza y con una cierta manipulación de frecuencias. Asignaremos los movimientos de la proteína a esas frecuencias de vibración (para una descripción mas detallada de la técnica miraos http://mmb.pcb.ub.es/FlexServ/help/NMA.php). - 35 -