Predicción de la estructura terciara de las proteínas

Anuncio
Predicción de la estructura terciara de las proteínas
Cuando la estructura terciaria de una proteína no se ha determinado experimentalmente,
se puede intentar construir un modelo tridimensional a partir de su secuencia de
aminoácidos. Los métodos predictivos se basan en los experimentos llevados a cabo en
1961 por Christian B. Anfinsen con la ribonucleasa A. Este investigador observó que
tras desnaturalizar la proteína por completo utilizando urea y -mercaptoetanol era
posible encontrar condiciones en las que la proteína recuperaba su estructura
tridimensional y su actividad catalítica.
Este experimento permite demostrar que la información necesaria para adoptar la
estructura secundaria y terciaria de la proteína nativa está contenida en la propia
secuencia de aminoácidos.
El objetivo de la predicción de la estructura terciaria de las proteínas consiste en estimar
la posición espacial de todos y cada uno de los átomos de la molécula proteica a partir
de la secuencia de aminoácidos utilizando métodos computacionales. Este es uno de los
retos más difíciles a los que se enfrentan los bioinformáticos y algunos lo han definido
como “el santo grial de la Bioinformática”.
Hay dos estrategias básicas a la hora de construir un modelo 3D para una proteína:
 a partir de un molde: es la estrategia más precisa, y la utilizan los métodos de
(1) modelado por homología (homology modeling) y (2) reconocimiento del
plegamiento (fold recognition).
 sin utilizar un molde: es una estrategia mucho menos precisa que la anterior y
se utiliza (1) en los métodos basados en fragmentos y (2) en los métodos que
parten de cero (ab initio).
1.- Modelado por homología (homology modeling, comparative modeling)
Este método se basa en el hecho de que las proteínas relacionadas evolutivamente
presentan conformaciones similares y, por tanto, la estructura 3D de una proteína
obtenida experimentalmente puede servir como punto de partida para crear un modelo
3D de otros miembros de su misma familia.
Es uno de los métodos de predicción más utilizados ya que genera modelos de gran
calidad y con un coste computacional razonable. Durante la construcción del modelo,
se va modificando la estructura del molde para que se ajuste lo mejor posible a la
secuencia problema. La calidad del modelo depende, sobre todo, (1) de la capacidad
para detectar una proteína homóloga a la secuencia problema con una estructura 3D
conocida y (2) de la precisión del alineamiento entre la secuencia problema y la
secuencia del molde a la hora de colocar los aminoácidos relacionados evolutivamente
en la misma posición.
El primer paso consiste en buscar proteínas con una secuencia parecida a la secuencia
problema y con estructura conocida. Lo más sencillo es realizar una búsqueda con
BLASTP en la BD PDB. Si el porcentaje de aminoácidos idénticos entre las
secuencias es > 25%, se puede esperar que sean homólogas y que tengan una
estructura similar. Sin embargo, no debemos olvidar que la ausencia de similitud entre
dos secuencias no indica necesariamente que sus estructuras sean diferentes. Puede
ocurrir que secuencias muy distintas adopten una estructura similar por mecanismos de
convergencia evolutiva.
Después, hay que seleccionar la proteína que se utilizará como molde. El mejor
molde será aquél que tenga la secuencia más parecida a la de la proteína problema.
Si hay dos moldes con igual similitud, se utilizarán otros criterios como la resolución de
la estructura o la estructura que abarque mayor longitud de la secuencia. En la tabla
siguiente, la figura de la derecha indica qué proteínas pueden utilizarse como molde en
función del porcentaje de identidad y de la longitud del alineamiento.
También puede ocurrir que el grado de similitud no sea constante a lo largo de la
secuencia. En este caso, si hay más de un molde posible, se pueden utilizar distintos
moldes para distintas regiones de la proteína (usando en cada región el molde que
más se parezca a la secuencia diana).
La segunda etapa consiste en hacer el mejor alineamiento posible entre las
secuencias de la proteína molde y de la proteína problema para establecer la
correspondencia entre los aminoácidos de una y otra. Cualquier error en esta etapa, por
pequeño que sea, puede provocar efectos devastadores sobre el modelo final. Hay que
tener en cuenta que el mejor alineamiento entre dos secuencias (que trata de maximizar
el número de aminoácidos idénticos o parecidos) puede no coincidir con el mejor
alineamiento estructural (en el que los aminoácidos conservados ocupan la misma
posición relativa dentro de la estructura de la proteína).
Para hacer un buen alineamiento, lo mejor es utilizar las secuencias de otros miembros
de la familia y hacer un alineamiento múltiple de secuencias (AMS). Un AMS nos
indica el grado de conservación de cada posición de la secuencia y las regiones más
adecuadas para introducir indels. Utilizaremos la estructura de la proteína molde para
verificar que no se introduzcan indels en los elementos de estructura secundaria o en las
regiones compactas del interior de la proteína y que no haya cargas sin neutralizar en el
núcleo interno de la proteína. Además del AMS, cualquier resultado experimental
obtenido con la proteína molde, con la proteína problema o con otros miembros de la
familia puede ser útil para mejorar el alineamiento correcto.
En la tercera etapa, se empieza a construir un modelo 3D a partir del alineamiento
entre la secuencia de la proteína problema y la estructura de la proteína molde. Lo
primero que se construye es la trayectoria de la cadena principal (backbone). Los
residuos que aparecen en el alineamiento adoptan las coordenadas de los átomos de la
cadena principal de la proteína molde (N, C, C, O, C). En el caso de residuos
conservados también se pueden adoptar, en una primera aproximación, las coordenadas
de los átomos de la cadena lateral. Si hay indels, la cadena principal presenta
interrupciones.
El cuarto paso consiste en modelar la estructura de los bucles. Generalmente, son las
regiones que presentan más dificultad porque es aquí donde se introducirán los indels
del alineamiento entre la secuencia problema y el molde. Es importante predecir bien
estas regiones porque suelen tener un papel funcional. Como la predicción no puede
hacerse por homología, se suele utilizar alguno de estos tres métodos:



métodos basados en la secuencia: van bien si los bucles son cortos (3 ó 4
aminoácidos) y conectan estructuras . Tienen en cuenta las interacciones
locales que los pueden estabilizar (puentes de hidrógeno o interacciones
hidrofóbicas), ignorando las interacciones de largo alcance.
métodos basados en la búsqueda en bases de datos estructurales: buscan
ejemplos de bucles que conecten elementos de estructura secundaria similares a
los de nuestro modelo y que tengan una longitud parecida.
métodos basados en cálculos energéticos: computan la energía de las
interacciones interatómicas de todas las conformaciones posibles y determinan
la más estable (la que representa un mínimo de energía libre).
Ninguno de estos métodos garantiza un buen resultado y es en esta etapa en donde se
suelen producir los errores más graves en la predicción. Sin embargo, en muchos casos
puede ser suficiente para nuestros intereses construir un modelo parcial en el que falten
algunos bucles que estén alejados de las regiones funcionales de la proteína.
El quinto paso consiste en modelar las cadenas laterales. Cuando el porcentaje de
aminoácidos idénticos entre la proteína problema y el molde es elevado, se pueden
copiar directamente los ángulos diedros de las cadenas laterales de los aminoácidos del
molde. Así se obtiene un buen modelo inicial que luego habrá que optimizar. En los
demás casos, se recurre a las denominadas bibliotecas de rotámeros, que incluyen,
para cada aminoácido, una lista de las combinaciones de ángulos diedros que se
observan con más frecuencia (ya que las cadenas laterales de cada aminoácido presentan
ciertas preferencias conformacionales en función del elemento de estructura secundaria
en donde esté presente). En cada posición se introduce el rotámero adecuado para
que todas las cadenas laterales puedan acomodarse en la estructura del modelo.
La precisión en esta etapa depende directamente de la calidad del modelado de la
cadena principal. Cualquier mejora realizada en éste último se traducirá directamente en
un mejor modelado de las cadenas laterales.
La sexta etapa consiste en la optimización del modelo. La introducción de los
rotámeros obliga a remodelar la cadena principal lo que, a su vez, vuelve a afectar al
empaquetamiento de las cadenas laterales. Se genera así un proceso iterativo en el que
alternan el modelado de los rotámeros y un proceso de minimización de la energía. El
proceso se repite hasta alcanzar la convergencia (el modelo no mejora). Para obtener un
buen modelo hay que utilizar una función energética muy precisa. La optimización
también se puede hacer mediante simulaciones por dinámica molecular.
La última etapa consiste en la validación del modelo Llegados a este punto es
importante comprobar:
 que la longitud y los ángulos de enlace son correctos
 que se mantienen los ángulos de torsión correspondientes a cada elemento de
estructura secundaria
 que los aminoácidos hidrofílicos e hidrófobos están correctamente distribuidos
 que no haya errores estereoquímicos, impedimentos estéricos, interacciones
desfavorables o regiones en las que el empaquetamiento no sea óptimo
Si se detectan errores, se pueden corregir repitiendo la etapa del proceso
correspondiente. Si los errores son graves, lo mejor es empezar de nuevo utilizando otro
molde.
Ejemplos de programas que permiten hacer modelado por homología son SWISSMODEL, MODELLER y BISKIT.
2.- Reconocimiento del plegamiento (fold recognition)
Cuando las bases de datos de estructuras tridimensionales no contienen ninguna
estructura homóloga a la proteína problema es posible replantear el problema de la
predicción intentando encontrar alguna proteína que presente un plegamiento
parecido, independientemente de la similitud entre sus secuencias. En este caso, las
secuencias del molde y de la proteína problema no muestran un elevado grado de
similitud porque no están emparentadas evolutivamente o porque han divergido tanto a
partir del ancestro común que los métodos de comparación son incapaces de detectar la
homología.
La lógica de este planteamiento se basa en que, a lo largo de la evolución, la estructura
se conserva mejor que la secuencia. De hecho, más de la mitad de las estructuras
proteicas recién determinadas presenta un plegamiento ya conocido. Se dice que dos
proteínas tienen el mismo tipo de plegamiento cuando presentan los mismos tipos
principales de estructura secundaria dispuestos en el mismo orden y conectados
mediante la misma topología.
En las últimas versiones de las BD SCOP y CATH hay aproximadamente 1.400
plegamientos distintos y alrededor de 100 de ellos están presentes en la mitad de las
superfamilias proteicas descritas hasta la fecha. Y no sólo eso, 10 de ellos se denominan
“superplegamientos” (superfolds) porque son compartidos por aproximadamente el 30%
de las proteínas conocidas. Los científicos están convencidos de que el número de
plegamientos distintos que hay en la naturaleza es finito, y se ha estimado que
podrían haber entre 8.000 y 10.000.
Se trata, por tanto, de buscar en las BD algún plegamiento que pueda ser compatible
con la proteína problema y que pueda servir de molde para la construcción de un
modelo 3D siguiendo, básicamente, los mismos pasos que en el modelado por
homología. Hay dos tipos de métodos de predicción que utilizan esta estrategia: los
métodos basados en el perfil físico-químico y los métodos de enhebrado (threading).
Métodos basados en el perfil físico-químico
Estos métodos se basan en que las propiedades físico-químicas de los aminoácidos de
la secuencia problema tienen que adecuarse al entorno que ocupan en la estructura
del modelo.
Cada aminoácido tiene unas propiedades físico-químicas distintas que determinan la
probabilidad de encontrarlo o no en un determinado ambiente: en una región hidrofílica
o hidrofóbica, en un tipo de estructura secundaria o en otro y más o menos expuesto al
disolvente. El número de posibilidades distintas es 18, ya que se distinguen 3 tipos de
estructuras secundarias (, , otros), 3 grados de exposición al disolvente (baja,
intermedia, alta) y 2 tipos de polaridad (hidrofilico, hidrofóbico), tal y como se indica
en la siguiente tabla:
Accesibilidad al disolvente:
baja (< 40 Ǻ2)
Accesibilidad al disolvente:
elevada (> 100 Ǻ2)
Accesibilidad al disolvente:
intermedia

Hidrofóbico (a)
Hidrofílico (d)
Hidrofóbico (g)
Hidrofílico (j)
Hidrofóbico (m)
Hidrofílico (p)

Hidrofóbico (b)
Hidrofílico (e)
Hidrofóbico (h)
Hidrofílico (k)
Hidrofóbico (n)
Hidrofílico (q)
otros
Hidrofóbico (c)
Hidrofílico (f)
Hidrofóbico (i)
Hidrofílico (l)
Hidrofóbico (o)
Hidrofílico (r)
A partir de un análisis estadístico de las estructuras proteicas conocidas se puede
calcular la probabilidad de encontrar cada residuo en un tipo de ambiente o en otro.
También se puede calcular esta probabilidad para una secuencia proteica concreta a
partir de métodos de predicción de estructura secundaria y de accesibilidad al
disolvente.
Con esta información se puede reescribir la secuencia de la proteína problema
ignorando el aminoácido concreto que ocupa cada posición y sustituyéndolo por un
símbolo (de la a a la r) que indica cuál de las 18 características posibles está más
favorecida en esa posición. De este modo se genera un perfil físico-químico.
Por otro lado, se pueden obtener los perfiles físico-químicos de todas las proteínas con
estructura conocida. De este modo se codifica la estructura 3D de una proteína en forma
de un perfil 1D que puede compararse directamente con el de la proteína problema.
Para comparar el perfil de la proteína problema con los perfiles de una BD se utilizan
métodos muy parecidos a los empleados para alinear secuencias mediante el algoritmo
de programación dinámica, utilizando un sistema de puntuación adecuado y
penalizaciones en caso de introducir indels. La estructura que tenga un perfil más
parecido al de la proteína problema servirá como molde para la construcción del modelo
3D.
Métodos de enhebrado (threading)
En muchos casos, proteínas con secuencias muy distintas adoptan plegamientos
parecidos. Por tanto, se puede esperar que la estructura de una secuencia problema se
parezca a la de alguna proteína ya caracterizada.
La estrategia que utilizan los métodos de enhebrado consiste en enhebrar la secuencia
problema en una estructura ya conocida para después evaluar si se ajustan bien o
no. Para ello, se generan modelos estructurales de la proteína problema utilizando todos
los plegamientos conocidos como posibles moldes y después se intenta determinar
cuál es el mejor. El mejor modelo estructural será aquél que minimice la energía libre
de la secuencia problema.
La etapa crucial del proceso consiste en evaluar la calidad de los modelos. Se utiliza
una función que calcula la energía de la molécula utilizando (1) los potenciales de
interacción entre parejas de aminoácidos obtenidos a partir de un análisis estadístico
de las interacciones observadas en estructuras proteicas conocidas y (2) el potencial de
solvatación de cada residuo.
Estos métodos son muy costosos desde el punto de vista computacional.
3.- Métodos basados en fragmentos
Cuando no se encuentra ni una secuencia homóloga ni un plegamiento suficientemente
bueno, no queda más remedio que predecir la estructura de novo. Es muy probable que
la secuencia problema presente un plegamiento nuevo pero que, aun así, comparta
numerosos motivos estructurales con otros plegamientos ya conocidos.
Los métodos basados en fragmentos utilizan fragmentos cortos de proteínas con
estructura conocida para construir un modelo 3D de la secuencia problema. Parten
de la suposición de que una secuencia corta de aminoácidos sólo puede adoptar un
pequeño número de conformaciones con baja energía que son el resultado,
principalmente, de interacciones locales. También asumen que el abanico de
conformaciones que puede adoptar un segmento local de la cadena polipeptídica estará
razonablemente bien representado en el PDB. Así, combinando fragmentos cortos con
estructura conocida generan un gran número de posibles modelos 3D para la proteína
problema. El modelo final será aquél que presente menor energía libre.
El programa ROSETTA utiliza esta estrategia para predecir la estructura de una
secuencia problema. En primer lugar, a partir de proteínas con estructura conocida,
utiliza la técnica de la ventana deslizante para generar una librería de fragmentos de 9
aminoácidos. En este paso se evitan las proteínas homólogas a la secuencia problema
(las que tengan más del 25% de los aminoácidos idénticos). Después, se divide la
secuencia problema en fragmentos de 9 aminoácidos de longitud y, para cada uno de
ellos, se seleccionan 25 fragmentos de la librería que tengan una secuencia igual o lo
más parecida posible. El modelo 3D se construye combinando todas las estructuras
posibles de estos fragmentos y seleccionando la conformación que tenga menor energía
libre.
Librería de fragmentos de 9 aminoácidos
Ensamblaje de los fragmentos
La función que calcula la energía libre tiene en cuenta que debe tratarse de una
estructura compacta en la que los aminoácidos hidrofóbicos deben estar en el interior y
las hebras tienen que estar emparejadas. En la etapa de minimización de energía se
utiliza el algoritmo de Monte Carlo para seleccionar la estructura 3D que mejor se ajusta
a la secuencia problema.
4.- Métodos ab initio
Estos métodos también tratan de construir el modelo sin utilizar un molde. Basándose
únicamente en principios físico-químicos, tratan de reconstruir el proceso natural de
plegamiento proteico hasta alcanzar la conformación nativa, que será aquélla que
presente un estado de mínima energía libre. Para ello, estos métodos necesitan (1)
encontrar una función que permita calcular la energía libre de la forma más precisa
posible y (2) desarrollar potentes algoritmos de búsqueda para seleccionar la mejor
conformación de entre todas las posibles.
Para calcular la energía libre de una cadena polipeptídica se puede utilizar (1) una
función que calcula la energía potencial de la molécula utilizando parámetros obtenidos
a partir de cálculos basados en la mecánica cuántica, o (2) una función basada en el
conocimiento, que calcula la energía potencial de la molécula a partir de un análisis
estadístico de las interacciones observadas en estructuras proteicas ya conocidas y
almacenadas en la base de datos PDB. En ambos casos, la energía potencial obtenida
deben representar la totalidad de las fuerzas que determinan la conformación de una
macromolécula: energía de solvatación, energías de enlace, ángulos de torsión,
interacciones covalentes, interacciones electrostáticas, puentes de hidrógeno,
interacciones de van der Waals, etc.
Para determinar cuál es la conformación con menor energía libre se utilizan algoritmos
de búsqueda conformacional como (1) la dinámica molecular, (2) el algoritmo de
Monte Carlo o (3) algoritmos genéticos.
Estos métodos presentan dos problemas importantes:
 Por un lado, la energía libre asociada a cada conformación se calcula teniendo en
cuenta todas las interacciones que tienen lugar dentro de la proteína y entre los
átomos de la proteína y el disolvente. Esta energía suele ser de unas pocas
kilocalorías por mol. Por tanto, los cálculos energéticos deben ser muy
precisos para poder apreciar pequeñas diferencias energéticas entre una
conformación y otra.
 Por otro lado, el número de conformaciones posibles que puede adoptar una
proteína es inmenso, con lo que se necesitan ordenadores muy potentes para
seleccionar la que corresponde al estado nativo.
Estas dificultades hacen que el progreso en este campo sea lento. Hoy en día, estos
métodos no son aconsejables para proteínas con más de 150 aminoácidos. Para que
esta situación mejore tendrá que aumentar la precisión del cálculo de la energía
potencial y la eficacia de los algoritmos de búsqueda conformacional.
Descargar