Bioinformática estructural Predicción de estructuras de proteínas y ARN Dr. Eduardo A. R ODRÍGUEZ T ELLO C INVESTAV-Tamaulipas 25 de julio del 2013 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 1 / 134 1 Conceptos básicos de bioinformática estructural 2 Predicción de la estructura secundaria de proteínas 3 Predicción de la estructura terciaria de proteínas 4 Predicción de la estructura secundaria de ARN Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 2 / 134 Conceptos básicos de bioinformática estructural Introducción Introducción Las proteínas realizan la mayoría de las funciones biológicas y químicas esenciales en una célula Juegan un papel importante en las funciones estructurales, enzimáticas, de transporte y regulación Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 3 / 134 Conceptos básicos de bioinformática estructural Introducción Introducción Estructura 3D → Funcionalidad La estructura está codificada en la secuencia de aminoácidos [Anfinsen, 1973] Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 4 / 134 Conceptos básicos de bioinformática estructural 1 Ángulos diedrales Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 5 / 134 Conceptos básicos de bioinformática estructural Ángulos diedrales Ángulos diedrales Los átomos asociados al enlace peptídico se encuentran en el mismo plano Por esta razón el enlace peptídico no puede girar libremente El ángulo de rotación de un enlace se conoce como diedral o de torsión Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 6 / 134 Conceptos básicos de bioinformática estructural Ángulos diedrales Ángulos diedrales Los enlaces N–Cα (φ) y Cα –C (ψ) sí pueden girar con cierta libertad Las combinaciones de φ y ψ permiten a las proteínas plegarse de muchas maneras Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 7 / 134 Conceptos básicos de bioinformática estructural Ángulos diedrales Gráfica de Ramachandran Las rotaciones de φ y ψ no son completamente libres. Entonces, sólo hay un rango limitado de conformaciones peptídicas La gráfica de Ramachandran muestra las combinaciones de φ y ψ que son permitidas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 8 / 134 Conceptos básicos de bioinformática estructural 1 Jerarquía Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 9 / 134 Conceptos básicos de bioinformática estructural Jerarquía Estructura de las proteínas La estructura primaria es la secuencia de aminoácidos unidos por enlaces peptídicos El polipéptido resultante se puede plegar en unidades de estructura secundaria como las hélices alfa Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 10 / 134 Conceptos básicos de bioinformática estructural Jerarquía Estructura de las proteínas La hélice alfa es parte de la estructura terciaria de la proteína plegada, la cual a su vez puede ser una subunidad de la estructura cuaternaria de una proteína de múltiples unidades, como la hemoglobina Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 11 / 134 Conceptos básicos de bioinformática estructural Jerarquía Fuerzas de estabilización La estructura de las proteínas se mantiene por fuerzas de estabilización como las interacciones electrostáticas, las fuerzas de Van der Waals y los enlaces de hidrógeno Las interacciones electrostáticas ocurren cuando el exceso de carga negativa en una región es neutralizado por cargas positivas en otra región formando puentes salinos entre residuos de carga opuesta Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 12 / 134 Conceptos básicos de bioinformática estructural Jerarquía Fuerzas de estabilización Los enlaces de hidrógeno son un tipo de interacciones electrostáticas que involucran a un átomo de hidrógeno de un residuo y a un átomo de oxígeno de otro residuo El hidrógeno con carga positiva se une parcialmente al oxígeno con carga negativa Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 13 / 134 Conceptos básicos de bioinformática estructural Jerarquía Fuerzas de estabilización Las fuerzas de Van der Waals son las fuerzas de atracción o repulsión entre moléculas o entre partes de una misma molécula Los electrones de un átomo crean un dipolo eléctrico que atrae a otro dipolo de un átomo cercano Pero cuando están muy cerca los átomos, se comienzan a repeler Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 14 / 134 Conceptos básicos de bioinformática estructural Jerarquía Fuerzas de estabilización El radio de Van der Waals es la distancia a la que un átomo puede estar cerca de otro Los puentes disulfuro también intervienen en la estabilización de la estructura de una proteína Estos puentes se forman entre los átomos de azufre de la cisteína Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 15 / 134 Conceptos básicos de bioinformática estructural 1 Estructura secundaria Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 16 / 134 Conceptos básicos de bioinformática estructural Estructura secundaria Hélices–α Una hélice–α tiene una conformación de la cadena principal parecida a un sacacorchos En esta hélice existen 3.6 residuos en cada giro La estructura se estabiliza mediante enlaces de hidrógeno entre átomos de la cadena principal i e i + 4, que son casi paralelos al eje de la hélice φ y ψ son de 60o y 45o Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 17 / 134 Conceptos básicos de bioinformática estructural Estructura secundaria Hélices–α Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 18 / 134 Conceptos básicos de bioinformática estructural Estructura secundaria Hojas–β Una hoja–β es una configuración completamente extendida que se construye de varias regiones espacialmente adyacentes de un polipéptido Cada región que la forma se conoce como hebra–β Esta estructura se estabiliza por medio de enlaces de hidrógeno que se forman entre residuos de hebras adyacentes Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 19 / 134 Conceptos básicos de bioinformática estructural Estructura secundaria Hojas–β Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 20 / 134 Conceptos básicos de bioinformática estructural Estructura secundaria Espirales y rizos También hay estructuras locales que no pertenecen a estructuras secundarias regulares Estas estructuras son las espirales y los rizos Los rizos se caracterizan por ser giros bruscos Las espirales se forman por regiones de conexión completamente irregulares Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 21 / 134 Conceptos básicos de bioinformática estructural 1 Estructura terciaria Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 22 / 134 Conceptos básicos de bioinformática estructural Estructura terciaria Tipos de proteínas El arreglo y empaque completo de estructuras secundarias forma la estructura terciaria de la proteína La estructura terciaria generalmente se clasifica en proteínas globulares o de membrana Las globulares existen en solventes a través de interacciones hidrofílicas con moléculas solventes Las de membrana existen en lípidos de membrana y se estabilizan por medio de interacciones hidrofóbicas con las moléculas de lípidos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 23 / 134 Conceptos básicos de bioinformática estructural Estructura terciaria Proteínas globulares Son solubles y están rodeadas por moléculas de agua Tienen estructuras compactas de forma esférica con residuos hidrofílicos en la superficie e hidrofóbicos en el núcleo Minimiza el contacto con el agua en el centro y maximiza las interacciones con agua en el exterior Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 24 / 134 Conceptos básicos de bioinformática estructural Estructura terciaria Proteínas globulares Algunos ejemplos: enzimas, mioglobinas y hormonas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 25 / 134 Conceptos básicos de bioinformática estructural Estructura terciaria Proteínas de membrana integral Existen en las bicapas de lípidos de la membrana de la célula Como están rodeadas de lípidos, el exterior debe ser hidrofóbico para ser estable Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 26 / 134 Conceptos básicos de bioinformática estructural Estructura terciaria Proteínas de membrana integral Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 27 / 134 Conceptos básicos de bioinformática estructural 1 Determinación de la estructura 3D de las Proteínas Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 28 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Cristalografía de rayos–X Requiere que las proteínas formen cristales con posiciones fijas de una manera repetida y ordenada Los cristales se iluminan con un haz intenso de rayos–X Los electrones que rodean a los átomos desvían los rayos–X produciendo un patrón regular de difracción Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 29 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Cristalografía de rayos–X El patrón está compuesto de miles de puntos grabados en una placa de rayos–X El patrón se convierte a un mapa de densidad de electrones La estructura se modela con los aminoácidos que mejor se ajustan al mapa Una limitante que existe es la necesidad de obtener cristales a partir de las proteínas, lo que no siempre es posible Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 30 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Cristalografía de rayos–X Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 31 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Cristalografía de rayos–X Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 32 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Espectroscopia NMR La espectroscopia de resonancia magnética nuclear (NMR) detecta patrones de giro de núcleos atómicos en un campo magnético Utiliza radiación para inducir transiciones entre estados de giro de los núcleos en un campo magnético Las interacciones entre pares de isótopos producen señales de radio que están correlacionadas con la distancia entre ellos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 33 / 134 Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas Espectroscopia NMR Interpretando estas señales se puede determinar la proximidad entre átomos y con esto se puede construir un modelo para la proteína No tiene la limitación de generar cristales, pero solamente puede determinar estructuras con menos de 200 residuos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 34 / 134 Conceptos básicos de bioinformática estructural 1 BD de estructuras de proteínas Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 35 / 134 Conceptos básicos de bioinformática estructural BD de estructuras de proteínas Banco de datos de proteínas Las estructuras de proteínas que se obtienen por cristalografía y espectroscopia, entre otros métodos, se almacenan en el Banco de Datos de Proteínas (PDB) Las estructuras definen la posición, en un espacio tridimensional, de cada átomo de la proteína El sitio en Internet de PDB permite subir, buscar y bajar datos de proteínas Aunque PDB tiene miles de estructuras almacenadas, la información es redundante, existen muchas entradas para una misma proteína, ya que se reportan con diferentes resoluciones, con mutaciones en un residuo, etc Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 36 / 134 Conceptos básicos de bioinformática estructural BD de estructuras de proteínas Formato PDB Cada descripción de una proteína tiene un código de 4 símbolos alfanuméricos Las líneas tienen 80 caracteres de longitud Consta de un encabezado y una sección de coordenadas atómicas El encabezado puede incluir información de método del determinación, resolución, parámetros de cristalografía, referencias bibliográficas, etc Las coordenadas incluyen el nombre del átomo, del residuo, número del residuo, coordenadas en x, y , z, factor de temperatura, entre otros datos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 37 / 134 Conceptos básicos de bioinformática estructural BD de estructuras de proteínas Formato PDB Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 38 / 134 Conceptos básicos de bioinformática estructural BD de estructuras de proteínas Formato mmCIF y MMDB Las limitaciones del formato PDB han permitido el desarrollo de nuevos formatos como mmCIF y MMDB que son más fáciles de analizar por una computadora y permiten describir estructuras más complejas Cada línea describe un campo de la descripción de la estructura, primero se escribe el nombre del campo y luego el valor Un archivo MMDB utiliza el formato ASN.1 para describir una estructura Incluye información de enlaces para cada molécula, llamada gráfica química, permitiendo que las estructuras se dibujen más rápido Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 39 / 134 Conceptos básicos de bioinformática estructural BD de estructuras de proteínas Formato mmCIF y MMDB Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 40 / 134 Conceptos básicos de bioinformática estructural 1 Visualización de estructuras proteínicas Conceptos básicos de bioinformática estructural Introducción Ángulos diedrales Jerarquía Estructura secundaria Estructura terciaria Determinación de la estructura 3D de las Proteínas BD de estructuras de proteínas Visualización de estructuras proteínicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 41 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Visualización de estructuras proteínicas La característica más básica de un software de visualización es la capacidad de crear conectividad entre átomos para simular la vista de una molécula El programa de visualización puede ofrecer diferentes presentaciones de visualización: 1 2 3 4 Tramas de alambres (wire-frame) Esferas y líneas (balls and sticks) Esferas (space-filling o CPK - Corey, Pauling, and Koltan) Listones (ribbons) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 42 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Tramas de alambres (wire-frame) Es un diagrama de líneas que representa los enlaces entre átomos (representación más simple) Es útil para localizar residuos específicos en una estructura de proteína Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 43 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Esferas y líneas (balls and sticks) Representan átomos y sus enlaces respectivamente Pueden representar la columna vertebral de una estructura Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 44 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Esferas (space-filling o CPK Cada átomo se describe usando una esfera grande cuyo radio corresponde a su radio de van der Waals Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 45 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Listones (ribbons) Usa listones en forma de espiral para representar las hélices-α y flechas planas para representar las hebras-β Permiten identificar fácilmente las estructuras secundarias Ofrece una vista general de toda la topología de la estructura Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 46 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Software RasMol. Lee formatos PDB y mmCIF. Puede desplegar una molécula completa o partes específicas de ella. Es un programa de línea de comandos y se encuentra disponible en plataformas UNIX, Windows y Mac. RasTop. Es una nueva versión de RasMol disponible en plataforma Windows. Posee una mejor interface de usuario. Swiss-PDBViewer. Es un visor de estructuras disponible para Mac y Windows. Posee mucha funcionalidad para ser un shareware. Capaz de visualizar múltiples estructuras, analizar y modelar. Puede medir distancias, potencial electrostático, ploteo de Ramachandran, etc. Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 47 / 134 Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas Visualización de estructuras proteínicas Molscript. Despliega estructuras tridimensionalmente y ofrece varios formatos de salida. Disponible en plataformas UNIX. Ofrecer diferentes presentaciones de visualización. Sin embargo, es una aplicación de línea de comandos. JMol. Es un applet para visualuzar estructuras químicas que emplea representación de esferas. Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 48 / 134 Predicción de la estructura secundaria de proteínas 2 Introducción Predicción de la estructura secundaria de proteínas Introducción Métodos ab initio Métodos basados en homología Predicción con redes neuronales Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 49 / 134 Predicción de la estructura secundaria de proteínas Introducción Introducción Las estructuras secundarias son conformaciones locales estables de una cadena polipeptídica Son esenciales en la determinación de la estructura tridimensional de proteínas Incluyen elementos estructurales regulares y altamente repetidos como las hélices-α y las hojas-β Se estima que cerca del 50 % de los residuos de una proteína se pliegan en alguna de esas dos formas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 50 / 134 Predicción de la estructura secundaria de proteínas Introducción Introducción La predicción de estructuras secundarias de proteínas se refiere a la identificación del estado de conformación de cada residuo de los aminoácidos en la secuencia de una proteína Dichos estados de conformación pueden ser de tres tipos: Hélices (H), Hebras (E) o Rizos (C). La predicción está basada en el hecho de que las estructuras secundarias tienen un arreglo regular de los aminoácidos, estabilizado por los enlaces de hidrógeno Esta regularidad sirve de base a los algoritmos de predicción Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 51 / 134 Predicción de la estructura secundaria de proteínas Introducción Introducción La predicción de estructuras secundarias de proteínas tiene aplicación en la clasificación de proteínas y en la separación de dominios de proteínas y de motivos funcionales Además es un paso intermedio para determinar la estructura terciaria de proteínas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 52 / 134 Predicción de la estructura secundaria de proteínas Introducción Introducción Los métodos para la predicción de la estructura secundaria de proteínas (globulares) son de dos tipos: Basados en ab initio. Predicen la estructura secundaria empleando información estadística calculada a partir de una sola secuencia Basados en homología. No sólo toman en cuenta estadísticas de los residuos de una secuencia, además también consideran patrones comunes conservados entre múltiples secuencias homólogas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 53 / 134 Predicción de la estructura secundaria de proteínas 2 Métodos ab initio Predicción de la estructura secundaria de proteínas Introducción Métodos ab initio Métodos basados en homología Predicción con redes neuronales Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 54 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Métodos ab initio Este tipo de métodos mide la tendencia relativa de cada aminoácido de pertenecer a cierto tipo de elemento de estructura secundaria Las puntuaciones de propensión fueron derivadas de estructuras conocidas de cristales Algunos ejemplos: Chou-Fasman y Ganier, Osguthorpe y Robson (GOR) Estos pertenecen a la primera generación de métodos de predicción (1970s) La información estructural de proteínas era limitada y las estadísticas eran derivadas de conjuntos de datos restringidos (baja exactitud) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 55 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método Chou-Fasman Determina la tendencia de cada residuo a encontrarse en una hélice, una hebra o un giro usando frecuencias observadas en cristales de proteínas El cálculo de la puntuación de propensión es simple. Supongamos que hay n residuos en la estructura de la proteína de los cuales m son residuos en hélices El número total de residuos de Alanina es y de los cuales x están en hélices La puntuación de propensión para la Alanina de estar en una hélice está dada por la siguiente relación: (x/m) (y /n) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural (1) 25 de julio del 2013 56 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método Chou-Fasman Si la puntuación de propensión para un residuo es igual a 1.0 para hélices (P(hélice-α)) significa que el residuo tiene igual probabilidad de ser encontrado en una hélice o en cualquier otra estructura Si P(hélice-α) < 1,0 entonces el residuo tiene poca oportunidad de ser encontrado en una hélice Si P(hélice-α) > 1,0 entonces es altamente probable que el residuo se encuentre en una hélice Usando este concepto Chou y Fasman crearon la siguiente tabla Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 57 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método Chou-Fasman Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 58 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método Chou-Fasman El algoritmo Chou-Fasman toma la secuencia y la divide en ventanas de tamaño fijo para determinar el número de residuos pertenecientes a cada estructura usando la puntuación de propensión Para hélices-α la ventana es de tamaño 6, si una región tiene 4 residuos contiguos cada uno con P(hélice-α) > 1,0, se concluye que el conjunto forma parte de una hélice Esta región en hélice se extiende en ambas direcciones hasta que P(hélice-α) < 1,0 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 59 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método Chou-Fasman Para las hebras-β utiliza una ventana de 5 residuos, si se tienen al menos 3 residuos cada uno con P(hebra-β) > 1,0, se concluye que el conjunto forma parte de una hebra-β Si ambos tipos de estructuras se traslapan en cierta región, se toma la siguiente decisión P P Si P(hélice-α) > P(hebra-β) entonces se concluye una hélice-α Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 60 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método GOR También se basa en la puntuación de propensión de cada residuo de estar en cada una de las 4 siguientes estructuras: Hélices (H), Hebras (E), Giros (T) o Rizos (C). Sin embargo, toma en cuenta para este cálculo las interacciones con los residuos vecinos Examina una ventana de 17 residuos y suma la propensión para los residuos para las 4 posibles estructuras (4 sumatorias) La puntuación más alta define el tipo de estructura al que pertenece el residuo al centro de la ventana (noveno residuo) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 61 / 134 Predicción de la estructura secundaria de proteínas Métodos ab initio Método GOR Tanto este método como el de Chou-Fasman tienen la desventaja de tener baja precisión de predicción (aprox. 50 %) Sin embargo, han surgido algunas nuevas versiones como GOR II, GOR III y GOR IV (1980s e inicio de 1990s) Integran estadísticas más refinadas basadas en un número más grande de proteínas conocidas e incorporan más interacciones locales entre residuos Su precisión de predicción mejoró 10 % Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 62 / 134 Predicción de la estructura secundaria de proteínas 2 Métodos basados en homología Predicción de la estructura secundaria de proteínas Introducción Métodos ab initio Métodos basados en homología Predicción con redes neuronales Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 63 / 134 Predicción de la estructura secundaria de proteínas Métodos basados en homología Métodos basados en homología Son la tercera generación de métodos (finales de 1990s) y emplean información evolutiva Combinan métodos ab initio para predicción de la estructura secundaria de secuencias individuales e información de alineamiento múltiple de secuencias homologas (identidad > 35 %) La idea detrás de este enfoque es que proteínas homologas adoptan la misma estructura secundaria y terciaria Este tipo de métodos han ayudado a mejorar la precisión de predicción en 10 % con respecto a los métodos de segunda generación Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 64 / 134 Predicción de la estructura secundaria de proteínas Métodos basados en homología Métodos basados en homología Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 65 / 134 Predicción de la estructura secundaria de proteínas 2 Predicción con redes neuronales Predicción de la estructura secundaria de proteínas Introducción Métodos ab initio Métodos basados en homología Predicción con redes neuronales Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 66 / 134 Predicción de la estructura secundaria de proteínas Predicción con redes neuronales Predicción con redes neuronales La tercera generación de algoritmos de predicción también hace uso de redes neuronales para analizar patrones de substitución en alineamientos de múltiples secuencias Esto ha permitido aumentar la precisión de predicción a un 75 % Algunos ejemplos de aplicaciones que utilizan redes neuronales: PHD, PSIPRED, SSpro, PROF, HMMMSTR Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 67 / 134 Predicción de la estructura terciaria de proteínas 3 Introducción Predicción de la estructura terciaria de proteínas Introducción Métodos basados en homología Métodos basados en plegado (threading) Modelos Ab Initio Modelo HP (Hydrophobic-Polar) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 68 / 134 Predicción de la estructura terciaria de proteínas Introducción Introducción Existen tres enfoques computacionales para el modelado y predicción de estructuras tridimensionales de proteínas Homología Plegado (Threading) Ab initio Los dos primeros se basan en el conocimiento estructural de la proteína obtenido de las BD, mientras que el tercero no requiere de ninguna información adicional Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 69 / 134 Predicción de la estructura terciaria de proteínas 3 Métodos basados en homología Predicción de la estructura terciaria de proteínas Introducción Métodos basados en homología Métodos basados en plegado (threading) Modelos Ab Initio Modelo HP (Hydrophobic-Polar) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 70 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología Métodos basados en homología Como su nombre lo indica, predice las estructuras de las proteínas mediante la comparación con estructuras de proteínas homólogas conocidas También es llamado Modelo Comparativo Se basa en el principio de que si dos proteínas tienen un alto grado de similitud es muy probable que tengan estructuras tridimensionales similares El modelo de homología general consta de 6 pasos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 71 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 1. Selección de plantilla Consiste en encontrar las estructuras principales y sirve como base para el proceso de modelado Este paso consiste en la búsqueda en el Banco de Datos de Proteínas (PDB) para seleccionar aquellas proteínas homólogas Esta búsqueda se pude llevar a cabo mediante cualquier método de alineamiento de pares tales como BLAST o FASTA. Por lo general, es posible encontrar varias estructuras con un porcentaje de similitud considerable, sin embargo se recomienda usar sólo aquella con el porcentaje más alto Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 72 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 2. Alineamiento de secuencias Una vez identificada la secuencia con mayor similitud, se lleva a cabo un reajuste, para ello se usa un algoritmo de alineamiento para obtener una adaptación óptima entre las secuencias Se considera como el paso más critico, ya que un alineamiento incorrecto conducirá a una designación incorrecta de los residuos Los algoritmos usados en este paso pueden ser T-Coffe o Praline De ser necesario se puede llevar a cabo un perfeccionamiento manual del resultado arrojado por el algoritmo Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 73 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 3. Creación del esqueleto del modelo Una vez teniendo el alineamiento óptimo, existen tres posibilidades para los residuos en las regiones alienadas: 1 2 3 Residuos similares. Las coordenadas de los residuos de la plantilla pueden ser copiadas directamente a la proteína objetivo (query) Residuos idénticos. Las coordenadas de los átomos de la cadena lateral se copian junto con los átomos de la cadena principal Residuos diferentes. Sólo los átomos de la columna vertebral se pueden copiar Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 74 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 4. Modelado de bucles Como sabemos, el resultado de un alineamiento de secuencias causa la inserción de huecos, los cuales son el resultado por el alineamiento mismo Estos huecos no pueden ser directamente modelados, por lo que se requiere de un modelo para “cerrar” estos huecos Existen dos técnicas para abordar este problema Método de búsqueda en BD Método ab initio Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 75 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 4. Modelado de bucles El método de búsqueda en BD propone buscar “piezas de repuesto”, de estructuras conocidas de proteínas que se acoplen en el hueco La secuencias de átomos que preceden y continúan a esta región se suelen llamar tallo. El procedimiento inicia midiendo la orientación y distancia de las regiones entre los tallos y buscar en PDB los segmentos de la misma longitud que coincidan Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 76 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 4. Modelado de bucles Suelen existir diferentes segmentos alternativos que se adapten a esta región El mejor fragmento se copia en los puntos de anclaje de los tallos El método ab initio genera muchos bucles y búsquedas al azar Si los huecos son relativamente cortos (de 3 a 5 residuos) los dos métodos producen modelos correctos Si los huecos son muy largos, es muy difícil lograr un modelo fiable Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 77 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 4. Modelado de bucles FREAD www.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi, usa el método de BD PETRA www.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgi emplea el método ab initio CODA www.cryst.bioc.cam.ac.uk/~charlotte/Coda/ search_coda.html utiliza consenso basado en los resultados de los dos sitios anteriores Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 78 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 5. Perfeccionamiento de la cadena lateral Una vez que la cadena principal de átomos está construida, las posiciones de las cadenas laterales deben ser determinadas La cadena lateral puede ser construida mediante la búsqueda de cada ángulo de torsión, seleccionando aquellos que tengan la menor interacción de energía con sus vecinos Sin embargo, esto no se puede llevar a cabo en la mayoría de los casos (computacionalmente prohibitivo) Para ello ha surgido el concepto de rotamers, el cual usa los ángulos de torsión extraídos de estructuras de proteínas conocidas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 79 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 5. Perfeccionamiento de la cadena lateral Teniendo una librería de rotamers se reduce el tiempo de cómputo debido a que sólo unos cuantos ángulos de torsión son examinados Sin embargo, aún es necesario reducir más el tiempo de cómputo, mediante observaciones se ha visto que la columna vertebral esta relacionada con ciertas conformaciones de la cadena lateral Haciendo uso de la existencia de esta correlación, es posible eliminar aún más ángulos innecesarios Uno de los paquetes que ha demostrado presentar un buen desempeño es SCWRL www.fccc.edu/research/labs/dunbrack/scwrl/ Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 80 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 6. Refinamiento mediante funciones de energía Hasta este paso no se garantiza que la estructura este libre de irregularidades Para tratar de solucionar esto, se hace uso de la minimización de energía, esto tiene como objetivo reducir la energía al mínimo para aliviar tensiones y colisiones sin afectar significativamente la estructura Este paso debe aplicarse cuidadosamente, ya que en ocasiones es posible que residuos se muevan a otras posiciones incorrectas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 81 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología 6. Refinamiento mediante funciones de energía Otro método hace uso del proceso de simulación de dinámica molecular Este hecho se basa en que la minimización de la energía se obtiene moviendo los átomos de un mínimo local sin necesidad de buscar todas las posibles combinaciones Requiere de cálculos termodinámicos con los átomos GROMOS www.igc.ethz.ch/gromos/ es un programa el cual usa simulación de dinámica molecular Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 82 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología Evaluación del modelo El modelo obtenido tiene que ser evaluado para asegurarse de que las características estructurales del modelo son coherentes con las normas físico-químicas Para ello se detectan los errores haciendo uso de perfiles estadísticos, características espaciales e interacción de energía a través de estructuras determinadas experimentalmente Si se detectan irregularidades estructurales, la región se considera con errores y tiene que ser perfeccionada Procheck www.biochem.ucl.ac.uk/~roman/procheck/ procheck.html es un programa el cual es capaz de comprobar los parámetros físico-químicos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 83 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en homología Evaluación del modelo WHAT IF www.cmbi.kun.nl:1100/WIWWWI/ es un servidor de análisis de proteínas que valida una proteína mediante corrección química. ANOLEA http://protein.bio.puc.cl/cardex/servers/ anolea/index.html es un servidor web que utiliza el método de evaluación estadística Verify3D www.doe-mbi.ucla.edu/Services/Verify3D/ es otro servidor que utiliza el enfoque estadístico Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 84 / 134 Predicción de la estructura terciaria de proteínas 3 Métodos basados en plegado (threading) Predicción de la estructura terciaria de proteínas Introducción Métodos basados en homología Métodos basados en plegado (threading) Modelos Ab Initio Modelo HP (Hydrophobic-Polar) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 85 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading) Métodos basados en plegado (threading) En ocasiones muchas proteínas pueden compartir la misma estructura aunque no exista mucha similitud en las secuencias Esta propiedad permitió desarrollar métodos computacionales para poder predecir estructuras de las proteínas sin importar la similitud de las secuencias Para determinar si una secuencia adopta una estructura tridimensional conocida se hacen uso de los métodos de reconocimiento de plegado (threading) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 86 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading) Métodos basados en plegado (threading) Dicha comparación hace hincapié en la congruencia de las estructuras secundarias, ya que estas son las más conservadas evolutivamente Gracias a este enfoque se pueden identificar proteínas estructuralmente similares, incluso sin detectarse similitud alguna en la secuencia Estos algoritmos se pueden clasificar en dos grupos: basados en pares de energías y basados en perfiles Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 87 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading) Métodos de pares de energía Estos métodos buscan en una BD estructural la mejor coincidencia, haciendo uso de un alineamiento con la secuencia de consulta Este alineamiento se hace a nivel de perfil de las secuencias usando programación dinámica. En ocasiones también se suele usar un alineamiento local El siguiente paso es construir un modelo el cual lleve a cabo una sustitución de residuos Se calcula la energía, la cual consiste en la interacción de energía entre los residuos Finalmente se clasifican en base a la energía para encontrar la menor de ellas (la estructura más compatible) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 88 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading) Métodos de perfil Se construye un perfil para un grupo de proteínas relacionadas, usando información estadística de cada residuo Este perfil contiene la probabilidad de ocurrencia de cada uno de los veinte aminoácidos por cada posición El puntaje de este perfil contiene información para tipos de estructuras secundarias Para predecir el pliegue estructural, primero se predice su estructura secundaria y a partir de esta información se compara con estructuras de perfiles conocidos Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 89 / 134 Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading) Métodos basados en plegado (threading) 3D-PSSM www.bmm.icnet.uk/~3dpssm/ es un programa basado en perfiles para identificar estructuras. GenThreader http://bioinf.cs.ucl.ac.uk/psipred/index.html es un programa híbrido (perfiles y pares de energía) Fuge www.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html es un servidor el cual hace uso del método de perfiles Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 90 / 134 Predicción de la estructura terciaria de proteínas 3 Modelos Ab Initio Predicción de la estructura terciaria de proteínas Introducción Métodos basados en homología Métodos basados en plegado (threading) Modelos Ab Initio Modelo HP (Hydrophobic-Polar) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 91 / 134 Predicción de la estructura terciaria de proteínas Modelos Ab Initio Modelos Ab Initio En los métodos vistos anteriormente se requiere de la disponibilidad de plantillas en BD para poder lograr predicciones. Al no existir estructuras suficientes para ello, los métodos fallan En estos caso se debe considerar otro tipo de información la cual permita encontrar la estructura El poco conocimiento de estas estructuras es la base del método ab initio Este trata de predecir todas las secuencias de átomos de la proteína sin la ayuda de estructuras de proteínas ya conocidas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 92 / 134 Predicción de la estructura terciaria de proteínas Modelos Ab Initio Modelos Ab Initio Una de las ventajas de este método es que la predicción no se limita a los pliegues ya conocidos Sin embargo, las leyes fisicoquímicas que rigen este comportamiento aún no son bien conocidas, lo cual sigue siendo un gran reto de la bioinformática Estos métodos trabajan con algún tipo de heurística, siguiendo el principio de minimización de energía, para lo que se lleva a cabo una búsqueda de todos los sitios posibles para encontrar dicha región Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 93 / 134 Predicción de la estructura terciaria de proteínas Modelos Ab Initio Modelos Ab Initio Esta búsqueda global no es factible computacionalmente, ya que aún usando una supercomputadora (1 × 1012 operaciones por seg) está se tardaría en muestrear todas las posibles conformaciones para una proteína de 20 residuos entre 10 y 20 años Es por esta razón que se requiere hacer uso de heurísticas que permitan reducir el espacio de búsqueda Algunos de estos métodos fragmentan dicho espacio y combinan diversos tipos de búsqueda para producir un modelo Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 94 / 134 Predicción de la estructura terciaria de proteínas Modelos Ab Initio Modelos Ab Initio Rosetta www.bioinfo.rpi.edu/~bystrc/hmmstr/server.php es un servidor el cual permite predecir estructuras tridimensionales usando el método ab initio. Para ello rompe la secuencia en segmentos cortos (3 a 9 residuos) prediciendo la estructura de estos segmentos haciendo uso de modelos ocultos de Markov. Los resultados para cada uno de estos segmentos se juntan para llevar a cabo la configuración en tres dimensiones (todas las combinaciones posibles) La conformación con la menor energía global es la elegida Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 95 / 134 Predicción de la estructura terciaria de proteínas 3 Modelo HP (Hydrophobic-Polar) Predicción de la estructura terciaria de proteínas Introducción Métodos basados en homología Métodos basados en plegado (threading) Modelos Ab Initio Modelo HP (Hydrophobic-Polar) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 96 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Predicción de la estructura de proteínas (PSP) Es el problema de encontrar una conformación funcional para una proteína dada únicamente su secuencia de aminoácidos. Formalmente: Dado un modelo de energía E : C → R, encontrar la conformación c ∈ C que minimice E(c). Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 97 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) [Dill, 1985] Las proteínas son cadenas lineales formadas por aminoácidos Los aminoácidos se abstraen y clasifican en: Hidrófobos (H) y Polares (P) Dada la secuencia HP de una proteína S ∈ {H, P}L , las conformaciones son modeladas como caminatas no traslapadas en una malla: 1 2 cada nodo de la malla puede ser asignado a máximo un aminoácido aminoácidos consecutivos en S deben ser adyacentes en la malla Principalmente se enfoca en mallas 2D cuadradas y 3D cúbicas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 98 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) [Dill, 1985] La meta es maximizar la interacción entre aminoácidos H en la malla, i.e., minimizar: X E(c) = e(si , sj ) , donde si ,sj ∈S −1 si si y sj son ambos del tipo H y forman un contacto topológico e(si , sj ) = 0 de otro modo Dos aminoácidos si , sj ∈ S forman un contacto topológico si son no consecutivos en S, pero adyacentes en la malla Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 99 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) [Dill, 1985] -1- La conformación óptima para la secuencia HPHPPHHPHPPHPHHPPHPH de longitud L = 20 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural -5- -4- Las esferas negras y blancas denotan aminoácidos H y P, respectivamente La energía de esta estructura es E(c) = −9, dado que hay 9 H-H contactos topológicos -3- -2- -7- -8- -6- -9- 25 de julio del 2013 100 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Estructura generada aleatoriamente Estructura óptima Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 101 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D 2 2 L U 1 R 2 D 2 Codificación movimientos absolutos: las estructuras se codifican como secuencias en {U, D, L, R}L−1 Por qué L − 1? la posición del primer aminoácido es fija Por lo tanto, el tamaño del espacio de búsqueda es: Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 4L−1 25 de julio del 2013 102 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D Asumamos que tenemos una computadora capaz de explorar 1,000 soluciones por segundo L Soluciones (4L−1 ) 5 256 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural Tiempo 0.256 sec. 25 de julio del 2013 103 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D Asumamos que tenemos una computadora capaz de explorar 1,000 soluciones por segundo L Soluciones (4L−1 ) 5 10 256 262,144 Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural Tiempo 0.256 sec. 4.370 min. 25 de julio del 2013 103 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D Asumamos que tenemos una computadora capaz de explorar 1,000 soluciones por segundo L Soluciones (4L−1 ) Tiempo 5 10 20 256 262,144 274,877,906,944 0.256 sec. 4.370 min. 8.720 años Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D Asumamos que tenemos una computadora capaz de explorar 1,000 soluciones por segundo L Soluciones (4L−1 ) Tiempo 5 10 20 30 256 262,144 274,877,906,944 288,230,376,151,712,000 0.256 sec. 4.370 min. 8.720 años 9,139,725 años Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) Espacio de búsqueda 2D L Soluciones (4L−1 ) Tiempo 5 10 20 30 50 256 262,144 274,877,906,944 288,230,376,151,712,000 316,912,650,057,057,000,000,000,000,000 0.256 sec. 4.370 min. 8.720 años 9,139,725 años - Se trabaja comúnmente con secuencias de proteínas de longitud entre 18 y 136.... Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134 Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar) Modelo HP (Hydrophobic-Polar) La alternativa es utilizar metaheurísticas Algoritmos Genéticos Búsqueda Tabu Recocido Simulado ... Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 104 / 134 Predicción de la estructura secundaria de ARN 4 Introducción Predicción de la estructura secundaria de ARN Introducción Tipos de estructuras de ARN Métodos de predicción Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 105 / 134 Predicción de la estructura secundaria de ARN Introducción Predicción de la estructura secundaria de ARN El ARN es un portador de información genética y existe en tres formas: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARN de transferencia (ARNt) A diferencia del ADN, el ARN se integra de una sola hebra, aunque una molécula de ARN puede auto-hibridarse en ciertas regiones para formar estructuras de doble hebra El ARNm es más o menos lineal y no estructurado, mientras que el ARNr y el ARNt sólo pueden funcionar formando estructuras secundarias y terciarias particulares Es por ello que el conocimiento de las estructuras de dichas moléculas es particularmente importante Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 106 / 134 Predicción de la estructura secundaria de ARN 4 Tipos de estructuras de ARN Predicción de la estructura secundaria de ARN Introducción Tipos de estructuras de ARN Métodos de predicción Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 107 / 134 Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN Tipos de estructuras de ARN Las estructuras de ARN pueden ser descritas en tres niveles: primario, secundario y terciario La estructura primaria es la secuencia lineal de ARN integrada por cuatro bases: adenina (A), citosina (C), guanina (G) y uracilo (U) La estructura secundaria se refiere a la representación planar que contiene regiones de bases apareadas entre regiones de una sola hebra La estructura terciaria es el arreglo tridimensional de bases de una molécula de ARN Dado a que la estructura terciaria de una molécula de ARN es difícil de predecir, se ha prestado particular atención a la predicción de la estructura secundaria Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 108 / 134 Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN Tipos de estructuras de ARN Figura: Estructuras primaria, secundaria y terciaria de una molécula de ARNt Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 109 / 134 Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN Tipos de estructuras de ARN Se pueden identificar cuatro subtipos de estructura secundaria: hairpin loop, bulge loop, interior loop y multibranch loop Adicionalmente, el apareamiento de bases entre lazos de diferentes elementos de la estructura secundaria puede resultar en estructuras de más alto nivel como pseudoknot loop, kissing hairpin y hairpin-bulge Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 110 / 134 Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN Tipos de estructuras de ARN Figura: Cuatro tipos básicos de lazos de ARN: hairpin loop, bulge loop, interior loop y multibranch loop Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 111 / 134 Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN Tipos de estructuras de ARN Figura: Contactos pseudoknot, kissing hairpin y hairpin-bulge Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 112 / 134 Predicción de la estructura secundaria de ARN 4 Métodos de predicción Predicción de la estructura secundaria de ARN Introducción Tipos de estructuras de ARN Métodos de predicción Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 113 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Predicción de la estructura secundaria de ARN Esencialmente, existen dos enfoques de predicción de la estructura secundaria del ARN: el enfoque ab initio y el enfoque comparativo El enfoque ab initio se basa en el cálculo de la mínima energía liberada de la estructura estable derivada de una secuencia de ARN El enfoque comparativo infiere estructuras en base a la comparación evolutiva de múltiples secuencias de ARN relacionadas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 114 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Este enfoque realiza predicciones estructurales basadas en una sola secuencia de ARN Generalmente, cuando se efectúa un apareamiento entre bases, la energía de la molécula disminuye debido a las interacciones de atracción entre las dos hebras La energía necesaria para formar pares de bases individuales es influenciada por los pares de bases adyacentes a través de fuerzas de apilamiento (cooperatividad en la formación de hélices) Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 115 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Se han determinado parámetros para calcular la cooperatividad en la formación de pares de bases para la predicción de la estructura secundaria Las interacciones de atracción conducen a un estado de aún menor energía Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 116 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Sin embargo, si el par de bases es adyacente a lazos (loops) o salientes (bulges), los lazos y salientes vecinas tienden a desestabilizar la formación del par de bases La fuerza desestabilizadora en una estructura helicoidal también depende del tipo de lazos cercanos Pueden utilizarse los parámetros para calcular las diferentes energías desestabilizadoras como penalizaciones en el cálculo de las estructuras secundarias Los esquemas de puntaje de las interacciones de estabilización y desestabilización representan la base del enfoque de predicción ab initio Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 117 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio El método ab initio funciona de la siguiente manera: Primero busca todos los posibles patrones de apareamiento de bases de una secuencia Calcula la energía total de una estructura secundaria potencial tomando en cuenta las fuerzas estabilizadoras y desestabilizadoras Si hay múltiples alternativas de estructuras secundarias, el método determina la conformación con la menor energía Existen varias técnicas para encontrar todas las posibles regiones de bases apareadas a partir de una secuencia de ácidos nucleicos: la matriz de puntos y la programación dinámica Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 118 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Una matriz de puntos puede encontrar todos los posibles patrones de apareamiento de bases comparando la secuencia consigo misma Las diagonales perpendiculares a la diagonal principal representan regiones que pueden auto-hibridarse para formar estructuras de doble hebra Sin embargo, la detección de patrones es a menudo oscurecida por altos niveles de ruido Una manera de reducir el ruido es seleccionando una ventana de tamaño apropiado Si la matriz revela más de una estructura factible, se elige la de menor energía Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 119 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Figura: Ejemplo de una matriz de puntos usada para la predicción de la estructura secundaria de una secuencia de ARN Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 120 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Si una molécula grande contiene múltiples segmentos de estructura secundaria, elegir la combinación más estable puede ser una tarea abrumadora Por ello puede utilizarse un enfoque cuantitativo como la programación dinámica Al igual que en la matriz de puntos, la secuencia de ARN es comparada consigo misma Se utiliza un esquema de puntaje para llenar la matriz con puntajes de correspondencia Después de tomar en cuenta toda la información de la secuencia, se determina el camino con el puntaje máximo dentro de la matriz de puntajes Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 121 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio El método de programación dinámica produce una estructura con un único mejor puntaje Sin embargo, lo anterior representa una desventaja potencial ya que en realidad una molécula de RNA puede existir en múltiples formas alternativas con energías cercanas a la mínima y no necesariamente con el máximo número de pares de bases Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 122 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio La desventaja de la programación dinámica puede ser superada adicionando una función de distribución de probabilidad, conocida como función de partición La función de partición calcula la distribución matemática de pares de bases probables en equilibrio termodinámico Gracias a esta función es posible seleccionar un número de estructuras subóptimas dentro de un rango de energía determinado Mfold y RNAfold son dos ejemplos populares de aplicaciones que utilizan el enfoque de predicción ab initio Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 123 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio Mfold (http://www.bioinfo.rpi.edu/applications/mfold/) es una aplicación web para la predicción de estructuras secundarias de ARN Combina programación dinámica con cálculos termodinámicos para identificar la estructura secundaria más estable con la menor energía También produce matrices de puntos junto con términos de energía Este método es confiable para secuencias cortas, pero su precisión decrece conforme crece la longitud de la secuencia Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 124 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque ab initio RNAfold (http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi) es otra aplicación web y forma parte del paquete Vienna RNAfold extiende el alineamiento de secuencia a la vecindad de las diagonales óptimas para calcular la estabilidad de estructuras alternativas Incorpora una función de partición para seleccionar el número de estructuras secundarias estadísticamente más probables En base a cálculos termodinámicos y a la función de partición, se provee un conjunto de estructuras subóptimas Debido al gran número de estructuras secundarias computadas, se utiliza una regla de energía simplificada Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 125 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo El enfoque comparativo utiliza múltiples secuencias evolutivamente relacionadas para inferir una estructura consenso Para distinguir la estructura secundaria conservada entre las secuencias múltiples de RNA se utiliza el concepto de covariación Para conservar la estructura secundaria cuando secuencias homólogas evolucionan, una mutación en una posición responsable de un apareamiento se compensa con la mutación en la posición de apareamiento correspondiente Basados en esta regla, pueden escribirse algoritmos que busquen patrones de covariación en un conjunto de secuencias homólogas apropiadamente alineadas Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 126 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Figura: Ejemplo de covariacion de residuos entre tres secuencias homólogas de ARN Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 127 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Otro aspecto del método comparativo es la selección de una estructura común a través de un consenso Al comparar todas las estructuras predichas de un grupo de secuencias de ARN alineadas es posible adoptar la estructura consenso Los algoritmos que siguen el enfoque comparativo pueden dividirse en dos categorías, dependiendo del tipo de entrada: aquellos que requieren un alineamiento predefinido y aquellos que no lo necesitan Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 128 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Los algoritmos que usan prealineamiento requieren que el usuario provea un alineamiento múltiple de secuencias como entrada Estos programas computan los patrones de mutación como la covariacion, y derivan una estructura consenso, común a todas las secuencias Este tipo de algoritmos son relativamente exitosos para secuencias razonablemente conservadas El requerimiento para usarlos es un conjunto apropiado de secuencias homólogas suficientemente similares y divergentes También dependen de la calidad de la entrada La selección de una única estructura consenso representa una desventaja Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 129 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo RNAalifold (http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi) es un programa que forma parte del paquete Vienna Utiliza un alineamiento múltiple de secuencias como entrada y analiza los patrones de covariación en las secuencias Luego crea una matriz de puntajes que es utilizada para aplicar programación dinámica con el objetivo de seleccionar la estructura con la mínima energía Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 130 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Los algoritmos que no utilizan prealineamiento alinean simultáneamente un conjunto de secuencias e infieren una estructura consenso El alineamiento es realizado utilizando programación dinámica con un esquema de puntaje que incorpora la similaridad de las secuencias así como términos de energía Debido al costo computacional de la programación dinámica, los programas que se encuentran actualmente disponibles limitan la entrada a dos secuencias Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 131 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Foldalign (http://foldalign.kvl.dk/server/index.html) es una aplicación web para el alineamiento y la predicción de estructuras secundarias El usuario provee un par de secuencias no alineadas y utiliza una combinación de Clustal y programación dinámica con esquemas de puntaje que incluyen información de covariación para construir el alineamiento La estructura secundaria conservada en ambas secuencias es posteriormente calculada Para reducir el costo computacional, el programa ignora los multibranch loops Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 132 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Enfoque comparativo Dynalign (http://rna.urmc.rochester.edu/) es un programa UNIX libre El programa calcula las posibles estructuras secundarias utilizando un método similar a Mfold Comparando estructuras alternativas para cada secuencia, la estructura común a ambas secuencias con menor energía es elegida No requiere que las secuencias sean similares por lo que puede manejar secuencias altamente divergentes Sin embargo, solo sirve para predecir secuencias pequeñas de ARN con una precisión razonable, como secuencias de ARNt Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 133 / 134 Predicción de la estructura secundaria de ARN Métodos de predicción Anfinsen, C. (1973). Principles that Govern the Folding of Protein Chains. Science, 181(4096):223–230. Dill, K. (1985). Theory for the Folding and Stability of Globular Proteins. Biochemistry, 24(6):1501–9. Dr. Eduardo R ODRÍGUEZ T. (C INVESTAV) Bioinformática estructural 25 de julio del 2013 134 / 134