ANÀLISIS FENOMENOLÓGICO DE CARACTERES ESTRUCTURALES DE PROTEÍNAS PARA SU USO EN CLASIFICACIÓN Jeffrey Vega Aguilar Facultad de Ciencias, Escuela de Biología, Sistemática, Universidad Industrial de Santander. 2010 Introducción La cantidad de datos estructurales de proteínas ha aumentado en las últimas décadas y muchas de ellas no se han caracterizado estructuralmente por la falta de un criterio sólido y universal para ello. Los niveles de identidad usados en muchas ocasiones no permiten que los métodos lineales encuentren similaridades entre proteínas que se relacionan en 3D. Sin embargo cualquier secuencia de aminoácidos tiene una alta probabilidad de que su conformación sea similar a proteínas ya caracterizadas, lo que nos induce a pensar en la posibilidad de determinar los fenómenos de divergencia que han experimentado a través del tiempo. Partiendo del hecho de que una hipótesis de relaciones filogenéticas es en primera instancia generada por hipótesis de Homologia las cuales deben ser sustentadas, debemos estimar que tan informativos son los caracteres a utilizar y cuan probable es que se pueda reconocer correctamente una Homologia entre dos patrones similares. La probabilidad de reconocer una homologìa usando el criterio de complejidad favorece técnicas como el HCA, Dominios tipo y Análisis de LOOPS, donde una estimación de similaridad requiere conocimiento sobre la estructura y el tamaño de los patrones, sobre la frecuencia de cada aminoácido, incluso las fuerzas evolutivas que operan sobre ellos. Dado que la secuencia lineal deja abierto un mundo de posibilidades en cuanto a la dirección de los eventos que han generado los cambios, pretendo indagar en la estructuración en 2D algún registro histórico en secuencias lineales que no son tan conservadas. Materiales y métodos. Dominios: Se utilizo la base de datos Pfam que contiene los dominios de familias de proteínas conservadas, y se creo la matriz de caracteres presencia–ausencia de 22 dominios en la familia FeS (Tabla 1). Se evalúo teóricamente y empíricamente si estos caracteres constituían homologìas que permitieran resolver las relaciones históricas al interior de la familia (Figura 1). Análisis de LOOPS Desde http://www.bmm.icnet.uk/loop/index.html se consideraron los agrupamientos conformacionales y secuencias consenso que se han establecido para los bucles de proteínas con menos del 25% de homologìa de secuencia a través de rayos-X con resolución mejor a 2.5 Aº. Los LOOPS (bucles) han sido clasificados en cinco tipos de acuerdo a las estructuras secundarias que abrazan (alfa-alfa, betaenlaces beta, beta-orquillas beta, alfa-beta y beta-alfa (figura 2). Cuatro variables se han utilizado para describir la geometría de bucle (3 ángulos y una distancia) y estas clases se dividen en subclases basadas en la llave de la geometría. Se evalúo si tal clasificación es congruente con las relaciones filogenéticas encontradas en las secuencias de aminoácidos de 12 proteínas pertenecientes a las clases alfa-alfa, beta-beta, alfa-beta (figura 3), además se determino la consistencia teórica de caracteres con similaridad y conjunción. HCA Se evalúo teóricamente la probabilidad de homologìa para los caracteres derivados de un Análisis de clusters hidrofobitos (Tabla 3). Se tomo como referencia el trabajo realizado por Hernandez et al, 2006 con Lacasas de bacterias, para crear la matriz de caracteres de clusters hidrofóbicos (tabla 2) a partir de la cual se realizo una búsqueda por MP en Winclada (Nixon 2002) de la hipótesis de relaciones filogenéticas. Estos nuevos caracteres son entidades propuestas con base en el alineamiento que se hace para encontrar similaridad en la posición del cluster, su forma y el número de aminoácidos hidrofóbicos que lo forman. Además se utilizaron las secuencias de aminoácidos de las 5 proteínas, junto con un out group de otra familia para la hipótesis de relaciones filogenéticas con Mr.Bayes 3.1.2 (Huelsenbeck y Ronquist 2001) que fue confrontada con la topología creada a partir de HCA. No se evalúo a través del pesaje de caracteres la informatividad de los mismos quedando tal propósito para un futuro análisis. Los análisis filogenéticos con secuencias de aminoácidos para testear las hipótesis de relación filogenética con caracteres hidrofóbicos y para evaluar si la clasificación implementada con Análisis de LOOPS guarda correspondencia con la topología, se hicieron gracias al hecho de que las hipótesis de homologìa son testeables como predicciones de relaciones filogenéticas las cuales pueden ser verificadas con otros caracteres (Patterson, 1988). Los conceptos teóricos a evaluar fueron: Similaridad: Correspondencia topográfica y de transformación ontogénica. Conjunción: Dos estados de carácter no pueden estar en la misma entidad. Congruencia: Los agrupamientos propuestos deben ser congruentes con los agrupamientos con otras homologìas. Resultados y discusión La topología generada con la matriz de caracteres de dominios, presenta una politomía basal general, lo que indica que no hay información para resolver las relaciones de la familia FeS (figura 1). La contrastacion de hipótesis filogenéticas para HCA, dio como resultados las topologías de las Figuras 3 y 4, con estas se determino que los caracteres de clusters hidrofóbicos pasan el test de congruencia, ya que las relaciones filogenéticas son las mismas en su mayoría. La topología generada para evaluar la clasificación LOOPS (Figura 5), no manifiesta relación alguna entre las familias, ya que estas no se comportan como grupos monofiléticos. Esta clasificación no obedece a relaciones históricas, así como tampoco realiza un alineamiento de estructuras. Test Similaridad congruencia Conjunción Patrones-Dominio FALLA SIN EVALUAR Análisis de LOOPS FALLA FALLA FALLA HCA PASA PASA PASA Tabla 3. Test de Patterson para los caracteres propuestos. FALLA Criterio de posición: el alineamiento nos asegura que existe un patrón amplio que es reconocido como el escenario para que los caracteres se ubiquen y mantengan relaciones similares de posición respecto de todo el conjunto. Este alineamiento se hace bajo el concepto de dominio, el cual funciona como unidad estructural para todas las secuencias en 2D a analizar. Para caracteres morfológicos la homologìa posicional es el resultado de identidad en los mecanismos del desarrollo de la estructura, la construcción de proteínas en un mecanismo uniforme y el orden en que aparecen los animoácidos va a depender de la secuencia de ARN. Los clusters hidrofóbicos (HCA) relacionándolos por su posición en la estructura y su relación con la región funcional, pasan el test de similaridad. Esto es; que cuando una mutación afecta un cluster asociado al sitio activo de la proteína la probabilidad de que esta novedad sea desarrollada y retenida es baja. Consecutivamente la probabilidad de que este carácter se comporte como una homologìa es mayor. Probablemente solo los caracteres que sean neutrales a la selección de fuerzas son funcionalmente independientes y seria un problema por que también serian muy variables, entonces la mejor forma de rastrear la evolución de las proteínas quizás sea a través del registro que ha quedado como resultado de la presión selectiva sobre la función. Sobre la independencia de los caracteres propuestos desde HCA, hay que decir que considero que si una mutación en la secuencia afecta varios caracteres es por el hecho de correr el marco de lectura, luego considero que no se comportan independientemente siempre. Los LOOPS son un procedimiento de agrupación que capta la mayor parte de los grupos analizados por parte de los métodos de inspección visual y encuentra las similitudes sin alinear, ya que usa ángulos de Ramachandran, es por esto que no pasa el test de similaridad topográfica. El criterio de calidad especifica: en HCA la secuencia de aminoácidos especifica para determinar la estructura secundaria Alfa o Beta correspondiente y sobre la cual se establece el marco de homologìa, puede ser considerada como soporte para este criterio ya que constituyen una unidad de conformación resultado de la naturaleza de lo residuos de los aminoácidos y su polaridad. Criterio de continuidad: El alineamiento con HCA de estructuras relacionadas pero de secuencias divergentes hace posible delinear precisamente las posiciones que siempre están ocupadas por aminoácidos hidrofóbicos. Estos agregados sin embargo exhiben diferentes propiedades concernientes en particular con su accesibilidad a determinados solventes, como a la importancia para configurar una estructura secundaria. Las posiciones hidrofóbicas conservadas son mas ocultas que las no conservadas y su cadena son significantemente menos expuestas. El pequeño número de posiciones conservadas o casi totalmente conservados constituye un factor determinante para cada pliegue, permitiendo que plegamientos encontrados en otras secuencias mantengan relación con las observadas y exista relación ontogénica y de posición a través de la existencia de agregados que presentan características intermedias. Conclusiones. En esta inspección superficial sobre HCA considero los clusters como valiosos para inferir relaciones genealógicas entre miembros de una misma familia de proteínas. Con una mejor especificación de caracteres se puede indagar sobre cuales de estos agrupamientos de aminoácidos nos permiten delimitar patrones estructurales informativos genealógicos. Ante la falta de un registro fósil para proteínas , lo cual ha sido planteado como un inconveniente para la consideración de caracteres ancestrales comunes; me inclino hacia considerar la posibilidad de poder rastrear la evolución a través de las estructuras conservadas y su relación entre ellas, lo que ha sido planteado años atrás por Fitch (1970) quien planteo que la discriminación entre analogía y homologìa entre dos grupos de secuencias puede ser llevada a cabo sin un registro fósil, utilizando el principio de descendencia común y el supuesto de parsimonia (Patterson, 1988), y así construir conformaciones estructurales ancestrales y analizar si son mas o menos similares con los descendientes observados. Otro desafío será evaluar estadísticamente caracteres de este tipo; es decir determinar si la estructuración es debida al azar, o es resultado de algún tipo de selección. Puedo deducir de todo esto es que el criterio usado para definir Homologia (criterio de ancestria común) es un concepto teórico, por lo que para reconocer empíricamente caracteres derivados compartidos estructurales debo evaluar la congruencia con otras topologías que usan otros caracteres. ANEXOS Tabal 1. Matriz generada a partir de los dominios encontrados en cada familia (Pfam). Figura 2. Bucle tipo Alfa-Alfa. Clasificación de proteínas LOOPS Figura 1. Árbol consenso estricto, para los caracteres “dominio” propuestos. Dominio A β1 β2 Bacillus subtilis Aquifex aeolicum T. erythraeum T. thermophilus G. sulfurreducens β3 3 3 3 0 1 4 0 4 4 3 β4 5 4 4 0 2 β5 β6 1 1 1 1 1 α2 5 2 3 3 4 4 3 1 1 3 β7 3 1 2 0 2 3 2 2 2 3 4 3 4 2 3 Dominio B β10 Bacillus subtilis Aquifex aeolicum T. erythraeum T. thermophilus β11 β13 β14 β15 β16 β19α6 β17 β20 α3β9 β8 β21 3 5 3 4 2 3 3 5 3 2 3 3 3 3 1 4 3 1 1 4 4 4 2 2 2 3 3 3 2 2 3 4 3 4 2 2 2 2 1 1 9 7 6 7 5 G. sulfurreducens 3 3 2 4 2 3 3 5 2 Dominio C β25α8β29β22 β23 β24 β26 α9 β27 β28 α10 β30 Bacillus subtilis 2 2 3 0 2 1 1 1 3 Aquifex aeolicum 2 2 3 1 0 1 3 1 2 T. erythraeum 2 2 2 2 0 1 3 2 0 T. thermophilus 1 1 1 1 1 1 2 2 1 G. sulfurreducens 2 2 3 1 2 2 1 1 2 Tabla 2. Matriz de caracteres obtenidos a partir de HCA. La codificación de los estados se realizo de acuerdo al numero de tipos morfológicos diferentes encontrados en la posición. Figura 3. Topología para Lacasas obtenida con caracteres de agregados hidrofóbicos. Figura 4. Topología para Lacasas obtenida con secuencias de aminoácidos. 2 Figura 5. Topología con secuencias a.a. para los miembros de tres familias LOOPS, diferenciadas con colores.