Bioinformática 1 Bioinformática INTRODUCCIÓN La bioinformática se ha convertido en una ciencia que está entrando en auge en Latinoamérica debido a que la tecnología ha tenido un gran desarrollo y ha permitido unir la informática con otras ciencias como la biología y la genética. La secuenciación de genomas lleva la necesidad de obtener conclusiones de la lectura de esos millones de pares de bases, saber qué codifican, cómo se relacionan y regulan la expresión de los distintos productos génicos, además de encontrar la función de proteínas desconocidas y de generar modelos que permitan estudiar mutaciones puntuales. La rapidez y eficacia de esas conclusiones se ha generado gracias al desarrollo de la Bioinformática. Este libro tiene por objetivo entregar una descripción básica de la recopilación de información acerca de las temáticas tratadas en clase de Bioinformática, su relación con la Informática Médica, sus principales herramientas, bases de datos y funciones en la Medicina Molecular y Biotecnología. 2 Bioinformática TABLA DE CONTENIDO INTRODUCCIÓN ............................................................................................................... 2 CAPITULO I INTRODUCCIÓN A LA BIOINFORMATICA ................................................. 6 1. Qué es la Bioinformática ............................................................................................ 6 2. Bases de Química ...................................................................................................... 7 2. Bases de Biología ...................................................................................................... 8 3. Bases de Genética ................................................................................................... 10 3.1 Genética ............................................................................................................. 10 3.2 Dogma Central de la Biología Molecular ............................................................. 11 3.3 Ácido Desoxirribunocleico (ADN) ........................................................................ 11 3.4 Traducción y Transcripción Genética .................................................................. 13 3.5 Código Genético ................................................................................................. 14 3.6 Proteínas ............................................................................................................ 17 4. NCBI Entrez .......................................................................................................... 21 CAPITULO II SECUENCIAS DE ADN ............................................................................. 23 1. Formato FASTA ....................................................................................................... 23 2. Alineamiento de Secuencias .................................................................................... 24 3. BLAST...................................................................................................................... 27 3.1 ETAPAS ............................................................................................................. 28 3.2 FAMILIA BLAST ................................................................................................. 29 3.3 Variantes De BLAST ........................................................................................... 29 CAPITULO III GENES ..................................................................................................... 31 1. Código Genético...................................................................................................... 31 1.1 Características Del Código Genético .................................................................. 31 1.2 Splicing ............................................................................................................... 34 2. Open Reading Frames (ORF) .................................................................................. 35 3 Bioinformática 2.1 Marco Abierto de Lectura .................................................................................... 35 2.2 ORF Finder (Open Reading Frame Finder) - NCBI ............................................. 36 3. Modelos Estocásticos ............................................................................................... 39 3.1 Modelo Oculto de Markov ................................................................................... 39 4. GENSCAN ............................................................................................................... 42 CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTEÍNAS ............................... 45 1. Alineamiento de Secuencias ................................................................................... 45 1.1 Alineamiento múltiple de Secuencias .................................................................. 45 1.2 Árbol Filogenético ............................................................................................... 49 2. ClustalWJalview ....................................................................................................... 50 2.1 Clustal................................................................................................................. 50 2.2 Jalview ................................................................................................................ 53 3. Proteínas y Proteómica ............................................................................................ 55 3.1 Proteínas ............................................................................................................ 55 3.2 Proteóma ............................................................................................................ 56 3.3 Proteómica.......................................................................................................... 57 4. Análisis Comparativo de Proteínas ....................................................................... 59 5. PROSITE, PRINTS, Pfam, InterPro .......................................................................... 61 5.1 PROSITE ............................................................................................................ 61 5.2 PRINTS .............................................................................................................. 63 5.3 Pfam ................................................................................................................... 67 5.4 InterPro ............................................................................................................... 71 CAPITULO V BASES DE DATOS .................................................................................. 74 1. Introducción.............................................................................................................. 74 2. Tipos de Base de Datos ........................................................................................... 75 2.1 Modelo jerárquico. .............................................................................................. 75 2.2 Modelo en red. .................................................................................................... 76 2.3 Modelos Avanzados............................................................................................ 77 2.4 Modelo orientado a objetos. ................................................................................ 77 4 Bioinformática 2.5 Modelo declarativo. ............................................................................................. 79 3. Descomposición y Normalización ............................................................................. 80 3.1 Normalización ..................................................................................................... 80 4. Biología de Visualización de Datos........................................................................... 81 5. Base de Datos Biólogicas ......................................................................................... 82 CAPÍTULO VIESTRUCTURAS BIOLÓGICAS ................................................................ 84 1. Estructura ADN ........................................................................................................ 84 1.1 Estructura Primaria: ............................................................................................ 85 1.2 Estructura Secundaria: ....................................................................................... 85 1.3 Estructura Terciaria:............................................................................................ 86 2. Estructura ARN ........................................................................................................ 86 2.1 Estructura Primaria del ARN ............................................................................... 87 2.2 Estructura Secundaria del ARN .......................................................................... 87 2.3 Estructura Terciaria del ARN .............................................................................. 88 3. Estructura de Proteínas ............................................................................................ 88 4. Protein Data Bank .................................................................................................... 91 Crecimiento .............................................................................................................. 91 5. Folding de Proteínas ................................................................................................ 93 5.1 Proceso De Folding ............................................................................................ 94 6. Alineamiento de Estructuras ..................................................................................... 97 CONCLUSIONES .......................................................................................................... 100 BIBLIOGRAFÍA E INFOGRAFÍA ................................................................................... 101 5 Bioinformática CAPITULO I INTRODUCCIÓN A LA BIOINFORMATICA 1. Qué es la Bioinformática La Bioinformática es el uso de técnicas computacionales, matemáticas y estadísticas para el análisis, interpretación y generación de datos biológicos. La bioinformática es una ciencia muy joven, si miramos a través del tiempo algunos descubrimientos fueron de la siguiente manera: |->1958 Primera secuencia de proteína |->1975 Primera secuencia de ADN |->1986 Desarrollo PCR (Polímeros) |-> Inicio de la era Genómica. La bioinformática estudia la Minería de Datos de: |->ADN (Ácido Desoxirribonucleico) |->Proteínas |-> Genómicas -> Mutación /Polimorfismo Figura 1. El alineamiento de secuencias biológicas es una de las herramientas básicas de la bioinformática. En la bioinformática lo que se hace es: 1. Almacenar datos de genes a través de minería de datos. 2. Observar que hacen los genes Por ejemplo en la siguiente figura podemos ver lo que se puede lograr con la bioinformática haciendo visible lo que es regular o irregular en el cuerpo del ser humano u especie. Se pude concluir que la bioinformática lo que busca es llegar a la medicina y ayudar en la obtención de curas para enfermedades como el cáncer, las enfermedades que se derivan de mutaciones, etc. También podemos encontrar que la bioinformática abarca distintas áreas: *Genómica: Ciencia que estudia el genoma. *Transcriptómica: Transferencia genoma a proteína. *Proteómica: Estudio de Proteínas. *Metabolismo: Procesos físico - químicos como la respiración, etc. *Genómica Comparativa: Compara genomas de varios individuos, especies. *Genómica Funcional: Estudia la función del gen. Saber qué hace el gen. *Análisis Filogenéticos: Trata acerca de los árboles basados en la genética de las especies. 6 Bioinformática La bioinformática en la biodiversidad permite llevar un control y descubrir más variedad de animales, plantas, flores, etc. 2. Bases de Química Química: Estudio de la materia. La materia está hecha de átomos. -Modelo atómico: Es la representación estructural de un átomo, que trata de explicar su comportamiento y sus propiedades. -Modelo atómico de Rutherford, mostraba que el átomo estaba compuesto por un núcleo de carga positiva (protón) y alrededor carga negativa (electrones). -El número atómico es la cantidad de protones que posee el átomo. Figura 2. Modelos Atómicos. -El átomo: Es la unidad más pequeña de un elemento químico, que mantiene sus propiedades y no es posible dividir por procesos químicos. -Un átomo cuando pierde un protón se llama ión . |->Ión Positivo: Cuando se pierde un electrón. |->Ión Negativo: Cuando se ganan electrones. -Neutrón: Hace que el peso aumente. Figura 3.El Átomo. |->Isotopo: Tienen dos átomos, el mismo número de protones pero diferente cantidad de neutrones. |->Deuterio: dos neutrones. |->Tripcio: tres neutrones. -Molécula: Conjunto de átomos. Las moléculas se dibujan con ángulos porque con ángulos disminuyo la energía potencial. 7 Bioinformática -Enlace Químico: Fuerza de atracción por fuerza electromagnética. Ahí se intercambian electrones. -Bioquímica: Química relacionada con los seres vivos. Los seres vivos tienen cuatro átomos: 1. Hidrógeno 2. Carbono 3. Nitrógeno 4. Oxígeno -Compuesto Orgánico: Todas las moléculas que contienen carbono. Podemos encontrar cuatro (4) clases de compuesto orgánico que son: 1. Carbohidratos o Glúcidos: Son los que dan energía a nuestro cuerpo. 2. Lípidos: Grasas, no son solubles en el agua. Sirven para reserva de energía. 3. Proteínas: Determinan nuestras características (piel, ojos, cabello, etc.). 4. Ácidos nucleicos: ADN, ARN, ATP. Son formados por los nucleótidos la timina, guanina, adenina y citosina. 2. Bases de Biología Biología: Ciencia que estudia los seres vivos. |->Ser vivo: Es todo lo que es capaz de reproducirse. La biología tiene las siguientes características: 1. Universalidad: Las reacciones químicas básicas son las mismas en todos los seres vivos. 2. Evolución: Todos los organismos se evolucionaran de un único ancestro común. 3. Taxonomía: Todos los seres se dividen en una categoría y subcategorías.Ejemplo:reinos. Figura 4.Esquema de la relación entre bioquímica, genética, biología estructural y biología molecular. Encontramos tres (3) niveles: |->Orgánico: Tejidos, agregaciones de célula. Estructura o compartimento subcelular, análoga a los órganos de seres vivos pluricelulares, que desempeña una función concreta 8 Bioinformática |->Biología Celular: Estudio sobre las células. Esto incluye su anatomía, su fisiología, las interacciones de ésta con el medio, su ciclo vital, y su división y muerte. |->Biología Molecular: Estudio de las moléculas. La biología molecular concierne principalmente al entendimiento de las interacciones de los diferentes sistemas de la célula, lo que incluye muchísimas relaciones, entre ellas las del ADN con el ARN, la síntesis de proteínas, el metabolismo, y el cómo todas esas interacciones son reguladas para conseguir un correcto funcionamiento de la célula. Célula:Unidad Encontramos funcional de todo ser vivo. dos categorías de células: |->Procariotas: No tienen núcleo. |->Eucariotas: Tienen núcleo. Figura 5.Esta sencilla representación muestra parecidos y diferencias generales entre las células eucariotas y procariotas. Entre las células eucariotas encontramos la vegetal y animal, estas poseen diferencias que las podemos observar en la Figura 3 donde ilustra las estructuras que son comunes en las células animales y vegetales, así como las estructuras que les son únicas. Las estructuras que son comunes a plantas y animales, están en medio de la imagen. Las estructuras propias de las plantas, a la izquierda y las animales a la derecha. Figura 6.Célula vegetal y animal con sus diferencias y similitudes. 9 Bioinformática Las células hacen parte de dos clases de organismos: Pluricelulares y Mono celulares por ejemplo la célula animal es pluricelular y las bacterias mono celulares. La célula tienen las siguientes funciones: |->Nutrición. |->Crecimiento. |->Multiplicación. |->Diferenciación. |->Señalización. |->Evolución. 3. Bases de Genética 3.1 Genética La genética estudia características. los genes que determinan nuestras Hay cuatro (4) tipos de genética: 1. Genética Clásica: trata de cromosomas y genes. |->Cromosomas: Es como el ADN se empaqueta. |->Genes: Secuencia larga (3Gb) en el genoma humano cada gen codifica las proteínas que dan nuestras características físicas. Los genes están dentro de los cromosomas. En nuestro cuerpo hay 33.000 características. 2. Genética Cuantitativa: Estudia el impacto de los fenotipos. 3. Genética Evolutiva: Estudia como los genes se vuelven a través del tiempo en determinada población. Figura 7.Una molécula de ADN: las dos cadenas se componen de nucleótidos, cuya secuencia es la información genética. 4. Genética Molecular: Estudia lo mismo que la genética clásica, cuantitativa y evolutiva pero a nivel molecular. La genética molecular tiene un dogma denominado DOGMA CENTRAL DE LA BIOLOGÍA MOLECULAR. 10 Bioinformática 3.2 Dogma Central de la Biología Molecular El Dogma Central de la Bilogía nos habla de cómo se pasa de genotipo a fenotipo. El paso de genotipo a fenotipo se llama expresión genética lo podemos ver en la Figura 7 Transcripción Traducción |Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Proteínas| |_________________________________ | \/ Expresión Técnica |Fenotipo| Figura 8. Dogma Central (Paso de Genotipo a Fenotipo) -Genotipo: Conjunto de toda nuestra información genética (Nuestro Disco Duro). -Fenotipo: Conjunto de características Físicas. |-La replicación consiste en la copia del ADN de una célula, antes de la división celular, para que la célula hija tenga el mismo ADN que la madre. |-La transcripción consiste en convertir la información contenida en el ADN en un formato “legible” para la maquinaria celular de síntesis de proteínas, el ARN. |-La traducción es el mecanismo por el que el mensaje que lleva el ARN se utiliza para sintetizar proteínas. Con estos tres mecanismos conseguimos extraer de la información genética (ADN), los materiales (proteínas) necesarios tanto funcional como estructuralmente para que una célula funcione. La copia de trabajo es sobre un gen (de un archivo a la vez). El sistema es universal. 3.3 Ácido Desoxirribonucleico (ADN) Ácido Desoxirribonucleico (ADN): Contiene la información genética. Es una molécula -> (conjunto de átomos con estructura tridimensional). Se puede afirmar que el ADN es un poli nucleótido el cual es una cadena de moléculas pequeñas. 11 Bioinformática - Nucleótido: Compuesto (Azúcar, base, fosfato). * Azúcar: cumple la función de estructura, es como la columna vertebral (siempre igual). Figura 9.El ADN es una doble hélice de 2 cadenas de núcleo nucleótidos y cada uno contiene: 1. Grupo fosfato 2. Pentosa (azúcar de 5 carbonos) 3. Bases nitrogenadas ya sean Adenina, Guanina, Citosina y Timina(*hay 4 tipos de nucleótidos ya que hay 4 tipos de bases nitrogenadas, estas diferencian a cada uno de los nucleótidos) * Fosfato: Cumple la función de enlace (se mantiene siempre igual). * Base: Da estabilidad a la molécula. Esta cambia encontramos cuatro tipos de bases: |- Adenina |- Citosina |- Timina |- Guanina Nuestro cuerpo trabaja en código (ATCG) base 4: 0 1 2 3 4 Símbolos A Sirve para T codificar en C dos bits G 00 01 10 11 Nuestro ADN codifica nuestra información en cuatro (4) bits. El ADN codifica la información en ATCG. Genoma Humano: Se realizó en el 2001. Es una secuencia de caracteres. Encontramos que el ADN cuando codifica tiene una regla básica es ahí donde se habla de Bases Complementarias estos son: A<- ->T (Solo se enlaza A con T y viceversa) G<- ->C (Solo se enlaza G con C y viceversa) Hebra: Es la doble hélice o doble cadena. El ADN tiene mecanismos de Reparación y Recuperación, por esto debemos saber que él tiene tres niveles de Estructura que son: Figura 10. Situación del ADN dentro de una célula. *Estructura Primaria: Secuencia de nucleótidos es decir (ATCG). 12 Bioinformática *Estructura Secundaria: Doble hélice, estructura tridimensional. *Estructura Terciaria: Se compacta, como madeja y forma nucleosomas y cromosomas. Esto se compacta por protección. El ser humano posee 46 cromosomas. 3.4 Traducción y Transcripción Genética Transcripción es el proceso de fabricación ARN usando el ADN como molde. Traducción es la construcción de una secuencia de aminoácidos (poli péptido) con la información proporcionada por la molécula de ARN. El esquema de este "dogma" ha sido encontrada repetidamente y se considera una regla general (salvo en los retrovirus). El Ácido Ribonucleico mensajero (ARNm) es el molde para la construcción de la proteína. El Ácido Ribonucleico ribosómico (ARNr) se encuentra en el sitio donde se construye la proteína: el ribosoma. El Ácido Ribonucleico de transferencia (ARNt) es el transportador que coloca el aminoácido apropiado en el sitio correspondiente. El ARN tiene el azúcar ribosa en vez de desoxirribosa. La base uracilo (U) reemplaza a la timina (T) en el ARN. El ARN tiene una sola hebra, si bien el ARNt puede formar una estructura de forma de trébol debido a la complementariedad de sus pares de bases. TRANSCRIPCION: HACIENDO UNA COPIA DEL ARNm DE LA SECUENCIA DEL ADN La ARN polimerasa abre la parte del ADN a ser transcripta. Solo una de las hebras del ADN (la hebra codificante) se transcribe. Los nucleótidos de ARN se encuentran disponibles en la región de la cromatina (este proceso solo ocurre en la interface) y se unen en un proceso de síntesis similar al del ADN. 13 Bioinformática Figura 11. Transcripción Genética El ARN está en el núcleo y se hace la transcripción dentro del núcleo, luego el ARNm sale al citoplasma. Encontramos cinco (5) pasos en el proceso de transcripción estos son: 1. Pre iniciación: Llega nuestro ARN polimerasa busca el código donde empieza el archivo de inicio el cual se llama promotor o secuencia de iniciación. Ahí empieza un gen. 2. Iniciación: Aleja dos hélices rompiendo los enlaces solo donde ve el archivo promotor. 3. Disgregación promotor: Se destruye secuencia de iniciación. 4. Elongación: Empieza a hacer la copia. Empieza a hacer los enlaces (moldemolde-original). En el ARN en vez de T hay U. Hace una copia sencilla (Hebra sencilla). 5. Terminación: Secuencia terminadora, para de copiar porque encuentra el código terminador. Se hace un gen a la vez. El ARN se vuelve compacto y vuelve a empezar. 3.5 Código Genético Fue el astrónomo quien señaló que el código que representa a los aminoácidos debía consistir en grupos de al menos tres de las cuatro bases del ADN. En efecto, los 20 aminoácidos están representados en el código genético por la agrupación de tres letras (triplete) de las cuatro existentes. Si uno considera las posibilidades de arreglo de cuatro letras agrupadas de a tres (43) resulta que tenemos 64 posibilidades de palabras a codificar, o 64 posibles codones (secuencia de tres bases en el ARNm que codifica para un aminoácido específico o una secuencia de control). 14 Bioinformática El código genético fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH), 10 años después que Watson y Crick "rompieran" el misterio de la estructura del ADN. Nirenberg descubrió que el ARNm, independientemente del organismo de donde proviene, puede iniciar la síntesis proteica cuando se lo mezcla con el contenido del homogéneo de Escherichiacoli. Adicionando poli-U (un ARNm sintético) a cada uno de 20 tubos de ensayo (cada uno de los cuales tenía un aminoácido diferente) Figura 12.Código genético Nirenberg y Matthaei determinaron que el codón UUU, el único posible en el poli-U, codificaba para el aminoácido fenilalanina. Asimismo un ARNm artificial compuesto por bases A y C alternando codifica alternativamente para histidina y treonina. Gradualmente se fue confeccionando una lista completa del código genético. El código genético consiste en 61 codones para aminoácidos y 3 codones de terminación, que detienen el proceso de traducción. El código genético es por lo tanto redundante, en el sentido que tiene varios codones para un mismo aminoácido. Por ejemplo, la glicina es codificada por los codones GGU, GGC, GGA, y GGG. Si un codón muta por ejemplo de GGU a CGC, se especifica el mismo aminoácido. 3.5.1 Características Universalidad El código genético es compartido por todos los organismos conocidos, incluyendo virus y organelos, aunque pueden aparecer pequeñas diferencias. Así, por ejemplo, el codón UUU codifica el aminoácido fenilalanina tanto en bacterias, como en arqueas y en eucariontes. Este hecho indica que el código genético ha tenido un origen único en todos los seres vivos conocidos. Gracias a la genética molecular, se han distinguido 22 códigos genéticos, que se diferencian del llamado código genético estándar por el significado de uno o más codones. La mayor diversidad se presenta en las mitocondrias, orgánulos de las células eucariotas que se originaron evolutivamente a partir de miembros del 15 Bioinformática dominio Bacteria a través de un proceso de endosimbiosis. El genoma nuclear de los eucariotas sólo suele diferenciarse del código estándar en los codones de iniciación y terminación. Especificidad y continuidad Ningún codón codifica más de un aminoácido, ya que, de no ser así, conllevaría problemas considerables para la síntesis de proteínas específicas para cada gen. Tampoco presenta solapamiento: los tripletes se hallan dispuesto de manera lineal y continua, de manera que entre ellos no existan comas ni espacios y sin compartir ninguna base nitrogenada. Su lectura se hace en un solo sentido (5’– 3’), desde el codón de iniciación hasta el codón de parada. Sin embargo, en un mismo ARNm pueden existir varios codones de inicio, lo que conduce a la síntesis de varios poli péptidos diferentes a partir del mismo transcrito. Degeneración El código genético tiene redundancia pero no ambigüedad (ver tablas de codones). Por ejemplo, aunque los codones GAA y GAG especifican los dos el ácido glutámico (redundancia), ninguno específica otro aminoácido (no ambigüedad). Los codones que codifican un aminoácido pueden diferir en alguna de sus tres posiciones, por ejemplo, el ácido glutámico se específica por GAA y GAG (difieren en la tercera posición), el aminoácido leucina se específica por los codones UUA, UUG, CUU, CUC, CUA y CUG (difieren en la primera o en la tercera posición), mientras que en el caso de la serina, se específica por UCA, UCG, UCC, UCU, AGU, AGC (difieren en la primera, segunda o tercera posición). De una posición de un condón se dice que es cuatro veces degenerada si con cualquier nucleótido en esta posición se específica el mismo aminoácido. Por ejemplo, la tercera posición de los codones de la glicina (GGA, GGG, GGC, GGU) es cuatro veces degenerada, porque todas las sustituciones de nucleótidos en este lugar son sinónimas; es decir, no varían el aminoácido. Sólo la tercera posición de algunos codones puede ser cuatro veces degenerada. Se dice que una posición de un codón es dos veces degenerada si sólo dos de las cuatro posibles sustituciones de nucleótidos especifican el mismo aminoácido. Por ejemplo, la tercera posición de los codones del ácido glutámico (GAA, GAG) es doble degenerada. En los lugares dos veces degenerados, los nucleótidos equivalentes son siempre dos purinas (A/G) o dos pirimidinas (C/U), así que sólo sustituciones transversionales (purina a pirimidina o pirimidina a purina) en dobles degenerados son antónimas. Se dice que una posición de un codón es no degenerada si una mutación en esta posición tiene como resultado la sustitución de un aminoácido. Sólo hay un sitio triple degenerado en el que cambiando tres de cuatro nucleótidos no hay efecto en el aminoácido, mientras que cambiando los cuatro posibles nucleótidos aparece una sustitución del aminoácido. Esta es la tercera posición de un codón de isoleucina: AUU, AUC y AUA, todos codifican isoleucina, pero AUG codifica metionina. En biocomputación, este sitio se trata a menudo como doble degenerado. 16 Bioinformática Tabla del código genético estándar El código genético estándar se refleja en las siguientes tablas. La tabla 1 muestra qué aminoácido específica cada uno de los 64 codones. La tabla 2 muestra qué codones especifican cada uno de los 20 aminoácidos que intervienen en la traducción. Estas tablas se llaman tablas de avance y retroceso respectivamente. Por ejemplo, el codón AAU es el aminoácido asparagina, y UGU y UGC representan cisteína (en la denominación estándar por 3 letras, Asn y Cys, respectivamente). La tabla muestra los 64 codones con sus correspondientes aminoácidos. El ARNm se da en sentido 5’– 3’. Figura 13. Tabla del código genético estándar Nótese que el codón AUG codifica la metionina pero además sirve de sitio de iniciación; el primer AUG en un ARNm es la región que codifica el sitio donde la traducción de proteínas se inicia. 3.6 Proteínas Las proteínas son biomoléculas formadas por cadenas lineales de aminoácidos. El nombre proteína proviene de la palabra griega πρωτεῖος ("proteios"), que significa "primario" o del dios Proteo, por la cantidad de formas que pueden tomar. 17 Bioinformática Las proteínas desempeñan un papel fundamental para la vida y son las biomoléculas más versátiles y más diversas. Son imprescindibles para el crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes, entre las que destacan: * Estructural. Ésta es la función más importante de una proteína * Inmunológica (anticuerpos), * Enzimática (sacarosa y pepsina), * Contráctil (actina y miosina). * Homeostática: colaboran en el mantenimiento del pH, * Transducción de señales (rodopsina) * Protectora o defensiva (trombina y fibrinógeno) Las proteínas están formadas por aminoácidos. Las proteínas de todos los seres vivos están determinadas mayoritariamente por su genética (con excepción de algunos péptidos antimicrobianos de síntesis no ribosomal), es decir, la información genética determina en gran medida qué proteínas tiene una célula, un tejido y un organismo. Las proteínas se sintetizan dependiendo de cómo se encuentren regulados los genes que las codifican. Por lo tanto, son susceptibles a señales o factores externos. El conjunto de las proteínas expresadas en una circunstancia determinada es denominado proteoma. 3.6.1 Clasificación y Estructura Estructura La organización de una proteína viene definida por cuatro niveles estructurales denominados: estructura primaria, estructura secundaria, estructura terciaria y estructura cuaternaria. Cada una de estas estructuras informa de la disposición de la anterior en el espacio. Estructura Primaria: La estructura primaria es la secuencia de AA de la proteína. Nos indica qué AAS componen la cadena polipeptídica y el orden en que dichos AAS. se encuentran. La función de una proteína depende de su secuencia y de la forma que ésta adopte. Estructura Secundaria: La estructura secundaria es la disposición de la secuencia de aminoácidos en el espacio. Los AAS, a medida que van siendo enlazados durante la síntesis de proteínas y gracias a la capacidad de giro de sus enlaces, adquieren una disposición espacial estable, la estructura secundaria. 18 Bioinformática Existen dos tipos de estructura secundaria: la a(alfa)-hélice la conformación beta Esta estructura se forma al enrollarse helicoidalmente sobre sí misma la estructura primaria. Se debe a la formación de enlaces de hidrógeno entre el -C=O de un aminoácido y el -NH- del cuarto aminoácido que le sigue. En esta disposición los AAS. no forman una hélice sino una cadena en forma de zigzag, denominada disposición en lámina plegada.Presentan esta estructura secundaria la queratina de la seda o fibroína. Estructura Terciaria: La estructura terciaria informa sobre la disposición de la estructura secundaria de un polipéptido al plegarse sobre sí misma originando una conformación globular. En definitiva, es la estructura primaria la que determina cuál será la secundaria y por tanto la terciaria. Esta conformación globular facilita la solubilidad en agua y así realizar funciones de transporte, enzimáticas, hormonales, etc. Esta conformación globular se mantiene estable gracias a la existencia de enlaces entre los radicales R de los aminoácidos. Aparecen varios tipos de enlaces: El puente disulfuro entre los radicales de aminoácidos que tiene azufre. Los puentes de hidrógeno Los puentes eléctricos Las interacciones hifrófobas. Estructura Cuaternaria: Esta estructura informa de la unión, mediante enlaces débiles (no covalentes) de varias cadenas polipeptídicas con estructura terciaria, para formar un complejo proteico. Cada una de estas cadenas poli peptídicas recibe el nombre de protómero. El número de protómeros varía desde dos como en la hexoquinasa, cuatro como en la hemoglobina, o muchos como la cápsida del virus de la poliomielitis, que consta de 60 unidades proteicas. Clasificación Las proteínas poseen veinte aminoácidos, los cuales se clasifican en: 19 Bioinformática Glicina, alamina, valina, leucina, isoleucina, fenil, alanina, triptófano, serina, treonina, tirosina, prolina, hidroxiprolina, metionina, cisteína, cistina, lisina, arginina, histidina, ácido aspártico y ácido glutámico. Según su composición Pueden clasificarse en proteínas "simples" y proteínas "conjugadas". Las "simples" o "Holo proteínas" son aquellas que al hidrolizarse producen únicamente aminoácidos, mientras que las "conjugadas" o "Heteroproteínas" son proteínas que al hidrolizarse producen también, además de los aminoácidos, otros componentes orgánicos o inorgánicos. La porción no proteica de una proteína conjugada se denomina grupos prostético". Las proteínas conjugadas se subclasifican de acuerdo con la naturaleza de sus grupos prostéticos. Figura 15. Niveles de las Proteínas 20 Bioinformática 4. NCBI Entrez Entrez es un portal y un buscador que permite acceder a la base de datos del National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la National Library of Medicine (NLM), así como un departamento de NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos. Figura 16.Portal Entrez. Cada ícono es una base fundamental y diferente. Permite encontrar: * PubMed: reúne todos los artículos científicos de las ciencias de la vida y la medicina. * PubMed Central: Parte de los artículos de PubMed que están disponibles. * SiteSearch: Buscar en todo el sitio. * Books: Buscar en los libros del portal. * Nucleotide: Secuencias del ADN y ARN. * Protein: Todas las secuencias de las proteínas. * Genome: Buscar secuencias de los genomas completos (Genoma humano). * Structure: Tiene todas las estructuras. * Taxonomy: Clasificación de las especies. 21 Bioinformática Aquí toda la información biológica es de dominio público. No se puede patentar la información genética. Podemos reducir la búsqueda con ayuda de operadores Booleanos aquí se usan en mayúscula AND, OR, NOT. Podemos seguir reduciendo la búsqueda con Limits->limits to (Lo que se hace es poner rangos de búsqueda). Encontramos de la misma manera en los resultados la opción de poder el formato FASTA o ver las estructurastridimensionales. Es por ejemplo entramos la siguiente expresión en el buscador en la opción Protein ->(AIDS) AND NATURE [JOURNAL] obtendríamos los resultados de todas las proteínas relacionadas con el SIDA publicadas en la revista NATURE. 22 Bioinformática CAPITULO II SECUENCIAS DE ADN 1. Formato FASTA El formato FASTA es el formato más común de secuencia de ADN, ARN y Proteínas. Es un formato de solo texto(se puede escribir oleer en un bloc de notas). Hay unas líneas de descripción y unas líneas donde esta nuestra secuencia. La secuencia máxima de las líneas del formato FASTA es de 80 caracteres de longitud, es decir que cuando llegamos a 80 se empieza una nueva línea. Figura 1. Formato FASTA, NBCI. Sí la secuencia es de nucleótidos el formato permite los siguientes símbolos: Símbolo A C G T U R Y K N - Significado Adenina Citosina Guanina Timina Uracilo Purina Pirimidina GoT A, C, G o T Hueco 23 Bioinformática Sí la secuencia es de aminoácidos el formato permite los siguientes símbolos: Símbolo A B C D E F G H I K L N - Significado Símbolo Significado Alanina P Prolina Asparagina Q Glutamina Cisteina R Arginina Ácido S Serina Aspártico Ácido T Treonina Glutámico Fenilalanina U Selenocysteina Glicina V Valina Histidina W Triptófano Isoleucina Y Tirosina Lisina Z Ácido Glutámico Leucina M Metionina Asparagina * Fin de la traducción gap de longitud indeterminada 2. Alineamiento de Secuencias Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias. Cuando se analizan secuencias es común utilizar los términos similitud y homología de forma indiscriminada, pero estos dos términos hacen referencia a conceptos distintos. |-SIMILITUD: Es el resultado del análisis (observación cuantitativa) de la estructura primaria de dos o más secuencias; la secuencias pueden ser ácidos nucleicos o proteínas. Puesto que la similitud es obtenida de observar las secuencias no puede ser tomada como un indicador para establecer la relación biológica (descendencia) entre las secuencias, ya que el grado de similitud puede deberse a cambios aleatorios acumulados en las secuencias a través del tiempo. |-HOMOLOGÍA: La homología es una medida cualitativa entre las secuencias se presenta cuando la similitud que estás tienen es atribuible a razones evolutivas y no al azar, es decir, la homología establece regiones entre las secuencias que se han conservado con el tiempo. La similitud es el resultado de una medida cuantitativa, la homología es una hipótesis postulada por el investigador basándose en la similitud de las secuencias y en otros datos biológicos que previamente conozca sobre el origen de dichas secuencias. Es permitido establecer el porcentaje se similitud de dos o más secuencias, pero esto no es posible para la homología, ya que las secuencias son o no son homólogas. 24 Bioinformática Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos proteínas dedos de zinc identificadas por el número de acceso GenBank (Clave). Sí tengo dos (2) secuencias y quiero saber cuánto se parecen lo hago a través del Score el cual es el puntaje de nuestro alineamiento. Sí este score es más alto es decir que hay más similitud y nuestra secuencia es más completa. Este puntaje se da de acuerdo a la situación sí se encuentran parejas que coinciden se le da un puntaje positivo, pero si no se le dará un puntaje negativo. Hay dos tipos de alineamiento: |-Pareado: (==2) |-Múltiple: (>2) Es más complicado. Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero antes debemos explicar algunas características que pueden tener como son: |-Determinístico: Es un algoritmo dada la entrada (input) siempre tenemos una misma salida. |-Heurístico: No es segura la misma salida. |-Aleatorio: Siempre da una salida distinta. Los algoritmos para el alineamiento son Globales y Locales: * Globales: Toman la secuencia 1 y la secuencia 2 completas las coloca en una matriz y empieza a comparar. Este algoritmo es lento y ocupa mucha memoria, sus ventajas es que es fácil de programar y es determinístico. * Locales: Toma las secuencias y las divide en pedazos o partes pequeñas y después empieza a comparar. Son Heurísticos, son más rápidos y trabaja el tipo de alineamiento Múltiple. En bioinformática lo más básico es el alineamiento, por esto el algoritmo de Needleman-Wunsches comúnmente usado para alinear secuencias de nucleótidos o proteínas a través del alineamiento Global. El algoritmo Needleman-Wunsch se basa en programación dinámica; esta forma de programación es un método que nos permite reducir el orden de complejidad de un algoritmo. Lo siguiente es un ejemplo de cómo trabaja el algoritmo Needleman-Wunsch: Alinear las siguientes secuencias: 25 Bioinformática A = GAATTCAGTTA B = GGATCGA Parámetros: Coincidencias = 1 No coincidencias = 0 Huecos = 0 Inicialización:(Tabla 1) 1 G 0 6 G 0 7 A 0 1 2 3 4 5 6 G G A T C G 0 0 0 0 0 0 0 1 G 0 1 1 1 1 1 1 2 A 0 1 1 2 2 2 2 3 A 0 1 1 2 2 2 2 4 T 0 1 1 2 3 3 3 5 T 0 1 1 2 3 3 3 6 C 0 1 1 2 3 4 4 7 A 0 1 1 2 3 4 4 8 G 0 1 2 2 3 4 5 9 T 0 1 2 2 3 4 5 10 T 0 1 2 2 3 4 5 11 A 0 1 2 3 3 4 5 Tabla 2. Llenado de la matriz. 7 A 0 1 2 3 3 3 4 5 5 5 5 6 1 2 3 4 5 6 7 8 9 10 11 G A A T T C A G T T A 2 G 0 3 A 0 4 T 0 5 C 0 0 0 0 0 0 0 0 0 0 0 0 0 Tabla 1. Inicialización. Llenado de la Matriz: (Tabla 2) 26 Bioinformática Recuperación de la solución: (Tabla 3) 1 2 3 4 5 6 7 G G A T C G A 0 0 0 0 0 0 0 0 1 G 0 1 1 1 1 1 1 1 2 A 0 1 1 2 2 2 2 2 3 A 0 1 1 2 2 2 2 3 4 T 0 1 1 2 3 3 3 3 5 T 0 1 1 2 3 3 3 3 6 C 0 1 1 2 3 4 4 4 7 A 0 1 1 2 3 4 4 5 8 G 0 1 2 2 3 4 5 5 9 T 0 1 2 2 3 4 5 5 10 T 0 1 2 2 3 4 5 5 11 A 0 1 2 3 3 4 5 6 Tabla 3. Recuperación de la solución. Alineamiento: [x=11,y=7], [x=10,y=6], [x=9,y=6], [x=8,y=6], [x=7,y=5], [x=6,y=5], [x=5,y=4], [x=4,y=4], [x=3,y=3], [x=2,y=3], [x=1,y=2], [x=1,y=1], [x=0,y=0] G¬AATTCAGTTA GGA¬T¬C¬G¬¬A 3. BLAST El algoritmo y el programa de computadora que lo implementa fueron desarrollados por: Stephen Altschul, Warren Gish, David Lipman en el Centro Nacional de Información Biotecnológica (NCBI, por sus siglas en inglés), Webb Millar en la Universidad estatal de Pennsylvania, y Gene Myers en la Universidad de Arizona. También es basado en el algoritmo Smith-Waterman y es local, bastante rápido pero no garantiza el mejor resultado solo el mejor alineamiento. Es usado para encontrar probables genes homólogos, es decir con funciones similares. Para ejecutarse, BLAST requiere dos secuencias como entrada: una secuencia de consulta (también llamada secuencia blanco) y una base de datos de secuencias. BLAST encontrará subsecuencias en la consulta que son similares a subsecuencias de la base de datos. En el uso típico, la secuencia de consulta es mucho más pequeña que el banco de datos, por ejemplo, la consulta puede ser de mil nucleótidos mientras que la base de datos es de varios miles de millones de nucleótidos. BLAST busca alineamientos de secuencias de alto puntaje entre la secuencia de consulta y las secuencias en el banco de datos usando un enfoque heurístico. La velocidad y la relativamente buena precisión de BLAST son la clave de la innovación técnica de los programas BLAST y probablemente el porqué es la herramienta de búsqueda más popular en bioinformática. 27 Bioinformática Figura 1.BLAST. 3.1 ETAPAS 1. Asemilladlo (Seeding): BLAST busca coincidencias exactas de una pequeña longitud fija W entre la secuencia de consulta y las secuencias de la base de datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de palabra W = 3, BLAST podría identificar la subcadena coincidente TTA que es común en ambas secuencias. Por defecto, W = 11 para "semillas" nucleicas. 2. Extensión: BLAST trata de extender la coincidencia en ambas direcciones, comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la coincidencia de la semilla inicial de longitud W en cada dirección en un intento de estimular el puntaje de alineación. Inserciones y eliminaciones no son consideradas durante esta etapa. Para nuestro ejemplo, el alineamiento sin huecos entre las secuencias AGTTAC y ACTTAG centrado alrededor de la palabra en común TTA podría ser: Si es encontrado un alineamiento sin huecos de alto puntaje, la base de datos de secuencias pasa a la tercera etapa. 3. Evaluación: BLAST realiza un alineamiento con huecos entre la secuencia de consulta y la secuencia de la base de datos usando una variación del algoritmo de Smith-Waterman. Entonces los alineamientos relevantes estadísticamente son mostrados al usuario. 28 Bioinformática 3.2 FAMILIA BLAST Figura 2.Familia BLAST. *BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos (ADN/ARN). *BlastP: Busca una proteína en una base de datos de proteínas. *BlastX: Busca nucleótidos (ADN) en la base de datos de proteínas. *TBlastN: Busca proteínas en el ADN. Traduce de la BD(Base de Datos) a proteínas. La traducción va en un solo sentido. 3.3 Variantes De BLAST * Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 También se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia de pequeñas inserciones o eliminaciones en las secuencias que se están comparando, permitiendo así alinear uno o varios nucleótidos o aminoácidos con huecos vacíos llamados gaps. * PsiBLAST: Esta variante de BLAST2 es usada para buscar posibles homólogos 29 Bioinformática en organismos muy lejanos entre ellos, filogenéticamente hablando. Está disponible sólo para secuencias de aminoácidos. PRECAUCIÓN: BLAST no garantiza que las secuencias que alinea sean homólogas y mucho menos que tengan la misma función, simplemente provee posibles candidatos. Se debe recordar que el programa es heurístico y por lo tanto puede que no encuentre la solución óptima. 30 Bioinformática CAPITULO III GENES 1. Código Genético El código genético viene a ser como un diccionario que establece una equivalencia entre las bases nitrogenadas del ARN y el leguaje de las proteínas, establecido por los aminoácidos. Después de muchos estudios (1955 Severo Ochoa y Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprobó que a cada aminoácido la corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican aminoácidos y tres tripletes carecen de sentido e indican terminación de mensaje). SEGUNDA BASE U P R U I M C E R A A B A S G C A G UUU Phe UCU Ser UAU Tyr UGU Cys U UUC Phe UCC Ser UAC Tyr UGC Cys C UUA Leu UCA Ser UAA FIN UGA FIN A UUG Leu UCG Ser UAG FIN UGG Trp G CUU Leu CCU Pro CUA His CGU Arg U CUC Leu CCC Pro CAC His CGC Arg C CUA Leu CCA Pro CAA Gln CGA Arg A CUG Leu CCG Pro CAG Gln CGG Arg G AUU Ile ACU Thr AAU Asn AGU Ser U AUC Ile ACC Thr AAC Asn AGC Ser C AUA Ile ACA Thr AAA Lys AGA Arg A AUG Met ACG Thr AAG Lys AGG Arg G GUU Val GCU Ala GAU Asp GGU Gly U GUC Val GCC Ala GAC Asp GGC Gy C GUA Val GCA Ala GAA Glu GGA Gly A T E R C E R A B A S GUG al GCG Ala GAG E Glu GGG Gly G E Tabla 1. El código genético nos indica que aminoácido corresponde a cada triplete o codón del ARN mensajero. 1.1 Características Del Código Genético 1. El Código es Organizado en Tripletes o Codones: Si cada nucleótido determinara un aminoácido, solamente podríamos codificar cuatro aminoácidos diferentes ya que en el ADN solamente hay cuatro nucleótidos distintos. Cifra muy inferior a los 20 aminoácidos distintos que existen. Si cada dos nucleótidos codificarán un aminoácido, el número total de dinucleótidos distintos que podríamos conseguir con los cuatro nucleótidos diferentes (A, G, T y C) serían variaciones con repetición de cuatro elementos 31 Bioinformática tomados de dos en dos VR4,2 = 42 = 16. Por tanto, tendríamos solamente 16 dinucleótidos diferentes, cifra inferior al número de aminoácidos distintos que existen (20). Si cada grupo de tres nucleótidos determina un aminoácido. Teniendo en cuenta que existen cuatro nucleótidos diferentes (A, G, T y C), el número de grupos de tres nucleótidos distintos que se pueden obtener son variaciones con repetición de cuatro elementos (los cuatro nucleótidos) tomados de tres en tres: VR4,3 = 43 = 64. Por consiguiente, existe un total de 64 tripletes diferentes, cifra más que suficiente para codificar los 20 aminoácidos distintos. 2. El Código Genético es Degenerado: Como hemos dicho anteriormente existen 64 tripletes distintos y 20 aminoácidos diferentes, de manera que un aminoácido puede venir codificado por más de un codón. Este tipo de código se denomina degenerado. Wittmann (1962) induciendo sustituciones de bases por diseminación con nitritos, realizó sustituciones de C por U y de A por G en el ARN del virus del mosaico del tabaco (TMV), demostrando que la serina y la isoleucina estaban determinadas por más de un triplete. Las moléculas encargadas de transportar los aminoácidos hasta el ribosoma y de reconocer los codones del ARN mensajero durante el proceso de traducción son los ARN transferentes (ARN-t). Los ARN-t tienen una estructura en forma de hoja de trébol con varios sitios funcionales: *Extremo 3': lugar de unión al aminoácido (contiene siempre la secuencia ACC). *Lazo dihidrouracilo (DHU): lugar de unión a la aminoacil ARN-t sintetasa o enzimas encargadas de unir una aminoácido a su correspondiente ARN-t. *Lazo de T ψ C: lugar de enlace al ribosoma. *Lazo del anti codón: lugar de reconocimiento de los codones del mensajero. Normalmente el ARN-t adopta una estructura de hoja de trébol plegada en forma de L o forma de boomerang. Estructura ARN transferente Estructura ARN transferente Estructura ARN transferente 32 Bioinformática 3. El Código Genético es No Solapado o Sin Superposiciones: Un nucleótido solamente forma parte de un triplete y, por consiguiente, no forma parte de varios tripletes, lo que indica que el código genético no presenta superposiciones. Por tanto, el código es no solapado. Wittmann (1962) induciendo mutaciones con ácido nitroso en el ARN del virus del mosaico del tabaco (TMV) pudo demostrar que las mutaciones habitualmente producían un cambio en un solo aminoácido. El ácido nitroso produce diseminaciones que provocan sustituciones de bases, si el código fuera solapado y un nucleótido formará parte de dos o tres tripletes, la sustitución de un nucleótido daría lugar a dos o tres aminoácidos alterados en la proteína de la cápside del TMV. Diferencias entre un código solapado y uno no solapado Código solapado: restricciones en la secuencia de aminoácidos 4. La Lectura del Código Genético es "Sin Comas": Teniendo en cuenta que la lectura se hace de tres en tres bases, a partir de un punto de inicio la lectura se lleva a cabo sin interrupciones o espacios vacíos, es decir, la lectura es seguida "sin comas". De manera, que si añadimos un nucleótido (adición) a la secuencia, a partir de ese punto se altera el cuadro de lectura y se modifican todos los aminoácidos. Lo mismo sucede si se pierde (deleción) un nucleótido de la secuencia. A partir del nucleótido delecionado se altera el cuadro de lectura y cambian todos los aminoácidos. Si la adición o la deleciónes de tres nucleótidos o múltiplo de tres, se añade un aminoácido o más de uno a la secuencia que sigue siendo la misma a partir de la última adición o deleción. Una adición y una deleción sucesivas vuelven a restaurar el cuadro de lectura. La lectura se puede hacer de dos formas: *SMIR: Empezando desde la primera cadena. *(C): Empezando desde la última cadena. 33 Bioinformática 5. El Código Genético es Universal: El desciframiento del código genético se ha realizado fundamentalmente en la bacteria E. coli, por tanto, cabe preguntarse si el código genético de esta bacteria es igual que el de otros organismos tanto procarióticos como eucarióticos. Los experimentos realizados hasta la fecha indican que el código genético nuclear es universal, de manera que un determinado triplete o codón lleva información para el mismo aminoácido en diferentes especies. Hoy día existen muchos experimentos que demuestran la universalidad del código nuclear, algunos de estos experimentos son: * Utilización de ARN mensajeros en diferentes sistemas acelulares. Por ejemplo ARN mensajero y ribosomas de reticulocitos de conejo con ARN transferentes de E. coli. En este sistema se sintetiza un poli péptido igual o muy semejante a la hemoglobina de conejo. * Las técnicas de ingeniería genética que permiten introducir ADN de un organismo en otro de manera que el organismo receptor sintetiza las proteínas del organismo donante del ADN. Por ejemplo, la síntesis de proteínas humanas en la bacteria E. coli. 1.2 Splicing En el caso de los organismos Eucariotas el ADN no se transcribe completamente sino solo por partes; Las secciones que no se transcriben se llaman Intrónes, los cuales son regiones del ADN que debe ser eliminada del transcrito primario de ARN, y las secciones que se trascriben se llaman Exones, los cuales son regiones que codifican para una determinada proteína. El resultado de la trascripción de los Exones es una cadena de ARNm (ARN Mensajero) a la que se le puede realizar Transcripción Inversa, dando lugar a una cadena de cADN (ADN Complementario). Este cADN solo se puede hacer en el Laboratorio o por un retrovirus, y se utiliza para leer el ADN que finalmente se va a utilizar en el ADNm y posteriormente en la Proteína. El proceso anteriormente descrito se puede observar en el siguiente gráfico: 34 Bioinformática Gráfico 1.Proceso Splicing. 2. Open Reading Frames (ORF) 2.1 Marco Abierto de Lectura Es una secuencia de información genética que contiene datos que pueden ser utilizados para codificar aminoácidos; Los marcos de lectura se encuentran en el ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucleótidos conocida como tripletes o codones. Cada codón puede ser transcrito por el ARN en otro triplete. El marco de lectura es la sección de ADN o ARN que contiene instrucciones para hacer una proteína completa. En el ADN, hay seis marcos de lectura posibles, ya que el inicio de un marco de lectura depende de donde uno empieza a leer, y el ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura. Una sección de lectura comienza con un codón de inicio (AUG) y uno de parada (UAA, UAG o UGA). Un marco abierto de lectura puede contener un gen completo, o los genes que se solapan; el código genético no siempre es tan ordenada como uno podría imaginar. De hecho, el código genético contiene mucho de lo que se conoce como el ADN no codificante, es decir, que el ADN no parece cumplir una función en términos de la expresión génica. No codificante del ADN puede contener información interesante acerca de la herencia genética de una especie, y puede utilizarse para otras funciones. Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, 1, -2, -3. 35 Bioinformática Si una secuencia se empieza a leer desde el 1er carácter, entonces el marco de lectura es +1; si se empieza desde la 2da, entonces el marco de lectura es +2; Y si se comienza desde la 3era, entonces el marco de lectura es +3. Para la secuencia complementaria, si se empieza a leer desde el 1er carácter, entonces el marco de lectura es -1; si se empieza desde la 2da, entonces el marco de lectura es -2; Y si se comienza desde la 3era, entonces el marco de lectura es 3. Gráfico 2. Marco de Lectura. Para complementar se puede concluir que el Marco abierto de lectura es una porción de una molécula de ADN que cuando se traduce a los aminoácidos, no contiene codones de terminación. El código genético lee secuencias de ADN en grupos de tres pares de bases, esto significa que, en una molécula de ADN de doble hebra, hay 6 posibles sentidos en los que pueden abrirse marcos de lectura -tres en dirección hacia adelante y tres en reverso. Un marco abierto de lectura larga es probable que sea parte de un gen. 2.2 ORF Finder (Open Reading Frame Finder) - NCBI ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la traducción de la proteína correspondiente. ORF Finder soporta el alfabeto IUPAC y varios códigos genéticos. Utilice ORF Finder para buscar posibles segmentos de codificación de proteínas en nuevas secuencias de ADN. 36 Bioinformática Interfaz: Gráfico 3. Interfaz ORF Finder. Como usar este Buscador: 1. Tomamos una secuencia en Formato FASTA que introduciremos en el cuadro correspondiente y así encontrar su marco de lectura, códigos genéticos. Gráfico 4. Búsqueda con ORF Finder - Ingreso formato FASTA para empezar. 37 Bioinformática 2. Debemos colocar en el menú de geneticcodes la opción estándar [ ] luego hacemos clic en el botón y obtenemos la siguiente imagen: Gráfico 5. Búsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado. Gráfico 6. Búsqueda con ORF Finder - Splicing en el bloque. 3. Luego de esto daremos clic en BLAST, en esta secuencia no mostraría ningún resultado por lo corta así que hicimos lo mismo con una secuencia larga 38 Bioinformática (Secuencia de la Salmonella) en su bloque más grande que escogimos nos da el resultado con BLAST y veremos en el siguiente gráfico el resultado. Gráfico 7. Búsqueda en BLAST 3. Modelos Estocásticos * Estocástico: Utiliza probabilidad. un proceso estocástico es un concepto matemático que sirve para caracterizar una sucesión de variables aleatorias (estocásticas) que evolucionan en función de otra variable, generalmente el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. 3.1 Modelo Oculto de Markov Un método de previsión muy fiable sería aquel que analizase la evolución de distintos desarrollos teniendo en cuenta las interrelaciones entre dichos desarrollos e introdujese la variable tiempo. 39 Bioinformática A partir de un estudio del tipo Delphi, se obtienen como conclusiones las probabilidades y las fechas estimadas de ocurrencia de los eventos del cuestionario. Sin embargo, no se consideran las interrelaciones entre los distintos desarrollos. El modelo de Markov va a caracterizar el desarrollo secuencial tecnológico mediante dos parámetros probabilísticos: la secuencia de los desarrollos y el tiempo entre desarrollos sucesivos. Estos dos parámetros se pueden representar con los conceptos transición de estados y tiempo de permanencia en el estado. Se dice que un proceso es de Markov cuando verifica la propiedad de Markov: la evolución del proceso depende del estado actual y del próximo, y no de anteriores o posteriores. A partir de un Delphi clásico se pueden extraer los parámetros característicos del modelo de Markov. Con estos parámetros se puede hacer un análisis de los procesos de Markov por ordenador, estudiando el proceso secuencial en el tiempo y hallando la distribución de probabilidades en el tiempo de los desarrollos. Como consecuencia se obtienen un conjunto de cadenas, denominadas cadenas de Markov, que indican posibles caminos para conseguir un desarrollo tecnológico. Usando este tipo de cadenas, se puede realizar una previsión del futuro en la que se analiza la evolución de distintos desarrollos, teniendo en cuenta las interacciones entre desarrollos e introduciendo la variable tiempo. OBJETIVO-> Determinar los parámetros desconocidos (ocultos) a partir de parámetros observables. Gráfico 1. Modelo Oculto de Markov. 40 Bioinformática * En el modelo de Markov normal los estados son visibles. (a son los únicos parámetros) * En el HMM el estado no es visible más sí las variables influidas por el estado. * Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida. * Se utiliza para analizar la composición de secuencias, para localizar genes prediciendo ORF y para producir predicciones de estructuras secundarias de proteínas. En los términos de un típico modelo oculto de Markov: Estados observables -> columnas individuales del alineamiento Gráfico 2. Modelo Oculto de Markov. Estados Observables. Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido. El éxito de un HMM (HiddenMarkovModels) depende de tener un buen modelo “a priori”. El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los alineamientos no cambian. 41 Bioinformática Gráfico 3. Algoritmos asociados a HMM (HiddenMarkovModels). El modelo de Markov posee ventajas y desventajas entre las cuales podemos observar: Ventajas: * Usualmente un HHM arroja un MSA bueno. *Es un método fundamentado por la teoría de la probabilidad *No se requiere de un orden en las secuencias *Las penalidades de inserción y deleción no son necesarias. *Se puede utilizar información experimental Desventajas: *Se necesitan al menos 20 secuencias (si no más) para poder acomodar la historia evolutiva. *Para construir un modelo se debe tener una base de datos de genes antes. 4. GENSCAN GENSCAN fue desarrollado por Chris Burge en el grupo de investigación de Samuel Karlin, Departamento de Matemáticas de la Universidad de Stanford. El programa y el modelo que subyace en ella se describen en: Burge, C. y Karlin, S. (1997) Predicción de la estructura de los genes completos en ADN genómico humano. J. Mol. Biol. 268, 78-94. Los modelos del sitio de empalme se describen en más detalle en: 42 Bioinformática Burge, CB (1998) las dependencias de modelado de señales de empalme preARNm. En Salzberg, S., Searls, D. y Kasif, S., eds. Métodos Computacionales en Biología Molecular ,ElsevierScience, Amsterdam, pp 127-163. Interfaz Gráfico 1. GENSCAN. Lo primero que hacemos es buscar en entrez una secuencia del ser humano para que pueda ser analizada por Genscan. Gráfico 2. Colocar una secuencia en GENSCAN. 43 Bioinformática Luego podremos observar los resultados, los cuales analizaremos. 44 Bioinformática CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTEÍNAS 1. Alineamiento de Secuencias 1.1 Alineamiento múltiple de Secuencias Un método de alineamiento múltiple verdadero, alinea todas las secuencias al mismo tiempo. Pero no existe un método computacional que pueda realizar esto en tiempo razonable para más de 3 secuencias cortas. Gráfico 1. Alineamiento múltiple de secuencias. ¿Por qué alinear simultáneamente varias secuencias? Un ejemplo claro de este caso sería comparar proteínas muy conservadas evolutivamente que cumplen igual función en distintos organismos, de esta forma se podrían confeccionar árboles evolutivos. Un caso muy estudiado en mamíferos es la insulina, la cual está muy conservada en distintas especies. “Los cambios acumulados en una secuencia biológica se producen a una tasa relativamente constante e independiente de parámetros poblacionales” El alineamiento de múltiples secuencias es muy utilizado en la búsqueda de que varias especies estén emparentadas por un ancestro común. 45 Bioinformática Gráfico 2. Alineamiento múltiple de secuencias. Encontramos tres (3) formas de acercarse al alineamiento: 1. Método Global: Confronta una secuencia con otra completa. Los primeros programas que se desarrollaron para el alineamiento de secuencias fueron diseñados para tratar de crear alineamientos globales, es decir para detectar similaridades utilizando las proteínas enteras. Un alineamiento que se extiende a lo largo de toda la longitud de las secuencias utilizadas se denomina alineamiento GLOBAL, como en los ejemplos que acabamos de ver anteriormente. Este tipo de alineamientos son buenos para proteínas globulares (que carecen de dominios definidos) y en el caso de que las dos secuencias sean muy parecidas a lo largo de toda su longitud (secuencias que han divergido poco a lo largo de la evolución). Sin embargo, existen numerosas proteínas "modulares", entendiendo por tal el hecho de que en su secuencia es posible identificar varios dominios diferentes. En estas proteínas, los diferentes módulos pueden repetirse una o más veces, o aparecer en distinto orden en cada una de las proteínas, por lo que si realizamos un alineamiento global entre ambas, será imposible que el programa pueda detectar la homología entre módulos que ocupan diferente posición en las dos secuencias. Para obtener buenos alineamientos en estos casos es necesario utilizar métodos de alineamiento local, que en esencia consisten en programas que buscan regiones entre las dos proteínas que son parecidas, aunque estas regiones se hallen rodeadas de zonas completamente diferentes. 2. Programación Dinámica: La técnica de programación dinámica es teóricamente aplicable a cualquier número de secuencias; sin embargo, y puesto que es computacionalmente costosa tanto en tiempo como en memoria, raramente se usa en su forma más básica para más de tres o cuatro secuencias. Este método requiere la construcción de un equivalente n-dimensional a la matriz formada por dos secuencias, donde “n” es el número de secuencias problema. 46 Bioinformática La PD constituye una técnica muy general de programación. Se suele aplicar cuando existe un espacio de búsqueda muy grande y éste puede ser estructurado en una serie o sucesión de estados tales que: 1. el estado inicial contiene soluciones triviales de subproblemas 2. cada solución parcial de estados posteriores puede ser calculada por iteración sobre un número fijo de soluciones parciales de los estados anteriores 3. el estado final contiene la solución final Un algoritmo de PD consta de 3 fases: a. fase de inicialización y definición recurrente del score óptimo b. relleno de la matriz de PD para guardar los scores de subproblemas resueltos en cada iter. Se comienza por resolver el subproblemas pequeño c. un rastreo reverso de la matriz para recuperar la estructura de la solución óptima 3. Árbol Filogenético: La filogenia y el alineamiento de secuencias son campos íntimamente relacionados debido a su necesidad compartida de evaluar el parentesco entre secuencias. La filogenia hace un uso extensivo de los alineamientos de secuencias en la construcción e interpretación de árboles filogenéticos, que se usan para clasificar las relaciones evolutivas entre genes homólogos representados en el genoma de especies divergentes. En los siguientes gráficos podemos ver como se realiza la alineación de secuencias con las dos más cercanas y la siguiente: Gráfico 2. Alineamiento de dos secuencias cercanas. 47 Bioinformática Gráfico 3. Alineamiento de dos secuencias cercanas. Gráfico 4. Alineamiento de la secuencia siguiente. 48 Bioinformática 1.2 Árbol Filogenético Gráfico 5. Árbol Filogenético. Todos los seres vivos comparten su origen: todos provienen del reino móneras. Este reino abarca los seres unicelulares procariotas, que carecen de núcleo celular. Son las arqueo bacterias y las eubacterias. De los móneras surgieron los protoctistas. Este reino reúne seres eucariotas unicelulares heterótrofos y con digestión interna (protozoos), y eucariotas unicelulares o pluricelulares sin tejidos, autótrofos fotosintéticos (algas). El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares, sin tejidos, heterótrofos y con digestión externa. Las metáfitas o plantas son eucariotas pluricelulares con tejidos y nutrición autótrofa. El reino metazoos o animal reúne los eucariotas pluricelulares con tejidos y nutrición heterótrofa, con digestión interna. Nuevas tendencias en la clasificación Estudiando los ácidos nucleicos, especialmente el ARN ribosómico, se ha comprobado que se pueden clasificar los seres vivos en solo tres grandes grupos o dominios. Esta técnica se denomina filogenia molecular y tiene una gran utilidad para establecer las relaciones de parentesco entre taxones de seres vivos, basándose en la similitud genética existente entre éstos. 49 Bioinformática Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que reúne a las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que incluye a todos los seres eucariotas. En 1998, Cavalier-Smith propuso un nuevo sistema de clasificación con dos suprareinos (Prokariota y Eukaryota) y seis reinos: Bacterias, Protozoos, Chromistas, Hongos, Plantas y Animales. Las Hojas son diferentes y representan una secuencia que tendrá un puntaje. Los árboles filogenéticos son una representación gráfica de las similitudes y diferencias entre unas secuencias determinadas . Habitualmente, las secuencias de los genes y las proteínas son más parecidas entre organismos más cercanos evolutivamente. Los organismos que hace más tiempo que se separaron en la evolución suelen tener más diferencias en las secuencias de sus respectivos genes, y, por lo tanto, cuando se realiza un árbol filogenético, aparecen más alejados entre sí 2. ClustalWJalview 2.1 Clustal CLUSTAL es un programa que permite hacer alineamientos globales de proteínas y ácidos nucleicos y que además tiene un algoritmo heurístico progresivo, bastante rápido, para calcular alineamientos múltiples. En combinación con herramientas como BLAST, CLUSTAL es muy útil para definir familias de proteínas y de ácidos nucleicos. Al igual que BLAST, también hay servidores web para correr CLUSTALW sin necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente, sobre todo para correr trabajos de alineamiento múltiple a gran escala y tener todo el proceso bajo control. Podemos ver ahora como trabajar en clustal: 50 Bioinformática Gráfico 1. Interfaz Clustal. Gráfico 2.Insertar Secuencia Clustal. 51 Bioinformática Gráfico 3. Envío y espera del alineamiento. Gráfico 4. Resultado Clustal. 52 Bioinformática 2.2 Jalview JalView es un editor de alineamiento múltiple por escrito en Java. Se utiliza ampliamente en una variedad de páginas web (por ejemplo, el servidor de EBI Clustalw y la base de datos de proteínas Pfam dominio), pero está disponible como un editor de propósito general, la alineación y banco de trabajo de análisis. Se usa JalView para: * Ver Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM, MSF, Clustal, BLC, PIR). Guarda las alineaciones y los árboles asociados en JalView formato XML. * Editar Las lagunas se pueden insertar / borrar con el ratón o el teclado. Instrucciones simples. Grupo de edición (supresión de inserción de las lagunas en los grupos de secuencias).La eliminación de las columnas con huecos. * Análisis Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...) Aminoácidos análisis de conservación similar a la de AMAS. Las opciones de alineación de clasificación (por su nombre, para los árboles, el porcentaje de identidad, grupo). Árboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de identidad. Clústeres de secuencia mediante el análisis de componentes principales. La eliminación de las secuencias redundantes. Smith Waterman pares de alineación de las secuencias seleccionadas. * Anotar Uso de la Web basada en los programas de predicción de estructura secundaria ( JNET ). Usuario predefinidos o personalizados esquemas de color a las alineaciones de color o de grupos. Secuencia de recuperación de función y se muestran en la alineación. * Publicar Imprimir su alineación con los colores y anotaciones. Crear páginas HTML. Salida de alineación de imagen Portable Network Graphics (PNG). Salida de la alineación como un archivo PostScript encapsulado (EPS). Podemos ingresar a la página original de Jalview descargarlo y conocer todas sus opciones, características para poder trabajar con él. 53 Bioinformática Gráfico 5. Jalview. En la página de Jalview podemos encontrar simuladores de alineamientos podemos ver en la siguiente gráfica un ejemplo de este: Gráfico 6. Applet en la página de Jalview. 54 Bioinformática 3. Proteínas y Proteómica 3.1 Proteínas Es una macromolécula -> Cadena muy larga de aminoácidos. Los tipos principales de macromoléculas son las proteínas, formadas por cadenas lineales de aminoácidos; los ácidos nucleicos, DNA y RNA, formados por bases nucleotídicas (purinas y pirimidinas), los polisacáridos, formados por subunidades de azúcares y los lípidos formados por glicerol, ácidos grasos o colesterol. Los aminoácidos de las proteínas están unidos por enlaces peptídicos, los carbohidratos de los polisacáridos por enlaces glucosídicos o peptídicos y los lípidos y ácidos nucleicos por enlaces éster. Nuestro cuerpo posee 500.000 proteínas. El estudio de las proteínas permite estudiar: * Su Estructura: Es la manera como se organiza una proteína para adquirir cierta forma. Se puede estudiar su forma: • 3D: Se realiza Experimentalmente (Rayos X, etc.) o Matemáticamente. • Dominios Funcionales: Subsecuencia que desarrolla una función específica. Gráfico 1. Proteína Hemoglobina con Estructura Cuaternaria. * Su Función: Específicamente es lo hace la proteína. 55 Bioinformática Los biólogos se enfatizan en el estudio de la función de las proteínas. En las proteínas podemos encontrar que: * Su Estructura: Puede ser Primaria, Terciaria, Cuaternaria. * Su Forma: Podrían ser Globulares, Fibrosas, Mixtas. * Su Función: Puede variar ente ser de transporte, estructural, protección, señalización entre otras. 3.2 Proteóma Es el conjunto de todas las proteínas producidas por una célula en un instante de tiempo. El término proteoma se utilizó por primera vez en 1995 y ha sido aplicado a diferentes escalas en los sistemas biológicos. El proteoma celular es la totalidad de proteínas expresadas en una célula particular bajo condiciones de medioambiente y etapa de desarrollo, (o ciclo celular) específicas, como lo puede ser la exposición a estimulación hormonal. También se puede hablar del proteoma completo de un organismo que puede ser conceptualizado como las proteínas de todas las variedades de proteomas celulares. Es aproximadamente, el equivalente proteínico del genoma. El Proteoma es un elemento altamente dinámico, cuyos componentes varían en un organismo, tejido, célula o compartimento subcelular, como consecuencia de cambios en su entorno, situaciones de estrés, administración de drogas, señales bioquímicas o su estado fisiológico o patológico. Estrategias empleadas en los estudios de proteomas La estrategia de elección más utilizada actualmente para el estudio de proteomas, que ha demostrado ser eficiente, es la combinación de electroforesis en gel de poliacrilamida bidimensional con espectrometría de masa (Gráfico 2). La electroforesis permite la separación de proteínas de un dado sistema biológico con alta resolución y reproductibilidad, mientras que la espectrometría de masa permite, a través de alta demanda y sensibilidad, la identificación de proteínas presentes en un spot de gel. 56 Bioinformática Gráfico 2. Estrategia para el estudio de Proteomas (Electroforesis). 3.3 Proteómica Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente mediante la técnica de electroforésis en gel de dos dimensiones. En la primera dimensión las proteínas se separan por isoelectroenfoque, que separa las proteínas con base en su carga eléctrica. En la segunda dimensión, las proteínas se separan por peso molecular utilizando SDS-PAGE. 57 Bioinformática Gráfico 3. Esquema en el que se puede observar el proceso seguido para la identificación y cuantificación diferencial masiva de proteínas. La Proteómica engloba un conjunto de metodologías orientadas al estudio sistemático de las proteínas, que son los componentes primordiales que regulan la maquinaria biológica. Los cambios experimentados por las células de un tejido, por la acción de factores naturales, drogas o fármacos o a causa de alguna patología, son consecuencia de cambios, más o menos sutiles, en la pauta de proteínas que producen las células en ese momento. El análisis de estos cambios está siendo cada vez más utilizado en la moderna biomedicina con fines diagnósticos y de pronóstico (biomarcadores), para el tratamiento individualizado de pacientes o para el estudio de mecanismos moleculares en el campo de la investigación básica. Si bien estos cambios pueden analizarse de forma indirecta mediante técnicas genómicas (chips de microarrays de DNA), los resultados no siempre reflejan el grado real de expresión de las proteínas. El estudio directo de estas últimas produce datos mucho más fiables desde el punto de vista biomédico; sin embargo su análisis a escala global es considerablemente más complejo y presenta muchas dificultades tecnológicas. Las estrategias más recientes extraen las proteínas de las células o tejidos y las cortan en fragmentos más pequeños, o péptidos, que son analizados por espectrometría de masas. Los espectros de masas obtenidos son procesados mediante complejos algoritmos matemáticos que permiten la identificación y 58 Bioinformática cuantificación de las proteínas presentes en las muestras. Basándose en un modelo matemático de este proceso, los investigadores del CBMSO han elaborado un método que permite la identificación de las proteínas de forma mucho más robusta y eficiente. El método permite la automatización absoluta del proceso de identificación de proteínas con una tasa máxima de error que puede ser establecida a priori, obteniéndose así resultados completamente fiables. En otro trabajo (Molecular &CellularProteomics 6, 1274-1286 (2007)), los investigadores del mismo grupo han desarrollado un método para detectar específicamente cambios de expresión en proteínas entre dos muestras diferentes. El método utiliza un proceso de marcaje isotópico enzimático y un complejo algoritmo matemático que permite la cuantificación relativa de las proteínas a partir de los espectros de masas. Conjuntamente, las dos técnicas permiten la identificación y cuantificación de miles de proteínas de forma rápida y eficiente y son aplicables al estudio de cualquier modelo biológico. Estas nuevas técnicas están siendo utilizadas por el equipo que las ha desarrollado en proyectos de relevancia biomédica tales como la identificación de nuevos ligandos de las células T del sistema inmune, el estudio del mecanismo molecular de la angiogénesis (crecimiento de nuevos vasos sanguíneos en tumores), o el análisis de los mecanismos de protección del miocardio contra episodios de isquemia. 4. Análisis Comparativo de Proteínas Significa tomar una proteína compararla con otras proteínas conocidas para ver fundamentalmente su función. La proteínas al estudiar su estructura se pueden dividir por Familias esta clasificación es jerárquica. Superfamilias, familias y subfamilias Una superfamilia es un conjunto de proteínas con un origen evolutivo común, un conjunto de homólogos. Las superfamilias se pueden dividir, más o menos arbitrariamente, según lo grandes que sean, en familias y subfamilias. Son conceptos paralelos a los de ortólogos y parálogos: las proteínas de una misma subfamilia son ortólogas entre sí (también puede haber in-paralogs), mientras que son parálogas de las de otras subfamilia que pertenezca a la misma superfamilia. El interés de analizar la organización en familias de las proteínas El objetivo más frecuente cuando estudiamos una proteína es llegar a conocer su función y averiguar cómo se las apaña para llevarla a cabo. Como hemos visto, conocer cuáles son sus homólogos nos puede ayudar, pero también es importante conocer cuáles pertenecen a su misma familia o subfamilia, de modo que, por 59 Bioinformática ejemplo, podamos encontrar una correlación entre la conservación de determinados residuos en la subfamilia y características funcionales específicas de ésta. O por ejemplo, una correlación entre la organización de dominios y las distintas funciones. Gráfico 1. Alineamiento de proteínas de unión a ATP. Algunos residuos están conservados en todas las familias mientras que otros varían mucho. Y otros presentan un patrón de conservación dependiente de cada familia. En la superfamilia hay: chaperones (dnak), proteínas implicadas en la formación del septo bacteriano (ftsA, mreB), hexokinasas (hxk), actina (act).... La forma más frecuente de determinas qué familias y subfamilias hay es construyendo un árbol filogenético. El problema de los árboles es que uno tiene que buscar los homólogos, alinearlos, construir el árbol... y, además de que esto puede llevar bastante tiempo, a veces los árboles resultantes no son buenos, especialmente si hay proteínas demasiado divergentes o si hay dominios no homólogos en las proteínas que intentamos alinear. Además, si queremos comparar dos genomas y ver qué funciones tiene uno y cuáles el otro (quizás intentándolo correlacionarlo con características fenotípicas de los organismos) debemos conocer las relaciones de ortología. Y esto no podemos hacerlo 60 Bioinformática manualmente construyendo árboles para tantos genes. Por eso (entre otras razones) existen numerosas bases de datos y métodos para estudiar la organización de las familias de proteínas. Las distintas bases de datos y los distintos métodos afrontan el problema de forma diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de encontrar grupos de ortólogos. Otras aproximaciones, grupos de homólogos, etc. 5. PROSITE, PRINTS, Pfam, InterPro 5.1 PROSITE PROSITE es una base de datos de familias y dominios de proteínas creada por Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y sitios funcionales así como patrones de aminoácidos. Estos son manualmente verificados por un equipo del Instituto Suizo de Bioinformática e integrado con la base de datos de Swiss-Prot. Sus usos incluyen la identificación de posibles funciones de las proteínas recientemente descubiertas y el análisis de aquellas ya conocidas pero con actividades previamente desconocidas. PROSITE ofrece herramientas para el análisis de secuencias de proteínas y detección de motivos de proteínas; es parte de los servidores de análisis de proteómica de ExPASy. La base de datos ProRule se basa en las descripciones de dominio de PROSITE. Esta proporciona información adicional acerca de funcionalidades o de aminoácidos estructuralmente críticos. Las reglas contienen información sobre los residuos biológicamente significativos, como sitios activos, sitios de unión a sustrato o cofactores, modificaciones postraduccionales o enlaces disulfuro, para ayudar a determinar la función. Estas pueden automáticamente generar anotaciones basados en los motivos de PROSITE. En PROSITE existe un patrón para describir la superfamilia de las proteínas que unen ATP/GTP, que es enorme. En Pfam, sin embargo, existen diversos dominios para las distintas familias que unen ATP/GTP: la familia ras, la familia de factores de elongación de la traducción, etc. Veamos cómo funciona Prosite: Cogeremos una secuencia de una proteína prueba en este caso será de Miosina de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la hemos buscado, en nuestro caso la tomaremos de la plataforma moodle: 61 Bioinformática Gráfico 1.Selección y copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana). Gráfico 2.Copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana). 62 Bioinformática Gráfico 3. Espera de resultados en PROSITE. Gráfico 4. Resultados en PROSITE. 5.2 PRINTS Es una colección de las llamadas "FingerPrints ": proporciona tanto un recurso de anotación detallada de las familias de proteínas , y una herramienta de diagnóstico para recién determinar las secuencias. Una huella digital es un grupo de conservación motivos tomados de un alineamiento de secuencias múltiples - en conjunto, los motivos forman una firma característica de la familia de proteínas alineadas. Los mismos motivos que no son necesariamente contiguos en la 63 Bioinformática secuencia, pero pueden agruparse en un espacio 3D para definir los sitios de unión molecular o las superficies de interacción. La fuerza especial de diagnóstico de las huellas digitales reside en su capacidad para distinguir las diferencias de secuencia en los niveles clan, superfamilia, familia y subfamilia. Esto permite de grano fino diagnóstico funcional de las secuencias sin caracterizar, lo que permite, por ejemplo, la discriminación entre los miembros de la familia sobre la base de los ligandos que se unen o las proteínas con las que interactúan, y oligomerización destacando el potencial o los sitios alostéricos. Veamos cómo funciona PRINTS: Cogeremos la misma secuencia de la proteína prueba (Miosina de Arabidopsisthaliana). Lo primero que haremos es seleccionarla si ya la hemos buscado, en nuestro caso la tomaremos de la plataforma moodle: Gráfico 5.Selección y copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana) . 64 Bioinformática Gráfico 6. Interfaz PRINTS . Gráfico 7. Insertar secuencia en PRINTS . 65 Bioinformática Gráfico 8. Resultado de PRINTS. Gráfico 9. Resultado de PRINTS. 66 Bioinformática Gráfico 10. Gráfica que genera PRINTS. 5.3 Pfam La base de datos Pfam es una de las más importantes colecciones de información en el mundo para la clasificación de las proteínas. La base de datos clasifica el 75 por ciento de proteínas conocidas para formar una biblioteca de familias de proteínas - una "tabla periódica" de la biología. El recurso de acceso abierto se estableció en el Instituto Wellcome Trust Sanger en 1998. Su visión es ofrecer una herramienta que permite a los biólogos experimentales, computacionales y la evolución de clasificar las secuencias de proteínas y responder a preguntas sobre lo que hacen y cómo han evolucionado. El proyecto Pfam es dirigido por el Dr. Alex Bateman en el Instituto Sanger. Para cada familia en Pfam se puede: •Ver alineamientos múltiples •Revisar las arquitecturas y organización de los dominios proteicos •Examinar la distribución de especies •Seguir enlaces a otras bases de datos 67 Bioinformática •Ver estructuras proteicas conocidas Nótese que una única proteína puede pertenecer a varias familias Pfam. Pfam-A es la porción de la base de datos manualmente gestionada, y contiene alrededor de 9.000 entradas. Por cada una de ellas se almacena un alineamiento múltiple de secuencias de proteínas y un modelo oculto de Márkov. Estos modelos ocultos de Márkov pueden usarse para buscar en bases de datos de secuencias con el paquete HMMER. Puestos que estas entradas en Pfam-A no cubren todas las proteínas conocidas, se proporciona un suplemento generado automáticamente denominado Pfam-B. Pfam-B contiene un buen número de familias pequeñas derivadas de la base de datos PRODOM. Aunque de menor calidad, las familias Pfam-B pueden resultar útiles cuando no se encuentran familias Pfam-A. La base de datos iPfam se construye sobre las descripciones de dominios de Pfam. Investiga si diferentes proteínas descritas conjuntamente en la base de datos PDB de estructura de proteínas se encuentran lo suficientemente cercanas para interactuar potencialmente. Veamos cómo funciona Pfam: Cogeremos la misma secuencia de la proteína prueba (Miosina de Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la secuencia de la misma manera que en Prosite y PRINTS: Gráfico 11.Selección y copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana) . 68 Bioinformática Gráfico 12. Interfaz Pfam. Gráfico 13. Insertar secuencia en Pfam. 69 Bioinformática Gráfico 14. Resultados Pfam. Gráfico 15. Resultados gráficos Pfam. 70 Bioinformática 5.4 InterPro InterPro es una base de datos de familias, dominios y sitios funcionales de proteínas en donde las características identificables encontradas en proteínas conocidas pueden ser aplicadas a nuevas secuencias de proteínas. Fue creada en 1999 tras la formación del InterProConsortium entre el grupo de Swiss-Prot en el Instituto Europeo de Bioinformática y el Instituto Suizo de Bioinformática y los miembros fundadores de las bases de datos Pfam, PRINTS, PROSITE y ProDom. Actualmente integra información de las bases de datos PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY, GENE3D y PANTHER. La base de datos está disponible para búsquedas por texto y basadas en secuencia a través de un servicio web, y para descargas por FTP anónimo. Incluye varios formatos de salida como tablas de texto, documentos XML y gráficos para facilitar el análisis de sus resultados. Al igual que las otras bases de datos del Instituto Europeo de Bioinformática, se encuentra en dominio público. Veamos cómo funciona InterPro: Cogeremos la misma secuencia de la proteína prueba (Miosina de Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la secuencia de la misma manera que en Prosite, PRINTS y Pfam: Gráfico 16.Selección y copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana) . 71 Bioinformática Gráfico 17. Interfaz InterPro. Gráfico 18. Insertar secuencia en InterPro. 72 Bioinformática Gráfico 19. Espera de resultados en InterPro. Gráfico 20. Resultados de InterPro. 73 Bioinformática CAPITULO V BASES DE DATOS 1. Introducción El término base de datos fue acuñado por primera vez en 1963, en un simposio celebrado en California. De forma sencilla podemos indicar que una base de datos no es más que un conjunto de información relacionada que se encuentra agrupada o estructurada. El archivo por sí mismo, no constituye una base de datos, sino más bien la forma en que está organizada la información es la que da origen a la base de datos. Las bases de datos manuales, pueden ser difíciles de gestionar y modificar. Por ejemplo, en una guía de teléfonos no es posible encontrar el número de un individuo si no sabemos su apellido, aunque conozcamos su domicilio. Del mismo modo, en un archivo de pacientes en el que la información esté desordenada por el nombre de los mismos, será una tarea bastante engorrosa encontrar todos los pacientes que viven en una zona determinada. Los problemas expuestos anteriormente se pueden resolver creando una base de datos informatizada. Desde el punto de vista informático, una base de datos es un sistema formado por un conjunto de datos almacenados en discos que permiten el acceso directo a ellos y un conjunto de programas que manipulan ese conjunto de datos. Desde el punto de vista más formal, podríamos definir una base de datos como un conjunto de datos estructurados, fiables y homogéneos, organizados independientemente en máquina, accesibles a tiempo real , compartibles por usuarios concurrentes que tienen necesidades de información diferente y no predecibles en el tiempo . La idea general es que estamos tratando con una colección de datos que cumplen las siguientes propiedades: •Están estructurados independientemente de las aplicaciones y del soporte de almacenamiento que los contiene. •Presentan la menor redundancia posible. •Son compartidos por varios usuarios y/o aplicaciones. 74 Bioinformática Gráfico 1. Fichero Excel. 2. Tipos de Base de Datos Al igual que cuando se habla, p.ej., de coches no existe un único modelo, ni una sola marca, ni siquiera una sola tecnología sobre su funcionamiento, cuando se trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca, sino varias, y además cada marca puede tener diferentes productos cada uno de ellos apropiado a un tipo de necesidades. Sin embargo, la división que vamos a hacer aquí de las bases de datos será en función de la tecnología empleada en su funcionamiento. Hablando de coches tenemos los tradicionales de motor a gasolina, los de gasóleo, los turbo diesel, los que funcionaban con gasógeno, y mucho menos frecuentes los coches solares o incluso los de propulsión a chorro; pues bien, hablando de bases de datos tenemos que las más utilizadas son la bases de datos relacionales, las más antiguas son las jerárquicas y en red, y las más avanzadas son las orientadas a objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de trabajar con los datos y en la concepción o mentalidad que el usuario debe adoptar para interactuar con el sistema. 2.1 Modelo jerárquico. El sistema jerárquico más comúnmente conocido es el sistema IMS de IBM. Esta base de datos tiene como objetivo establecer una jerarquía de fichas, de manera que cada ficha puede contener a su vez listas de otras fichas, y así sucesivamente. P.ej., una ficha de clientes puede contener una lista de fichas de facturas, cada una de las cuales puede contener a su vez una lista de fichas de líneas de detalle que describen los servicios facturados. 75 Bioinformática Una base de datos jerárquica está compuesta por una secuencia de bases de datos físicas, de manera que cada base de datos física se compone de todas las ocurrencias de un tipo de registro o ficha determinada. Una ocurrencia de registro es una jerarquía de ocurrencias de segmento. Cada ocurrencia de segmento está formada por un conjunto de ocurrencias o instancias de los campos que componen el segmento. P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de manera que como cabeza principal tenemos una instancia del segmento curso, de la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a su vez, de Oferta dependen otros que son Profesor y Estudiante. Gráfico 2. Ejemplo Modelo Jerárquico. 2.2 Modelo en red. Podemos considerar al modelo de bases de datos en red como de una potencia intermedia entre el jerárquico y el relacional que estudiaremos más adelante. Su estructura es parecida a la jerárquica aunque bastante más compleja, con lo que se consiguen evitar, al menos en parte, los problemas de aquél. Los conceptos fundamentales que debe conocer el administrador para definir el esquema de una base de datos jerárquica, son los siguientes: - Registro: Viene a ser como cada una de las fichas almacenadas en un fichero convencional. - Campos o elementos de datos. Son cada uno de los apartados de que se compone una ficha. - Conjunto: Es el concepto que permite relacionar entre sí tipos de registro distintos. Podemos imaginar los registros simplemente como fichas de un fichero. Para ilustrar el concepto de conjunto, supongamos que tenemos un tipo de registro de clientes, y un tipo de registro de vuelos de avión, y supongamos que queremos asociar ambas informaciones, de manera que para cada vuelo queremos saber 76 Bioinformática cuáles son los pasajeros que viajan en él. La forma de hacerlo es a través de un conjunto. Un conjunto relaciona dos tipos de registro. Uno de ellos es el registro propietario del conjunto, y el otro es el miembro. Gráfico 3. Modelo en Red. 2.3 Modelos Avanzados Las bases de datos relacionales han sido y siguen siendo ampliamente utilizadas para una extensa gama de aplicaciones. Sin embargo, el aumento de potencia de los ordenadores personales, ha hecho aparecer nuevas aplicaciones potentes que requieren la utilización de datos complejamente relacionados o con necesidades de consultas muy particulares, como puedan ser p.ej., los sistemas de información geográficos, el diseño de circuitos electrónicos por ordenador, etc. 2.4 Modelo orientado a objetos. Actualmente, la creación de programas más grandes y complejos, ha hecho avanzar los métodos de programación hacia nuevas formas que permiten el trabajo en equipo de una forma más eficaz y en la que se disminuyen los problemas de coordinación. Uno de estos métodos consiste en la programación orientada a objetos (POO), que trata los problemas desde un punto de vista realista, y modelando cada uno de ellos como si se tratase de un conjunto de elementos u objetos que interrelacionan entre sí para solucionar el problema. Para entender mejor esta filosofía, podemos pensar en ella como en el funcionamiento de un reloj de cuerda. Un reloj de cuerda posee numerosos elementos que interactúan entre sí para obtener como resultado final una 77 Bioinformática determinada posición de las manecillas, que son interpretadas por una persona como la hora actual. Cada uno de estos objetos es un elemento. Cuando un engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como resultado el movimiento de otro engranaje, de una cremallera, o de la propia manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que está haciendo realmente es modificar el estado de un objeto del reloj, normalmente la espiral de la cuerda cuya energía potencial mueve la corona haciendo que un oscilador avance el segundero. A su vez el movimiento del segundero hace avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco, cada hora se activará la portezuela del cuco que saldrá un número determinado de veces según la hora. De esta manera, una modificación del estado de un objeto por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es solucionar un problema al usuario: darle a conocer la hora exacta. Así, la programación orientada a objetos pretende ser una simulación de los procesos de la realidad. De este ejemplo podemos sacar varios conceptos útiles: - Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase. De hecho, todo objeto debe pertenecer a una clase, que define sus características generales.. P.ej., nuestro reloj posee varios engranajes. Serán diferentes, puesto que cada uno de ellos posee un diámetro y un número de dientes distinto, además de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta manera cada engranaje pertenece a la misma clase, a pesar de tener unas características particulares que lo diferencian de los demás. - Estado. Son las características propias de cada objeto. Siguiendo con el caso de los engranajes, su estado puede ser el número de dientes, el tamaño, etc. El estado se utiliza especialmente para guardar la situación del objeto que varía con el tiempo. En nuestro caso almacenaríamos la situación en un espacio tridimensional, y la posición o postura en que se encuentra. - Encapsulación. Cada objeto es consciente de sus propias características. El engranaje «sabe» que si recibe una fuerza en uno de sus dientes, debe girar, y lo sabe porque obedece a unas leyes físicas. En el caso de un programa, es el programador el que debe indicarle al objeto cómo comportarse ante cada estímulo del exterior o de otro objeto. Los demás objetos simplemente se limitan a indicarle al engranaje las fuerzas que le hacen, y ya sabrá el engranaje para dónde se ha de mover, y a qué otros objetos modificar. - Mensaje. Es cada uno de los estímulos que se envían a un objeto. - Herencia. Para facilitar la programación, se puede establecer toda una jerarquía de tipos o clases. 78 Bioinformática P.ej., podemos declarar una clase Engranaje con las características básicas de los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng. helicoidal. Cada una de estas clases especializa la clase general, con la ventaja de que las características comunes a los tres tipos de engranajes sólo hay que decirlas una vez. Gráfico 4. Modelo Orientado a Objetos. 2.5 Modelo declarativo. El enfoque de las bases de datos declarativas es sumamente intuitivo para el usuario, y le permite abstraerse de los problemas de programación inherentes a otros métodos. Este modelo suele usarse para bases de conocimiento, que no son más que bases de datos con mecanismos de consulta en los que el trabajo de extracción de información a partir de los datos recae en realidad sobre el ordenador, en lugar de sobre el usuario. Estos mecanismos de consulta exigen que la información se halle distribuida de manera que haga eficiente las búsquedas de los datos, ya que normalmente las consultas de este tipo requieren acceder una y otra vez a los datos en busca de patrones que se adecúen a las características de los datos que ha solicitado el usuario. Sin embargo, no hablaremos de la organización de los datos, sino sólo de las formas de las consultas. Antes de comenzar, aclararemos que, cuando se vea el lenguaje SQL sobre las bases de datos relacionales, diremos que este es un lenguaje no procedural, en el sentido de que el usuario especifica qué es lo que quiere, pero no cómo. No se debe confundir este aspecto del SQL con un lenguaje puramente declarativo, ya que éstos, amplían la filosofía de la base de datos, de manera que el usuario no es consciente de los métodos de búsqueda que se realizan internamente, y la forma en que se manejan los datos también es muy distinta; además, en el caso de las funcionales, es necesario complicar soberanamente los métodos utilizados 79 Bioinformática si se quiere mantener la pureza de la metodología funcional. Además, la teoría que subyace en ambos modelos difiere radicalmente. Gráfico 5. Modelo Declarativo. 3. Descomposición y Normalización Siempre que un analista de sistemas de base de datos arma una base de datos, queda a su cargo descomponer dicha base en grupos y segmentos de registros. Este proceso es la descomposición; el mismo es necesario independientemente de la arquitectura de la base de datos - relacional, red o jerárquica-. Sin embargo, para la base de datos relacional, la acción correspondiente puede dividirse y expresarse en términos formales y se denominanormalización a la misma. La normalización convierte una relación en varias sub-relaciones, cada una de las cuales obedece a reglas. Estas reglas se describen en términos de dependencia. Una vez que hayamos examinado las distintas formas de dependencia, encontraremos procedimientos a aplicar a las relaciones de modo tal que las mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto no llevará indefectiblemente a formar varias subrelaciones a partir de la única relación preexistente. 3.1 Normalización ¿Qué es normalización? Normalización es un proceso que clasifica relaciones, objetos, formas de relación y demás elementos en grupos, en base a las características que cada uno posee. Si se identifican ciertas reglas, se aplica un categoría; si se definen otras reglas, se aplicará otra categoría. 80 Bioinformática Estamos interesados en particular en la clasificación de las relaciones BDR. La forma de efectuar esto es a través de los tipos de dependencias que podemos determinar dentro de la relación. Cuando las reglas de clasificación sean más y más restrictivas, diremos que la relación está en una forma normal más elevada. La relación que está en la forma normal más elevada posible es que mejor se adapta a nuestras necesidades debido a que optimiza las condiciones que son de importancia para nosotros: • La cantidad de espacio requerido para almacenar los datos es la menor posible; • La facilidad para actualizar la relación es la mayor posible; • La explicación de la base de datos es la más sencilla posible. Gráfico 6. Normalización. 4. Biología de Visualización de Datos Es una rama de la bioinformática relacionada con la aplicación de gráficos por ordenador, visualización científica, y la visualización de la información a las diferentes áreas de las ciencias de la vida. Esto incluye la visualización de secuencias de genomas, las alineaciones, las filogenias, estructuras macromoleculares, la biología de sistemas, la microscopía, y los datos de resonancia magnética. Herramientas de software utilizadas para la visualización de los datos biológicos van desde simples programas independientes a los sistemas complejos e integrados. Hoy en día estamos experimentando un rápido crecimiento en el volumen y la diversidad de los datos biológicos, presentando un desafío cada vez mayor para los biólogos. Un paso clave en la comprensión y el aprendizaje a partir de estos datos es la visualización. Por lo tanto, ha habido un aumento correspondiente en el número y la diversidad de los sistemas de visualización de datos biológicos. 81 Bioinformática Una nueva tendencia es la difuminación de las fronteras entre la visualización de las estructuras 3D a resolución atómica, la visualización de los complejos más grandes de crio-microscopía electrónica, y la visualización de la ubicación de las proteínas y complejos dentro de las células y los tejidos conjunto. Una segunda tendencia emergente es un aumento en la disponibilidad y la importancia de la resolución temporal de datos de la biología de sistemas, la microscopía electrónica y de imágenes de células y tejidos. Por el contrario, la visualización de trayectorias ha sido durante mucho tiempo una parte importante de la dinámica molecular. Gráfico 7. Visualización de Datos. 5. Base de Datos Biológicas Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos “biológicas” o “bioinformáticas”. Para aquellos de vosotros que tiene formación en ciencias de la computación, cuando escucháis base de datos empezáis a pensar en SQL, el modelo relacional, etc… Para la gente que las tiene que usar diariamente, les vendrá a la mente los gestores de bases de datos y los distintos productos que hay disponibles, tanto de pago como de código abierto, que permiten interrogar de diversas maneras (usando el lenguaje de consultas SQL) la información almacenada en una instancia del gestor. En bioinformática, el concepto de “base de datos biológica” no alude tanto a la tecnología usada como al contenido almacenado. Una base de datos biológica es un almacén de datos para información derivada de los datos obtenidos experimentos biológicos, ni más ni menos. Y una base de datos bioinformática es un almacén de datos para información derivada de datos 82 Bioinformática biológicos y de programas bioinformáticos. Si bajamos al nivel más técnico, las bases de datos biológicas y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. Para que os hagáis una idea, os incluyo un gráfico público de crecimiento de la base de datos GenBank desde 1982 hasta 2008 Gráfico 8. GenBank (Base de Datos Biológica). Lo más importante de todo: casi todas estas bases de datos son de libre disposición (cualquiera puede descargarlas). Ello es posible porque la información almacenada en la mayor parte de estas bases de datos es de dominio público y casi siempre estática, al venir de investigación científica ya terminada financiada con fondos públicos. Estos ficheros están casi siempre en formato textual, y la razón viene de los orígenes de la bioinformática: poder entender, ver y manipular sus contenidos sin depender de herramientas especializadas. Los contenidos de estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar comprimidos con gzip, bzip2, xz, etc… 83 Bioinformática CAPÍTULO VI ESTRUCTURAS BIOLÓGICAS 1. Estructura ADN La información con la que se fabrican las moléculas necesarias para el mantenimiento de las funciones celulares está guardada en una molécula de ácido nucleico llamada ácido desoxirribonucleico (ADN). En este apartado describiremos su estructura y explicaremos cómo se almacena dentro del núcleo celular. En la década de los cincuenta, el campo de la biología fue convulsionado por el desarrollo del modelo de la estructura del ADN. James Watson y Francis Crick en 1953 demostraron que consiste en una doble hélice formada por dos cadenas. El ADN es un ácido nucleico formado por nucleótidos. Cada nucleótido consta de tres elementos: * Un azúcar: desoxirribosa en este caso (en el caso de ARN o ácido ribonucleico, el azúcar que lo forma es una ribosa) * Un grupo fosfato * Una base nitrogenada: adenina (A), guanina (G), citosina (C) y timina (T). Estas forman puentes de hidrógeno entre ellas, respetando una estricta complementariedad: A sólo se aparea con T (y viceversa) mediante dos puentes de hidrógeno, y G sólo con C (y viceversa) mediante 3 puentes de hidrógeno. Si la molécula tiene sólo el azúcar unido a la base nitrogenada entonces se denomina nucleósido. Gráfico 2.Estructura del ADN. El ácido desoxirribonucleico es un polímero de dos cadenas anti paralelas (orientación 5' 3' y 3' 5'). Cada cadena está compuesta por unidades de un azúcar (desoxirribosa), un fosfato y una base nitrogenada unidas entre sí por enlaces fosfodiéster. Las bases presentes en el ADN son: adenina (A), timina (T), citosina (C) y guanina (G). Para recordar cómo aparean entre sí las bases podemos pensar en las iniciales de dos grandes personajes del tango: Aníbal Troilo (adenina es la base complementaria de timina) y Carlos Gardel (citosina es la complementaria a guanina). 84 Bioinformática El ADN tiene tres estructuras: 1.1 Estructura Primaria: Se trata de la secuencia de desoxirribonucleótidos de una de las cadenas. La información genética está contenida en el orden exacto de los nucleótidos. Gráfico 3.Estructura Primaria (ATCCAT). 1.2 Estructura Secundaria: Es una estructura en doble hélice. Permite explicar el almacenamiento de la información genética y el mecanismo de duplicación del ADN. Fue postulada por Watson y Crick, basándose en: - La difracción de rayos X que habían realizado Franklin y Wilkins - La equivalencia de bases de Chargaff,que dice que la suma de adeninas más guaninas es igual a la suma de timinas más citosinas. Gráfico 4.Estructura secundaria del ADN. 85 Bioinformática 1.3 Estructura Terciaria: Se refiere a como se almacena el ADN en un volumen reducido. Varía según se trate de organismos procariontes o eucariontes: a) En procariontes se pliega como una super-hélice en forma, generalmente, circular y asociada a una pequeña cantidad de proteínas. Lo mismo ocurre en la mitocondrias y en los plastos. b) En eucariontes el empaquetamiento ha de ser más complejo y compacto y para esto necesita la presencia de proteínas, como son las histonas y otras de naturaleza no histona (en los espermatozoides las proteínas son las protaminas). 2. Estructura ARN El ARN es un polímero de ribonucleótidosde uracilo, citosina, guanina y adenina, organizado en una banda simple, como la mitad de una escalera con la misma estructura del ADN: los laterales están formados por los grupos fosfatos y azúcares de los cuales parte una base nitrogenada. Para traducir de un idioma a otro se necesitan un diccionario y unas reglas gramaticales; igualmente, para traducir el ADN a las proteínas se necesita una clave o código genético de equivalencia, que se denomina Código Genético. Veamos el siguiente cuadro comparativo que nos podrá aclarar las dudas en cuanto a la diferencias con el ADN: 86 Bioinformática Gráfico 6.Cuadro Comparativo ADN / ARN. 2.1 Estructura Primaria del ARN Al igual que el ADN, se refiere a la secuencia de las bases nitrogenadas que constituyen sus nucleótidos 2.2 Estructura del ARN Secundaria Alguna vez, en una misma cadena, existen regiones con secuencias complementarias capaces de aparearse. 87 Bioinformática 2.3 Estructura Terciaria del ARN Es un plegamiento, complicado, sobre la estructura secundaria. 3. Estructura de Proteínas La palabra proteína proviene del griego protop (lo primero, lo principal, lo más importante). Las proteínas son las responsables de la formación y reparación de los tejidos, interviniendo en el desarrollo corporal e intelectual. Las proteínas son biopolímeros (macromoléculas orgánicas), de elevado peso molecular, constituidas básicamente por carbono (C), hidrógeno (H), oxígeno (O) y nitrógeno (N); aunque pueden contener también azufre (S) y fósforo (P) y, en menor proporción, hierro (Fe), cobre (Cu), magnesio (Mg), yodo (Y). Estos elementos químicos se agrupan para formar unidades estructurales (monómeros) llamados aminoácidos (aa), a los cuales se consideran como los "ladrillos de los edificios moleculares proteicos". Estos edificios macromoleculares se construyen y desmoronan con gran facilidad dentro de las células, y a ello debe precisamente la materia viva su capacidad de crecimiento, reparación y regulación. La unión de un bajo número de aminoácidos da lugar a un péptido; si el número de aa que forma la molécula no es mayor de 10, se denomina oligopéptido; si es superior a 10, se llama poli péptido y si el número es superior a 50 aa, se habla ya de proteína. Se clasifican, de forma general, en Holo proteínas y Heteroproteínas según estén formadas, respectivamente, sólo por aminoácidos o bien por aminoácidos más otras moléculas o elementos adicionales no aminoacídicos. La organización de una proteína viene definida por cuatro niveles estructurales denominados: estructura primaria, estructura secundaria, estructura terciaria y estructura cuaternaria. Cada una de estas estructuras informa de la disposición de la anterior en el espacio. Estructura Primaria Una cadena polipeptídica consiste en una cadena lineal de aminoácidos unidos por enlaces peptídicos. El primer puesto de la cadena corresponde al grupo amino terminal, y la estructura primaria es la secuencia en la que están situados todos los constituyentes hasta llegar al carboxilo terminal. Esta secuencia 88 Bioinformática está codificada genéticamente. Existen cadenas poli peptídicas de cualquier número de aminoácidos, sin que exista una solución de continuidad entre péptidos y proteínas. Por convención, se suele considerar proteína aquellos poli péptidos con un peso molecular del orden de 10.000 o más. Estructura Secundaria La estructura secundaria es la forma en la que la cadena poli peptídica se pliega en el espacio. En una proteína, cada tramo de cadena polipeptídica tiene distinta estructura secundaria. Existen varias formas definidas de estructura secundaria, las más importantes de las cuales son las llamadas hélice a y hoja plegada b. Las estructuras secundarias definidas están mantenidas por puentes de hidrógeno formados exclusivamente entre los grupos amino y carboxilo que constituyen el esqueleto de la cadena polipeptídica. Consecuentemente, los parámetros estructurales (distancias, ángulos) serán iguales, independientemente de la proteína y de los aminoácidos que formen la estructura. Estructura Terciaria La estructura terciaria de la proteína es la forma en la que se organizan en el espacio los diferentes tramos de la cadena polipeptídica, que pueden tener una estructura secundaria definida, como las hélices u hojas o no tenerla. La estructura terciaria está mantenida por enlaces iónicos y de puentes de 89 Bioinformática hidrógeno entre las cadenas laterales de los aminoácidos, enlaces hidrofóbicos y eventualmente puentes disulfuro. Estructura Cuaternaria La estructura cuaternaria de una proteína es la forma en la que se asocian las distintas subunidades constituyentes, si es que existen. Es decir, para poder hablar de estructura cuaternaria es necesario que la proteína esté formada por varias subunidades. Como ejemplos de proteínas con estructura cuaternaria se puede considerar la hemoglobina, las inmunoglobulinas o la miosina. Funciones y Ejemplos de las Proteínas Las proteínas determinan la forma y la estructura de las células y dirigen casi todos los procesos vitales. Las funciones de las proteínas son específicas de cada 90 Bioinformática una de ellas y permiten a las células mantener su integridad, defenderse de agentes externos, reparar daños, controlar y regular funciones. Todas las proteínas realizan su función de la misma manera: por unión selectiva a moléculas. Las proteínas estructurales se agregan a otras moléculas de la misma proteína para originar una estructura mayor. Sin embargo, otras proteínas se unen a moléculas distintas: los anticuerpos, a los antígenos específicos; la hemoglobina, al oxígeno; las enzimas, a sus sustratos; los reguladores de la expresión genética, al ADN; las hormonas, a sus receptores específicos. 4. Protein Data Bank El Protein Data Bank es un repositorio de descripciones experimentales de las estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el momento. Cada descripción es un archivo de texto que contiene las coordenadas atómicas de la molécula en cuestión en un formato que se llama PDB. Crecimiento Cuando se fundó, el PDB contenía tan sólo 7 estructuras de proteínas. Desde entonces ha experimentado un crecimiento aproximadamente exponencial en el número de estructuras y nada parece indicar que el ritmo vaya a decaer. El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos estudios. Veamos en las siguientes imágenes como podemos navegar y observar las descripciones: Interfaz: podremos navegar dependiendo el organismo que queramos examinar, así que seleccionamos entre las diferentes opciones brindadas. 91 Bioinformática Seleccionamos Homosapiens donde organismos se encuentran para este: obtenemos resultados de cuantos Seleccionamos una de las figuras de las estructuras que encontramos en la búsqueda más debajo de esta manera podemos analizar sus características. 92 Bioinformática Veamos más grande la estructura: 5. Folding de Proteínas Las proteínas para llevar a cabo sus funciones deben alcanzar una forma determinada, conocida como “Pliegue”, en otras palabras, antes de realizar su trabajo tienen que ensamblarse así mismas. Este proceso de auto ensamblaje se le llama “Plagamiento”. Las proteínas plegadas incorrectamente por lo general carecen de actividad biológica, pero en algunos casos pueden estar asociadas con enfermedades. Para esto las células tienen sistemas que reducen las posibilidades de que las proteínas estén mal plegadas, además cualquier proteína de este tipo son degradados por grupos celulares especializados del sistema de eliminación. Por lo general, todas las moléculas de proteína de cualquier especie adoptan una conformación única, llamada Cadena Nativa. Para la gran mayoría de las proteínas, el estado natural es la forma más estable plegada de la molécula. Las células requieren un mecanismo rápido y eficiente, para el plegamiento de proteínas en su forma correcta, de lo contrario, las células perderían mucha energía en la síntesis de proteínas funcionales y en la degradación de proteínas mal plegadas o desplegadas. 93 Bioinformática 5.1 Proceso De Folding La explicación de la eficiencia de la célula en la promoción de plegamiento de las proteínas probablemente se encuentra en los chaperones, la cual es una clase de proteína que se encuentra en todos los organismos desde las bacterias hasta en los seres humanos. Los chaperones están localizados en cada compartimiento celular, unidos a una gran variedad de proteínas, y la función de la chaperona en general es el mecanismo de plegamiento de las proteínas en las células. Existen dos tipos de Chaperonas: Chaperonas Moleculares: Se unen para estabilizar las proteínas desplegadas o parcialmente doblados, impidiendo así que estas proteínas se agreguen y se degraden. Chaperoninas: Facilitan directamente el plegamiento de las proteínas. 5.1.1 Chaperonas Moleculares De particular importancia son las chaperonas presentes en todos los tipos de células y en los compartimentos celulares. Algunas chaperonas interactúan con las cadenas recién formadas que emergen de los ribosomas. En tanto que otras guían en las etapas posteriores del plegado. Las chaperonas moleculares frecuentemente trabajan en conjunto asegurando que los diferentes estadios en el plegado de cada sistema sean completamente eficientes. Muchos de los detalles del funcionamiento de las chaperonas moleculares han sido determinados en estudios realizados in Vitro. Cada día es más evidente que las funciones celulares, altamente complejas y relacionadas entre sí, son llevadas a cabo por un gran número de proteínas actuando en forma de complejos proteicos, bien transitorios o estables. Hasta hace poco se pensaba que el poli péptido naciente adquiría espontáneamente su configuración funcional al ser sintetizado en el ribosoma. Pero hoy se sabe que tanto el correcto plegamiento de las proteínas como su adecuado ensamblaje en complejos requieren el concurso de unas proteínas especializadas, conocidas como chaperonas, debido a que su papel es vigilar y eventualmente corregir el plegamiento. Estas proteínas están presentes en todos los seres vivos. Las chaperonas tales como la trimetilamina N oxidasa (TMAO) tienen un papel activo en el plegamiento de las proteínas, esta enzima de manera específica permite el plegamiento correcto de la PrPc (Proteínaprionica celular), la carencia de dicha chaperona propicia la formación de la PrPsc ( Proteína prionica scrapie ) al 94 Bioinformática permitir la formación de bandas beta. El mecanismo por el cual las cadenas poli peptídicas se pliegan en una específica estructura tridimensional han sido un misterio hasta hace poco tiempo. La proteína nativa casi siempre corresponde a una estructura que es termodinámicamente estable bajo condiciones fisiológicas. Sin embargo el número total de posibles combinaciones de una cadena poli peptídica es muy grande, una búsqueda sistemática para una estructura en partícula seria larga y difícil. Es claro que el proceso de plegamiento no involucra una serie de pasos predeterminados entre partes específicas, pero lleva a cabo una búsqueda de muchas conformaciones accesibles a la cadena polipeptídica. Si la energía superficial es la adecuada, únicamente un pequeño número de todas las posibles combinaciones darán origen a la estructura nativa de una proteína. Porque la forma final es codificada por la secuencia de aminoácidos y la selección natural que permite evolucionar y ser capaces de plegarse rápida y eficientemente. Una cuestión fundamental acerca de si una proteína se pliega o no correctamente emerge de la utilización de la energía. El resultado de muchos estudios sugiere que el mecanismo fundamental del plegamiento de proteínas involucra la interacción del menor número de residuos para formar un núcleo de plegado alrededor del cual se condensaran todas las demás estructuras rápidamente, que implica el menor gasto de energía. Mientras la topología correcta central no se pliegue el resto de las interacciones no se llevaran a cabo y la proteína no alcanzara su estructura globular estable; Este mecanismo por lo tanto actúa también como un proceso de control de calidad. 5.1.2 Chaperoninas Las chaperoninas utilizan su estructura para ayudar en el plegamiento de muchas proteínas mediante un mecanismo muy general pero poco eficiente, que se basa en el aislamiento de la proteína a plegar. En los organismos eucariotas esta arquitectura ha generado la chaperonina CCT, que pliega eficientemente un reducido número de proteínas. Aunque es conocido desde los trabajos seminales de Anfinsen que las proteínas almacenan en su propia secuencia aminoacídica la información con la que adquirir su conformación final, también es cierto que en muchas ocasiones no les es posible adquirir tal conformación por sí solas, rodeadas como están en la célula por una concentración tan alta de solutos. Para resolver este problema, la naturaleza ha diseñado un tipo de proteínas que se encargan de ayudar a todas las demás a adquirir esa conformación nativa, son las denominadas chaperonas 95 Bioinformática moleculares. Éstas forman un grupo muy variado en cuanto a su tamaño y estructura, una gran parte de ellas actúa mediante un mecanismo similar, que consiste en ofrecer a la proteína desnaturalizada una superficie con la que interaccionar adecuadamente, librándola de otro tipo de interacciones contraproducentes. Uno de los ejemplos más evidentes de este mecanismo es el de las chaperoninas o proteínas de choque térmico de 60 kDa (Hsp60). Estas chaperonas se encuentran en todos los organismos, y en realidad son mucho mayores, pues son grandes oligómeros compuestos por subunidades de esa masa molecular que forman siempre la misma estructura, un doble anillo dispuesto espalda contra espalda. La unidad funcional de las chaperoninas es sin embargo el anillo, compuesto por 7-9 subunidades (dependiendo del tipo de chaperonina) y su funcionamiento es a grandes rasgos común para todas ellas, con una conformación en la que la cavidad del anillo está abierta, lista para reconocer la proteína desnaturalizada y unirse a ella, y otra conformación en la que la cavidad se cierra y libera la proteína en su interior, donde libre de otras interacciones puede adquirir su conformación nativa utilizando la información codificada en su secuencia. El cierre de la cavidad se produce a la vez en todas las subunidades por la unión e hidrólisis de ATP. Aunque la unidad funcional sea el anillo, la presencia de dos unidos entre sí se explica porque el funcionamiento de cada anillo está controlado por el otro, como en un motor de dos cilindros en el que la explosión en uno de ellos empuja a la compresión en el otro, y viceversa. Las chaperoninas se clasifican en dos grupos, las de tipo I que se encuentran en las eubacterias y en organelos endosimbiontes, y las de tipo II que se localizan en las arqueo bacterias y en el citosol de eucariotas. Las de tipo II son más complejas que las de tipo I, pero todas ellas funcionan como chaperonas generales, capaces de plegar casi cualquier proteína desnaturalizada en cualquier conformación, mediante interacciones hidrófobas entre los residuos de las proteínas desnaturalizadas y los que se encuentran en la entrada de la cavidad de la chaperonina. ¿Todas las chaperoninas funcionan, pues, de la misma manera? Todas no, existen diferencias entre ellas que sugieren que la naturaleza ha utilizado la arquitectura general de las chaperoninas, que realizan una función muy general aunque de una manera poco eficiente, para producir CCT, una chaperonina que hace una labor muy específica y muy eficiente, a veces con la colaboración de otras chaperonas. 96 Bioinformática 6. Alineamiento de Estructuras Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la comparación de la forma. Estos alineamientos intentan establecer equivalencias entre dos o más estructuras de polímeros basándose en su forma y conformación tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las proteínas, pero también puede usarse para largas moléculas de ARN. En contraste a la simple superposición estructural, donde al menos se conocen algunos residuos equivalentes de las dos estructuras, el alineamiento estructural no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa herramienta para la comparación de proteínas con baja similitud entre sus secuencias, en donde las relaciones evolutivas entre proteínas no pueden ser fácilmente detectadas por técnicas estándares de alineamiento de secuencias. El alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones evolutivas entre proteínas que comparten una secuencia común muy corta. Sin embargo, el uso de los resultados como evidencia de un ancestro evolutivo común debe realizarse con cautela dados los posibles efectos de confusión con la evolución convergente, según la cual múltiples secuencias de aminoácidos sin relación filogenética entre si convergen a una misma estructura terciaria." Los alineamientos estructurales pueden comparar dos o múltiples secuencias. Puesto que estos alineamientos dependen de información sobre todas las conformaciones tridimensionales de las secuencias problema, el método solo puede ser usado sobre secuencias donde estas estructuras sean conocidas. Estas se encuentran normalmente por cristalografía de rayos X o espectroscopia de resonancia magnética nuclear. Es posible realizar un alineamiento estructural sobre estructuras producidas mediante métodos de predicción de estructura. En efecto, la evaluación de tales predicciones requiere a menudo un alineamiento estructural entre el modelo y la estructura real conocida para evaluar la calidad del modelo. Los alineamientos estructurales son especialmente útiles para analizar datos surgidos de los campos de la genómica estructural y de la proteínica, y pueden usarse como puntos de comparación para evaluar alineamientos generados por métodos bioinformáticas basados exclusivamente en secuencias. El resultado de un alineamiento estructural es una superposición de los conjuntos de coordenadas atómicas, así como una distancia media cuadrática mínima (o RMSD, de Root Mean SquareDeviation, o desviación de la media cuadrática) entre 97 Bioinformática las estructuras básicas de las proteínas superpuestas. La RMSD de estructuras alineadas indica las divergencias entre ellas. El alineamiento estructural puede complicarse por la existencia de múltiples dominios proteicos en el interior de una o más de las estructuras de entrada, ya que cambios en la orientación relativa de los dominios entre dos estructuras a alinear pueden exagerar la RMSD artificialmente. La información mínima producida por un alineamiento estructural correcto es un conjunto de coordenadas tridimensionales superpuestas para cada estructura inicial. Nótese que uno de los elementos de entrada puede estar fijado como referencia y que, por lo tanto, sus coordenadas superpuestas no cambiaran. Las estructuras encajadas pueden usarse para calcular valores RMSD mutuos, así como otras medidas de similitud estructural más sofisticadas como el test de distancia global (GDT, de sus siglas en inglés, y que es la métrica utilizada en CASP, CriticalAssessment of Techniques for Protein Structure Prediction). Un alineamiento estructural también implica un alineamiento de secuencias unidimensional desde el que una secuencia identidad, o el porcentaje de residuos que son idénticos entre las estructuras de entrada, puede calcularse como una medida de cuan cercanamente se encuentran ambas secuencias. Puesto que las estructuras de las proteínas se componen de aminoácidos cuyas cadenas laterales están enlazadas por un esqueleto de proteínas comunes, se puede utilizar un número de los posibles subconjuntos diferentes de átomos que conforman una macromolécula de proteína para producir un alineamiento estructural y calcular los correspondientes valores RMSD. Cuando se alinean estructuras con secuencias muy diferentes, los átomos de la cadena lateral, generalmente, no se toman en cuenta, ya que sus identidades difieren en muchos de los residuos alineados. Por esta razón, en los métodos de alineamiento estructural es común usar por defecto solo los átomos del esqueleto incluidos en el enlace peptídico. Por simplicidad y eficiencia a menudo solo se consideran las posiciones del carbono alfa, ya que el enlace peptídico tiene una conformación plana mínimamente variante. Solo cuando las estructuras a alinear son altamente similares, e incluso idénticas, es significativo alinear posiciones de átomos de la cadena lateral, en cuyo caso la RMSD refleja no solo la conformación del esqueleto de la proteína, sino también los estados de las rotaciones angulares en las cadenas laterales. Otros criterios de comparación que reducen el ruido e impulsan las coincidencias incluyen tomar en consideración la estructura secundaria de las proteínas, los mapas de contactos nativos o patrones de 98 Bioinformática interacción entre residuos, medidas del empaquetamiento de la cadena lateral, y medidas del mantenimiento de los enlaces de hidrogeno. La comparación más sencilla posible entre estructuras de proteínas no intenta alinear las estructuras de entrada, sino que necesita un alineamiento pre calculado como input para determinar cuáles de los residuos en la secuencia deben considerarse para el cálculo de la RMSD. La superposición estructural se usa comúnmente para comparar conformaciones múltiples de la misma proteína (en cuyo caso no es necesario el alineamiento ya que la secuencia es la misma) y para evaluar la calidad de los alineamientos producidos usando solo información de las secuencias entre dos o más secuencias cuyas estructuras son conocidas. Este método utiliza tradicionalmente un sencillo algoritmo de ajuste por mínimos cuadrados, en el que las rotaciones y translaciones óptimas se encuentran minimizando la suma de los cuadrados de las distancias entre todas las estructuras de la superposición. Más recientemente, los métodos bayesianos y de máxima verosimilitud han incrementado enormemente la precisión de las rotaciones, translaciones y matrices de covarianza estimadas para la superposición. 99 Bioinformática CONCLUSIONES Durante todo el proceso de recopilación de la información para complementar las notas de clase se conceptualizaron muchos conceptos y se recordaron otros para el aprovechamiento de la asignatura bioinformática. Algunos de los conceptos de la bioquímica aplicada a la bioinformática dieron más ideas y compresión acerca de las bases de datos que se pueden crear para el desarrollo y avance en cuanto al conocimiento de la información de los organismos en general. 100 Bioinformática BIBLIOGRAFÍA E INFOGRAFÍA Apuntes de Clase de Bioinformática. Ingeniería Telemática. Docente Marco Regalia. Universidad Distrital Francisco José de Caldas. 2011. http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36 http://www.um.es/molecula/anucl03.htm http://www.slideshare.net/munevarjuan/protein-folding-2105013 http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf http://folding.stanford.edu/Spanish/Science http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninasplegamiento-mediante-aislamiento_522 http://es.wikipedia.org/wiki/Alineamiento_estructural http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wikiletra-a/21805-alineamiento-estructural.html http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-eladn/estructura_del_adn.php http://www.um.es/molecula/anucl02.htm http://www.xuletas.es/ficha/estructura-del-adn-y-arn/ http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html http://www.aula21.net/Nutriweb/proteinas.htm#10 http://www.slideshare.net/carmen42/presentacin-proteinas 101