La molécula de ADN, vista por un biólogo Una molécula de ADN consta de dos polidesoxirribonucleótidos que se enrollan en torno a un eje imaginario común dando lugar a la famosa doble hélice, un modelo estructural propuesto en 1953 por James Watson y Francis Crick y que resultó ser correcto. Cada cadena de polidesoxirribonucleótido se denomina también hebra y está formada por desoxirribonucleótidos unidos entre sí mediante enlaces de tipo fosfodiéster que se forman entre el grupo fosfato en posición 5' de un desoxirribonucleótido y el grupo hidroxilo en posición 3' de otro. El orden en que se disponen cada una de las 4 bases posibles (A, C, T y G) determina su secuencia. En cada una de las hebras se puede distinguir un extremo 5' que corresponde al desoxirribonucleótido que tiene un grupo fosfato libre (que no ha reaccionado) en la posición 5' de la desoxirribosa y un extremo 3' que corresponde al desoxirribonucleótido que tiene un grupo OH libre (que no ha reaccionado) en posición 3' de la desoxirribosa. Por convención, la secuencia de un ácido nucleico (ADN o ARN) se escribe siempre en el sentido 5'→3'. Las secuencias de las dos hebras de una doble hélice de ADN son complementarias y antiparalelas: • Las bases complementarias (una de cada hebra) se unen entre sí mediante puentes de hidrógeno formando los llamados pares de bases. La A se empareja siempre con la T (y viceversa) y la C se empareja siempre con la G (y viceversa). La ruptura de estos débiles enlaces (por ejemplo, mediante calentamiento) hace que las dos hebras se separen. Se dice entonces que la molécula de ADN se encuentra desnaturalizada. • Las dos hebras son antiparalelas porque una de ellas está orientada en sentido 5'→3' y la otra en sentido 3'→5'. A la hora de escribir la secuencia de una molécula de ADN basta con escribir la secuencia de una de sus hebras. El resto de la molécula se puede completar automáticamente teniendo en cuenta que la otra hebra es complementaria y antiparalela. Consideremos, por ejemplo, la secuencia TGCGATAC. Esta secuencia corresponde a una de sus hebras, a la que llamaremos hebra A. Como no se indica lo contrario, se supone que la secuencia está escrita en sentido 5'→3' y se la denomina hebra directa (forward strand). Hebra A (directa): 5'-TGCGATAC-3' Podemos escribir la hebra A en sentido 3'→5' y obtenemos la hebra inversa (reverse strand): Hebra A (inversa): 3'-CATAGCGT-5' Para representar la molécula completa, habrá que incluir la otra hebra, a la que denominaremos hebra B: Hebra A: 5'-TGCGATAC-3' Hebra B: 3'-ACGCTATG-5' La hebra B es la hebra complementaria (complementary strand) y se escribe en sentido 3'→5' para que las bases de cada hebra queden emparejadas. Si escribimos la secuencia de la hebra B complementaria en sentido 5'→3' se obtiene la complementaria inversa (reverse-complement): 5'-GTATCGCA-3'. En una molécula de ADN de doble hebra se suelen utilizar los términos hebra directa y hebra inversa para distinguir la hebra que se escribe en sentido 5'→3' (directa) de la hebra que se escribe en sentido 3'→5' (inversa). Se trata, por tanto, de una designación arbitraria, ya que depende únicamente de cómo se haya escrito la secuencia. Sin embargo, es especialmente importante tener en cuenta esta distinción a la hora de encargar la síntesis de cebadores para una reacción de PCR. Uno de los cebadores está orientado en sentido 5'→3' (forward primer) y el otro en sentido 3'→5' (reverse primer). Cuando se van a encargar los cebadores, es importante recordar que las dos secuencias deben escribirse en sentido 5'→3'. Si no se escribe correctamente la secuencia, nos llegará un cebador que no sirve para nada. Durante la expresión génica, cualquiera de las dos hebras de la molécula de ADN puede servir de molde para la síntesis de una molécula de ARN mensajero (ARNm). Este proceso se denomina transcripción. La secuencia del ARNm se llama codificante, porque contiene toda la información necesaria para dirigir la síntesis de una proteína, un proceso que se denomina traducción. La hebra del ADN que sirve de molde para la transcripción se llama hebra sin sentido (antisense), hebra no codificante (noncoding), hebra (-), o hebra de Watson, y su secuencia es complementaria a la del ARNm. La hebra de ADN complementaria a la que actúa de molde se llama hebra con sentido (sense), hebra codificante (coding), hebra (+), o hebra de Crick. Cuando se va a depositar la secuencia de un gen en una base de datos, se envía siempre la hebra codificante, que puede ser cualquiera de las dos. Por convención, se escribe en sentido 5'→3', de modo que a partir de ella se puede deducir inmediatamente (gracias al código genético) la secuencia de la proteína que codifica. La región del ADN que codifica una proteína se denomina marco abierto de lectura (ORF, open reading frame). Se extiende desde el codón ATG de inicio de la traducción hasta el codón de parada (TAA, TAG, TGA). No incluye las regiones no traducidas de los extremos 5' y 3' (5'-UTR y 3'-UTR, untranslated region). En el caso de los eucariotas, los ORF pueden incluir intrones. Cuando se eliminan los intrones, el ARNm ya está listo para ser traducido a proteínas y la nueva secuencia se denomina secuencia codificante (CDS, coding sequence). En procariotas, ORF y CDS es lo mismo, ya que los ORF carecen de intrones. La mayoría de los programas informáticos que se utilizan para detectar genes en procariotas se limitan a identificar los ORF que superen una longitud determinada. En el caso de organismos eucariotas la detección de genes es mucho más compleja porque hay que tener en cuenta la presencia de intrones y exones, los lugares de corte y empalme (splicing) y el procesamiento alternativo (alternative splicing). Los ORF se pueden encontrar tanto en la hebra directa (escrita en sentido 5'→3') como en la hebra inversa (escrita en sentido 3'→5'), tal y como se aprecia en la figura inferior. En algunos casos se pueden encontrar regiones del ADN en las que las dos hebras contienen secuencias codificantes pertenecientes a genes distintos y que se encuentran solapadas. Estos genes solapados se denominan genes fantasma (shadow genes) y dan bastantes problemas a la hora de predecir la presencia de genes en una secuencia, ya que suelen confundir a los programas informáticos de predicción. Cuando se obtiene una secuencia codificante de ADN se desconoce cuál es la pauta de lectura (reading frame). Por eso, los programas de traducción de secuencias de ADN ofrecen las seis posibles opciones: 3 pautas de lectura en la hebra directa (5'→3') y 3 pautas de lectura en la hebra complementaria inversa (también escrita en sentido 5'→3'). En algunos casos, las secuencias de la hebra A y de la hebra B son iguales. Se trata de una secuencia palindrómica. Los lugares de corte de la mayoría de las endonucleasas de restricción y muchos de los lugares de unión al ADN de proteínas reguladoras corresponden a secuencias palindrómicas. Por ejemplo, el lugar de corte de la endonucleasa EcoR1 es: GAATTC. Escribiendo la secuencia de las dos hebras, el lugar de corte sería: Hebra A: 5'-GAATTC-3' Hebra B: 3'-CTTAAG-5' Vistas así las secuencias, no parecen palindrómicas. Sin embargo, si escribimos la secuencia de la hebra B en el sentido 5'→3' podemos comprobar que es igual que la secuencia de la hebra A: Hebra B: 5'-GAATTC-3' Hebra A: 5'-GAATTC-3' En muchos casos es muy importante especificar la posición relativa de diversas regiones de una molécula de ADN. Supongamos una molécula de ADN que contenga un lugar de corte para la EcoR1 que nos sirve como punto de referencia. Cualquier secuencia que se encuentre antes de la G que marca el extremo 5' del lugar de corte está "corriente arriba" (upstream) y cualquier secuencia que se encuentre después de la C que marca el extremo 3' del lugar de corte está "corriente abajo" (downstream). Tipos de secuencias de ADN Las secuencias de ADN almacenadas en bases de datos pueden ser de varios tipos: • • • • ADN genómico: es el que se extrae directamente del genoma y contiene los genes en su estado natural, es decir, que además de la secuencia que codifica una proteína también contiene intrones, elementos reguladores y grandes porciones de ADN intergénico. Hay bases de datos especializadas como, por ejemplo, GOLD (Genomes Online Database), que incluyen los genomas completos que se han secuenciado hasta la fecha (casi 13.000) y los que están en marcha (casi 28.000). Su URL es http://genomesonline.org. La base de datos del NCBI Genome (http://www.ncbi.nlm.nih.gov/genome) también contiene genomas completos. ADN sintético: son secuencias de vectores (plásmidos, virus modificados u otros elementos genéticos) utilizados en el laboratorio para generar moléculas de ADN recombinante. Se almacenan en la división SYN del GenBank. ADN complementario (ADNc): es el que se obtiene a partir de un ARN mediante la transcriptasa inversa. Tiene la ventaja de que siempre corresponden a secuencias codificantes (ARN o proteínas). Fragmentos de secuencias expresadas (EST, expressed sequence tags): Son moléculas de ADNc sintetizadas a partir de un ARNm mediante la transcriptasa inversa. Son secuencias incompletas, con una longitud de entre 400 y 600 nucleótidos (el máximo que permiten los métodos de secuenciación actuales) y pueden presentar hasta un 2% de errores, pero son tremendamente útiles a la hora de localizar genes (secuencias codificantes) en el ADN genómico y por eso se almacenan en una base de datos especializada: dbEST, cuya URL es http://www.ncbi.nlm.nih.gov/nucest. La molécula de ADN, vista por un informático Las herramientas bioinformáticas consideran las secuencias como una sucesión finita de caracteres que pertenecen a un alfabeto definido. Si se trata de una secuencia de ADN, el alfabeto es N = {A, C, G, T}, si es un ARN el alfabeto es NARN = {A, C, G, U} y si es una proteína, el alfabeto es A = {A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, T, Y}. Esta simplificación es muy útil para el desarrollo de algoritmos matemáticos porque considera las secuencias como objetos unidimensionales, pero no debemos olvidar que no es del todo correcta, ya que ignora el hecho de que las propiedades de las moléculas de ácidos nucleicos o de proteínas dependen, en gran medida, de su estructura tridimensional. Una secuencia "S" está formada por un número finito de elementos: S = s1,s2 ... sn. Cada elemento se designa como si, donde i indica la posición que ocupa ese elemento en la secuencia. Dentro de una secuencia se pueden definir subsecuencias. Consideremos, por ejemplo, la siguiente secuencia de ADN S = ACTGGCTAGCAT En esta secuencia hay 12 elementos. El elemento que ocupa la segunda posición S(2), o s2, es "C" y el elemento que ocupa la quinta posición S(5), o s5, es "G". La subsecuencia S(4 : 8) abarca los elementos que van desde la posición 4 hasta la 8, ambas incluidas: S(4 : 8) = GGCTA. En muchos casos, los métodos de análisis de secuencias tienen que manejar secuencias de varios millones (o miles de millones) de bases. Es necesario, por tanto, utilizar métodos estadísticos que, lo primero que hacen, es ajustar las secuencias a un modelo probabilístico. Los modelos que más se utilizan son: el modelo multinomial, el modelo de Markov o alguna variante de estos dos. Ninguno de estos modelos refleja al 100% las características de una secuencia real de ADN pero lo importante es que retienen las principales propiedades de la secuencia y, al mismo tiempo, permiten la aplicación de algoritmos informáticos capaces de extraer información útil a partir del análisis de las secuencias. El modelo multinomial es el más sencillo y asume que los nucleótidos son independientes y están idénticamente distribuidos. Esto quiere decir que la presencia de un nucleótido en la posición i no depende de la presencia de otros nucleótidos en otros lugares de la secuencia y viene determinada únicamente por su frecuencia. En este modelo se cumple que pA = pC = pG = pT = 0,25 pA + pC + pG + pT = 1 La probabilidad de que aparezca una determinada secuencia S = s1s2...sn viene dada por la expresión n P ( s ) = ∏ p( s (i )) i =1 Cuando las secuencias son muy largas, al hacer este cálculo el número de decimales se hace cada vez mayor. Esto supone un problema para el computador porque cada vez necesita más memoria para almacenar el resultado. Por este motivo, las herramientas informáticas en vez de trabajar con las probabilidades (odds) suelen utilizar el logaritmo de las probabilidades (log odds). Para calcular el logaritmo de P(s) basta con sumar los logaritmos de las probabilidades individuales, con lo que el número de decimales del resultado se mantiene constante log(P(s )) = ∑i =1 log( p (si )) n El modelo de Markov considera una secuencia de ADN como una cadena de Markov. En una cadena de Markov, la probabilidad de que aparezca un símbolo depende de los símbolos que le preceden en la secuencia. De esta forma, el modelo recoge las correlaciones de corto alcance que puedan existir en una secuencia. Si esta probabilidad depende únicamente del símbolo que le precede, se dice que es una cadena de Markov de orden 1. Si depende de los dos anteriores es una cadena de Markov de orden 2, y así sucesivamente. El modelo multinomial se puede definir como una cadena de Markov de orden 0, ya que no depende de ningún símbolo. Una cadena de Markov se define mediante (1) una serie de estados (cada uno de los posibles símbolos del alfabeto), (2) la probabilidad de que la primera posición esté ocupada por un símbolo u otro (que depende de su frecuencia) y (3) la probabilidad de transición de un estado a otro. La probabilidad del estado inicial (π) viene determinada por la frecuencia con que aparece cada nucleótido (πA, πC, πG, πT). Lógicamente, se cumple que πA + πC + πG + πT = 1 Las probabilidades de transición de matriz de transición T p AA p T = CA pGA pTA un estado a otro se recogen en la denominada p AC pCC pGC pTC p AG pCG pGG pTG p AT pCT pGT pTT Cada valor pxy de esta matriz corresponde a la probabilidad condicionada de observar el estado y en la posición i+1 cuando la posición i está ocupada por el estado x pxy = p (si+1 = y|si = x) En cada fila de esta matriz la suma de las probabilidades es 1. Lógicamente, si todas las probabilidades de transición son iguales, tenemos un modelo multinomial. Con estos parámetros se puede construir el modelo de Markov que define la secuencia: La probabilidad de que aparezca una determinada secuencia S = s1s2...sn viene dada por la expresión P(S) = π(s1) p(s2|s1) p(s3|s2)... p(sn|sn-1) que equivale a n n i=2 i=2 P ( s ) = π ( s1 )∏ p( si | s i -1 ) = π ( s1 )∏ psi−1 si y el logaritmo de esta probabilidad es n log(P(s )) = log(π (s1 )) + ∑i = 2 log( p(si | si -1 )) = log(π (s1 )) + ∑ log( p(si −1si )) n i=2