ESTRUCTURA Y EVOLUCION DEL GENOMA DE LOS VERTEBRADOS Héctor Musto Laboratorio de Organización y Evolución del Genoma, Sección Bioquímica, Facultad de Ciencias. [email protected] Introducción La selección natural puede entenderse como un proceso compuesto de dos fases: la primera es la variación existente en todas las generaciones en poblaciones naturales, la segunda es la selección propiamente dicha que consiste en la fijación de las variantes más adecuadas por medio del éxito reproductivo diferencial de los organismos (véase Altuna, este volumen). Darwin publicó su teoría de la selección natural en 1859, y estableció explícitamente que no podía explicar las causas de la variación: “Hasta ahora he hablado de variaciones como si fueran debidas al azar. Esta es, indudablemente una expresión incorrecta, pero sirve para demostrar nuestra absoluta ignorancia acerca de las causas de cada variación particular" (Darwin, 1859, “El origen ..."). Las leyes de Mendel, publicadas en 1865 fueron redescubiertas recién en 1900, la mutación fue descubierta por Hugo de Vries en 1901, y la teoría cromosómica de la herencia recién en 1910 por Thomas H. Morgan. Hoy en día la biología ha avanzado hacia la comprensión de los mecanismos moleculares que provocan la variación, y hacia un mejor entendimiento de cómo han evolucionado los genes, los individuos y los crecientes niveles de organización de la vida. Desde esta óptica, el estudio de la organización y evolución del genoma resulta de interés para diversas áreas de la biología. En primer lugar, para los genetistas es de capital importancia saber cómo se organiza el material hereditario, o sea, cómo se distribuyen las secuencias codificantes en el ADN, cuál es su distancia media, conocer los sitios específicos (si es que los hay) de mutación y recombinación, la posible influencia de la composición genómica (frecuencia de bases) para comprender el bandeo y los rearreglos cromosómicos así como la estructura de la cromatina, etc. Los biólogos moleculares, por su parte, intentan disecar las bases moleculares, bioquímicas y biofísicas que puedan subyacer a las características antes mencionadas. Finalmente, los evolucionistas comparan los distintos tipos de organización genómica para tratar de conocer los factores causales que determinaron los cambios, a veces drásticos, que se encuentran entre los distintos niveles de complejidad evolutiva, desde los virus y procariotas hasta los mamíferos y plantas superiores. En los últimos años, algunos impresionantes avances tecnológicos (como los secuenciadores automáticos y programas de análisis y comparación de secuencias extremadamente potentes) permitieron plantearse el objetivo de secuenciar genomas completos, entre ellos el de nuestra especie, que se supone que estará disponible en unos dos años. En el momento en que escribimos estas líneas (mayo, 2000) disponemos de las secuencias de 30 genomas completos de procariotas, a lo que hay que agregar la levadura Saccharomyces cerevisiae, el nemátodo Caenorhabditis elegans y la mosca "modelo" Drosophila melanogaster. Finalmente, ya están disponibles -y con acceso libre en los bancos de datos- varios cromosomas completos de otros eucariotas como del parásito unicelular Plasmodium falciparum y el cromosoma 21 humano. Dada la gran cantidad de laboratorios involucrados en estos proyectos (y teniendo en cuenta los enormes recursos económicos de que disponen) es posible esperar que en los próximos meses la avalancha de genomas irá en aumento. En este capítulo discutiremos las características generales de la organización y evolución del genoma de los vertebrados, haciendo especial énfasis en el genoma humano, y expondremos brevemente los temas polémicos entre los especialistas en el tema. El genoma de los vertebrados A principios de la década de los 20 Winkler (citado por Bernardi, 1993) acuñó el término "genoma" para definir a la totalidad de genes (de una célula haploide) de un organismo. Naturalmente, las secuencias claramente no codificantes y de otro tipo, como por ejemplo los transposones (secuencias con la potencialidad de moverse de un sitio a otro del genoma), las secuencias reguladoras de la actividad génica, los pseudogenes (“reliquias” de secuencias que en fueron activas en el pasado), los intrones (secuencias que interrumpen la parte codificante de los genes y que no están representados en el ARNm maduro ni, por lo tanto en la proteína) etc., no eran conocidas en ese momento y por lo tanto no fueron incluidas en la definición. Sin embargo, a pesar de esta limitación, el concepto elaborado por Winkler se sigue utilizando y es operacionalmente válido. La diferencia más clara entre los organismos vivos está dada por la ausencia o presencia de un compartimento nuclear definido en el que se encuentra el material genético. Los organismos sin núcleo son llamados colectivamente “procariotas” mientras que el otro grupo está constituido por los “eucariotas”. Las bacterias y las archaebacterias son procariotas mientras que el resto de los seres vivos, incluyendo los mamíferos y plantas superiores, somos eucariotas. A nivel de organización genómica también existen diferencias significativas entre ambos tipos de organismos. Por ejemplo, el genoma de los procariotas es en la amplísima mayoría de los casos una molécula única de ADN de permutación circular, cuya longitud en pares de bases (pb) es del orden de 106, y en la cual los genes se encuentran distribuidos en forma muy compacta, siendo por lo tanto la mayor parte del ADN codificante (transcripto a ARN) o con funciones regulatorias. En los organismos eucariotas la situación es radicalmente diferente. En primer lugar, el material genético está organizado en moléculas de ADN lineales individuales, en las cuales dos genes ligados (físicamente próximos) se encuentran, en general, separados por distancias del orden de pocos cientos (en eucariotas unicelulares) a varias decenas de miles de pb (en plantas y animales “superiores”). En segundo lugar, la cantidad de ADN por genoma haploide (cantidad de ADN de los gametos) varía desde aproximadamente 2,5 x 107 pb para eucariotas unicelulares hasta valores del orden de 1011 pb para algunas plantas y anfibios. A su vez, el número de genes diferentes es de aproximadamente 2-3 x 103 en procariotas, 5 x 103 en eucariotas unicelulares y aproximadamente 8 x 104 en mamíferos (Antequera y Bird, 1993; Li . Cuando se considera la gran cantidad de ADN por genoma haploide que caracteriza a los organismos estructuralmente complejos como los vertebrados y plantas superiores, surge inmediatamente el problema de cómo este material genético se organiza. Efectivamente, es posible postular que debe existir algún tipo de "orden" que, entre otras funciones, habilite -o colabore- para que las decenas de miles de genes de, por ejemplo, un mamífero, se expresen en forma ordenada, tanto desde el punto de vista espacial (entre los distintos tejidos del organismo) como temporal (durante las distintas fases del desarrollo). La magnitud del problema resulta más obvia si consideramos que la totalidad de las secuencias transcriptas representan, por ejemplo en mamíferos, menos del 5% de todo el ADN nuclear (Bernardi, 1989). Algunos otros puntos vinculados con el mismo problema organizativo son: 1) ¿existen diferencias entre las zonas del genoma -y de la cromatina- en la que se ubican los genes “housekeeping" (en castellano “amas de casa", que son las secuencias que se transcriben todo el tiempo en todas las células del organismo) y los espacial o temporal específicos?; 2) determinadas características morfológicas de los cromosomas metafásicos, como las bandas, ¿tienen una contrapartida a nivel de la organización genómica?; 3) esta organización genómica ¿es conservada a lo largo de la evolución?, o sea, organismos emparentados filogenéticamente ¿presentan un tipo de organización genómica similar? Finalmente, ¿es posible detectar causas que de alguna forma determinen un tipo de organización genómica? Por otra parte, dado que la mayor parte de los trabajos acerca de la organización del genoma se han realizado en vertebrados y plantas superiores, cabe preguntarse si el genoma de otros organismos, como los eucariotas unicelulares, presenta un tipo de organización "tipo vertebrado" o, por el contrario, las formas de organización genómica difieren en los distintos phyla de los eucariotas. Una característica importante de la organización genómica, y que ha generado mucha polémica entre los especialistas en el tema, es la presencia de zonas o regiones que difieren significativamente entre sí en la frecuencia relativa de las cuatro bases que constituyen el ADN. En vertebrados, y otros organismos, estas regiones se han llamado “isocoros”. Organización del genoma en isocoros Cuando el ADN genómico nuclear de vertebrados o plantas superiores es centrifugado determinadas condiciones las moléculas de ADN se separan de acuerdo a su composición de bases (ver por ejemplo Macaya et al., 1978) en un número discreto de familias, las que, a su vez, están definidas por diferentes niveles de contenido en CG (contenido molar de las bases citosina + guanina). Estos segmentos fueron denominados "isocoros", o sea, "regiones iguales" (Cuny et al., 1981). Este nombre se debe a su característica fundamental, o sea, que dentro de un isocoro la composición de bases, definida como contenido en CG, es prácticamente constante. Las distintas familias de isocoros se hallan alternadas sin un orden específico (Fig. 1), por lo tanto los genomas de vertebrados (en especial de mamíferos y aves) y de plantas superiores están formados por un verdadero "mosaico" de isocoros (Bernardi 1985). et al., Experimentos biofísicos realizados hacia finales de la década de los ’70 sugirieron que la longitud de los isocoros es, en mamíferos >200 kb; lo que se ha visto confirmado dramáticamente Figura 1. Esquema de la organización en isocoros del genoma humano. Se aprecia la estructura en “mosaico”, en el que los isocoros, que miden mas de 300 kb, se alternan sin un orden específico. Durante la preparación para su análisis, los isocoros se degradan por acción mecánica, a fragmentos de aproximadamente 100 kb. por el análisis directo de la totalidad de los cromosomas 21 y 22 humanos, cuyas secuencias se publicaron recientemente. En el genoma humano se describieron cinco familias de isocoros: dos de ellas “pobres” en CG (L1 y L2), y tres con un contenido más elevado en estas bases (H1, H2 y H3). Desde el punto de vista de su contenido relativo, las familias L consituyen (juntas) el 63% del genoma, mientras que las H son el 24,3%, 7,5% y 4,7%, respectivamente (Fig. 2). Este “perfil composicional” genoma humano del es prácticamente idéntico al de la mayor parte de los mamíferos (la sola excepción la constituyen los múridos, ver más adelante), lo que sugiere que el contenido en CG de los isocoros puede estar sometido a selección natural. La zona de transición entre un isocoro y el siguiente es comparativamente Figura 2 Perfil (o patrón) composicional de las familias de isocoros de varios vertebrados. Cada barra representa las cantidades relativas de los componentes principales. Se indican la densidad de flotación y su equivalente en CG%. corta: efectivamente, en pocos miles de pares de bases se cambia de un isocoro al siguiente. En 1995 (Fukagawa et al.) se secuenció en el genoma humano la zona de transición entre dos isocoros (L y H2), y se observó que del lado L había un agrupamiento que ocupaba unos 20 kb de secuencias LINES, y del lado H2 otro agrupamiento pero de secuencias SINES (LINES y SINES son secuencias repetidas dispersas en el genoma de los mamíferos de función desconocida, siendo los primeros más largos y con un contenido en CG% notoriamente más bajo que los segundos). Sin embargo, este tipo de agrupamiento de secuencias dispersas sería característica del locus MHC, ya que no fue confirmada en los cromosomas 21 y 22. Patrones (patterns) y correlaciones composicionales Los histogramas de las distribuciones composicionales de las moléculas de ADN, como los mostrados en la Fig. 2, representan un patrón composicional que refleja, a su vez, el tipo de isocoros de cada especie analizada. Otros patrones composicionales son las distribuciones del contenido en CG de los exones así como de las tres posiciones de los codones y de los intrones (Bernardi, 1995). Todos estos patrones composicionales definen fenotipos genómicos que, como decíamos más arriba, son similares o idénticos para organismos cercanos filogenéticamente, pero pueden diferir para especies no emparentadas. Un hecho importante es que el patrón de los vertebrados de sangre caliente (aves y mamíferos) difiere mucho del patrón de los vertebrados de sangre fría (peces, anfibios y reptiles) lo que se ha vinculado con el origen de los isocoros ricos en CG, característico de los primeros (ver más abajo). En la Fig. 3 se muestran los patrones composicionales (en concreto, la distribución composicional del contenido en CG3, que es la posición de los codones menos sujeta a restricciones funcionales, y por lo tanto, con la mayor capacidad de variación) de cuatro genomas de organismos vertebrados, para los cuales existen un número importante de secuencias conocidas: Xenopus laevis, Gallus gallus, Homo sapiens y Mus musculus. Resulta interesante comparar estos histogramas con la distribuciones composicionales de las moléculas de ADN de las mismas especies mostradas en la Fig. 2. En esta figura, se ve claramente que las moléculas de ADN de las cuatro especies presentan familias de isocoros diferentes. Efectivamente, mientras que en X. laevis sólo se encuentran los isocoros correspondientes a L1 y L2, en las demás especies se observan además las familias H. En el genoma humano, como ya mencionamos, se encuentran presentes H1, H2 y H3, Figura 3. Distribución composicional de los valores de CG3 (tercera posición de los codones, también llamada “posición sinónima”) de los vertebrados mostrados en la figura 2. Se utilizó una ventana de 2,5%. N significa el número de secuencias analizadas en cada especie. en el ratón sólo H1 y H2 mientras que en el pollo existen H1, H2, H3 y aparece la familia H4. Es interesante destacar que todas las aves estudiadas hasta la fecha presentan los mismos componentes que el pollo, el genoma humano es esencialmente idéntico al de todos los mamíferos con la excepción de los múridos los que, a su vez, son los únicos mamíferos que carecen de la familia H3. El tipo de distribución de las moléculas característico de cada grupo se refleja en los histogramas mostrados en la Fig. 3. En Xenopus se observa que la distribución tiene un rango menor que en las otras tres especies. Por otra parte es claramente unimodal y está centrada en un valor de aproximadamente 45%, lo cual la aproxima a sus dos familias de isocoros mostradas en la Fig. 2. En el caso del genoma del pollo, en el que teníamos la distribución más amplia de isocoros, es en donde también tenemos el rango más amplio en CG3. Dos aspectos interesantes de esta distribución son, por un lado, la aparente bimodalidad de la distribución, cuyas causas se desconocen; y en segundo lugar el hecho de que varios genes presentan un contenido en CG3 del 100%, lo que significa que en este genoma algunas secuencias utilizan solamente el 50% de los codones. En el caso de los genes de los dos mamíferos representados en la Fig. 3 también es evidente el paralelo entre la distribución de las moléculas de ADN y la distribución de los contenidos en CG3, ya que en el genoma humano existe el componente H3, lo que se refleja en una distribución más sesgada hacia genes más ricos en CG en las posiciones sinónimas de los codones respecto a las secuencias de ratón, y al hecho de que la familia L1 en el ratón es levemente más rica en CG que la familia L1 en el genoma humano. En resumen, resulta claro que existe una diferencia neta entre los genomas de los vertebrados de sangre fría y los de sangre caliente: mientras que el ADN de los primeros se caracteriza por presentar una heterogeneidad composicional baja y sin alcanzar valores altos de CG, los últimos presentan una parte cuantitativamente significativa de su genoma compuesta por isocoros ricos o muy ricos en CG; y esta característica se refleja en la frecuencia de bases (sobre todo en los sitios sinónimos) de las secuencias codificantes. Este paralelismo entre los patrones composicionales a nivel de moléculas de ADN y posiciones sinónimas dentro de los genes, sugiere que existe una correlación entre ambos elementos. Efectivamente, en los genomas composicionalmente heterogéneos –particularmente de mamíferos y aves- existen correlaciones composicionales positivas y significativas entre los exones (y las tres posiciones de sus codones) y los isocoros en los que los genes están incluidos, así como entre los exones y sus respectivos intrones (Aota e Ikemura, 1986; Musto et al., 1999). En general, se puede afirmar que estas correlaciones involucran regiones codificantes y no codificantes, ya que hay que tener en cuenta que los isocoros están formados mayoritariamente por secuencias no codificantes. Efectivamente, mientras que la longitud de un gen típico está en el entorno de los 400 o 500 aminoácidos, es decir, 1200 a 1500 bases codificantes, los isocoros pueden medir hasta 106 pb. En la Fig. 4 se muestran varias correlaciones de este tipo a partir de datos provenientes del genoma humano. La correlación de la Fig. 4a (CG de exones vs. CG de los isocoros que los contienen) es muy importante por al menos tres razones. 1) Como decíamos más arriba las secuencias codificantes sólo constituyen aproximadamente el 5% del genoma, mientras que las no codificantes son el 95% restante; 2) muestra que mientras el contenido en CG de los exones localizados en los isocoros L1 y L2 es prácticamente el mismo que el que define a los propios isocoros, las secuencias que están inmersas en las familias H1 y fundamentalmente H2 y H3, presentan valores más altos que la zona del genoma en la que están ubicadas. 3) Implica que las fuerzas que determinan el contenido en CG operan en la misma dirección, aunque con diferente Figura 4. Correlaciones composicionales en el genoma humano. a) Los valores de CG% de varios exones son graficados contra los CG% de los isocoros donde fueron localizados experimentalmente (mapeo composicional). b) CG de exones contra los valores de CG de los intrones correspondientes. c) CG3 vs CG de los isocoros donde se ubican los respectivos genes. amplitud, tanto en las secuencias codificantes como en los isocoros que las rodean. La Fig. 4b, por su parte, muestra que el contenido en CG aumenta en forma paralela en los exones y en sus respectivos intrones, aunque los últimos presentan, en forma sistemática, valores aproximadamente 5% menores que los primeros. Finalmente, en la Fig. 4c se aprecia la correlación existente entre el CG de las posiciones sinónimas (CG3s) de los genes y el CG de los isocoros en los que las secuencias codificantes están ubicadas. El análisis de la figura muestra claramente que la pendiente de la recta de regresión es mayor a 1. Esto se debe a que en las regiones genómicas de bajo contenido en CG (isocoros L1 y L2) los contenidos en CG de ambas “variables” son similares, pero a medida que los genes se ubican en los isocoros H1, H2 y H3, el CG3s se hace cada vez mayor. Dicho con otras palabras, cuanto más ricos en CG sean los isocoros en los que están inmersos los genes, mayor será el CG de sus posiciones sinónimas. Por razones de espacio, en este capítulo no discutiremos las causas que pueden generar el uso de codones sinónimos en especies como los mamíferos y otros vertebrados; sin embargo es importante destacar que dado que el CG3s es un reflejo directo del uso de codones de las secuencias codificantes, resulta claro que los genes ubicados en los isocoros L1 y H3, por ejemplo, difieren enormemente entre sí en el uso de los distintos sinónimos. Este tipo de correlaciones composicionales (así como otras que también existen pero que no tenemos espacio para discutir) son importantes por dos aspectos diferentes. En primer lugar, le dan apoyo a la idea ya planteada que postula que las fuerzas que determinan la composición de bases de un determinado isocoro operan siempre en la misma dirección, aunque con intensidad variable, sobre todas las secuencias que están en él, independientemente de la función que cumplan. Esto lleva inclusive a que exista una correlación también positiva entre el contenido en CG3s y el contenido en CG de las posiciones 1 y 2 de los codones de cada gen. Esta correlación tiene un importante significado funcional, ya que implica que los genes ubicados en los isocoros más ricos en CG tienden a codificar, con una frecuencia más alta que las secuencias que están en L1 y L2, para el subgrupo de aminoácidos codificados por codones ricos en C y /o G, como alanina, glicina, arginina y prolina. Inversamente, los genes ubicados en L1 y L2 presentan una frecuencia más alta de aminoácidos codificados por codones ricos en A y/o T, como fenilalanina, isoleucina, tirosina, asparagina y lisina. En otras palabras, si comparamos los genes que están en L1 con los ubicados en H3, veremos que no sólo presentan usos de codones distintos sino también codifican aminoácidos diferentes (para una discusión más completa de este tema, ver D’Onofrio et al., 1999). En segundo lugar, las correlaciones composicionales, y más particularmente, las ecuaciones de las rectas de regresión, permiten ubicar con un grado de precisión muy alto cada gen en cada región del genoma. Efectivamente, si nosotros conocemos de una secuencia determinada su contenido en CG3s, sustituyendo ese valor en la ecuación podemos predecir en cuál isocoro está inmersa en el genoma. Distribución de los genes en los distintos isocoros Ya los primeros trabajos de ubicación de genes en las fracciones composicionales del genoma humano había mostrado que éstos no estaban distribuídos al azar. En principio, dado que los isocoros L constituyen aproximadamente el 60% de todo el genoma, se podría esperar que en estos componentes se ubicaran más de la mitad de las secuencias, mientras que cada componente H tendría, a medida que se avanza hacia valores más altos de CG, menos secuencias incluidas. Sin embargo la realidad es exactamente la opuesta. Como se dijo más arriba, la correlación mostrada en la Fig. 4c habilita rápidamente a ubicar a cada gen en su isocoro. Una vez hecho esto, si simplemente se divide el número de genes en cada isocoro por la fracción que este isocoro representa en el total del genoma, se observa que la concentración de genes es baja en las familias L, se incrementa en H1 y H2 y llega al máximo en H3, familia de isocoros en la que la concentración de genes es aproximadamente 20 veces mayor que en L, lo que se ha visto confirmada por los análisis de la distribución de genes en los cromosomas humanos 21 y 22. Esta asimetría en la distribución tiene importantes consecuencias evolutivas. Como es sabido, la amplísima mayoría de los genes que se encuentran en el genoma humano tienen su secuencia equivalente, inclusive cumpliendo la misma función o una similar, en el genoma de los vertebrados de sangre fría. Por lo tanto, las secuencias que se enriquecieron en CG son un subgrupo de las que estaban presentes en los terápsidos (último vertebrado de sangre fría ancestro común de todos los mamíferos), y en ese genoma eran, sin duda, comparativamente más pobres en CG. Pero, no solamente constituyen un subgrupo, sino que son las mismas secuencias las que acumularon mutaciones hacia C y G. Esto queda demostrado en la Fig. 5, donde se comparan los niveles de CG3s de genes ortólogos provenientes de Homo sapiens con los de Xenopus, Gallus, Bos y Mus (genes ortólogos son aquellos genes que se encuentran en dos -o más- organismos debido a eventos de especiación; por lo tanto la amplísima mayoría de las veces presentan niveles de identidad muy altos y cumplen la misma función). Como se aprecia en la Fig. 5c, (comparación humano vs bovino) la correlación es muy alta (R = 0.96) y la pendiente de la recta es aproximadamente 1. En la Fig. 5d (humano vs correlación ratón) es la altamente significativa (R = 0.86) pero la pendiente es mayor a 1, lo cual se debe al hecho (discutido más arriba) de las diferencias entre los genomas de ambas especies. Independientemente de las diferencias menores entre los mamíferos, el aspecto más importante que se deduce de la figura es que a pesar de haber acumulando estado mutaciones durante 65 millones de años (que es el tiempo de divergencia estimado de los Figura 5. Los valores de CG3 de genes humanos se plotearon contra los niveles de CG3 de secuencias ortólogas de otros vertebrados. mamíferos considerados) los genes ortólogos mantienen niveles prácticamente idénticos de CG en las posiciones sinónimas. También es altamente sugestiva la Fig. 5b, donde vemos que a pesar de que las aves surgen mucho más tarde (y no comparten con los mamíferos su último ancestro reptil, ver más adelante), nuevamente la correlación es estadísticamente significativa (R = 0.60), por lo que resulta evidente que los genes ricos en CG3s en mamíferos son, en su mayor parte, los mismos que en las aves. Todas estas correlaciones sugieren fuertemente que podría existir un factor selectivo común que determinara que a) en los organismos homeotermos (y sólo en ellos) aparecieran los isocoros H, y b) sean las mismas secuencias las que se ubicaran en esos isocoros. Finalmente, la Fig. 5a (genes humanos vs secuencias ortólogas de Xenopus) muestra que a pesar de que en los vertebrados de sangre fría no existen las familias H, hay una tendencia (estadísticamente significativa) a que los genes ricos en CG en las posiciones sinónimas de los mamíferos también lo sean en Xenopus. Por lo tanto, es posible postular que los genes que se enriquecieron en CG en mamíferos, ya eran comparativamente ricos en esas bases en los vertebrados poiquilotermos. El origen de los isocoros Como ya mencionamos, existen dos tipos de organización diferente entre los vertebrados. Por un lado, los homeotermos presentan una heterogeneidad composicional marcada y tienen isocoros ricos en CG, mientras que los genomas de los poiquilotermos son menos heterogéneos y no presentan los isocoros H. A su vez, estas características se reflejan en histogramas diferentes cuando analizamos, en cada especie, los contenidos en CG de las posiciones sinónimas, exones, intrones, etc. Por lo tanto, se puede afirmar que los patrones composicionales de aves y mamíferos son parecidos entre sí y, al mismo tiempo, diferentes del patrón poiquilotermo, tanto en los niveles de ADN como de secuencias codificantes. Dado que los mamíferos y las aves derivan de organismos de sangre fría (que se supone presentaban una organización en isocoros similar a la de los poiquilotermos actuales), se deduce que la mayor heterogeneidad composicional, y particularmente la aparición de los isocoros H, es coincidente con la aparición de los organismos de sangre caliente. Dicho con otras palabras, regiones definidas y discretas del genoma “poiquilotermo” se enriquecen en CG% en los genomas “homeotermos”. Por lo tanto, en la evolución de los genomas de los vertebrados ocurrieron dos "corrimientos" (transiciones) principales en los patrones composicionales: uno que tuvo como consecuencia el genoma tipo “mamífero” y el otro el genoma tipo “aves”. Es muy importante tener en cuenta que estas transiciones ocurrieron en forma independiente, ya que la evidencia paleontológica indica que los mamíferos derivaron de los terápsidos hace más de 200 millones de años, mientras que las aves aparecieron a partir de los dinosaurios unos 50 millones de años después (Romer y Parsons, 1981; Strickberger, 1990). A las regiones del genoma de mamíferos y aves que todavía presentan el CG equivalente al de los isocoros de los organismos poiquilotermos (o sea, L1 y L2) se les llama “paleogenoma”, mientras que a las zonas que se enriquecieron en CG en los orgamismos homeotermos se les dio el nombre de “neogenoma”. El hecho de que son los mismos genes (y las mismas regiones genómicas) las que se enriquecieron en CG% en aves y mamíferos (ver la Fig. 5b), sugiere que las causas que determinaron estas transiciones pueden ser comunes. Se ha discutido mucho acerca de cuáles pueden ser estas causas, e inclusive hay autores que postulan que el origen de los isocoros (particularmente los ricos en CG) no tiene ninguna causa selectiva. Revisaremos brevemente ambas posiciones. A partir del descubrimiento de que distintos genomas bacterianos poseen diferentes composiciones nucleotídicas (Lee et al. 1956; Belozerski y Spirin, 1958) se postuló que las diferencias se debían a sesgos mutacionales en el sistema de replicación/reparación del ADN, o sea a diferencias en las tasas de mutaciones asociadas con cambios GC↔AT (Freese, 1962; Sueoka, 1962). Con distintas variaciones, Sueoka (1962, 1988, 1992) postula que esos sesgos mutacionales explican también la distinta composición nucleotídica intragenómica característica de los vertebrados, particularmente en aves y mamíferos. Entre las distintas objeciones que se han levantado contra esta hipótesis, creemos que hay dos muy fuertes. En primer lugar, los sesgos en los sistemas enzimáticos de replicación/reparación tendrían que haber ocurrido solamente dos veces en la evolución de los vertebrados, a saber, sólo en las líneas que dieron lugar a las aves y mamíferos, y jamás en todos los demás linajes que dieron lugar a los poiquilotermos contemporáneos. En segundo lugar, explicar de esta forma la aparición de los isocoros implica postular que dentro de los genomas de mamíferos y de aves existen no uno sino varios sesgos mutacionales diferentes operando en forma simultánea (recordamos que en el genoma de los vertebrados las familias de isocoros se encuentran dispersas sin un orden específico, por lo que éstos genomas son, desde el punto de vista composicional, un "mosaico"), por lo que se vuelve imprescindible postular desde esta óptica que distintas zonas del genoma son duplicadas/reparadas por distintas enzimas con distintos sesgos. Mencionemos, además, que el hecho de que los isocoros ricos en CG representen en aves y mamíferos la misma fracción del genoma (aproximadamente un tercio), a pesar de diferir el valor C (cantidad de ADN por genoma haploide) por un factor de tres, sería, desde esta óptica, una extraordinaria coincidencia. Otra hipótesis postula que la formación de los isocoros ricos en CG se debe a cambios en la concentración de los precursores del ADN (o sea, los desoxinucleótidos tri fosfato, abreviados como dA, dC, dG y dT) durante el período de duplicación en la línea germinal, de forma tal que habría niveles incrementados de dG y dC durante la primera parte de la fase S (momento del ciclo celular en que se duplica el ADN) y de dA y dT durante la segunda (Wolfe et al., 1989; Gu y Li, 1994). Esta idea postula que no hay ningún sesgo intrínseco en las enzimas que duplican el ADN, sino que al haber más de determinados precursores al inicio de la replicación, en la primera parte de la fase S la mayor parte de los errores tendería a enriquecer en C y G las regiones duplicadas, y a enriqucer en A y T en las zonas de replicación más tardía. Esta idea es muy atractiva, debido al hecho de que los isocoros ricos en CG son los que efectivamente se duplican primero (Goldman et al., 1984). Sin embargo, también se pueden levantar objeciones a esta hipótesis. En primer lugar, la heterocromatina constitutiva de mamíferos (regiones del genoma que permanecen condensadas durante todo el ciclo celular y que no poseen genes) se duplica tarde durante la fase S, y sin embargo una fracción importante de estas secuencias son ricas en CG, lo que no es esperable de acuerdo a la hipótesis planteada. En segundo lugar, en las hembras de los mamíferos el cromosoma X condensado es también duplicado en forma tardía, pero está formado por isocoros de igual naturaleza que el resto de los cromosomas, lo que tampoco es coincidente. (En mamíferos las hembras tienen dos cromosomas X, y en todas las células sólo uno de ellos es activo, mientras que el otro permanece condensado). Por lo tanto, la concentración variable de desoxinucleótidos durante la fase S no se vincula en forma clara con la composición del ADN duplicado. Finalmente, aunque no de poca importancia, esta propuesta tampoco explica por qué jamás ocurrió una diferente concentración de desoxinucleótidos en la línea germinal de los poiquilotermos, ni por qué las regiones que aumentaron el contenido en CG en aves y mamíferos representan la misma proporción del genoma. Un aspecto en común que tienen las dos hipótesis discutidas es que son esencialmente neutralistas, es decir, ambas propuestas postulan (explícita o implícitamente) que la selección natural no afecta de ninguna manera la composición del ADN, aunque sugiere una adaptación del genoma respecto a las condicionantes internas. El grupo de Bernardi (descubridor de los isocoros) propone una explicación diametralmente opuesta. La idea central de este grupo es que las transiciones composicionales que llevaron a la aparición de los isocoros ricos en CG en mamíferos y aves se debe fundamentalmente a selección direccional, tanto positiva como negativa, actuando a nivel de los isocoros. A pesar de que las ventajas selectivas asociadas con los patrones composicionales pueden ser difíciles de identificar (no cabe duda que muchos factores deben estar actuando en forma simultánea), existe en la evolución de los vertebrados un hecho que podría explicar la aparición de los isocoros H. Efectivamente, el corrimiento composicional no ocurrió en alguno de los diversos pasos que caracterizaron la evolución de los vertebrados (de anamniotas a amniotas, de peces a tetrápodos, etc.) sino sola y únicamente en las transiciones de poiquilotermos a homeotermos. Esto, afiman Bernardi y sus colegas, sugiere inmediatamente que uno de los factores principales para el cambio en los patrones composicionales fue el aumento de la temperatura corporal. El incremento en CG en los homeotermos parece lógico -en lo que a ventajas selectivas se refiere- ya que lleva a mayor estabilidad desde el punto de vista termodinámico, tanto en los niveles de ADN y ARN como de proteínas (Bernardi y Bernardi, 1986). Efectivamente, la riqueza en CG incrementa la estabilidad del ADN, ya que los pares de bases CG se unen por tres puentes de hidrógeno contra dos puentes de los pares AT; y esto ocurre no sólo en solución sino también a nivel de cromosomas, como lo indican las técnicas de bandeo R y T, que muestran que las regiones ricas en CG son más estables frente a la desnaturalización térmica que las bandas G, más pobres en C+G (Dutrillaux, 1977). El referido aumento también tiene como consecuencia un incremento de la estabilidad térmica del ARN, ya que los transcriptos pueden adquirir una estructura secundaria más estable. Finalmente, a nivel de proteínas, los genes que están ubicados en zonas del ADN ricas en CG codifican niveles mayores de aminoácidos que confieren mayor estabilidad termodinámica (como arginina, alanina y glicina), y menos de los que la reducen (como serina y lisina). A pesar de lo atractivo de esta hipótesis, es necesario remarcar que bajo ningún concepto postula que el aumento de la temperatura corporal sea el único factor que llevó a la aparición de los isocoros ricos en CG característicos de los homeotermos; simplemente pone el acento en una ventaja selectiva que resulta obvia, reconociendo, al mismo tiempo, que algo tan complejo como el fenotipo global del genoma debe ser necesariamente el resultado de múltiples factores que actúan en forma simultánea. *** Para finalizar con esta sección, nos parece importante señalar que los estudios sobre las propiedades composicionales del ADN de organismos multicelulares complejos, desarrollados fundamentalmente en los últimos 25 años, han mostrado en forma clara que el genoma es mucho más que la simple sumatoria de secuencias codificantes y no codificantes. Efectivamente, el genoma debe ser considerado como un sistema estructural, funcional y evolutivo cuyas secuencias nucleotídicas están sometidas a reglas precisas que constituyen un “código genómico" (Bernardi, 1995). Esta teoría de la organización, fisiología y evolución del genoma asume que las propiedades composicionales de las moléculas de ADN (composición de bases, dinucleótidos y otras secuencias cortas) son características decisivas para la estructura, función y evolución del genoma. En otras palabras, el genoma de los vertebrados no sería sólo un mosaico estructural y funcional (transcripción, duplicación, recombinación) de isocoros, sino que es, al mismo tiempo, un mosaico evolutivo, en el que cada región, definida por su composición de bases, se diferenciaría también de las otras por distintos niveles de restricciones evolutivas. Este concepto podrá ser testado en el futuro próximo cuando estén disponibles las secuencias de genomas completos de distintos vertebrados. Agradecimientos Agradezco a Helena Rodríguez-Maseda por la lectura crítica de varios borradores, y a Héctor Romero y Alejandro Zavala por el trabajo gráfico. Bibliografía Antequera, F. y Bird, A (1993): Number of CpG islands and genes in human and mouse. Proc Natl Acad Sci USA (1993) 90:11995-11999. Aota S. e Ikemura, T.: Diversity in G+C content at the third position of codons in vertebrate genes and its cause. Nucleic Acids Res (1986) 14:6345-6355. Belozerski, A. y Spirin, A.: A correlation between the compositions of deoxyribonucleic acids and ribonucleic acids. (1958) Nature 182:111-112. Bernardi, G.: The isochore organization of the human genome. Annu Rev Genet (1989) 23:637-661. Bernardi, G.: The isochore oganization of the human genome and its evolutionary history - a review. Gene (1993) 135:57-66. Bernardi, G.: The human genome: organization and evolutionary history. Annu Rev Genetics (1995) 29:445-476. Bernardi, G. y Bernardi, G.: Compositional constraints and genome evolution. J Mol Evol (1986) 24:1-11. Bernardi, G., Olofsson, B., Filipski, J., Zerial, M., Salinas, J., Cuny, G., Meunier-Rotival, M. y Rodier F : The mosaic genome of warm-blooded vertebrates. Science (1985) 228:953-956. Cuny, G., Soriano, P., Macaya, G. y Bernardi, G.: The major components of the mouse and human genomes: preparation, basic properties and compositional heterogeneity. Eur J Biochem (1981) 111:227-233. D'Onofrio, G.; Jabbari, K.; Musto, H.; Alvarez-Valin, F.; Cruveiller S. y Bernardi, G.: Evolutionary genomics of vertebrates and its implications. In: Molecular Strategies in Biological Evolution. Caporale, L. H. and Arber, W. (Eds). Ann. N. Y. Acad. Sci. (1999) 870:81-94. Dutrillaux, B.: New chromosome techniques. En: Yunis J (Ed). Molecular structure of human chromosomes. Academic Press, New York. (1977). 233-265. Freese, J.: On the evolution of base composition of DNA. J Theor Biol (1962) 3:82-101. Fukagawa, T., Sugaya, K., Matsumoto, K-i., Okumura, K., Ando, A. et al.: Characterization of the boundary region of long-range G+C% mosaic domains in the human MHC locus; pseudoautosomal boundary-like sequence near the boundary. Genomics (1995) 25:184-191. Goldman, M., Holmquist, G., Gray, M., Caston, L. y Nag, A.: Replication timing of genes and middle repetitive sequences. Science (1984) 224:686-692. Gu, X. y Li, W-H.: A model for the correlation of mutation rate with GC content and the origin of GC- rich isochores. J Mol Evol (1994) 38:468-475. Lee, K., Wahl, R. y Barbu, E.: Contenu en bases puriques et pyrimidiques des acides désoxyribonucléiques des bactéries. (1956) Ann Inst Pasteur 91:212-224. Li, W-H. y Graur, D.: Fundamentals of molecular evolution. Sinauer Associates. (1991). Macaya, G., Cortadas, J. y Bernardi, G.: An analysis of the bovine genome by density-gradient centrifugation. Eur J Biochem (1978) 84:179-188. Musto, H.; Romero, H.; Zavala, A. y Bernardi, G.: Compositional correlations in the chicken genome. J Mol Evol (1999) 49:325-329. Romer, A. y Parsons, T.: Anatomía comparada, 5ta. Ed. Interamericana, México. (1981). Strickberger, M.: Evolution. Jones and Barlett Publishers, Boston. (1990). Sueoka, N.: On the genetic basis of variation and heterogeneity of DNA base composition. Proc Natl Acad Sci USA (1962) 48:582-592. Sueoka, N.: Directional mutation pressure and neutral molecular evolution. Proc Natl Acad Sci USA (1988) 85:2563-2567. Sueoka, N.: Directional mutation pressure, selective constraints, and genetic equilibria. J Mol Evol (1992) 34:95-114. Wolfe, K., Sharp, P. y Li, W-H.: Mutation rates differ among regions of the mammalian genome. Nature (1989) 337:283-285.