Distancia física en pares de bases (bp)

Anuncio
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
1
TEMA1. LA GEOGRAFÍA DEL GENOMA HUMANO
Historia y desarrollo del Proyecto Genoma Humano. Estructura del Genoma
Humano. El ADN repetitivo. El Proyecto ENCODE. El genoma mitocondrial.
1.1 Historia y desarrollo del Proyecto Genoma Humano
En 1986, el Departamento de Energía de los Estados Unidos lideró la Iniciativa del Genoma Humano,
tras varios años de contactos y reuniones, y puso en marcha el mayor proyecto biomédico de la historia
con el objetivo final de conseguir la secuencia completa del genoma humano en el año 2005. El
Proyecto Genoma Humano comenzó oficialmente en Estados Unidos en octubre de 1990, siguiendo un
plan a cinco años para desarrollar las herramientas que permitiesen conseguir esa meta. Estas
herramientas eran principalmente la construcción de mapas genéticos (de ligamiento) y de mapas
físicos (de clones) de todo el genoma humano, al tiempo que se desarrollaba la tecnología necesaria
para realizar secuenciación a gran escala. La estrategia general consistió en construir mapas genéticos y
físicos e integrarlos, para aumentar cada vez más en resolución desde el cromosoma hasta la secuencia
de ADN.
El concepto de ligamiento genético y la forma en que se cuantifica son
objeto del Tema 4. Si el lector no está familiarizado con la construcción de
mapas de ligamiento, se aconseja leer el primer apartado de ese Tema
antes de seguir leyendo.
Los mapas genéticos describen la organización cromosómica de caracteres (un rasgo fenotípico, una
enfermedad) o de marcadores genéticos, mediante estudios de ligamiento genético.
Distancia en centimorgans (cM)
DS16C4
DS16B3
STS 8 STS 6
STS 7 STS 5
DS16A2 DS16A1
STS 4 STS 3
STS 1
STS 2
MAPA GENÉTICO DE LIGAMIENTO
4 marcadores posicionados por
estudios de ligamiento
MAPA FÍSICO
8 marcadores tipo STS cuya posición
es conocida
Distancia física en pares de bases
(bp)
Figura 1.1 Un video explica cómo son los mapas físicos y los mapas de
ligamiento genético, y su utilización en el Proyecto Genoma Humano.
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
2
Los primeros éxitos de mapeo genético en humanos fueron los que consiguieron asociar un carácter a
un cromosoma, como por ejemplo el ligamiento del daltonismo al cromosoma X, o ligamiento del grupo
sanguíneo Duffy al cromosoma 1. Este último fue el primer rasgo hereditario mapeado a un autosoma
(en 1968) gracias a que, en una familia concreta, se observó que este rasgo se heredaba junto con un
heteromorfismo del cromosoma 1. Esto puso de manifiesto la utilidad de contar con marcadores de
ADN que estuviesen distribuidos por todo el genoma, fuesen fáciles de estudiar en un número alto de
individuos y tuviesen una posición cromosómica conocida, ya que así se podrían realizar estudios de
ligamiento genético en familias que padecen una determinada enfermedad genética para determinar si
esa enfermedad está en ligamiento con alguno de estos marcadores, lo que facilitaría la identificación del
gen responsable.
Los tipos de marcadores más utilizados en estudios de ligamiento en Genética Humana son:
Polimorfismos de Longitud de Fragmentos de Restricción (en inglés, las siglas son RFLP). Un RFLP
es un polimorfismo originado por un cambio de un nucleótido que crea o destruye una diana de
restricción, de manera que encontraremos alelos con esa diana y alelos sin ella. Por tanto, un RFLP
es por definición un marcador bialélico (sólo hay dos alelos posibles). La presencia o ausencia de
esa diana hace que los fragmentos originados por la digestión del ADN con esa enzima de restricción
sean de distinto tamaño. En general, un polimorfismo tipo RFLP puede detectarse de dos modos: a)
digerir directamente el ADN genómico, separar los fragmentos en un gel, hacer un Southern blot e
hibridarlo con una sonda específica para detectar cada uno de los fragmentos polimórficos; b)
amplificar la región del polimorfismo mediante PCR y digerir directamente el producto de PCR para
separar los fragmentos en un gel.
Los marcadores tipo VNTR (acrónimo inglés de ―Número Variable de Repeticiones en Tándem") son
polimorfismos originados por pequeñas secuencias de ADN que están repetidos en tándem. El
número de repeticiones es diferente en los distintos individuos de la población, por lo que en
principio pueden existir más de dos alelos distintos para cada marcador (aunque cada individuo
sólo lleve dos alelos, en la población general pueden existir más). Los marcadores en los que la
secuencia repetida es corta (2 a 4 nucleótidos) se denominan también microsatélites ó STR
(“Short Tandem Repeats", Repeticiones Cortas en Tandem), y están homogéneamente distribuidos
por todo el genoma. Los marcadores en los que la secuencia repetida es más larga (decenas a
cientos de nucleótidos) se denominan minisatélites, y han sido muy importantes en los estudios de
genética forense ya que permiten establecer una huella genética única para cada individuo. Los
minisatélites son más abundantes hacia las regiones teloméricas de los cromosomas, y debido a su
tamaño
en principio deben detectarse mediante Southern blot e hibridación. En cambio, los
marcadores
de
tipo
microsatélite
pueden
detectarse
mediante
PCR
y
están
distribuidos
uniformemente por el genoma, por lo que su análisis es más rápido y sencillo y proporcionan mayor
información.
Los SNP (pronunciado ―snip‖) son polimorfismos de un solo nucleótido (“Single Nucleotide
Polymorphisms”) en los que el simple cambio de un nucleótido en una secuencia genómica da lugar
a distintos alelos. Lógicamente, para cada posición sólo puede haber cuatro alelos como máximo (A,
C, G ó T), aunque lo habitual es que un SNP tenga dos alelos en la población general. Se estima
que, como promedio, hay al menos un SNP cada 500-1.000 pares de bases, de los cuales un
porcentaje importante son polimorfismos codificantes (es decir, cambian un aminoácido en la
proteína codificada por el gen) y constituyen la principal fuente de variabilidad genética inter-
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
individual, puesto que dos individuos cualesquiera tienen alrededor de un 0,1% de sus nucleótidos
distintos. La gran ventaja de los SNP sobre los demás tipos de marcadores, además de ser tan
abundantes y estar muy uniformemente distribuidos por todo el genoma humano, es la posibilidad
de analizarlos mediante métodos automatizables a gran escala, como los microarrays, de manera
que se pueden determinar cientos ó miles de SNPs a la vez en un mismo experimento.
Figura 1.2 Dos videos ilustras los marcadores más utilizados en la
construcción de mapas de ligamiento genético en humanos.
El objetivo inicial del PROYECTO GENOMA era crear un mapa genético (de ligamiento) con marcadores
distribuidos por todo el genoma con una distancia media de 1 cM entre marcadores. Los mapas
genéticos se basaron en un primer mapa publicado en 1987, hecho con 393 marcadores tipo RFLP
agrupados en 23 grupos de ligamiento, con una distancia media entre marcadores superior a 10 cM. El
primer mapa genético de todo el genoma fue el realizado por un centro de investigación francés llamado
Généthon en 1992, e incluía 803 marcadores tipo microsatélite.
Los mapas físicos, en cambio, reconstruyen la estructura de un segmento de ADN, determinando los
tipos y orden relativo de las distintas secuencias que lo componen, sus tamaños, y las distancias entre
ellas. Para la construcción de mapas físicos se utiliza un tipo de marcador distinto, que veremos más
adelante. Lógicamente, el mapa físico de mayor resolución posible es la secuencia completa de ese
segmento (resolución de 1 nucleótido), pero también es posible realizar mapas de menor resolución
(un ejemplo, mapas de restricción). El tipo de marcador utilizado en la creación de mapas físicos se
denominó STS (Sequence-Tagged Site = Sitio Etiquetado por su Secuencia). Un STS es un pequeño
fragmento de ADN
(unos pocos cientos de pares de bases) de secuencia y localización genómica
conocidas, fácilmente amplificable mediante PCR. Durante años se habían identificado un buen número
de marcadores STS, mediante la secuenciación parcial de clones previamente mapeados por otros
métodos. Además, los microsatélites utilizados en la creación de mapas de ligamiento también pueden
convertirse fácilmente en STS, leyendo la secuencia que flanquea las repeticiones del microsatélite.
Gracias a esto, hoy contamos con una lista ordenada de STS que están distribuidos por todo el genoma
humano, cuya secuencia y condiciones de amplificación mediante PCR son fácilmente accesibles a todo
investigador. El PROYECTO GENOMA se propuso inicialmente conseguir mapas de marcadores tipo STS
distribuidos por todo el genoma y con una distancia media entre marcadores en torno a 0.1 Mb (es
decir, 100kb).
Utilizando estos marcadores STS, se pudieron construir mapas físicos, es decir mapas compuestos por
clones de bibliotecas genómicas, capaces de albergar insertos de gran tamaño. Existen distintos vectores
de este tipo, entre los que destacan los vectores tipo YAC (Yeast Artificial Chromosome), PAC (P1phage Artificial chromosome) y BAC (Bacterial Artificial Chromosome). Cada uno de estos vectores de
clonación tiene características específicas, ventajas e inconvenientes. En concreto, los YAC son los
vectores que permiten albergar un mayor tamaño de inserto (hasta 2 Megabases), pero son bastante
inestables (tienden a perder fragmentos del inserto cuando se replican) y tienen un porcentaje
relativamente alto de clones quiméricos (es decir, clones en los que el inserto está en realidad formado
por dos fragmentos procedentes de cromosomas distintos). Los PACs y BACs, en cambio, sólo permiten
clonar insertos de unas 100 a 150 kilobases de tamaño (por lo que son necesarios muchos más clones
para cubrir completamente un segmento genómico determinado), pero en cambio son muy estables y el
porcentaje de quimerismo es muy pequeño. Aunque los YACs han sido el vector principalmente utilizado
al principio de los años 90, hoy en día han sido desplazados por PACs y BACs.
3
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
4
La Figura 1.3 explica la utilización de marcadores STS para crear un contig
de clones que cubran una región del genoma.
DS16B3
DS16C4
STS 8
STS 6
STS 7
DS16A2
STS 4
STS 3
STS 5
DS16A1
STS 1
STS 2
CONTIG: conjunto de clones solapantes
que cubren una región del genoma
La secuenciación de cada clon permite reconstruir
la secuencia original de esa región genómica
GGAGACTACGGAGATTACCTACGGGACTACAGAAGGAGACTACGGAGAGTACCTACGGGACTGTCT
Los primeros mapas físicos del genoma humano estaban compuestos por contigs de YACs que
cubrían parcialmente el genoma humano, siendo el mejor ejemplo el mapa creado también por
Généthon en 1993. Este mapa supuso un avance enorme porque —aunque no cubría muchas regiones
genómicas— sirvió como punto de partida para elaborar mapas más completos con vectores más fiables
y manejables, como BACs y PACs.
El PROYECTO GENOMA hizo una revisión de sus objetivos en 1993, teniendo en cuenta los progresos
realizados en los 3 años anteriores, y estableció nuevas metas para los siguientes 5 años (1993-1998).
En resumen, estos nuevos objetivos fueron:
conseguir un mapa genético con resolución de 2 a 5 cM entre marcadores.
conseguir un mapa físico con STS espaciados regularmente cada 0.1 Mb (lo que significaba
identificar y localizar la posición de —como mínimo— unos 30.000 STS).
desarrollar nuevas tecnologías para la identificación de genes a partir de ADN genómico.
desarrollar nuevas tecnologías de secuenciación y completar 80 Mb de secuencia confirmada para
todos los organismos que estaban siendo secuenciados por los distintos proyectos.
Potenciar la genómica comparada: completar las secuencias de E. coli, S. cerevisiae y C. elegans,
y comenzar los proyectos de secuenciación de los genomas de Drosophila y de ratón.
Cuando en 1998 se revisaron los avances realizados en esos cinco años, con el fin de diseñar un nuevo
plan quinquenal, los resultados habían sido realmente prometedores: en Septiembre de 1994 se publicó
un mapa genético de todo el genoma humano integrado por 4.000 marcadores tipo microsatélite y 1.800
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
5
marcadores tipo RFLP, con una distancia media entre marcadores de 0.7 cM. Esto superaba en más de 3
años el objetivo propuesto inicialmente. Por su parte, Généthon publicó en 1995 otro mapa físico de
YACs que estaba formado por 255 contigs (con un tamaño medio de 10 Mb cada contig) y cubría el 75%
del genoma humano. Durante esos años se continuaron desarrollando nuevos marcadores tipo STS,
hasta llegar en 1998 a un mapa que contenía 52.000 STS (casi el doble de los inicialmente propuestos).
Por lo que respecta a la secuenciación, en octubre de 1998 se había obtenido un total de 180 Mb de
secuencia del genoma humano (6% del total), además de 111 Mb de secuencia de otros organismos,
muy por encima de lo previsto en el plan 1993-1998. Además, se había completado la secuencia de E.
coli y de S. cerevisiae, éste último el primer organismo eucariota en ser secuenciado totalmente. Esto
fue posible gracias
a importantes
avances en la tecnología de
secuenciación, que
se
hizo
progresivamente más rápida, fiable y barata. Posteriormente, en diciembre de 1998, se completó la
secuencia de C. elegans, el primer organismo multicelular secuenciado en su totalidad con un genoma
de unas 97 Mb.
Por tanto, en 1998 el PROYECTO GENOMA se fijó un nuevo plan de objetivos hasta el año 2003, en
el que se incluían 6 metas concretas:
1. Completar la secuencia del genoma humano para 2003 (año que coincidía con el 50º aniversario del
descubrimiento de la doble hélice por Watson y Crick), creando un primer borrador de trabajo en
el 2001. Este objetivo se aceleró enormemente por la competencia de la empresa privada Celera
Genomics (también iniciativa de Craig Venter), que se propuso secuenciar todo el genoma humano,
utilizando una estrategia distinta al consorcio internacional del PROYECTO GENOMA, con el fin de
obtener la propiedad intelectual y poder explotar esa información con fines comerciales. A pesar de
los problemas suscitados inicialmente por la fuerte competencia entre ambos proyectos, el 26 de
junio de 2000 se produjo el anuncio oficial de que se había alcanzado un primer borrador del 87%
de la secuencia del genoma humano. Este primer borrador fue publicado el 15 de Febrero de 2001 en
las revistas Nature (el mapa del Consorcio Internacional) y Science (el mapa de Celera Genomics).
Figura 1.4 Video que muestra el proceso general de utilizado por el
Consorcio Internacional para la secuenciación del Genoma Humano.
2. Continuar el desarrollo y la innovación de las tecnologías de secuenciación. Como ya se ha
comentado, éste ha sido un factor determinante en el avance del PROYECTO GENOMA.
3. Estudiar la variación en el genoma humano. Como hemos visto, los SNP se encuentran en el
genoma humano a razón de 1 por cada kilobase, como promedio, y representan las diferencias
genéticas entre individuos de una misma especie. Como se verá en el Capítulo 11, la creación de
mapas densos de SNP permitirá llevar a cabo estudios de asociación para detectar los genes que
están implicados en enfermedades complejas, debidas a alteraciones en muchos genes —siendo la
contribución de cada gen a la enfermedad pequeña― y, por tanto, difíciles de detectar por otros
métodos de ligamiento paramétrico.
4. Desarrollar tecnología para la “genómica funcional”, es decir, identificar todos los genes y
determinar cuál es la función de cada gen. La gran revolución en las estrategias de identificación de
regiones codificantes (es decir, genes) comenzó con la idea de Craig Venter de secuenciar al azar y a
gran escala fragmentos de ADNc de bibliotecas obtenidas a partir de diversos tejidos. Estos
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
fragmentos de secuencia se denominaron "Etiquetas de Secuencia Expresada" (EST, Expressed
Sequence Tags), ya que —en el fondo— cada una representa un fragmento de un ARNm (una
secuencia expresada en un tejido concreto). En pocos años, la base de datos de EST creció de
manera exponencial, con cientos de miles de secuencias expresadas procedentes de distintas
bibliotecas de ADNc. Como algunos de estos EST proceden de un mismo ARNm, se creó una
colección no redundante llamada UNIGENE que agrupa los EST por familias, siemdo cada familia
representativa de un único ARNm. Poco después comenzaron también proyectos internacionales para
mapear secuencias de UNIGENE, de manera que en 1994 se publicó un primer mapa con la
localización de 16.000 EST correspondientes a genes distintos, y en 1998 se publicó un segundo
mapa de 41.664 EST, que representaban 30.181 genes distintos. Cuando se conozca el catálogo
completo de genes de nuestro genoma, será necesario estudiar la expresión de cada gen en distintos
tejidos y en distintas situaciones fisiológicas y patológicas, en respuesta a distintos factores
ambientales, etc. Lógicamente, esto será el objeto de la investigación biomédica de buena parte del
siglo XXI.
5. Genómica Comparada. El análisis comparado de los genomas de varias especies es de gran utilidad
para identificar mecanismos biológicos conservados durante la evolución (por lo que son
especialmente importantes), estructura y función de genes ortólogos, etc. Aunque el plan para 19982003 se propuso conseguir la secuencia completa del genoma de Drosophila para el año 2002, esta
meta se cumplió en abril del año 2000 gracias a la colaboración de laboratorios y Universidades con
Celera Genomics, descifrando unas 120 Mb de secuencia que comprenden la práctica totalidad de la
eucromatina de este insecto. El nuevo gran reto ahora es conseguir la secuencia completa del
genoma de otras especies de mamíferos: el primer borrador completo del genoma de ratón se
obtuvo en 2002 y el del genoma de chimpancé en 2005.
6. Implicaciones éticas, legales y sociales del PROYECTO GENOMA. Es importante tener
consciencia de la influencia que va a tener el Proyecto Genoma y sus aplicaciones sobre los
individuos y las sociedades. Cuestiones como el diagnóstico de enfermedades que no tienen
tratamiento, la extensión de una mentalidad eugenésica que lleve a la discriminación por razón de
deficiencias genéticas, el diagnóstico prenatal de alteraciones genéticas que confieren predisposición
a sufrir enfermedades que se manifestarán en la edad adulta, la detección de rasgos psicológicos con
base genética, la confidencialidad de la información genética de los individuos (y la posible
discriminación laboral) serán una constante en los debates sociales de este siglo, y es importante
llevar a cabo una labor de divulgación seria para que la sociedad pueda discutir de modo sosegado y
bien fundamentado las bases éticas sobre las que sostener las aplicaciones biomédicas de la
biotecnología en los años que se avecinan.
7. Desarrollo de herramientas bioinformáticas (bases de datos y herramientas de análisis de datos)
que puedan ser compartidas por la comunidad científica. Será especialmente importante el desarrollo
de herramientas informáticas que permitan identificar exones y predecir la estructura de genes en
grandes secuencias genómicas, así como plataformas de genómica funcional para el análisis de la
expresión de miles de genes a la vez.
8. Formación en genómica: favorecer que científicos y académicos se dediquen a la investigación
genómica y a divulgar y aumentar el conocimiento público de los distintos aspectos del PROYECTO
GENOMA.
6
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
Finalmente, la primera versión esencialmente completa del genoma humano fue anunciada
oficialmente el 14 de abril de 2003, cubriendo un total de 3.069 Mb (92.3% del total estimado del
genoma humano) con un 99.99% de fiabilidad en cada posición secuenciada. El análisis de la secuencia
publicada permite hacerse una idea bastante aproximada de la estructura de nuestro genoma, su
composición y algunas de sus características funcionales, como se explica a continuación.
Estructura del genoma humano y variación inter-individual
El genoma humano nuclear tiene un tamaño aproximado de 3.200 Mb (megabases), es decir tres mil
doscientos millones de pares de bases. Esta cifra total incluye unas 2.950 Mb de eucromatina y unas 250
Mb de heterocromatina (formada, como veremos, por ADN satélite). Esta cifra se refiere al genoma
haploide, de manera que las células somáticas (diploides) contienen el doble.
Figura 1.5 El video da una visión general de los distintos tipos de
secuencias que constituyen el genoma humano.
Una primera clasificación del genoma humano distingue, por un lado, los genes y secuencias
relacionadas con genes (exones, intrones, regiones no traducidas que contienen elementos reguladores,
etc), y por otro todo el ADN que está entre los genes, llamado ADN extragénico o ―de relleno‖ y que no
codifica ninguna proteína ni contiene ningún elemento funcional. Curiosamente, la mayor parte del
genoma humano (un 70%) está formada por este último, de forma que sólo un 30% del genoma
humano incluye secuencias relacionadas con genes. Lo más sorprendente es que de este 30% sólo un
5% está constituído por ADN codificante (exones), siendo el resto ADN no-codificante asociado a genes.
Por tanto, resulta que sólo un 1,5-2% del total del genoma humano es ADN codificante. El ADN
extragénico está formado, sobre todo, por los componentes repetitivos del genoma humano que se
explicarán más adelante, aunque también hay secuencias únicas o en bajo número de copia.
Desde la publicación del primer borrador del Genoma Humano en febrero de 2001, podemos dar unos
valores promedio estimados a partir de los datos publicados:

Se estima que el genoma humano contiene en torno a los 20.000 - 25.000 genes.

Alrededor de un 50% del genoma humano está constituido por ADN repetitivo.

Se puede estimar la densidad media de genes es de 1 gen cada 100 kb, aunque existen regiones
ricas en genes (algunas zonas del cromosoma 19, por ejemplo) y otras regiones que son muy
pobres en genes (como el cromosoma Y). Por tanto, se puede deducir una frecuencia media de 10
genes por cada Mb de secuencia.

El tamaño promedio de un gen humano es de 20-30 kb, aunque hay grandes diferencias de unos
genes a otros.

El número de exones que forman un gen es muy variable (desde genes que tienen un solo exón
hasta algunos genes con 100 exones ó más), pero podemos establecer un valor promedio de 7-8
exones por gen.

El tamaño medio de un exón es de 150 nucleótidos. Por lo que respecta a los intrones, en cambio,
existe una enorme variabilidad de tamaños, y no es infrecuente encontrar en casi todos los genes
algún intrón de gran tamaño.

El tamaño medio de un ARNm es de 1,8-2,2 kb incluyendo las regiones no-traducidas flanqueantes.
La longitud media de una región codificante es de 1,4 kb.
7
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
8
Una de las características más evidentes del borrador de nuestro genoma es su heterogeneidad. En
efecto, la secuencia no es uniforme, sino que muchas de sus características (riqueza en C+G frente a
A+T, riqueza en genes, etc) se distribuyen heterogéneamente, con regiones de gran abundancia
flanqueadas por regiones en que esos parámetros son más escasos. Así por ejemplo, el contenido
medio de G+C del genoma humano es del 41%, menor de lo teóricamente esperado. Además, si el
genoma se divide en "ventanas" de 20 kb se observan regiones con valores muy alejados del promedio,
con una dispersión 15 veces mayor de lo que sería esperable si la distribución fuese uniforme. La
distribución de %G+C de estas ventanas no se ajusta a una distribución normal, sino que está desviada
hacia valores bajos.
Además, se ha comprobado que los genes tienden a concentrarse en las ventanas más ricas en
G+C. Esto se conocía ya de antiguo, y de hecho se había acuñado el término isocoro para designar las
regiones genómicas que son homogéneas en cuanto al contenido en G+C y que pueden separarse
mediante gradientes de densidad. Se distinguen isocoros L e isocoros H, según su contenido en G+C
sea bajo (Low) ó alto (High), y dentro de cada isocoro hay varios subgrupos. La tabla que se presenta a
continuación resume algunas características importantes de los distintos isocoros:
Isocoro
%
% del
Contenido
Mb ADN
Densidad
GC
genoma
Genes %
L1
38
30
48
1,860
1 cada 130 kb
de genes
L2
41
32
H1
44
19
27
870
1 cada 100 kb
H2
49
10
H3
53
9
25
270
1 cada 35 kb
Como puede apreciarse, existe una relación directa entre el contenido de una región genómica en
nucleótidos G+C y su riqueza en genes. Es decir, hay en el genoma humano unas regiones con
mayor riqueza de genes, regiones que a su vez son las que tienen un mayor porcentaje de nucleótidos
G+C.
Otro hallazgo inesperado en nuestro genoma ha sido la presencia de mayor número de duplicaciones del
que se había estimado hasta entonces. De hecho, el análisis muestra alrededor de un 5% de
duplicaciones segmentarias, definidas como dos ó más segmentos cromosómicos >1 kb con >90%
de identidad de secuencia; dicho nivel de homología corresponde a una antigüedad de unos 40 millones
de años. Las duplicaciones intracromosómicas (las copias están en el mismo cromosoma) tienen un
tamaño medio de unas 100 kb, mientras que las duplicaciones intercromosómicas (entre cromosomas
distintos) son más pequeñas (10-50 kb). Las duplicaciones segmentarias son más frecuentes en
regiones centroméricas y cerca de los telómeros (donde pueden llegar a constituir un 25% de la
secuencia). Los centrómeros, en concreto, están flanqueados por regiones ricas en duplicaciones
intercromosómicas procedentes de regiones eucromáticas de otros cromosomas, que se han ido
transponiendo a zonas pericentroméricas a una velocidad de 6-7 eventos por millón de años durante la
evolución de primates. Las duplicaciones intracromosómicas pueden dar lugar a alteraciones genómicas,
como veremos en un Tema posterior.
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
La Figura 1.6 muestra esquemáticamente los tipos de duplicaciones
segmentarias.
Además de las duplicaciones segmentarias, se ha visto que hay muchas otras regiones relativamente
grandes del genoma que están en distinto número de copia en personas diferentes. Por tanto,
constituyen un tipo de polimorfismo, de ahí que se denominen LCV (Large-scale Copy number
Variations), CNP (Copy Number Polymorphisms) o CNV (Copy Number Variants), que es el nombre más
utilizado en la actualidad. Una característica de todas estas regiones es que están flanqueadas por
duplicaciones segmentarias, y esto hace pensar que la variación en el número de copias es el
resultado de reordenaciones entre esos elementos flanqueantes. En los últimos años, las nuevas
tecnologías han permitido elaborar un catálogo bastante exhaustivo de estas variantes, con más de
ocho mil regiones tipo CNV que comprenden en total casi un 4% de la secuencia del genoma humano.
Dos personas tomadas al azar tendrán diferencias en más de mil CNV, lo que supone una gran fuente
de variabilidad genética inter-individual ya que cada una de esas regiones incluye uno o más genes.
Estudios recientes han asociado alguna de estas variantes con la susceptibilidad a desarrollar
enfermedades, especialmente de tipo neurológico. Por ejemplo, en 2011 se vio que las personas con una
duplicación de una región del cromosoma 7 tienen un riesgo 15 veces superior de desarrollar
esquizofrenia que las personas sin esa variante. Otro estudio, realizado sobre más de 15.000 niños con
discapacidades congénitas, demostró que hasta un 15% de estas patologías es atribuible a un
número anormal de copias de una región genómica. Es previsible que en los próximos años se sigan
descubriendo CNV que confieren un alto riesgo de padecer una enfermedad común.
El análisis de la secuencia también ha mostrado la alta cantidad de pseudogenes que hay en el genoma
humano. Como su nombre indica, los pseudogenes son versiones ―incorrectas‖ de genes, que contienen
diversos tipos de mutaciones y habitualmente no se transcriben. Se dividen en pseudogenes no
procesados y pseudogenes procesados. Los primeros son copias de un gen, habitualmente originadas
por duplicación del gen original y posteriores mutaciones que hacen que la copia pierda su capacidad
codificante. Contienen exones e intrones, pero que carecen de promotor y habitualmente tienen codones
de parada prematuros. En cambio, los pseudogenes procesados son copias del ARN mensajero de un
gen, que se ha retrotranscrito e insertado en otra posición del genoma (de ahí que se denominen
también retropseudogenes). No tienen intrones, y tampoco tienen capacidad codificante por la ausencia
de promotor y por la presencia de codones de parada. Se han identificado unos 11.000 pseudogenes
en el genoma humano, de los que la mayor parte (unos 8.000) son pseudogenes procesados. En total,
se estima que el número de pseudogenes en nuestro genoma puede llegar a unos 20.000. De todas
formas, todos los pseudogenes detectados se originan a partir de tan sólo unos 2.500 genes funcionales,
de modo que la mayor parte de los genes no tienen ningún pseudogen en el genoma.
La Figura 1.7 muestra la estructura de los distintos tipos de pseudogenes.
Recientemente se han encontrado 481 segmentos >200 pares de bases totalmente conservados (100%
de identidad sin gaps) en rergiones ortólogas de humano, rata y ratón, y la gran mayoría están también
conservados en pollo y perro (95 and 99% de identidad, respectivamente). Muchas también están
conservadas en pez. Estos "elementos ultraconservados" se solapan con exones de genes implicados
en el procesamiento de ARN, y también son abundantes en intrones de genes relacionados con el
desarrollo o con la regulación de la transcripción. Junto con las más de 5000 secuencias >100
nucleótidos que están totalmente conservadas en los 3 mamíferos secuenciados, estos fragmentos
9
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
10
constituyen una nueva clase de elementos genéticos cuya función está por determinar, pero el hecho de
que están más conservados que las proteínas indica que deben jugar algún papel importante.
También es importante dedicar unas líneas a describir la presencia de genes que dan lugar a
microARN. Como es sabido, el estudio del mecanismo de interferencia de ARN ha llevado a la
identificación de ARN interferentes endógenos en los genomas de eucariotas, incluido el genoma
humano. Estos ARN se denominan microARN (miARN) y se transcriben a partir de genes con un
promotor de ARN-polimerasa II. Estos genes tienen un segmento palindrómico, de modo que el ARNm
primario forma un pri-miARN que contiene una horquilla de ARN bicatenario; este pri-miARNm es
procesado dentro del núcleo de la célula por una ARNasa tipo III llamada DROSHA y esto da lugar a un
pre-miARN, una ARN bicatenario con forma de horquilla de unos 70 nucleótidos de tamaño. El premiARN sale del núcleo y es procesado en el citoplasma por Dicer, originando un miARN de unos 22
nucleótidos. Éste entra a formar parte del complejo RISC (denominado miRISC para los miARN) y regula
la expresión de genes diana mediante degradación de sus mensajeros o por represión de la traducción.
Actualmente se han identificado más de 300 genes de miARN en el genoma humano, y se calcula
que puede haber en torno a 500. La mayoría de estos genes se localizan en intrones de genes
codificantes, y además están bastante conservados en primates. Dado que cada uno de estos miARN
puede regular la expresión de varios genes diana, se estima que hasta un 20-30% de todos los genes
del genoma humano pueden estar regulados por miARN, lo que les confiere una extraordinaria
importancia.
La secuenciación del genoma humano ha permitido también estudiar la variación genética interindividual, es decir, las diferencias genéticas que están en la base de las diferencias fenotípicas entre
individuos. Esto tiene gran relevancia médica, porque muchas de estas variantes pueden ser también
causa de la distinta susceptibilidad a desarrollar enfermedades o la diferente respuesta a fármacos que
tienen personas distintas. Uno de los tipos más importantes de variabilidad genética es el constituido por
los cambios en un nucleótido de la secuencia, conocidos ―como hemos visto― con el nombre de
SNP. Uno de los objetivos del PROYECTO GENOMA HUMANO era el estudio de la diversidad genética, y
esto ha cristalizado en otro proyecto internacional denominado Proyecto HapMap que se propone
precisamente identificar los SNP más frecuentes en el genoma humano en individuos de diferentes
grupos étnicos. En octubre de 2005, el Proyecto Hapmap publicó un primer mapa que contiene
1.007.329 SNP con una distancia media entre ellos de 5 kb, con una frecuencia del alelo más frecuente
igual ó superior al 5% (es decir, presentes en al menos el 5% de la población). Todos estos SNP fueron
genotipados en 269 individuos de cuatro grupos raciales: 90 de raza yoruba, de Nigeria; 90
caucasianos de Utah; 45 de raza han, de China; y 44 japoneses. La segunda fase de este Proyecto,
publicada en 2007, genotipo casi tres millones de SNPs en esta misma muestra. En la fase III, concluida
en 2009, se genotiparon 1,6 millones de SNPs en 1184 individuos de 11 poblaciones distintas de todo el
planeta. La inspección de estos mapas permite hacerse una idea de la variación existente en el genoma,
tanto entre individuos como entre distintos grupos geográficos. Además, estos datos han permitido
comprobar que esta variación se agrupa en bloques, de modo que todos los SNP de un mismo
bloque se heredan juntos. En un capítulo posterior veremos la importancia de estos bloques para
estudiar la asociación de SNP concretos con la susceptibilidad a padecer enfermedades.
La Figura 1.8 muestra la estructura de los haplotipos formados por los
alelos de varios SNP cercanos.
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
11
Finalmente, se ha catalogado también otro tipo de variación consistente en polimorfismos de
inserción/deleción pequeños (de tamaños entre 1 nucleótido a 10 kb). Se han detectado varios
cientos de miles, y se estima que en total hay alrededor de 1,5 millones de estos polimorfimos en el
genoma humano. Aunque se distribuyen por todo el genoma, se ha visto que en algunas regiones son
especialmente frecuentes. Muchos de ellos están dentro de genes, y pueden causar alteraciones cuando
afectan al promotor o a la región codificante (exones).
Los últimos años han presenciado una revolución en las tecnologías de secuenciación, lo que ha
permitido comenzar proyectos para leer la secuencia de genomas completos de muchas personas. El
proyecto internacional más importante, en este sentido, se llama 1000 Genomes, y ya está dando sus
primeros frutos. En 2010 se publicaron los primeros resultados de este proyecto, en el que se
secuenciaron 179 genomas de 4 poblaciones distintas. Según estos datos, cada persona es
portadora de unos 3 millones de variantes genéticas, de las cuales diez mil son potencialmente
patogénicas y afectan en promedio a 250 genes. Además, 60 de esas variantes han sido previamente
asociadas con alguna enfermedad. Otro estudio, publicado en 2012, analizó la secuencia de 185
genomas humanos, buscando mutaciones que puedan anular la función de genes conocidos; los
resultados fueron menos dramáticos, pero aun así preocupantes: cada individuo (normal) lleva unas
100 mutaciones que afectan a genes, de las cuales unas 20 conducen a la inactivación de los
genes respectivos.
El ADN Repetitivo
Como hemos visto al principio de este Capítulo, hasta un 50% del Genoma Humano está constituido por
ADN repetitivo, antiguamente conocido como "ADN basura". Por su importancia, a continuación
estudiamos con mayor detalle su composición y los distintos tipos de secuencias que lo forman. Ya se ha
mencionado que podemos encontrar ADN repetitivo tanto en el ADN codificante (en los genes y
secuencias relacionadas) como en el ADN no-codificante, pero la mayor parte se encuentra en el ADN
no-codificante. Quizás el único ejemplo de ADN repetitivo codificante que merece la pena reseñar es el
correspondiente al ADN ribosomal, que se concentra en los brazos cortos de los cromosomas
acrocéntricos (13, 14, 15, 21 y 22) y está formado por tres genes que dan lugar a los tres ARN
ribosomales de 5,8S, de 18S y de 28S. Los tres genes están juntos formando un bloque que mide unas
13 kilobases. Estos bloques se encuentran repetidos unas 50 veces, separados entre sí por un
espaciador intergénico que mide unas 30 kilobases. En conjunto, el ADN ribosomal ocupa un tamaño de
unas 2 Megabases.
En el ADN no-codificante, tanto intragénico (es decir, intrones y otras regiones no-codificantes
relacionadas con genes) como extragénico, podemos encontrar diversos tipos de elementos repetidos.
En general, se trata de una secuencia de ADN que se repite en el genoma cientos o miles de veces.
Estas repeticiones pueden encontrarse en tándem (es decir, seguidas una detrás de otra) o dispersas.
El ADN repetido en tandem se divide en varios grupos según el tamaño total que origina la repetición:

El genoma humano contiene en total unas 250 Mb de ADN satélite (llamado así porque al separar
el ADN genómico en gradientes de densidad aparece como 3 bandas "satélites" de la banda
principal). El ADN satélite está formado por la repetición de una secuencia de ADN miles de veces en
tandem, es decir unas copias pegadas a otras. Esto da lugar a regiones repetidas con tamaños que
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
12
van desde 100 kb hasta varias megabases. Por ejemplo, el ADN Satélite 1 es una secuencia de 42
nucleótidos, mientras que en el Satélite 2 la secuencia repetida es (ATTCCATTCG) y en el Satélite
3 se repite el pentámero (ATTCC). Un tipo de ADN satélite muy importante es el ADN alfoide ó
Satélite alfa, en el que la secuencia repetida tiene un tamaño de 171 nucleótidos, y que forma
parte del ADN de los centrómeros de los cromosomas humanos. Otros tipos de ADN satélite son el
Satélite beta (repetición de 68 nucleótidos) y el Satélite gamma (repetición de 220 nucleótidos),
que también se encuentran en la cromatina centromérica de varios cromosomas.

El ADN de tipo Minisatélite está formado por secuencias de 6 - 25 nucleótidos que se repiten en
tándem hasta dar un tamaño total entre 100 nucleótidos y 20 kb. Un ejemplo de ADN Minisatélite es
la repetición que forma los telómeros de los cromosomas humanos, en los que el hexanucleótido
(TTAGGG) se repite miles de veces en tándem dando lugar a bloques de 5 - 20 kb de tamaño.
Algunas repeticiones de este tipo son polimórficas, y dan lugar a los marcadores de tipo VNTR que
hemos mencionado en un apartado anterior.

El ADN de tipo Microsatélite está formado por secuencias de 2, 3 ó 4 nucleótidos que se repiten
hasta dar bloques con un tamaño total habitualmente no superior a 150 nucleótidos. Hay
repeticiones de este tipo por todo el genoma humano, y muchas de ellas son muy útiles como
marcadores genéticos porque el número de repeticiones varía entre individuos. Ejemplos de ADN
microsatélite son los dinucleótidos (CA), ó las repeticiones de trinucleótidos (CAG).
El ADN repetido disperso está formado por secuencias que se repiten miles de veces en el genoma
humano, pero no en tándem sino de manera dispersa. Este tipo de repeticiones constituyen un 45% de
todo el genoma humano, y se clasifican en función del tamaño de la unidad repetida:
Los SINE (Short Interspersed Nuclear Elements, elementos nucleares dispersos cortos) suponen un
13% del genoma humano. Son secuencias cortas repetidas miles de veces en el genoma humano de
forma dispersa. El principal SINE es la familia de elementos Alu, que es específica de primates y
constituye un 10% de nuestro genoma. Un elemento Alu está formado por una secuencia de 250 280 nucleótidos, con unas 1.500.000 copias por genoma y una repetición cada 4 kb como promedio.
Es un elemento relativamente rico en guaninas+citosinas (56% de contenido en CG, mientras
que el contenido promedio del genoma humano es del 41%). Se localiza predominantemente en la
bandas R de los cromosomas humanos. Está flanqueado por pequeñas repeticiones directas (en la
misma orientación). Su estructura es la de un dímero no idéntico, ya que el segundo monómero es
30 nucleótidos mayor que el primero. Contiene colas poli-A al final de cada monómero, y se
transcribe por la ARN polimerasa III a partir de un promotor interno, pero no codifica ninguna
proteína. Actúa como un retrotransposón, ya que puede copiarse e insertarse en otras regiones
del genoma.
Los LINE (Long Interspersed Nuclear Elements, o elementos nucleares dispersos largos)
constituyen un 20% del genoma humano. Son secuencias con un tamaño de varias kilobases,
agrupados en distintas familias. El principal LINE es el llamado LINE-1 ó L1, formado por una
secuencia de unas 6 kb repetida unas 800,000 veces en el genoma (aunque muchos de estos
elementos no están completos, sino truncados y les falta la parte 5’), llegando a constituir alrededor
de un 15% del genoma. Estos elementos, al contrario que los SINE, no son ricos en
guaninas+citosinas (tienen un 42% de citosinas+guaninas, que es cercano al contenido
promedio del genoma humano) y se localizan predominantemente en las bandas G de los
cromosomas. Un elemento L1 codifica dos proteínas: una ARN-binding protein en el marco de
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
13
lectura ORF1 y una proteína con actividad endonucleasa y retrotranscriptasa en el marco de
lectura ORF2. Está flanqueado por unas pequeñas repeticiones directas (en la misma orientación) y
termina en una cola poli-A. Los elementos LINE son retrotransposones, puesto que pueden copiarse
a sí mismos a través de un intermediario ARN y transponerse a otras localizaciones genómicas.
Según el modelo más aceptado, el elemento se transcribe por la ARN polimerasa II a partir de un
promotor interno, sus productos proteicos se unen a la cola poli-A de su propio ARN mensajero y el
complejo se inserta en el ADN genómico por la acción combinada de la endonucleasa (que corta
dentro de regiones ricas en AT que llevan la secuencia TTTT↓A) y de la retrotranscriptasa. Las
proteínas codificadas por los LINE son utilizadas también para la retrotransposición de elementos
SINE y de pseudogenes procesados, por lo que pueden jugar un importante papel como elemento
modificador del genoma. De hecho se ha visto que la secuencia propia de los L1 tiene la
propiedad de inhibir la transcripción, de ahí que los niveles de ARNm y proteínas codificadas por
los L1 en las células sea muy bajo. Lo más interesante es que también pueden modificar la
transcripción de los genes en cuyos intrones hay abundancia de estos elementos: un 80%
de los genes humanos tienen L1 en sus intrones, y la densidad en L1 correlaciona negativamente
con los niveles de expresión de estos genes. Por tanto, su papel tanto en la evolución de genomas
como en la regulación génica le confieren una gran importancia. Se acabó el mito del "ADN basura".
LINE
Nuevo LINE (copia en
otra localización)
transcripción
ARNm
Unión de las
proteínas a su
propio ARNm
Reparación
traducción
Rotura
endonucleolítica
Retrotranscripción
La Figura 1.9 ilustra el mecanismo de retrotransposición de los LINE.
Los HERV (retrovirus endógenos humanos), representan copias de los retrovirus humanos que se
han ido integrando en el genoma humano en el curso de la evolución y con frecuencia son el origen
de proto-oncogenes celulares. Habitualmente representan copias truncadas del genoma de estos
virus, y constituyen alrededor de un 8% del genoma (hay unas 450.000 copias). Como
habitualmente conservan alguna de las repeticiones terminales largas de estos genomas, se
denominan también repeticiones tipo LTR (Long Terminal Repeat).
Nuestro genoma también contiene unas 300.000 copias de elementos repetidos originados por
transposones ADN, lo que supone un 3% del total del genoma. Estos elementos contienen el gen
(habitualmente truncado) de la transposasa, flanqueado por repeticiones invertidas. De entre las
distintas familias que existen cabe destacar el tipo MER1 ó MER2 y los elementos mariner
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
14
(Hsmar2), responsables de algunas reordenaciones cromosómicas importantes en patología
humana.
La Figura 1.10 muestra la estructura de los distintos tipos de repeticiones
dispersas del genoma humano.
Es importante hacer algún comentario sobre la movilidad de los retroelementos dispersos. Tanto los
LINE como los Alu que estén completos pueden, en teoría, copiarse e insertarse en otra posición del
genoma a través de un intermediario ARNm. De hecho, esto sucede habitualmente, aunque por fortuna
con muy baja frecuencia. Se calcula que 1 de cada 100-200 nuevos nacimientos lleva una inserción
nueva de un Alu o de un L1. Por lo que respecta a los L1, se calcula que existen actualmente unos 5000
elementos completos en el genoma humano, de los cuales unos 90 son activos (capaces de
retrotransposición). Un trabajo reciente ha estudiado la presencia de 68 elementos L1 completos en
poblaciones humanas, encontrando que más de la mitad son muy activos. Esta actividad hace que
distintas personas tengan presencia o ausencia de un elemento L1 concreto en una posición del genoma,
lo que se conoce como polimorfismos de inserción. Se ha visto experimentalmente que dos personas
tomadas al azar difieren, en promedio, en casi 300 polimorfismos de inserción de elementos L1.
El potencial patogénico de estos elementos se debe a la propia capacidad de insertarse
aleatoriamente en el genoma (e interrumpir genes), pero también a la desregulación de la expresión de
genes cercanos (por los elementos promotores de los LINE y SINE), y sobre todo a las alteraciones
cromosómicas (deleciones, duplicaciones) causadas por recombinación ilegítima entre copias de estos
elementos que están en localizaciones cromosómicas distintas (esto se verá en profundidad en el
Capítulo 5). Curiosamente, los elementos Alu causan este tipo de recombinación con más frecuencia que
los L1, especialmente en algunos genes concretos que tienen tendencia a sufrir duplicaciones o
deleciones por recombinación entre secuencias Alu.
El proyecto ENCODE
ENCODE es el acrónimo de ENcyclopedia Of DNA Elements, y se trata de un proyecto de análisis
exhaustivo del genoma humano, que comenzó con un proyecto piloto en el que se estudió sólo el 1%
del total. Al final se ha obtenido una imagen muy detallada que muestra todos los transcritos primarios y
maduros, así como la localización de las principales modificaciones de histonas, los sitios de unión de
factores de transcripción, sitios de inicio de la transcripción, sitios hipersensibles a DNAsa, etc; todo ello
unido a datos de expresión génica, de replicación y del número de copia de esas mismas regiones.
Al principio, lo más llamativo de este análisis fue la gran cantidad de transcripción que se detecta a
lo largo del genoma humano: un 15% de los nucleótidos están incluidos en transcritos maduros, y una
gran parte del resto de las bases (hasta el 90%) forman parte de transcritos primarios en algún tejido.
Además, se observan muchos sitios de inicio de la transcripción distintos a los anotados
previamente, a menudo alejados de lo que se consideraba el inicio del gen. Igualmente, se identificaron
unos 200 pseudogenes (60% procesados y 40% no-procesados), de los cuales una quinta parte se
transcriben. Esto, extrapolado al resto del genoma significa unos 20.000 pseudogenes en total.
Aunque posteriormente se ha visto que la intensidad de la transcripción ―basal‖ no es tan alta, los datos
aportados por ENCODE indican que los genes son más complejos de lo que se pensaba hasta ahora:
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
15
en vez de la visión tradicional, según la cual un gen da lugar a uno o varios transcritos alternativos que
codifican una proteína en sus varias isoformas, parece claro que una región genómica puede codificar
distintos productos proteicos y además dar lugar a otros transcritos (no necesariamente codificantes de
proteínas) en ambas cadenas. Todo esto ha llevado a replantear el concepto de gen, que en la era
post-ENCODE se definiría como “la unión de las secuencias genómicas que codifican un conjunto
coherente de productos funcionales, potencialmente solapantes”. Esta definición hace hincapié
en el producto funcional que se codifica (de ahí el uso de ―coherente‖ para indicar que se trata de
codificar una proteína o un ARN). Lo más novedoso de esta definición es que las regiones no traducidas
(UTR) no formarían parte del gen, quedando incluidas –junto con los elementos reguladores- en la
categoría de ―regiones asociadas con genes‖. La definición alternativa, más acorde con el pensamiento
actual, de que un gen es ―la región genómica que codifica un conjunto de transcritos alternativos
solapantes‖, aunque codifiquen distintos productos proteicos, es problemática a la luz de los datos
aportados por el proyecto ENCODE. Si existe mucho solapamiento de transcritos, la aplicación de esta
definición daría lugar a un número pequeño de genes muy extensos, los cuales además tendrían escaso
significado biológico al codificar productos funcionales diversos (un mismo gen podría dar lugar a
proteínas distintas y/o ARN no codificantes). La nueva definición probablemente aumentará el
número total de genes del genoma, pero al estar centrada en el producto final es más informativa de
la función de cada gen concreto.
Figura 1.11: El video explica la nueva definición de "gen", a la luz de los
resultados de ENCODE. La siguiente figura (tomada del Genome Browser)
muestra una región ENCODE:
Otra sorpresa del proyecto ENCODE ha sido comprobar que un alto porcentaje de los transcritos
detectados no codifican proteínas, por lo que la categoría de "ARN no codificantes" seguirá
aumentando en el futuro. En concreto, los últimos años han sido testigos de la explosión de un nuevo
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
16
tipo de ARN no codificantes largos (en inglés lncRNAs), con funciones reguladoras importantes que
se están empezando a conocer poco a poco. Se trata de ARNs con un tamaño superior a 200 nucleótidos
que maduran mediante ayuste, pero que no codifican proteínas. Su número va en aumento, llegando a
estimarse la existencia de casi 10.000 lncRNAs en el genoma humano, cubriendo unas 10 - 20 veces
más de secuencia genómica que los ARNs codificantes de proteínas. Entre las funciones que
desempeñan, se ha visto que son capaces de inhibir múltiples dianas en trans (es decir, genes que
están en cromosomas distintos), como es el caso del lincRNA-p21. Particularmente interesantes son
otras funciones novedosas de algunos lncRNAs. Por ejemplo, se ha demostrado que actúan como
andamios sobre los que se reclutan distintos factores reguladores de la expresión génica (modificadores
de la cromatina, que se verán en el capítulo siguiente). Éste es el caso de un lncRNA llamado HOTAIR,
que es capaz de un complejo represor a varios genes del genoma. Otros lncRNAs estimulan la
expresión de genes vecinos, bien porque ellos mismos tienen actividad potenciadora o bien porque se
asocian con co-activadores de la transcripción. Finalmente, los lncRNAs también parecen estar
implicados con la formación de asas de cromatina, sirviendo como puntos de anclaje sobre los que se
forman compartimentos nucleares (paraspeckles, por ejemplo).
La siguiente tabla resume las principales clases de ncRNAs de mamíferos y sus funciones:
El 5 de septiembre de 2012 la revista Nature publicó varios artículos con los resultados definitivos de
este proyecto, que se pueden consultar en esta web. Para una visión general del Proyecto, es útil este
video.
En conjunto, los resultados del proyecto ENCODE son apasionantes y enriquecen enormemente nuestra
visión del genoma humano, su regulación y funcionamiento, lo cual abrirá horizontes insospechados en
la investigación genómica y tendrá fuertes implicaciones biomédicas en un futuro cercano.
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
17
El genoma mitocondrial
La mitocondria es un orgánulo de probable origen endosimbióntico que se ha adaptado a su nicho
intracelular: para aumentar su tasa de replicación y asegurar la transmisión a las células hijas después
de cada división mitótica, el genoma de las mitocondrias de mamíferos se ha ido reduciendo de tamaño
hasta alcanzar las 16.569 kb en el caso del genoma mitocondrial humano. Las mitocondrias son las
verdaderas centrales térmicas de nuestro organismo ya que en ellas tiene lugar la fosforilación
oxidativa (OXPHOS), es decir, la respiración celular acoplada a la producción de energía en forma de
ATP. El funcionamiento del sistema OXPHOS tiene, además, importancia médica por la generación de
especies reactivas de O2 (Reactive Oxygen Species, ROS) y por la regulación de la muerte celular
programada o apoptosis. Las proteínas incluidas en el OXPHOS se localizan dentro de la membrana
mitocondrial interna, e incluyen: (1) Componentes de la cadena transportadora de electrones
(Cadena respiratoria mitocondrial, CRM); (2) ATPasa de membrana; (3) Translocador de nucleótidos de
Adenina (ANT).
El ADNmt humano es una molécula circular de 16.569 pares de bases. El número de moléculas de
ADNmt por célula varía entre unos pocos cientos en los espermatozoides a unas 200.000 copias en el
oocito, pero en la mayor parte de los tejidos el rango está comprendido entre unas 1.000 y 10.000
copias por célula, con 2 - 10 moléculas de ADN por mitocondria. Este genoma contiene información
para 37 genes:
Genes que codifican las 2 subunidades 12S y 16S del ARNr (ARN ribosomal)
de la matriz
mitocondrial.
Los genes para los 22 ARNt (ARN transferente), requeridos para la síntesis de proteínas
mitocondriales en la misma matriz mitocondrial.
Genes que codifican 13 polipéptidos que forman parte de los complejos multienzimáticos del
sistema OXPHOS. En concreto, en el genoma mitocondrial se codifican 7 subunidades del Complejo
I, 1 subunidad del Complejo III, 3 subunidades del Complejo IV, y 2 subunidades de la ATPasa
(Complejo V).
Es importante no perder de vista que el resto de las subunidades polipeptídicas de estos complejos, así
como el Complejo II completo, están codificados en el genoma nuclear, de manera que no todas las
enfermedades mitocondriales están necesariamente causadas por alteraciones en el ADN mitocondrial.
La Figura 1.12 muestra los complejos proteicos de la membrana de la
mitocondria
que
están
codificados
por
genes
del
propio
genoma
mitocondrial.
La característica estructural más sorprendente del ADNmt es que los genes se encuentran situados uno a
continuación del otro, sin apenas intrones ni regiones no codificantes entre los genes. Al contrario que el
genoma nuclear, en el que las regiones no codificantes son mayoritarias, el ADN mitocondrial sólo
posee un 3% de secuencias no codificantes. Veintiocho de los genes mitocondriales (2 ARNr, 14
ARNt y 12 polipéptidos) se encuentran en una de las cadenas (cadena H ó pesada), mientras que los 9
genes restantes (1 polipéptido y 8 ARNt) están en la cadena complementaria (cadena L ó ligera). La
única zona del ADNmt que no codifica ningún gen es la región del bucle de desplazamiento (bucleD), localizada alrededor del origen de replicación de la cadena H. Esta región contiene también los
promotores de la transcripción y los elementos reguladores de la expresión génica. Otra de las
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
18
peculiaridades de la organización genética del ADNmt es que los genes de los ARNt se distribuyen
entre los genes de los ARNr y los codificantes de proteínas; esta disposición tiene consecuencias
muy importantes para el procesamiento del ARN. Para la replicación del ADNmt hacen falta dos
orígenes diferentes, uno para cada cadena (OH y OL). Ambos orígenes de replicación están muy
separados, haciendo que el proceso sea unidireccional y asimétrico. La síntesis del ADN se inicia en OH y
es realizada por una polimerasa específica de la mitocondria, la DNApol , que alarga un ARN iniciador
fruto del procesamiento de un transcrito primario que se sintetiza a partir del promotor L. La replicación
continúa de modo unidireccional hasta alcanzar OL, momento en el cual comienza la síntesis de la
segunda cadena del ADN, alargando también un pequeño iniciador de ARN.
La Figura 1.13 muestra la estructura del ADN mitocondrial.
En la transcripción del ADNmt intervienen una polimerasa de ARN, al menos un factor de
transcripción implicado en la iniciación (mtTFA), y uno de terminación (mTERF). Las dos cadenas del
ADNmt se transcriben completamente a partir de tres puntos de iniciación diferentes, dos para la
cadena pesada (H1 y H2) y uno para la cadena ligera (L), originando tres moléculas policistrónicas que
se procesan posteriormente por cortes endonucleolíticos precisos en los extremos 5´ y 3´ de las
secuencias de los ARNt, para dar lugar a los ARNr, ARNt y ARNm maduros. De esta forma los ARNt,
situados entre los genes de los ARNr y ARNm, actúan como señales de reconocimiento para los enzimas
de procesamiento. En particular, la cadena H se transcribe mediante dos unidades de transcripción
solapadas en la región de los ARNr: la primera de estas unidades comienza delante del gen para el
ARNtPhe (lugar de iniciación H1), termina en el extremo 3´ del gen para el ARNr 16S y es responsable de
la síntesis de los ARNr 12S y 16S, del ARNtPhe y del ARNtVal. El factor de terminación (mTERF) se une a
una secuencia situada en el gen del ARNtLeu y provoca la terminación de esta unidad. La segunda unidad
de transcripción comienza cerca del extremo 5´ del gen del ARNr 12S (lugar de iniciación H2) y
transcribe la casi totalidad de la cadena pesada; el procesamiento de este ARN policistrónico origina los
ARNm de 12 péptidos y los otros 12 ARNt codificados en esta cadena. La transcripción de la cadena
ligera comienza cerca del extremo 5´ del ARN 7S (en el bucle-D) y da lugar al iniciador de la replicación
de la cadena pesada, 8 ARNt y 1 péptido (ND6).
La síntesis de las proteínas mitocondriales tiene lugar en ribosomas específicos de la mitocondria,
cuyos componentes están codificados en el ADNmt (ARNr 12S y 16S) y en el genoma nuclear (84
proteínas ribosomales). En este sistema de traducción se sintetizan las trece proteínas codificadas en el
ADNmt utilizando un código genético que difiere ligeramente del código genético universal. Así,
UGA codifica el aminoácido triptófano (Trp) en vez de ser un codón de terminación, y los codones AUA y
AUU se utilizan también como codones de iniciación.
La biogénesis de la mitocondria depende de la expresión coordinada de los genomas mitocondrial
y nuclear, pero hasta ahora se conoce muy poco acerca de los mecanismos que regulan la interacción
de ambos sistemas genéticos. La expresión del ADNmt parece estar regulada por el factor de iniciación
de la transcripción mtTFA, codificado en el genoma nuclear. Este factor podría ser el responsable tanto
de los niveles de ARN como del número de copias de ADNmt, ya que la replicación depende de la síntesis
de un iniciador de ARN a partir del promotor de la cadena ligera. La regulación de la relación entre los
ARNr y los ARNm mitocondriales se realiza fundamentalmente mediante la selección del lugar de
iniciación de la transcripción de la cadena pesada, que a su vez está relacionada con el factor mtTERF
(que causa terminación de la transcripción después de la síntesis de los ARNr) y con el procesamiento de
los ARN primarios. Asimismo, la actividad transcripcional puede estar regulada por estímulos
TEMA 1: GEOGRAFÍA DEL GENOMA HUMANO
19
hormonales, especialmente por hormonas tiroideas que actúan tanto de un modo indirecto (por
activación de genes nucleares) como directamente sobre el propio ADNmt.
Descargar