CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS 1

Anuncio
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
Tema 4. Ligamiento genético en humanos
El concepto de ligamiento: fracción de recombinación y distancia genética.
Informatividad de los marcadores utilizados en estudios de ligamiento. El
cálculo del LOD score. Ligamiento no paramétrico y su utilización en
genética humana. Estudios de asociación (GWAS) y detección de variantes
raras de alto riesgo relativo: hacia los genomas individuales y la medicina
genómica.
El concepto de ligamiento genético: fracción de recombinación y distancia
genética
Aunque algunos autores ya habían sugerido la presencia de determinados genes en cromosomas
concretos, no hubo evidencia clara de esto hasta el descubrimiento del ligamiento del locus white de
Drosophila al cromosoma X, hecho por T.H. Morgan en torno a 1910. Poco después, Morgan identificó
nuevos mutantes, entre ellos otro llamado rudimentary, que también mostraba ligamiento al
cromosoma X. Esto llevó a Morgan a estudiar la segregación simultánea de estos dos genes: si siempre
se heredan juntos, esto sugeriría que están cerca en el mismo cromosoma, ya que no ha habido
recombinación entre ellos. En efecto, según las leyes de la herencia mendeliana dos loci que están en
cromosomas distintos segregarán de manera independiente, es decir, los dos alelos de cada locus se
distribuirán en los gametos de modo aleatorio. En cambio, cuando los dos loci están en el mismo
cromosoma (se dice entonces que son sinténicos), cabe pensar que siempre se heredará la misma
combinación de alelos y un miembro de la descendencia que herede un alelo concreto de uno de los loci
también heredará el alelo del otro locus que estaba en el mismo cromosoma parental. Por el contrario, si
se produce una recombinación (con sobrecruzamiento) en algún punto intermedio entre ambos loci
durante la meiosis, los gametos llevarán combinaciones alélicas que no estaban presentes en ninguno de
los progenitores, es decir, se formen gametos recombinantes. Morgan comprobó que podía darse
recombinación entre el locus white y el locus rudimentary en Drosophila, pero al estudiar otras
mutaciones (especialmente el color amarillo del cuerpo y el color blanco de los ojos) observó que nunca
se detectaba recombinación con otros loci localizados en el mismo cromosoma, y llamó ligamiento a
ese fenómeno. Alfred Sturtevant, un estudiante de Morgan, demostró que la probabilidad de que haya
una recombinación entre dos loci depende de la distancia física que los separa, y por tanto la frecuencia
con que aparecen recombinantes puede utilizarse para deducir la distancia que separa dos genes que
están en el mismo cromosoma; Sturtevant construyó en una noche el primer mapa genético de
ligamiento, en el que se representaba el orden y la distancia de cinco genes localizados en el
cromosoma X de Drosophila. Poco después, Calvin Bridges detectó los primeros casos de ligamiento
entre genes localizados en autosomas, y poco a poco se fueron describiendo distintos grupos de
ligamiento. El concepto de ligamiento genético, por tanto, va intrínsecamente unido al de distancia
física entre genes, que es la que origina distintas proporciones de individuos recombinantes en la
descendencia.
Cuando ambos loci están suficientemente alejados (aunque estén en el mismo cromosoma) existe una
probabilidad tan alta de que haya un sobrecruzamiento entre ellos que segregarán de manera similar a
una segregación independiente, produciendo gametos recombinantes en la mitad de la descendencia
(50% de gametos recombinantes y 50% de gametos no-recombinantes). En este sentido, es
1
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
2
importante recordar que el sobrecruzamiento tiene lugar entre dos cromátides, cada una perteneciente a
un cromosoma homólogo; las otras dos cromátides no se recombinan, de ahí que un sobrecruzamiento
da lugar a cuatro gametos de los cuales dos son recombinantes y los otros dos son idénticos a los
cromosomas originales. Sin embargo, a medida que dos loci sinténicos se sitúan más cerca uno del
otro, la probabilidad de que haya un sobrecruzamiento entre ellos es cada vez menor, y por tanto la
probabilidad de formación de gametos recombinantes también va decreciendo. Puede llegarse a
un punto en que los loci estén tan juntos que nunca se dé un sobrecruzamiento entre ellos, de
modo que no se originarán gametos recombinantes y no se encontrarán individuos recombinantes en la
descendencia. Por tanto, la cuantificación del número de eventos de recombinación entre dos loci nos
permite estimar la distancia genética entre ellos: a mayor proximidad, menor probabilidad de
recombinación y por tanto el porcentaje de individuos recombinantes será menor.
Figura 4.1 En este video se ilustra el fenómeno del ligamiento de dos loci:
la
distancia
entre
ambos
sobrecruzamiento, de tal
determina
manera que
la
probabilidad
de
un
la probabilidad de encontrar
individuos recombinantes en la descendencia es menor cuanto más cerca
están.
En Genética Humana, la cuantificación de la frecuencia de recombinación se hace estudiando la
segregación de dos secuencias de ADN en los individuos de una familia, e identificando aquellos
individuos cuyo genotipo sólo pueda explicarse por una recombinación en la meiosis de uno de los
progenitores. Las secuencias que se utilizan en estudios de ligamiento se denominan marcadores
genéticos, que son secuencias que se encuentran en distintas formas (distintos alelos) en la población
general, ya que para detectar si ha habido recombinación debemos ser capaces de distinguir los distintos
alelos. Además, los estudios de ligamiento entre marcadores sirven para establecer mapas de ligamiento
en los que estos marcadores están en un orden determinado, separados por distancias precisas. Por
tanto, los marcadores utilizados en estudios de ligamiento son polimorfismos genéticos, es decir,
secuencias que se encuentran en la población en varias formas posibles. Diferentes individuos de la
población pueden tener, por tanto, distintos genotipos (distintas combinaciones de alelos) para un
marcador concreto. Los principales tipos de polimorfismos genéticos que se utilizan como marcadores en
estudios de ligamiento han sido explicados con detalle al hablar del genoma humano.
Para realizar mapas de ligamiento entre marcadores, es necesario ante todo genotipar cada uno de los
marcadores en todos los miembros de una ó varias familias. Al analizar los genotipos de cada individuo y
la segregación de los diferentes alelos, se pueden identificar los individuos recombinantes, aquellos
cuyo genotipo sólo puede explicarse por una recombinación en uno de sus progenitores. La cantidad de
individuos recombinantes en la descendencia nos permite calcular la fracción de recombinación
(representada por la letra griega ), que se define como el número de individuos recombinantes dividido
por el número total de individuos en la descendencia. Además de estudiar la distancia entre marcadores,
en los estudios de ligamiento que se realizan en Genética Humana es frecuente buscar cuál es la
distancia entre un marcador y el locus responsable de una enfermedad genética. En estos casos, el
análisis de ligamiento nos permitirá calcular la distancia entre el marcador y el gen responsable
de una enfermedad. Utilizando esta metodología se han identificado los genes responsables de muchas
enfermedades genéticas, mediante una estrategia denominada clonaje posicional: al conocer la
distancia que separa el locus responsable de una enfermedad de varios marcadores genéticos concretos,
se simplifica enormemente la tarea de identificar el gen causal.
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
Figura 4.2 Se muestra el árbol correspondiente a una familia en la que
segrega una enfermedad autosómica dominante, indicando los individuos
enfermos (símbolos rojos) y los genotipos de un marcador que podría estar
en ligamiento con la enfermedad. Como se explica en el video, al analizar
la descendencia en la generación III podemos deducir fácilmente si un
individuo es recombinante o no, y calcular la fracción de recombinación.
La fracción de recombinación, calculada tal y como se ha explicado en la Figura anterior, nos permite
estimar la distancia genética entre dos loci, distancia que se mide en centimorgans (cM): cuando
entre dos loci se detecta una fracción de recombinación = 0,01 (1% de individuos recombinantes), se
dice que ambos loci están a una distancia genética de 1 cM. Esta distancia genética (1 cM) equivale
aproximadamente a 1 Mb (megabase) de distancia física, aunque esta equivalencia varía a lo largo del
genoma y hay funciones matemáticas más exactas para convertir la distancia genética en distancia
física. En cualquier caso, es importante comprender que la fracción de recombinación nunca podrá ser
mayor a 0,5 (50%), ya que éste es precisamente el porcentaje de individuos recombinantes que se
producen en ausencia de ligamiento (cuando siempre hay una recombinación, como se ha explicado más
arriba) o en el caso de que ambos loci estén situados en cromosomas distintos.
Informatividad de los marcadores utilizados en estudios de ligamiento
Como acabamos de explicar, para poder realizar estudios de ligamiento es necesario identificar los
individuos recombinantes para determinar la fracción de recombinación. Por desgracia, en ocasiones es
imposible establecer si un individuo de la descendencia es recombinante o no, bien porque el individuo
que transmite la enfermedad es homocigoto para el marcador analizado, o bien porque es heterocigoto
idéntico al otro progenitor; estas situaciones dan lugar a lo que denominamos familias noinformativas o semi-informativas, respectivamente.
Figura 4.3 El video explica el concepto de informatividad de un marcador,
según la probabilidad de encontrar individuos heterocigotos distintos para
ese marcador en la población general. Se muestran varios ejemplos de
familias informativas, semi-informativas o no informativas.
Lo posibilidad de perder informatividad subraya la importancia de usar marcadores para los que todos
los árboles analizados sean informativos, lo cual dependerá directamente de la informatividad de los
marcadores utilizados. La informatividad de un marcador refleja la probabilidad de encontrar
individuos heterocigotos para ese marcador en la población general, y es función del número de alelos
posibles para el marcador y de las frecuencias relativas de cada alelo en la población. Teniendo en
cuenta las características de cada tipo de marcador, es posible calcular dos parámetros que definen la
informatividad de un marcador genético: el índice de heterocigosidad y el PIC (contenido de
información de un polimorfismo, Polymorphism Information Content en inglés). Estos parámetros se
calculan mediante la siguiente fórmula:
3
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
n
4
n-1
n
PIC = 1 -  pi -  2pi2 pj2
2
i=1
heterocigosidad

i=1
j=i+1
% heterocigotos idénticos
El primer miembro (1 -  pi 2) es la heterocigosidad, es decir, el porcentaje de individuos de la
población general que son heterocigotos para ese marcador. Ya hemos visto que si el individuo que
transmite la enfermedad es homocigoto para un marcador, esa familia no será informativa para ese
marcador, de ahí que la heterocigosidad sea una medida de la informatividad de un marcador
genético. Como pi2 es la frecuencia de homocigotos para cada alelo del marcador, el sumatorio de
todos los posibles homocigotos se le resta a 1 y se obtiene así el porcentaje de heterocigotos. Como
criterio general, se puede decir que la heterocigosidad de un marcador aumenta: (a) con el
número de alelos que ese marcador presenta en la población general; y (b) cuanto más parecidas
son las frecuencias de los distintos alelos de ese marcador.

El segundo miembro de la ecuación le resta a la heterocigosidad la probabilidad de que una familia
no sea informativa debido a que ambos padres son heterocigotos idénticos (en cuyo caso, como
hemos visto antes, la mitad de la descendencia será informativa (homocigotos) y la mitad será noinformativa (los heterocigotos). Como es sabido, para dos alelos i y j con frecuencias alélicas pi y pj
la frecuencia de heterocigotos es 2pipj. Por tanto, la probabilidad de que dos individuos sean
heterocigotos idénticos es 2pipj x 2pipj = 4(pi2pj2), pero como sólo se pierde informatividad en la
mitad de la descendencia, en la ecuación se resta sólo 2(pi2pj2).
Algunos ejemplos del cálculo del PIC ilustrarán la informatividad de los distintos tipos de marcadores
genéticos. Por ejemplo, un marcador bialélico (el caso típico sería un RFLP) con frecuencias alélicas
iguales (p1=p2=0,5) tendría:
Heterocigosidad = [1 – (p12+p22)] = [1 – (0.52+ 0.52)] = 1– 0.5 = 0.5
PIC = 1 – (p12+p22) – 2(p12 x p22) = 1 – (0.52+ 0.52) – 2(0.52 x 0.52) = 0.375
En cambio, un marcador con cuatro alelos (alelos 1, 2, 3 y 4) en el que cada alelo tiene una
frecuencia p = 0,25, presentará en principio 6 posibles combinaciones de heterocigotos, con genotipos
(1-2), (1-3), (1-4), (2-3), (2-4) y (3-4). Por tanto, para calcular todos los posibles casos de
heterocigotos idénticos en la población, habrá que sumar [2(p12 p22)] + [2(p12 p32)] + [2(p12 p42)]
+ [2(p22 p32)] + … hasta completar las seis posibles combinaciones de heterocigotos. Aplicando la
fórmula general:
Heterocigosidad = [1 – (0,252+ 0,252+ 0,252+ 0,252 )] = 0,75
PIC= 1 – (0,252+ 0,252+ 0,252+ 0,252 ) – 6 [2(0,252 x 0,252 )] = 0,703
Como se ve, el hecho de que un marcador tenga 4 posibles alelos en vez de 2 aumenta su
informatividad casi al doble. De hecho, un marcador con 10 alelos arrojaría, aplicando la fórmula
anterior, un PIC de 0,891 si las frecuencias alélicas son iguales. Por tanto, de los distintos marcadores
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
que se han mencionado, los más informativos son los de tipo microsatélite, seguidos por SNP y
RFLP. De todas formas, como ya se ha comentado, la posibilidad de estudiar a la vez miles de SNPs de
forma automatizada (algo que no es posible con los microsatélites), junto con su alta densidad a lo largo
del genoma, hace que los SNP sean hoy en día los marcadores de mayor utilidad en los estudios de
asociación que se explicarán más adelante.
Sea cual sea el tipo de marcador utilizado, los estudios de ligamiento requieren genotipar a todos los
miembros de una familia para detectar la presencia de individuos recombinantes y así poder calcular la
fracción de recombinación. En el ejemplo de la familia con una enfermedad autosómica dominante
presentado en la Figura 4.2, hemos podido establecer que el individuo transmisor de la enfermedad
transmitía a la vez el alelo 2 del marcador, ya que ambos se localizan a poca distancia en el mismo
cromosoma. Sabemos esto porque este individuo, a su vez, heredó la enfermedad de su padre, que
también le transmitió el alelo 2 del marcador. Cuando en un individuo que transmite una enfermedad
podemos determinar inequívocamente el origen parental tanto del alelo que causa la enfermedad como
de los alelos del marcador es decir, podemos determinar qué alelos de cada uno de los dos loci van en
el mismo cromosoma se dice que conocemos la fase de ligamiento de ese individuo. Precisamente es
el hecho de conocer la fase de ligamiento en el individuo transmisor lo que hace que todas las meiosis
de este individuo sean informativas, y nos permite determinar con certeza si los individuos de la
descendencia son recombinantes o no. Se recordará que en el caso concreto de esta familia había un
individuo recombinante de un total de 6, lo que sugiere que ambos loci (el marcador y el gen de la
enfermedad) están en ligamiento a una distancia que produce 1 recombinante de cada 6 individuos
(fracción de recombinación =1/6=0,17, es decir a una distancia genética de 17 cM). El principal
problema es que este resultado podría haberse dado por azar: teóricamente es posible que no haya
ligamiento y que una descendencia más numerosa nos mostrase una fracción de recombinación más
cercana al 50% de individuos recombinantes. Frente a esta "hipótesis nula" (no ligamiento) tenemos una
hipótesis alternativa de que existe ligamiento entre ambos loci, a una distancia tal que origina una =
0,17. ¿Cómo podemos determinar cuál de las dos hipótesis es la verdadera ó, al menos, la que mejor
explica los datos obtenidos en esta familia?
El cálculo del LOD score
Para cuantificar la significación de cada una de estas hipótesis, los estudios de ligamiento utilizan un
método llamado "Estimación de la Máxima Verosimilitud" ("verosimilitud" es la traducción del
término inglés likelihood). Este método consiste en estimar la verosimilitud de cada hipótesis, calculando
la probabilidad de encontrarnos con esa fracción de recombinación cuando se verifica esa hipótesis. Por
ejemplo, para estimar la verosimilitud de la hipótesis de ligamiento, calculamos la probabilidad de
obtener 1 recombinante de cada 6 individuos en el caso de que exista ligamiento a una distancia de 17
cM; para estimar la verosimilitud de la hipótesis nula, calculamos la probabilidad de obtener 1
recombinante de cada 6 individuos en el caso de que no exista ligamiento, y así sucesivamente. La
siguiente caja ilustra el razonamiento matemático que se sigue para estimar estas probabilidades,
con un ejemplo del lanzamiento de monedas:
La manera de estimar la verosimilitud de una hipótesis se puede ilustrar muy bien con el
ejemplo de una moneda que se tira al aire 10 veces, produciendo 8 caras y 2 cruces. Con estos
datos experimentales, podríamos formular una hipótesis H1 según la cuál la moneda está
deformada o trucada y siempre producirá 8 caras de cada 10. Según esta hipótesis, la
5
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
probabilidad de obtener cara es P(cara)=8/10 y la probabilidad de obtener cruz es
P(cruz)=2/10. Por tanto, la probabilidad de obtener 8 caras es P(8 caras) = 0,8 8 y la
probabilidad de obtener 2 cruces es P(2 cruces) = 0,22. En conjunto, la verosimilitud de que la
hipótesis de trucaje explique 8 caras y dos cruces es L(H1) = 0,88 x 0.22 = 0,0067.
La hipótesis nula H0, en cambio, afirmaría que la moneda es normal y que estos datos
experimentales son fruto del azar. Según esta hipótesis, por tanto, la probabilidad de obtener
una cara es igual a la de obtener cruz, P(cara)=P(cruz)=1/2. La probabilidad de obtener 8 caras
y dos cruces en estas condiciones sería 0,58 x 0,52 = 0,001.
¿Cuál es la hipótesis más verosímil para explicar nuestros datos experimentales? Por supuesto
H1, pero ¿cuánto más verosímil que H0? Para esto calculamos el cociente de verosimilitudes,
llamado en inglés LIKELIHOOD RATIO, que se obtiene siemplemente dividiendo la verosimilidad
de la hipótesis H1 entre la verosimilitud de la hipótesis nula H0, es decir, Likelihood Ratio = L
(H1) / L(H0). En nuestro caso, este cociente sería 0,0067/0,001 = 6,7, es decir la hipótesis H1
es 6,7 veces más verosímil que la hipótesis nula.
Aumentando el número de veces que se lanza la moneda aumenta progresivamente la
verosimilitud de la hipótesis aunque se mantengan los mismos porcentajes, ya que el cociente
de verosimilitudes se hace mayor. Por ejemplo, si tiramos la moneda 50 veces y obtenemos 40
caras y 10 cruces (la misma proporción de caras y cruces que en el caso anterior), ahora
L(H1)= 0,840 x 0,210 = 13,6 x 10-12 mientras que la verosimilitud de la hipótesis nula es
L(H0)=0,550= 8,9 x 10-16. El cociente de verosimilitudes es ahora L(H1)/L(H0)= 1.5 x 104.
Aplicando esta forma de proceder al árbol que hemos venido estudiando, recordamos que hay 5
individuos no-recombinantes y 1 recombinante, luego formulamos la hipótesis H1 de que la distancia
entre el locus de la enfermedad y el locus del marcador es tal que producen una frecuencia de
recombinación =1/6. Por tanto, bajo esta hipótesis, la probabilidad de encontrar un individuo
recombinante es P(R)=1/6, y la probabilidad de encontrar un no-recombinante es P(NR)=5/6. La
verosimilitud de que esta hipótesis (H1, =1/6) explique nuestros datos experimentales (5 norecombinantes y 1 recombinante) se calcula aplicando la fórmula general:
L (H1) = R x (1-)NR
Por el contrario, la verosimilitud de la hipótesis nula para explicar nuestros datos sería:
L (H0) =  (R + NR)
Para calcular cuántas veces más verosímil es nuestra hipótesis que la hipótesis nula, hallamos el
cociente de verosimilitudes (likelihood ratio). En genética humana, para que este cociente sea
significativo al 95% se requiere que sea mayor o igual a 1000. Es fácil darse cuenta que uno de los
principales problemas que nos encontramos es el tamaño pequeño de las generaciones, al contrario de
los estudios de ligamiento que se hacen en otras especies. Una forma de solventar este problema es
repetir el análisis en varias familias distintas, y combinar los resultados obtenidos en cada una de ellas
con el fin de aumentar la potencia estadística de los estudios de ligamiento. Para poder combinar
6
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
resultados de familias distintas, Newton Morton ideó el concepto del Lod score (que podría traducirse
como "puntuación lod" y se representa por la letra Z), que es el log10 del cociente de verosimilitudes. Por
tanto, un cociente de verosimilitudes = 1000 equivale a un lod score igual a 3 (Z=3), y éste es
precisamente el valor mínimo de Z que se requiere para poder afirmar que existe ligamiento significativo
entre dos loci.
Para hallar el lod score máximo de todos los posibles, es habitual utilizar programas de ordenador que
calculan directamente el lod score que se obtiene para varias hipótesis de ligamiento y a distintos
valores de . Además, como los resultados de una sola familia raras veces serán significativos,
necesitamos combinar los resultados obtenidos a partir de los datos de varias familias. Para ello, se
suman los lod scores (Z) obtenidos para cada  en las distintas familias que estamos analizando, hasta
identificar la fracción de recombinación a la que obtenemos el lod score máximo en el conjunto de
las familias analizadas. Éste es el valor que finalmente nos permitirá afirmar si existe o no ligamiento
significativo entre el gen de la enfermedad y este marcador. Además, como la Z máxima se obtiene a
una fracción de recombinación concreta, podemos también estimar la distancia genética más probable
entre ambos loci, expresada —como siempre— en centimorgans. Por ejemplo, si la Z máxima se obtuvo
a una  = 0,16, la distancia genética entre ambos loci estará en torno de 16 cM, con un intervalo de
confianza cuyo cálculo es también sencillo.
Figura 4.4 El cálculo del LOD score (Z) puede ilustrarse con el ejemplo de
esta familia, en la que se indica el único individuo recombinante de la
generación III con una flecha. La fracción de recombinación es 0,17, por lo
que se calcula la verosimilitud (likelihood) de la hipótesis de ligamiento a
esa fracción de recombinación y a la fracción de recombinación que
obtendríamos si no hubiese ligamiento (0,5). Tras calcular el cociente de
ambas verosimilitudes, calculamos el LOD score tal y como se indica.
7
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
Como se muestra en este video, se puede calcular el LOD score para todas
las fracciones de recombinación posibles, representando gráficamente los
resultados.
Como los resultados de una sola familia no son suficientes para detectar ligamiento, lo habitual es
combinar los resultados obtenidos para varias familias y sumar los LOD score a cada fracción de
recombinación. Por ejemplo, si combinamos los resultados de 5 familias como la anterior, obtenemos:
Ahora, el valor más alto de LOD score aparece a una fracción de recombinación de 0,20. De todas
formas, para calcular el LOD score máximo (Zmax) hemos de representar gráficamente esos datos,
buscar los valores con Z>3 y detectar el punto más alto de la curva:
Estos resultados indican que, efectivamente, el LOD score máximo se obtiene a una fracción de
recombinación de 0,16. Como Z>3 en ese punto, se puede concluir que existe ligamiento entre este
marcador y el gen que causa la enfermedad, y que la distancia más probable entre ambos es de 16 cM.
Un problema muy importante en los estudios de ligamiento es que muchas veces no podemos deducir la
fase de ligamiento en el progenitor que transmite la enfermedad, al no poder establecer con exactitud
8
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
si un alelo concreto del marcador está en el mismo cromosoma que lleva el alelo mutado o si está en el
cromosoma homólogo. Lógicamente, esto impide establecer si un individuo de la descendencia es
recombinante o no, y por tanto complica mucho el cálculo de la fracción de recombinación. De
hecho, hay dos posibles fases de ligamiento que tienen la misma probabilidad, y esto ha de tenerse en
cuenta a la hora de estimar la verosimilitud de cada hipótesis. Así, se calcula el cociente de
verosimilitudes para cada una de las fases de ligamiento alternativas y se halla el lod score promedio de
ambas:
Z () = log 10 [1/2 [ R(1-)NR/ 0.5(R+NR)] + 1/2 [ NR(1-) R/ 0.5(R+NR)]]
Lógicamente, el desconocimiento de la fase de ligamiento en el individuo que transmite la enfermedad
hace que el valor final del lod score sea más bajo, por lo que –si los loci estudiados están realmente en
ligamiento— será necesario estudiar un mayor número de familias para poder alcanzar el valor umbral
de Z=3.
Es muy útil representar los valores que adopta el lod score Z en función de los distintos valores de la
fracción de recombinación . Cuando se hace esto, podemos observar varios tipos posibles de curva:

Si no se ha encontrado ningún individuo recombinante en ninguna de las familias
estudiadas, esto quiere decir que los dos loci que estamos estudiando (el locus de la
enfermedad y el del marcador) están en ligamiento y tan cercanos entre sí que no se
producen sobrecruzamientos entre ellos. El lod score es máximo a = 0, para ir bajando
hasta Z=0 para una = 0,5.

Cuando existe ligamiento, lo más habitual es hallar una curva de forma parabólica, con
un pico máximo de lod score a una determinada fracción de recombinación. En estos casos
el lod score a la fracción de recombinación  = 0 debe ser (– ), ya que hemos encontrado
individuos recombinantes en alguna de las familias y esto hace imposible la hipótesis de
que la fracción de recombinación sea cero. El intervalo de confianza de la fracción de
recombinación máxima se calcula trazando una horizontal una unidad de lod score por
debajo de la Z máxima, y viendo dónde corta ambas ramas de la curva. Como siempre, el
lod score Z se hace 0 para una fracción de recombinación =0.5, pues en este caso el
cociente de verosimilitudes L(H1)/L(H0) = 1, y el log10 de 1 es igual a 0.

En ocasiones, la curva alcanza valores de Z inferiores a –2. En estas circunstancias
podemos afirmar que NO existe ligamiento por debajo de una determinada fracción de
recombinación y por tanto ambos loci necesariamente están a una distancia genética
superior a la indicada por esa fracción de recombinación (si es que efectivamente están en
ligamiento).

Finalmente, hay ocasiones en que no encontramos ligamiento significativo, pero tampoco
podemos excluirlo para ninguna de las  estudiadas, puesto que no hay ningún valor de lod
score que sea superior a +3 o inferior a –2. En estos casos no podemos extraer ninguna
información útil de los datos obtenidos de estas familias.
9
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
10
Ligamiento no paramétrico y su utilización en genética humana
Como acabamos de ver, uno de los requisitos para poder hacer estudios de ligamiento mediante el
cálculo de lod score es conocer el tipo de herencia de la enfermedad que estamos estudiando, ya que sin
esta información es imposible detectar la presencia de individuos recombinantes. De hecho, los
programas de ordenador que realizan los cálculos para el análisis de ligamiento exigen que se
introduzcan varios parámetros indicando el tipo de herencia (autosómica dominante, recesiva, etc). Por
desgracia, la mayoría de las enfermedades complejas (aquellas que están determinadas por varios
genes y por factores ambientales) no siguen un patrón hereditario mendeliano típico, por lo que los
estudios de ligamiento clásicos que se han estudiado hasta ahora no se pueden aplicar. En estos casos
hay que acudir a métodos de ligamiento que no requieren ajuste de la muestra a un modelo concreto de
herencia, llamados por tanto métodos no-paramétricos o independientes de modelo. Hay
básicamente dos tipos de pruebas, las que detectan ligamiento y las que detectan asociación alélica.
Es muy importante darse cuenta de la diferencia entre ambos conceptos: el ligamiento es un fenómeno
que afecta a loci —se dice, por ejemplo, que dos loci están en ligamiento a una distancia determinada—
pero el alelo del marcador que "viaja" en el con el alelo de la enfermedad puede ser diferente en familias
distintas. Por ejemplo, en una familia concreta podemos detectar ligamiento porque la enfermedad
siempre segrega junto con al alelo A1 de un marcador, pero en otra familia distinta (con la misma
enfermedad) el alelo mutado puede viajar con el alelo A5 de ese mismo marcador. Ambos loci (el
marcador y el gen de la enfermedad) están en ligamiento pero en cambio no siempre se dan las mismas
asociaciones de alelos en todas las familias. Esto es así porque existe una situación de equilibrio entre
ambos loci, de manera que cada alelo de un locus puede encontrarse con cualquiera de los alelos del
otro locus. Los métodos de ligamiento no paramétrico más utilizados son ASP (affected sib-pair,
parejas de hermanos afectados) y APM (affected pedigree member, miembro afectado del árbol
familiar), pero perdieron popularidad a partir del año 2005 cuando comenzaron a realizarse estudios de
asociación alélica a escala genómica.
Los métodos de análisis de ligamiento no paramétricos que detectan asociación alélica buscarán
precisamente desviaciones de la situación de equilibrio entre los alelos de loci muy cercanos, detectando
la presencia de un haplotipo que se encuentre con mayor frecuencia de la que cabría esperar si esos
loci estuviesen en equilibrio. Si demostramos que, incluso en familias distintas, la enfermedad se asocia
significativamente con un alelo concreto del marcador, podemos decir que existe asociación alélica;
como la principal causa de asociación alélica es el desequilibrio de ligamiento por cercanía física de
ambos loci (están tan cercanos uno al otro que no se ha alcanzado todavía el equilibrio entre ellos), la
asociación alélica se traduce en cercanía física. Por tanto, podemos servirnos de la asociación alélica
para localizar genes responsables de enfermedades complejas, si detectamos ligamiento con algún
marcador conocido. Inicialmente se utilizaron unas pruebas llamadas TDT (Transmission-Disequilibrium
Test, prueba de transmisión del desequilibrio) ó HRR (Haplotype Relative Risk, riesgo relativo de un
haplotipo), que utilizaban familias compuestuas por los dos padres y un solo descendiente enfermo.
Las
nuevas
tecnologías
de
genotipaje
que
utilizan
marcadores
tipo
SNP
(Single
Nucleotide
Polymorphisms, ya vistos anteriormente) han acelerado enormemente la identificación de genes que
confieren susceptibilidad a enfermedades comunes. En este sentido, es importante detectar los SNP que
pueden ser más informativos en estos estudios: se estima que en toda la población mundial se
encuentran más de 10 millones de SNPs en los que ambas variantes alélicas tienen una frecuencia
mayor o igual a 1%. A pesar del indudable interés que tienen estos polimorfismos para realizar estudios
de asociación alélica, genotipar todos estos SNPs en un número grande de individuos es impracticable.
Podemos salvar este obstáculo gracias a que muchos SNP, por estar muy cerca físicamente, se heredan
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
11
juntos en pequeños bloques de desequilibrio de ligamiento. La combinación concreta de alelos de los
distintos SNP que están en un mismo bloque constituye un haplotipo característico de ese bloque. Por
tanto, un grupo reducido de SNPs de cada haplotipo pueden ser representativos de todo ese haplotipo
(por lo que reciben el nombre de tag-SNPs, o SNP-etiqueta); de este modo, no es necesario genotipar
todos los SNPs del genoma, sino sólo los SNP-etiqueta. De hecho, la metodología actual permite analizar
500.000 a 1 millón de SNPs rutinariamente, lo cual es suficiente para cubrir todos los haplotipos del
genoma humano. El Proyecto Internacional Hapmap, del que se ha hablado en el Capítulo 1, ha
construido un catálogo con todos los haplotipos de SNPs presentes en diversas poblaciones humanas,
detallando la estructura y el tamaño de los bloques de desequilibrio de ligamiento del genoma. Esto hace
posible llevar a cabo estudios de asociación para identificar las regiones donde residen los genes que
confieren susceptibilidad a enfermedades comunes. Dichos estudios se explican a continuación.
Estudios de asociación (GWAS) y detección de variantes raras de alto
riesgo relativo: hacia los genomas individuales y la medicina genómica.
Dado que los estudios de ligamiento y de asociación alélica clásicos tienen poca potencia para detectar
regiones del genoma responsables de enfermedades complejas (poligénicas y multifactoriales), y merced
a los datos proporcionados por el Proyecto Hapmap, en los últimos años se han utilizado tecnologías
de genotipado masivo de SNPs (basadas en microarrays) para establecer asociación entre regiones
genómicas concretas y la predisposición a sufrir enfermedades comunes con un componente genético
demostrado (cardiovasculares, neurodegenerativas, diabetes, cáncer, etc). A continuación se explica
cómo se llevan a cabo estos estudios, conocidos como GWAS (en inglés, Genome Wide Association
Study).
1. Selección de SNPs a genotipar: Utilizando herramientas bioiformáticas es relativamente sencillo
visualizar la posición y tamaño de los bloques haplotípicos a lo largo del genoma (bloques de SNPs
que están en desequilibrio de ligamiento). La posición y tamaño de estos bloques nos ayuda a
seleccionar los SNPs más adecuados para cubrir todo el genoma con el menor número posible de
sondas. Este trabajo previo de selección habitualmente lo hacen los fabricantes de microarrays de SNPs,
que actualmente analizan en torno a los 500.000 – 1.000.000 de SNPs por microarray.
2. Toma de muestras de las cohortes a estudiar: Los estudios de asociación "genome-wide" requieren un
gran número de muestras, para poder detectar señales de asociación débiles. Idealmente, deben
utilizarse cohortes (casos y controles, por lo general) de al menos 1.000 individuos cada una, sin
diferencias de sexo, edad y procedencia étnica.
3. Análisis de resultados: Utilizando distintas herramientas, se generan los haplotipos y se buscan
señales de asociación, es decir, SNPs en los que un alelo esté estadísticamente sobrerepresentado en los casos (enfermos) respecto a los controles (sanos). Esto se hace utilizando un test
de Chi-cuadrado o de Fisher, con corrección para pruebas múltiples.
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
12
La Figura 4.5 muestra el valor de asociación (en el eje Y) para varios miles
de SNPs distribuidos por todo el genoma. Hay dos SNP con valores de
asociación significativamente elevados. La posición de estos SNP indica
que en esa región existe uno o varios genes implicados en el desarrollo del
rasgo fenotípico que se está analizando (una enfermedad, por ejemplo).
Imagen obtenida de http://www.goldenhelix.com/images/solutions/visualization/manhattan.png
4. Refinar la asociación y replicar los resultados: En la etapa final, las regiones para las que se detectó
asociación deben refinarse genotipando más SNPs en esa zona concreta, para así delimitar mejor la
región implicada. Además, los resultados deben confirmarse estudiando cohortes distintas con un
número de casos y controles similar al del primer estudio.
Los estudios de asociación a escala genómica están dando resultados muy valiosos. En los años 2007 y
2008 se han publicado bastantes estudios que encuentran regiones claramente asociadas con diversas
enfermedades multifactoriales. Uno de estos trabajos, desarrollado por el Wellcome Trust Case
Control Consortium (WTCCC), estudió 2.000 muestras de pacientes británicos con una de las siete
enfermedades multifactoriales más comunes (depresión, enfermedad coronaria, enfermedad de Crohn,
hipertensión, artritis reumatoide, diabetes tipo 1 y diabetes tipo 2). Estas cohortes (14.000 individuos en
total) fueron comparadas con 3.000 controles sanos, y en cada uno de los 17.000 individuos se
genotiparon 500.000 SNPs, encontrando asociación significativa con varias regiones del genoma.
A finales de 2010, se habían publicado más de 1.200 estudios de GWAS en todo el mundo, con datos de
asociación para más de 200 enfermedades o rasgos genéticos (el catálogo completo puede consultarse
en http://www.genome.gov/gwastudies/). En cualquier caso, los estudios de asociación sólo detectan
variantes genéticas comunes (el alelo de menor frecuencia está presente en, al menos, el 5% de la
población), por lo que su efecto sobre la enfermedad es –por definición- pequeño (el riesgo de los
individuos que lo portan aumenta poco en relación al riesgo general). Se acepta que deben existir otras
CAPÍTULO 4: LIGAMIENTO GENÉTICO EN HUMANOS
13
variantes más raras (frecuencia menor al 5%) con mayor efecto fenotípico, que están situadas cerca
de las señales de asociación. La detección de estas variantes, implicadas directamente en el desarrollo
de las enfermedades, requerirá la secuenciación exhaustiva del genoma completo de casos y
controles.
Con estas nuevas metodologías, es previsible que en los próximos años se identifiquen las principales
variantes que confieren susceptibilidad a las enfermedades más frecuentes. Por ejemplo, podemos
pensar que en un futuro no muy lejano un paciente hipertenso que acuda a la consulta genética será
estudiado para detectar variantes de predisposición en varios genes, y gracias a los resultados se le
clasificará dentro de un grupo molecular determinado que permitirá asignarle un tratamiento dietético o
farmacológico específico. Desde este punto de vista, el genotipado de polimorfismos concretos puede
convertirse en un análisis de rutina en el diagnóstico de un número creciente de enfermedades humanas
en el próximo decenio.
Descargar