POPULATION GENOMICS Antonio Barbadilla Bioinformatics of Genetic Diversity Research Genomics, Bioinformatics and Evolution group Departament de Genètica i Microbiologia Universitat Autònoma de Barcelona •El paradigma poblacional. •Medida de la variación genética y genómica •Desequilibrio de ligamiento •Visualización de la variación a lo largo del genoma •Teoría neutralista •Selección en el nivel molecular •Test de selección 2 1 The golden age of the study of genetic variation La diversidad genética intraespecífica Genetic variation is the cornerstone of biological evolution R. C. Lewontin 2 Evolución Origen y sustitución de variantes genéticas AGAGTTCTG C TC G A AG GG TGTTCTGCGCG 3 Naturaleza variación genética Evolución: origen y substitución de variantes genéticas Polimorfismo vs mutación Mutación = Individuo Substitución = Población La genética poblaciones La problemática de la genética de poblaciones es la descripción y explicación de la variación genética dentro y entre poblaciones Theodosious Dobzhansky 4 La medida de la variación genética 1 2 3 9 Population Genomics Adh Drosophila melanogaster one-dimensional 10 5 SNPs Distribución heterocigosidad Cromosoma 6 humano (2001 Nature 409: 928-941) HLA Tipos de polimorfismos del DNA: secuenciación 6 Medidas de la variabilidad nucleotídica • Si obtenemos una muestra de n secuencias de una región dada del genoma de una especie, podemos medir la variación nucleotídica mediante dos estimadores: • Proporción de sitios segregantes: S = número de sitios segregantes/número total de sitios. • Diversidad nucleotídica o heterocigosis esperada a nivel nucleotídico: p = número promedio de diferencias por sitio entre secuencias tomadas a pares. Variabilidad nucleotídica en el gen Rhodopsin 3 de Drosophila simulans 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 T T C C C 6 C C T T T 6 T C C C C 4 A T C C C 7 C A C C C 4 C C C C T 4 T C C C C 4 C T T T T 4 C C C T T 6 T C T C T 6 C T T T T 4 G G T G G 4 G G G A G 4 T T C C C 6 T T T T C 4 A T A T A 6 Muestra = 5 secuencias. Tamaño = 500 nucleótidos. Proporción de sitios segregantes: S = 16/500 = 0,0320 Diversidad nucleotídica: p = 79/(500 x 10) = 0,0158 7 8 Population Genomics Adh Drosophila melanogaster one-dimensional multi-dimensional 17 SNPs Estructura multidimensional de la variabilidad genética en el genoma humano AGAGTTCTGCTCG AGAGTTCTGCTCG AGAGTTCTGCTCG AGAGTTCTGCTCG AGAGTTCTGCTCG AGGGTTC AT G C G C G AG G GTTAT G C G C G AG G GTTAT G C G C G AG G GTTAT G C G C G AG G GTTAT G C G C G AG G GTTAT G C G C G 9 SNPs Desequilibrio de ligamiento (D’ Lewontin) B1 B2 Total A1 p11 = p1q1 + D p12 = p1q2 - D p1 A2 p21 = p2q1 - D p22 = p2q2 + D p2 Total q1 q2 1 DAB = pAB - pApB D’ = D / Dmax rAB = D2/ [pA(1-pA) pB(1-pB)] SNPs Desequilibrio de ligamiento B1 B2 Total A1 9 1 10 A2 2 4 6 Total 11 5 ^p1 = n1. /2n = 10 / 16 = 0,625 q^ = n.1 /2n = 11 / 16 = 0,6875 16 1 D = 0,5625 – 0,625 x 0,6875 = 0,1328 10 SNPs Estructura multidimensional de la variabilidad genética en el genoma humano Recombinación y Desequilibrio de ligamiento DAB (t + 1) = (1 – c) DAB (t ) SNPs Desequilibrio de ligamiento Bloques de ligamiento o Tag SNPs Distribución del DL a lo largo del gen de la lipasa lipotroteína humana (LPL). 66 SNPs en apr. 10 kb de 142 cromosomas 11 Population Genomics Adh Drosophila melanogaster one-dimensional multi-dimensional Population genetics studies have been based on fragmentary and non-random samples of the genome, providing a partial view, often biased, of the population genetic processes 23 Data visualization: The Population Drosophila Browser (PopDrowser) 12 La genética poblaciones: la explicación Fundadores Genética de Poblaciones Ronald Fisher J. B. S. Haldane S. Wright Teoría Neutralista Evolución Molecular Motoo Kimura Ley del equilibrio de Hardy-Weinberg: Dada la variación genética existente en una población mendeliana en una generación t, ¿qué pasará con esta variación en las subsiguientes generaciones bajo ciertos supuestos ? Considera como se relacionan las frecuencias alélicas y genotípicas en una población mendeliana bajo una serie de supuestos ideales •Generaciones discretas y no solapantes •Apareamiento aleatorio •Tamaño de población infinito •No mutación, no migración entre poblaciones •No diferencias en eficacia biológica (selectivas) entre los distintos genotipos • • La distribución de frecuencias genotípicas y alélicas permanecen invariables en el tiempo. La constancia o equilibro de las frecuencias se debe al carácter conservativo y regular de la transmisión mendeliana. 13 La ley de Hardy-Weinberg parte de una variación dada. No explica por qué existe La teoría neutralista de la Teoría neutralista deesa la variación. evolución molecular evolución molecular de Kimura es una hipótesis mínima para dar cuenta de la variación existente en las poblaciones. Dos fuerzas determinan la evolución en el nivel molecular: La deriva genética aleatoria (determinada por 2N, el censo o tamaño efectivo de la población) La tasa de generación de mutaciones neutras, Teoría neutralista de la evolución molecular •Tasa de substitución k de mutaciones neutras k = 2N 1/(2N) = •Tiempo esperado hasta la fijación de una nueva mutación es 4N generaciones 14 Dinámica de sustituciones de mutaciones neutras t 4N gen. 1 1 Frecuencia Alélica 0 Tiempo 1/ Reloj molecular Reloj molecular Tiempo 1 2 3 4 5 Taxón 15 Teoría neutralista de la evolución molecular El polimorfismo es un estado transitorio en el proceso de fijación de alelos neutros Motoo Kimura Dinámica de sustituciones de mutaciones II: Mutaciones selectivamente ventajosas II: Mutaciones selectivamente ventajosas 2 t ln(2 N ) gen. s 1 1 Frecuencia Alélica 0 Tiempo 4Nsμ 16 Teoría neutralista de la evolución molecular •El polimorfismo genético es transitorio (El polimorfismo es un estado transitorio en el proceso de fijación de alelos neutros) •Heterocigosidad en el equilibrio H = /(1+ ) = 4N •Divergencia y polimorfismo se encuentran acoplados •La selección es principalmente purificadora y muy ocasionalmente direccional positiva 34 Teoría de la coalescencia: la genealogía de los genes Watterson, G. A. 1975; Kingman, J. F. C. 1980; Tajima, F. 1989; Hudson, R. R. 1990. Supuesto Básico: Todos los alelos de una población provienen de un ancestro común Supuesto Básico: Todos los alelos de una muestra provienen de un ancestro común Pasado T(2) Tiempo T(3) T(4) T(5) Presente 17 Test neutralismo Test de Tajima (1989) Si la teoría neutralista aplica a una serie de secuencias, entonces p = d=π-Θ Estadístico de Desviación, D D sigue una distribución con media 0 y var. 1 D 0 no neutralismo D < 0 Selec. Purificadora D > 0 Selec. equilibradora Test de McDonald y Kreitman McDonald, J. H. Y M. Kreitman. 1991. Adaptative protein evolution at the Adh locus in Drosophila. Nature 351: 652-654. ¿Es la evolución adaptativa responsable de la fijación de diferencias entre las especies en los polimorfismos no sinónimos? •Hipótesis neutralista: En las mutaciones neutras hay correlación entre divergencia y polimorfismo •Hipótesis adaptativa: las fijaciones adaptativas pueden dar lugar a un desacoplamiento entre divergencia y polimorfismo 18 Test de McDonald y Kreitman (MKT) McDonald, J. H. Y M. Kreitman. 1991. Adaptative protein evolution at the Adh locus in Drosophila. Nature 351: 652-654. MKT compares the amount of variation within a species to the divergence between species at two types of sites, one of which is putatively neutral and used as the reference to detect selection at the other type of site. Example: sites synonymous (putatively neutral) and nonsynonymous sites in a coding region. Test de McDonald y Kreitman •Hipótesis nula: la proporción de mutaciones sinónimas y no sinónimas es la misma tanto para las variantes fijadas como para las polimórficas Di /D0 > Pi /P0 Di /D0 < Pi /P0 19 Test de McDonald y Kreitman •Hipótesis nula: la proporción de mutaciones sinónimas y no sinónimas es la misma tanto para las variantes fijadas como para las polimórficas •Test de G o 2: las mutaciones se clasifican bien en (1) fijadas, o polimórficas; o bien (2) sinónimas o no sinónimas) El gen Adh de Drosophila Kreitman, M. 1983. melanogaster Nucleotide polymorphism at the alcohol dehydrogenase locus of Drosophila melanogaster. Nature 304: 412-417. Exón 1 Exón 2 Exón 3 Exón 4 3’ 5’ Estructura del gen Adh (256 codones) •13 polimorfismos sinónimos (Se espera 1/4 mutaciones en región codificante sean sinónimas) •1 polimorfismo no sinónimo 20 Test de McDonald y Kreitman Polimorfismo y divergencia en locus Adh de especies próximas Drosophila melanogaster, simulans y yakuba Fijada Polimórfica No sinónima 7 (3,2) 2 (5,8) Sinónima 17 (20,8) 42 (38,2) 2 G = 7,43 ó X = 8,1 Efecto de la recombinación local sobre la variación genética Begun, D. J. Y C. F. Aquadro. 1992. Levels of naturally ocurring DNA polymorphism correlate with recombination rates in D. melanogaster. Nature 356: 519-520. Diversidad nucleotídica 20 genes de Drosophila melanogaster Coeficiente de intercambio 21 Double cost of sex (Maynard-Smith 1978) Recombination and HillRobertson effect (1966) Advantage of sex (Crow & Kimura 1965) Teoría de la coalescencia: la genealogía de los genes Watterson, G. A. 1975; Kingman, J. F. C. 1980; Tajima, F. 1989; Hudson, R. R. 1990. Supuesto Básico: Todos los alelos de una población provienen de un ancestro común Supuesto Básico: Todos los alelos de una muestra provienen de un ancestro común Pasado T(2) Tiempo T(3) T(4) T(5) Presente 22 http://bioinformatica.uab.es/divulgacio/animaciones/coalescencia.swf Genealogía de alelos Direcciónes útiles •SNPs, CNVs, and SNP chip (basic definitions, nucleotide diversity measures and linkage disequilibrium) •PDA (Pipeline diversity analysis) (Servicio Web para la estimación de la variación nucleotídica para cualquier taxón y gene) •DnaSP software (software más utilizado para la estimación de la variación nucleotídica) •PopDrowser (navegador de genómica de poblaciones) 23