Intro Analisis diversidad_2016.pdf

Anuncio
Marcadores moleculares
y su aplicación al
análisis de la diversidad
Niveles de análisis
INTER-ESPECÍFICO
Estudios filogenéticos
INTRA-ESPECÍFICO
Estudios poblacionales y
filogeográficos
Relaciones entre individuos o
entidades individuales
Estudios filogenéticos
Selección de genes
Nivel taxonómico de interés (tasa de sustitución)
Número de genes
Genes nucleares vs. organelas
¿Genomas completos?
Estudios filogenéticos
Selección de genes
ADN ribosomal
Eucariotas
18S ITS
25
S
ITS1 5.8S ITS2
18S
IGS
NTS ETS
Procariotas
Estudios filogenéticos
Selección de genes
ADN organelas
rbcL
trnF
trnL
atpβ
120matK
200 Kb
Estudios filogenéticos
Selección de marcadores
¿Cuántos genes? ¿Nucleares u organelas? ¿Genomas completos?
Mitogenome Phylogenetics: The Impact of Using
Single Regions and Partitioning Schemes on
Topology, Substitution Rate and Divergence
Time Estimation
Walker et al. 2012. MPE.
Duchene et al. 2011. PlosOne
MPE. 2011. ca. 3100 genes, 12 genomas, 10 especies
Estudios filogenéticos
Análisis de datos de secuencia
Alineamiento
Sp1.
Sp2.
Sp3.
Sp4.
Sp5.
Sp6.
Sp7.
Sp8.
Sp9.
Sp10.
Sp11.
Sp12.
Sp13.
Sp14.
Sp15.
Sp16.
Sp17.
Métodos de Reconstrucción
Métodos de Distancia
(Modelo de Evolución Molecular)
Métodos cladísticos
(Máxima Parsimonia)
Métodos Probabilisticos
(Máxima Verosimilitud – Método Bayesiano)
Estudios filogenéticos
Métodos probabilísticos requieren Modelos de Evolución Molecular
Además…
Heterogeneidad entre sitios
Proporción de sitios invariantes
ModelTest
(Posada y Crandall, 1998)
Ej: HKY+I+G
¿?
Estudios filogenéticos
Selección de Genes/ Secuenciación
Alineamiento
Selección de Método de Reconstrucción / Modelo Evolución
Búsqueda del árbol (árboles) óptimo
Interpretación del árbol
Figure 2. 16S rRNA Maximum Likelihood tree.
Beta-proteobacteria
Gamma-proteobacteria
Alpha-proteobacteria
Cyanobacteria
Lang JM, Darling AE, Eisen JA (2013) Phylogeny of Bacterial and Archaeal Genomes Using Conserved Genes: Supertrees and
Supermatrices. PLoS ONE 8(4): e62510. doi:10.1371/journal.pone.0062510
http://www.plosone.org/article/info:doi/10.1371/journal.pone.0062510
Niveles de análisis
INTER-ESPECÍFICO
Estudios filogenéticos
INTRA-ESPECÍFICO
Estudios poblacionales y
filogeográficos
Relaciones entre individuos o
entidades individuales
Variabilidad Intra-específica
¿Existe variabilidad genética intra-específica?
¿Cómo se distribuye? ¿Cómo se relacionan las
poblaciones/individuos?
•
Identificación del marcador apropiado
Variabilidad Intra-específica
• Diseño experimental
Número de poblaciones
Número de individuos por población
Tipo de marcadores (Dominantes / Codominantes)
Número de marcadores
Variabilidad Intra-específica
Tipo de organismo!
Fitopatógenos
Bacterias
Nematodes
Hongos
Virus
Phytoplasmas
Plantas parásitas
Protozoos
Análisis de datos
Medición de variabilidad
Establecimiento de relaciones
Distribución de la variabilidad
Análisis de datos
INTRA-ESPECÍFICO
I) Análisis poblacional
II) Relaciones entre individuos o
entidades individuales
Análisis de datos
Medición de variabilidad
Establecimiento de relaciones
Distribución de la variabilidad
Análisis poblacionales
Marcadores dominantes
Kokotovic B et al. J. Clin. Microbiol.
1999;37:3300-3307
Matrices de
datos
Locus
1111111111222222222
1234567890123456789012345678
Ind.1
Ind.2
Ind.3
Ind.4
Ind.5
Ind.6
Ind.7
Ind.8
Ind.9
Ind.10
Ind.11
Ind.12
1011011111111011100111111111
1011110011111111100111111111
1011111111111111100111111111
1011101111111111100111111111
1011111111111111100111111111
1011111110111111100111111111
1011111111111111100111111111
1011111111111111100111111111
1011111111111111100111111111
1011110111111111100111111111
1011110011111101100111111111
1011111001111101100111111111
Análisis poblacionales
Marcadores codominantes
Matriz de datos - Tabla de genotipos
Ind. 1
Ind. 2
Ind. 3
Ind. 4
Ind. 5
Ind. 6
Ind. 7
0101
0101
0101
0101
0101
0101
0101
0104
0101
0303
0101
0101
0101
0101
0303
0303
0404
0303
0303
0303
0203
0403
0000
0101
0303
0404
0000
0304
0104
0101
0101
0101
0101
0101
0101
0104
0101
0303
0104
0404
0104
0104
0303
0303
0707
0303
0303
0303
0303
0708
0708
0608
0808
0808
0808
0808
0606
0608
0707
0000
0708
0808
0608
0307
0000
0000
0000
0607
0707
0703
Análisis poblacionales
Marcadores codominantes
Cálculo de frecuencias alélicas poblacionales
F(A1)= F(A1A1) + ½ F(A1Ax)
Ind. 1
Ind. 2
Ind. 3
Ind. 4
Ind. 5
Ind. 6
Ind. 7
0101
0101
0101
0101
0101
0101
0101
0104
0101
0303
0101
0101
0101
0101
0303
0303
0404
0303
0303
0303
0203
0403
0000
0101
0303
0404
0000
0304
0104
0101
0101
0101
0101
0101
0101
F(A1)= 1/7 + ½ (4/7) = 0.43
F(A1)= (2 + 4)/14 = 0.43
0104
0101
0303
0104
0404
0104
0104
0303
0303
0707
0303
0303
0303
0303
0708
0708
0608
0808
0808
0808
0808
Análisis poblacionales
Índices de variabilidad
A = número promedio de alelos por locus
Ap = número de alelos privados o exclusivos
R= riqueza alélica (El Mousadik y Petit, 1996)
Análisis poblacionales
Ho = heterocigosis observada promedio
Ho/n = (nro. de heterocigotas / nro. de individuos)/ nro. total de loci
He = heterocigosis esperada promedio
Conozco p y q para cada locus y población…
Puedo calcular heterocigosis esperada He= 2pq (Hardy-Weinberg)
L1
L2
L3
L4
p
0.3
0.8
0.9
1
Promedio He
Si hay más de dos alelos
Pobl. X
q
He
0.7
0.42
0.2
0.32
0.1
0.18
0
0
Heterocigosis esperada
0.23 promedio
He = (1/n).  (1 -  ai 2)
Análisis poblacionales
Datos de secuencia
Índices de variabilidad
N
2
5
4
1
Número de sitios segregantes (S) = número de sitios polimórficos
Proporción de sitios polimórficos (p) = número de sitios polimórficos /
total de sitios.
Diversidad haplotípica (h) =
Análisis poblacionales
Estimas de variabilidad
Diversidad nucleotídica (Pi ) = número promedio de sustituciones
nucleotídicas por sitio entre pares de secuencias (Nei, 1987)
Análisis poblacionales
¿Cómo interpreto los valores de los
índices?
Ej: Comparación de He utilizando distintos marcadores
Felis silvestris silvestris
Isoenzimas 0.029
Microsatélites 0.79
Chitala chitala
Isoenzimas 0.35
Microsatélites 0.50
Hordeum spontaneum
AFLP 0.16
Microsatélites 0.47
Araucaria angustifolia
AFLP 0.30
Microsatélites 0.72
Salmo trutta
AFLP 0.19
Microsatélites 0.66
Tomado de Freeman J. 2011.Molecular Ecology.
Análisis de datos
Medición de variabilidad
Establecimiento de relaciones
Distribución de la variabilidad
Análisis poblacionales
Relaciones entre poblaciones
Locus
1111111111222222222
1 2 34567890123456789012345678
Frec. alélicas Pobl. 1 p p ..................................................p
11 21
281
Locus
Pobl. 2 p12 p22 ...................................................p282
1111111111222222222
Pobl. 3 p13 p23 ...................................................p283
1234567890123456789012345678
Ind.1 1011011111111011100111111111
Dist. Genéticas (Ej. Nei)
Ind.2 1011110011111111100111111111
Pobl. 1
Ind.3 1011111111111111100111111111
Ind.4 1011101111111111100111111111
Pobl. 1 Pobl. 2 Pobl. 3
Ind.5 1011111111111111100111111111
Ind.6 1011111110111111100111111111
Pobl. 1 0
D12
D13
Pobl. 2
Ind.7 1011111111111111100111111111
Pobl. 2 D21
0
D23
Ind.8 1011111111111111100111111111
Ind.9 1011111111111111100111111111
Pobl. 3 D31
D32
0
Ind.10 1011110111111111100111111111
Pobl. 3
Análisis de Agrupamiento
Ind.11 1011110011111101100111111111
Ind.12 1011111001111101100111111111
Ejemplo marcadores dominantes
Pobl. 1
Pobl. 3
Pobl. 2
Análisis poblacionales
Análisis
de
datos
Relaciones entre poblaciones
Estimación de la identidad/distancia genética
Identidad y Distancia de Nei (1972)
Pobl. A Pobl. B
Alelo 1
Alelo 2
Ik 
0.4
0.6
Iab
0.3
0.7
a b
 a b
i
i
2
i
i
2
=
0.4 x0.3  0.6  0.7
0.4
2

 0.6 0.7  0.3
2
Ia
2
2

Ib
Pero esto es sólo para 1 locus …
=
0.983
Análisis poblacionales
Análisis
de
datos
Relaciones entre poblaciones
Estimación de la identidad/distancia genética
Identidad y Distancia de Nei (1972)
Cuando se necesita estudiar más de un locus
I K  I ab / I a .I b
Este valor puede variar entre 0 y 1
La distancia genética (D) es igual a:
D= -ln IK
Puede variar entre 0 e infinito
Análisis poblacionales
Relaciones entre poblaciones
Otras medidas de distancia genética
Reynolds et al. (1983)
Rogers (1972)
Distancia de la cuerda (Cavalli-Sforza y Edwards, 1967)
Análisis de Agrupamiento
UPGMA (Unweighted pair group method
using arithmetic averages)
Pobl. 1
Neighbour-joining (Saitou & Nei, 1987)
Pobl. 3
Pobl. 2
Análisis entre entidades individuales
Análisis a partir de coeficientes de asociación
entre terminales
Locus
1111111111222222222
1234567890123456789012345678
Ind.1
Ind.2
Ind.3
Ind.4
Ind.5
Ind.6
Ind.7
Ind.8
Ind.9
Ind.10
Ind.11
Ind.12
1011011111111011100111111111
1011110011111111100111111111
1011111111111111100111111111
1011101111111111100111111111
1011111111111111100111111111
1011111110111111100111111111
1011111111111111100111111111
1011111111111111100111111111
1011111111111111100111111111
1011110111111111100111111111
1011110011111101100111111111
1011111001111101100111111111
Análisis entre entidades individuales
Marcadores dominantes
Análisis de similitud entre individuos
Coeficientes de asociación para datos doble estado
SM (Simple Matching): (a+d)/(a+b+c+d).
DICE: 2a/(2a+b+c)
JACCARD: a /(a+b+c)
OTU 2
OTU1
1
0
1
0
a
c
b
d
Análisis entre entidades individuales
Marcadores dominantes
E.j.:
Coeficiente de Jaccard = a/a+b+c =
total de bandas compartidas
total de bandas presentes en al menos una
de las OTUs comparadas
Ind.1
Ind.2
1011011111111011100111111111
1011110011111111100111111111
a+b+c+d= 28
J1,2= 21/25=0.84
Obtengo una matriz
cuadrada de NxN
terminales
En el ejemplo: 12x12
1
2
3
4
12
1 1
J1,2 J1,3 J1,4..….J1,12
2 J2,1 1
J2,3 J2,4……J2,12
3 J3,1 J3,2
1
J3,4……J3,12
4 J4,1 J4,2 J4,3 1 ……J4,12
…………………………………..
…………………………………..
12 J12,1 J12,2 J12,3 J12,4
1
Análisis entre entidades individuales
Marcadores codominantes
Tabla de genotipos
Ind. 1
Ind. 2
Ind. 3
Ind. 4
Ind. 5
Ind. 6
Ind. 7
0101 0104 0303 0403 0104 0104 0303 0708 0606 0307 0404 0000
0101 0101 0303 0000 0101 0101 0303 0708 0608 0000 0404 0304
0101 0303 0404 0101 0101 0303 0707 0608 0707 0000 0404 0404
0101 0101 0303 0303 0101 0104 0303 0808 0000 0000 0000 0000
0101 0101 0303 0404 0101 0404 0303 0808 0708 0607 0404 0505
0101 0101 0303 0000 0101 0104 0303 0808 0808 0707 0404 0304
0101 0101 0203 0304 0101 0104 0303 0808 0608 0703 0000 0305
Coeficientes de similitud entre individuos
Análisis entre entidades individuales
Marcadores codominantes
Distancia de alelos compartidos = -ln (nro. alelos compartidos / total de alelos)
Ind. 1
Ind. 2
0101 0104 0303 0403 0104 0104 0303 0708 0606 0307 0404 0304
0101 0101 0303 0506 0101 0101 0303 0708 0608 0103 0404 0304
Loci = 12
Alelos totales =24
Alelos compartidos = 2+ 1+2+0+1+1+2+2+1+1+2+2 = 17
D Ind1-Ind2 = -ln 17/24
1
2
3
4
7
1 0
D1,2 D1,3 D1,4..…D1,7
2 D2,1 0
D2,3 D2,4…..D2,7
3 D3,1 D3,2
0
D3,4….D3,7
4 D4,1 D4,2 D4,3 0 ….D4,7
…………………………………..
…………………………………..
7 D7,1 D7,2 D7,3 D74
0
Análisis entre entidades individuales
Coeficientes de asociación (similitud) entre terminales
1
Análisis de
Agrupamiento
(cluster)
2
3
4
12
1 1
J1,2 J1,3 J1,4..….J1,12
2 J2,1 1
J2,3 J2,4……J2,12
3 J3,1 J3,2
1
J3,4……J3,12
4 J4,1 J4,2 J4,3 1 ……J4,12
…………………………………..
…………………………………..
12 J12,1 J12,2 J12,3 J12,4
1
Análisis de
Ordenación
(Coordenadas Principales)
1
3
8
10
11
12
2
7
4
5
6
9
Análisis de agrupamiento
(Cluster analysis)
¿Cómo paso de la matriz al árbol?
OTUA
OTUB
OTUC
A
OTUA
1
OTUB
0.7
1
OTUC
0.4
0.3
B
1
1 0.7
A
A
A
B
B
B
C
C
1 0.7 0.4
Ligamiento Simple
Similitud máxima
0
Unweighted Pair Group
Method using
Arithmetic Averages
(UPGMA)
C
1 0.7 0.4 0.3
Ligamiento Completo
Similitud mínima
0
1 0.7 0.35
Ligamiento Promedio
Similitud Promedio
0
Análisis de agrupamiento
(Cluster analysis)
Medidas de distorsión del fenograma
Matriz cofenética
1) A partir del dendrograma se calcula la matriz de derivada y
se denomina cofenética.
2) La matriz cofenética se compara con la original utilizando
un coeficiente de correlación
coeficiente de correlación “producto
momento de Pearson”
“cofenético”
R12=Σ y1y2/√ Σy12 Σy22
Análisis de agrupamiento
(Cluster analysis)
Medidas de distorsión del fenograma
Coeficiente de correlación
“producto momento de Pearson”
Nivel Interpretación subjetiva
0.9 ≤ r Muy buen ajuste.
0.8 ≤ r < 0.9 Buen ajuste.
0.7 ≤ r < 0.8 Pobre “
.
r < 0.7 Muy pobre ajuste.
Análisis de agrupamiento
(Cluster analysis)
Medidas de distorsión del fenograma
Test de Mantel de correspondencia de
matrices.
n
Z=Σ xij yij, (sin las diagonales)
i<j
Significación
Método permutacional
Análisis de agrupamiento
(Cluster analysis)
A
zc =0,55*0,47+0,38*0,47+0,5*0,29+,,,+= =1,5641
Z1=0,55*0,29+0,38*0,63+0,5*0,29+...+= 1,4647
Z2
Z3.
Permutaciones
.
z1000
B
C
D
A
1
B
0.55
1
C
0.38
0.63
1
D
0.5
0.44
0.43
1
E
0.22
0.18
0.11
0.43
A
B
C
Similitud
D
1
B
0.47
1
C
0.47
0.63
1
D
0.29
0.29
0.29
1
E
0.29
0.29
0.29
0.43
B
1
E
A
A
E
Cofenetica
C
D
1
E
A
1
B
0.29
1
C
0.63
0.47
1
D
0.29
0.29
0.29
1
E
0.47
0.29
0.29
0.43
Permutada
1
Ciprés de la cordillera (Austrocedrus chilensis)
Primera aparición en 1948
¿se trata de un patógeno introducido?
48 aislamientos de todo el rango de
ocurrencia
AFLP
Variabilidad
Análisis de Relaciones
Análisis de Ordenación
Análisis de datos
Medición de variabilidad
Establecimiento de relaciones
Distribución de la variabilidad
Análisis poblacionales
Distribución de la variabilidad
Indices de Fijacion de Wright (1943, 1951, 1969)
FIT, FST, FIS
Análisis Molecular de la varianza (Excoffier et al. 1992)
Métodos Bayesianos – STRUCTURE (Pritchard et al. 2000)
(OJO! Asume poblaciones de organismos diploides en equilibrio de H-W)
Análisis discriminante de componentes principales
DAPC (Jomabart et al. 2010)
Análisis poblacionales
Distribución de la variabilidad
Análisis Molecular de la varianza (Excoffier et al. 1992)
AMOVA
Es un método para detectar diferenciación genética utilizando
marcadores moleculares
Requiere
- Una matriz de distancias (euclideas) entre individuos
- Un esquema de categorización (ej.: individuos dentro de
poblaciones, poblaciones dentro de regiones).
Estima los componentes de varianza correspondientes a cada nivel
de la categorización
Estos componentes generalmente se informan como porcentaje de la
varianza total o a través de los índices Phi.
Análisis poblacionales
Distribución de la variabilidad
Los componentes de varianza se significan a través de permutaciones
Existen distintos programas para relaizar el análisis. Los mas populares
son Arlequin (Excoffier 1997-2008) y GenAlEx (Peakall and
Smouse 2006, 2012)
Un ejemplo en R
http://grunwaldlab.github.io/Population_Genetics_in_R/
AMOVA.html
Phytopathology 2015
Phytophtora ramorum
513 aislamientos, 7 regiones, 2001-2014, 11 SSR
¡Gracias!
Descargar