LECCIÓN 2. Análisis Multivariado en el tratamiento de resultados de

Anuncio
LECCIÓN 2. Análisis Multivariado en el
tratamiento de resultados de caracterización
morfológica
Lección 2
1
Métodos de análisis multivariado.
• Definición de métodos multivariados: Son métodos estadísticos que
analizan simultáneamente más de dos variables de un individuo
• Definición de métodos multivariados, particularizado a la
caracterización de RR.FF.: Conjunto de métodos de análisis de datos
que tratan un gran número de mediciones sobre cada accesión del
germoplasma.
Lección 2
2
Métodos de análisis multivariado (2).
Objetivos de un análisis multivariado aplicado a la
caracterización de material vegetal:
– Cuantificar las relaciones entre UBC.
– Representar geométricamente las UBC.
– Clasificarlas respecto a un conjunto de variables.
Lección 2
3
Métodos de análisis multivariado (3).
Clasificación de los métodos de análisis multivariado
– Métodos de ordenación.
Permiten:
• Explicar la mayor parte de la variabilidad total existente en la muestra, en un
número reducido de dimensiones.
• Representar el material en estudio en ese número reducido de dimensiones.
– Análisis de agrupamiento, clasificación o cluster. Permiten la búsqueda de grupos
similares lo más homogéneos posible para clasificar los elementos en estudio.
Lección 2
4
Métodos de análisis multivariado (4).
Métodos de ordenación
Análisis de Componentes Principales
(ACP)
Análisis discriminante (AD)
Análisis de agrupamiento
•
•
•
•
Técnicas exclusivas vs. no exclusivas.
Técnicas jerárquicas vs. no jerárquicas.
Técnicas aglomerativas vs. divisivas
Técnicas secuenciales vs. simultáneas
Análisis discriminante canónico (ADC)
Análisis de coordenadas principales
(ACOORP)
Análisis factorial de correspondencias
(AFC)
Lección 2
5
Métodos de análisis multivariado (5).
Otra clasificación de los métodos de análisis multivariado
• Técnicas dirigidas por las variables: Técnicas que se enfocan primordialmente
en las relaciones que podrían existir entre las variables respuesta que se están
midiendo
• Técnicas dirigidas por los individuos:Se interesan principalmente en las
relaciones que podrían existir entre las unidades experimentales (UBC) que se
están midiendo, o en ambos.
Técnica 
ACP
Técnica dirigida por ...
variables
Lección 2
AD
individuos
ADC
individuos
Cluster
variables
6
Métodos de análisis multivariado (6).
Otra clasificación (2) de los métodos de análisis multivariado
• De dependencia: Una variable o conjunto de variables es identificado como
dependiente de otro conjunto conocidas como independiente o predictor.
• De interdependencia: Ninguna variable o grupo de variables es definido como
independiente o dependiente y, el procedimiento implica en análisis simultaneo
de todo el conjunto de variables.
Técnica 
Tipo
Lección 2
ACP
interdependencia
AD
ADC
dependencia
dependencia
Cluster
interdependencia
7
Métodos de análisis multivariado (7).
Tipos de problemas que resuelven cada uno de los métodos de análisis
multivariado más utilizados en caracterización de material vegetal .
Tipo de problema
ACP
AD
ADC
Cluster
Exploración relaciones entre variables
si
no
no
no
Cribado de datos
si
no
no
posible
Creación de nuevas variables
si
no
si
no
Predicción de ser miembro de un grupo
no
si
si
si
posible
no
no
no
Verificación de agrupamientos
si
no
no
si
Reducción de la dimensionalidad
si
no
si
no
Comparación de grupos de variables
Lección 2
8
Métodos de análisis multivariado (8).
Tipos de variables a las que se aplica cada método de análisis .
Método
Tipo de variables
ACP
Cuantitativas
AD
Variable dependiente categórica e independientes
cuantitativas
ADC
ACOORP
Cualitativas
Cluster
Cualitativas o cuantitativas
Lección 2
9
Métodos de análisis multivariado (9).
RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS
UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL.
•Análisis de componente principales (ACP).
 Herramienta para cribar datos de variables múltiples.
 Permite reducir la dimensionalidad.
 Se pueden identificar, de las variables originales, cuales son las que más influyen en
la separación de las UBC.
 A partir de un conjunto de variables correlacionadas se crea un nuevo conjunto de
variables no correlacionadas (CP)
 Sobre los CP se pueden proyectar las UBC y el operador puede definir
agrupamientos
•Análisis de agrupamientos, clasificación o cluster.
– Se utiliza para clasificar las UBC en subgrupos definidos de manera única.
Lección 2
10
Métodos de análisis multivariado (10).
RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS
UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL (2)
•Análisis discriminante (AD)
– Se utiliza para clasificar UBC en dos o más grupos definidos de manera única
(variable dependiente categórica o no métrica) a partir de variables independientes
métricas o cuantitativas.
– El análisis discriminante canónico (ADC) crea nuevas variables que contienen toda
la información útil para la discriminación de la que se dispone en las variables
originales.
– Las nuevas variables conducen a reglas más sencillas para clasificar las UBC en
los diferentes grupos.
– Se diferencia del análisis de agrupamientos en que en el AD desde un principio se
sabe cuántos grupos existen y se tienen datos que provienen de cada uno de
estos grupos, y en el cluster se usan técnicas que que producen clasificaciones a
partir de datos que inicialmente no están clasificados.
Lección 2
11
Concepto de taxonomía numérica.
 Cuando el análisis multivariado del estado de los caracteres en individuos, se
utiliza para averiguar la afinidad o similitud entre unidades taxonómicas y para
agrupar estas unidades en taxones, se habla de “Taxonomía numérica”
(Sneath y Sokal, 1973),
... y a las Unidades Básicas de Caracterización se les denomina Unidades
Taxonómicas Operativas (UTO)
 Pero en muchos análisis multivariados el objetivo no es delimitar taxones ni
analizar la afinidad o similitud entre unidades taxonómicas para plantear una
revisión de la sistemática de un taxon (género o especie)
... sino analizar (cuantificar y visualizar) la similitud entre accesiones de
germoplasma
 Por eso no conviene generalizar la denominación de taxonomía numérica.
Lección 2
12
Pasos elementales en un estudio multivariante de
datos de caracterización vegetal: ACP cluster y ADC
U.B.C.
Caracteres o descriptores
Toma del valor de cada carácter en cada UBC
Construcción de la Matriz Básica de Datos
Estimación del parecido: Similitud
Construcción de la matriz de similitud que corresponda
Aplicación de la técnica correspondiente
Lección 2
13
Construcción de la MBD.
•FILAS: U.B.C. (recomendado) ó Caracteres
•COLUMNAS: Caracteres (recomendado) o U.B.C.
Lección 2
14
Reducción de valores a una sola escala.
Para los caracteres multi-estado cuantitativos continuos donde coexisten
diferentes escalas de medida en relación a la misma U.B.C.
• Procedimiento más utilizado: Estandarización.
X ij  a
X ij ' 
b
Xij es el valor del carácter i para la U.B.C. j
a: Puede tomar diferentes valores.
b: Puede tomar diferentes valores.
Si a= media del carácter i; b= desviación estándar del carácter i se
denominan puntuaciones Z (distribución normal estándar)
• Realizar transformaciones logarítmicas
Log10 Xij; Log10 (Xij + 1)
Lección 2
15
Estimación de la Similitud/Disimilitud.
• Coeficientes de similitud/disimilitud.
– Permiten conocer la similitud o su complementario (disimilitud) de
cada par posible de U.B.C. o caracteres (según corresponda) en una
matriz básica de datos.
• Clasificación de los coeficientes de similitud/disimilitud.
– Coeficientes de distancia.
– Coeficientes de correlación.
– Coeficientes de asociación.
Lección 2
16
Coeficientes de distancia.
• M.B.D. Multiestado; Mixta.
• CONCEPTO (explicado para el caso de que se calculen las distancias
fenéticas entre U.B.C.):
– Se basa en un espacio fenético de n dimensiones (=caracteres).
– Las U.B.C. se sitúan en ese espacio
fenético en función del valor que tenga en
cada uno de los Caracteres.
– Las diferencias entre las U.B.C. según los
coeficientes de distancia, son
proporcionales a la distancia a la que se
encuentran en el espacio.
UBC-
UBCUBC-
UBC-
Lección 2
17
Coeficientes de distancia (2).
• TIPOS DE COEFICIENTES DE DISTANCIA.
NOMBRE
Taxonomic distance
Chi – square
Euclidean distance
Average manhattan distance
Mean character difference
Gower
FORMULA
MAXIMA
SIMILITUD
MINIMA
SIMILITUD
0

1
Eij  k xki  xkj 
n
2

d ij 
Eij 
M ij 
k
1
xk
 xki xkj 
  
x

 i xj 
 x
k
2
Multi – estado
Mixtos
ki  xkj 
2
1
 xki  xkj
n k
1
Eij  k xki  xkj 
n
2
sij 
w s
w
ijk ijk
k
k
Lección 2
TIPO DE DATOS
SOBRE LOS QUE
SE APLICA
ijk
Específicamente
utilizado para mixtos
18
Coeficientes de distancia (3).
• TIPOS DE COEFICIENTES DE DISTANCIA (2).
– Caso particular: Coeficiente de Crovello, que tiene en cuenta la
variación dentro de cada U.B.C.
n
CD  
k 1
X
ki


1
2 2
 X kj  S ki  S kj 
2
Xki: Media del carácter k para la O.T.U. i Ski: Desviación estándar del carácter k para la
O.T.U. i.
Xkj: Media del carácter k para la O.T.U. j Skj: Desviación estándar del carácter k para la
O.T.U. j.
Lección 2
19
Coeficientes de correlación.
• M.B.D. Multiestado cuantitativos; Mixtos ( con abundancia de multiestado
cuantitativos)
• CONCEPTO (explicado para el caso de que se calculen las distancias
fenéticas entre U.B.C.):
– Los caracteres dos a dos constituyen un espacio bidimensional
– Las U.B.C. se sitúan en ese espacio
bidimensional, trazando las líneas que
UBCpartiendo del origen de coordenadas
pasan por las U.B.C.
– Las diferencias entre las U.B.C. según los
coeficientes de correlación son
UBCproporcionales a los ángulos que forman
esas líneas.
Lección 2
20
Coeficientes de correlación (2).
• TIPOS DE COEFICIENTES DE CORRELACIÓN.
El signo indica el tipo de asociación (+) si es directa o (-) si es inversa.
Lección 2
21
Coeficientes de asociación.
• M.B.D.: Datos doble-estado; *algunos permiten datos multiestado
cualitativos sin secuencia lógica.
• CONCEPTO (explicado para el caso de que se calculen las distancias
fenéticas entre U.B.C.):
– A veces se denomina índice de similitud.
– La comparación de los U.B.C. para un carácter doble-estado tiene cuatro
posibilidades:
• Que ambas tengan presente el carácter
• Que ambas tengan ausente el carácter
• Que esté presente en la 1ª y ausente en la 2ª
• Que esté ausente en la 1ª y presente en la 2ª
– Los coeficientes están basados en el número de veces que se repita, entre cada dos
U.B.C. cada uno de los sucesos anteriores
Lección 2
22
Coeficientes de asociación (2).
• TIPOS DE COEFICIENTES DE ASOCIACIÓN.
UBC-
UBC-
UBC-
*
*
*
Lección 2
23
Elección del tipo de coeficiente.
• La elección depende del tipo de datos que contiene la M.B.D.
En aquellos estudios en los que predominan los caracteres dobleestado, conviene transformar los datos multiestado restantes en
datos doble-estado y utilizar coeficientes de asociación.
En aquellos estudios en los que predominan los caracteres
multiestado cuantitativos es aconsejable la estandarización y la
utilización de coeficientes de distancia y correlación.
Lección 2
24
Matriz de similitud/disimilitud.
• Matriz diagonal constituida por los coeficientes de similitud/disimilitud
entre todos los pares posibles de U.B.C. o caracteres, según la
dirección de análisis
UBC
Lección 2
25
Matriz de similitud /disimilitud (2).
• Matriz de similitud.
– Valores 0  |x|  1.
Lección 2
26
Matriz de similitud / disimilitud (3).
• Matriz de disimilitud (distancia).
– Valores 0  x  .
Lección 2
27
Reducción de datos mediante Análisis
Componentes Principales (ACP).
• El ACP es una técnica de Análisis Factorial (AF).
• El AF sirve para encontrar grupos de variables, a partir de un conjunto
numeroso de variables (=caracteres).
 Cuando tomamos información de un gran número de variables de forma
simultánea, podemos preguntarnos si se agrupan de forma característica a partir de
los resultados de las mediciones.
 Aplicando un AF a los datos podemos ser capaces de encontrar grupos de
variables con significado común, y reducir así el número de dimensiones
necesarias para explicar la variabilidad existente.
Lección 2
28
Reducción de datos mediante ACP (2).
• El ACP representa según un modelo lineal, un conjunto numeroso de variables originales
(=caracteres) mediante un número reducido de variables hipotéticas, llamadas
Componentes Principales.
• El número máximo de Componentes es igual o menor al número de variables originales.
• Características fundamentales de los Componentes Principales:
– Son ortogonales entre si
– No están correlacionados entre ellos
– Cada componente contiene información de todos los caracteres en diferentes proporciones.
• Primer componente es el que recoge mayor variabilidad.
• De la variabilidad restante, el segundo es el que incluye más de ésta ...
Lección 2
29
Reducción de datos mediante ACP (3).
• Explicación intuitiva de la génesis de los C.P. para dos caracteres.
–
–
–
–
Representación de las U.B.C. con respecto a dos caracteres correlacionados.
Estandarización de los caracteres y nueva representación de las U.B.C
Máxima separación entre las U.B.C. en una sola dimensión  Proyección sobre una línea.
Las líneas de proyección son los C.P. y corresponden con los ejes mayor y menor de la
elipse definida por la nube de puntos correspondientes a las U.B.C.
 Si tres caracteres elipsoide en lugar de elipse.
UBC-
UBC-
UBC-
UBC-
UBC-
UBC-
UBC F
UBC E
UBC A
UBC F
UBC G
UBC G
UBC E
UBC B
UBC-
UBC H
UBC H
UBC-
UBC D
UBC B
UBC D
UBC C
UBC A
UBC C
Lección 2
30
Reducción de datos mediante ACP (4).
• En un caso general los C.P. se reconocen porque las distancias cuadráticas de
las U.B.C. con respecto a ellos es mínima.
• Reconocimiento de los C.P. desde el punto de vista matemático:
• Cálculo de la matriz de correlación entre caracteres.
• Matriz de varianza-covarianza cuando los caracteres estén originalmente
expresados en la misma unidad de medida.
 A partir de las interrelaciones exhibidas por la matriz de correlación y mediante
transformaciones matemáticas se construye un nuevo conjunto de variables
denominados C.P.
• En general para explicar un porcentaje alto de la variabilidad total se necesitarán
más de 3 dimensiones que no pueden visualizarse, pero se les puede aplicar el
tratamiento matemático.
Lección 2
31
Pasos en la aplicación de la técnica ACP.
1.
2.
3.
4.
5.
Lección 2
Cálculo de una matriz que contenga la variabilidad conjunta de todas
las variables (=caracteres).
Extracción del número óptimo de Componentes Principales (C.P.)
Obtención e interpretación de la matriz de componentes o matriz de
estructura factorial.
Rotación de la solución factorial y repetición de los puntos 2 y 3 para
la solución rotada.
Estimación de las puntuaciones de las U.B.C. sobre las nuevas
variables (=Componentes Principales) y proyección de aquellas sobre
éstas  Sirve para visualizar las relaciones entre las UBC
32
Pasos en la aplicación de la técnica ACP (2).
PASO 1: Cálculo de una matriz que contenga la variabilidad conjunta de
todas las variables (=caracteres)
•OPCIÓN A:
– Estandarización  Para expresar todas las variables en la misma escala.
– Calculo de la matriz de similitud entre las variables (es la matriz de correlación de
caracteres).
•OPCIÓN B:
– Obtener una matriz de varianzas – covarianzas: Se da mayor peso a las variables
que presentan varianzas más altas.
 Es necesario que las variables hayan sido medidas en unidades homogéneas.
 Ej. estudio morfométrico convencional: Hacer una transformación de logaritmo
decimal
Lección 2
33
Pasos en la aplicación de la técnica ACP (3).
PASO 2. Extracción del número óptimo de Componentes
Principales (CP)
 El método extrae tantos CP como variables iniciales (=caracteres) que
explicarán el 100% de la varianza.
 Sin embargo para conseguir el objetivo reducir el número de dimensiones
necesarias para explicar los datos, es necesario seleccionar un número de CP
menor al número de variables iniciales.
Lección 2
34
Pasos en la aplicación de la técnica ACP (4).
PASO 2. Extracción del número óptimo de CP (2)
La información necesaria para decidir el número óptimo se encuentra en la tabla de
varianzas explicadas por el análisis que incluye la siguiente información:
–
Eigen-Valores (=autovalores; =valores propios) de cada CP:
 Es la sumatoria de las varianzas de todos los caracteres para dicho CP
 La varianza de un carácter para un determinado CP es el cuadrado de la
contribución de un carácter para un componente.
 Los Eigen-Valores son diferentes para cada componente. El componente
con mayor Eigen-Valor será el primero y así sucesivamente, ...
Lección 2
–
Porcentaje de la variación total que representa cada CP.
–
Porcentaje de la variación total acumulada en cada CP.
35
Pasos en la aplicación de la técnica ACP (5).
PASO 2. Extracción del número óptimo de CP (3)
EIGENVALORES
Comp,
Eigenvalor
% variación
V ariación
acumulada
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
14,054
10,747
5,284
2,473
1,703
1,553
0,999
0,691
0,551
0,535
0,428
0,239
0,168
0,141
0,117
0,083
0,074
0,046
0,038
0,035
0,025
0,014
0,003
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
35,134
26,868
13,211
6,182
4,257
3,882
2,498
1,728
1,378
1,338
1,07
0,597
0,42
0,353
0,293
0,207
0,184
0,116
0,094
0,088
0,062
0,035
0,007
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
35,134
62,002
75,213
81,394
85,651
89,533
92,031
93,759
95,137
96,475
97,545
98,142
98,562
98,914
99,207
99,414
99,597
99,713
99,808
99,895
99,958
99,993
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
100
Lección 2
El Gráfico de sedimentación presenta gráficamente los eigenvalores de los CP, y facilita la determinación el número óptimo
de factores (CP).
36
Pasos en la aplicación de la técnica ACP (6).
PASO 2. Extracción del número óptimo de CP (4)
Casos que pueden presentarse al analizar como evolucionan los eigen-vectores de
los CP (o lo que es lo mismo el porcentaje de variación que acumula cada CP)
– CASO 1: El investigador puede
seleccionar con un amplio margen
de seguridad el cp1.
– CASO 2: Pueden seleccionarse
los 4 primeros cp (cp1 a cp4).
– CASO 3: Los resultados del ACP
no permiten reducir la
dimensionalidad.
Lección 2
37
Pasos en la aplicación de la técnica ACP (7).
PASO 3. Obtención e interpretación de la matriz de
componentes o matriz de estructura factorial
Está compuesta por los eiguen-vectores o
correlaciones entre los factores (CP) y las variables
(=caracteres)
 Son los valores de las saturaciones de las variables
en cada uno de los CP, de donde se obtiene la
siguiente información:
• Qué caracteres están asociados
• Qué caracteres caracterizan en el mismo
sentido y en sentido contrario
• Cuáles son los caracteres que más discriminan
entre las UBC
Lección 2
EIGENVECTORES
Carácter
LA
LL
LW/L
LFF
LUA
LLA
LL/AWP
LPL
LNL
CLL
CUL/LL
CUS/LS
CLS/UL
CLS/US
CLL/LW
POL
POW/OL
PCS/SS
PLP/TL
POL/SLP
SA
SPL
SPW/PL
SCW/CL
SCL/PL
SCW/PW
WA/SA
WPL
WPW/PL
WCL/PL
KA/SA
KPL
KPW/PL
KCL/PL
KAA
FMPA
FL
FW/L
FFF
FNOV
1º componente 2º componente 3º componente
0.8877
0.8328
0.4686
0.5137
0.5602
0.2902
-0.0722
0.7925
0.7398
0.6861
0.8115
-0.0753
-0.5514
-0.0596
-0.1355
0.3163
-0.3434
0.0071
0.766
0.1976
-0.259
-0.5323
0.6834
-0.7834
0.908
0.7398
-0.7504
-0.6706
-0.1529
0.8744
-0.8572
-0.7501
-0.2644
0.9005
-0.085
-0.4534
0.0696
-0.759
-0.7834
-0.1262
0.2359
0.1296
-0.1682
-0.0697
-0.2932
0.1257
0.6278
0.36
-0.3193
0.3413
0.157
-0.9231
-0.5553
0.7397
-0.6968
0.7871
-0.6089
0.2465
-0.5814
0.2426
0.8733
0.7413
0.5833
0.4298
0.2646
0.2723
-0.058
0.6782
0.51
0.3097
-0.0867
0.5916
0.4039
0.2764
-0.8777
0.7611
0.8006
0.0336
0.0212
0.8615
0.0228
-0.1923
0.7456
0.688
0.5868
0.8208
-0.0669
0.3121
0.2734
-0.2823
-0.3486
0.0501
-0.2193
0.1413
-0.1635
0.0436
-0.197
0.7625
-0.1917
0.723
-0.2563
-0.1861
0.0119
0.1676
-0.2102
-0.1508
0.4529
-0.0894
0.6519
-0.2299
0.1519
-0.1194
0.5851
-0.2238
-0.1865
-0.2016
-0.2795
0.1402
0.1156
-0.2
38
Pasos en la aplicación de la técnica ACP (8).
PASO 4. Obtención e interpretación de la matriz de componentes
o matriz de estructura factorial (2)
EIGENVECTORES
Carácter
LA
LL
LW/L
LFF
LUA
LLA
LL/AWP
LPL
LNL
CLL
CUL/LL
CUS/LS
CLS/UL
CLS/US
CLL/LW
POL
POW/OL
PCS/SS
PLP/TL
POL/SLP
SA
SPL
SPW/PL
SCW/CL
SCL/PL
SCW/PW
WA/SA
WPL
WPW/PL
WCL/PL
KA/SA
KPL
KPW/PL
KCL/PL
KAA
FMPA
FL
FW/L
FFF
FNOV
Lección 2
1º componente 2º componente 3º componente
0.8877
0.8328
0.4686
0.5137
0.5602
0.2902
-0.0722
0.7925
0.7398
0.6861
0.8115
-0.0753
-0.5514
-0.0596
-0.1355
0.3163
-0.3434
0.0071
0.766
0.1976
-0.259
-0.5323
0.6834
-0.7834
0.908
0.7398
-0.7504
-0.6706
-0.1529
0.8744
-0.8572
-0.7501
-0.2644
0.9005
-0.085
-0.4534
0.0696
-0.759
-0.7834
-0.1262
0.2359
0.1296
-0.1682
-0.0697
-0.2932
0.1257
0.6278
0.36
-0.3193
0.3413
0.157
-0.9231
-0.5553
0.7397
-0.6968
0.7871
-0.6089
0.2465
-0.5814
0.2426
0.8733
0.7413
0.5833
0.4298
0.2646
0.2723
-0.058
0.6782
0.51
0.3097
-0.0867
0.5916
0.4039
0.2764
-0.8777
0.7611
0.8006
0.0336
0.0212
0.8615
0.0228
-0.1923
0.7456
0.688
0.5868
0.8208
-0.0669
0.3121
0.2734
-0.2823
-0.3486
0.0501
-0.2193
0.1413
-0.1635
0.0436
-0.197
0.7625
-0.1917
0.723
-0.2563
-0.1861
0.0119
0.1676
-0.2102
-0.1508
0.4529
-0.0894
0.6519
-0.2299
0.1519
-0.1194
0.5851
-0.2238
-0.1865
-0.2016
-0.2795
0.1402
0.1156
-0.2
El gráfico de componentes representa gráficamente las
saturaciones de las variables en cada uno de los CP y facilita
la interpretación
39
Pasos en la aplicación de la técnica ACP (9).
PASO 4. Rotación de la solución factorial y repetición de los puntos 2
y 3 para la solución rotada
Produce una rotación de los CP obtenidos con el objetivo de mejorar la interpretabilidad de
la solución
 En la solución factorial el primer factor explica el máximo de la varianza común
disponible en los datos, el segundo el máximo de la varianza común restante y así
sucesivamente
( esto es para deshacer la indeterminación intrínseca a la solución del sistema
homogéneo de ecuaciones que da lugar a los eigen-vectores.)
 Un efecto indeseable es que los primeros factores tienden a capitalizar la información
de covariación contenida en la matriz de correlaciones, acumulando más información
que la que les corresponde
• Cuando cada variable se encuentra inequívocamente asignada a un solo factor no
hay problema
• Si las variables saturan en más de un factor la rotación ayuda a la interpretación
Lección 2
40
Pasos en la aplicación de la técnica ACP (10).
PASO 4. Rotación de la solución factorial y repetición de los puntos 2
y 3 para la solución rotada (2)
En el ejemplo se observa que tras la
rotación:
– Las variables pertenecientes al factor 2
se han aproximado más a él.
– Las variables pertenecientes al factor 1
ahora están atravesadas por el eje
– La variable nivel educativo se ha
distanciado del factor 1 llevando a
pensar que comparte información con el
factor 2
Lección 2
41
Pasos en la aplicación de la técnica ACP (11).
PASO 4. Rotación de la solución factorial y repetición de los puntos
2 y 3 para la solución rotada (3)
Métodos de rotación:
Clasificación de los métodos de rotación:
– Rotación Ortogonal: Los factores rotados continúan siendo ortogonales.
– Rotación Oblicua: Los factores rotados dejan de ser ortogonales.
Método Varimax. Es el más utilizado
 Es un método de rotación ortogonal
 Minimiza el número de variables que tienen saturaciones altas en cada factor
 Simplifica la interpretación de los factores optimizando la solución por columna
Lección 2
42
Visualización de las relaciones entre UBC:
formación de grupos.
• Metodologías para la formación de grupos de UBC utilizando
análisis multivariado:
– Análisis de agrupamiento.
– Métodos de ordenación (Análisis de Componentes
Principales).
Lección 2
43
Visualización de las relaciones entre UBC:
formación de grupos (2).
• Análisis de agrupamiento.
El análisis de agrupamiento comprende técnicas que, siguiendo
reglas más o menos arbitrarias, forman grupos de U.B.C. que se
asocian por su grado de similitud
• Núcleo: Todo conjunto formado por dos U.B.C.
• Grupo: Todo conjunto formado por más de dos U.B.C.
Lección 2
44
Visualización de las relaciones entre UBC:
formación de grupos (3)
1
2
8
9
5
6
7
3
10
4
18
20
23
21
22
24
19
11
13
12
15
16
14
17
0.00
0.50
1.00
1.50
2.00
Disimilitud
Lección 2
45
Visualización de las relaciones entre UBC:
formación de grupos (4).
• Análisis de Componentes Principales.
– El proceso de obtención de los Componentes Principales ya ha sido descrito en el
apartado de reducción de datos con esta técnica.
– La formación de grupos de U.B.C. mediante el ACP está basada en la
representación de las mismas en un espacio multi-dimensional (2/3 dimensiones)
formado por los primeros Componentes Principales (2/3).
– Este método no traza límites en el espacio que separen grupos de U.B.C.
 Cuanto más cerca se encuentren entre si dos U.B.C. más estrechamente
relacionados están.
Lección 2
46
Visualización de las relaciones entre UBC:
formación de grupos (5).
19
18
24
23 20
22
21
76 5
9
1612
15 11
14
13
17
4
2
8
3
10
1
Lección 2
47
Análisis de agrupamiento.
• Clasificación general de técnicas.
–
–
–
–
Técnicas jerárquicas vs. no jerárquicas.
Técnicas secuenciales vs. simultáneas.
Técnicas aglomerativas vs. divisivas.
Técnicas exclusivas vs. no exclusivas.
SAHN: Sequential, Agglomerative, Hierarchical, and Nested de
grupo par
Solamente puede ser admitida una U.B.C. o un grupo de
U.B.C. por nivel
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
48
Análisis de agrupamiento (2).
CLASIFICACIÓN PRIMARIA DE LAS TÉCNICAS DE ANÁLISIS DE
AGRUPAMIENTOS.
• Técnicas jerárquicas: Originan conjuntos que presentan rangos, en los
cuales las U.B.C. o grupos de U.B.C. subsidiarios forman parte de un
grupo mayor o inclusivo.
• Técnicas no jerárquicas: Originan conjuntos que no exhiben rangos.
 Su uso se está incremetando.
 Requieren que el investigador elija centros móviles o individuos típicos (simientes)
a partir de los cuales iniciar el proceso de aglomeración.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
49
Análisis de agrupamiento (3).
ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.
• Técnicas secuenciales: Se forma un grupo de cada vez, hasta que se
agota el conjunto total.
• Técnicas simultáneas: Los grupos se forman simultáneamente en una
sola operación.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
50
Análisis de agrupamiento (4).
ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.
• Técnicas aglomerativas: Son las que partiendo de n U.B.C. separadas, las
agrupa en sucesivos conjuntos (siempre en un número < n) para llegar
finalmente a un solo conjunto que contiene a las n unidades.
• Técnicas divisivas: Son aquellas que partiendo de un conjunto que
contiene a las n U.B.C. las divide en subconjuntos.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
51
Análisis de agrupamiento (5).
ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS.
• Técnicas exclusivas: Originan grupos donde las U.B.C. son exclusivas del
grupo del cual forman parte y no pueden pertenecer a otro grupo que se
halle en un mismo rango o nivel.
• Técnicas no exclusivas: Originan grupos donde las U.B.C. pueden
pertenecer a más de un grupo en un mismo nivel o rango.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
52
Descripción del proceso de agrupamiento.
1.
2.
Examen de la matriz de similitud para localizar el valor de similitud más
alto  Formación del primer núcleo
Se busca el próximo valor de mayor similitud, lo que puede suponer:
–
–
–
3.
Formación de nuevos núcleos
Incorporación de una nueva U.B.C. a un núcleo
Fusión de núcleos existentes
Se repite la segunda etapa
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
53
Tipos de ligamiento (etapa 2).
2)
•
•
•
•
Ligamiento simple.
Ligamiento completo.
Ligamiento promedio.
De Ward
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
54
Ligamiento simple.
Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en
cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y
el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C.
integrante del grupo o núcleo más parecido a ella.
Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud
será igual a la máxima similitud hallada entre dos U.B.C. provenientes una
de cada grupo o núcleo.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
55
Ligamiento simple (2).
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
0
0,68
0
1,65
1,8
0
1,19 1,31 1,22
0
1,58 1,72 1,01
1,21
0
1,59 1,06 1,18
1,12 0,99
0
1,7 1,84 1,23
1,13 1,13 0,73
0
1,67 1,74 1,57
1,52 1,53 1,27 1,55
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
56
Ligamiento simple (3).
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
0
B. car. 0,68
0
B. chil. 1,65 1,8
0
B. bon. 1,19 1,31 1,22
0
B. ret. 1,58 1,72 1,01 1,21
0
B. fol. 1,59 1,66 1,18 1,12 0,99 0
B. sch. 1,7 1,84 1,23 1,13 1,13 0,73
0
B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55
0
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
0
B. car. 0,68
0
B. chil. 1,65 1,8
0
B. bon. 1,19 1,31 1,22
0
B. ret. 1,58 1,72 1,01 1,21
0
B. fol. 1,59 1,66 1,18 1,12 0,99 0
B. sch. 1,7 1,84 1,23 1,13 1,13 0,73
0
B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55
0
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
1,59
1,7
1,67
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
57
Ligamiento simple (4).
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
1,59
1,7
1,67
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
58
Ligamiento simple (5).
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
1,59
1,7
1,67
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
1,59
1,7
1,67
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
B. arb.
B. fol.
B. car. B. chil. B. bon. B. ret. B. sch. B. sch.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
0
1,22
1,01
0
1,21
0
1,59
1,67
1,18
1,57
1,12
1,52
0,99
1,53
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
59
Ligamiento simple (6).
B. arb.
B. car. B. chil. B. bon. B. ret.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
B. fol.
B. sch. B. sch.
0
1,65
1,19
1,58
0
1,22
1,01
0
1,21
0
1,59
1,67
1,18
1,57
1,12
1,52
0,99
1,53
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
60
Ligamiento simple (7).
B. arb.
B. car. B. chil. B. bon. B. ret.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
B. fol.
B. sch. B. sch.
0
1,65
1,19
1,58
0
1,22
1,01
0
1,21
0
1,59
1,67
1,18
1,57
1,12
1,52
0,99
1,53
0
1,27
0
B. arb.
B. car. B. chil. B. bon. B. ret.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
B. fol.
B. sch. B. sch.
0
1,65
1,19
1,58
0
1,22
1,01
0
1,21
0
1,59
1,67
1,18
1,57
1,12
1,52
0,99
1,53
0
1,27
0
B. ret.
B. arb.
B. fol.
B. car. B. chil. B. bon. B. sch B. sch.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
0
1,22
0
1,58
1,67
1,01
1,57
1,12
1,52
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
61
Ligamiento simple (8).
B. ret.
B. arb.
B.
B. fol.
B. car. B. chil. bon. B. sch B. sch.
B.
B.
B.
B.
B.
B.
B.
B.
arb.
car.
chil.
bon.
ret.
fol.
sch.
sar.
0
1,65
1,19
0
1,22
1,58
1,67
1,01 1,12
1,57 1,52
0
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
62
Ligamiento simple (9).
B. ret.
B.
B. arb.
B. fol.
B. car. B. chil. bon. B. sch B. sch.
B.
B.
B.
B.
B.
B.
B.
B.
arb.
car.
chil.
bon.
ret.
fol.
sch.
sar.
0
1,65
1,19
0
1,22
1,58
1,67
1,01 1,12
1,57 1,52
0
B.
B.
B.
B.
B.
B.
B.
B.
B. ret.
B. arb.
B.
B. fol.
B. car. B. chil. bon. B. sch B. sch.
B.
B.
B.
B.
B.
B.
B.
0 B.
arb.
0
car.
chil.
1,65
0
bon.
1,19
1,22
0
ret.
fol.
0
1,58
1,01 1,12
sch.
1,27
sar.
1,67
1,57 1,52
B. chil.
B. ret.
B. arb. B.
B. fol.
B. car. bon. B. sch B. sch.
arb.
car.
0
bon.
1,19
0
chil.
ret.
fol.
sch.
1,58 1,12
0
sar.
1,67 1,52
1,27
0
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
63
Ligamiento simple (10).
B.
B.
B.
B. arb.
B. car. B. bon. B.
B.
B.
B.
B.
B.
B.
B.
B.
arb.
car.
bon.
chil.
ret.
fol.
sch.
sar.
0
1,19
0
1,58
1,67
1,12
1,52
chil.
ret.
fol.
sch B. sch.
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
64
Ligamiento simple (11).
B. arb.
B. car.
B. arb.
B. car.
B. bon.
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
B.
B.
B.
B. bon. B.
0
1,19
0
1,58
1,67
1,12
1,52
chil.
ret.
fol.
sch B. sch.
0
1,27
0
B. chil.
B. ret.
B. arb.
B. fol.
B. car. B. bon. B. sch B. sch.
B. arb.
B. car.
B. bon.
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
B.
B.
B.
B.
B.
B. arb.
B. car.
B. arb.
B. car.
B. bon
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
0
1,19
0
1,58
1,67
1,12
1,52
0
1,27
0
bon
chil.
ret.
fol.
sch B. sch.
0
1,19
1,67
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
65
Ligamiento simple (12).
B.
B.
B.
B.
B.
B. arb.
B. car.
B. arb.
B. car.
B. bon
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
bon
chil.
ret.
fol.
sch
B. sch.
0
1,19
1,67
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
66
Ligamiento simple (13).
B.
B.
B.
B.
B.
B. arb.
B. car.
B. arb.
B. car.
B. bon
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
bon
chil.
ret.
fol.
sch B. sch.
B. arb.
B. car.
0
1,19
1,67
0
1,27
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
0
B. arb.
B. car.
B. bon
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
arb.
car.
bon
chil.
ret.
fol.
sch B. sch.
0
1,27
B. arb.
B. car.
B. bon
B. chil.
B. ret. B.
fol. B.
sch.
B. sar.
bon
chil.
ret.
fol.
sch B. sch.
0
1,19
1,67
0
1,27
0
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
67
Ligamiento simple (14).
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
B.
arb.
car.
bon
chil.
ret.
fol.
sch.
sar.
arb.
car.
bon
chil.
ret.
fol.
sch
B. sch.
0
1,27
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
68
Ligamiento completo.
Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en
cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y
el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C.
integrante del grupo o núcleo menos parecido a ella.
Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud
será igual a la mínima similitud hallada entre dos U.B.C. provenientes una
de cada grupo o núcleo.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
69
Ligamiento completo (2).
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
0
0,68
0
1,65
1,8
0
1,19 1,31 1,22
0
1,58 1,72 1,01
1,21
0
1,59 1,06 1,18
1,12 0,99
0
1,7 1,84 1,23
1,13 1,13 0,73
0
1,67 1,74 1,57
1,52 1,53 1,27 1,55
0
LS
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
70
Ligamiento completo (3).
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
0
B. car. 0,68
0
B. chil. 1,65 1,8
0
B. bon. 1,19 1,31 1,22
0
B. ret. 1,58 1,72 1,01 1,21
0
B. fol. 1,59 1,66 1,18 1,12 0,99 0
B. sch. 1,7 1,84 1,23 1,13 1,13 0,73
0
B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55
0
B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
0
B. car. 0,68
0
B. chil. 1,65 1,8
0
B. bon. 1,19 1,31 1,22
0
B. ret. 1,58 1,72 1,01 1,21
0
B. fol. 1,59 1,66 1,18 1,12 0,99 0
B. sch. 1,7 1,84 1,23 1,13 1,13 0,73
0
B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55
0
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,8
1,31
1,72
1,66
1,84
1,74
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
71
Ligamiento completo (4).
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,65
1,19
1,58
1,59
1,7
1,67
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
LS
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
72
Ligamiento completo (5).
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,8
1,31
1,72
1,66
1,84
1,74
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
B. arb.
B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,8
1,31
1,72
1,66
1,84
1,74
0
1,22
1,01
1,18
1,23
1,57
0
1,21
1,12
1,13
1,52
0
0,99
1,13
1,53
0
0,73
1,27
0
1,55
0
B. arb.
B. fol.
B. car. B. chil. B. bon. B. ret. B. sch. B. sch.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,8
1,31
1,72
0
1,22
1,01
0
1,21
0
1,84
1,74
1,23
1,57
1,13
1,52
1,13
1,53
0
1,55
0
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
73
Ligamiento completo (6).
B. arb.
B. fol.
B. car. B. chil. B. bon. B. ret. B. sch. B. sch.
B. arb.
B. car.
B. chil.
B. bon.
B. ret.
B. fol.
B. sch.
B. sar.
0
1,8
1,31
1,72
0
1,22
1,01
0
1,21
0
1,84
1,74
1,23
1,57
1,13
1,52
1,13
1,53
0
1,55
0
LS
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
74
Ligamiento completo (7).
LS
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
75
Ligamiento promedio.
Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor
de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a una
similitud promedio resultante de los valores de similitud entre el candidato y cada uno de
los integrantes del grupo o núcleo.
Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será el promedio
de los valores de similitud entre los pares posibles de U.B.C. provenientes una de cada
grupo o núcleo.
 Existen varios tipos de medias. La más utilizada es UPGMA (Unweighted pair-group
method using aritmetic averages) “Media aritmética no ponderada”)
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
76
Ligamiento promedio (2).
LS
LC
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
77
Método de la varianza mínima de Ward
Distancia entre dos agrupamientos:
 Cuadrado de la distancia entre las medias de esos
agrupamientos ...
... dividida entre la suma de los recíprocos de la cantidad de
puntos que se encuentra dentro de cada uno de éstos
 También se conoce como el método de la varianza mínima
porque ...
... al considerar los valores al cuadrado, se vuelve un
método muy sensible
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
78
Pasos en la aplicación de la
técnica de análisis de agrupamientos.
• PASO 1: Estandarización / Transformación  Todos los caracteres
deben estar expresados en la misma escala.
• PASO 2: Calculo de la matriz de similitud entre las UBC.
• PASO 3: Construcción del dendrograma previa elección del método
de ligamiento.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
79
Validación del análisis de agrupamiento.
Métodos:
•
Medida de la distorsión mediante el coeficiente de
correlación cofenética.
•
Bootstrapping (Método de remuestreo).
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
80
Validación del análisis de agrupamiento (2).
Coeficiente de correlación cofenética.
•Procedimiento.
– Determinación de una nueva matriz de similitud a partir de los valores del
fenograma  “matriz cofenética.”
– La comparación de la matriz original y la cofenética mediante el coeficiente de
correlación del momento-producto origina el “coeficiente de correlación
cofenética.”
•Información proporcionada por la técnica.
– Es una medida de la distorsión interna de la técnica.
– No da información acerca de la bondad de la agrupación taxonómica obtenida.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
81
Validación del análisis de agrupamiento (3).
Bootstrapping.
Procedimiento.
– Para cada UBC se toma el valor correspondiente a cada carácter, uno por uno,
con reemplazo, elaborando una muestra de igual tamaño que el número de
caracteres.
 Existe la posibilidad de que se seleccione un carácter una o más veces
– En cada muestra se calcula una matriz de similtitud.
– Se calculan las similitudes promedio y sus desviaciones estándar para cada
par de U.B.C., y se elabora una matriz de similitud promedio
– Se construye un nuevo dendrograma, empleando la matriz de similitud
promedio
– En situaciones reales deben generarse más de 100 muestras con reemplazo.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
82
Interpretación de un dendrograma.
1
2
8
9
5
6
7
3
10
4
18
20
23
21
22
24
19
11
13
12
15
16
14
17
0.00
0.50
1.00
1.50
2.00
Disimilitud
1
2
3
5
6
7
8
9
10
4
12
13
14
15
16
17
18
11
19
21
22
23
24
25
20
10
0.00
0.25
Similitud 0.50
0.75
1.00
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
83
Interpretación de un dendrograma (2).
Definición del número de grupos:
• Si el diagrama es claro basta la simple observación
• El conocimiento profundo de la especie vegetal: Botánica,
agronomía y distribución, permite al agrónomo interpretar los
resultados
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
84
Interpretación de un dendrograma (3).
Definición del número de grupos:
• Estimación de las distancias entre U.B.C. con el coeficiente 2 que cuenta con una
prueba de hipótesis para saber el grado de similitud existente entre pares de UBC.
 A partir de las tablas de 2 con un grado de libertad, usando  como el nivel de
similitud
• Usar la pseudoestadística T2 de Hotelling que se usa para comparar las medias de dos
agrupamientos
 Si las medias de dos agrupamientos no son significativamente diferentes, esos
dos agrupamientos podrían combinarse.
 Si la diferencia entre las medias es significativa, entonces los agrupamientos no
deben combinarse
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
85
Interpretación de un dendrograma (4).
Comparación mediante un ANOVA las medias de cada carácter
en los diferentes agrupamientos:
 Esto permite averiguar que caracteres están influyendo en la formación de los
grupos.
 El análisis conjunto de todos los caracteres puede ayudar a tomar decisiones a la
hora de definir grupos
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
86
Agrupamiento por variables (=caracteres) en lugar
de por UBC.
Utilidad:
• Permite averiguar qué caracteres están altamente
correlacionados.
• Puede generar ideas e hipótesis sobre el origen, valor
selectivo y patrones de variación de los caracteres.
• Permite determinar posibles complejos adaptativos.
Visualización de relaciones entre UBC: Análisis de agrupamiento
Lección 2
87
Utilización del ACP para visualizar las relaciones
entre UBC.
Como ya se indicó anteriormente, los pasos a realizar en un ACP son:
1.
2.
3.
4.
5.
Cálculo de una matriz que contenga la variabilidad conjunta de todas
las variables (=caracteres).
Extracción del número óptimo de Componentes Principales (C.P.)
Obtención e interpretación de la matriz de componentes o matriz de
estructura factorial.
Rotación de la solución factorial y repetición de los puntos 2 y 3 para
la solución rotada.
Estimación de las puntuaciones de las U.B.C. sobre las nuevas
variables (=Componentes Principales) y proyección de aquellas sobre
éstas.
Visualización de relaciones entre UBC: Métodos de ordenación (ACP)
Lección 2
88
Utilización del ACP para visualizar las relaciones
entre UBC (2).
El paso 5 consiste en:
• Obtener las puntuaciones factoriales de las UBC sobre los Componentes
Principales
 Existen varios métodos:
• Método de proyección
• Método de regresión
• Puntuaciones de
Bartlett
• Método de
Anderson-Rubin
19
18 24
23 20
22
21
1612
15 11
14
13
17
76 5
9 2
8
4
3
10
• Dibujar el gráfico.
1
Visualización de relaciones entre UBC: Métodos de ordenación (ACP)
Lección 2
89
Reducción de datos y agrupación de UBC
mediante Análisis Discriminante Canónico (ADC).
• El CDA necesita que existan dos o más grupos de UBC realizadas a
priori, típicamente suelen ser los orígenes del germoplasma.
• Se trata de encontrar una buena
función discriminante que sea una
combinación lineal de las variables
originales. Cuando aplicamos la
función a un dato nuevo nos dice a
que grupo pertenece.
• Geométricamente se busca una
buena dirección sobre la que
proyectar los datos de los grupos
conocidos y de los que queremos
clasificar.
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
90
Pasos en la aplicación de la técnica ADC.
1.
2.
3.
4.
5.
6.
Cálculo de una matriz de varainzas-covarianzas para cada uno de los
grupos realizados a priori.
Extracción de las funciones canónicas discriminantes.
Determinar la puntuación canónica discriminante de cada nuevo dato
(x0): Se trata de la proyección de dicho dato en la dirección
discriminante.
Determinación de los centroides: puntuaciones canónicas
discriminantes de los vectores de medias.
Cálculo las distancias de Mahalanobis entre los centroides de los
grupos y obtención de la significación de esa distancia.
Comprobación de la bondad de la regla de clasificación creada
mediante la prueba de resustitución, que permite saber cuantas UBC
se clasifican bien y cuantas se clasifican mal.
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
91
Pasos en la aplicación de la técnica ADC (2).
PASO 2: Extracción de las funciones canónicas discriminantes (o
raíces canónicas)
% de
%
Correlación
La primera información que se obtiene Función Autovalor varianza
acumulado canónica
es la tabla de autovalores
8.399
55.6
55.6
0.945
1
3.480
23.1
78.7
0.881
(eigenvalores o varianzas explicadas)
2
1.607
10.6
89.3
0.785
3
que indica la variabilidad recogida por
1.125
7.4
96.8
0.728
4
varias funciones canónicas
0.485
3.2
100.0
0.572
5
También se obtienen:
― Los coeficientes estandarizados de
cada una de las funciones
canónicas
Lección 2
Coeficientes estandarizados de las funciones
discriminantes canónicas
Función
1
2
3
4
5
NDL
0.360 0.539 0.380 -0.119 0.073
NFR
0.492 0.600 -0.268 0.764 -0.179
LDPD
-0.358 0.335 -0.028 -0.429 0.827
PDF
-1.018 -0.071 0.596 0.783 0.363
DDF
1.312 -0.497 -0.120 -0.069 0.137
NGPF
-0.304 -0.401 -0.405 -0.307 0.369
AGPF
-0.160 -0.013 0.757 -0.345 -0.261
LDGF
0.573 0.530 -0.036 -0.075 -0.196
Reducción de dimensiones y agrupación de UBC con ADC
92
Pasos en la aplicación de la técnica ADC (3).
PASO 2: Extracción de las funciones canónicas discriminantes (o
raíces canónicas) (2)
Matriz de estructura
― Matriz de estructura que
Función
1
2
3
4
5
contiene, por filas, los eigen
LDP
0.129 0.096 -0.037
0.110 0.037
vectores o coeficientes
NDL
0.366 0.466 0.241 -0.120 0.031
NGPF
-0.030 -0.202 -0.167 0.010 0.167
de correlación de las funciones
LDH
0.127 0.201 0.021 0.108 0.012
discriminantes con las variables
ADH
0.067 0.156 -0.020 0.062 0.107
originales.
AGPF
-0.069 -0.084 0.655 -0.144 -0.160
 Permite averiguar la correlación
entre las variables orginales
 Permite conocer las variables que
más influyen en las diferentes
funciones canónicas
PDF
DDG
PDP
LDGF
LDF
NFR
LDPD
DDF
PGPF
-0.030
0.039
0.006
0.094
-0.010
0.057
-0.082
0.539
-0.035
-0.241
0.008
-0.114
0.161
-0.214
0.355
0.324
-0.488
-0.154
0.557
0.541
0.465
0.339
0.280
-0.249
-0.016
0.348
0.350
0.545
0.039
0.285
-0.096
0.117
0.559
-0.216
0.214
-0.015
0.467
0.118
0.396
0.098
0.203
0.040
0.819
0.539
0.485
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
93
Pasos en la aplicación de la técnica ADC (4).
PASO 3: Determinación de la
puntuación canónica
discriminante de cada nuevo
dato (x0): Se trata de la
proyección de dicho dato en la
dirección discriminante.
PASO 4: Determinación de los
centroides: puntuaciones
canónicas discriminantes de los
vectores de medias.
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
94
Pasos en la aplicación de la técnica ADC (5).
PASO 5: Cálculo las distancias de Mahalanobis entre los centroides de
los grupos y obtención de la significación de esa distancia
LOCALIDAD
1
F
Sig.
2
F
Sig.
3
F
Sig.
4
F
Sig.
5
F
Sig.
6
F
Sig.
1
2
10.487
.000
3
7.508
.000
6.154
.000
10.487
.000
7.508 6.154
.000
.000
11.763 6.643 6.083
.000
.000
.000
31.801 34.849 23.856
.000
.000
.000
21.264 15.016 15.563
.000
.000
.000
4
5
6
11.763 31.801 21.264
.000
.000
.000
6.643 34.849 15.016
.000
.000
.000
6.083 23.856 15.563
.000
.000
.000
37.630 14.819
.000
.000
37.630
22.624
.000
.000
14.819 22.624
.000
.000
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
95
Pasos en la aplicación de la técnica ADC (6).
• PASO 6: Comprobación de la bondad de la regla de
clasificación creada mediante la prueba de resustitución,
que permite saber cuantas UBC se clasifican bien y
cuantas se clasifican mal
Original
Resultados de la clasificacióna
LOCALIDAD
Grupo de pertenencia pronosticado
1
2
3
4
5
1
10
0
0
0
0
2
0
9
0
1
0
3
0
0
9
1
0
Recuento
4
0
0
1
9
0
5
0
0
0
0
10
6
0
0
0
0
0
1
100.0
0.0
0.0
0.0
0.0
2
0.0
90.0
0.0
10.0
0.0
3
0.0
0.0
90.0
10.0
0.0
%
4
0.0
0.0
10.0
90.0
0.0
5
0.0
0.0
0.0
0.0
100.0
6
0.0
0.0
0.0
0.0
0.0
Reducción de dimensiones y agrupación de UBC con ADC
Lección 2
96
Congruencia de los resultados obtenidos.
CONCEPTO: Se entiende por congruencia del resultado de un estudio
de caracterización de germoplasma con métodos multivariados, al grado
de correspondencia entre diferentes clasificaciones de un mismo
conjunto de U.B.C.
Lección 2
Análisis de resultados
97
Planteamiento experimento congruencia.
• Variar la metodología.
Realizar la clasificación a partir de un determinado conjunto de caracteres, utilizando
dos técnicas diferentes.
 Se pretende determinar cuales son las técnicas clasificatorias que permiten obtener
resultados más semejantes entre si.
Lección 2
Análisis de resultados
98
Planteamiento experimento congruencia (2).
• Variar la fuente de caracteres.
Realizar la clasificación a partir de dos conjuntos de caracteres diferentes, utilizando la
misma técnica.
 Se pretende determinar cuál es el grado de interdependencia causal entre diferentes tipos
de caracteres.
Lección 2
Análisis de resultados
99
Planteamiento experimento congruencia (3).
• Combinar ambos sistemas anteriores.
– Estudiar la congruencia entre clasificaciones basadas en diferentes
conjuntos de caracteres utilizando la misma técnica.
– Aplicar a cada uno de los conjuntos de caracteres otra técnica diferente.
 Se pretende
determinar si
diferentes tipos de
caracteres
proporcionan
resultados
congruentes
utilizando una
determinada técnica
e incongruentes con
otra.
Lección 2
Análisis de resultados
100
Evaluación de la congruencia.
• Midiendo la coincidencia entre las matrices de similitud.
– Mediante coeficientes de correlación.
– Mediante coeficientes de discordancia.
• Midiendo la coincidencia entre las estructuras taxonómicas derivadas de
las matrices de similitud.
– Coeficiente de distorsión.
– Índice de consenso.
Lección 2
Análisis de resultados
101
Evaluación de la congruencia (2).
• Comparación visual, sin ningún tipo de medición, de los resultados
gráficos obtenidos.
– Ejemplo: Comparar un dendrograma (=resultado gráfico de un análisis de
agrupamiento) con la gráfica bidimensional o tridimensional de proyección de
las U.B.C. sobre las 2/3 primeras Componentes Principales.
Para ello se precisará que estas 2/3 componentes expliquen la mayor parte
de la variabilidad existente
Lección 2
Análisis de resultados
102
Causas de las incongruencias clasificatorias.
Particularizando para un caso de estudios taxonómicos, las principales
causas son:
• Causas biológicas.
– Diferente actividad de los genes en diferentes células de un mismo organismo
– Plasticidad fenotípica.
– Mutaciones somáticas.
– Diferentes presiones de selección
– Evolución en mosaico: La velocidad de evolución de los diferentes tipos de
caracteres es diferente
• Causas metodológicas.
– Determinación de homologías
– Cantidad y calidad de los caracteres.
– Codificación de los caracteres.
 En estudios taxonómicos deben seleccionarse caracteres con valor filogenético
Lección 2
Análisis de resultados
103
Caract. morfológicos: Capacidad discriminante.
• Los caracteres que alcanzan la misma expresión para todas la U.B.C. son NO
DISCRIMINANTES.
• Los caracteres que alcanzan diferentes expresiones para las diferentes U.B.C.
se consideran DISCRIMINANTES.
• Los caracteres que alcanzan la misma expresión para todas las U.B.C. salvo
una son ALTAMENTE DISCRIMINANTES.
Lección 2
Análisis de resultados
104
Caract. morfológicos: Estabilidad.
ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS
CARACTERES Y TODAS LAS UBC:
 Sirve para comparar la homogeneidad de resultados entre campañas (años).
• Metodología: Comparación matrices de datos para:
– Mismas U.B.C.
– Mismos caracteres.
• Interpretación de los resultados (Lapointe & Legendre, 1992) (1).
– Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel
1%.
(1)
Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing
independent phylogenetic trees. Systematic Biology, 41:378-384
Lección 2
Análisis de resultados
105
Caract. morfológicos: Estabilidad (2).
EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES
INDIVIDUALMENTE.
Caracteres doble estado o multiestado cualitativos sin secuencia lógica o desordenados
• Tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es
entre dos niveles contiguos o entre dos niveles no contiguos.
• Metodología para el cálculo de la inestabilidad de cada carácter (I)
• Se calcula el % de inestabilidad a un nivel y a varios niveles (I).
• I total (%) = [% de diferencias a un nivel + % de diferencias a más de un
nivel]
• Clasificación de los caracteres por su estabilidad:
• Estables:
I < 10%
• Medio estables:
10% < I < 40%
• Inestables:
I > 40%
Análisis de resultados
Lección 2
106
Caract. morfológicos: Estabilidad (3).
EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES
INDIVIDUALMENTE (2).
Caracteres multiestado cualitativos con secuencia lógica
• No tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es
entre dos niveles contiguos o entre dos niveles no contiguos.
• Metodología para el cálculo de la inestabilidad de cada carácter (I)
• Se calcula el % de inestabilidad a 1 nivel y se divide por 8.
• Se calcula el % de inestabilidad a 2 niveles y se divide por 4.
• Se calcula el % de inestabilidad a 3 niveles y se divide por 2.
• Se calcula el % de inestabilidad a más de 3 niveles
I total (%) 
% dif . a 1 nivel % dif . a 2 niveles % dif . a 3 niveles


 % dif . a más de 3 niveles
8
4
2
• Clasificación de los caracteres por su estabilidad
• Estables:
I < 5%
• Medio estables:
5% < I < 10%
• Inestables:
I > 10%
Lección 2
Análisis de resultados
107
Caract. morfológicos: Objetividad.
Caracteres doble estado o multiestado cualitativos sin secuencia lógica
o desordenados.
•
Metodología.
• Tres observadores describen los caracteres.
• Se calcula el porcentaje de discrepancias a un nivel y a varios niveles (D) para
cada uno de los años.
• D total (%).
•
Clasificación de los caracteres por su objetividad:
• Objetivos:
D < 10%.
• Objetividad media: D < 10% un año, D > 10% otro.
• Subjetivos:
D > 10%.
Análisis de resultados
Lección 2
108
Caract. morfológicos: Objetividad (2).
Caracteres multiestado cualitativos con secuencia lógica.
•
Metodología
• Tres observadores describen los caracteres, y para cada carácter se establecen
cuatro niveles de objetividad:
• PRIMER NIVEL: Coincidencia al 100%. Los tres observadores califican con el
mismo nivel de expresión un determinado carácter.
• SEGUNDO NIVEL: Discrepancia al 10% entre operadores (un nivel de expresión
sobre 10 posibles)
• TERCER NIVEL: Discrepancia entre el 10% y el 30% (entre 1 y 3 niveles).
• CUARTO NIVEL: Discrepancia superior al 30% (más de 3 niveles).
Análisis de resultados
Lección 2
109
Caract. morfológicos: Objetividad (3).
Caracteres multiestado cualitativos con secuencia lógica (2).
•
Clasificación de los caracteres por su objetividad:
• Objetivos: Porcentaje objetividad de primer y segundo nivel es superior al
90%
• De objetividad media: Uno de los años el porcentaje de objetividad de primer
y segundo nivel es superior al 90% y el otro menor.
• Subjetivos: El porcentaje de objetividad de primer y segundo nivel es inferior
al 90%.
Análisis de resultados
Lección 2
110
Caract. morfométricos: Capacidad discriminante.
• Analizando los valores de los eigen-vectores sobre los tres
primeros componentes principales en el estudio de ANÁLISIS DE
COMPONENTES PRINCIPALES.
Análisis de resultados
Lección 2
111
Caract. morfométricos: Estabilidad.
ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS
CARACTERES:
 Sirve para comparar la homogeneidad de los caracteres entre campañas
(años).
• Metodología: Comparación matrices de datos para:
– Mismas U.B.C.
– Mismos caracteres.
• Interpretación de los resultados (Lapointe & Legendre, 1992) (1).
– Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel
1%.
(1)
Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing
independent phylogenetic trees. Systematic Biology, 41:378-384
Análisis de resultados
Lección 2
112
Caract. morfométricos: Estabilidad (2).
EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES
INDIVIDUALMENTE.
•
Metodología para el cálculo de la inestabilidad de cada carácter: Cálculo de
la Variación Media.
Variación Media  Suma de diferencias en valor absoluto x100
Media de las Sumas Totales
•
Clasificación de los caracteres por su estabilidad:
• Estables:
Variación media < 5%
• Medio estables:
5% < Variación media < 15%
• Inestables:
Variación media > 15%
Análisis de resultados
Lección 2
113
Lección 2
114
Descargar