LECCIÓN 2. Análisis Multivariado en el tratamiento de resultados de caracterización morfológica Lección 2 1 Métodos de análisis multivariado. • Definición de métodos multivariados: Son métodos estadísticos que analizan simultáneamente más de dos variables de un individuo • Definición de métodos multivariados, particularizado a la caracterización de RR.FF.: Conjunto de métodos de análisis de datos que tratan un gran número de mediciones sobre cada accesión del germoplasma. Lección 2 2 Métodos de análisis multivariado (2). Objetivos de un análisis multivariado aplicado a la caracterización de material vegetal: – Cuantificar las relaciones entre UBC. – Representar geométricamente las UBC. – Clasificarlas respecto a un conjunto de variables. Lección 2 3 Métodos de análisis multivariado (3). Clasificación de los métodos de análisis multivariado – Métodos de ordenación. Permiten: • Explicar la mayor parte de la variabilidad total existente en la muestra, en un número reducido de dimensiones. • Representar el material en estudio en ese número reducido de dimensiones. – Análisis de agrupamiento, clasificación o cluster. Permiten la búsqueda de grupos similares lo más homogéneos posible para clasificar los elementos en estudio. Lección 2 4 Métodos de análisis multivariado (4). Métodos de ordenación Análisis de Componentes Principales (ACP) Análisis discriminante (AD) Análisis de agrupamiento • • • • Técnicas exclusivas vs. no exclusivas. Técnicas jerárquicas vs. no jerárquicas. Técnicas aglomerativas vs. divisivas Técnicas secuenciales vs. simultáneas Análisis discriminante canónico (ADC) Análisis de coordenadas principales (ACOORP) Análisis factorial de correspondencias (AFC) Lección 2 5 Métodos de análisis multivariado (5). Otra clasificación de los métodos de análisis multivariado • Técnicas dirigidas por las variables: Técnicas que se enfocan primordialmente en las relaciones que podrían existir entre las variables respuesta que se están midiendo • Técnicas dirigidas por los individuos:Se interesan principalmente en las relaciones que podrían existir entre las unidades experimentales (UBC) que se están midiendo, o en ambos. Técnica ACP Técnica dirigida por ... variables Lección 2 AD individuos ADC individuos Cluster variables 6 Métodos de análisis multivariado (6). Otra clasificación (2) de los métodos de análisis multivariado • De dependencia: Una variable o conjunto de variables es identificado como dependiente de otro conjunto conocidas como independiente o predictor. • De interdependencia: Ninguna variable o grupo de variables es definido como independiente o dependiente y, el procedimiento implica en análisis simultaneo de todo el conjunto de variables. Técnica Tipo Lección 2 ACP interdependencia AD ADC dependencia dependencia Cluster interdependencia 7 Métodos de análisis multivariado (7). Tipos de problemas que resuelven cada uno de los métodos de análisis multivariado más utilizados en caracterización de material vegetal . Tipo de problema ACP AD ADC Cluster Exploración relaciones entre variables si no no no Cribado de datos si no no posible Creación de nuevas variables si no si no Predicción de ser miembro de un grupo no si si si posible no no no Verificación de agrupamientos si no no si Reducción de la dimensionalidad si no si no Comparación de grupos de variables Lección 2 8 Métodos de análisis multivariado (8). Tipos de variables a las que se aplica cada método de análisis . Método Tipo de variables ACP Cuantitativas AD Variable dependiente categórica e independientes cuantitativas ADC ACOORP Cualitativas Cluster Cualitativas o cuantitativas Lección 2 9 Métodos de análisis multivariado (9). RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL. •Análisis de componente principales (ACP). Herramienta para cribar datos de variables múltiples. Permite reducir la dimensionalidad. Se pueden identificar, de las variables originales, cuales son las que más influyen en la separación de las UBC. A partir de un conjunto de variables correlacionadas se crea un nuevo conjunto de variables no correlacionadas (CP) Sobre los CP se pueden proyectar las UBC y el operador puede definir agrupamientos •Análisis de agrupamientos, clasificación o cluster. – Se utiliza para clasificar las UBC en subgrupos definidos de manera única. Lección 2 10 Métodos de análisis multivariado (10). RESUMEN DE LOS MÉTODOS DE ANÁLISIS MUTIVARIADOS UTILIZADOS EN CARACTERIZACIÓN DE MATERIAL VEGETAL (2) •Análisis discriminante (AD) – Se utiliza para clasificar UBC en dos o más grupos definidos de manera única (variable dependiente categórica o no métrica) a partir de variables independientes métricas o cuantitativas. – El análisis discriminante canónico (ADC) crea nuevas variables que contienen toda la información útil para la discriminación de la que se dispone en las variables originales. – Las nuevas variables conducen a reglas más sencillas para clasificar las UBC en los diferentes grupos. – Se diferencia del análisis de agrupamientos en que en el AD desde un principio se sabe cuántos grupos existen y se tienen datos que provienen de cada uno de estos grupos, y en el cluster se usan técnicas que que producen clasificaciones a partir de datos que inicialmente no están clasificados. Lección 2 11 Concepto de taxonomía numérica. Cuando el análisis multivariado del estado de los caracteres en individuos, se utiliza para averiguar la afinidad o similitud entre unidades taxonómicas y para agrupar estas unidades en taxones, se habla de “Taxonomía numérica” (Sneath y Sokal, 1973), ... y a las Unidades Básicas de Caracterización se les denomina Unidades Taxonómicas Operativas (UTO) Pero en muchos análisis multivariados el objetivo no es delimitar taxones ni analizar la afinidad o similitud entre unidades taxonómicas para plantear una revisión de la sistemática de un taxon (género o especie) ... sino analizar (cuantificar y visualizar) la similitud entre accesiones de germoplasma Por eso no conviene generalizar la denominación de taxonomía numérica. Lección 2 12 Pasos elementales en un estudio multivariante de datos de caracterización vegetal: ACP cluster y ADC U.B.C. Caracteres o descriptores Toma del valor de cada carácter en cada UBC Construcción de la Matriz Básica de Datos Estimación del parecido: Similitud Construcción de la matriz de similitud que corresponda Aplicación de la técnica correspondiente Lección 2 13 Construcción de la MBD. •FILAS: U.B.C. (recomendado) ó Caracteres •COLUMNAS: Caracteres (recomendado) o U.B.C. Lección 2 14 Reducción de valores a una sola escala. Para los caracteres multi-estado cuantitativos continuos donde coexisten diferentes escalas de medida en relación a la misma U.B.C. • Procedimiento más utilizado: Estandarización. X ij a X ij ' b Xij es el valor del carácter i para la U.B.C. j a: Puede tomar diferentes valores. b: Puede tomar diferentes valores. Si a= media del carácter i; b= desviación estándar del carácter i se denominan puntuaciones Z (distribución normal estándar) • Realizar transformaciones logarítmicas Log10 Xij; Log10 (Xij + 1) Lección 2 15 Estimación de la Similitud/Disimilitud. • Coeficientes de similitud/disimilitud. – Permiten conocer la similitud o su complementario (disimilitud) de cada par posible de U.B.C. o caracteres (según corresponda) en una matriz básica de datos. • Clasificación de los coeficientes de similitud/disimilitud. – Coeficientes de distancia. – Coeficientes de correlación. – Coeficientes de asociación. Lección 2 16 Coeficientes de distancia. • M.B.D. Multiestado; Mixta. • CONCEPTO (explicado para el caso de que se calculen las distancias fenéticas entre U.B.C.): – Se basa en un espacio fenético de n dimensiones (=caracteres). – Las U.B.C. se sitúan en ese espacio fenético en función del valor que tenga en cada uno de los Caracteres. – Las diferencias entre las U.B.C. según los coeficientes de distancia, son proporcionales a la distancia a la que se encuentran en el espacio. UBC- UBCUBC- UBC- Lección 2 17 Coeficientes de distancia (2). • TIPOS DE COEFICIENTES DE DISTANCIA. NOMBRE Taxonomic distance Chi – square Euclidean distance Average manhattan distance Mean character difference Gower FORMULA MAXIMA SIMILITUD MINIMA SIMILITUD 0 1 Eij k xki xkj n 2 d ij Eij M ij k 1 xk xki xkj x i xj x k 2 Multi – estado Mixtos ki xkj 2 1 xki xkj n k 1 Eij k xki xkj n 2 sij w s w ijk ijk k k Lección 2 TIPO DE DATOS SOBRE LOS QUE SE APLICA ijk Específicamente utilizado para mixtos 18 Coeficientes de distancia (3). • TIPOS DE COEFICIENTES DE DISTANCIA (2). – Caso particular: Coeficiente de Crovello, que tiene en cuenta la variación dentro de cada U.B.C. n CD k 1 X ki 1 2 2 X kj S ki S kj 2 Xki: Media del carácter k para la O.T.U. i Ski: Desviación estándar del carácter k para la O.T.U. i. Xkj: Media del carácter k para la O.T.U. j Skj: Desviación estándar del carácter k para la O.T.U. j. Lección 2 19 Coeficientes de correlación. • M.B.D. Multiestado cuantitativos; Mixtos ( con abundancia de multiestado cuantitativos) • CONCEPTO (explicado para el caso de que se calculen las distancias fenéticas entre U.B.C.): – Los caracteres dos a dos constituyen un espacio bidimensional – Las U.B.C. se sitúan en ese espacio bidimensional, trazando las líneas que UBCpartiendo del origen de coordenadas pasan por las U.B.C. – Las diferencias entre las U.B.C. según los coeficientes de correlación son UBCproporcionales a los ángulos que forman esas líneas. Lección 2 20 Coeficientes de correlación (2). • TIPOS DE COEFICIENTES DE CORRELACIÓN. El signo indica el tipo de asociación (+) si es directa o (-) si es inversa. Lección 2 21 Coeficientes de asociación. • M.B.D.: Datos doble-estado; *algunos permiten datos multiestado cualitativos sin secuencia lógica. • CONCEPTO (explicado para el caso de que se calculen las distancias fenéticas entre U.B.C.): – A veces se denomina índice de similitud. – La comparación de los U.B.C. para un carácter doble-estado tiene cuatro posibilidades: • Que ambas tengan presente el carácter • Que ambas tengan ausente el carácter • Que esté presente en la 1ª y ausente en la 2ª • Que esté ausente en la 1ª y presente en la 2ª – Los coeficientes están basados en el número de veces que se repita, entre cada dos U.B.C. cada uno de los sucesos anteriores Lección 2 22 Coeficientes de asociación (2). • TIPOS DE COEFICIENTES DE ASOCIACIÓN. UBC- UBC- UBC- * * * Lección 2 23 Elección del tipo de coeficiente. • La elección depende del tipo de datos que contiene la M.B.D. En aquellos estudios en los que predominan los caracteres dobleestado, conviene transformar los datos multiestado restantes en datos doble-estado y utilizar coeficientes de asociación. En aquellos estudios en los que predominan los caracteres multiestado cuantitativos es aconsejable la estandarización y la utilización de coeficientes de distancia y correlación. Lección 2 24 Matriz de similitud/disimilitud. • Matriz diagonal constituida por los coeficientes de similitud/disimilitud entre todos los pares posibles de U.B.C. o caracteres, según la dirección de análisis UBC Lección 2 25 Matriz de similitud /disimilitud (2). • Matriz de similitud. – Valores 0 |x| 1. Lección 2 26 Matriz de similitud / disimilitud (3). • Matriz de disimilitud (distancia). – Valores 0 x . Lección 2 27 Reducción de datos mediante Análisis Componentes Principales (ACP). • El ACP es una técnica de Análisis Factorial (AF). • El AF sirve para encontrar grupos de variables, a partir de un conjunto numeroso de variables (=caracteres). Cuando tomamos información de un gran número de variables de forma simultánea, podemos preguntarnos si se agrupan de forma característica a partir de los resultados de las mediciones. Aplicando un AF a los datos podemos ser capaces de encontrar grupos de variables con significado común, y reducir así el número de dimensiones necesarias para explicar la variabilidad existente. Lección 2 28 Reducción de datos mediante ACP (2). • El ACP representa según un modelo lineal, un conjunto numeroso de variables originales (=caracteres) mediante un número reducido de variables hipotéticas, llamadas Componentes Principales. • El número máximo de Componentes es igual o menor al número de variables originales. • Características fundamentales de los Componentes Principales: – Son ortogonales entre si – No están correlacionados entre ellos – Cada componente contiene información de todos los caracteres en diferentes proporciones. • Primer componente es el que recoge mayor variabilidad. • De la variabilidad restante, el segundo es el que incluye más de ésta ... Lección 2 29 Reducción de datos mediante ACP (3). • Explicación intuitiva de la génesis de los C.P. para dos caracteres. – – – – Representación de las U.B.C. con respecto a dos caracteres correlacionados. Estandarización de los caracteres y nueva representación de las U.B.C Máxima separación entre las U.B.C. en una sola dimensión Proyección sobre una línea. Las líneas de proyección son los C.P. y corresponden con los ejes mayor y menor de la elipse definida por la nube de puntos correspondientes a las U.B.C. Si tres caracteres elipsoide en lugar de elipse. UBC- UBC- UBC- UBC- UBC- UBC- UBC F UBC E UBC A UBC F UBC G UBC G UBC E UBC B UBC- UBC H UBC H UBC- UBC D UBC B UBC D UBC C UBC A UBC C Lección 2 30 Reducción de datos mediante ACP (4). • En un caso general los C.P. se reconocen porque las distancias cuadráticas de las U.B.C. con respecto a ellos es mínima. • Reconocimiento de los C.P. desde el punto de vista matemático: • Cálculo de la matriz de correlación entre caracteres. • Matriz de varianza-covarianza cuando los caracteres estén originalmente expresados en la misma unidad de medida. A partir de las interrelaciones exhibidas por la matriz de correlación y mediante transformaciones matemáticas se construye un nuevo conjunto de variables denominados C.P. • En general para explicar un porcentaje alto de la variabilidad total se necesitarán más de 3 dimensiones que no pueden visualizarse, pero se les puede aplicar el tratamiento matemático. Lección 2 31 Pasos en la aplicación de la técnica ACP. 1. 2. 3. 4. 5. Lección 2 Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres). Extracción del número óptimo de Componentes Principales (C.P.) Obtención e interpretación de la matriz de componentes o matriz de estructura factorial. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada. Estimación de las puntuaciones de las U.B.C. sobre las nuevas variables (=Componentes Principales) y proyección de aquellas sobre éstas Sirve para visualizar las relaciones entre las UBC 32 Pasos en la aplicación de la técnica ACP (2). PASO 1: Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres) •OPCIÓN A: – Estandarización Para expresar todas las variables en la misma escala. – Calculo de la matriz de similitud entre las variables (es la matriz de correlación de caracteres). •OPCIÓN B: – Obtener una matriz de varianzas – covarianzas: Se da mayor peso a las variables que presentan varianzas más altas. Es necesario que las variables hayan sido medidas en unidades homogéneas. Ej. estudio morfométrico convencional: Hacer una transformación de logaritmo decimal Lección 2 33 Pasos en la aplicación de la técnica ACP (3). PASO 2. Extracción del número óptimo de Componentes Principales (CP) El método extrae tantos CP como variables iniciales (=caracteres) que explicarán el 100% de la varianza. Sin embargo para conseguir el objetivo reducir el número de dimensiones necesarias para explicar los datos, es necesario seleccionar un número de CP menor al número de variables iniciales. Lección 2 34 Pasos en la aplicación de la técnica ACP (4). PASO 2. Extracción del número óptimo de CP (2) La información necesaria para decidir el número óptimo se encuentra en la tabla de varianzas explicadas por el análisis que incluye la siguiente información: – Eigen-Valores (=autovalores; =valores propios) de cada CP: Es la sumatoria de las varianzas de todos los caracteres para dicho CP La varianza de un carácter para un determinado CP es el cuadrado de la contribución de un carácter para un componente. Los Eigen-Valores son diferentes para cada componente. El componente con mayor Eigen-Valor será el primero y así sucesivamente, ... Lección 2 – Porcentaje de la variación total que representa cada CP. – Porcentaje de la variación total acumulada en cada CP. 35 Pasos en la aplicación de la técnica ACP (5). PASO 2. Extracción del número óptimo de CP (3) EIGENVALORES Comp, Eigenvalor % variación V ariación acumulada 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 14,054 10,747 5,284 2,473 1,703 1,553 0,999 0,691 0,551 0,535 0,428 0,239 0,168 0,141 0,117 0,083 0,074 0,046 0,038 0,035 0,025 0,014 0,003 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 35,134 26,868 13,211 6,182 4,257 3,882 2,498 1,728 1,378 1,338 1,07 0,597 0,42 0,353 0,293 0,207 0,184 0,116 0,094 0,088 0,062 0,035 0,007 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 35,134 62,002 75,213 81,394 85,651 89,533 92,031 93,759 95,137 96,475 97,545 98,142 98,562 98,914 99,207 99,414 99,597 99,713 99,808 99,895 99,958 99,993 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 Lección 2 El Gráfico de sedimentación presenta gráficamente los eigenvalores de los CP, y facilita la determinación el número óptimo de factores (CP). 36 Pasos en la aplicación de la técnica ACP (6). PASO 2. Extracción del número óptimo de CP (4) Casos que pueden presentarse al analizar como evolucionan los eigen-vectores de los CP (o lo que es lo mismo el porcentaje de variación que acumula cada CP) – CASO 1: El investigador puede seleccionar con un amplio margen de seguridad el cp1. – CASO 2: Pueden seleccionarse los 4 primeros cp (cp1 a cp4). – CASO 3: Los resultados del ACP no permiten reducir la dimensionalidad. Lección 2 37 Pasos en la aplicación de la técnica ACP (7). PASO 3. Obtención e interpretación de la matriz de componentes o matriz de estructura factorial Está compuesta por los eiguen-vectores o correlaciones entre los factores (CP) y las variables (=caracteres) Son los valores de las saturaciones de las variables en cada uno de los CP, de donde se obtiene la siguiente información: • Qué caracteres están asociados • Qué caracteres caracterizan en el mismo sentido y en sentido contrario • Cuáles son los caracteres que más discriminan entre las UBC Lección 2 EIGENVECTORES Carácter LA LL LW/L LFF LUA LLA LL/AWP LPL LNL CLL CUL/LL CUS/LS CLS/UL CLS/US CLL/LW POL POW/OL PCS/SS PLP/TL POL/SLP SA SPL SPW/PL SCW/CL SCL/PL SCW/PW WA/SA WPL WPW/PL WCL/PL KA/SA KPL KPW/PL KCL/PL KAA FMPA FL FW/L FFF FNOV 1º componente 2º componente 3º componente 0.8877 0.8328 0.4686 0.5137 0.5602 0.2902 -0.0722 0.7925 0.7398 0.6861 0.8115 -0.0753 -0.5514 -0.0596 -0.1355 0.3163 -0.3434 0.0071 0.766 0.1976 -0.259 -0.5323 0.6834 -0.7834 0.908 0.7398 -0.7504 -0.6706 -0.1529 0.8744 -0.8572 -0.7501 -0.2644 0.9005 -0.085 -0.4534 0.0696 -0.759 -0.7834 -0.1262 0.2359 0.1296 -0.1682 -0.0697 -0.2932 0.1257 0.6278 0.36 -0.3193 0.3413 0.157 -0.9231 -0.5553 0.7397 -0.6968 0.7871 -0.6089 0.2465 -0.5814 0.2426 0.8733 0.7413 0.5833 0.4298 0.2646 0.2723 -0.058 0.6782 0.51 0.3097 -0.0867 0.5916 0.4039 0.2764 -0.8777 0.7611 0.8006 0.0336 0.0212 0.8615 0.0228 -0.1923 0.7456 0.688 0.5868 0.8208 -0.0669 0.3121 0.2734 -0.2823 -0.3486 0.0501 -0.2193 0.1413 -0.1635 0.0436 -0.197 0.7625 -0.1917 0.723 -0.2563 -0.1861 0.0119 0.1676 -0.2102 -0.1508 0.4529 -0.0894 0.6519 -0.2299 0.1519 -0.1194 0.5851 -0.2238 -0.1865 -0.2016 -0.2795 0.1402 0.1156 -0.2 38 Pasos en la aplicación de la técnica ACP (8). PASO 4. Obtención e interpretación de la matriz de componentes o matriz de estructura factorial (2) EIGENVECTORES Carácter LA LL LW/L LFF LUA LLA LL/AWP LPL LNL CLL CUL/LL CUS/LS CLS/UL CLS/US CLL/LW POL POW/OL PCS/SS PLP/TL POL/SLP SA SPL SPW/PL SCW/CL SCL/PL SCW/PW WA/SA WPL WPW/PL WCL/PL KA/SA KPL KPW/PL KCL/PL KAA FMPA FL FW/L FFF FNOV Lección 2 1º componente 2º componente 3º componente 0.8877 0.8328 0.4686 0.5137 0.5602 0.2902 -0.0722 0.7925 0.7398 0.6861 0.8115 -0.0753 -0.5514 -0.0596 -0.1355 0.3163 -0.3434 0.0071 0.766 0.1976 -0.259 -0.5323 0.6834 -0.7834 0.908 0.7398 -0.7504 -0.6706 -0.1529 0.8744 -0.8572 -0.7501 -0.2644 0.9005 -0.085 -0.4534 0.0696 -0.759 -0.7834 -0.1262 0.2359 0.1296 -0.1682 -0.0697 -0.2932 0.1257 0.6278 0.36 -0.3193 0.3413 0.157 -0.9231 -0.5553 0.7397 -0.6968 0.7871 -0.6089 0.2465 -0.5814 0.2426 0.8733 0.7413 0.5833 0.4298 0.2646 0.2723 -0.058 0.6782 0.51 0.3097 -0.0867 0.5916 0.4039 0.2764 -0.8777 0.7611 0.8006 0.0336 0.0212 0.8615 0.0228 -0.1923 0.7456 0.688 0.5868 0.8208 -0.0669 0.3121 0.2734 -0.2823 -0.3486 0.0501 -0.2193 0.1413 -0.1635 0.0436 -0.197 0.7625 -0.1917 0.723 -0.2563 -0.1861 0.0119 0.1676 -0.2102 -0.1508 0.4529 -0.0894 0.6519 -0.2299 0.1519 -0.1194 0.5851 -0.2238 -0.1865 -0.2016 -0.2795 0.1402 0.1156 -0.2 El gráfico de componentes representa gráficamente las saturaciones de las variables en cada uno de los CP y facilita la interpretación 39 Pasos en la aplicación de la técnica ACP (9). PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada Produce una rotación de los CP obtenidos con el objetivo de mejorar la interpretabilidad de la solución En la solución factorial el primer factor explica el máximo de la varianza común disponible en los datos, el segundo el máximo de la varianza común restante y así sucesivamente ( esto es para deshacer la indeterminación intrínseca a la solución del sistema homogéneo de ecuaciones que da lugar a los eigen-vectores.) Un efecto indeseable es que los primeros factores tienden a capitalizar la información de covariación contenida en la matriz de correlaciones, acumulando más información que la que les corresponde • Cuando cada variable se encuentra inequívocamente asignada a un solo factor no hay problema • Si las variables saturan en más de un factor la rotación ayuda a la interpretación Lección 2 40 Pasos en la aplicación de la técnica ACP (10). PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada (2) En el ejemplo se observa que tras la rotación: – Las variables pertenecientes al factor 2 se han aproximado más a él. – Las variables pertenecientes al factor 1 ahora están atravesadas por el eje – La variable nivel educativo se ha distanciado del factor 1 llevando a pensar que comparte información con el factor 2 Lección 2 41 Pasos en la aplicación de la técnica ACP (11). PASO 4. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada (3) Métodos de rotación: Clasificación de los métodos de rotación: – Rotación Ortogonal: Los factores rotados continúan siendo ortogonales. – Rotación Oblicua: Los factores rotados dejan de ser ortogonales. Método Varimax. Es el más utilizado Es un método de rotación ortogonal Minimiza el número de variables que tienen saturaciones altas en cada factor Simplifica la interpretación de los factores optimizando la solución por columna Lección 2 42 Visualización de las relaciones entre UBC: formación de grupos. • Metodologías para la formación de grupos de UBC utilizando análisis multivariado: – Análisis de agrupamiento. – Métodos de ordenación (Análisis de Componentes Principales). Lección 2 43 Visualización de las relaciones entre UBC: formación de grupos (2). • Análisis de agrupamiento. El análisis de agrupamiento comprende técnicas que, siguiendo reglas más o menos arbitrarias, forman grupos de U.B.C. que se asocian por su grado de similitud • Núcleo: Todo conjunto formado por dos U.B.C. • Grupo: Todo conjunto formado por más de dos U.B.C. Lección 2 44 Visualización de las relaciones entre UBC: formación de grupos (3) 1 2 8 9 5 6 7 3 10 4 18 20 23 21 22 24 19 11 13 12 15 16 14 17 0.00 0.50 1.00 1.50 2.00 Disimilitud Lección 2 45 Visualización de las relaciones entre UBC: formación de grupos (4). • Análisis de Componentes Principales. – El proceso de obtención de los Componentes Principales ya ha sido descrito en el apartado de reducción de datos con esta técnica. – La formación de grupos de U.B.C. mediante el ACP está basada en la representación de las mismas en un espacio multi-dimensional (2/3 dimensiones) formado por los primeros Componentes Principales (2/3). – Este método no traza límites en el espacio que separen grupos de U.B.C. Cuanto más cerca se encuentren entre si dos U.B.C. más estrechamente relacionados están. Lección 2 46 Visualización de las relaciones entre UBC: formación de grupos (5). 19 18 24 23 20 22 21 76 5 9 1612 15 11 14 13 17 4 2 8 3 10 1 Lección 2 47 Análisis de agrupamiento. • Clasificación general de técnicas. – – – – Técnicas jerárquicas vs. no jerárquicas. Técnicas secuenciales vs. simultáneas. Técnicas aglomerativas vs. divisivas. Técnicas exclusivas vs. no exclusivas. SAHN: Sequential, Agglomerative, Hierarchical, and Nested de grupo par Solamente puede ser admitida una U.B.C. o un grupo de U.B.C. por nivel Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 48 Análisis de agrupamiento (2). CLASIFICACIÓN PRIMARIA DE LAS TÉCNICAS DE ANÁLISIS DE AGRUPAMIENTOS. • Técnicas jerárquicas: Originan conjuntos que presentan rangos, en los cuales las U.B.C. o grupos de U.B.C. subsidiarios forman parte de un grupo mayor o inclusivo. • Técnicas no jerárquicas: Originan conjuntos que no exhiben rangos. Su uso se está incremetando. Requieren que el investigador elija centros móviles o individuos típicos (simientes) a partir de los cuales iniciar el proceso de aglomeración. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 49 Análisis de agrupamiento (3). ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS. • Técnicas secuenciales: Se forma un grupo de cada vez, hasta que se agota el conjunto total. • Técnicas simultáneas: Los grupos se forman simultáneamente en una sola operación. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 50 Análisis de agrupamiento (4). ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS. • Técnicas aglomerativas: Son las que partiendo de n U.B.C. separadas, las agrupa en sucesivos conjuntos (siempre en un número < n) para llegar finalmente a un solo conjunto que contiene a las n unidades. • Técnicas divisivas: Son aquellas que partiendo de un conjunto que contiene a las n U.B.C. las divide en subconjuntos. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 51 Análisis de agrupamiento (5). ANÁLISIS DE LA CLASIFICACIÓN GENERAL DE TÉCNICAS. • Técnicas exclusivas: Originan grupos donde las U.B.C. son exclusivas del grupo del cual forman parte y no pueden pertenecer a otro grupo que se halle en un mismo rango o nivel. • Técnicas no exclusivas: Originan grupos donde las U.B.C. pueden pertenecer a más de un grupo en un mismo nivel o rango. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 52 Descripción del proceso de agrupamiento. 1. 2. Examen de la matriz de similitud para localizar el valor de similitud más alto Formación del primer núcleo Se busca el próximo valor de mayor similitud, lo que puede suponer: – – – 3. Formación de nuevos núcleos Incorporación de una nueva U.B.C. a un núcleo Fusión de núcleos existentes Se repite la segunda etapa Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 53 Tipos de ligamiento (etapa 2). 2) • • • • Ligamiento simple. Ligamiento completo. Ligamiento promedio. De Ward Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 54 Ligamiento simple. Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C. integrante del grupo o núcleo más parecido a ella. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será igual a la máxima similitud hallada entre dos U.B.C. provenientes una de cada grupo o núcleo. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 55 Ligamiento simple (2). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 0,68 0 1,65 1,8 0 1,19 1,31 1,22 0 1,58 1,72 1,01 1,21 0 1,59 1,06 1,18 1,12 0,99 0 1,7 1,84 1,23 1,13 1,13 0,73 0 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 56 Ligamiento simple (3). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. 0 B. car. 0,68 0 B. chil. 1,65 1,8 0 B. bon. 1,19 1,31 1,22 0 B. ret. 1,58 1,72 1,01 1,21 0 B. fol. 1,59 1,66 1,18 1,12 0,99 0 B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0 B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. 0 B. car. 0,68 0 B. chil. 1,65 1,8 0 B. bon. 1,19 1,31 1,22 0 B. ret. 1,58 1,72 1,01 1,21 0 B. fol. 1,59 1,66 1,18 1,12 0,99 0 B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0 B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 1,59 1,7 1,67 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 57 Ligamiento simple (4). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 1,59 1,7 1,67 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 58 Ligamiento simple (5). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 1,59 1,7 1,67 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 1,59 1,7 1,67 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 B. arb. B. fol. B. car. B. chil. B. bon. B. ret. B. sch. B. sch. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 0 1,22 1,01 0 1,21 0 1,59 1,67 1,18 1,57 1,12 1,52 0,99 1,53 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 59 Ligamiento simple (6). B. arb. B. car. B. chil. B. bon. B. ret. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. fol. B. sch. B. sch. 0 1,65 1,19 1,58 0 1,22 1,01 0 1,21 0 1,59 1,67 1,18 1,57 1,12 1,52 0,99 1,53 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 60 Ligamiento simple (7). B. arb. B. car. B. chil. B. bon. B. ret. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. fol. B. sch. B. sch. 0 1,65 1,19 1,58 0 1,22 1,01 0 1,21 0 1,59 1,67 1,18 1,57 1,12 1,52 0,99 1,53 0 1,27 0 B. arb. B. car. B. chil. B. bon. B. ret. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. fol. B. sch. B. sch. 0 1,65 1,19 1,58 0 1,22 1,01 0 1,21 0 1,59 1,67 1,18 1,57 1,12 1,52 0,99 1,53 0 1,27 0 B. ret. B. arb. B. fol. B. car. B. chil. B. bon. B. sch B. sch. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 0 1,22 0 1,58 1,67 1,01 1,57 1,12 1,52 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 61 Ligamiento simple (8). B. ret. B. arb. B. B. fol. B. car. B. chil. bon. B. sch B. sch. B. B. B. B. B. B. B. B. arb. car. chil. bon. ret. fol. sch. sar. 0 1,65 1,19 0 1,22 1,58 1,67 1,01 1,12 1,57 1,52 0 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 62 Ligamiento simple (9). B. ret. B. B. arb. B. fol. B. car. B. chil. bon. B. sch B. sch. B. B. B. B. B. B. B. B. arb. car. chil. bon. ret. fol. sch. sar. 0 1,65 1,19 0 1,22 1,58 1,67 1,01 1,12 1,57 1,52 0 B. B. B. B. B. B. B. B. B. ret. B. arb. B. B. fol. B. car. B. chil. bon. B. sch B. sch. B. B. B. B. B. B. B. 0 B. arb. 0 car. chil. 1,65 0 bon. 1,19 1,22 0 ret. fol. 0 1,58 1,01 1,12 sch. 1,27 sar. 1,67 1,57 1,52 B. chil. B. ret. B. arb. B. B. fol. B. car. bon. B. sch B. sch. arb. car. 0 bon. 1,19 0 chil. ret. fol. sch. 1,58 1,12 0 sar. 1,67 1,52 1,27 0 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 63 Ligamiento simple (10). B. B. B. B. arb. B. car. B. bon. B. B. B. B. B. B. B. B. B. arb. car. bon. chil. ret. fol. sch. sar. 0 1,19 0 1,58 1,67 1,12 1,52 chil. ret. fol. sch B. sch. 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 64 Ligamiento simple (11). B. arb. B. car. B. arb. B. car. B. bon. B. chil. B. ret. B. fol. B. sch. B. sar. B. B. B. B. bon. B. 0 1,19 0 1,58 1,67 1,12 1,52 chil. ret. fol. sch B. sch. 0 1,27 0 B. chil. B. ret. B. arb. B. fol. B. car. B. bon. B. sch B. sch. B. arb. B. car. B. bon. B. chil. B. ret. B. fol. B. sch. B. sar. B. B. B. B. B. B. arb. B. car. B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. B. sar. 0 1,19 0 1,58 1,67 1,12 1,52 0 1,27 0 bon chil. ret. fol. sch B. sch. 0 1,19 1,67 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 65 Ligamiento simple (12). B. B. B. B. B. B. arb. B. car. B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. B. sar. bon chil. ret. fol. sch B. sch. 0 1,19 1,67 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 66 Ligamiento simple (13). B. B. B. B. B. B. arb. B. car. B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. B. sar. bon chil. ret. fol. sch B. sch. B. arb. B. car. 0 1,19 1,67 0 1,27 B. B. B. B. B. B. B. B. B. B. B. B. 0 B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. B. sar. arb. car. bon chil. ret. fol. sch B. sch. 0 1,27 B. arb. B. car. B. bon B. chil. B. ret. B. fol. B. sch. B. sar. bon chil. ret. fol. sch B. sch. 0 1,19 1,67 0 1,27 0 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 67 Ligamiento simple (14). B. B. B. B. B. B. B. B. B. B. B. B. B. B. B. arb. car. bon chil. ret. fol. sch. sar. arb. car. bon chil. ret. fol. sch B. sch. 0 1,27 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 68 Ligamiento completo. Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a la similitud entre el candidato y la U.B.C. integrante del grupo o núcleo menos parecido a ella. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será igual a la mínima similitud hallada entre dos U.B.C. provenientes una de cada grupo o núcleo. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 69 Ligamiento completo (2). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 0,68 0 1,65 1,8 0 1,19 1,31 1,22 0 1,58 1,72 1,01 1,21 0 1,59 1,06 1,18 1,12 0,99 0 1,7 1,84 1,23 1,13 1,13 0,73 0 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 LS Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 70 Ligamiento completo (3). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. 0 B. car. 0,68 0 B. chil. 1,65 1,8 0 B. bon. 1,19 1,31 1,22 0 B. ret. 1,58 1,72 1,01 1,21 0 B. fol. 1,59 1,66 1,18 1,12 0,99 0 B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0 B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. 0 B. car. 0,68 0 B. chil. 1,65 1,8 0 B. bon. 1,19 1,31 1,22 0 B. ret. 1,58 1,72 1,01 1,21 0 B. fol. 1,59 1,66 1,18 1,12 0,99 0 B. sch. 1,7 1,84 1,23 1,13 1,13 0,73 0 B. sar. 1,67 1,74 1,57 1,52 1,53 1,27 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,8 1,31 1,72 1,66 1,84 1,74 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 71 Ligamiento completo (4). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,65 1,19 1,58 1,59 1,7 1,67 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 LS Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 72 Ligamiento completo (5). B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,8 1,31 1,72 1,66 1,84 1,74 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,8 1,31 1,72 1,66 1,84 1,74 0 1,22 1,01 1,18 1,23 1,57 0 1,21 1,12 1,13 1,52 0 0,99 1,13 1,53 0 0,73 1,27 0 1,55 0 B. arb. B. fol. B. car. B. chil. B. bon. B. ret. B. sch. B. sch. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,8 1,31 1,72 0 1,22 1,01 0 1,21 0 1,84 1,74 1,23 1,57 1,13 1,52 1,13 1,53 0 1,55 0 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 73 Ligamiento completo (6). B. arb. B. fol. B. car. B. chil. B. bon. B. ret. B. sch. B. sch. B. arb. B. car. B. chil. B. bon. B. ret. B. fol. B. sch. B. sar. 0 1,8 1,31 1,72 0 1,22 1,01 0 1,21 0 1,84 1,74 1,23 1,57 1,13 1,52 1,13 1,53 0 1,55 0 LS Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 74 Ligamiento completo (7). LS Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 75 Ligamiento promedio. Las U.B.C. se incorporan a grupos o núcleos ya formados, teniendo en cuenta que el valor de similitud entre las U.B.C. candidato a incorporarse y el grupo o núcleo es igual a una similitud promedio resultante de los valores de similitud entre el candidato y cada uno de los integrantes del grupo o núcleo. Si el candidato a incorporarse es un grupo o núcleo, el valor de similitud será el promedio de los valores de similitud entre los pares posibles de U.B.C. provenientes una de cada grupo o núcleo. Existen varios tipos de medias. La más utilizada es UPGMA (Unweighted pair-group method using aritmetic averages) “Media aritmética no ponderada”) Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 76 Ligamiento promedio (2). LS LC Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 77 Método de la varianza mínima de Ward Distancia entre dos agrupamientos: Cuadrado de la distancia entre las medias de esos agrupamientos ... ... dividida entre la suma de los recíprocos de la cantidad de puntos que se encuentra dentro de cada uno de éstos También se conoce como el método de la varianza mínima porque ... ... al considerar los valores al cuadrado, se vuelve un método muy sensible Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 78 Pasos en la aplicación de la técnica de análisis de agrupamientos. • PASO 1: Estandarización / Transformación Todos los caracteres deben estar expresados en la misma escala. • PASO 2: Calculo de la matriz de similitud entre las UBC. • PASO 3: Construcción del dendrograma previa elección del método de ligamiento. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 79 Validación del análisis de agrupamiento. Métodos: • Medida de la distorsión mediante el coeficiente de correlación cofenética. • Bootstrapping (Método de remuestreo). Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 80 Validación del análisis de agrupamiento (2). Coeficiente de correlación cofenética. •Procedimiento. – Determinación de una nueva matriz de similitud a partir de los valores del fenograma “matriz cofenética.” – La comparación de la matriz original y la cofenética mediante el coeficiente de correlación del momento-producto origina el “coeficiente de correlación cofenética.” •Información proporcionada por la técnica. – Es una medida de la distorsión interna de la técnica. – No da información acerca de la bondad de la agrupación taxonómica obtenida. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 81 Validación del análisis de agrupamiento (3). Bootstrapping. Procedimiento. – Para cada UBC se toma el valor correspondiente a cada carácter, uno por uno, con reemplazo, elaborando una muestra de igual tamaño que el número de caracteres. Existe la posibilidad de que se seleccione un carácter una o más veces – En cada muestra se calcula una matriz de similtitud. – Se calculan las similitudes promedio y sus desviaciones estándar para cada par de U.B.C., y se elabora una matriz de similitud promedio – Se construye un nuevo dendrograma, empleando la matriz de similitud promedio – En situaciones reales deben generarse más de 100 muestras con reemplazo. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 82 Interpretación de un dendrograma. 1 2 8 9 5 6 7 3 10 4 18 20 23 21 22 24 19 11 13 12 15 16 14 17 0.00 0.50 1.00 1.50 2.00 Disimilitud 1 2 3 5 6 7 8 9 10 4 12 13 14 15 16 17 18 11 19 21 22 23 24 25 20 10 0.00 0.25 Similitud 0.50 0.75 1.00 Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 83 Interpretación de un dendrograma (2). Definición del número de grupos: • Si el diagrama es claro basta la simple observación • El conocimiento profundo de la especie vegetal: Botánica, agronomía y distribución, permite al agrónomo interpretar los resultados Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 84 Interpretación de un dendrograma (3). Definición del número de grupos: • Estimación de las distancias entre U.B.C. con el coeficiente 2 que cuenta con una prueba de hipótesis para saber el grado de similitud existente entre pares de UBC. A partir de las tablas de 2 con un grado de libertad, usando como el nivel de similitud • Usar la pseudoestadística T2 de Hotelling que se usa para comparar las medias de dos agrupamientos Si las medias de dos agrupamientos no son significativamente diferentes, esos dos agrupamientos podrían combinarse. Si la diferencia entre las medias es significativa, entonces los agrupamientos no deben combinarse Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 85 Interpretación de un dendrograma (4). Comparación mediante un ANOVA las medias de cada carácter en los diferentes agrupamientos: Esto permite averiguar que caracteres están influyendo en la formación de los grupos. El análisis conjunto de todos los caracteres puede ayudar a tomar decisiones a la hora de definir grupos Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 86 Agrupamiento por variables (=caracteres) en lugar de por UBC. Utilidad: • Permite averiguar qué caracteres están altamente correlacionados. • Puede generar ideas e hipótesis sobre el origen, valor selectivo y patrones de variación de los caracteres. • Permite determinar posibles complejos adaptativos. Visualización de relaciones entre UBC: Análisis de agrupamiento Lección 2 87 Utilización del ACP para visualizar las relaciones entre UBC. Como ya se indicó anteriormente, los pasos a realizar en un ACP son: 1. 2. 3. 4. 5. Cálculo de una matriz que contenga la variabilidad conjunta de todas las variables (=caracteres). Extracción del número óptimo de Componentes Principales (C.P.) Obtención e interpretación de la matriz de componentes o matriz de estructura factorial. Rotación de la solución factorial y repetición de los puntos 2 y 3 para la solución rotada. Estimación de las puntuaciones de las U.B.C. sobre las nuevas variables (=Componentes Principales) y proyección de aquellas sobre éstas. Visualización de relaciones entre UBC: Métodos de ordenación (ACP) Lección 2 88 Utilización del ACP para visualizar las relaciones entre UBC (2). El paso 5 consiste en: • Obtener las puntuaciones factoriales de las UBC sobre los Componentes Principales Existen varios métodos: • Método de proyección • Método de regresión • Puntuaciones de Bartlett • Método de Anderson-Rubin 19 18 24 23 20 22 21 1612 15 11 14 13 17 76 5 9 2 8 4 3 10 • Dibujar el gráfico. 1 Visualización de relaciones entre UBC: Métodos de ordenación (ACP) Lección 2 89 Reducción de datos y agrupación de UBC mediante Análisis Discriminante Canónico (ADC). • El CDA necesita que existan dos o más grupos de UBC realizadas a priori, típicamente suelen ser los orígenes del germoplasma. • Se trata de encontrar una buena función discriminante que sea una combinación lineal de las variables originales. Cuando aplicamos la función a un dato nuevo nos dice a que grupo pertenece. • Geométricamente se busca una buena dirección sobre la que proyectar los datos de los grupos conocidos y de los que queremos clasificar. Reducción de dimensiones y agrupación de UBC con ADC Lección 2 90 Pasos en la aplicación de la técnica ADC. 1. 2. 3. 4. 5. 6. Cálculo de una matriz de varainzas-covarianzas para cada uno de los grupos realizados a priori. Extracción de las funciones canónicas discriminantes. Determinar la puntuación canónica discriminante de cada nuevo dato (x0): Se trata de la proyección de dicho dato en la dirección discriminante. Determinación de los centroides: puntuaciones canónicas discriminantes de los vectores de medias. Cálculo las distancias de Mahalanobis entre los centroides de los grupos y obtención de la significación de esa distancia. Comprobación de la bondad de la regla de clasificación creada mediante la prueba de resustitución, que permite saber cuantas UBC se clasifican bien y cuantas se clasifican mal. Reducción de dimensiones y agrupación de UBC con ADC Lección 2 91 Pasos en la aplicación de la técnica ADC (2). PASO 2: Extracción de las funciones canónicas discriminantes (o raíces canónicas) % de % Correlación La primera información que se obtiene Función Autovalor varianza acumulado canónica es la tabla de autovalores 8.399 55.6 55.6 0.945 1 3.480 23.1 78.7 0.881 (eigenvalores o varianzas explicadas) 2 1.607 10.6 89.3 0.785 3 que indica la variabilidad recogida por 1.125 7.4 96.8 0.728 4 varias funciones canónicas 0.485 3.2 100.0 0.572 5 También se obtienen: ― Los coeficientes estandarizados de cada una de las funciones canónicas Lección 2 Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 2 3 4 5 NDL 0.360 0.539 0.380 -0.119 0.073 NFR 0.492 0.600 -0.268 0.764 -0.179 LDPD -0.358 0.335 -0.028 -0.429 0.827 PDF -1.018 -0.071 0.596 0.783 0.363 DDF 1.312 -0.497 -0.120 -0.069 0.137 NGPF -0.304 -0.401 -0.405 -0.307 0.369 AGPF -0.160 -0.013 0.757 -0.345 -0.261 LDGF 0.573 0.530 -0.036 -0.075 -0.196 Reducción de dimensiones y agrupación de UBC con ADC 92 Pasos en la aplicación de la técnica ADC (3). PASO 2: Extracción de las funciones canónicas discriminantes (o raíces canónicas) (2) Matriz de estructura ― Matriz de estructura que Función 1 2 3 4 5 contiene, por filas, los eigen LDP 0.129 0.096 -0.037 0.110 0.037 vectores o coeficientes NDL 0.366 0.466 0.241 -0.120 0.031 NGPF -0.030 -0.202 -0.167 0.010 0.167 de correlación de las funciones LDH 0.127 0.201 0.021 0.108 0.012 discriminantes con las variables ADH 0.067 0.156 -0.020 0.062 0.107 originales. AGPF -0.069 -0.084 0.655 -0.144 -0.160 Permite averiguar la correlación entre las variables orginales Permite conocer las variables que más influyen en las diferentes funciones canónicas PDF DDG PDP LDGF LDF NFR LDPD DDF PGPF -0.030 0.039 0.006 0.094 -0.010 0.057 -0.082 0.539 -0.035 -0.241 0.008 -0.114 0.161 -0.214 0.355 0.324 -0.488 -0.154 0.557 0.541 0.465 0.339 0.280 -0.249 -0.016 0.348 0.350 0.545 0.039 0.285 -0.096 0.117 0.559 -0.216 0.214 -0.015 0.467 0.118 0.396 0.098 0.203 0.040 0.819 0.539 0.485 Reducción de dimensiones y agrupación de UBC con ADC Lección 2 93 Pasos en la aplicación de la técnica ADC (4). PASO 3: Determinación de la puntuación canónica discriminante de cada nuevo dato (x0): Se trata de la proyección de dicho dato en la dirección discriminante. PASO 4: Determinación de los centroides: puntuaciones canónicas discriminantes de los vectores de medias. Reducción de dimensiones y agrupación de UBC con ADC Lección 2 94 Pasos en la aplicación de la técnica ADC (5). PASO 5: Cálculo las distancias de Mahalanobis entre los centroides de los grupos y obtención de la significación de esa distancia LOCALIDAD 1 F Sig. 2 F Sig. 3 F Sig. 4 F Sig. 5 F Sig. 6 F Sig. 1 2 10.487 .000 3 7.508 .000 6.154 .000 10.487 .000 7.508 6.154 .000 .000 11.763 6.643 6.083 .000 .000 .000 31.801 34.849 23.856 .000 .000 .000 21.264 15.016 15.563 .000 .000 .000 4 5 6 11.763 31.801 21.264 .000 .000 .000 6.643 34.849 15.016 .000 .000 .000 6.083 23.856 15.563 .000 .000 .000 37.630 14.819 .000 .000 37.630 22.624 .000 .000 14.819 22.624 .000 .000 Reducción de dimensiones y agrupación de UBC con ADC Lección 2 95 Pasos en la aplicación de la técnica ADC (6). • PASO 6: Comprobación de la bondad de la regla de clasificación creada mediante la prueba de resustitución, que permite saber cuantas UBC se clasifican bien y cuantas se clasifican mal Original Resultados de la clasificacióna LOCALIDAD Grupo de pertenencia pronosticado 1 2 3 4 5 1 10 0 0 0 0 2 0 9 0 1 0 3 0 0 9 1 0 Recuento 4 0 0 1 9 0 5 0 0 0 0 10 6 0 0 0 0 0 1 100.0 0.0 0.0 0.0 0.0 2 0.0 90.0 0.0 10.0 0.0 3 0.0 0.0 90.0 10.0 0.0 % 4 0.0 0.0 10.0 90.0 0.0 5 0.0 0.0 0.0 0.0 100.0 6 0.0 0.0 0.0 0.0 0.0 Reducción de dimensiones y agrupación de UBC con ADC Lección 2 96 Congruencia de los resultados obtenidos. CONCEPTO: Se entiende por congruencia del resultado de un estudio de caracterización de germoplasma con métodos multivariados, al grado de correspondencia entre diferentes clasificaciones de un mismo conjunto de U.B.C. Lección 2 Análisis de resultados 97 Planteamiento experimento congruencia. • Variar la metodología. Realizar la clasificación a partir de un determinado conjunto de caracteres, utilizando dos técnicas diferentes. Se pretende determinar cuales son las técnicas clasificatorias que permiten obtener resultados más semejantes entre si. Lección 2 Análisis de resultados 98 Planteamiento experimento congruencia (2). • Variar la fuente de caracteres. Realizar la clasificación a partir de dos conjuntos de caracteres diferentes, utilizando la misma técnica. Se pretende determinar cuál es el grado de interdependencia causal entre diferentes tipos de caracteres. Lección 2 Análisis de resultados 99 Planteamiento experimento congruencia (3). • Combinar ambos sistemas anteriores. – Estudiar la congruencia entre clasificaciones basadas en diferentes conjuntos de caracteres utilizando la misma técnica. – Aplicar a cada uno de los conjuntos de caracteres otra técnica diferente. Se pretende determinar si diferentes tipos de caracteres proporcionan resultados congruentes utilizando una determinada técnica e incongruentes con otra. Lección 2 Análisis de resultados 100 Evaluación de la congruencia. • Midiendo la coincidencia entre las matrices de similitud. – Mediante coeficientes de correlación. – Mediante coeficientes de discordancia. • Midiendo la coincidencia entre las estructuras taxonómicas derivadas de las matrices de similitud. – Coeficiente de distorsión. – Índice de consenso. Lección 2 Análisis de resultados 101 Evaluación de la congruencia (2). • Comparación visual, sin ningún tipo de medición, de los resultados gráficos obtenidos. – Ejemplo: Comparar un dendrograma (=resultado gráfico de un análisis de agrupamiento) con la gráfica bidimensional o tridimensional de proyección de las U.B.C. sobre las 2/3 primeras Componentes Principales. Para ello se precisará que estas 2/3 componentes expliquen la mayor parte de la variabilidad existente Lección 2 Análisis de resultados 102 Causas de las incongruencias clasificatorias. Particularizando para un caso de estudios taxonómicos, las principales causas son: • Causas biológicas. – Diferente actividad de los genes en diferentes células de un mismo organismo – Plasticidad fenotípica. – Mutaciones somáticas. – Diferentes presiones de selección – Evolución en mosaico: La velocidad de evolución de los diferentes tipos de caracteres es diferente • Causas metodológicas. – Determinación de homologías – Cantidad y calidad de los caracteres. – Codificación de los caracteres. En estudios taxonómicos deben seleccionarse caracteres con valor filogenético Lección 2 Análisis de resultados 103 Caract. morfológicos: Capacidad discriminante. • Los caracteres que alcanzan la misma expresión para todas la U.B.C. son NO DISCRIMINANTES. • Los caracteres que alcanzan diferentes expresiones para las diferentes U.B.C. se consideran DISCRIMINANTES. • Los caracteres que alcanzan la misma expresión para todas las U.B.C. salvo una son ALTAMENTE DISCRIMINANTES. Lección 2 Análisis de resultados 104 Caract. morfológicos: Estabilidad. ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS CARACTERES Y TODAS LAS UBC: Sirve para comparar la homogeneidad de resultados entre campañas (años). • Metodología: Comparación matrices de datos para: – Mismas U.B.C. – Mismos caracteres. • Interpretación de los resultados (Lapointe & Legendre, 1992) (1). – Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel 1%. (1) Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing independent phylogenetic trees. Systematic Biology, 41:378-384 Lección 2 Análisis de resultados 105 Caract. morfológicos: Estabilidad (2). EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE. Caracteres doble estado o multiestado cualitativos sin secuencia lógica o desordenados • Tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es entre dos niveles contiguos o entre dos niveles no contiguos. • Metodología para el cálculo de la inestabilidad de cada carácter (I) • Se calcula el % de inestabilidad a un nivel y a varios niveles (I). • I total (%) = [% de diferencias a un nivel + % de diferencias a más de un nivel] • Clasificación de los caracteres por su estabilidad: • Estables: I < 10% • Medio estables: 10% < I < 40% • Inestables: I > 40% Análisis de resultados Lección 2 106 Caract. morfológicos: Estabilidad (3). EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE (2). Caracteres multiestado cualitativos con secuencia lógica • No tiene el mismo peso la inestabilidad de un año a otro cuando el cambio de nivel es entre dos niveles contiguos o entre dos niveles no contiguos. • Metodología para el cálculo de la inestabilidad de cada carácter (I) • Se calcula el % de inestabilidad a 1 nivel y se divide por 8. • Se calcula el % de inestabilidad a 2 niveles y se divide por 4. • Se calcula el % de inestabilidad a 3 niveles y se divide por 2. • Se calcula el % de inestabilidad a más de 3 niveles I total (%) % dif . a 1 nivel % dif . a 2 niveles % dif . a 3 niveles % dif . a más de 3 niveles 8 4 2 • Clasificación de los caracteres por su estabilidad • Estables: I < 5% • Medio estables: 5% < I < 10% • Inestables: I > 10% Lección 2 Análisis de resultados 107 Caract. morfológicos: Objetividad. Caracteres doble estado o multiestado cualitativos sin secuencia lógica o desordenados. • Metodología. • Tres observadores describen los caracteres. • Se calcula el porcentaje de discrepancias a un nivel y a varios niveles (D) para cada uno de los años. • D total (%). • Clasificación de los caracteres por su objetividad: • Objetivos: D < 10%. • Objetividad media: D < 10% un año, D > 10% otro. • Subjetivos: D > 10%. Análisis de resultados Lección 2 108 Caract. morfológicos: Objetividad (2). Caracteres multiestado cualitativos con secuencia lógica. • Metodología • Tres observadores describen los caracteres, y para cada carácter se establecen cuatro niveles de objetividad: • PRIMER NIVEL: Coincidencia al 100%. Los tres observadores califican con el mismo nivel de expresión un determinado carácter. • SEGUNDO NIVEL: Discrepancia al 10% entre operadores (un nivel de expresión sobre 10 posibles) • TERCER NIVEL: Discrepancia entre el 10% y el 30% (entre 1 y 3 niveles). • CUARTO NIVEL: Discrepancia superior al 30% (más de 3 niveles). Análisis de resultados Lección 2 109 Caract. morfológicos: Objetividad (3). Caracteres multiestado cualitativos con secuencia lógica (2). • Clasificación de los caracteres por su objetividad: • Objetivos: Porcentaje objetividad de primer y segundo nivel es superior al 90% • De objetividad media: Uno de los años el porcentaje de objetividad de primer y segundo nivel es superior al 90% y el otro menor. • Subjetivos: El porcentaje de objetividad de primer y segundo nivel es inferior al 90%. Análisis de resultados Lección 2 110 Caract. morfométricos: Capacidad discriminante. • Analizando los valores de los eigen-vectores sobre los tres primeros componentes principales en el estudio de ANÁLISIS DE COMPONENTES PRINCIPALES. Análisis de resultados Lección 2 111 Caract. morfométricos: Estabilidad. ANÁLISIS CONJUNTO DE LA ESTABILIDAD PARA TODOS LOS CARACTERES: Sirve para comparar la homogeneidad de los caracteres entre campañas (años). • Metodología: Comparación matrices de datos para: – Mismas U.B.C. – Mismos caracteres. • Interpretación de los resultados (Lapointe & Legendre, 1992) (1). – Si el coeficiente “r” es superior a 0,5 será estadísticamente significativo al nivel 1%. (1) Lapointe, F.J., Legendre, P. 1992. Statistical significance of the matrix correlation coefficient for comparing independent phylogenetic trees. Systematic Biology, 41:378-384 Análisis de resultados Lección 2 112 Caract. morfométricos: Estabilidad (2). EVALUACIÓN DE LA ESTABILIDAD DE LOS DIFERENTES CARACTERES INDIVIDUALMENTE. • Metodología para el cálculo de la inestabilidad de cada carácter: Cálculo de la Variación Media. Variación Media Suma de diferencias en valor absoluto x100 Media de las Sumas Totales • Clasificación de los caracteres por su estabilidad: • Estables: Variación media < 5% • Medio estables: 5% < Variación media < 15% • Inestables: Variación media > 15% Análisis de resultados Lección 2 113 Lección 2 114