guionC21 14/11/2015 1 C) CLASIFICACIÓN SOBRE COMPONENTES PRINCIPALES con SPAD 2.1 Definición de estándares para fabricación de máscaras antigás en el ejército suizo. Recordemos que se han tomado diferentes medidas del cráneo con objeto de fabricar unas pocos modelos de máscaras antigás de forma que se adapten lo mejor posible a la mayor parte de los soldados. Es una continuación de las Prácticas A01 y A02. Se trata de una tarea en cuatro pasos: Realizaremos una clasificación ascendente jerárquica con el criterio de la inercia de Ward sobre las primeras Componentes Principales obtenidas en un A.C.P. y decidiremos cuál puede ser un número apropiado de máscaras. Estabilizaremos mediante centros móviles las clases obtenidas por cortes del árbol jerárquico analizando este proceso de estabilización. Fabricaremos un modelo de máscara para cada cluster utilizando las medidas promedio dentro de él. Indicaremos así las medidas más apropiadas para cada modelo de máscara Finalmente analizaremos la tipología asociada a cada modelo de máscara. Para ello utilizaremos la interpretación ya conocida en términos de las variables originales de las diferentes zonas de los planos factoriales y la posición de cada clase dentro de estos planos. _______________________ Pasemos a la acción. 1.1) Recupero el Filière craneo01.fil que contenía el ACP normado. Ventana SPAD > Filièr > Ouvrir filière > craneo01.fil, o lo contruyo de nuevo 1.2) Inserto Método Cluster ascendente jerárquico de Ward RECIP : Méthode > Inserer méthode : aparece el icono método 3 doble clic en icono método 3 y elijo método: Classification > Classification sur facteurs (RECIP ou SEMIS) guionC21 14/11/2015 2 1.3) Doy valores a los parámetros: doble clic en icono método 3 Recip/Semis … abre la ventana de clasificación sobre factores: Elijo método de clasificación: Marco Hiérarchique (RECIP) (clasificación jerárquica ascendente con el criterio de la inercia) desechando O Mixte (SEMIS) Elijo el número de coordenadas (componentes principales) a utilizar. Elijo qué fragmento (superior) del árbol deseo almacenar y describir. También puedo modificar los parámetro de edición, controlando así el grado de detalle que deseo como salida del la clasificación. En principio dejaremos los valores por defecto. Guardo Filière craneo01.fil y ejecuto. guionC21 14/11/2015 3 1.4) Un vistazo a las salidas de RECIP Doble clic en el icono amarillo para editar los resultados. Aparecen las diferentes tablas que hemos solicitado. Aquí tenemos la información completa paso a paso de la construcción del dendograma. Cuando el número de individuos es grande, las tablas detalladas resultan demasiado voluminosas y es preferible recurrir al histograma de los índices de agregación para elegir un número apropiado de clases. Una elección apropiada del número de clases, además del propio planteamiento del problema, deberá tener en cuenta también - la altura de corte del dendograma - el tamaño de las clases resultantes. - la separación entre ellas. Doble clic al icono azul para editar el dendograma. Aquí añadiremos líneas de corte a las alturas que hayamos decidido. 2.1) Cortamos el árbol : Inserto Método PARTI: Méthode > Inserer méthode : aparece el icono método 4 doble clic en icono método 4 y elijo método: Classification > > Coupure de l’arbre et description des classes (PARTI et DECLA) 2.2) Doy valores a los parámetros: doble clic en icono método 4 Parti-Decla … abre la ventana Particiones:Construcción y Caracterización… … que contiene 3 hojas. guionC21 14/11/2015 4 Hoja 1: Selección del corte. Escribo el número de clases del corte que me interesa … …o dejo que SPAD seleccione automáticamente un número de clases apropiado, comprendido entre dos valores. Hoja 2: Parámetros de la partición. Podemos consolidar por centros móviles las clases obtenidas al cortar el dendograma (opción por defecto) , y decidimos sobre la asignación o no de los individuos ilustrativos a la clase más próxima. Aparecen también en esta hoja los parámetros de edición de resultados. Puedo seleccionar: - Listado de individuos en cada clase. - Listado de individuos con la asignación a su clase. - Coordenadas factoriales de los centros de clase. guionC21 14/11/2015 5 Hoja 3: Caracterización de la partición. Seleccionamos los tipos de variables con las que caracterizar las clases y sus opciones Seleccionamos los tipos de variables con las que caracterizar la partición y sus opciones 2.3) Guardo Filière craneo01.fil y ejecuto. guionC21 14/11/2015 3) Trabajemos con los resultados: Tablas 3.1) Formación de las clases: Descripción somera: Centros de las clases antes de la consolidación: Consolidación de la partición: Evolución de la inercia durante el proceso de consolidación: 6 guionC21 14/11/2015 7 Centros de las clases después de la consolidación: Composición de cada clase: Lista de individuos con indicación de la clase a la que pertenece: ¿Problemas con el identificador de los individuos? ¿No aparece la cifra de las unidades? La solución es simple: Seleccionar Identificador largo… y ya está. guionC21 14/11/2015 8 3.2) Descripción de la partición. Caracterización de la partición por las variables continuas: Se ha realizado un ANOVA por cada variable original para comparar las medias en los clusters. Las variables se ordenan en sentido decreciente del estadístico F. Estadísticas de las variables continuas en cada clase: Información estadística sobre el comportamiento de cada variable en cada clase: TFH/ En cada clase y en total: nº individuos, media, desv. típica, mínimo, máximo. LTG/ lo mismo … Debo fabricar un modelo de máscara para cada cluster. El valor medio de cada variable en la clase será el que debo utilizar para su construcción. Así la máscara se ajustará lo mejor posible a los individuos de la clase globalmente. guionC21 14/11/2015 9 Caracterización de las clases por las variables continuas: Para cada clase: Variables con una media en la clase sigificativamente diferente a la media en la muestra completa (en + ó en -). V.TEST mide este alejamiento respecto de la media general Empezando por arriba, variables con valores más altos. Empezando por abajo, variables con valores más bajos. Tipología de la clase 1 / 4 : valores de MFB, BAM, LTN y LTG por encima de la media y valores de TFH y LGAN por debajo de la media. Se trata pues de individuos de cráneo aplastado, tanto en su vista frontal como de perfil. Tipología de la clase 2/4 …. Caracterización de las clases por las modalidades: En este ejemplo disponemos de la variable SEXO, que tiene dos modalidades. Así, podemos estudiar el comportamiento de esta variable categórica en los clusters. Veamos en cada clase, qué modalidades aparecen con una frecuencia más alejada (por exceso o por defecto) de la frecuencia que presenta en la muestra completa. guionC21 14/11/2015 10 Cuanto más extremo sea V.TEST (+ ó -), más significativo es el alejamiento entre la frecuencia en la clase y la frecuencia en la muestra completa. Por ejemplo, la clase 2 / 4 contiene … al 23.47 % de los Hombre y al 5.56 de las Mujeres de la muestra En esta clase 2 / 4 … … un 93.88 % son Hombres y … un 6.12 % son Mujeres mientras que en la muestra completa … … un 78.40 % son Hombres y … un 21.60 % son Mujeres. La clase 2 / 4 se caracteriza pues por la presencia de Hombres en un porcentaje muy por encima del que presenta la muestra completa. Obviamente, como la variable sexo sólo tiene dos modalidades, la ausencia de Mujeres en la muestra será tan significativa como sobreabundancia de hombres (V.TESTs de igual magnitud 2.99 y signos contrarios). La clase 3 / 4 presenta esta misma característica, pero de una forma aún más extrema (V.TEST= 5.01). La clase 4 / 4 presenta un comportamiento aún más marcado… y de sentido opuesto: Mucha mayor proporción de mujeres en la clase que en la muestra. (V.TEST= 8.39). La clase 1 / 4 presenta una proporción de hombres/mujeres similar (no se diferencian significativamente) a la de la muestra completa: 200/59. guionC21 14/11/2015 11 3.3) …y ahora los Gráficos: Van igual que en el ACP, con la novedad de que ahora los individuos están clasificados en clusters. Dado que por el ACP previo conocemos el significado de cada zona de un plano factorial, estos gráficos permiten deducir muy rápidamente las propiedades las clase aunque sea de una forma menos precisa que con las tablas vistas: Centros, formas, dispersiones, proximidades entre ellas, tipologías… Veamos… 1) cómo representar en un plano factorial los centros de las clases y 2) cómo diferenciar en estos planos los puntos de cada cluster. 1) Las opciones de gráfico nuevo se han ampliado y además de individuos y variables podemos marcar ahora la casilla partitions. Así aparecen también en el plano los centros de las clases. Sólo queda seleccionarlos y etiquetarlos: Sélection > Des Catégories > classes > OK visualizar etiquetas 2) Habillage > De los individuos por una partición Individues actifs + Partitions + 1 Coupure de lárbre en 4 classes + Couleurs >OK guionC21 14/11/2015 12 4) Resumen de conclusiones : Aconsejamos construir 4 modelos de máscara. MODELO nº1 Se construirá para un cráneo con estas medidas. Será asignado al 32% de la población. La proporción de hombres/mujeres que utilizarán este modelo no difiere significativamente la proporción de hombres mujeres en la población que estudiamos. Para los conjuntos de usuarios de los modelo nº1 y nº 3 se consigue un ajuste global de las máscaras bastante mejor (varianza 0,117) que en el modelo nº4, aunque algo peor que para el nº2: varianza en la clase nº1: 0.9514/81= 0,0117 varianza en la clase nº2: 0.4996/49= 0,0102 varianza en la clase nº3: 0.6330/54= 0,0117 varianza en la clase nº4: 1,2597/66= 0,0191 Tipología correspondiente al modelo nº1: Será útil para individuos con cabezas de tamaño medio, y con forma de cara normal ó alargada (valores bajos de TFH y LGAN / valores altos de las demás) Valores mínimo y máximo de cada variable en la clase: En la tabla que sigue encontramos finalmente el rango de valores apropiados para cada variable original y cada modelo de máscara. Fabricadas ya las máscaras, puede utilizarse esta tabla para asignar modelo de máscara a nuevos individuos manualmente. Mediante SPAD también podemos efectuar esta asignación de modelo a nuevos individuos sin más que incorporarlos como elementos ilustrativos a nuestro análisis. guionC21 14/11/2015 13 STATISTIQUES PAR CLASSE POUR LES VARIABLES CONTINUES EDITION POUR LES PROBABILITES INFERIEURES A 0.010 (TOUTES LES STATISTIQUES DE FISHER ONT 3 DEGRES DE LIBERTE AU NUMERATEUR) 3 . TFH - TFH +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 118.859 4.248 | 102.700 130.600 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 125.704 3.948 | 115.600 135.800 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 128.261 4.478 | 119.600 139.100 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 115.912 4.120 | 103.300 124.700 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 121.454 6.446 | 102.700 139.100 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 110.34 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 110.34 ) = 0.000 / VALEUR-TEST = 14.08 6 . LTG - LTG +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 138.958 4.577 | 124.500 149.100 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 136.204 4.958 | 122.600 147.500 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 142.722 3.970 | 136.100 152.600 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 129.912 5.240 | 115.700 138.000 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 136.843 6.628 | 115.700 152.600 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 79.86 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 79.86 ) = 0.000 / VALEUR-TEST = 12.50 5 . LTN - LTN +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 122.947 2.829 | 115.300 128.400 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 120.561 2.531 | 113.500 125.900 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 125.081 2.735 | 120.300 133.100 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 117.561 3.736 | 111.500 131.900 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 121.518 4.107 | 111.500 133.100 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 69.16 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 69.16 ) = 0.000 / VALEUR-TEST = 11.81 1 . MFB - MFB +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 114.894 5.355 | 95.000 126.200 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 111.400 4.016 | 101.200 120.600 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 117.302 3.510 | 110.500 127.300 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 104.402 8.012 | 80.700 116.200 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 111.959 7.494 | 80.700 127.300 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 61.63 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 61.63 ) = 0.000 / VALEUR-TEST = 11.27 2 . BAM - BAM +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 117.754 3.802 | 109.000 134.600 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 110.714 3.300 | 100.600 117.400 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 119.715 4.077 | 112.100 127.800 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 114.214 5.057 | 105.400 125.100 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 115.863 5.238 | 100.600 134.600 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 49.12 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 49.12 ) = 0.000 / VALEUR-TEST = 10.25 4 . LGAN - LGAN +-----------------------------+-----------------------+-------------------------+----------------------------+ | CLASSES | EFFECTIF POIDS | MOYENNE ECART TYPE | MINIMUM MAXIMUM | +-----------------------------+-----------------------+-------------------------+----------------------------+ | aa1a - CLASSE 1 / 4 | 81 81.00 | 55.688 3.059 | 47.700 62.500 | | aa2a - CLASSE 2 / 4 | 49 49.00 | 59.410 3.168 | 52.100 66.700 | | aa3a - CLASSE 3 / 4 | 54 54.00 | 60.846 3.868 | 54.900 74.200 | | aa4a - CLASSE 4 / 4 | 66 66.00 | 54.877 3.902 | 47.400 66.500 | +-----------------------------+-----------------------+-------------------------+----------------------------+ | ENSEMBLE | 250 250.00 | 57.318 4.270 | 47.400 74.200 | +-----------------------------+-----------------------+-------------------------+----------------------------+ FISHER = 40.03 / 246 DEGRES DE LIBERTE AU DENOMINATEUR PROBA ( FISHER > 40.03 ) = 0.000 / VALEUR-TEST = 9.36 Completar el informe con conclusiones para los modelos nº 2, 3 y 4. La guinda: …pero todo esto corresponde a un ACP Normado, y habíamos acordado que para lograr un buen ajuste era preferible respetar la variabilidad natural que presentan las variables originales… así que repite toda la clasificación sobre un ACP sin normar….