Análisis de Datos Licenciatura en Biologı́a Curso 2oo9/2o10 Práctica 3 El fichero de datos necesario para realizar esta práctica, turtlefm2.xls, se encuentra en la página web: http://www.uam.es/daniel.faraco La ruta es la siguiente: Docencia, Análisis de datos (prácticas) . Guardamos este fichero en el escritorio de Windows, por ejemplo. No hay que abrir el fichero con el programa Excel. IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ 1 Introducción En esta práctica trabajaremos con el fichero de datos turtlefm2.xls que corresponde a un estudio de medidas biométricas de c de 48 tortugas pintadas: 22 hembras, 22 machos y 4 ejemplares sin clasificar. Las variables que consideraremos son la longitud, el ancho y la altura del caparazón. Los métodos “clusters” que estudiamos en este tema también se utilizan para clasificar nuevas observaciones, en tal caso reciben el nombre de métodos de clasificación no supervisada para diferenciarlos del análisis discriminante que recibe el nombre de método de clasificación supervisada. 2 Análisis cluster jerárquico Para obtener el análisis cluster jerárquico utilizamos la siguiente secuencia de pasos: 1. Analizar ,→ Clasificar ,→ Conglomerados jerárquicos ... . 2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho Variables: . 3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: . 4. Seleccionamos Estadı́sticos y marcamos: • þ Historial de conglomeración. • þ Matriz de distancias. 1 ,→ Continuar . 5. Seleccionamos Gráficos y marcamos: • þ Dendrograma. • Ninguna. ,→ Continuar . 6. Seleccionamos Métodos y en: 1 • Método de conglomeración seleccionamos Vecino más próximo . • Medida seleccionamos Intervalo y Distancia euclı́dea . ,→ Continuar . 7. Por último, ,→ Aceptar . Los resultados de la secuencia anterior son: • Una matriz de distancias de dimensión 48 × 48 y de la que podemos obtener o deducir lo siguiente (sólo presentamos las cuatro primeras filas y columnas): – La distancia euclı́dea entre la observación 3:d y 4:d es: p √ d3,4 = (162 − 177)2 + (124 − 132)2 + (61 − 67)2 = 325 = 18.028. – También, vemos que los ejemplares 1:d y 2:d están más cerca entre sı́ que de los ejemplares 3:d y 4:d, y a su vez 3:d y 4:d están más cerca entre sı́ que de los ejemplares 1:d y 2:d. Por tanto, parecerı́a razonable clasificar a 1:d y 2:d como de sexo distinto a 3:d y 4:d en el caso que concluyésemos que 3:d y 4:d tienen el mismo sexo. Matriz de distancias Distancia euclídea Caso 1:d 2:d 3:d 4:d : 1:d ,000 11,747 45,022 62,658 : 2:d 11,747 ,000 35,341 53,292 : 3:d 45,022 35,341 ,000 18,028 : 1 4:d 62,658 53,292 18,028 ,000 : .. .. .. .. : Notemos que en esta opción podemos especificar si queremos transformar las variables antes de calcular las distancias. Por ejemplo: si queremos calcular las distancias con las variables estandarizadas utilizamos: En Transformar valores seleccionamos Puntuaciones Z y Por variable. 2 • Un historial de conglomeración del que podemos deducir lo siguiente: – La primera unión se establece entre las observaciones 15 y 16 que tienen que ser iguales en sus medidas puesto que la distancia entre ellas es 0. Las observaciones 15 y 16 forman el cluster que SPSS etiqueta por 15 (el número más pequeño) y que volverá a intervenir en la etapa 21. – La segunda y tercera unión se realiza entre las observaciones 40 y 41 (que se etiquetará como 40) y 17 y 18 (que se etiquetará como 17), respectivamente, y se unen a una distancia (euclı́dea) de 1. Volverán a intervenir en las etapas 12 y 33, respectivamente. – La cuarta etapa une a las observaciones 47 y 48 (que se etiquetará como 47) y volverá a intervenir en la etapa 23. 2 .. .. .. .. .. . . . . . – En la etapa 23, aparece la primera observación sin clasificar 1 y se une con el cluster 47 (formado por las observaciones 47 y 48) que se formó en la etapa 4. Este nuevo cluster, que el SPSS etiqueta como 1 volverá a intervenir en la etapa 29. .. .. .. .. .. . . . . . – En la etapa 38, el cluster 2 (una observación sin clasificar) se une con el cluster 11 que se formó en la etapa 33. .. .. .. .. .. . . . . . – En las etapas 43 y 47 se unen las restantes observaciones sin clasificar, 3 y 4, en ese orden. Historial de conglomeración Conglomerado que se combina Etapa 1 2 3 4 : 23 : 38 : 43 : 47 Conglomerado 1 15 40 17 47 : 1 : 2 : 3 : 1 Conglomerado 2 16 41 18 48 : 47 : 11 : 23 : 4 Coeficientes ,000 1,000 1,000 1,414 : 3,162 : 4,583 : 7,000 : 18,028 Etapa en la que el conglomerado aparece por primera vez Conglomerado Conglomerado 1 2 0 0 0 0 0 0 0 0 : : 0 4 : : 0 33 : : 0 28 : : 46 0 • Un dendrograma (ver Figura 1) del que podemos deducir lo siguiente: 2 Próxima etapa 21 12 33 23 : 29 : 42 : 46 : 0 3 Podemos complementar la información del historial de aglomeración con la variable sexo y por ejemplo sabrı́amos que: 15 y 16 son tortugas hembras y que 47 y 48 son tortugas machos. 3 Recordar que en SPSS se re-escalan las distancias reales a valores entre 0 y 25 y preservando la razón de las distancias entre los pasos. 3 – La primera observación sin clasificar que se une a algún cluster es la 1. Se une al cluster 47 formado por 47 y 48 que son dos especı́menes machos. – Posteriormente el cluster 1 (ahora formado por 1, 47 y 48) se une con 10 una tortuga hembra W ¿Una hembra pequeña? . – En un paso sucesivo, el cluster 1 se une al cluster 39 formados por ejemplares machos. W ¿Cómo clasificarı́as a 1? – La segunda observación sin clasificar que se une a algún cluster es la 2 y lo hace con el cluster 11 formado por ejemplares hembra. W ¿Cómo clasificarı́as a 2? – La observación 3 se une al cluster 23 formado por ejemplares hembras. W ¿Cómo clasificarı́as a 3? – Finalmente, en la última etapa, la observación 4 se une al cluster 1 formado por el resto de las observaciones. Ejercicio 1. Obtenga un análisis cluster jerárquico basado en la agrupación de centroides usando la distancia euclı́dea al cuadrado y responda las Preguntas 1 y 2 de esta práctica. 3 Análisis cluster no jerárquico Para obtener el análisis cluster no jerárquico (K-medias) utilizamos la siguiente secuencia de pasos: 1. Analizar ,→ Clasificar ,→ Conglomerados de K medias ... . 2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho Variables: . 3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: . 4. Escribimos en No de conglomerados: 2 . 5. En Método seleccionamos Iterar y clasificar. 6. Seleccionamos Iterar y: • Marcamos þ Usar medias actualizadas. • Escribimos 0,001 en Criterio de convergencia. ,→ Continuar . 7. Seleccionamos Guardar y marcamos: • þ Conglomerado de pertenencia. 4 Figure 1: Dendrograma - Método de encadenamiento simple. Rescaled Distance Cluster Combine C A S E Label Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ f 15 òûòòòòòòòø f f 16 14 ò÷ ó òòòòòòòòòôòø f f 11 12 òòòòòòòòòú ùòø òòòòòòòòò÷ ó ó f 17 òòòûòòòòòòò÷ ùòòòø f d 18 2 òòò÷ ó òòòòòòòòòòòòò÷ ó ó m m f 27 28 5 òòòòòòòûòòòø òòòòòòò÷ ùòø òòòòòòòòòòò÷ ó ó ó ó f f 7 8 òòòòòûòòòòòø ó òòòòò÷ ó ó ó ó m m 32 35 òòòòòø òòòòòú ó ó f m 6 31 òòòûòôòòòø ó ó òòò÷ ó ó ó ó m m 34 33 òòòòòú òòòòò÷ ó ó ùòú ùòø ó ó ùò÷ ó ó ó ó ùòø ó ó m 30 òòòòòòòòò÷ m f 29 9 òòòòòòòòòòòòòú ó ó ó òòòòòòòòòòòòò÷ ó ó ó ó ó ó ó m m 36 37 òòòûòòòø ó ó ó òòò÷ ùòòòòòø ó ó ó m m 38 40 òòòòòòò÷ òòòûòòòø ó ó ó ó ó ùò÷ ó m m 41 44 òòò÷ ó òòòòòòòôòø ó ó ó ó m m m m f m m m d f f f f f f f f f d d 42 43 45 39 10 46 47 48 1 13 19 20 22 21 24 25 26 23 3 4 òòòòòòò÷ ó ó ó ó ó òòòòòòòòòôòø ó ó ó ó òòòòòòòòòú ó ó ó ó ó òòòòòòòòò÷ ùòú ó ó ó òòòòòòòòòø ó ùò÷ ó ó òòòòòòòòòôò÷ ó ó ùòòòòòòòòòø òòòûòòòòòú ó ó ó ó òòò÷ ó ó ó ó ó òòòòòòòòò÷ ó ó ó ó òòòòòòòòòòòòò÷ ó ó ó òòòòòòòòòòòòòòòòòòò÷ ó ó òòòòòòòòòûòø ó ùòòòòòòòòòòòòòòòòòø òòòòòòòòò÷ ùòòòòòòòòò÷ ó ó òòòòòòòòòòò÷ ó ó òòòòòòòòòø ó ó òòòòòòòòòú ó ó òòòòòòòòòôòòòòòòòòòø ó ó òòòòòòòòò÷ ùòòòòòòòòòòò÷ ó òòòòòòòòòòòòòòòòòòò÷ ó ùòø ó ó òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 5 • þ Distancia desde el centro del conglomerado. ,→ Continuar . 8. Por último, ,→ Aceptar . Los resultados de la secuencia anterior son: • Los centros iniciales y finales de los conglomerados. El SPSS selecciona como centros iniciales a observaciones que sean muy distintas (en el sentido de la distancia euclı́dea). En este caso, el centro inicial del conglomerado 1 es el macho número 29 y el del conglomerado 2 la cuarta tortuga sin clasificar. Centros de los conglomerados finales Centros iniciales de los conglomerados LONGITUD ANCHO ALTURA Conglomerado 1 2 93 177 74 132 37 67 LONGITUD ANCHO ALTURA Conglomerado 1 2 117 156 90 115 43 60 • El número de observaciones en cada cluster: Número de casos en cada conglomerado Conglomerado 1 2 38,000 10,000 48,000 ,000 Válidos Perdidos • Dos nuevas variables qcl 1 y qcl 2 (que aparecen en el visor de datos) que contienen el cluster en que ha sido clasificada la observación y su distancia (en este caso euclı́dea) al centro del cluster en que ha sido clasificado. Ası́, por ejemplo, los cuatro ejemplares sin clasificar tienen los siguientes resultados: Observación Cluster asignado Distancia al centro 1 1 14,72 2 1 23,77 3 2 9,42 4 2 26,33 Para asignarle un “significado” a los clusters vamos a obtener una tabla de contingencia entre la variable sexo y qlc 1: 1. Analizar ,→ Estadı́sticos descriptivos ,→ Tablas de contigencia ... . 2. Pasamos la variable sexo al recuadro izquierdo Filas: . 6 3. Pasamos la variable qlc 1 al recuadro izquierdo Columnas: . 4. Por último, ,→ Aceptar . SEXO d f m Total Número inicial de casos 1 2 2 2 14 8 22 38 10 Total 4 22 22 48 • Al cluster 2 son asignados solo ejemplares hembras (y dos observaciones sin clasificar). • En el cluster 1 hay 22 ejemplares machos y 14 hembras. W ¿Hembras pequeñas? LONGITUD LONGITUD ANCHO ANCHO ALTURA SEXO ALTURA Cluster m f 2 d 1 Ejercicio 2. Ordene la variable longitud de manera ascendente (basta pulsar el botón derecho del ratón sobre la variable en el visor de datos y seleccionar la opción) y obtenga un análisis cluster no jerárquico con dos clusters y responda la Pregunta 3 de esta práctica. Ejercicio 3. Ordene la variable longitud de manera ascendente y obtenga un análisis cluster no jerárquico con tres clusters. Obtenga la matriz de diagramas de dispersión de las variables longitud, ancho y altura utilizando la variable qlc 5 para establecer las marcas y responda la Pregunta 4 de esta práctica. Sugerencia: Para contestar a la pregunta puedes hacer una nueva tabla de contingencia entre la variable sexo y la variable qlc 5. 7 Análisis de Datos 2o10/2o11 Práctica de Laboratorio 3 Apellidos, nombre y grupo: Apellidos, nombre y grupo: 1. ¿Cuál de las siguientes afirmaciones es falsa? La primera etapa de los métodos de aglomeración jerárquico siempre coincide, es decir, la primera unión de clusters en el método de encadenamiento simple coincide con la primera unión del método de agrupación de centroides. La última etapa de los métodos de aglomeración jerárquico siempre coincide, es decir, la última unión de clusters en el método de encadenamiento simple coincide con la última unión del método de agrupación de centroides. La primera unión de la observación 2 es con un cluster formado por ejemplares hembra (en el método con agrupación de centroides). 2. ¿Cuál de las siguientes afirmaciones es falsa? La primera unión de la observación 3 es con un cluster formado por ejemplares hembra (en el método con agrupación de centroides). Los clusters donde están las observaciones 1 y 3 se unen a una distancia (euclı́dea al cuadrado) igual a 2534.796. Las observaciones 1 y 3 están a una distancia (euclı́dea al cuadrado) igual a 2534.796. 3. ¿Cuál de las siguientes afirmaciones es falsa? El orden de las observaciones no influye, en este ejemplo, en la selección de los clusters iniciales. El orden de las observaciones influye en el resultado final, es decir, los centros de los conglomerados finales cambian, pero la asignación de las observaciones sin clasificar es la misma que la obtenida anteriormente. El orden de las observaciones influye en el resultado final, es decir, en ambos, los centros de los conglomerados finales y la asignación de las observaciones, cambian. 1 4. ¿Cuál de las siguientes afirmaciones es falsa? El cluster 1 contiene 20 observaciones: 5 ejemplares hembra y 15 ejemplares macho. Los ejemplares (con clasificación de sexo) del cluster 2 son hembras y son, en general, los especı́menes más grandes de toda la muestra. La composición del cluster 3 (dos observaciones sin clasificar han sido asignadas a este cluster) permite claramente decidir el sexo de las observaciones sin clasificar. 5. Basado en los resultados obtenidos en la práctica ¿Cuál de las cuatro observaciones cuyo sexo desconocemos es más fácil de clasificar como hembra? Justifique su respuesta.4 4 Para evitar errores por los distintos ordenamientos realizados en esta práctica, presentamos en la siguiente tabla los valores de esas cuatro observaciones: Observación 1 2 3 4 Longitud 131 135 162 177 2 Ancho 95 106 124 132 Altura 46 47 61 67