Guión práctica 3

Análisis de Datos Licenciatura en Biologı́a Curso 2oo9/2o10 Práctica 3 El fichero de datos necesario para realizar esta práctica, turtlefm2.xls, se encuentra en la página web: http://www.uam.es/daniel.faraco La ruta es la siguiente: Docencia, Análisis de datos (prácticas) . Guardamos este fichero en el escritorio de Windows, por ejemplo. No hay que abrir el fichero con el programa Excel. IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ 1 Introducción En esta práctica trabajaremos con el fichero de datos turtlefm2.xls que corresponde a un estudio de medidas biométricas de c de 48 tortugas pintadas: 22 hembras, 22 machos y 4 ejemplares sin clasificar. Las variables que consideraremos son la longitud, el ancho y la altura del caparazón. Los métodos “clusters” que estudiamos en este tema también se utilizan para clasificar nuevas observaciones, en tal caso reciben el nombre de métodos de clasificación no supervisada para diferenciarlos del análisis discriminante que recibe el nombre de método de clasificación supervisada. 2 Análisis cluster jerárquico Para obtener el análisis cluster jerárquico utilizamos la siguiente secuencia de pasos: 1. Analizar ,→ Clasificar ,→ Conglomerados jerárquicos ... . 2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho Variables: . 3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: . 4. Seleccionamos Estadı́sticos y marcamos: • þ Historial de conglomeración. • þ Matriz de distancias. 1 ,→ Continuar . 5. Seleccionamos Gráficos y marcamos: • þ Dendrograma. • Ninguna. ,→ Continuar . 6. Seleccionamos Métodos y en: 1 • Método de conglomeración seleccionamos Vecino más próximo . • Medida seleccionamos Intervalo y Distancia euclı́dea . ,→ Continuar . 7. Por último, ,→ Aceptar . Los resultados de la secuencia anterior son: • Una matriz de distancias de dimensión 48 × 48 y de la que podemos obtener o deducir lo siguiente (sólo presentamos las cuatro primeras filas y columnas): – La distancia euclı́dea entre la observación 3:d y 4:d es: p √ d3,4 = (162 − 177)2 + (124 − 132)2 + (61 − 67)2 = 325 = 18.028. – También, vemos que los ejemplares 1:d y 2:d están más cerca entre sı́ que de los ejemplares 3:d y 4:d, y a su vez 3:d y 4:d están más cerca entre sı́ que de los ejemplares 1:d y 2:d. Por tanto, parecerı́a razonable clasificar a 1:d y 2:d como de sexo distinto a 3:d y 4:d en el caso que concluyésemos que 3:d y 4:d tienen el mismo sexo. Matriz de distancias Distancia euclídea Caso 1:d 2:d 3:d 4:d : 1:d ,000 11,747 45,022 62,658 : 2:d 11,747 ,000 35,341 53,292 : 3:d 45,022 35,341 ,000 18,028 : 1 4:d 62,658 53,292 18,028 ,000 : .. .. .. .. : Notemos que en esta opción podemos especificar si queremos transformar las variables antes de calcular las distancias. Por ejemplo: si queremos calcular las distancias con las variables estandarizadas utilizamos: En Transformar valores seleccionamos Puntuaciones Z y Por variable. 2 • Un historial de conglomeración del que podemos deducir lo siguiente: – La primera unión se establece entre las observaciones 15 y 16 que tienen que ser iguales en sus medidas puesto que la distancia entre ellas es 0. Las observaciones 15 y 16 forman el cluster que SPSS etiqueta por 15 (el número más pequeño) y que volverá a intervenir en la etapa 21. – La segunda y tercera unión se realiza entre las observaciones 40 y 41 (que se etiquetará como 40) y 17 y 18 (que se etiquetará como 17), respectivamente, y se unen a una distancia (euclı́dea) de 1. Volverán a intervenir en las etapas 12 y 33, respectivamente. – La cuarta etapa une a las observaciones 47 y 48 (que se etiquetará como 47) y volverá a intervenir en la etapa 23. 2 .. .. .. .. .. . . . . . – En la etapa 23, aparece la primera observación sin clasificar 1 y se une con el cluster 47 (formado por las observaciones 47 y 48) que se formó en la etapa 4. Este nuevo cluster, que el SPSS etiqueta como 1 volverá a intervenir en la etapa 29. .. .. .. .. .. . . . . . – En la etapa 38, el cluster 2 (una observación sin clasificar) se une con el cluster 11 que se formó en la etapa 33. .. .. .. .. .. . . . . . – En las etapas 43 y 47 se unen las restantes observaciones sin clasificar, 3 y 4, en ese orden. Historial de conglomeración Conglomerado que se combina Etapa 1 2 3 4 : 23 : 38 : 43 : 47 Conglomerado 1 15 40 17 47 : 1 : 2 : 3 : 1 Conglomerado 2 16 41 18 48 : 47 : 11 : 23 : 4 Coeficientes ,000 1,000 1,000 1,414 : 3,162 : 4,583 : 7,000 : 18,028 Etapa en la que el conglomerado aparece por primera vez Conglomerado Conglomerado 1 2 0 0 0 0 0 0 0 0 : : 0 4 : : 0 33 : : 0 28 : : 46 0 • Un dendrograma (ver Figura 1) del que podemos deducir lo siguiente: 2 Próxima etapa 21 12 33 23 : 29 : 42 : 46 : 0 3 Podemos complementar la información del historial de aglomeración con la variable sexo y por ejemplo sabrı́amos que: 15 y 16 son tortugas hembras y que 47 y 48 son tortugas machos. 3 Recordar que en SPSS se re-escalan las distancias reales a valores entre 0 y 25 y preservando la razón de las distancias entre los pasos. 3 – La primera observación sin clasificar que se une a algún cluster es la 1. Se une al cluster 47 formado por 47 y 48 que son dos especı́menes machos. – Posteriormente el cluster 1 (ahora formado por 1, 47 y 48) se une con 10 una tortuga hembra W ¿Una hembra pequeña? . – En un paso sucesivo, el cluster 1 se une al cluster 39 formados por ejemplares machos. W ¿Cómo clasificarı́as a 1? – La segunda observación sin clasificar que se une a algún cluster es la 2 y lo hace con el cluster 11 formado por ejemplares hembra. W ¿Cómo clasificarı́as a 2? – La observación 3 se une al cluster 23 formado por ejemplares hembras. W ¿Cómo clasificarı́as a 3? – Finalmente, en la última etapa, la observación 4 se une al cluster 1 formado por el resto de las observaciones. Ejercicio 1. Obtenga un análisis cluster jerárquico basado en la agrupación de centroides usando la distancia euclı́dea al cuadrado y responda las Preguntas 1 y 2 de esta práctica. 3 Análisis cluster no jerárquico Para obtener el análisis cluster no jerárquico (K-medias) utilizamos la siguiente secuencia de pasos: 1. Analizar ,→ Clasificar ,→ Conglomerados de K medias ... . 2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho Variables: . 3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: . 4. Escribimos en No de conglomerados: 2 . 5. En Método seleccionamos Iterar y clasificar. 6. Seleccionamos Iterar y: • Marcamos þ Usar medias actualizadas. • Escribimos 0,001 en Criterio de convergencia. ,→ Continuar . 7. Seleccionamos Guardar y marcamos: • þ Conglomerado de pertenencia. 4 Figure 1: Dendrograma - Método de encadenamiento simple. Rescaled Distance Cluster Combine C A S E Label Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ f 15 òûòòòòòòòø f f 16 14 ò÷ ó òòòòòòòòòôòø f f 11 12 òòòòòòòòòú ùòø òòòòòòòòò÷ ó ó f 17 òòòûòòòòòòò÷ ùòòòø f d 18 2 òòò÷ ó òòòòòòòòòòòòò÷ ó ó m m f 27 28 5 òòòòòòòûòòòø òòòòòòò÷ ùòø òòòòòòòòòòò÷ ó ó ó ó f f 7 8 òòòòòûòòòòòø ó òòòòò÷ ó ó ó ó m m 32 35 òòòòòø òòòòòú ó ó f m 6 31 òòòûòôòòòø ó ó òòò÷ ó ó ó ó m m 34 33 òòòòòú òòòòò÷ ó ó ùòú ùòø ó ó ùò÷ ó ó ó ó ùòø ó ó m 30 òòòòòòòòò÷ m f 29 9 òòòòòòòòòòòòòú ó ó ó òòòòòòòòòòòòò÷ ó ó ó ó ó ó ó m m 36 37 òòòûòòòø ó ó ó òòò÷ ùòòòòòø ó ó ó m m 38 40 òòòòòòò÷ òòòûòòòø ó ó ó ó ó ùò÷ ó m m 41 44 òòò÷ ó òòòòòòòôòø ó ó ó ó m m m m f m m m d f f f f f f f f f d d 42 43 45 39 10 46 47 48 1 13 19 20 22 21 24 25 26 23 3 4 òòòòòòò÷ ó ó ó ó ó òòòòòòòòòôòø ó ó ó ó òòòòòòòòòú ó ó ó ó ó òòòòòòòòò÷ ùòú ó ó ó òòòòòòòòòø ó ùò÷ ó ó òòòòòòòòòôò÷ ó ó ùòòòòòòòòòø òòòûòòòòòú ó ó ó ó òòò÷ ó ó ó ó ó òòòòòòòòò÷ ó ó ó ó òòòòòòòòòòòòò÷ ó ó ó òòòòòòòòòòòòòòòòòòò÷ ó ó òòòòòòòòòûòø ó ùòòòòòòòòòòòòòòòòòø òòòòòòòòò÷ ùòòòòòòòòò÷ ó ó òòòòòòòòòòò÷ ó ó òòòòòòòòòø ó ó òòòòòòòòòú ó ó òòòòòòòòòôòòòòòòòòòø ó ó òòòòòòòòò÷ ùòòòòòòòòòòò÷ ó òòòòòòòòòòòòòòòòòòò÷ ó ùòø ó ó òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 5 • þ Distancia desde el centro del conglomerado. ,→ Continuar . 8. Por último, ,→ Aceptar . Los resultados de la secuencia anterior son: • Los centros iniciales y finales de los conglomerados. El SPSS selecciona como centros iniciales a observaciones que sean muy distintas (en el sentido de la distancia euclı́dea). En este caso, el centro inicial del conglomerado 1 es el macho número 29 y el del conglomerado 2 la cuarta tortuga sin clasificar. Centros de los conglomerados finales Centros iniciales de los conglomerados LONGITUD ANCHO ALTURA Conglomerado 1 2 93 177 74 132 37 67 LONGITUD ANCHO ALTURA Conglomerado 1 2 117 156 90 115 43 60 • El número de observaciones en cada cluster: Número de casos en cada conglomerado Conglomerado 1 2 38,000 10,000 48,000 ,000 Válidos Perdidos • Dos nuevas variables qcl 1 y qcl 2 (que aparecen en el visor de datos) que contienen el cluster en que ha sido clasificada la observación y su distancia (en este caso euclı́dea) al centro del cluster en que ha sido clasificado. Ası́, por ejemplo, los cuatro ejemplares sin clasificar tienen los siguientes resultados: Observación Cluster asignado Distancia al centro 1 1 14,72 2 1 23,77 3 2 9,42 4 2 26,33 Para asignarle un “significado” a los clusters vamos a obtener una tabla de contingencia entre la variable sexo y qlc 1: 1. Analizar ,→ Estadı́sticos descriptivos ,→ Tablas de contigencia ... . 2. Pasamos la variable sexo al recuadro izquierdo Filas: . 6 3. Pasamos la variable qlc 1 al recuadro izquierdo Columnas: . 4. Por último, ,→ Aceptar . SEXO d f m Total Número inicial de casos 1 2 2 2 14 8 22 38 10 Total 4 22 22 48 • Al cluster 2 son asignados solo ejemplares hembras (y dos observaciones sin clasificar). • En el cluster 1 hay 22 ejemplares machos y 14 hembras. W ¿Hembras pequeñas? LONGITUD LONGITUD ANCHO ANCHO ALTURA SEXO ALTURA Cluster m f 2 d 1 Ejercicio 2. Ordene la variable longitud de manera ascendente (basta pulsar el botón derecho del ratón sobre la variable en el visor de datos y seleccionar la opción) y obtenga un análisis cluster no jerárquico con dos clusters y responda la Pregunta 3 de esta práctica. Ejercicio 3. Ordene la variable longitud de manera ascendente y obtenga un análisis cluster no jerárquico con tres clusters. Obtenga la matriz de diagramas de dispersión de las variables longitud, ancho y altura utilizando la variable qlc 5 para establecer las marcas y responda la Pregunta 4 de esta práctica. Sugerencia: Para contestar a la pregunta puedes hacer una nueva tabla de contingencia entre la variable sexo y la variable qlc 5. 7 Análisis de Datos 2o10/2o11 Práctica de Laboratorio 3 Apellidos, nombre y grupo: Apellidos, nombre y grupo: 1. ¿Cuál de las siguientes afirmaciones es falsa? La primera etapa de los métodos de aglomeración jerárquico siempre coincide, es decir, la primera unión de clusters en el método de encadenamiento simple coincide con la primera unión del método de agrupación de centroides. La última etapa de los métodos de aglomeración jerárquico siempre coincide, es decir, la última unión de clusters en el método de encadenamiento simple coincide con la última unión del método de agrupación de centroides. La primera unión de la observación 2 es con un cluster formado por ejemplares hembra (en el método con agrupación de centroides). 2. ¿Cuál de las siguientes afirmaciones es falsa? La primera unión de la observación 3 es con un cluster formado por ejemplares hembra (en el método con agrupación de centroides). Los clusters donde están las observaciones 1 y 3 se unen a una distancia (euclı́dea al cuadrado) igual a 2534.796. Las observaciones 1 y 3 están a una distancia (euclı́dea al cuadrado) igual a 2534.796. 3. ¿Cuál de las siguientes afirmaciones es falsa? El orden de las observaciones no influye, en este ejemplo, en la selección de los clusters iniciales. El orden de las observaciones influye en el resultado final, es decir, los centros de los conglomerados finales cambian, pero la asignación de las observaciones sin clasificar es la misma que la obtenida anteriormente. El orden de las observaciones influye en el resultado final, es decir, en ambos, los centros de los conglomerados finales y la asignación de las observaciones, cambian. 1 4. ¿Cuál de las siguientes afirmaciones es falsa? El cluster 1 contiene 20 observaciones: 5 ejemplares hembra y 15 ejemplares macho. Los ejemplares (con clasificación de sexo) del cluster 2 son hembras y son, en general, los especı́menes más grandes de toda la muestra. La composición del cluster 3 (dos observaciones sin clasificar han sido asignadas a este cluster) permite claramente decidir el sexo de las observaciones sin clasificar. 5. Basado en los resultados obtenidos en la práctica ¿Cuál de las cuatro observaciones cuyo sexo desconocemos es más fácil de clasificar como hembra? Justifique su respuesta.4 4 Para evitar errores por los distintos ordenamientos realizados en esta práctica, presentamos en la siguiente tabla los valores de esas cuatro observaciones: Observación 1 2 3 4 Longitud 131 135 162 177 2 Ancho 95 106 124 132 Altura 46 47 61 67

Guión práctica 3

Documentos relacionados

Productos

Apoyo

Guión práctica 3

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib