Guión práctica 3

Anuncio
Análisis de Datos
Licenciatura en Biologı́a
Curso 2oo9/2o10
Práctica 3
El fichero de datos necesario para realizar esta práctica, turtlefm2.xls, se encuentra en la
página web:
http://www.uam.es/daniel.faraco
La ruta es la siguiente: Docencia, Análisis de datos (prácticas) . Guardamos este fichero en
el escritorio de Windows, por ejemplo. No hay que abrir el fichero con el programa
Excel.
IIIPara comenzar esta práctica abrimos el programa SPSS. JJJ
1
Introducción
En esta práctica trabajaremos con el fichero de datos turtlefm2.xls que corresponde a
un estudio de medidas biométricas de c de 48 tortugas pintadas: 22 hembras, 22 machos y 4
ejemplares sin clasificar. Las variables que consideraremos son la longitud, el ancho y la altura
del caparazón. Los métodos “clusters” que estudiamos en este tema también se utilizan para
clasificar nuevas observaciones, en tal caso reciben el nombre de métodos de clasificación no
supervisada para diferenciarlos del análisis discriminante que recibe el nombre de método de
clasificación supervisada.
2
Análisis cluster jerárquico
Para obtener el análisis cluster jerárquico utilizamos la siguiente secuencia de pasos:
1. Analizar ,→ Clasificar ,→ Conglomerados jerárquicos ... .
2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho
Variables: .
3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: .
4. Seleccionamos Estadı́sticos y marcamos:
• þ Historial de conglomeración.
• þ Matriz de distancias.
1
,→ Continuar .
5. Seleccionamos Gráficos y marcamos:
• þ Dendrograma.
• Ninguna.
,→ Continuar .
6. Seleccionamos Métodos y en:
1
• Método de conglomeración seleccionamos Vecino más próximo .
• Medida seleccionamos Intervalo y Distancia euclı́dea .
,→ Continuar .
7. Por último, ,→ Aceptar .
Los resultados de la secuencia anterior son:
• Una matriz de distancias de dimensión 48 × 48 y de la que podemos obtener o deducir
lo siguiente (sólo presentamos las cuatro primeras filas y columnas):
– La distancia euclı́dea entre la observación 3:d y 4:d es:
p
√
d3,4 = (162 − 177)2 + (124 − 132)2 + (61 − 67)2 = 325 = 18.028.
– También, vemos que los ejemplares 1:d y 2:d están más cerca entre sı́ que de los
ejemplares 3:d y 4:d, y a su vez 3:d y 4:d están más cerca entre sı́ que de los
ejemplares 1:d y 2:d. Por tanto, parecerı́a razonable clasificar a 1:d y 2:d como
de sexo distinto a 3:d y 4:d en el caso que concluyésemos que 3:d y 4:d tienen el
mismo sexo.
Matriz de distancias
Distancia euclídea
Caso
1:d
2:d
3:d
4:d
:
1:d
,000
11,747
45,022
62,658
:
2:d
11,747
,000
35,341
53,292
:
3:d
45,022
35,341
,000
18,028
:
1
4:d
62,658
53,292
18,028
,000
:
..
..
..
..
:
Notemos que en esta opción podemos especificar si queremos transformar las variables antes de calcular
las distancias. Por ejemplo: si queremos calcular las distancias con las variables estandarizadas utilizamos:
En Transformar valores seleccionamos Puntuaciones Z y Por variable.
2
• Un historial de conglomeración del que podemos deducir lo siguiente:
– La primera unión se establece entre las observaciones 15 y 16 que tienen que ser
iguales en sus medidas puesto que la distancia entre ellas es 0. Las observaciones
15 y 16 forman el cluster que SPSS etiqueta por 15 (el número más pequeño) y que
volverá a intervenir en la etapa 21.
– La segunda y tercera unión se realiza entre las observaciones 40 y 41 (que se
etiquetará como 40) y 17 y 18 (que se etiquetará como 17), respectivamente, y se
unen a una distancia (euclı́dea) de 1. Volverán a intervenir en las etapas 12 y 33,
respectivamente.
– La cuarta etapa une a las observaciones 47 y 48 (que se etiquetará como 47) y
volverá a intervenir en la etapa 23. 2
..
..
..
..
..
.
.
.
.
.
– En la etapa 23, aparece la primera observación sin clasificar 1 y se une con el cluster
47 (formado por las observaciones 47 y 48) que se formó en la etapa 4. Este nuevo
cluster, que el SPSS etiqueta como 1 volverá a intervenir en la etapa 29.
..
..
..
..
..
.
.
.
.
.
– En la etapa 38, el cluster 2 (una observación sin clasificar) se une con el cluster 11
que se formó en la etapa 33.
..
..
..
..
..
.
.
.
.
.
– En las etapas 43 y 47 se unen las restantes observaciones sin clasificar, 3 y 4, en
ese orden.
Historial de conglomeración
Conglomerado que se combina
Etapa
1
2
3
4
:
23
:
38
:
43
:
47
Conglomerado 1
15
40
17
47
:
1
:
2
:
3
:
1
Conglomerado 2
16
41
18
48
:
47
:
11
:
23
:
4
Coeficientes
,000
1,000
1,000
1,414
:
3,162
:
4,583
:
7,000
:
18,028
Etapa en la que el conglomerado
aparece por primera vez
Conglomerado
Conglomerado
1
2
0
0
0
0
0
0
0
0
:
:
0
4
:
:
0
33
:
:
0
28
:
:
46
0
• Un dendrograma (ver Figura 1) del que podemos deducir lo siguiente:
2
Próxima
etapa
21
12
33
23
:
29
:
42
:
46
:
0
3
Podemos complementar la información del historial de aglomeración con la variable sexo y por ejemplo
sabrı́amos que: 15 y 16 son tortugas hembras y que 47 y 48 son tortugas machos.
3
Recordar que en SPSS se re-escalan las distancias reales a valores entre 0 y 25 y preservando la razón de
las distancias entre los pasos.
3
– La primera observación sin clasificar que se une a algún cluster es la 1. Se une al
cluster 47 formado por 47 y 48 que son dos especı́menes machos.
– Posteriormente el cluster 1 (ahora formado por 1, 47 y 48) se une con 10 una
tortuga hembra
W ¿Una hembra pequeña? .
– En un paso sucesivo, el cluster 1 se une al cluster 39 formados por ejemplares
machos.
W ¿Cómo clasificarı́as a 1?
– La segunda observación sin clasificar que se une a algún cluster es la 2 y lo hace
con el cluster 11 formado por ejemplares hembra.
W ¿Cómo clasificarı́as a 2?
– La observación 3 se une al cluster 23 formado por ejemplares hembras.
W ¿Cómo clasificarı́as a 3?
– Finalmente, en la última etapa, la observación 4 se une al cluster 1 formado por el
resto de las observaciones.
Ejercicio 1. Obtenga un análisis cluster jerárquico basado en la agrupación de
centroides usando la distancia euclı́dea al cuadrado y responda las Preguntas 1
y 2 de esta práctica.
3
Análisis cluster no jerárquico
Para obtener el análisis cluster no jerárquico (K-medias) utilizamos la siguiente secuencia de
pasos:
1. Analizar ,→ Clasificar ,→ Conglomerados de K medias ... .
2. Pasar las variables longitud, ancho y altura del recuadro izquierdo al recuadro derecho
Variables: .
3. Pasar la variable sexo al recuadro Etiquetar los casos mediante: .
4. Escribimos en No de conglomerados: 2 .
5. En Método seleccionamos Iterar y clasificar.
6. Seleccionamos Iterar y:
• Marcamos þ Usar medias actualizadas.
• Escribimos 0,001 en Criterio de convergencia.
,→ Continuar .
7. Seleccionamos Guardar y marcamos:
• þ Conglomerado de pertenencia.
4
Figure 1: Dendrograma - Método de encadenamiento simple.
Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
f
15
òûòòòòòòòø
f
f
16
14
ò÷
ó
òòòòòòòòòôòø
f
f
11
12
òòòòòòòòòú ùòø
òòòòòòòòò÷ ó ó
f
17
òòòûòòòòòòò÷ ùòòòø
f
d
18
2
òòò÷
ó
òòòòòòòòòòòòò÷
ó
ó
m
m
f
27
28
5
òòòòòòòûòòòø
òòòòòòò÷
ùòø
òòòòòòòòòòò÷ ó
ó
ó
ó
f
f
7
8
òòòòòûòòòòòø ó
òòòòò÷
ó ó
ó
ó
m
m
32
35
òòòòòø
òòòòòú
ó
ó
f
m
6
31
òòòûòôòòòø ó ó
òòò÷ ó
ó ó ó
m
m
34
33
òòòòòú
òòòòò÷
ó ó
ùòú
ùòø
ó ó
ùò÷ ó
ó ó
ó
ùòø ó ó
m
30
òòòòòòòòò÷
m
f
29
9
òòòòòòòòòòòòòú ó ó ó
òòòòòòòòòòòòò÷ ó ó ó
ó ó ó ó
m
m
36
37
òòòûòòòø
ó ó ó
òòò÷
ùòòòòòø ó ó ó
m
m
38
40
òòòòòòò÷
òòòûòòòø
ó ó ó ó
ó ùò÷ ó
m
m
41
44
òòò÷
ó
òòòòòòòôòø
ó ó
ó ó
m
m
m
m
f
m
m
m
d
f
f
f
f
f
f
f
f
f
d
d
42
43
45
39
10
46
47
48
1
13
19
20
22
21
24
25
26
23
3
4
òòòòòòò÷ ó
ó ó
ó ó
òòòòòòòòòôòø ó ó
ó ó
òòòòòòòòòú ó ó ó
ó ó
òòòòòòòòò÷ ùòú ó
ó ó
òòòòòòòòòø ó ùò÷
ó ó
òòòòòòòòòôò÷ ó
ó ùòòòòòòòòòø
òòòûòòòòòú
ó
ó ó
ó
òòò÷
ó
ó
ó ó
ó
òòòòòòòòò÷
ó
ó ó
ó
òòòòòòòòòòòòò÷
ó ó
ó
òòòòòòòòòòòòòòòòòòò÷ ó
ó
òòòòòòòòòûòø
ó
ùòòòòòòòòòòòòòòòòòø
òòòòòòòòò÷ ùòòòòòòòòò÷
ó
ó
òòòòòòòòòòò÷
ó
ó
òòòòòòòòòø
ó
ó
òòòòòòòòòú
ó
ó
òòòòòòòòòôòòòòòòòòòø
ó
ó
òòòòòòòòò÷
ùòòòòòòòòòòò÷
ó
òòòòòòòòòòòòòòòòòòò÷
ó
ùòø
ó ó
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷
5
• þ Distancia desde el centro del conglomerado.
,→ Continuar .
8. Por último, ,→ Aceptar .
Los resultados de la secuencia anterior son:
• Los centros iniciales y finales de los conglomerados. El SPSS selecciona como centros
iniciales a observaciones que sean muy distintas (en el sentido de la distancia euclı́dea).
En este caso, el centro inicial del conglomerado 1 es el macho número 29 y el del
conglomerado 2 la cuarta tortuga sin clasificar.
Centros de los conglomerados finales
Centros iniciales de los conglomerados
LONGITUD
ANCHO
ALTURA
Conglomerado
1
2
93
177
74
132
37
67
LONGITUD
ANCHO
ALTURA
Conglomerado
1
2
117
156
90
115
43
60
• El número de observaciones en cada cluster:
Número de casos en cada conglomerado
Conglomerado
1
2
38,000
10,000
48,000
,000
Válidos
Perdidos
• Dos nuevas variables qcl 1 y qcl 2 (que aparecen en el visor de datos) que contienen
el cluster en que ha sido clasificada la observación y su distancia (en este caso euclı́dea)
al centro del cluster en que ha sido clasificado. Ası́, por ejemplo, los cuatro ejemplares
sin clasificar tienen los siguientes resultados:
Observación Cluster asignado Distancia al centro
1
1
14,72
2
1
23,77
3
2
9,42
4
2
26,33
Para asignarle un “significado” a los clusters vamos a obtener una tabla de contingencia entre
la variable sexo y qlc 1:
1. Analizar ,→ Estadı́sticos descriptivos ,→ Tablas de contigencia ... .
2. Pasamos la variable sexo al recuadro izquierdo Filas: .
6
3. Pasamos la variable qlc 1 al recuadro izquierdo Columnas: .
4. Por último, ,→ Aceptar .
SEXO
d
f
m
Total
Número inicial de casos
1
2
2
2
14
8
22
38
10
Total
4
22
22
48
• Al cluster 2 son asignados solo ejemplares hembras (y dos observaciones sin clasificar).
• En el cluster 1 hay 22 ejemplares machos y 14 hembras.
W ¿Hembras pequeñas?
LONGITUD
LONGITUD
ANCHO
ANCHO
ALTURA
SEXO
ALTURA
Cluster
m
f
2
d
1
Ejercicio 2. Ordene la variable longitud de manera ascendente (basta pulsar el
botón derecho del ratón sobre la variable en el visor de datos y seleccionar la opción)
y obtenga un análisis cluster no jerárquico con dos clusters y responda la Pregunta
3 de esta práctica.
Ejercicio 3. Ordene la variable longitud de manera ascendente y obtenga un
análisis cluster no jerárquico con tres clusters. Obtenga la matriz de diagramas de
dispersión de las variables longitud, ancho y altura utilizando la variable qlc 5
para establecer las marcas y responda la Pregunta 4 de esta práctica.
Sugerencia: Para contestar a la pregunta puedes hacer una nueva tabla de contingencia entre la variable sexo y la variable qlc 5.
7
Análisis de Datos 2o10/2o11
Práctica de Laboratorio 3
Apellidos, nombre y grupo:
Apellidos, nombre y grupo:
1. ¿Cuál de las siguientes afirmaciones es falsa?
La primera etapa de los métodos de aglomeración jerárquico siempre coincide, es
decir, la primera unión de clusters en el método de encadenamiento simple coincide
con la primera unión del método de agrupación de centroides.
La última etapa de los métodos de aglomeración jerárquico siempre coincide, es
decir, la última unión de clusters en el método de encadenamiento simple coincide
con la última unión del método de agrupación de centroides.
La primera unión de la observación 2 es con un cluster formado por ejemplares
hembra (en el método con agrupación de centroides).
2. ¿Cuál de las siguientes afirmaciones es falsa?
La primera unión de la observación 3 es con un cluster formado por ejemplares
hembra (en el método con agrupación de centroides).
Los clusters donde están las observaciones 1 y 3 se unen a una distancia (euclı́dea
al cuadrado) igual a 2534.796.
Las observaciones 1 y 3 están a una distancia (euclı́dea al cuadrado) igual a 2534.796.
3. ¿Cuál de las siguientes afirmaciones es falsa?
El orden de las observaciones no influye, en este ejemplo, en la selección de los
clusters iniciales.
El orden de las observaciones influye en el resultado final, es decir, los centros de los
conglomerados finales cambian, pero la asignación de las observaciones sin clasificar
es la misma que la obtenida anteriormente.
El orden de las observaciones influye en el resultado final, es decir, en ambos, los
centros de los conglomerados finales y la asignación de las observaciones, cambian.
1
4. ¿Cuál de las siguientes afirmaciones es falsa?
El cluster 1 contiene 20 observaciones: 5 ejemplares hembra y 15 ejemplares macho.
Los ejemplares (con clasificación de sexo) del cluster 2 son hembras y son, en general,
los especı́menes más grandes de toda la muestra.
La composición del cluster 3 (dos observaciones sin clasificar han sido asignadas a
este cluster) permite claramente decidir el sexo de las observaciones sin clasificar.
5. Basado en los resultados obtenidos en la práctica ¿Cuál de las cuatro observaciones cuyo
sexo desconocemos es más fácil de clasificar como hembra? Justifique su respuesta.4
4
Para evitar errores por los distintos ordenamientos realizados en esta práctica, presentamos en la siguiente tabla los valores de esas cuatro observaciones:
Observación
1
2
3
4
Longitud
131
135
162
177
2
Ancho
95
106
124
132
Altura
46
47
61
67
Descargar