Subido por Andrès Viancha

ACP Whisky Grupo#5

Anuncio
1
Taller: Capitulo 3:
Estadistica
descriptiva
multivariada
Grupo 5
Melanie Bernal Malpica
Juan Diego López Amado
Andres Fernando Niño Viancha
2
1.
ACP de “Whisky”
Objetivo
El objetivo es estudiar la relación calidad-precio de 35 marcas de whisky utilizando las variables precio (francos franceses), proporción de malta ( vejez (añejamiento en años) y apreciación (nota promedio de un panel de catadores redondeada a entera). Se dispone además de una variable nominal categorı́a, que
clasica las marcas según su contenido de malta (1 = Bajo, 2 = Estándar, 3 =
Puro malta) (Fine, 1996).
ACP no normado
ACP no normado
0
200
400
600
800
1000
Figura 1: Valores Propios
Valor Propio
Inercia Acumulada
Proporción Acumulada( %)
price
malt
aging
taste
V.Price
953.239
953.239
84.447
price
384.26
349.46
24.18
7.41
malt
349.46
736.58
26.90
8.54
V. Malt
169.350
1122.589
99.449
aging
24.18
26.90
6.53
0.91
V. Aigin
4.981
1127.570
99.891
ACP no
taste
7.41
8.54
0.91
1.43
Matriz de Varianza y Covarianza
ACP no normado
V.Taste
1.235
1128.805
100.000
normado
3
ACP no normado
50
Factor 2: 169.3504 (15%)
30
24
25
26
29
0
34
33
35
−25
10
27
23 14
20
25 11
17
19 9
4 1
22
15 6 5 3
28
18
12 7
21 16
2
13
8
31
32
−50
0
Factor 1: 953.2389 (84.4%)
Figura 2: Primer plano Factorial
4
d=5
price
aging
taste
malt
Figura 3: Correlacion Variables ACP no normado
5
ACP NORMADO
ACP Whisky
0.0
0.5
1.0
1.5
2.0
2.5
Figura 4: Valores Propios
Valor Propio
Inercia Acumulada
Proporción Acumulada( %)
Ax1
Ax2
Ax3
Ax4
2.2333
0.8065
0.6295
0.3307
2.2333
3.0398
3.6693
4.0000
55.8317 75.9938 91.7315 100.0000
Inercia ACP Whisky (Normado)
Eje 1
Eje 2
Price 32.98 %
6.84 %
Malt 29.09 %
13.54 %
Aging 23.58 %
0.05 %
Taste 14.34 %
79.57 %
Contribucion Absoluta ACP Whisky (Normado)
6
price
malt
aging
taste
Matriz
price malt aging taste
3.50 2.30
1.69
1.10
2.30 3.50
1.36
0.92
1.69 1.36
3.50
1.04
1.10 0.92
1.04
3.50
de Varianzas y Covarianzas
CS1
CS2
price -0.57
0.26
malt -0.54
0.37
aging -0.49 -0.02
taste -0.38 -0.89
Ejes principales
3
35
Factor 2: 0.8065 (20.2%)
2
9
10
1
7
30
6
22
32
12
19 17 25
23
21 18
24
15
11
8
27
4
3
2
28
26
14
5
1
13
20
33
34
0
29
31
−1
16
−2
−5.0
−2.5
0.0
2.5
Factor 1: 2.2333 (55.8%)
Figura 5: Primer Plano Factorial
low
med
pure
Peso Cat
wcat
0.31
0.49
0.20
Coordenadas
Valores Test Coseno cuadrado
Axis1 Axis2 Axis1 Axis2 Axis1
Axis2
1.35
0.12
3.56
0.52
0.98
0.01
0.02
-0.34
0.06
-2.14
0.00
0.70
-2.15
0.64
-4.20
2.07
0.83
0.07
Ayudas interpretacion variable Type (categorica)
7
4
3
35
Factor 2: 0.8065 (20.2%)
2
10
1
7 96
30
22
32
pure
12
3433
0
23
29
24
31
26
−1
27
med
low25
17
19
18
21
15
4
11
28
14
5
13
82
3
1
20
16
−2
−4
−2
0
2
Factor 1: 2.2333 (55.8%)
Figura 6: Variable Type (categórica) proyectada en el 1º Plano Factorial
price
malt
aging
taste
Eje1
-0.85830
-0.80600
-0.72570
-0.56600
Eje2
0.23490
0.33040
-0.02000
-0.80110
Coordenadas de las variables en el circulo de correlaciones
8
malt
price
aging
taste
Figura 7: Circulo de Correlaciones
9
Cosenos cuadradros y Distancias al cuadrado
Variables
Axis1 Axis2
Acumulativo
price -73.66
5.51
79.18
malt -64.96
10.91
75.88
aging -52.67
-0.04
52.71
taste -32.04 -64.17
96.21
Individuos
1
50.39 -23.89
74.276
2
84.10
-4.31
88.406
3
92.40
-7.55
99.947
4
7.60
-4.81
12.416
5
1.37 -46.03
47.405
6
70.14
22.52
92.657
7
66.57
30.93
97.502
8
78.53
-3.14
81.679
9
65.44
27.51
92.945
10
2.73
45.47
48.201
11
0.23
-1.31
1.546
12
83.35
10.53
93.876
13
41.92 -45.73
87.649
14 -13.22 -36.63
49.862
15
47.72
-2.53
50.248
16
-1.79 -90.29
92.096
17
51.33
3.33
54.664
18
94.75
0.002
94.752
19
53.79
3.28
57.075
20
-2.68 -79.97
82.666
21
78.52
-0.01
78.545
22
33.59
52.93
86.530
23 -14.67
0.67
15.358
24 -55.19
-4.68
59.887
25
34.50
0.57
35.080
26 -62.62 -20.11
82.734
27 -57.27 -14.78
72.068
28 -22.26 -32.99
55.265
29 -65.09
-0.02
65.115
30 -79.55
6.30
85.861
31 -69.91
-4.70
74.622
32 -44.53
15.85
60.383
33 -68.21
2.22
70.441
34 -78.47
1.98
80.456
35 -13.97
73.14
87.115
Tabla de ayuda para interpretación del ACP
10
Preguntas
Realice primero un ACP no normado y luego un ACP normado y responda a
las preguntas.
1. En el ACP no normado, analice la contribución de las variables a la inercia. ¿Realmente se puede considerar un análisis de las cuatro variables?
Rta No es necesario considerar las 4 variables, puesto que cada variable
contribuye con la inercia según su valor propio, en el ACP no normado
podemos notar que se obtienen, qué los valores propios son mayores a 1,
pero en la inercia acumulada con solo una variable se tiene un porcentaje
de inercia del 84.44 y con la segunda variable se tiene el 99.45, cantidad
suficiente para el primer plano factorial reteniendo solo dos ejes.
2. Analice la matriz de varianzas y covarianzas con la ayuda del primer plano
factorial de las variables. Haga un resumen (interpretación del primer
plano factorial de las variables).
Rta Se encuentra que la mayor variacion se tiene entre el precio y la proporción de malta con un 2.3, lo cual se puede notar en el primer plano
factorial por la dispersion que se tiene de los datos en el eje 1 donde se
asocia el precio, añejamiento y proporcion de malta. La menor variacion la
tenemos entre la apreciación y la proporcion de malta con un 0.92, además
es de recalcar que la variacion de cada variable es igual en todas, lo cual se
puede notar en el primer plano factorial como se tiene una homogeneidad
de los marcas de whisky alrededor del centro, sin mostrar una inclinacion
o alargamiento.
3. Realice el ACP normado y justifique por qué es el que conviene para los
objetivos de este taller.
Rta Dada la naturaleza de los datos de Whisky, obtenemos varinazas muy
altas por la escala de medida, es asi que es necesario eliminar la influencia
de las escalas de medida con el ACP normado y obtener un analisis mas
optimo.
4. ¿Cuántos ejes retiene para el análisis? ¿Por qué?
Rta Se escojen dos ejes, puesto que al ver los valores propios se encuentra
que: el primero tienen como valor 2.23 y contribuye con el % 55.83 de la
inercia; el segundo tiene como valor 0.8065 contribuyendo con % 20.16 de la
inercia, aunque lo indicado es que se escojan los valores propios mayores
a uno, tenemos que escogiendo tambien el segundo se tiene una inercia
acumulada de % 75.99. Asi reduciendo la dimesion de los datos a dos ejes
se concentran la mayor explicacion de los datos.
5. ¿Cuál es la variable que más contribuye al primer eje? ¿Cuál es la que
menos? (indique los porcentajes).
Rta Por la tabla de Contribucion Absoluta ACP Whisky (Normado), notamos que que la variable que más contribuye al primer eje es Price con un %
11
32.98 en contraste con la variable taste siendo la que menos contribuye con
un % 14.34.
6. Según el cı́rculo de correlaciones, ¿cuáles son las variables más correlacionadas? ¿Cuánto es el valor de la correlación? ¿Sı́ corresponden a lo que se
observa en la matriz de correlaciones?
Rta Por el circulo de correlaciones, podemos observar que las variables
Malt y Price estan agrupadas en el mismo cuadrante, lo cual nos indica
que ellas tiene una mayor correlacion positiva entre ellas. Lo cual se comprueba cuando miramos la Matriz de correlaciones donde Malt y Price
tiene una correlacion de 0.66, el valor mas alto.
7. ¿Cuál es la variable mejor representada en el primer plano factorial? ¿Cuál
la peor? (Escriba los porcentajes).
Rta La variable que mejor está representada en primer plano factorial es
TASTE con un 96.21 % y la peor representada es AGING con un 52.71 %
8. ¿Qué representa el primer eje? ¿Qué nombre le asignarı́a? ¿Qué representa
el segundo eje?
Rta El primer eje representaria la calidad del Whisky puesto que se encuentran los valores mas altos del Aging, Price y Malta y el segundo eje
representaria la sensacion o satisfacion del sabor del Whisky puesto que
se encuentran los valores mas altos de taste.
9. ¿Cuál es el individuo mejor representado en el primer plano factorial?
Ubique sobre el gráfico de individuos al peor representado sobre el primer
plano factorial (indique los porcentajes).
Rta El individuo mejor representado es el 3 con un 99.947 % y el peor
representado es el individuo 11 con un 1.546 %
10. Supongamos que usted tiene una gráfica de individuos, donde no se muestran los antiguos ejes de las variables. ¿Cómo dibuja los ejes de apreciación
y de precio? (Responda concretamente, es decir, con números).
Rta Podemos utilizar como ayuda la tabla de los ejes principales acp$c1,
dado que los antiguos ejes unitarios son una lectura de los valores propios filas. Entonces con una base canónica de dimensión 5 (número de
variables de Whisky), podemos multiplicar para hallar los antiguos ejes de
apreciación (Taste), su vector canonico transpuesto correspondiente:
F1 (T aste) = et 5 ∗ u1
F1 (T aste) = −0,38
(1)
F2 (T aste) = et 5 ∗ u2
F2 (T aste) = −0,89
12
Con esto tenemos las coordenadas unitarias de los antiguos ejes de Taste,
con estas proyectamos el vector en el plano y asi obtenemos la direccion
del eje de taste.
De la misma forma hacemos para precio.
F1 (P rice) = et 1 ∗ u1
F1 (P rice) = −0,57
(2)
F2 (P rice) = et 1 ∗ u2
F2 (P rice) = 0,26
11. ¿Qué caracterı́sticas tienen las marcas de whisky según sus ubicaciones en
el plano (a la derecha, a la izquierda, arriba, abajo)?
Rta Con base en el primer plano factorial, las marcas de whisky que están
a la izquierda son aquellas cuyas caracterı́sticas son altas, es decir, tienen
precio alto, su proporción de malta es alta y mayor tiempo de añejamiento;
a medida que se va hacia la derecha estas propiedades se reducen. Además
la posición en la parte inferior del plano se relacionan con una buena nota
de apreciación de los catadores, pero a medida que se mueve en dirección
positiva del eje, la nota de apreciación disminuye.
12. ¿Qué significa el cı́rculo del primer plano factorial de variables? ¿Cómo lo
dibujarı́a en una gráfica impresa donde no está? (Suponga que las escalas
de los dos ejes son iguales).
RtaEl circulo del primer plano factorial indica que tan representativas
son las variables en el primer plano factorial, dado que entre más largo es
el vector, es decir, entre más cerca este de la circunferencia, mejor es su
representación en el plano factorial. Como el plano factorial se tiene los
datos normados, se podria dibujar trazando una circunferencia de radio
uno alrededor del origen.
13. A partir de la posición en el plano deduzca las caracterı́sticas de las tres
categorı́as de whisky (bajo, estándar y pura malta).
Rta
Pure : La categoria Pure se caracteriza por contar con mayores indicadores
en cuanto al precio, malta y añejamiento aunque no tiene buena calificacion por parte de los catadores. Puesto que esta categoria en cuanto a los
Valores TEST tiene mayor peso en el eje 1.
13
Med : La categoria Med se caracteriza por tener las mejores apreciaciones
por parte de los catadores, y no tiene precios altos de la misma forma en
que no se caracteriza por tener muchos años de añejamiento. Puesto que
en esta categoria se tienen que los Valores TEST nos arrojan mayor pero
en el eje 2 y un poca participacion en el eje 1.
Low :Esta categoria se caracteriza por no tener una buena calidad, bajo
añejamiento y proporcion de malta aunque tiene los precios mas bajos.
No tiene definida una orientacion respecto a al apreciacion de los catadores. Puesto que los Valores TEST en el eje 1 tiene un valor alto pero es
inversamente proporcional a una buena calificacion; por otra parte tiene
un valor bajo en la apreciacion, pero observando las marcas en el primer
plano factorial se encuantra que la apreciacion varia en tener valores altos
y bajos.
Nota En los valores TEST se tiene en cuenta el signo basado en la orientacion que se definio en los dos ejes.
14. Supongamos que usted desea comprar una botella de whisky con buena
apreciación y que no sea tan cara. Dé dos números de marcas que comprarı́a. ¿Por qué? ¿Cuáles son las caracterı́sticas de las dos marcas?
Rta Escogerı́a las marcas 16 y 20, ya que estas estan mejor representadas en el eje 2 (Apreciación), es decir, tiene los valores más altos en la
apreciacion, adémas estas marcas se encuentran centradas en el eje 1 lo
cual nos indica que su precio no es alto. Asi tenemos que estas dos marcas
a pesar de no tener un añejado precio alto, estan bien valoradas por los
catadores.
15. Seleccione dos marcas que definitivamente no comprarı́a. ¿Por qué? ¿Qué
caracterı́sticas tienen?
Rta No escogerı́a las marcas 30 y 35, puesto que en primer lugar la marca 30 tiene el precio y añejamiento más alto pero no tiene una buena
calificacion en la apreciacion. Por otro lado la marca 35 aunque es mas
económica, tiene la peor calficacion en apresiación. Por tanto se tienen
mejores opciones que complementan calidad, precio y apreciación.
16. Realice un resumen práctico del análisis suponiendo que lo va a entregar
a una compañı́a que contrató el estudio. Debe dar respuesta al objetivo y
apoyarse en las tablas y gráficas que crea necesarias.
Rta Se realiza un ACP donde se trabaja con dos ejes que recogen la mayor parte de informacion de los datos. El primer eje del ACP nos indica
la calidad del Whisky respecto a su precio, añejamiento y proporcion de
malta; siendo el precio de las marcas quien pesa mas en este indicador.
14
Este eje nos muestra los mejores valores de iquierda a derecha.
El segundo eje nos da un resumen de los indicadores de apreciación de
cada marca teniendo las mejores calificaciones de los catadores de abajo
hacia arriba.
Se incluye en el plano una variable apreciativa TYPE () que nos muestra
la proporcion de malta catalagoda como (puro, medio, bajo), se puede
observar que las marcas de Whisky con proporsion de malta pura son de
mejor calidad respecto a mayor añejamiento y precio pero no poseen gran
puntuacion por parte de los catadores. Las marcas de Whisky con proporcion medio, se destacan alrededor de 7 marcas que tiene la mejor relacion
entre calidad y apreciacion puesto que tienen buena aceptacion por los
catadores y el precio no es elevado. Por último las marcas de Whisky de
proporcion baja cuentan con calidad precio baja donde destacan algunas
marcas en la apreciacin de los catadores.
Se encuentra que existe una alta correlacion entre el precio y la malta
en las marcas de Whisky, mientras que no se tiene una correlacion de la
apreciacion con ninguna de las otras variables (precio, malta, añejado)
Descargar