Para explicar e ilustrar cada una de las técnicas multivariantes de

Anuncio
Para explicar e ilustrar cada una de las técnicas multivariantes de forma
más extensa. a lo largo del libro utilizaremos conjuntos de datos
hipotéticos. Estos conjuntos de datos se obtuvieron todos de la
Compañia Hair, Anderson y Tatham (HATCO), un enorme (aunque
inexistente) distribuidor industrial. Cada una de las series de datos se
obtuvo de las encuestas de clientes de HATCO. realizadas por una
empresa de investigación del mercado reconocida.
LA PRINCIPAL BASE DE DATOS
La principal base de datos, consistente en 100 observaciones de 14
variables separadas, es un ejemplo de un estudio de segmentación de
la situación empresa a empresa. específicamente un informe sobre los
clientes actuales de HATCO. Se utilizan tres tipos de datos. La primera
clase es la percepción de HATCO sobre siete atributos identificados en
estudios pasados como los más influyentes en la elección de
distribuidor. Los encuestados. ejecutivos de compras de empresas
clientes de HATCO. puntúan a HATCO sobre cada atributo. La segunda
clase de información hace referencia a !os resultados de compras
reales. bien sobre las evaluaciones de la satisfacción de los encuestados
con HATCO. bien sobre el porcentaje de sus compras de productos a
HATCO. La tercera clase de información contiene características
generales de las empresas clientes (por ejemplo. tamaño de la
empresa. tipo de industria).
Nos enfrentamos con un problema de dimensión 7 y queremos reducirla
a un número de dimensiones más manejable. Dado el carácter métrico
de las variables y el objetivo fijado la técnica multivariante a utilizar es
el Análisis Factorial de Componentes Principales.
Para llevar a cabo este análisis con el programa estadístico SPSS
debemos ejecutar los siguientes comandos:
ANALIZAR => REDUCCIÓN DE DATOS => ANALIISIS FACTORIAL
Pasamos las 7 variables que vamos a analizar al recuadro de variables.
Luego vamos entrando en los subcuadros de diálogo Descriptivos…,
Extracción…, Rotación…, Puntuaciones… y Opciones…
Descriptivos…: Marcamos las opciones que aparecen en la siguiente
ilustración:
Extracción…
Rotación…
Puntuaciones…
Opciones…
Por último, ejecutamos el análisis haciendo clic en Aceptar.
Matrices anti-imagen
Covarianza anti-imagen
Correlación anti-imagen
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Servicio
Imagen del personal
de ventas
Calidad del Producto
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Servicio
Imagen del personal
de ventas
Calidad del Producto
Velocidad
de entrega
,028
,028
,002
,015
-,025
Nivel de
precios
,028
,032
,022
,014
-,026
Flexibilidad
de precios
,002
,022
,608
,044
-,011
Imagen del
fabricante
,015
,014
,044
,347
-,015
-,006
-,005
-,040
-,275
-,002
,344a
,957
,018
,149
-,978
-,020
,957
,330a
,155
,134
-,975
,086
,018
,155
,913a
,095
-,091
-,018
,149
,134
,095
,558a
-,173
-,060
-,045
-,085
-,766
-,016
-,141
,140
-,039
a. Medida de adecuación muestral
Analizando los valores de la diagonal principal de la matriz de
correlación anti-imagen, podemos observar como la medida de la
adecuación muestral de los datos de la variable servicio es igual a
0.288, el más pequeño de todos los mostrados. Esto nos lleva a
plantearnos la eliminación del análisis de dicha variable.
Volvemos a realizar el análisis, esta vez sin la variable “servicio”, y en el
cuadro de diálogos Puntuaciones marcamos además la opción “guardar
como variables”.
S
Estadísticos descriptivos
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Media
3,515
2,364
7,894
5,248
Desviación
típica
1,3207
1,1957
1,3865
1,1314
N del análisis
100
100
100
100
2,665
,7709
100
6,971
1,5852
100
En la tabla anterior podemos observar como las mayores puntuaciones
medias de percepción de los atributos analizados son las
correspondientes a Flexibilidad de precios, Calidad del Producto e
Imagen del fabricante, mientras que el resto de puntuaciones medias
son bajas. Todas las medias son representativas por presentar un bajo
nivel de dispersión de los datos alrededor de ellas, medido por la
desviación típica.
Matriz de correlaciones
Correlación
Sig. (Unilateral)
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Velocidad
de entrega
1,000
-,349
,509
,050
Nivel de
precios
-,349
1,000
-,487
,272
Flexibilidad
de precios
,509
-,487
1,000
-,116
Imagen del
fabricante
,050
,272
-,116
1,000
Imagen de
personal
de ventas
,07
,18
-,03
,78
,077
,186
-,034
,788
1,00
-,483
,470
,000
-,448
,000
,000
,200
,309
,003
,125
,17
,22
,03
,36
,00
,000
,000
,309
,000
,003
,125
,223
,032
,367
,000
,000
,000
,000
,023
Para que podamos reducir la dimensionalidad del problema de manera
que podamos incluir en un solo factor más de una variable, debe existir
correlación entre dichas variables, es por eso que analizamos la matriz
de correlaciones.
En este caso, tenemos 15 coeficientes de correlación, de los cuales 11
son significativamente diferentes de cero, lo que representa un 73.33%
,03
de los coeficientes, porcentaje que podemos considerar
suficientemente alto como para poder seguir con el análisis.
los
KMO y prueba de Bartlett
Medida de adecuación muestral de
Kaiser-Meyer-Olkin.
Prueba de esfericidad
de Bartlett
,665
Chi-cuadrado
aproximado
gl
205,965
15
Sig.
,000
La medida de adecuación muestral de Kaiser-Meyer-Olkin nos indica
que la muestra de datos en su conjunto es adecuada dado que este
coeficiente oscila entre 0 y 1, de manera que cuanto más cercano se
encuentra de 1 más adecuados son los datos. Por otro lado, la Prueba
de esfericidad de Bartlett intenta probar la hipótesis de que la matriz de
correlaciones es o no una matriz identidad, lo que implicaría un nivel
nulo de correlación entre las variables. En este caso, dado la
significación 0.000, tenemos evidencia empírica suficiente como para
rechazar la hipótesis de que dicha matriz sea una matriz identidad.
Matrices anti-imagen
I
Covarianza anti-imagen
Correlación anti-imagen
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
a. Medida de adecuación muestral
Velocidad
de entrega
,629
,048
-,210
-,047
Nivel de
precios
,048
,650
,190
-,077
Flexibilidad
de precios
-,210
,190
,613
,038
Imagen del
fabricante
-,047
-,077
,038
,358
-,022
,013
-,039
-,281
,208
,721a
,074
-,338
-,098
-,162
,074
,787a
,301
-,160
,092
-,338
,301
,748a
,081
-,012
-,098
-,160
,081
,542a
-,045
,026
-,081
-,769
,331
-,253
,149
-,024
Las medidas de adecuación muestral de cada una de las seis variables
consideradas individualmente son todas altas lo que indica un buen
nivel de adecuación de los datos para el análisis.
Comunalidades
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Inicial
1,000
1,000
1,000
1,000
Extracción
,658
,580
,646
,882
1,000
,872
1,000
,616
Método de extracción: Análisis de Componentes principales.
Una vez comprobado que los datos son adecuados para el análisis
pasamos a comentar los resultados del Análisis de Componentes
Principales propiamente dicho. Así, vemos como la cantidad de
información explicada por el modelo factorial estimado contenida en
cada una de las variables es bastante alta, resaltando las variables
Imagen del fabricante y del personal de ventas.
Varianza total explicada
Componente
1
2
3
4
5
6
Autovalores iniciales
% de la
Total
varianza
% acumulado
2,513
41,892
41,892
1,740
28,992
70,883
,597
9,958
80,842
,530
8,826
89,668
,416
6,929
96,596
,204
3,404
100,000
Sumas de las saturaciones al cuadrado
de la extracción
% de la
Total
varianza
% acumulado
2,513
41,892
41,892
1,740
28,992
70,883
Método de extracción: Análisis de Componentes principales.
Teniendo en cuenta que el número máximo de factores que podemos
extraer es igual al número de variables (6), debemos decidir cuantos
factores elegimos. En este caso, siguiendo el criterio de elegir aquellos
factores que tenga un autovalor inicial superior a 1, lo que implicaría
que dicho factor explica en promedio más de una variable, han
resultado dos factores, donde el primero explica 2.513 variables y el
segundo 1.74 variables, lo que en términos relativos supone que el
factor 1 explica el 41.892% y el 2 un 28.992%, que en conjunto
Suma de
Total
2,370
1,883
explican un 70.883%, por lo que estamos perdiendo un 29.117% de
información. No obstante, podemos considerar que el primero de los
factores concentra demasiada información respecto al segundo factor,
por lo que nos planteamos una rotación de los factores, que en este
caso consigue que el factor 1 explique el 39.497%, mientras que el
factor 2 un 31.386%.
No obstante, a pesar de que con la rotación hemos conseguido repartir
mejor la información explicada por cada uno de los factores, analizamos
la matriz de componentes sin rotar para ver que es lo que miden cada
uno de los factores extraídos.
Matriz de componentesa
Componente
2
,767
-,168
,759
-,068
-,730
,337
-,627
,514
1
Calidad del Producto
Nivel de precios
Flexibilidad de precios
Velocidad de entrega
Imagen del personal
de ventas
Imagen del fabricante
,425
,832
,494
,798
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
Teniendo en cuenta que la matriz de componentes recoge los
coeficientes de correlación entre cada una de las variables y cada uno
de los factores, podemos ver como la componente 1 tiene una
correlación alta y positiva (es decir mide lo mismo) con las variables
Calidad del Producto y Nivel de precios, mientras que una correlación
alta y negativa (mide lo contrario) con Flexibilidad de precios y
Velocidad de entrega. Sin embargo, el factor 2 tiene un correlación alta
y positiva (mide los mismo) con la Imagen del personal de ventas y del
fabricante, aunque estas dos últimas variables tienen cierta correlación
positiva, también con el factor 1, lo que nos lleva a analizar la matriz de
componentes rotados.
Matriz de componentes rotados a
Flexibilidad de precios
Velocidad de entrega
Calidad del Producto
Nivel de precios
Imagen del personal
de ventas
Imagen del fabricante
Componente
1
2
-,804
-,011
-,787
,194
,764
,179
,714
,266
,025
,934
,102
,933
Método de extracción: Análisis de componentes principales.
Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.
Ahora, el factor 1 mide lo contrario de las variables Flexibilidad de
precios y Velocidad de entrega, y lo mismo que Calidad del Producto y
Nivel de precios, mientras que el factor 2 claramente tiene relación
positiva con las variables imagen del personal de ventas y del
fabricante.
Por último, debemo comprobar la bondad del modelo factorial obtenido,
y lo hacemos analizando los residuos, diferencias entre la matriz de
correlaciones inicial y la reproducida por el modelo, de manera que a
medida que sean cercanos a cero en valor absoluto, indicará un buen
nivel de ajuste.
Correlaciones reproducidas
I
Correlación reproducida
Residual
a
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Velocidad de entrega
Nivel de precios
Flexibilidad de precios
Imagen del fabricante
Imagen del personal
de ventas
Calidad del Producto
Velocidad
de entrega
,658b
-,511
,631
,101
Nivel de
precios
-,511
,580b
-,576
,321
Flexibilidad
de precios
,631
-,576
,646b
-,092
Imagen del
fabricante
,101
,321
-,092
,882b
,161
,266
-,030
,874
-,567
,593
,161
-,616
-,121
,089
,245
-,050
-,049
-,024
,161
-,121
-,050
,089
-,049
-,024
-,084
-,080
-,004
-,086
,084
-,123
,168
-,045
Método de extracción: Análisis de Componentes principales.
a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 10 (66,0%) residuales no redundante
valores absolutos mayores que 0,05.
b. Comunalidades reproducidas
Observamos como no están demasiado cercanos a cero, lo que
implicaría un bajo nivel de bondad del modelo, pero podemos
considerarlo como relativamente bueno.
A continuación hacemos el mapa de posición de los
encuestados. Para ello seguimos los siguientes comandos:
distintos
GRÁFICOS => DISPERSIÓN/PUNTOS => Dispersión simple => Definir
Del cuadro de diálogos siguientes marcamos las opciones que aparecen
marcadas.
Entramos en Opciones…
REGR factor score 2 for analysis 1
PEQUEÑA
2,50000
PEQUEÑA
PEQUEÑA
PEQUEÑA
GRANDE
PEQUEÑA
PEQUEÑA
PEQUEÑA
GR
PEQUEÑA
PEQUEÑA
GRANDE GRAND
PEQUEÑA PEQUEÑA
PEQUEÑA
PEQUEÑA
PEQUEÑA
GRANDEGRANDE
GRANDE G
PEQUEÑA
GRANDE
PEQUEÑA PEQUEÑA
GRANDE
PEQUEÑA
PEQUEÑA GRANDE
PEQUEÑA
PEQUEÑA
GRANDE GRAND
PEQUEÑA
GRANDE
PEQUEÑA
PEQUEÑA
PEQUEÑA
PEQUEÑA
PEQUEÑA
GRANDE
PEQUEÑA
PEQUEÑA
PEQUEÑAPEQUEÑA
PEQUEÑA
PEQUEÑA
PEQUEÑAPEQUEÑA
PEQUEÑA PEQUEÑAPEQUEÑAGRANDE
GRANDE
PEQUEÑA
0,00000
PEQUEÑA PEQUEÑA
PEQUEÑA
PEQUEÑA GRANDE
PEQUEÑA
PEQUEÑA
-2,50000
GRANDE
GRANDE
GRANDE
PEQUEÑA
-2,00000
-1,00000
0,00000
1,00000
REGR factor score 1 for analysis 1
__
GRAND
Descargar