Para explicar e ilustrar cada una de las técnicas multivariantes de forma más extensa. a lo largo del libro utilizaremos conjuntos de datos hipotéticos. Estos conjuntos de datos se obtuvieron todos de la Compañia Hair, Anderson y Tatham (HATCO), un enorme (aunque inexistente) distribuidor industrial. Cada una de las series de datos se obtuvo de las encuestas de clientes de HATCO. realizadas por una empresa de investigación del mercado reconocida. LA PRINCIPAL BASE DE DATOS La principal base de datos, consistente en 100 observaciones de 14 variables separadas, es un ejemplo de un estudio de segmentación de la situación empresa a empresa. específicamente un informe sobre los clientes actuales de HATCO. Se utilizan tres tipos de datos. La primera clase es la percepción de HATCO sobre siete atributos identificados en estudios pasados como los más influyentes en la elección de distribuidor. Los encuestados. ejecutivos de compras de empresas clientes de HATCO. puntúan a HATCO sobre cada atributo. La segunda clase de información hace referencia a !os resultados de compras reales. bien sobre las evaluaciones de la satisfacción de los encuestados con HATCO. bien sobre el porcentaje de sus compras de productos a HATCO. La tercera clase de información contiene características generales de las empresas clientes (por ejemplo. tamaño de la empresa. tipo de industria). Nos enfrentamos con un problema de dimensión 7 y queremos reducirla a un número de dimensiones más manejable. Dado el carácter métrico de las variables y el objetivo fijado la técnica multivariante a utilizar es el Análisis Factorial de Componentes Principales. Para llevar a cabo este análisis con el programa estadístico SPSS debemos ejecutar los siguientes comandos: ANALIZAR => REDUCCIÓN DE DATOS => ANALIISIS FACTORIAL Pasamos las 7 variables que vamos a analizar al recuadro de variables. Luego vamos entrando en los subcuadros de diálogo Descriptivos…, Extracción…, Rotación…, Puntuaciones… y Opciones… Descriptivos…: Marcamos las opciones que aparecen en la siguiente ilustración: Extracción… Rotación… Puntuaciones… Opciones… Por último, ejecutamos el análisis haciendo clic en Aceptar. Matrices anti-imagen Covarianza anti-imagen Correlación anti-imagen Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Servicio Imagen del personal de ventas Calidad del Producto Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Servicio Imagen del personal de ventas Calidad del Producto Velocidad de entrega ,028 ,028 ,002 ,015 -,025 Nivel de precios ,028 ,032 ,022 ,014 -,026 Flexibilidad de precios ,002 ,022 ,608 ,044 -,011 Imagen del fabricante ,015 ,014 ,044 ,347 -,015 -,006 -,005 -,040 -,275 -,002 ,344a ,957 ,018 ,149 -,978 -,020 ,957 ,330a ,155 ,134 -,975 ,086 ,018 ,155 ,913a ,095 -,091 -,018 ,149 ,134 ,095 ,558a -,173 -,060 -,045 -,085 -,766 -,016 -,141 ,140 -,039 a. Medida de adecuación muestral Analizando los valores de la diagonal principal de la matriz de correlación anti-imagen, podemos observar como la medida de la adecuación muestral de los datos de la variable servicio es igual a 0.288, el más pequeño de todos los mostrados. Esto nos lleva a plantearnos la eliminación del análisis de dicha variable. Volvemos a realizar el análisis, esta vez sin la variable “servicio”, y en el cuadro de diálogos Puntuaciones marcamos además la opción “guardar como variables”. S Estadísticos descriptivos Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Media 3,515 2,364 7,894 5,248 Desviación típica 1,3207 1,1957 1,3865 1,1314 N del análisis 100 100 100 100 2,665 ,7709 100 6,971 1,5852 100 En la tabla anterior podemos observar como las mayores puntuaciones medias de percepción de los atributos analizados son las correspondientes a Flexibilidad de precios, Calidad del Producto e Imagen del fabricante, mientras que el resto de puntuaciones medias son bajas. Todas las medias son representativas por presentar un bajo nivel de dispersión de los datos alrededor de ellas, medido por la desviación típica. Matriz de correlaciones Correlación Sig. (Unilateral) Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Velocidad de entrega 1,000 -,349 ,509 ,050 Nivel de precios -,349 1,000 -,487 ,272 Flexibilidad de precios ,509 -,487 1,000 -,116 Imagen del fabricante ,050 ,272 -,116 1,000 Imagen de personal de ventas ,07 ,18 -,03 ,78 ,077 ,186 -,034 ,788 1,00 -,483 ,470 ,000 -,448 ,000 ,000 ,200 ,309 ,003 ,125 ,17 ,22 ,03 ,36 ,00 ,000 ,000 ,309 ,000 ,003 ,125 ,223 ,032 ,367 ,000 ,000 ,000 ,000 ,023 Para que podamos reducir la dimensionalidad del problema de manera que podamos incluir en un solo factor más de una variable, debe existir correlación entre dichas variables, es por eso que analizamos la matriz de correlaciones. En este caso, tenemos 15 coeficientes de correlación, de los cuales 11 son significativamente diferentes de cero, lo que representa un 73.33% ,03 de los coeficientes, porcentaje que podemos considerar suficientemente alto como para poder seguir con el análisis. los KMO y prueba de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin. Prueba de esfericidad de Bartlett ,665 Chi-cuadrado aproximado gl 205,965 15 Sig. ,000 La medida de adecuación muestral de Kaiser-Meyer-Olkin nos indica que la muestra de datos en su conjunto es adecuada dado que este coeficiente oscila entre 0 y 1, de manera que cuanto más cercano se encuentra de 1 más adecuados son los datos. Por otro lado, la Prueba de esfericidad de Bartlett intenta probar la hipótesis de que la matriz de correlaciones es o no una matriz identidad, lo que implicaría un nivel nulo de correlación entre las variables. En este caso, dado la significación 0.000, tenemos evidencia empírica suficiente como para rechazar la hipótesis de que dicha matriz sea una matriz identidad. Matrices anti-imagen I Covarianza anti-imagen Correlación anti-imagen Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto a. Medida de adecuación muestral Velocidad de entrega ,629 ,048 -,210 -,047 Nivel de precios ,048 ,650 ,190 -,077 Flexibilidad de precios -,210 ,190 ,613 ,038 Imagen del fabricante -,047 -,077 ,038 ,358 -,022 ,013 -,039 -,281 ,208 ,721a ,074 -,338 -,098 -,162 ,074 ,787a ,301 -,160 ,092 -,338 ,301 ,748a ,081 -,012 -,098 -,160 ,081 ,542a -,045 ,026 -,081 -,769 ,331 -,253 ,149 -,024 Las medidas de adecuación muestral de cada una de las seis variables consideradas individualmente son todas altas lo que indica un buen nivel de adecuación de los datos para el análisis. Comunalidades Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Inicial 1,000 1,000 1,000 1,000 Extracción ,658 ,580 ,646 ,882 1,000 ,872 1,000 ,616 Método de extracción: Análisis de Componentes principales. Una vez comprobado que los datos son adecuados para el análisis pasamos a comentar los resultados del Análisis de Componentes Principales propiamente dicho. Así, vemos como la cantidad de información explicada por el modelo factorial estimado contenida en cada una de las variables es bastante alta, resaltando las variables Imagen del fabricante y del personal de ventas. Varianza total explicada Componente 1 2 3 4 5 6 Autovalores iniciales % de la Total varianza % acumulado 2,513 41,892 41,892 1,740 28,992 70,883 ,597 9,958 80,842 ,530 8,826 89,668 ,416 6,929 96,596 ,204 3,404 100,000 Sumas de las saturaciones al cuadrado de la extracción % de la Total varianza % acumulado 2,513 41,892 41,892 1,740 28,992 70,883 Método de extracción: Análisis de Componentes principales. Teniendo en cuenta que el número máximo de factores que podemos extraer es igual al número de variables (6), debemos decidir cuantos factores elegimos. En este caso, siguiendo el criterio de elegir aquellos factores que tenga un autovalor inicial superior a 1, lo que implicaría que dicho factor explica en promedio más de una variable, han resultado dos factores, donde el primero explica 2.513 variables y el segundo 1.74 variables, lo que en términos relativos supone que el factor 1 explica el 41.892% y el 2 un 28.992%, que en conjunto Suma de Total 2,370 1,883 explican un 70.883%, por lo que estamos perdiendo un 29.117% de información. No obstante, podemos considerar que el primero de los factores concentra demasiada información respecto al segundo factor, por lo que nos planteamos una rotación de los factores, que en este caso consigue que el factor 1 explique el 39.497%, mientras que el factor 2 un 31.386%. No obstante, a pesar de que con la rotación hemos conseguido repartir mejor la información explicada por cada uno de los factores, analizamos la matriz de componentes sin rotar para ver que es lo que miden cada uno de los factores extraídos. Matriz de componentesa Componente 2 ,767 -,168 ,759 -,068 -,730 ,337 -,627 ,514 1 Calidad del Producto Nivel de precios Flexibilidad de precios Velocidad de entrega Imagen del personal de ventas Imagen del fabricante ,425 ,832 ,494 ,798 Método de extracción: Análisis de componentes principales. a. 2 componentes extraídos Teniendo en cuenta que la matriz de componentes recoge los coeficientes de correlación entre cada una de las variables y cada uno de los factores, podemos ver como la componente 1 tiene una correlación alta y positiva (es decir mide lo mismo) con las variables Calidad del Producto y Nivel de precios, mientras que una correlación alta y negativa (mide lo contrario) con Flexibilidad de precios y Velocidad de entrega. Sin embargo, el factor 2 tiene un correlación alta y positiva (mide los mismo) con la Imagen del personal de ventas y del fabricante, aunque estas dos últimas variables tienen cierta correlación positiva, también con el factor 1, lo que nos lleva a analizar la matriz de componentes rotados. Matriz de componentes rotados a Flexibilidad de precios Velocidad de entrega Calidad del Producto Nivel de precios Imagen del personal de ventas Imagen del fabricante Componente 1 2 -,804 -,011 -,787 ,194 ,764 ,179 ,714 ,266 ,025 ,934 ,102 ,933 Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 3 iteraciones. Ahora, el factor 1 mide lo contrario de las variables Flexibilidad de precios y Velocidad de entrega, y lo mismo que Calidad del Producto y Nivel de precios, mientras que el factor 2 claramente tiene relación positiva con las variables imagen del personal de ventas y del fabricante. Por último, debemo comprobar la bondad del modelo factorial obtenido, y lo hacemos analizando los residuos, diferencias entre la matriz de correlaciones inicial y la reproducida por el modelo, de manera que a medida que sean cercanos a cero en valor absoluto, indicará un buen nivel de ajuste. Correlaciones reproducidas I Correlación reproducida Residual a Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Velocidad de entrega Nivel de precios Flexibilidad de precios Imagen del fabricante Imagen del personal de ventas Calidad del Producto Velocidad de entrega ,658b -,511 ,631 ,101 Nivel de precios -,511 ,580b -,576 ,321 Flexibilidad de precios ,631 -,576 ,646b -,092 Imagen del fabricante ,101 ,321 -,092 ,882b ,161 ,266 -,030 ,874 -,567 ,593 ,161 -,616 -,121 ,089 ,245 -,050 -,049 -,024 ,161 -,121 -,050 ,089 -,049 -,024 -,084 -,080 -,004 -,086 ,084 -,123 ,168 -,045 Método de extracción: Análisis de Componentes principales. a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 10 (66,0%) residuales no redundante valores absolutos mayores que 0,05. b. Comunalidades reproducidas Observamos como no están demasiado cercanos a cero, lo que implicaría un bajo nivel de bondad del modelo, pero podemos considerarlo como relativamente bueno. A continuación hacemos el mapa de posición de los encuestados. Para ello seguimos los siguientes comandos: distintos GRÁFICOS => DISPERSIÓN/PUNTOS => Dispersión simple => Definir Del cuadro de diálogos siguientes marcamos las opciones que aparecen marcadas. Entramos en Opciones… REGR factor score 2 for analysis 1 PEQUEÑA 2,50000 PEQUEÑA PEQUEÑA PEQUEÑA GRANDE PEQUEÑA PEQUEÑA PEQUEÑA GR PEQUEÑA PEQUEÑA GRANDE GRAND PEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑA GRANDEGRANDE GRANDE G PEQUEÑA GRANDE PEQUEÑA PEQUEÑA GRANDE PEQUEÑA PEQUEÑA GRANDE PEQUEÑA PEQUEÑA GRANDE GRAND PEQUEÑA GRANDE PEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑA GRANDE PEQUEÑA PEQUEÑA PEQUEÑAPEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑAPEQUEÑA PEQUEÑA PEQUEÑAPEQUEÑAGRANDE GRANDE PEQUEÑA 0,00000 PEQUEÑA PEQUEÑA PEQUEÑA PEQUEÑA GRANDE PEQUEÑA PEQUEÑA -2,50000 GRANDE GRANDE GRANDE PEQUEÑA -2,00000 -1,00000 0,00000 1,00000 REGR factor score 1 for analysis 1 __ GRAND