Análisis Multivariante en la Investigación Comercial Asignatura: Investigación de Mercados II Centro: Universidad Autónoma de Madrid TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL Estructura de la clase: • Introducción. • Definición del AM. • Diseños y conceptos básicos del AM. • Tratamientos previos de los datos. • Supuestos del AM. • Clasificación de los métodos del AM. • Programas informáticos. • Introducción. En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM. Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante. Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar técnicas multivariantes. • Definición del AM. El AM se puede definir como: Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado. Valor teórico: Es el elemento esencial del AM. Combinación de todas las variables. Debemos sintetizar todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de modo empírico). • Diseños y conceptos básicos del AM. (Diseño de una investigación de mercados−−−flujo del AM) Los pasos a seguir al realizar una investigación se pueden resumir como sigue: 1 • Definir el objetivo a través de un estudio previo. • Establecer las hipótesis. • Seleccionar variables y escalas. • Establecer la metodología (instrumentos, muestreo, etc.) • Seleccionar la técnica multivariante más apropiada. • Determinar el nivel de significación (alpha). • Coleccionar datos. • Evaluar los supuestos básicos de la técnica multivariante. • Estimación del modelo multivariante y valoración del ajuste del modelo. • Interpretar el valor teórico (rechazar o no las hipótesis). • Validación e interpretación de los resultados. 1) Definir el objetivo a través de un estudio previo Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura existente para establecer el estado del arte. Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la pretensión del trabajo. Hay dos cosas importantes Conocimiento y creatividad. Hay que establecer un objetivo pero justificarlo a través de la revisión bibliográfica. 2) Establecer las hipótesis Establecemos las hipótesis que queremos validar o rechazar mediante el estudio. 3) Seleccionar variables y escalas Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra variable se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas. Escalas Características Nominal • Identifica por categorías mutuamente excluyentes • Los números no tienen valor matemático Ordinal • Ordenación de las categorías. • Los números no dan información de la distancia entre categorías. Intervalo • Identifica una distancia constante entre categorías. • Tiene un origen arbitrario. Razón • Se puede realizar comparación proporcional entre categorías. • Tiene un origen absoluto. A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer 2 trabajo, es aconsejable incluir entre 15−20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis discriminante, para el segundo trabajo. Para convertir valores no métricos en métricos: Desacuerdo 1 2 3 4 Acuerdo Ordenamos las opiniones Escala de Linkert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados. Completamente en desacuerdo −2 Más o menos en desacuerdo −1 No sabe, no contesta 0 Más o menos de acuerdo + 1 Completamente de acuerdo −2 4) Establecer la metodología (instrumentos, muestreo, etc.) Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología. 5) Seleccionar la técnica multivariante más apropiada. Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel de significación. 6) Determinar el nivel de significación (alpha). El nivel de significación está fuertemente relacionado con el llamado error de medida. Debemos aumentar el nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significación mejor. El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes. Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo) • La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc. 3 • La validez se define como el grado en que la medida representa con precisión lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigación. Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas. El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente. Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1−alfa) y la potencia (1−beta). Realidad Decisión Cierta Falsa Error Tipo I Nivel de Confianza No rechazar H0 Potencia 1− Error Tipo II Aceptar H0 1− Rechazar H0 Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa. Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor. Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo: • Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa) • Elegir la prueba estadística • Fijar el nivel de significación (alfa) • Calcular estadístico. • Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho. 4 7) Recopilar datos 8) Evaluar los supuestos básicos de la técnica multivariante. 9) Estimación del modelo multivariante y valoración del ajuste del modelo. 10) Interpretar el valor teórico (rechazar o no las hipótesis). 11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real −−−−lo valorará mucho en el trabajo) • Tratamientos previos de los datos. Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen análisis de los datos: • Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar más fácilmente las relaciones entre las variables. • Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretación de los datos. Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos: • Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre variables, y analizar las diferencias entre grupos. • Tratar datos ausentes mediante métodos de imputación • Detectar casos atípicos y eliminarlos si no son aleatorios. Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar: Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal. Es el primer método de examen gráfico. Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los puntos de datos basados en dos variables. Se investiga si la relación entre las dos variables es aproximadamente lineal. Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos. Se transforma la distribución normal en cajas y bigotes. La línea de la caja representa el valor de la mediana La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos. Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden 5 fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos. Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones: • Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no. A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de significación aceptable. • No eliminar casos y sustituir datos ausentes. Tres métodos: • Sustitución por la media: la media es el valor más representativo de una población, por ello sustituimos los datos por la media. • Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta población, igual es necesario buscar estudio semejante. • Imputación por regresión: para predecir el valor más representativo Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear: ♦ Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos: media igual a cero, desviación estándar igual a 1 Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5 Si el tamaño n>80: > 4 ♦ Procedimientos bivariantes: diagramas cajas y bigotes. ♦ Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada. Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras distancias si es o no atípico. • Supuestos del AM. Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos. Hay dos razones principales: • Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos serán más potentes, al igual que las distorsiones. • Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad. Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes. Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o 6 supuestos: ⋅ Normalidad: cumplirlo es importante porque muchas técnicas multivariantes tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es necesario que la distribución sea normal. ⋅ Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersión desde el punto de vista de la variable independiente. Es importante para muchas técnicas multivariantes que utilizan las métricas de varianza ya que es necesario que existan iguales niveles de dispersión ( como ejemplo análisis discriminante ) ⋅ Linealidad: Es importante porque muchas técnicas multivariantes tienen que utilizar el concepto de correlación. Es necesario que exista una relación lineal entre las dos variables. En las técnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad. ⋅ Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de predicción es independiente del resto. Son errores que no están correlaciones, que son independientes. • Clasificación de los métodos del AM. TÉCNICAS DE DEPENDENCIA TÉCNICAS DE INDEPENDENCIA Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas: ¿ podemos dividir las variables en dependientes o independientes? ¿ cuántas de estas variables son tratadas como dependientes? ¿ cómo son las variables medidas ( el tipo de escala ) ? • Programas Informáticos. Vamos a utilizar dos programas : SPSS y Dyane • Ejercicio 1 • Define el análisis multivariante con sus propias palabras. • ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? • Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II. • ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? • Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. • Define el análisis multivariante con sus propias palabras. Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultáneamente su efecto tiene interpretación. 7 • ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante? Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial conocer que escala para determinar que técnica multivariante es más apropiada en función de la escala. • Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II. Nivel de significación: me indica en que medida el valor observado es representativo de la muestra. Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor cuándo este es cierto. Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor cuándo este es falso. • ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes? Existen tres métodos: ♦ Primero hay que saber la forma de la distribución, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución normal. ♦ El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la relación entre dos variables es lineal. ♦ El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y nos sirve para detectar casos atípicos. • Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir todos los supuestos: ♦ el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t− Student y de la f− Snedecor. ♦ Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar correlaciones. ♦ Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la varianza en todas las variables independientes. ♦ El último supuesto que debe cumplir es que cualquier error de predicción sea independiente del resto. TEMA 2: EL ANALISIS FACTORIAL Estructura de la clase: • Definición y objetivo del AF. 8 • Conceptos básicos del AF. • Distinción entre el AFC y ACP. • Supuestos del ACP. • Diseño del ACP. ♦ Estimación del número de factores a ser extraídos. ♦ Métodos de rotación de los factores. ♦ Criterios para determinar el nivel de significación de las cargas factoriales. • Caso práctico. • Tratamiento de los datos con DYANE y SPSS. • Definición y objetivo del AF. El análisis factorial (AF) se puede definir como la técnica estadística multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de los mismos. El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente, y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser métricas. −−>[Author:RGM] El AF tiene dos objetivos: ⋅ La reducción y sintetización de los datos para identificar sus estructuras básicas (de las grandes BBDD). ⋅ La creación de una nueva serie de variables (los llamados factores) que pueden ser utilizados posteriormente en otros análisis multivariantes (por ejemplo la regresión múltiple o el análisis cluster). El AF se utiliza principalmente para los siguientes tipos de investigación: Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro producto, estudio de aptitudes, etc Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones altas. Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con ellas. −−>[Author:RGM] • Conceptos básicos. Conceptos Factor Definición Es el valor teórico que se extrae con el AF. Es una combinación lineal (Y=X1+ X2+...+ nXn)de las variables originales. Los factores representan las dimensiones subyacentes (extracción del Factor1) que resumen la serie original de variables. 9 El factor es una relación lineal. Calcularemos , , ..., n para hallar el factor (Y=X1+ X2+...+ nXn). Los factores no son directamente observables. Por ello usamos la técnica del AF. Es la correlación entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor específico. Las cargas de los factores al cuadrado indican qué porcentaje de la varianza en una variable original se atribuye a un determinado factor. Cargas Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor. Las (Cargas)2 es la proporción de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad Es una varianza compartida con otras variables. Es la proporción de varianza Comunalidad−−>[Author:RGM] de la variable que contribuye a su vez con correlaciones con otras variables. Es una medida de la cantidad de varianza contenida en la matriz de correlación de tal forma que la suma de los autovalores debe ser igual al Autovalor número de variables. (eigenvalue) Otra definición− Es la cantidad de información explicada por el modelo AF y su varianza asociada con cada factor. Reglas de extracción 1.− Factores con cargas > 50% 2.− Factores tipo autovalor > 1 • Distinción entre AF y ACP. En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que incluye la varianza común y la varianza específica y error). Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en realidad al ACP. AFC Varianza común ACP Varianza total Varianza específica y error Distorsionan los procesos de extracción La Varianza Total se divide en: 1.− Varianza Común: es aquella varianza donde una variable se comparte con todas las demás variables. 2.− Varianza Específica: es aquella varianza asociada únicamente con una variable específica. 3.− Varianza del Error: es aquella varianza debida al error de medición. 10 En este curso, nos centramos sólo en el ACP. En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes: ♦ Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP. ♦ Es muy difícil estimar sólo la varianza común. Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será el que nosotros usemos. • Supuestos del ACP. (Son específicos del ACP) ♦ Supuestos generales: Normalidad, Linealidad y Homocedasticidad. −−>[Author:RGM] ♦ Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación se puede examinar de tres maneras: ! Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser > 0,30. ! Contraste de esfericidad de Bartlett: −−>[Author:RGM] Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de correlaciones significativas. El resultado a esta prueba sería Significativo o No significativo. La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de correlación. Esto se consigue con el tercer análisis: Índice KMO ! Índice K−M−O (la adecuación muestral de Kaiser−Meyer−Olkin): −−>[Author:RGM] Es una prueba más completa aún que la anterior. Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son. Los índices obtenidos pueden ser: ♦ Si KMO es mayor que 0,80: Sobresaliente ♦ Si KMO está entre 0,70 y 0,80: Regular ♦ Si KMO está entre 0,60 y 0,70: Mediocre ♦ Si KMO está entre 0,50 y 0,60: Despreciable, y ♦ Si KMO es menor que 0,50: Inaceptable Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP. • Diseño del ACP. (Procedimientos) ♦ Selección de variables Seleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no métricas a métricas. ♦ Tamaño muestral El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no 11 debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100. ♦ Examen de los supuestos generales (y específicos) Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE. ♦ Matriz de correlaciones Como ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30. ♦ Test de Bartlett Aplicamos el test de Bartlett y el índice KMO. ♦ Estimación del número de factores a ser extraídos Ver página siguiente. ♦ Rotación de factores Ver gráfico. ♦ Interpretación de los factores Proceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón de cargas a cada factor. ♦ Validación Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido. ♦ Usos adicionales de los factores Regresión múltiple o Cluster. ◊ Estimación del número de factores a ser extraídos Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados. Criterio de raíz latente !DYANE Sólo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debería explicar por lo menos una variable. AUTOVALOR Criterio a priori Criterio de porcentaje de la varianza Ya se sabe de antemano cuántos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre−Test. Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extraída (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor. Criterio de contraste de caída 12 Se identifica el número óptimo de factores que contienen una proporción de la varianza común sustancialmente alta. CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS) ◊ Métodos de rotación de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más simple y más significativo. ♦ Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º (tipos) ♦ QUARTIMAX ♦ VARIMAX!DYANE (utilizada en el curso) ♦ EQUIMAX 13 ♦ Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º ♦ Criterios para determinar el nivel de significación de las cargas factoriales. (Interpretación de los factores) Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes. a) Asegurar la significación práctica. Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55 14 Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75 b) Valorar la significación estadística. Utilizar un nivel de significación de 0,5 y potencia de 0,8. • Caso practico. El caso TeleSake X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentación de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atención al cliente X7 : Calidad de la comida El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los criterios a utilizar y la interpretación y el análisis de los datos. Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC: (1) módulo de tablas de frecuencias, (2) módulo de tablas de medios, y (3) módulo de tablas específicas (DYANE, pp.318−337). Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo módulo (es decir, las variables filas son numéricas mientras que las variables columnas son categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos. Haremos otra práctica con la BD de Telesake: • Con Dyane. −−>[Author:RGM] ANÁLISISDECOMPONENTESPRINCIPALES ===================================================================== 15 IDENTIFICACIÓN DE LAS VARIABLES −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− VARIABLE 1 : X1 − X1 VARIABLE 2 : X2 − X2 VARIABLE 3 : X3 − X3 VARIABLE 4 : X4 − X4 VARIABLE 5 : X5 − X5 VARIABLE 6 : X6 − X6 VARIABLE 7 : X7 − X7 Matriz de coeficientes de correlación simple −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− X1 X2 X3 X4 X5 X6 X7 −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− X1 1,0000 −0,3492 0,5093 0,0504 0,6119 0,0771 −0,4826 X2 −0,3492 1,0000 −0,4872 0,2722 0,5130 0,1862 0,4697 X3 0,5093 −0,4872 1,0000 −0,1161 0,0666 −0,0343 −0,4481 X4 0,0504 0,2722 −0,1161 1,0000 0,2987 0,7882 0,2000 X5 0,6119 0,5130 0,0666 0,2987 1,0000 0,2408 −0,0552 X6 0,0771 0,1862 −0,0343 0,7882 0,2408 1,0000 0,1773 X7 −0,4826 0,4697 −0,4481 0,2000 −0,0552 0,1773 1,0000 Test de Bartlett −−−−−−−−−−−−−−−− Determinante de la matriz de correlación = 0,002679 Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000) Según el test de Bartlett me sale significativo FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 16 −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−− VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092 % DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13% % VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00% CARGAS DE LOS FACTORES: COMUNALIDAD −−−−−−−−−−− X1 −0,5280 0,7515 −0,2024 −0,0312 −0,3340 −0,0047 0,0541 1,0000 X2 0,7924 0,0931 −0,5081 −0,0055 0,3195 −0,0255 0,0508 1,0000 X3 −0,6920 0,3745 0,1727 −0,4761 0,3512 0,0320 0,0010 1,0000 X4 0,5640 0,6020 0,4524 0,1014 0,0243 0,3225 0,0025 1,0000 X5 0,1858 0,7789 −0,5949 −0,0283 −0,0197 −0,0075 −0,0604 1,0000 X6 0,4921 0,6040 0,5418 0,0248 0,0238 −0,3135 −0,0009 1,0000 X7 0,7386 −0,2698 0,0054 −0,5494 −0,2820 0,0185 −0,0009 1,0000 También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a 1 COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 −0,2090 0,3544 −0,1714 −0,0576 −0,7991 −0,0231 5,9081 X2 0,3137 0,0439 −0,4302 −0,0101 0,7643 −0,1246 5,5418 X3 −0,2740 0,1766 0,1462 −0,8798 0,8401 0,1566 0,1133 X4 0,2233 0,2839 0,3830 0,1873 0,0582 1,5778 0,2730 X5 0,0736 0,3673 −0,5037 −0,0522 −0,0470 −0,0368 −6,5904 X6 0,1948 0,2848 0,4587 0,0459 0,0569 −1,5340 −0,0946 X7 0,2924 −0,1272 0,0046 −1,0151 −0,6746 0,0905 −0,1034 Esta matriz, de momento, no tiene importancia 17 Cargas de los factores retenidos: −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−− X1 −0,5280 0,7515 −0,2024 0,8845 X2 0,7924 0,0931 −0,5081 0,8947 X3 −0,6920 0,3745 0,1727 0,6490 X4 0,5640 0,6020 0,4524 0,8851 X5 0,1858 0,7789 −0,5949 0,9951 X6 0,4921 0,6040 0,5418 0,9005 X7 0,7386 −0,2698 0,0054 0,6183 VARIANZA: 2,5258 2,1204 1,1811 % DE VARIANZA: 36,08% 30,29% 16,87% % VAR.ACUMUL.: 36,08% 66,37% 83,25% Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras. Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores. ROTACIÓN VARIMAX: −−−−−−−−−−−−−−−−− Cargas de los factores retenidos (después de la rotación): −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD −−−−−−−− −−−−−−−− −−−−−−−− −−−−−−−−−−− X1 −0,7524* 0,0711 0,5598 0,8845 X2 0,7539* 0,1081 0,5609 0,8947 X3 −0,8055* 0,0063 0,0095 0,6490 18 X4 0,1167 0,9210* 0,1525 0,8851 X5 −0,0620 0,1763 0,9799* 0,9951 X6 0,0341 0,9452* 0,0766 0,9005 X7 0,7596* 0,1930 −0,0644 0,6183 VARIANZA: 2,3788 1,8269 1,6215 % DE VARIANZA: 33,98% 26,10% 23,16% % VAR.ACUMUL.: 33,98% 60,08% 83,25% La interpretación es mucho más fácil y significativa. −−>[Author:RGM] La varianza explicada no ha cambiado. Se mantiene. COEFICIENTES DE PUNTUACIÓN DE LOS FACTORES: X1 −0,3037 0,0039 0,3262 X2 0,3452 −0,0997 0,3953 X3 −0,3487 0,0694 −0,0349 X4 −0,0189 0,5227 −0,0598 X5 0,0073 −0,0665 0,6242 X6 −0,0604 0,5582 −0,1194 X7 0,3094 0,0657 −0,0407 Ahora tendremos que interpretar los factores. Tendremos que poner nombre o etiqueta a cada factor. Esto dependerá. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas. −−>[Author:RGM] Al final tenemos la interpretación gráfica. REPRESENTACIÓN GRÁFICA DE LOS FACTORES −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− VARIABLES: 19 Código Significado −−−−−− −−−−−−−−−−−−−−−− A X1 B X2 C X3 D X4 E X5 F X6 G X7 FACTORES 1 y 2: FACTOR 2 | 1,0 + + | | |F | 0,9 + + D | ||| 0,8 + + | ||| 0,7 + + | ||| 0,6 + + | ||| 0,5 + + | ||| 0,4 + + | ||| 20 0,3 + + | ||| 0,2 + E + G | ||| 0,1 + + B | |A|| 0,0 +−−−−+−−−C−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+− 1 ||| −0,1 + + | ||| −0,2 + + | ||| −0,3 + + | ||| −0,4 + + | ||| −0,5 + + | ||| −0,6 + + | ||| −0,7 + + | ||| −0,8 + + | ||| −0,9 + + | 21 ||| −1,0 + + | |+++++++++++++++++++ −1,0 −0,8 −0,6 −0,4 −0,2 0,0 0,2 0,4 0,6 0,8 1,0 • Con SPSS. Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el SPSS. Seleccionamos el elemento de menú Analizar/Reducción de datos/Análisis Factorial 22 Y nos aparecerá una ventana como la siguiente: 23 −−>[Author:RGM] Ahora pulsamos Descriptivos Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significación de variables Pulsamos ahora Extracción: 24 −−>[Author:RGM] Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. −−>[Author:RGM] También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores que queremos extraer. −−>[Author:RGM] Nosotros usaremos el primer criterio Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar. Seleccionamos ahora Rotación: Seleccionamos ahora Puntuaciones: Guardar las puntuaciones factoriales para análisis posteriores. −−>[Author:RGM] 25 En botón opciones: Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo. En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualización Suprimir valores absolutos menores que: Opción muy importante a seleccionar. −−>[Author:RGM] Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados 6.2.1 Análisis de los datos con SPSS. A. factorial Notas Resultados creados Comentarios 05−MAR−2004 17:48:02 C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSake.sav Filtro Peso Segmentar archivo Núm. de filas del archivo de trabajo Entrada Manipulación Definición de los perdidos de los valores perdidos Datos <ninguna> <ninguna> <ninguna> 100 MISSING=EXCLUDE: Los valores definidos como perdidos por el 26 usuario son considerados como perdidos. MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos son sustituidos por la media de las variables. Casos utilizados. Sintaxis FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION . Tiempo 0:00:00,16 Recursos transcurrido Memoria máxima necesaria 7204 (7,035K) bytes KMO y prueba de Bartlett Medida de adecuación muestral de Káiser−Meyer−Olkin. Chi−cuadrado Prueba de aproximado esfericidad de Bartlett ,446 567,541 gl Sig. 21 ,000 Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es inaceptable. Sin embargo la segunda prueba, Test de Bartlett, sale significativo. −−>[Author:RGM] −−>[Author:RGM] Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett. Comunalidades Velocidad de entrega Nivel de precios Presentación de la comida Imagen del logotipo Inicial 1,000 1,000 Extracción ,884 ,895 1,000 ,649 1,000 ,885 27 Eficacia del servicio Atención al cliente Calidad de la comida 1,000 1,000 1,000 ,995 ,901 ,618 Método de extracción: Análisis de Componentes principales. Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles muy altos. Varianza total explicada Componente Autovalores iniciales Sumas de las saturaciones al Suma de las saturaciones al cuadrado de la extracción cuadrado de la rotación 28