UNIVERSIDAD DE CHILE MAGISTER EN GESTION Y POLITICAS PÚBLICAS ESTADÍSTICA APLICADA Y ECONOMETRÍA APLICACIONES DE SPSS Profesora : Sara Arancibia C. Profesora Auxiliar: Carlos Andrade G Primer Semestre 2012 1 FORMULAS PARA TRIUNFAR LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el secreto que ha llevado al triunfo a los grandes personajes de la historia. Y han encontrado una fórmula que todos los triunfadores practicaron, y sin la cual no habrían llegado a ser grandes ni famosos. Esta fórmula consiste en los siguientes cinco puntos: a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es esa meta que se desea alcanzar y no desviar la atención de ella. b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se va siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de entusiasmo. c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo ardiente es el más importante motivador de las acciones. El deseo de lograr éxitos consigue la costumbre de conseguir éxitos. d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y habilidades para lograr el éxito, concediéndole muchísima mayor importancia a las cualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota. e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o lo negativo que los demás piensen, hagan o digan. Esa energía concentrada hacia la consecución de una meta, trae enormemente las oportunidades, las cuales no se dejan atrapar por los que están sin hacer nada, pero se acercan generosamente a quienes se atreven a atacar, a trabajar fuertemente por conseguir el éxito. Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”, para desarrollar al máximo el potencial de cada uno. Meyer resume la fórmula básica en la siguiente frase: “Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente creamos, y entusiastamente emprendamos, de una manera impresionantemente favorable se transformará en algo placentero y beneficioso para nosotros” (Eliécer Salesman. “100 Fórmulas para llegar al éxito”) Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”. La cualidad más importante que afectará tu éxito en el curso es tu ACTITUD. Ésta determinará lo que estés dispuesto a hacer en el curso, y la calidad de ese esfuerzo contribuirá de la manera más significativa a tu éxito. 2 Contenido I II Análisis Inicial de los datos y repaso de herramientas de SPSS. ANOVA de un factor. Caso EnfermerasCaso Premio colegios ( SIMCE) III Análisis de regresión simple y modelos lin-log y log-lin IV Análisis de regresión múltiple V VI VII Modelos de regresión múltiple con variables cualitativas (dummy) Análisis de regresión logística Análisis factorial 3 I Análisis Inicial de los datos Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers) y finalizando con la comprobación de que se cumplen ciertas hipótesis de partida: en el caso de análisis multivariable nos referimos a; normalidad, linealidad y homocedasticidad, supuestos subyacentes en todos los métodos multivariantes. Representaciones gráficas para el análisis de datos La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la incorporación de módulos específicamente diseñados para la inspección gráfica de los datos. El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q. Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de relación se podrá constatar si la nube de puntos es aleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos variables de escala es significativa). Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la mediana se aproxima al final de la caja. El tamaño de la caja dependerá de la distancia entre las observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. 4 Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categoría o variable. Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen definidos por una variable de definición distinta. Años de escolarización por raza 899 634 20 Número de años de escolarización 718 15 10 691 5 1.366 702 244 693 620 688 596 765 1.476 735 0 Blanca Negra Otra Raza del encuestado Años de escolarización por raza agrupados por sexo 20 961 Número de años de escolarización 634 Sexo del encuestado 718 Mujer Hombre 960 15 10 1.404 804 244 5 621 620 596 1.448 693 695 688 765 821 735 0 Blanca Negra Otra Raza del encuestado 5 Detección de variables con categorías mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las categorías de la variable un código numérico y luego con recodificar en distinta variable asignar correctamente los códigos. Análisis de datos ausentes En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista debe ser consciente de que se enfrenta a una información que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas. Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación respecto al porcentaje de missing que produce dificultades en una muestra determinada. Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede generar distorsión en los resultados. La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta 6 97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos códigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un menú especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema. Detección de outliers Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atípicos. El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la población de la cual se extrae la muestra. Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del análisis. Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante, habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests estadísticos dados los problemas que presentan. La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional respecto del centro medio de las observaciones. Cuando se descubren errores Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirán de los análisis. Es importante mencionar que la función Valores Perdidos de SPSS puede realizar esta tarea. Otras herramientas muy útiles para limpiar los datos 7 Recodificar automáticamente: El cuadro de diálogo Recodificación automática le permite convertir los valores numéricos y de cadena en valores enteros consecutivos. Si los códigos de la categoría no son secuenciales, las casillas vacías resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Además, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores. La nueva variable, o variables, creadas por la recodificación automática conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. Los valores de cadena se recodifican por orden alfabético, con las mayúsculas antes que las minúsculas. Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mínimo se recodificará como 11, y el valor 11 será un valor perdido para la nueva variable. Recodificar en la misma variable /distinta variable El cuadro de diálogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podría agrupar los salarios en categorías que sean rangos de salarios. El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Puede recodificar variables numéricas en variables de cadena y viceversa. Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numéricas y de cadena. Una vez que se han limpiado los datos podemos pasar a la parte más interesante del proceso, el análisis de datos. Supuestos subyacentes en los métodos multivariables Es lógico pensar que de una buena materia prima podremos obtener un buen producto; de igual modo, de unos buenos datos obtendremos un buen análisis. En este proceso de depuración de la información, el último eslabón consiste en comprobar que se cumplen ciertas hipótesis de partida, puesto que asegurarán la consecución de un análisis multivariante óptimo. Estos análisis se caracterizan por su gran complejidad al integrar y combinar numerosas variables que pueden producir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible los datos respeten ciertos supuestos. 8 Normalidad La hipótesis de partida que debe cumplir cualquier análisis multivariable es la normalidad de los datos. Por tanto, el investigador debería comenzar su análisis evaluando la normalidad de todas y cada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, el resto de tests estadísticos diferenciadores de cada técnica multivariable no serán válidos, puesto que se requiere la normalidad para el uso de los estadísticos de la t y de la F. La herramienta más simple que sirve para diagnosticar la normalidad es el histograma, previamente explicado, mediante el cual se comparan los valores de los datos observados con la distribución normal. Además de hacer esta comprobación visual, se pueden utilizar los tests de asimetría y curtosis, disponibles en todos los programas en la parte de estadísticos descriptivos básicos. Señalar que en aquellas situaciones en las que las distribuciones sean no normales será necesaria la realización de transformaciones de los datos. La condición de distribución normal se puede referir a una variable en particular o a un conjunto de variables. Para evaluar normalidad en una variable se estudia la forma de la distribución mediante la prueba de Kolmogorov-Smirnov. Evaluar distribución normal en un conjunto de variables simultáneamente no es fácil. En primer término, la representación gráfica de más de tres variables en un plano es prácticamente imposible. En segundo lugar, condición necesaria de normalidad multivariable es que cada variable se distribuya normalmente, sin embargo, no es condición suficiente. En efecto, que cada variable separada se distribuya según la ley normal no implica que todas juntas 10 hagan. En la literatura se presentan diversas pruebas elaboradas para verificar normalidad multivariable. No obstante, los paquetes de procesamiento de información no han incorporado tales pruebas. En la práctica el estudio de cada variable por .separado es la única manera de examinar limitadamente esta materia. Para estos efectos se utilizan diversos gráficos. Linealidad Nuevamente y con la intención de resolver problemas potenciales antes de comenzar con el análisis multivariable conviene examinar si las relaciones entre las variables que intervienen en el estudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de la variable(s) dependiente(s) siempre que se produzca una modificación en las variables independientes. Técnicas estadísticas como la regresión múltiple, el análisis factorial o los sistemas de ecuaciones estructurales se basan en medidas de correlación. Esto significa que es condición necesaria la existencia de asociaciones lineales entre variables para obtener coeficientes de correlación que las representen y ejecutar los modelos utilizando estas técnicas. La relación lineal entre dos variables se representa a través de una línea recta; por tanto, para comprobar que este supuesto se cumple basta con analizar los gráficos de dispersión de las variables e intentar identificar si los datos siguen ese trazado lineal. Otra opción es examinar los residuos después de efectuar un análisis de regresión múltiple (como se verá en el Capítulo 7), 9 dado que éstos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, la parte no lineal de la relación. En aquellos casos en que la consecución de los datos sea no lineal se debe optar por transformar una o ambas variables para conseguir la linealidad. Un procedimiento válido es efectuar transformaciones mediante la utilización de la raíz cuadrada, o bien crear una nueva variable, denominada polinómica, que represente la parte no lineal de la relación. Homocedasticidad La homocedasticidad es el último supuesto que deben cumplir los datos antes de iniciar su tratamiento multidimensional. Concretamente, se verifica esta hipótesis cuando la varianza de los errores es constante. Es decir, la variación de la variable dependiente que se intenta explicar a través de las variables independientes -finalidad de técnicas como la regresión múltiple-, no se concentra en un pequeño grupo de valores independientes. El objetivo es conseguir una dispersión por igual de la varianza de la variable dependiente a lo largo del rango de los valores de la variable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante una perturbación conocida como heterocedasticidad. Técnicamente suele deberse a muestras en las que aparecen asimetrías importantes en los valores de las variables porque toman valores anormalmente altos o bajos respecto a la media. Se puede comprobar la existencia de homocedasticidad gráficamente, observando que no hay ningún punto que se aleje mucho del resto. Si, por el contrario, se constatan observaciones extremas habrá que convertir esas variables en variables especiales que se llaman dummy o ficticias. Esta transformación de los datos de las variables hace que todos los valores tengan un efecto potencialmente igual en la predicción. De forma complementaria, todos los paquetes estadísticos vienen provistos de tests estadísticos de homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si la varianza de la variable dependiente permanece constante. El supuesto de homocedasticidad dice relación con la dispersión de los datos. En particular, con la igualdad de varianzas en todos los grupos de la población origen de la muestra. La homocedasticidad multivariable se evalúa en la matriz de varianzas y covarianzas. Cabe destacar que en el contexto multivariable medir relación entre pares de variables da lugar a una matriz de correlaciones que presenta la relación de todos los pares de variables. Para que los resultados sean fiables las matrices no deben ser singulares ni multicolineales. Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valores extremadamente altos. La presencia de multicolinealidad es indicadora de relación intensa entre pares de variables. El determinante de matrices con multicolinealidad es próximo a cero. Existe singularidad cuando el determinante de una matriz es cero. El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. El cálculo de la inversa es necesario para efectuar el equivalente entre matrices a la división entre números. Una matriz con determinante cero o próximo a cero no permite el cálculo de su inversa -o un cálculo fiable de ésta. En consecuencia, no es posible efectuar el proceso matricial equivalente a la división. 10 Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidad o singularidad. El procedimiento más simple es borrar la variable que produce el problema. Solución legítima dado que la presencia de una variable correlacionada con otra u otras indica que ésta es combinación lineal de las demás y, en consecuencia, su eliminación no significa pérdida de información. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo que no participen en el modelo variables correlacionadas con otras previamente incluidas. Respecto a las condiciones de aplicación, más importante que evaluar su cumplimiento, es saber en cada técnica específica cuáles son los efectos que genera la violación de los supuestos. En opinión de Harris (1975) las técnicas multivariables no se ven seriamente afectadas cuando se violan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientos resistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distribuciones distintas a la ley normal. Bibliografía: Análisis Estadístico Multivariable de Manuel Vivanco. Editorial Universitaria Análisis Multivariable para las Ciencias Sociales de Lévy. Editorial Pearson Introducción a la Econometría de Jeffrey Wooldridge. Editorial Thomson Repaso de herramientas de SPSS Considere el archivo “consumo de agua potable.sav” correspondiente a una muestra aleatoria de hogares de la región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Considere además el archivo Ingresos hogares.sav correspondientes al ingreso familiar del hogar de los mismos hogares de la muestra considerada para el consumo de agua potable. Prepare un informe para un ejecutivo que necesita la siguiente información respecto al consumo de agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos. Suponga que se ha realizado la verificación de los datos. Responda las siguientes preguntas:” a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el gasto depende del límite de sobreconsumo (LSC= 60 m3). El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo (LSC=60m3) Para los metros cúbicos de agua que excede al LSC el valor por m 3 es $560. Mostrar la sintaxis correspondiente. b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento. c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo (consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente. d) Crear una tabla que muestre el número de comunas y porcentaje respecto al total de hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango de consumo. 11 e) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo. f) Determine mediante un gráfico si las variables gasto e ingreso siguen una tendencia lineal REPASO PRUEBAS DE HIPOTESIS Prueba T- Kolmogorov Smirnov- Levene g) Determine si existen diferencias significativas del gasto promedio en agua potable para las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta. h) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribución normal. Solución: a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el gasto depende del límite de sobreconsumo (LSC= 60 m3). El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo (LSC=60m3) Para los metros cúbicos de agua que excede al LSC el valor por m 3 es $560. Mostrar la sintaxis correspondiente. IF (consumo <= 60) gasto = 270 * consumo . VARIABLE LABELS gasto 'gasto consumo de agua potable' . EXECUTE . IF (consumo > 60) gasto = 270 * 60+560 * (consumo - 60) . VARIABLE LABELS gasto 'gasto consumo de agua potable' . EXECUTE . b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento. Ordenar en forma ascendente la variable clave. Fundir archivos y luego Seleccionar comparar media/ medias y hacer tabla seleccionando las tres comunas solicitadas. 12 Para archivo consumo de agua potable SORT CASES BY id_hogar (A) . Informe Comuna donde se enc uentra el hogar CERRILLOS EL B OSQUE PROVIDENCIA Total N Media Mediana Des v. típ. N Media Mediana Des v. típ. N Media Mediana Des v. típ. N Media Mediana Des v. típ. gas to en consumo de agua potable 31 47854,1806 21240,0000 49861,12054 33 48226,1576 28116,8000 48102,31021 16 72221,1750 51771,2000 61026,33408 831 50438,9338 32440,0000 47495,05844 Ingreso del hogar 31 494340,11 285355,32 420754,9 33 498187,25 328828,24 393996,4 16 709947,18 536311,29 516956,7 831 526677,52 387124,20 382120,2 Para archivo Ingresos hogares SORT CASES BY id_hogar (A) . A partir del archivo Consumo agua potable MATCH FILES /FILE=* /FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav' /BY id_hogar. EXECUTE. MEANS TABLES=gasto ingreso BY comu /CELLS COUNT MEAN MEDIAN STDDEV Otra forma : Hacer un cubo OLAP USE ALL. COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22). VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). Cubos OLAP FILTER BY filter_$. Comuna donde se gast o en consumo EXECUTE . encuentra el hogar CERRILLOS OLAP CUBES gasto ingreso BY comu /CELLS=COUNT MEAN MEDIAN STDDEV /TITLE='Cubos OLAP'. EL BOSQUE PROVIDENCIA Total N Media Mediana Des v. típ. N Media Mediana Des v. típ. N Media Mediana Des v. típ. N Media Mediana Des v. típ. de agua pot able 31 47854,1806 21240,0000 49861,12054 33 48226,1576 28116,8000 48102,31021 16 72221,1750 51771,2000 61026,33408 80 52881,0200 27198,4000 51799,61604 Ingreso del hogar 31 494340,11 285355,32 420754,873 33 498187,25 328828,24 393996,449 16 709947,18 536311,29 516956,682 80 539048,47 341093,04 433874,646 13 c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo (consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la sintaxis correspondiente RECODE consumo (Lowest thru 20=1) (20.001 thru 60=2) (60.001 thru Highest=3) INTO rangcons . VARIABLE LABELS rangcons 'rangos de consumo'. EXECUTE . En def de variables 1= bajo consumo 2= consumo normal 3=sobreconsumo d) Crear una tabla que muestre el número de comunas y porcentaje respecto al total de hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango de consumo. RECODE ingreso (Lowest thru 500000=1) (500000.01 thru Highest=2) INTO raningreso . VARIABLE LABELS raningreso 'rangos de ingresos'. EXECUTE . Tabla de contingencia rango de consumo * rangos de ingresos rango de consumo hasta 20 20,001 a 60 mayor a 60 Total Recuento % del total Recuento % del total Recuento % del total Recuento % del total rangos de ingresos hasta mayor a 500.000 500.000 21 1 2,5% ,1% 225 1 27,1% ,1% 245 338 29,5% 40,7% 491 340 59,1% 40,9% Total 22 2,6% 226 27,2% 583 70,2% 831 100,0% e) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre la sintaxis del procedimiento e identifique las comunas con mayor promedio de gastos por rangos de consumo. AGGREGATE /OUTFILE='D:\AIE 2005\Solemnes 1 2005-1\AGR comu gastos ingresos.sav' /BREAK=comu rangcons /gasto_mean = MEAN(gasto) /ingreso_mean = MEAN(ingreso) . EXAMINE VARIABLES=gasto_mean BY rangcons /ID= comu /PLOT BOXPLOT STEMLEAF 14 /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL. Val ores ex tremos gas to_mean May ores rangos de c onsumo Bajo consumo Consumo normal Sobreconsumo i) 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Número del caso 42 28 73 76 45 43 57 32 26 71 81 58 62 35 16 Comuna donde se enc uentra el hogar MACUL LA REINA SAN MIGUEL SAN RAMON MAIPU MACUL PROVIDENCIA LAS CONDES LA P INTANA SAN JOAQUIN VITA CURA PROVIDENCIA QUILICURA LO BARNE CHEA HUE CHURABA Valor 5313,60 5248,80 5227,20 5216,40 5184,00 15390,00 14382,00 14040,00 13543,20 12957,69 95301,87 92287,20 88189,65 87406,61 82689,42 Determine mediante un gráfico si las variables gasto e ingreso siguen una tendencia lineal 15 PRUEBAS DE HIPOTESIS f) Determine si existen diferencias significativas del gasto promedio en agua potable para las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta. Esta dísticos de grupo gas to en consumo de agua potable Comuna donde se enc uentra el hogar LAS CONDES VITACURA N 47 30 Media 74515,74 95301,87 Des viación típ. 58634,62025 98739,12261 Error típ. de la media 8552,73838 18027,2149 Prueba de muestras independi entes Prueba de Levene para la igualdad de varianzas F gast o en consumo de agua pot able Se han asumido varianzas iguales No s e han asumido varianzas iguales Sig. ,988 Prueba T para la igualdad de medias t ,324 gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior -1,160 75 ,250 -20786,122 17917,04140 -56478,7 14906,45 -1,042 42,177 ,303 -20786,122 19953,19051 -61048,3 19476,03 La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% de confianza que no hay evidencias que permitan descartar la hipótesis de que las varianzas son iguales. De esta forma nos debemos fijar en la primera línea de la tabla de la prueba T para la igualdad de medias. En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% de confianza que no hay evidencias que permitan descartar la hipótesis de que las medias son iguales. Esto también se puede observar del intervalo de confianza al 95% para la diferencia entre las medias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permita descartar que la diferencia entre las medias sea cero, ie., que las medias son iguales. j) Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribución normal. Según la prueba de K-S las variables no siguen una distribución normal, dado que se rechaza la hipótesis de normalidad Pruebas de norm alidad a Kolmogorov-Smirnov Estadístico gl Sig. N° de Habitantes del Hogar Consumo de Agua Potable Ingreso del hogar Estadístico Shapiro-Wilk gl Sig. ,140 831 ,000 ,934 831 ,000 ,181 831 ,000 ,849 831 ,000 ,150 831 ,000 ,873 831 ,000 a. Corrección de la s ignificación de Lilliefors 16 17 II Análisis ANOVA de un factor Estudio de Caso: Satisfacción Laboral de Enfermeras. A la Asociación Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras que parece estarse previendo para el futuro. Para investigar el grado actual de satisfacción con la profesión entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia. Como parte de este estudio, se pidió a 50 enfermeras que indicaran su grado de satisfacción en el trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos de satisfacción fue medido en una escala de 0 a 100, y los mayores valores representan mayores niveles de satisfacción. Los datos de la muestra se clasificaron según el tipo de hospital de las enfermeras. Los tipos fueron privados, geriátricos y universitarios. Para obtener los datos bajar el archivo ENFERMERAS.SAV . Responder las siguientes preguntas respaldando sus respuestas con las tablas y gráficas de SPSS que considere convenientes. a) Muestre un gráfico que permita visualizar el grado de satisfacción de las enfermeras según tipo de hospital. Comente. f) Con base en las tres variables de satisfacción laboral (sin considerar el tipo de hospital) ¿qué aspecto laboral satisface más a las enfermeras? ¿Cuál parece ser el que menos las satisface? ¿En que áreas, si es que las hay, siente usted que deben introducirse mejoras? Argumente con los estadísticos descriptivos y diagrama de tallo y hojas. Describa sus razonamientos. g) Determine un intervalo de confianza del 95% para la media de cada uno de los indicadores de satisfacción laboral para la población de enfermeras. Interprete. (Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%) h) Para la variable satisfacción con el trabajo. Determine si existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geriátricos y universitarios. i) Para la variable satisfacción con el sueldo. Determine si existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geriátricos y universitarios j) Determine si existe correlación significativa entre los indicadores de satisfacción laboral. Argumente su respuesta. k) Determine si las variables de satisfacción; con el trabajo, con el sueldo, y con oportunidades de ascenso siguen una distribución normal. Argumente su respuesta. 18 Solución: l) El gráfico agrupado muestra la media de los indicadores de satisfacción laboral de las enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras de los tres tipos de hospital muestran un alto promedio en satisfacción con su trabajo, alcanzando un valor aproximado a 80%. En los hospitales privados se observa que el indicador más bajo en promedio es la satisfacción con el sueldo 46% siendo además el más bajo al comparar con hospitales geriátricos y universitarios (los que indican un promedio 55% y 62% respectivamente). La satisfacción con oportunidades de ascenso se observa similar en promedio entre los hospitales privados y geriátricos (59 % en promedio) y algo menor para los hospitales universitarios ( 53% en promedio) Satisfacción laboral de enfermeras por tipo de hospital 90 80 80 79 80 70 Satisfacción con el trabajo (%) 60 62 59 59 55 Mean 50 Satisfacción con el 53 sueldo (%) Satisfacción con 46 40 oportunidades de asc privados geriátricos universitarios Tipo Hospital *** Gráficos Barras. Resúmenes para variables separables . GRAPH /BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi /MISSING=LISTWISE REPORT. m) Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que la mayoría de las enfermeras muestran un alto nivel de satisfacción con el trabajo alcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de las enfermeras tienen un nivel de satisfacción superior o igual a 82 con un mínimo 63. El tallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfacción con el trabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90. 19 Esta dísticos N Media Mediana Des v. típ. Rango Mínimo Máx imo Perc entiles Válidos Perdidos 25 50 75 Satisfacción con el trabajo (%) 50 0 79,80 82,00 8,288 32 63 95 72,00 82,00 87,00 Satisfacción con el sueldo (%) 50 0 53,26 54,00 16,462 88 2 90 42,75 54,00 60,00 Satisfacción con oportunidad es de ascenso (% ) 50 0 57,28 57,50 17,594 86 6 92 48,50 57,50 68,00 Satisfacción con el trabajo (%) Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 6 . 34 2,00 6 . 59 14,00 7 . 01111222223444 6,00 7 . 567789 8,00 8 . 22244444 12,00 8 . 555667788899 5,00 9 . 00004 1,00 9. 5 Stem width: Each leaf: 10 1 case(s) La media para satisfacción con el sueldo muestra un nivel moderado de 53,26. El 25% de las enfermeras muestra un nivel bajo de satisfacción con el sueldo, hasta 42,5. La mitad de las enfermeras muestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre 51 y 80 observándose sólo 2 valores extremos altos desde 89. 20 Satisfacción con el sueldo (%) Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 Extremes ,00 2. 3,00 ,00 (=<2) 2 . 578 3. 6,00 3 . 667778 3,00 4 . 223 7,00 4 . 5778999 5,00 5 . 11233 9,00 5 . 566677999 5,00 6 . 00000 3,00 6 . 666 3,00 7 . 024 2,00 7 . 66 1,00 8. 0 2,00 Extremes (>=89) Respecto al indicador satisfacción con oportunidades de ascenso se observa levemente superior al indicador de sueldo en media y mediana con valores 57,28 y 57,5 respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 con niveles superiores a 90. Satisfacción con oportunidades de ascenso (%) Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 Extremes (=<16) 2,00 2 . 39 2,00 3 . 77 7,00 4 . 0125679 14,00 5 . 11222444556789 12,00 6 . 122334467788 7,00 7 . 0224589 2,00 8 . 26 2,00 9 . 12 Stem width: Each leaf: 10 1 case(s) 21 Se observa una mayor variabilidad en opinión entre las enfermeras en el indicador de satisfacción con el sueldo con un rango 88 (diferencia entre el máximo y el mínimo ) y un coeficiente de variación 30,9% ( ( 16,46/53,26)*100) el cual determina el grado de dispersión de los datos relativo a su media . Se recomienda estudiar estrategias para mejorar el área que tiene relación con el sueldo. Por ejemplo bonos de incentivo según desempeño que mejoren el sueldo de las enfermeras. n) El intervalo de confianza para la media de satisfacción con el trabajo para la población de enfermeras indica que con un 95% de confianza la media de satisfacción con el trabajo estará entre 77,44 y 88,16. Asimismo el intervalo de confianza para la media de satisfacción con el sueldo para la población de enfermeras indica que con un 95% de confianza la media de satisfacción con el sueldo estará entre 48,58 y 57,94. El intervalo de confianza para la media de satisfacción con oportunidades de ascenso para la población de enfermeras indica que con un 95% de confianza la media de satisfacción con oportunidades de ascenso estará entre 52,28 y 62,28. Descriptive s Sati sfacción con el trabajo (% ) Sati sfacción con el sueldo (% ) Sati sfacción con oportunidades de ascenso (% ) Mean 95% Confidence Interval for M ean 5% Trimmed Mean Mean 95% Confidence Interval for M ean 5% Trimmed Mean Mean 95% Confidence Interval for M ean Lower Bound Upper Bound Stat istic 79,80 77,44 82,16 79,92 53,26 48,58 Lower Bound Upper Bound 57,94 53,41 57,28 52,28 Lower Bound Upper Bound 62,28 5% Trimmed Mean 57,88 o) Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2= 3 Descriptivos Satisfacción con el trabajo (%) N privados geriátricos universitarios Total 19 17 14 50 Media 79,32 80,41 79,71 79,80 Des viación típic a 8,035 9,702 7,269 8,288 Error típico 1,843 2,353 1,943 1,172 Intervalo de confianza para la media al 95% Límite Límite inferior superior 75,44 83,19 75,42 85,40 75,52 83,91 77,44 82,16 Mínimo 64 63 69 63 Máx imo 90 95 90 95 La prueba entrega los descriptivos básicos de la variable satisfacción con el trabajo para la muestra por tipo de hospital 22 Prueba de homogeneida d de varianza s Satisfacción con el trabajo (%) Estadístico de Levene ,796 gl1 gl2 2 47 Sig. ,457 Para la variable satisfacción en el trabajo, la prueba de homogeneidad de varianzas nos permite no rechazar la hipótesis nula de igualdad de varianzas entre los tres tipos de hospital . ANOVA Satisfacción con el trabajo (%) Inter-grupos Intra-grupos Total Suma de cuadrados 10,920 3355,080 3366,000 Media cuadrática 5,460 71,385 gl 2 47 49 F ,076 Sig. ,926 El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdad de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variable satisfacción con el trabajo no existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geriátricos y universitarios. Com paraciones m últiple s Variable dependiente: Sat isfacción con el trabajo (%) HSD de Tuk ey (I) Tipo Hos pital privados (J) Tipo Hos pital geriátricos universitarios privados universitarios privados geriátricos geriátricos universitarios Diferencia de medias (I-J) -1,10 -,40 1,10 ,70 ,40 -,70 Error típico 2,821 2,976 2,821 3,049 2,976 3,049 Sig. ,920 ,990 ,920 ,972 ,990 ,972 Intervalo de confianza al 95% Límite Límite inferior superior -7,92 5,73 -7,60 6,80 -5,73 7,92 -6,68 8,08 -6,80 7,60 -8,08 6,68 La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existen diferencias significativas entre los grupos ( de a pares ) p) La prueba entrega los descriptivos básicos de la variable satisfacción con el sueldo para la muestra por tipo de hospital Descriptivos Satisfacción con el sueldo (%) N privados geriátricos universitarios Total 19 17 14 50 Media 45,79 54,65 61,71 53,26 Des viación típic a 15,343 15,301 15,696 16,462 Error típico 3,520 3,711 4,195 2,328 Intervalo de confianza para la media al 95% Límite Límite inferior superior 38,39 53,18 46,78 62,51 52,65 70,78 48,58 57,94 Mínimo 2 27 36 2 Máx imo 66 76 90 90 Prueba de homogeneida d de varianza s Satisfacción con el sueldo (%) Estadístico de Levene ,120 gl1 gl2 2 47 Sig. ,887 23 Para la variable satisfacción con el sueldo, la prueba de homogeneidad de varianzas nos permite no rechazar la hipótesis nula de igualdad de varianzas entre los tres tipos de hospital . ANOVA Satisfacción con el sueldo (%) Inter-grupos Intra-grupos Total Suma de cuadrados 2093,723 11185,897 13279,620 gl 2 47 49 Media cuadrática 1046,861 237, 998 F 4,399 Sig. ,018 El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdad de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significancia del 0.05 para la variable satisfacción con el sueldo. Por lo tanto existen diferencias significativas entre las medias de los tres grupos de tipo de hospital; privados, geriátricos y universitarios. La prueba de Tukey nos muestra que existen diferencias significativas entre las medias los hospitales privados y geriátricos y entre los geriátricos y universitarios, pero entre los privados y universitarios no existen diferencias significativas Com paraciones m últiple s Variable dependiente: Sat isfacción con el sueldo (%) HSD de Tuk ey (I) Tipo Hos pital privados geriátricos universitarios (J) Tipo Hos pital geriátricos universitarios privados universitarios privados geriátricos Diferencia de medias (I-J) Error típico -8,86 5,150 -15, 92* 5,434 8,86 5,150 -7,07 5,568 15,92* 5,434 7,07 5,568 Intervalo de confianza al 95% Límite Límite inferior superior -21, 32 3,61 -29, 08 -2,77 -3,61 21,32 -20, 54 6,41 2,77 29,08 -6,41 20,54 Sig. ,209 ,014 ,209 ,419 ,014 ,419 *. La diferencia entre las medias es signific ativa al nivel .05. q) La matriz de correlaciones bivariadas nos muestra que los tres indicadores no se correlacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, por lo tanto no se rechaza Ho que establece que no hay correlación entre las variables Correlaciones Satisfacción con el trabajo (% ) Satisfacción con el sueldo (% ) Satisfacción con oportunidades de ascenso (% ) Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Satisfacción con el trabajo (%) 1 . 50 ,141 ,329 50 -,222 ,122 Satisfacción con el sueldo (%) ,141 ,329 50 1 . 50 ,010 ,946 Satisfacción con oportunidad es de ascenso (% ) -,222 ,122 50 ,010 ,946 50 1 . 50 50 50 24 r) La prueba de Shapiro Wilk nos muestra que las variables satisfacción con el sueldo y satisfacción con oportunidades de ascenso siguen una distribución normal pues el nivel de significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la distribución se ajusta a una curva normal, en cambio la variable satisfacción con el trabajo no se ajusta a una distribución normal Pruebas de norm alidad a Kolmogorov-Smirnov Estadístico gl Sig. Satisfacción con el trabajo (% ) Satisfacción con el s ueldo (% ) Satisfacción con oportunidades de asc enso (% ) Estadístico Shapiro-Wilk gl Sig. ,154 50 ,005 ,950 50 ,033 ,121 50 ,064 ,976 50 ,414 ,101 50 ,200* ,974 50 ,339 *. Este es un límite inferior de la significac ión verdadera. a. Corrección de la s ignificación de Lilliefors Gráfico Q-Q normal de Satisfacción con el trabajo (%) 3 2 1 Normal esperado 0 -1 -2 -3 60 70 80 90 100 Valor observado 25 Gráfico Q-Q normal de Satisfacción con el sueldo (%) 3 2 1 Normal esperado 0 -1 -2 -3 0 20 40 60 80 100 Valor observado Gráfico Q-Q normal de Satisfacción con oportunidades de ascenso (%) 3 2 1 Normal esperado 0 -1 -2 -3 0 20 40 60 80 100 Valor observado 26 Estudio de caso: Premio Colegios 1 Objetivo del caso: Utilizar herramientas de análisis descriptivo e inferencial para conocer información útil de la unidad de análisis, en este caso colegios y aplicar posibles criterios para asignar algún tipo de beneficio por segmentos o grupos con perfiles similares. Enunciado del caso: Suponga que usted es un asesor del Ministerio de Educación y debe preparar un informe en relación a los rendimientos de los estudiantes de enseñanza media del año 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qué colegios premiar con un estímulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medición de resultados de aprendizaje del Ministerio de Educación de Chile. Su propósito principal es construir al mejoramiento de la calidad y equidad de la educación, informando sobre el desempeño de los alumnos y alumnas en algunas áreas del curriculum nacional y relacionándolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalúan el logro de los Objetivos Fundamentales y Contenidos Mínimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a través de una prueba común que se aplica a nivel nacional, una vez al año, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicación de las pruebas se alternaron entre 4° Básico, 8° Básico y 2° Medio. Desde el 2006, las pruebas evalúan todos los años el nivel del 4° Básico y se alternan los niveles de 8° Básico y 2° Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2° Medio del 2006. Algunas de las variables de interés son: VARIABLE ETIQUETA DE VARIABLE Idest Identificador del establecimiento Región Nombre de la Región Comuna Nombre de la comuna ddca Dependencia ETIQUETA DEVALOR CP: Corporación Privada MC; Corporación Municipal MD; DAEM (Departamento de Administración de Educación Municipal) PP: Particular Pagado PS: Particular Subvencionado 1 TP Caso elaborado por Sara Arancibia P 27 ruralida Caracterización del establecimiento 1= Rural 2=Urbano socioeconómico Grupo socioeconómico establecimiento del A Bajo B Medio Bajo C Medio D Medio Alto E Alto prom_len Promedio puntaje de lenguaje prom_mat Promedio puntaje de matemáticas Después de múltiples reuniones con expertos en educación, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogéneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estará distinguiendo a los colegios que se destacan entre colegios con similares características. El premio se otorgará a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogéneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterización del establecimiento Rural y Urbano Los grupos homogéneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano Usted como asesor del Ministerio de Educación debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogéneos e identificar cuáles son los establecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona (Norte, Central y Sur). Además debe determinar si existen diferencias significativas entre los tipos de colegios y por dependencia Para realizar su análisis deberá realizar las siguientes etapas: 1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías: Municipalizado, Privado y Subvencionado b) Crear la variable zona considerando Zona Norte, Centro y Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje 28 d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. e) Determinar para cada grupo el percentil 75. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. 2. Realizar un análisis descriptivo de los datos a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia? b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales? d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados son Subvencionados? ¿Qué porcentaje de los premiados son de la zona Norte, Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur? e) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar? f) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano g) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo. h) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. i) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE. 3. Realizar pruebas de hipótesis Asuma que la base de datos corresponde a la población de todos los colegios que dieron la SIMCE en el año 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegios considerados y realice pruebas de hipótesis que permita responder las siguientes preguntas. 29 a) ¿Existen diferencias significativas entre los puntajes promedios de la los colegios de tipo Rural y Urbano? SIMCE entre b) ¿Existen diferencias significativas entre los puntajes promedios de Matemáticas por dependencia? c) ¿Existen diferencias significativas entre los puntajes promedios de Lenguaje por dependencia? d) Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios de lenguaje y matemáticas? e) ¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si existe relación determine si la relación es alta, moderada o débil. 4. Concluir a) Realice resumidamente un análisis descriptivo básico para los colegios premiados usando medidas de tendencia central y medidas de dispersión. b) Sintetizar sus comentarios acerca de los vínculos que explica. c) Sugiera otra alternativa para determinar cómo premiar a los colegios por su rendimiento en la prueba SIMCE. DESARROLLO: 1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías: Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia “ddcia” de la base de datos viene con formato cadena o string. Recodificaremos automáticamente y luego llevaremos las cinco categorías sólo a tres categorías. Para esto ir al Menú: Transformar/ recodificación automática AUTORECODE VARIABLES=ddcia /INTO depend /PRINT. Old Value New Value Value Label CP MC MD PP PS 1 Corporación Privada 2 Corporación Municipal 3 DAEM 4 Particular Pagado 5 Particular Subencionado Para crear tres categorías juntaremos las categorías Corporación Municipal y DAEM en Municipalizado y las categorías Corporación Privada y Particular pagado en Privado Para esto ir al Menú: Transformar/Recodificar en distinta variable 30 RECODE depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE . En definición de la variable Asignar etiquetas de valor a los códigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur En primer lugar se observa que la variable Región viene en formato de cadena. Se recodificará automáticamente. Menú: Transformar/Recodificación automática AUTORECODE VARIABLES=region /INTO reg /PRINT En el visor de resultados se puede observar los códigos de cada categoría Old Value New Value Value Label Región de Aisén del General Carlos Ibañez del Campo Región de Antofagasta Región de Atacama Región de Coquimbo Región de la Araucanía Región de Los Lagos Región de Magallanes y de la Antártica Chilena Región de Tarapacá Región de Valparaíso Región del Biobío Región del Libertador General Bernardo O' Higgins Región del Maule Región Metropolitana 1 Región de Aisén del General 1 Carlos Ibañez del Campo 2 Región de Antofagasta 3 Región de Atacama 4 Región de Coquimbo 5 Región de la Araucanía 6 Región de Los Lagos 7 Región de Magallanes y de la 7 Antártica Chilena 8 Región de Tarapacá 9 Región de Valparaíso 10 Región del Biobío 11 Región del Libertador General 11 Bernardo O' Higgins 12 Región del Maule 13 Región Metropolitana Para crear las categorías de zona se recodificará en distintas variables 31 Menú: Transformar/Recodificar en distinta variable RECODE region (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definición de variables 1= Norte 2= Centro 3= Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numérico. Para crear la variable puntprom seleccione Menú: Transformar/Calcular Variable destino: puntprom Tipo: numérico Etiqueta: Promedio de Matemáticas y Lenguaje Expresión: MEAN(prom_len,prom_mat) COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemáticas’. EXECUTE . d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. Para crear la variable de grupo primero recodificaremos automáticamente la variables ruralida a código numérico con nombre caract Donde caract=1 Rural caract=2 Urbano Menú: Transformar/Recodificación automática AUTORECODE VARIABLES=ruralida /INTO caract /PRINT. 32 Ahora formamos los seis grupos según criterio dado Creación de la variable grupo *** Sintaxis Grupo ***. IF IF IF IF IF IF (dependencia = 1 & caract = 1) grupo = 1 . (dependencia = 1 & caract = 2) grupo = 2 . (dependencia = 2 & caract = 1) grupo = 3 . (dependencia = 2 & caract = 2) grupo = 4 . (dependencia = 3 & caract = 1) grupo = 5 . (dependencia = 3 & caract = 2) grupo = 6 . EXECUTE . Luego en la definición de variables en valores se define: 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el cálculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Menú: Analizar/Frecuencias [Estadísticos]: Percentil 75 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS . No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio mencionado 1=SI recibe premio y 0=NO recibe premio. Se consideró el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO) 33 Estadísticos puntaje promedio entre lenguaje y matemáticas Municipalizado y Rural N Válidos Perdidos Percentiles 75 Municipalizado y Urbano N Válidos Perdidos Percentiles 75 Privado y Rural N Válidos Perdidos Percentiles 75 Privado y Urbano N Válidos Perdidos Percentiles 75 Subvencionado y Rural N Válidos Perdidos Percentiles 75 Subvencionado y Urbano N Válidos Perdidos Percentiles 75 68 0 225,6250 587 0 246,0000 19 0 322,0000 388 0 324,0000 86 0 246,3750 1171 0 286,0000 *** Sintaxis Premio ***. IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . En definición de variables se agrega la etiqueta de valor VARIABLE LABELS premio 'premio (SI=1, NO=0)' . 1=SI EXECUTE . 0=NO 2. Gráficos a) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano Para realizar esta gráfica se selecciona Menú: Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE . 34 Media de puntajes de lenguaje y matemáticas por dependencia prom_len prom_mat Media 300 200 291,3 306,1 259,5 235,5 256,9 226,6 100 0 Municipalizado Privado Subvencionado Tipo de dependencia Del gráfico se observa que tanto para lenguaje como para matemáticas los colegios privados tiene mejores resultados observándose sin embargo diferencias en casi 15 puntos a favor del promedio de matemáticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemáticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje. Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un gráfico de barras agrupados seleccionando resúmenes para grupos de casos. GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract 35 Media de puntajes promedios en lenguaje por dependencia agrupados por caracterización Rural y Urbano Caracterización del establecimiento 300 Rural Urbano Media prom_len 250 200 150 292,2 272,9 237,1 261,4 234 221,3 100 50 0 Municipalizado Privado Subvencionado Tipo de dependencia Se observa una clara diferencia entre los grupos con caracterización rural y urbana, notándose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relación a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterización de Rural y Urbano es conveniente hacer un gráfico en dos paneles. Para esto vamos a Menú: Gráficos/ barras agrupadas/ resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE . 36 Media de puntajes de lenguaje y matemáticas por dependencia para colegios urbanos y rurales prom_len prom_mat 200 292,2 237,1 228,5 221,3 210,6 100 307 261,4 259,3 234 224,7 0 Rural Media 300 200 272,9 100 286,8 Caracterización del establecimiento Urbano Media 300 0 Municipalizado Privado Subvencionado Tipo de dependencia El gráfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios más altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes más bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. g) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. Menú: Analizar/ Explorar/gráficos EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. 37 Puntajes promedios SIMCE por grupo de colegios 2175 2173 2174 Puntaje SIMCE promedio 350 1097 2176 853 1301 300 285 250 1657 200 1684 Municipalizado y Rural Municipalizado Privado y Rural y Urbano Privado y Urbano Subvencionado Subvencionado y Rural y Urbano Grupo Del gráfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes más bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogéneos en cuanto al resultado promedio SIMCE, mostrando sólo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayoría de los colegios concentrados en puntajes bajos es el único grupo que presenta varios colegios con puntajes atípicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes más bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la gráfica. USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . 38 Es claro que la posición de cada grupo en general se mantiene en relación a la gráfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados, observándose muy concentrados, bastante homogéneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atípicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa más notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos. Puntaje promedio para los colegios premiados por grupo de colegios 2190 360 2175 2173 Puntaje SIMCE promedio 340 2174 2169 2172 1097 320 300 280 260 285 240 220 Municipalizado y Rural Municipalizado Privado y Rural y Urbano Privado y Urbano Subvencionado Subvencionado y Rural y Urbano Grupo Si consideramos la base de datos como si fuera la población de colegios que rinde la SIMCE, podríamos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios. 39 3. Pruebas de hipótesis Asuma que la base de datos corresponde a la población de todos los colegios que rindieron la prueba SIMCE en el año 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegios considerados y realice pruebas de hipótesis que permita responder las siguientes preguntas. En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Menú: Seleccionar/ Muestra aleatoria de datos Sintaxis USE ALL. COMPUTE filter_$=(uniform(1)<=.20). VARIABLE LABEL filter_$ 'Approximately 20 % of cases (SAMPLE)'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . a) ¿Existen diferencias significativas entre los puntajes promedios de la SIMCE entre los colegios de tipo Rural y Urbano? Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado que es una prueba paramétrica veremos previamente si se verifica la normalidad de la variable “puntprom” en ambos grupos Rural y Urbano. Menú: Analizar/ Explorar/ Gráficos con prueba de normalidad EXAMINE VARIABLES=puntprom BY caract /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES EXTREME /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Pruebas de normalidad puntaje promedio entre lenguaje y matemáticas Caracterización del establecimiento Rural Urbano a Kolmogorov-Smirnov Estadístico gl Sig. ,201 45 ,000 ,078 425 ,000 Estadístico ,797 ,964 Shapiro-Wilk gl 45 425 Sig. ,000 ,000 a. Corrección de la s ignificac ión de Lilliefors Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegios rurales como urbanos se rechaza la hipótesis nula de normalidad, donde H0: La variable puntaje promedio distribuye normal Sin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos si existen valores extremos o atípicos y los filtraremos según sea la cantidad 2, para luego solicitar el coeficiente de asimetría. Si éste está cerca de cero se considerará que la distribución es simétrica y en consecuencia se podrá aplicar la prueba T. Si son muchos los casos extremos y atípicos seguramente la distribución no será simétrica y no podríamos aplicar la prueba T 2 40 Para lo anterior consideremos el diagrama de cajas que se seleccionó en el menú explorar en la sintaxis anterior. puntaje promedio entre lenguaje y matemáticas Media de puntajes promedios SIMCE por caracterización Rural y Urbano 350,00 760,00 300,00 1190,00 1195,00 250,00 200,00 Rural Urbano Caracterización del establecimiento En la gráfica se puede apreciar que hay valores atípicos y extremos en el grupo de colegios rurales. Al editar la gráfica se puede ver que dentro de los extremos aparecen tres promedios extremos con identificación 1171, 754 y 760 Además se puede apreciar dos atípicos con identificación, 1190, 1195 Filtremos estos cinco valores y verifiquemos si se cumple la asimetría Menú: Datos/Seleccionar casos USE ALL. COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest ~= 1195). VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest ~= 1195 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . 41 Una vez filtrados los valores extremos y atípicos solicitemos el coeficiente de asimetría para cada grupo de caracterización; Rural y Urbano Par esto conviene segmentar por “caract” y luego en Frecuencias/ Estadísticos solicitar el coeficiente de asimetría. Menú: Datos/ Segmentar archivo SPLIT FILE LAYERED BY caract . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS . SORT CASES BY caract . SPLIT FILE LAYERED BY caract . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS . Coe ficiente de asimetría para l a varia ble puntaje promedi o punt aje promedio entre lenguaje y matemáticas Rural N Válidos Perdidos Asimetría Urbano N Válidos Perdidos Asimetría 40 0 ,553 425 0 ,258 Dado que el coeficiente de asimetría está cerca de cero podemos considerar la variable “puntprom” simétrica en ambos grupos Rural y Urbano y por tanto podemos aplicar la prueba T para muestras independientes: Previamente debemos sacar la segmentación y tomar todos los casos, dejando el filtro realizado anteriormente para los extremos y atípicos. Para realizar la prueba T: Menú: Analizar/Comparar medias/Prueba T para muestras independientes ***Sintaxis*** T-TEST GROUPS = caract(1 2) /MISSING = ANALYSIS /VARIABLES = puntprom /CRITERIA = CI(.95) . 42 Esta dísticos de grupo punt aje promedio entre lenguaje y matemáticas Caracterización del establecimiento Rural Urbano N 40 425 Media 216, 2125 260, 4612 Des viación típ. 16,63827 39,08043 Error típ. de la media 2,63074 1,89568 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F punt aje promedio entre lenguaje y matemáticas Se han asumido varianzas iguales No s e han asumido varianzas iguales 42,153 Sig. ,000 Prueba T para la igualdad de medias Sig. (bilateral) -7,095 463 ,000 -44, 24868 6,23655 -56, 50412 -31, 99323 -13, 646 87,838 ,000 -44, 24868 3,24259 -50, 69281 -37, 80454 t gl Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior Diferencia de medias En la tabla de estadísticos de grupo se observa el número de casos por cada grupo en la muestra y la media y dispersión del puntaje promedio para los datos de la muestra de colegios. La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado de la prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia es menor a 0,05 se rechaza la hipótesis nula. H0 : 2 1 2 2 que indica que la varianza del puntaje promedio para el grupo Rural no difiere de la varianza del puntaje promedio para el grupo Urbano. Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila de la tabla. Dado que la significancia es menor a 0,05 se rechaza la hipótesis nula de igualdad de medias H0 : 1 2 que indica que no hay diferencias significativas en las medias del promedio de puntajes SIMCE para el grupo Rural y Urbano. Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media de los promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con un nivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95% para la diferencia de medias. En este caso la diferencia de medias para los promedios de puntajes entre los colegios urbanos y rurales está entre 38 puntos y 51 puntos aproximadamente con un 95 % de confianza. b) ¿Existen diferencias significativas entre las medias de los puntajes promedios de Matemáticas por dependencia? La variable dependencia es una variable nominal con tres categorías. Por tanto se trata de una Prueba ANOVA de un factor, donde la hipótesis nula es H 0 : 1 2 3 es decir, las medias de los puntajes promedios de matemáticas de los colegios municipalizados, privados y subvencionados no difieren significativamente entre sí. Previamente verificaremos la hipótesis de normalidad. Dado que la prueba es robusta a desviaciones de la normalidad por lo menos se debe verificar que los datos se comportan de manera simétrica. Para verificar la normalidad, solicitamos la prueba de K-S en; 43 Menú: Analizar/ Explorar/ Gráficos EXAMINE VARIABLES=prom_mat BY dependencia /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Se obtiene la tabla con la prueba K-S Pruebas de norm alidad a Tipo de dependenc ia Municipaliz ado Privado Subvencionado prom_mat Kolmogorov-Smirnov Estadístico gl Sig. ,083 128 ,032 ,120 82 ,005 ,072 260 ,002 Estadístico ,947 ,948 ,972 Shapiro-Wilk gl 128 82 260 Sig. ,000 ,002 ,000 a. Corrección de la significac ión de Lilliefors Claramente se observa que la variable puntaje de matemáticas no distribuye normal en ninguno de los grupos de dependencia. Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo de dependencia. Media de puntajes promedios de matemáticas por dependencia 400 350 250,00 prom_mat 661,00 300 575,00 250 200 150 Municipalizado Privado Subvencionado Tipo de dependencia 44 Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay tres colegios con valores atípicos, cuya identificación corresponden a 250, 661 y 575. Filtraremos estos valores Menú: Datos/ seleccionar USE ALL. COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575). VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Ahora veamos los coeficientes de asimetría para comprobar que los datos distribuyen en forma simétrica en cada grupo. Menú: Datos/ Segmentar archivo/ Frecuencias SORT CASES BY dependencia . SPLIT FILE LAYERED BY dependencia . FREQUENCIES VARIABLES=prom_mat /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS . Esta dísticos prom_mat Municipaliz ado N Privado Asimetría N Subvencionado Asimetría N Válidos Perdidos Válidos Perdidos Válidos Perdidos Asimetría 125 0 ,309 82 0 -,592 260 0 ,102 Se puede apreciar que los coeficientes de asimetría son cercanos a cero y por tanto podemos considerar las distribuciones simétricas para cada grupo de dependencia. Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos los casos (sacar la segmentación por dependencia). Menú: Analizar/comparar medias/ ANOVA de un factor ONEWAY prom_mat BY dependencia /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS . 45 En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hipótesis nula es H0 : 2 1 2 2 2 3 Es decir no existen diferencias significativas en la variabilidad del puntaje promedio de matemáticas entre los tres grupos de dependencia Prueba de homogeneida d de varianza s prom_mat Estadístico de Levene 38,170 gl1 gl2 464 2 Sig. ,000 De la tabla obtenemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige que se cumpla la hipótesis anterior). En este caso veremos la prueba de Welch, que representa una alternativa robusta al estadístico F del ANOVA cuando no se puede asumir varianzas iguales 3 Para esto en Opciones activamos Welch, donde la hipótesis nula correspondiente es H 0 : 1 2 3 Pruebas robustas de igualdad de las m edias prom_mat a Welch Estadístico 177, 550 gl1 2 gl2 205, 874 Sig. ,000 a. Dist ribuidos en F asintóticamente. De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis de igualdad de medias y en consecuencia hay diferencias significativas entre las medias del puntaje promedio de matemáticas por dependencia. Para conocer entre qué grupos de dependencia hay diferencias, solicitamos en Post-Hoc la opción de Games-Howell que es un método que se basa en la distribución del rango estudentizado y en un estadístico T. Es el mejor método que permite controlar la tasa de error en diferentes situaciones. 3 Tanto el estadístico de Welch como el de Brown- Forsythe se distribuyen según el modelo de probabilidad F, pero con grados de libertad corregidos 46 Com paraciones m últiple s Variable dependiente: prom_mat Games-Howell (I) Tipo de dependencia Municipaliz ado Privado Subvencionado (J) Tipo de dependencia Privado Subvencionado Municipaliz ado Subvencionado Municipaliz ado Privado Diferencia de medias (I-J) Error típico -84, 934* 4,824 -36, 050* 3,371 84,934* 4,824 48,884* 5,206 36,050* 3,371 -48, 884* 5,206 Sig. ,000 ,000 ,000 ,000 ,000 ,000 Intervalo de confianza al 95% Límite Límite inferior superior -96, 39 -73, 48 -43, 98 -28, 12 73,48 96,39 36,56 61,21 28,12 43,98 -61, 21 -36, 56 *. La diferencia entre las medias es signific ativa al nivel .05. Dado que todas las significancias son menores a 0,05 se puede concluir que existen diferencias significativas en los puntajes promedios de matemáticas entre todos los pares posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza para la diferencia de medias poblacionales del puntaje promedio de matemáticas para cada par de grupos considerados en el análisis con un 95% de confianza. c) ¿Existen diferencias significativas entre los puntajes promedios de Lenguaje por dependencia? Repitiendo el mimo procedimiento para los puntajes de matemáticas se realiza un diagrama de caja para ver los atípicos en los puntajes de lenguaje por dependencia obteniendo que existen dos atípicos en el grupo de municipalizados y un caso atípico en los privados Media de los puntajes promedio de lenguaje por dependencia 250,00 300 prom_len 661,00 250 54,00 200 Municipalizado Privado Subvencionado Tipo de dependencia 47 Se filtran para luego pedir el coeficiente de asimetría. USE ALL. COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54). VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . SORT CASES BY dependencia . SPLIT FILE LAYERED BY dependencia . FREQUENCIES VARIABLES=prom_len /FORMAT=NOTABLE /STATISTICS=SKEWNESS SESKEW /ORDER= ANALYSIS . Esta dísticos prom_len Municipaliz ado N Privado Asimetría N Subvencionado Asimetría N Válidos Perdidos Válidos Perdidos Válidos Perdidos Asimetría 126 0 ,445 81 0 -,535 260 0 -,024 Se puede observar que la variable puntaje promedio de lenguaje distribuye en forma simétrica en los tres grupos de dependencia pues los tres coeficientes de asimetría están cercanos a cero. Por tanto podemos aplicar la prueba ANOVA. Previamente consideramos todos los casos (sacar la segmentación por dependencia). Menú: Analizar/comparar medias/ ANOVA de un factor ONEWAY prom_len BY dependencia /STATISTICS DESCRIPTIVES HOMOGENEITY /MISSING ANALYSIS . En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hipótesis nula es H0 : 2 1 2 2 2 3 . Es decir no existen diferencias significativas en la variabilidad del puntaje promedio de lenguaje entre los tres grupos de dependencia Prueba de homogeneida d de varianza s prom_len Estadístico de Levene 29,956 gl1 2 gl2 464 Sig. ,000 48 De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hipótesis nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige que se cumpla la hipótesis anterior). En este caso veremos la prueba de Welch, que representa una alternativa robusta al estadístico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en Opciones activamos Welch, donde la hipótesis nula correspondiente es H 0 : 1 2 3 Pruebas robustas de igualdad de las m edias prom_len a Welch Estadístico 183, 227 gl1 2 gl2 208, 914 Sig. ,000 a. Dist ribuidos en F asintóticamente. De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis de igualdad de medias y en consecuencia hay diferencias significativas entre las medias del puntaje promedio de lenguaje por dependencia. Para conocer entre qué grupos de dependencia hay diferencias, solicitamos en Post-Hoc la opción de Games-Howell que es un método que se basa en la distribución del rango estudentizado y en un estadístico T. Es el mejor método que permite controlar la tasa de error en diferentes situaciones. Com paraciones m últiple s Variable dependiente: prom_len Games-Howell (I) Tipo de dependencia Municipaliz ado Privado Subvencionado (J) Tipo de dependencia Privado Subvencionado Municipaliz ado Subvencionado Municipaliz ado Privado Diferencia de medias (I-J) Error típico -58, 521* 3,265 -27, 955* 2,396 58,521* 3,265 30,566* 3,452 27,955* 2,396 -30, 566* 3,452 Sig. ,000 ,000 ,000 ,000 ,000 ,000 Intervalo de confianza al 95% Límite Límite inferior superior -66, 27 -50, 77 -33, 59 -22, 32 50,77 66,27 22,40 38,74 22,32 33,59 -38, 74 -22, 40 *. La diferencia entre las medias es signific ativa al nivel .05. Dado que todas las significancias son menores a 0,05 se puede concluir que existen diferencias significativas en los puntajes promedios de lenguaje entre todos los pares posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza para la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par de grupos considerados en el análisis con un 95% de confianza. d) Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios de lenguaje y matemáticas?. Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestras 0 es decir la diferencia relacionadas, donde la hipótesis nula corresponde a H 0 : 1 2 de las medias poblacionales del puntaje promedio de matemáticas y de lenguaje es cero. 4 Tanto el estadístico de Welch como el de Brown- Forsythe se distribuyen según el modelo de probabilidad F, pero con grados de libertad corregidos 49 Previamente segmentaremos por dependencia. SORT CASES BY dependencia . SPLIT FILE SEPARATE BY dependencia . Calcularemos la variable diferencia entre ambos puntajes “difpunt”. Luego veremos si la diferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba T para muestras independientes es robusta a desviaciones de la normalidad, por tanto bastaría filtrar los casos extremos o atípicos si es que la cantidad es marginal y luego probar que es simétrica. Menú; Transformar/Calcular Luego de calcular la diferencia se procede a verificar si distribuye normal Menú; Analizar/ Explorar/ gráficos COMPUTE difpunt = prom_mat - prom_len . EXECUTE . EXAMINE VARIABLES=difpunt /ID= Idest /PLOT BOXPLOT HISTOGRAM NPPLOT /COMPARE GROUP /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING LISTWISE /NOTOTAL. Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad de la variable diferencia entre los puntajes, en consecuencia se verifica la hipótesis de la prueba T para muestras relacionadas. Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una distribución normal. b Pruebas de norm alidad a difpunt Kolmogorov-Smirnov Shapiro-Wilk Estadístico gl Sig. Estadístico gl ,053 128 ,200* ,995 128 Sig. ,942 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significac ión de Lilliefors b. Tipo de dependenc ia = Municipalizado Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a una distribución normal . 50 Histograma Tipo de dependencia= Municipalizado 25 Frecuencia 20 15 10 5 Mean = -9,8125 Std. Dev. = 12,76792 N = 128 0 -50,00 -40,00 -30,00 -20,00 -10,00 0,00 10,00 20,00 difpunt b Pruebas de norm alidad a difpunt Kolmogorov-Smirnov Estadístico gl Sig. ,097 82 ,054 Estadístico ,978 Shapiro-Wilk gl 82 Sig. ,173 a. Corrección de la significac ión de Lilliefors b. Tipo de dependenc ia = Privado Histograma Tipo de dependencia= Privado 20 Frecuencia 15 10 5 Mean = 16,6585 Std. Dev. = 17,67276 N = 82 0 -40,00 -20,00 0,00 20,00 40,00 60,00 difpunt 51 Para los colegios privados se puede apreciar en el histograma de la variable que existe un colegio con una diferencia entre los puntajes matemáticos y lenguaje bastante amplio, siendo el caso atípico con el valor negativo mayor. Sin embargo la prueba Kolmogorov- Smirnov nos permite no rechazar la normalidad de la variable diferencia, dado que la significancia es mayor a 0,05. b Pruebas de norm alidad a difpunt Kolmogorov-Smirnov Shapiro-Wilk Estadístico gl Sig. Estadístico gl ,046 260 ,200* ,990 260 Sig. ,082 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significac ión de Lilliefors b. Tipo de dependenc ia = Subvencionado Histograma Tipo de dependencia= Subvencionado 40 Frecuencia 30 20 10 Mean = -2,6654 Std. Dev. = 18,13696 N = 260 0 -40,00 -20,00 0,00 20,00 40,00 60,00 difpunt En el caso de los subvencionados se observa un puntaje muy alto en el histograma, correspondiendo a un colegio con una diferencia promedio entre matemáticas y lenguaje cercano a 60 puntos. Sin embargo se comporta con un buen ajuste a la distribución normal pues la significancia es 0,200 mayor a 0,05. Ahora para cada grupo de dependencia aplicaremos la prueba T para muestras relacionadas. T-TEST PAIRS = prom_mat WITH prom_len (PAIRED) /CRITERIA = CI(.95) /MISSING = ANALYSIS. a Esta dísticos de muestra s rela cionadas Par 1 prom_mat prom_len Media 223,27 233,09 N 128 128 Des viación típ. 25,380 19,010 Error típ. de la media 2,243 1,680 a. Tipo de dependencia = Municipalizado 52 En primer lugar se aprecia la tabla con estadísticos básicos de la muestra para colegios con dependencia municipalizado, mostrando que las medias muestrales tienen una diferencia de aproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje. a Correlaciones de muestras rel aciona das N Par 1 prom_mat y prom_len 128 Correlación ,873 Sig. ,000 a. Tipo de dependenc ia = Municipalizado La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemáticas y de lenguaje se correlacionan linealmente, con una fuerza de asociación positiva alta a Prueba de muestras rel aciona das Diferencias relacionadas Par 1 prom_mat - prom_len Media -9,813 Des viación típ. 12,768 Error típ. de la media 1,129 95% Intervalo de confianza para la diferencia Inferior Superior -12, 046 -7,579 t -8,695 gl 127 Sig. (bilateral) ,000 a. Tipo de dependenc ia = Municipalizado De la prueba T para muestras relacionadas, se rechaza la hipótesis nula de igualdad de medias (diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferencias significativas entre el promedio de matemáticas y el promedio de lenguaje para los colegios municipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95% de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemáticas y la diferencia está entre aproximadamente 7,5 puntos y 12 puntos. De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios con dependencia privado y subvencionado, obteniéndose en ambos casos diferencias significativas entre los promedios de matemáticas y lenguaje. e) ¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si existe relación determine si la relación es alta, moderada o débil. Ambas variables pueden ser consideradas como nominales. En este caso la hipótesis nula a probar es H0: Las variables grupo socioeconómico del establecimiento es independiente de la dependencia del colegio. En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto la frecuencia observada y la frecuencia esperada. 53 Tabla de contingencia Grupo Socioe conóm ico de l establecimie nto * Tipo de dependencia Grupo Socioeconómico del establecimient o Bajo Medio Bajo Medio Medio Alto Alto Total Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia Rec uento Frec uencia esperada esperada esperada esperada esperada esperada Tipo de dependenc ia Municipali Subvenci zado Privado onado 56 2 40 26,7 17,1 54,2 57 9 53 32,4 20,8 65,8 13 1 101 31,3 20,1 63,6 2 18 61 22,1 14,1 44,8 0 52 5 15,5 9,9 31,5 128 82 260 128,0 82,0 260,0 Total 98 98,0 119 119,0 115 115,0 81 81,0 57 57,0 470 470,0 Se puede observar que las frecuencias esperadas son muy diferentes de las frecuencias observadas, característica de variables no independientes. Apliquemos la prueba chi-cuadrado de independencia. CROSSTABS /TABLES=socioeconomico BY dependencia /FORMAT= AVALUE TABLES /STATISTIC=CHISQ CC /CELLS= COUNT EXPECTED /COUNT ROUND CELL . Pruebas de chi-cuadra do Chi-cuadrado de Pearson Raz ón de verosimilitud N de casos válidos Valor 368,714a 331,315 470 gl 8 8 Sig. asintótica (bilateral) ,000 ,000 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuenc ia mínima esperada es 9,94. De la prueba chi cuadrado se desprende que las variables están relacionadas, no son independientes dado que la significancia es menor a 0,05. Para conocer el grado de la intensidad de la relación vemos el valor del coeficiente de contingencia. Se puede apreciar que este coeficiente es significativo y alcanza un valor 0,663 Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingenc ia Sig. aproximada ,663 ,000 470 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintót ico bas ado en la hipótesis nula. moderado alto. 54 4. Concluir a) Realice resumidamente un análisis descriptivo básico para los colegios premiados usando medidas de tendencia central y medidas de dispersión. En primer lugar conviene seleccionar a los colegios premiados. Para esto Datos/ seleccionar casos/ Si/Premio=1 USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Se puede solicitar una tabla con los estadísticos básicos para el puntaje matemáticas, lenguaje y puntaje promedio por dependencia. MEANS TABLES=prom_mat prom_len puntprom BY dependencia /CELLS COUNT MEAN MEDIAN STDDEV MIN MAX NPCT . 55 Informe Tipo de dependenc ia Municipaliz ado Privado Subvencionado Total N Media Mediana Des v. típ. Mínimo Máx imo % del total N Media Mediana Des v. típ. Mínimo Máx imo % del total N Media Mediana Des v. típ. Mínimo Máx imo % del total N Media Mediana Des v. típ. Mínimo Máx imo % del total de N de N de N de N prom_mat 23 261,35 258,00 22,663 236 325 19,8% 21 347,71 344,00 13,539 327 380 18,1% 72 312,14 313,00 19,149 246 352 62,1% 116 308,51 313,00 33,019 236 380 100,0% prom_len 23 263,30 257,00 14,683 251 317 19,8% 21 318,90 317,00 6,818 306 336 18,1% 72 295,61 297,50 13,440 252 319 62,1% 116 293,42 297,50 21,537 251 336 100,0% puntaje promedio entre lenguaje y mat emáticas 23 262,3261 256,0000 17,80361 246,50 321,00 19,8% 21 333,3095 331,5000 8,71848 322,00 352,50 18,1% 72 303,8750 305,2500 15,08304 249,00 331,00 62,1% 116 300,9655 305,2500 26,63168 246,50 352,50 100,0% Y para visualizar gráficamente los resultados podemos observar el diagrama de cajas para el puntaje promedio SIMCE por grupo homogéneo En primer lugar se puede observar que el total de colegios premiados alcanzó a 116 colegios de los cuales el 62,1% corresponde a colegios subvencionados. Los mejores puntajes se concentran en los colegios privados con un puntaje promedio de 333 puntos, siendo el promedio de matemáticas superior al promedio de lenguaje en casi 29 puntos. En segundo lugar se observan los puntajes de los colegios subvencionados con una media de casi 304 puntos y una diferencia de aproximadamente 17 puntos a favor del promedio de matemáticas. Sin embargo en los colegios municipalizados se observa apenas una media de 262 puntos muy inferior a los privados y subvencionados con un puntaje bastante parejo entre la media de matemáticas y lenguaje observándose sólo 2 puntos a favor de lenguaje. Si observamos el diagrama de cajas de la pregunta h) , el grupo de colegios premiados que presenta menores puntajes corresponde al grupo Municipalizados y Rurales alcanzando una mediana cerca de 235 puntos, observándose un colegio con un valor atípico cerca de 257 puntos. Se observa una gran diferencia en los puntajes de los premiados municipalizados urbanos que alcanzan una mediana de casi 262 puntos con varios puntajes promedios atípicos altos, hasta 348 puntos, además se observa bastante variabilidad entre los puntajes promedios de este grupo. Los 56 colegios premiados privados, tanto rural como urbano se presentan con puntajes altos bastante homogéneos y con por lo menos el 50% de los colegios con puntajes promedios sobre 332 puntos. Respecto a los colegios subvencionados se observa una gran diferencia entre rurales y urbanos siendo la mediana de los puntajes 265 y 303 puntos respectivamente. La media de los puntajes del total de colegios premiados alcanzó un promedio de aproximadamente 301 puntos con una mediana de 305 puntos indicando que el 50% de los colegios premiados alcanzaron un puntaje promedio superior o igual a 305 puntos, obteniendo como valor mínimo 246, 5 puntos y un máximo de 352,5 puntos, lo que da una amplitud bastante amplia de 116 puntos con una desviación estándar de aproximadamente 27 puntos, es decir en promedio los puntajes se desvían de la media en 26 puntos. En síntesis, si bien los colegios considerados son todos premiados existe mucha variabilidad entre ellos, debiendo ser necesario focalizar estrategias para apoyar a los colegios rurales no privados, que están muy por debajo de los urbanos y de los privados en general. b) Sintetizar sus comentarios acerca de los vínculos que explica. En el análisis explicativo de los datos que realizamos en la tercera parte del caso aplicamos (en base a una muestra del 20% de la población), pruebas T para muestras independientes, muestras relacionadas y ANOVA de un factor, y prueba chi cuadrado para la independencia,probándose las siguientes afirmaciones con un nivel de significancia del 0,05; Existen diferencias significativas entre los puntajes promedios de la SIMCE 2006 de segundos medios entre los colegios de tipo Rural y Urbano, siendo mayor el promedio para colegios urbanos. Existen diferencias significativas entre los puntajes promedios de Matemáticas entre los colegios municipalizados, privados y subvencionados. Del mismo modo ocurre para los puntajes promedios de lenguaje. Para cada grupo de dependencia, existen diferencias significativas entre los promedios de lenguaje y matemáticas. Existe relación significativa entre el grupo socioeconómico del establecimiento y la dependencia, siendo bastante considerable, es decir los colegios municipalizados están mas relacionados con un grupo socioeconómico bajo y medio bajo, los colegios subvencionados con un grupo socioeconómico medio, medio bajo y medio alto y los colegios privados con el grupo socioeconómico alto. c) Sugiera otra alternativa para determinar cómo premiar a los colegios por su rendimiento en la prueba SIMCE. Otra alternativa podría ser que por grupos homogéneos, se calcule la variable de puntuaciones z para el puntaje promedio SIMCE y se determine un criterio como por ejemplo, que los colegios elegidos estén por sobre una desviación estándar de la media, es decir con un puntaje z mayor o igual a 1. 57 III Análisis de Regresión Lineal simple un estudio más formal del análisis de regresión comenzando con el modelo de regresión lineal simple (simple = una variable independiente), pero conviene no perder de vista que , puesto que generalmente interesará estudiar simultáneamente más de una variable predictora, este modelo es sólo un punto de partida en el estudio del análisis de regresión. Consideremos el archivo Datos de empleados que, como ya se ha dicho, se instala con el programa en el propio directorio SPSS. Y, de momento, se utilizará la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Abordaremos Para llevar a cabo un análisis de regresión simple con las especificaciones que el programa tiene establecidas por defecto: Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de diálogo Regresión lineal. Seleccionar la variable salario en la lista de variables de archivo de datos y trasladarla al cuadro Dependiente. Seleccionar la variable salani y trasladarla a la lista Independiente. Aceptando estas especificaciones, el Visor ofrece los resultados que muestran las tablas siguientes. Tabla 1 Resumen del modelo Modelo 1 R R cuadrado .880 a .775 R cuadrado corregida .774 Error típ. de la estimación $8,115.356 a. Variables predictoras: (Constante), Salario inicial Tabla 2 ANOVAb Coe ficientesa Media cuadrática F Coeficientes Regresión 1.07E+11 1622.118 estandarizad Res idual 65858997 os Total Modelo Beta t 1 (Constante) 1928.206 2.170 a. Variables predictoras: (Constante),888.680 Salario inicial Salariodependiente: inic ial 1.909 actual .047 .880 40.276 b. Variable Salario a. Variable dependiente: Salario ac tual Modelo 1 Suma de cuadrados gl 1.068E+11 Coeficientes no 1 3.109E+10 estandarizados 472 1.379E+11 473 B Error típ. Sig. .000 a Sig. .031 .000 Tabla3 58 Bondad de ajuste La primera información que se obtiene se refiere al coeficiente de correlación múltiple R ya su cuadrado. Puesto que el modelo de regresión sólo incluye dos variables, el coeficiente de correlación múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre esas dos variables . Su cuadrado (R cuadrado) es el coeficiente de determinación: R2 Suma de cuadrados de los residuos Suma de cuadrados total 1 (los residuos son las diferencias existentes entre las puntuaciones observadas y los pronósticos obtenidos con la recta). Además del porcentaje de mejora en los pronósticos, R expresa la proporción de varianza de la variable dependiente que está explicada por la variable independiente. En el ejemplo (ver Tabla 2 1), R toma un valor muy alto (su máximo es 1); y R indica que el 77,5% de la variabilidad del salario actual está explicada por, depende de, o está asociada al salario inicial. Es importante señalar en este momento que el análisis de regresión no permite afirmar que las relaciones detectadas sean de tipo causal: únicamente es posible hablar de relación y de grado de relación. Debe quedar muy claro desde el principio que una relación, por sí sola, nunca implica causalidad. 2 R cuadrado corregida es una corrección a la baja de R que se basa en el número de casos y de 2 variables independientes: 2 Rcorregida R2 p 1 R2 / n p 1 (p se refiere al número de variables independiente). En una situación con pocos casos y mucha variables independiente, R 2 es un estimador algo optimista (artificialmente alto) del verdadero coeficiente de correlación poblacional. En tal caso, el valor de R corregida será sensiblemente 2 más bajo que el de R . En el ejemplo, como hay 474 casos y una sola variable independiente, los 2 dos valores de R (el corregido y el no corregido) son prácticamente iguales. 2 El error típico de la estimación Se es la desviación típica de los residuos, es decir, la desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente Yi y los pronósticos efectuados con la recta de regresión la suma de las distancias al cuadrado están divididas por Error típico de estimación = Se Yˆi , aunque no exactamente, pues n 2: Yi Yˆi 2 / n 2 En realidad, este error típico es la raíz cuadrada de la media cuadrática residual de la Tabla . Representa una medida de la parte de variabilidad de la variable dependiente que no está 59 explicada por la recta de regresión. En general, cuanto mejor es el ajuste, más pequeño es este error típico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relación significativa entre la variable independiente y la dependiente. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero (que en el modelo de regresión simple equivale a contrastar la hipótesis de que la pendiente de la recta de regresión vale cero). El nivel crítico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables están linealmente relacionadas. Ecuación de Regresión La Tabla 3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresión B0 . Recibe el nombre de constante porque, según se verá es la constante del modelo de regresión: B0 Y B1 X Y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresión B1 : B1 X iYi n X i2 Xi Yi Xi 2 B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de cambio de la variable independiente (salini). Según esto, la ecuación de regresión queda de la siguiente manera: Pronóstico en salario = 1928,206 + 1,909 salini Es decir, a cada valor de salini le corresponde un pronóstico en salario basado en un incremento constante (1928,206) más 1,909 veces el valor de salini. 60 Coeficientes de Regresión Estandarizados Los coeficientes Beta (coeficiente de regresión parcial estandarizados) son los coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la siguiente manera: B1 S x / S y . 1 En el análisis de regresión simple, el coeficiente de regresión estandarizado correspondiente a la única variable independiente presente en la ecuación coincide exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según se verá enseguida, los coeficientes de regresión estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuación. Prueba de Significación Finalmente, los estadísticos t y sus niveles críticos (Sig.) permiten contrastar las hipótesis nulas de que los coeficientes de regresión valen cero en la población. Estos estadísticos t se obtienen dividendo los coeficientes de regresión B0 y tB 0 B0 SB0 Se 1 n B1 entre sus correspondientes errores típicos: y B1 SB 1 t B1 siendo: SB 0 X2 Xi X 2 y Se S B1 Xi X 2 Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student con n 2 grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresión es significativamente distinto de cero y, en consecuencia, en el caso de B1 , si la variable independiente está significativamente relacionada con la dependiente. Puesto que en regresión simple se trabaja con una única variable independiente, el resultado del estadístico t (Tabla 3) es equivalente al del estadístico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresión simple, t 2 F. A partir de los resultados de análisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: 1. El origen poblacional de la recta de regresión cero (generalmente, contrastar la hipótesis 0 “ 0 es significativamente distinto de 0 ” carece de utilidad, pues no contiene información sobre la relación entre X i e Yi ). 61 2. La pendiente poblacional de la recta de regresión (el coeficiente de regresión 1 correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relación lineal significativa. Ejercicio: Correlaciones y Regresiones 1. Coeficiente de Correlación Considere el archivo “Estudio Morfología.sav”. a) Determine si las variables estatura, peso y coeficiente intelectual están correlacionadas significativamente. Para esto seleccione Analizar/Correlaciones/Bivariadas Variables: ci, estatura y peso Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones significativas]. Correlaciones Coc iente intelectual ESTATURA PES O Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Coc iente intelectual 1 . 149 ,081 ,325 149 ,001 ,988 148 ESTATURA ,081 ,325 149 1 . 150 ,600** ,000 149 PES O ,001 ,988 148 ,600** ,000 149 1 . 149 **. La c orrelación es s ignificat iva al nivel 0,01 (bilateral). b) Interprete el coeficiente de correlación 2. Diagrama de Dispersión La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el Gráfico de Dispersión: Seleccione Gráficos/Dispersión/Dispersión Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R 2 e interprete. 62 Gráfico de dispersión simple 110 27 100 93 90 31 80 70 SEXO 60 Mujer PESO Hombre 50 Total Population 40 R² = 0,3606 120 140 160 180 200 220 240 260 280 ESTATURA Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE . Gráfico de dispersión simple 110 100 90 80 SEXO 70 Mujer 60 PESO Hombre 50 Total Population 40 R² = 0,7182 140 150 160 170 180 190 200 ESTATURA Se han filtrado los casos 27, 31 y 93 f) Realice un gráfico de dispersión superpuesto. Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. 63 Seleccione el par estatura - peso y el par ci - peso gráfico de dispersión superpuesto 300 31 200 31 100 Cociente intelectual PESO ESTATURA 0 40 g) PESO 50 60 70 80 90 100 110 Realice un gráfico de dispersión matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas). Ejercicio: Morfología e Inteligencia Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas: h) Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error típico de estimación Resumen del modelo Modelo 1 R ,847(a) R cuadrado ,718 R cuadrado corregida ,716 Error típ. de la estimación 6,4593 a Variables predictoras: (Constante), ESTATURA El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura. 64 Una forma de estimar el error estándar del estimador es basándose en los residuos; e2 S Y ,X n 2 El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la dispersión con respecto a una recta promedio, denominada recta de regresión. ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados 15309,683 6008,032 21317,715 Media cuadrática 15309,683 41,722 gl 1 144 145 F 366, 941 Sig. ,000 a a. Variables predictoras: (Constante), ESTATURA b. Variable dependiente: PESO Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: 1 = 0 i) Estime la ecuación de regresión Coe ficientesa Modelo 1 (Constante) ESTATURA Coeficientes no estandarizados B Error típ. -92, 138 8,816 ,999 ,052 Coeficientes estandarizad os Beta ,847 t -10, 451 19,156 Sig. ,000 ,000 a. Variable dependiente: PESO Y = -92,13 + 0,999•X donde Y = Peso X = Estatura j) Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación significativa entre el ingreso y el consumo? En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hipótesis nula H0: relación significativa entre ingreso y consumo. k) 1 = 0. Concluimos entonces que existe una Interprete la pendiente de la ecuación de regresión. La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero debemos determinar si en la población parece existir una relación entre las dos variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población, por definición la pendiente de la línea de regresión de la población 65 sería de cero 1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H 0: 1=0. La hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa o inversa). Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es: t donde s b1 b1 ( 1 )o sb1 SY , X X2 nX 2 Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la fórmula se simplifica y enuncia como t b1 sb1 El intervalo de confianza para la pendiente de la población 1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera: b1 tsb1 Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de variar” en la muestra que sirve de base al intervalo de confianza. l) Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión lineal/ Estadísticos/Intervalos de confianza. En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de confianza para b1 al 95%. Coe ficientesa Coeficientes no estandarizados Modelo 1 (Constante) ESTATURA B -92, 138 ,999 Error típ. 8,816 ,052 Coeficientes estandarizad os Beta ,847 t -10, 451 19,156 Sig. ,000 ,000 Intervalo de confianza para B al 95% Límite Límite inferior superior -109,564 -74, 712 ,896 1,102 a. Variable dependiente: PESO Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102 Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%. 66 c a i f i c e s a e c n n o a l d r 9 m S o e p B e M r i t e g i t 1 ( C 9 4 7 2 4 2 I N 1 9 4 6 0 2 0 a V m) Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo “Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados. Observación: Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. Independencia de las observaciones Linealidad en la relación entre las variables. 67 n) Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los siguientes gráficos: (i) Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede igualmente servirnos para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. (ii) Los residuos tipificados-gráfico de prob. normal. Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una línea recta diagonal 68 Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: PESO 1,0 ,8 Prob acum esperada ,5 ,3 0,0 0,0 ,3 ,5 ,8 1,0 Prob acum observada Gráfico de dispersión Variable dependiente: PESO 3 Regresión Residuo tipificado 2 1 0 -1 -2 -3 -3 -2 -1 0 1 2 3 Regresión Valor pronosticado tipificado Pruebas de norm alidad a Standardized Residual Kolmogorov-Smirnov Shapiro-Wilk Estadístico gl Sig. Estadístico gl ,044 146 ,200* ,992 146 Sig. ,601 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significac ión de Lilliefors 69 Modelo log-log Consideremos datos sobre el gasto de consumo personal total (GCPERT), el gasto en bienes duraderos (GASBD), el gasto en bienes perecederos (GASBPER) y el gasto en servicios (GASERV), todos medidos en millones de dólares de 1992. Considere el archivo “gasto en bienes.sav” a) b) c) d) Realice el gráfico de dispersión entre gastbd y gastcpt. ¿Qué observa? Realice el gráfico de dispersión entre ln(gastbd) y ln(gastcpt). ¿Qué observa? Determine si existe correlación significativa entre las variables del punto b) Calcular la elasticidad del gasto en bienes durables respecto al gasto de consumo personal total. Referencia ( Gujarati Tabla 6.3 ejemplo pag 171 cuarta edición) Gráfico de dispersión Gráfico de dispersión 750,00 6,60 ln de gasto en bienes duraderos Gasto en bienes duraderos 700,00 650,00 600,00 550,00 6,50 6,40 6,30 500,00 6,20 4200,00 4400,00 4600,00 4800,00 5000,00 5200,00 8,35 Gasto consumo personal total 8,40 8,45 8,50 8,55 8,60 ln del gasto de consumo personal total COMPUTE lngastbd = LN(gastbd) . VARIABLE LABELS lngastbd 'ln de gasto en bienes duraderos' . EXECUTE . COMPUTE lngastcpt = LN(gastcpt) . VARIABLE LABELS lngastcpt 'ln del gasto de consumo personal total' EXECUTE . CORRELATIONS /VARIABLES=lngastbd lngastcpt /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE . Correlaciones ln de gasto en bienes duraderos ln del gasto de cons umo personal total Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N ln de gasto en bienes duraderos 1 ln del gasto de c onsumo pers onal tot al ,992** ,000 23 23 ,992** 1 ,000 23 23 **. La c orrelación es s ignificat iva al nivel 0,01 (bilateral). 70 Resumen del modelo Modelo 1 R R cuadrado ,992 a ,985 R cuadrado corregida ,984 Error típ. de la estimación ,01332 a. Variables predictoras: (Constante), ln del gasto de consumo pers onal tot al Coe ficiente sa Modelo 1 (Constante) ln del gasto de cons umo personal total Coeficientes no estandarizados B Error típ. -9,697 ,434 1,906 ,051 Coeficientes estandarizad os Beta ,992 t -22, 337 Sig. ,000 37,096 ,000 a. Variable dependiente: ln de gasto en bienes duraderos Todos estos resultados muestran que la elasticidad de GASBD respecto a GCPERT es de casi 1.90, lo que sugiere que si el gasto personal total aumenta 1 %, en promedio, el gasto en bienes duraderos se incrementa casi 1.90%. En consecuencia, el gasto en bienes duraderos es muy sensible a los cambios en el gasto de consumo personal. Ésta es una razón por la que los productores de bienes duraderos siguen muy de cerca los cambios en el ingreso personal y el gasto de consumo personal. Modelo Lin-Log Considere el archivo “gasto total y en comida.sav” e) Realice el gráfico de dispersión entre gasal y gastot. ¿Qué observa? f) Realice el gráfico de dispersión entre gasal y ln(gastot). ¿Qué observa? g) Determine si existe correlación significativa entre las variables del punto b) h) Determine el modelo lin log correspondiente a las variables anteriores. i) Interprete los coeficientes r y r2. j) Calcular la pendiente de la ecuación e interprete. Referencia ( Gujarati Tabla 2.8 ejemplo pag 176 cuarta edición) 71 COMPUTE lngastot = LN(gastot) . VARIABLE LABELS lngastot 'ln de gasto total' . EXECUTE . Gráfico de dispersión 800 600 600 gasto en alimentos gasto en alimentos Gráfico de dispersión 800 400 400 200 200 0 0 5,90 200 400 600 800 6,00 6,10 6,20 1000 6,30 6,40 6,50 6,60 6,70 ln de gasto total gasto total Correlaciones gast o en alimentos ln de gasto total Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N gast o en alimentos 1 ln de gasto total ,614** ,000 55 55 ,614** 1 ,000 55 55 **. La c orrelación es s ignificat iva al nivel 0,01 (bilateral). Resumen del modelo Modelo 1 R R cuadrado ,614 a ,377 R cuadrado corregida ,365 Error típ. de la estimación 66,477 a. Variables predictoras: (Constante), ln de gasto tot al Coe ficientesa Modelo 1 (Constante) ln de gasto total Coeficientes no estandarizados B Error típ. -1283,912 292, 810 257, 270 45,434 Coeficientes estandarizad os Beta ,614 t -4,385 5,662 Sig. ,000 ,000 a. Variable dependiente: gas to en alimentos 72 Interpretación: El coeficiente de la pendiente, que vale casi 257, significa que un incremento en el gasto total en alimentos de 1%, en promedio, propicia un incremento de casi 2.57 rupias en el gasto en alimento de las 55 familias incluidas en la muestra. (Nota: se dividió el coeficiente estimado de la pendiente entre 100.) Ejercicios Regresiones con LN 1.- Considere el archivo Consumo café.sav. Calcule las variables lnconsumo y lnprecio. Para esto seleccione Transformar/Calcular Utilice la función logaritmo natural (LN) 2.- Realice un gráfico de dispersión para las variables consumo y precio y para las variables lnconsumo y lnprecio Gráfico de dispersión entre consumo y precio Gráfico de dispersión entre lnconsumo y lnprecio 2,6 1,0 2,5 ,9 2,3 2,2 2,1 2,0 1,9 ,6 ,8 1,0 logarítmo natural del consumo 2,4 1,2 ,8 ,7 ,6 R² = 0,6628 1,4 1,6 1,8 2,0 Precio real del café ( $ por libra) ,5 R² = 0,7448 -,4 -,2 0,0 ,2 ,4 ,6 ,8 logarítmo natural del precio 3.- Seleccione estadística/regresiónlineal Dependiente: consumo Independiente: precio Etiqueta de caso: año Estadísticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos ¿Cómo interpreta la pendiente? 4.- Nuevamente seleccione estadística/regresiónlineal Dependiente: lnconsumo Independiente:lnprecio Etiqueta de caso: año Estadísticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos ¿Cómo interpreta la pendiente? 73 Resumen del modelob Modelo 1 R cuadrado ,745 R ,863a R cuadrado corregida ,716 Error típ. de la estimación 5,015E-02 a. Variables predictoras: (Constante), logarítmo natural del precio b. Variable dependiente: logarítmo natural del consumo ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados 6,605E-02 2,263E-02 8,869E-02 gl 1 9 10 Media cuadrática 6,605E-02 2,515E-03 F 26,267 Sig. ,001 a a. Variables predictoras: (Constante), logarítmo natural del precio b. Variable dependiente: logarítmo natural del consumo Coefic iente sa Coeficie ntes no estand arizado s Mo delo 1 (Constante ) log arítm o nat ural d el pre ci o B ,77 7 Error tí p. ,01 5 -,25 3 ,04 9 Coeficie nt es estand ari zado s Beta -,86 3 t 51, 005 Sig. ,00 0 -5,1 25 ,00 1 Inte rvalo d e conf ianza para B al 95 % Lím ite Lím ite infe rior su perio r ,74 3 ,81 2 -,36 5 -,14 1 a. Variab le de pend iente : loga rítmo natu ral de l consumo 74 IV Análisis de Regresión Lineal Múltiple El procedimiento Regresión lineal permite utilizar más de una variable independiente y, por tanto, permite ajustar modelos de regresión lineal múltiple (múltiple = más de una variable independiente). Pero, en un análisis de regresión múltiple, la ecuación de regresión ya no define una recta en un plano, sino un hiperplano en un espacio multidimensional. En un modelo como por ejemplo, dos variable independiente, el diagrama de dispersión adopta la forma de un plano en un espacio tridimensional. Asi, con salario como variable dependiente y salini (salario inicial) y expprev (experiencia previa) como variables independientes, el diagrama de dispersión adopta el formato que muestra la Figura 1. Gráfico de dispersión 160000 140000 120000 Salario actual 100000 80000 60000 40000 20000 100000 80000 60000 40000 20000 0 100 200 300 400 500 Experiencia previa (meses) Salario inicial Es decir, con dos variables independientes es necesario utilizar tres ejes para poder representar el correspondiente diagrama de dispersión. Y si en lugar de dos variables independientes se utilizaran tres, es necesario un espacio de cuatro dimensiones para poder construir el diagrama de dispersión. Y un espacio de cinco dimensiones para poder construir el diagrama correspondiente a un modelo con cuatro variables independiente. Por tanto, con más de una variable independiente, la representación gráfica de las relaciones presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útil. Es más fácil y práctico partir de la ecuación del modelo de regresión lineal: Y 0 1 X1 2 X2 k Xk En un modelo de estas características, la variable dependiente (Y) se interpreta como una combinación lineal de un conjunto de K variables independientes X k , cada una de las cuales va 75 acompañada de un coeficiente k que indica el peso relativo de esa variable en la ecuación. El modelo incluye además una constante 0 y un componente aleatorio (los residuos: ) que recoge todo lo que las variables independientes no explican. Este modelo, en cuanto modelo estadístico que es, se basa en una serie de supuestos (linealidad, independencia, normalidad, homocedasticidad y no-colinealidad) que se estudiarán en el siguiente apartado. Los términos del modelo de regresión, al igual que los de cualquier otro modelo estadístico, son valores poblacionales. Para poder trabajar con él es necesario estimarlos. Y las estimaciones mínimo-cuadráticas se obtienen, según se ha señalado ya, intentando minimizar la suma de las diferencias al cuadrado entre los valores observados Yˆ B0 B1 X 1 B2 X 2 Y y los pronosticados Ŷ : Bk X k Al igual que en el análisis de regresión simple descrito en el apartado anterior, se seguirá utilizando la variable salario (salario actual) como variable dependiente. Pero ahora se van a incluir en el modelo tres variables independientes: salini (salario inicial), expprev (experiencia previa) y educ (nivel educativo). Para llevar a cabo un análisis de regresión múltiple con las especificaciones que el programa tiene establecidas por defecto: Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de diálogo Regresión lineal Seleccionar la variable salario en la lista de variables del archivo de datos y trasladarla al cuadro Dependiente. Seleccionar las variables salini, expprev y educ en la lista de variables del archivo de datos y trasladarlas a la lista Independientes. Aceptando estas selecciones, el Visor de resultados ofrece la información que muestran las Tablas 4 a la 6. Tabla 4 Resumen del modelo Modelo 1 R R cuadrado .895 a .802 R cuadrado corregida .800 Error típ. de la estimación $7,631.917 a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial 76 Tabla 5 ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados 1.105E+11 2.738E+10 1.379E+11 gl 3 470 473 Media cuadrática 3.68E+10 58246157 F 632. 607 Sig. .000 a a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial b. Variable dependiente: Salario actual Tabla 6 Coe ficientesa Modelo 1 (Constante) Salario inic ial Experiencia previa (mes es) Nivel educativo Coeficientes no estandarizados B Error típ. -3661.517 1935.490 1.749 .060 Coeficientes estandarizad os Beta .806 t -1.892 29.198 Sig. .059 .000 -16. 730 3.605 -.102 -4.641 .000 735. 956 168. 689 .124 4.363 .000 a. Variable dependiente: Salario act ual Bondad de Ajuste La Tabla 4 ofrece un resumen del modelo. Este resumen se refiere, básicamente, a la calidad del modelo de regresión: tomadas juntas, las tres variables independientes incluidas en el análisis explican un 80% de la varianza de la variable dependiente, pues R corregida vale 0,80. Además, el error típico de los residuos (8.115,36 en el análisis de regresión simple) ha disminuido algo (7.631,92 en el análisis de regresión múltiple), lo que indica una ligera mejora en el ajuste. De nuevo, como el número de variables es pequeño en relación al número de casos, el valor corregido 2 de R es casi idéntico al valor no corregido. 2 El estadístico F (ver Tabla 5) contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico ( Sig. = 0,000), puesto que es menor que 0,05, indica que sí existe relación lineal significativa. Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos. La tabla de coeficiente de regresión parcial (Tabla 6) contiene toda la información necesaria para construir la ecuación de regresión mínimo-cuadrática. En la columna encabezada Coeficiente no estandarizados se encuentran los coeficientes Bk que forman parte de la ecuación en puntuaciones directas: Pronóstico en salario = 3.661,517 1, 49 salari 16,730 exp prev 735,956 educ 77 Estos coeficientes no estandarizados se interpretan en los términos ya conocidos. Por ejemplo, el coeficiente correspondiente a la variable salini, que vale 1,749, indica que, si el resto de términos de la ecuación se mantienen constantes, a un aumento de una unidad (un dólar) en salini le corresponde, un aumento de 1,749 dólares en salario. Conviene señalar que estos coeficientes no son independientes entre si. De hecho, reciben el nombre de coeficientes de regresión parcial porque el valor concreto estimado para cada coeficiente se ajusta o corrige teniendo en cuenta la presencia en el modelo de los coeficientes correspondientes al resto de variables independientes. Conviene, por tanto, interpretarlos con cautela. El signo del coeficiente de regresión parcial de una variable puede no ser el mismo que el del coeficiente de correlación simple entre esa variable y la dependiente. Esto es debido a los ajustes que se llevan a cabo para poder obtener la mejor ecuación posible. Aunque existen diferentes explicaciones para justificar el cambio de signo de un coeficiente de regresión, una de las que deben ser más seriamente consideradas es la que se refiere a la presencia de un alto grado de asociación entre algunas de las variables independientes (colinealidad). Se tratará este tema más adelante. Coeficientes de Regresión estandarizados Los coeficientes Beta están basados en las puntuaciones típicas y, por tanto, son directamente comparables entre sí. Indican la cantidad de cambio, en puntuaciones típicas, que se producirá en la variable dependiente por cada cambio de una unidad en la correspondiente variable independiente (manteniendo constantes el resto de variables independientes). Estos coeficientes proporcionan una pista muy útil sobre la importancia relativa de cada variable independiente en la ecuación de regresión. En general, una variable tiene tanto más peso (importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeficiente de regresión estandarizado. Observando los coeficiente Beta de la Tabla.6 puede comprobarse que la variable salini es más importante (la que más peso tiene en la ecuación); después, educ; por último, expprev. Lo ya dicho sobre la no independencia de los coeficientes de regresión parcial no estandarizados también vale aquí. Pruebas de Significación Las pruebas t y sus niveles críticos (última dos columnas de la Tabla 6: t y Sig.) sirven para contrastar la hipótesis nula de que un coeficiente de regresión vale cero en la población. Niveles críticos (Sig.) muy pequeños (generalmente menores que 0,05) indican que esa hipótesis debe ser rechazada. Un coeficiente de cero indica ausencia de relación lineal, de modo que los coeficientes significativamente distintos de cero informan sobre qué variables son relevantes en la ecuación de regresión. Observando el nivel crítico asociado a cada prueba t (Tabla 6), puede verse que las tres variables utilizadas poseen coeficientes significativamente distintos de cero (en todos ellos, Sig. = 0,000). Las tres variables, por tanto, contribuyen de forma significativa al ajuste del modelo, o si se prefiere, a explicar lo que ocurre con la variable dependiente. 78 Información Complementaria Además de obtener la ecuación de regresión y valorar la calidad de su ajuste, un análisis de regresión no debe renunciar a obtener algunos estadísticos descriptivos elementales como la matriz de correlaciones, la media y la desviación típica de cada variable, el número de casos con el que se está trabajando, etc. Para obtener estadísticos: Pulsar el botón Estadísticos... del cuadro de diálogo Regresión lineal para acceder al subcuadro de diálogo Regresión lineal: Estadísticos. Entre las opciones que ofrece este subcuadro de diálogo, existen dos que se encuentran marcadas por defecto. Estas dos opciones ya marcadas son precisamente las que permiten obtener la información que recogen las Tablas 1 a la 6 cuando se pulsa el botón Aceptar del cuadro de diálogo Regresión lineal sin hacer otra cosa que seleccionar la variable dependiente y la (s) independiente (s): Estimaciones. Ofrece las estimaciones de los coeficientes de regresión parcial no estandarizados (B) y estandarizados (Beta), junto con las pruebas de significación t individuales para contrastar las hipótesis de que el valor poblacional de esos coeficientes es cero (ver Tablas 3 y 6). Ajuste del modelo. Muestra el coeficiente de correlación múltiple, su cuadro corregido y no corregido, y el error típico de los residuos : R, R , R corregida y error típico de la estimación). Esta opción también permite obtener la tabla resumen del ANOVA, la cual contiene el estadístico F para contrastar la hipótesis “R = 0” . 2 2 Al margen de las dos opciones, que se encuentran activas por defecto, el subcuadro de diálogo Regresión lineal: Estadístico contiene varias opciones muy interesantes en un análisis de regresión: Intervalos de confianza. Esta opción, situada en el recuadro Coeficientes de regresión, hace que, además de las estimaciones puntuales de los coeficientes de regresión parcial (las cuales ya se obtienen con la opción Estimaciones), puedan obtenerse también los intervalos de confianza para esos coeficientes (ver Tabla 7). Coe ficientesa Coeficientes no estandarizados Modelo 1 (Constante) Salario inic ial Experiencia previa (mes es) Nivel educativo B -3661.517 1.749 Error típ. 1935.490 .060 -16. 730 3.605 735. 956 168. 689 Coeficientes estandarizad os Beta Intervalo de confianza para B al 95% Límite Límite inferior superior -7464.803 141. 768 1.631 1.866 .806 t -1.892 29.198 Sig. .059 .000 -.102 -4.641 .000 -23. 814 -9.646 .124 4.363 .000 404. 477 1067.434 a. Variable dependiente: Salario actual Tabla 7 79 Estos intervalos informan de los límites entre los que cabe esperar que se encuentre el valor poblacional de cada coeficiente de regresión. Los límites se obtienen sumando y restando 1,96 errores típicos al valor del correspondiente coeficiente de regresión (1,96 porque el SPSS trabaja, por defecto, con un nivel de confianza de 0,95). Intervalos de confianza muy amplios indican que las estimaciones obtenidas son poco precisas y probablemente, inestables (cosa que suele ocurrir, por ejemplo, cuando existen problemas de colinealidad; se estudiará este tema más adelante, en la sección dedicada a los supuestos del modelo de regresión). Matriz de covarianza. Muestra una matriz con las covarianzas y correlaciones existentes entre los coeficientes de regresión parcial. Los valores obtenidos (Tabla.8) indican que efectivamente, los coeficientes de regresión parcial no son independientes entre sí. Tabla 8 Correlaciones de los coe ficienteas Modelo 1 Correlaciones Covarianzas Nivel educativo Experiencia previa (mes es) Salario inicial Nivel educativo Experiencia previa (mes es) Salario inicial Nivel educ ativo 1.000 Experiencia previa (meses) .363 .363 1.000 -.274 -.667 28456.057 -.274 220. 958 1.000 -6.737 220. 958 12.997 -5.908E-02 -6.737 -5.908E-02 3.587E-03 Salario inicial -.667 a. Variable dependiente: Salario actual Descriptivos. Esta opción permite obtener la media y la desviación típico insesgada de todas las variables incluidas en el análisis, y el número de casos válidos (ver Tabla 9). Esta dísticos descriptivos Salario actual Salario inic ial Experiencia previa (mes es) Nivel educativo Media $34,419.57 $17,016.09 Des viación típ. $17,075.661 $7,870.638 95.86 104.586 474 13.49 2.885 474 N 474 474 También permite obtener la matriz de correlaciones bivariadas entre el conjunto de variables incluidas en el análisis (ver Tabla 10). En esta matriz de correlaciones, cada coeficiente de correlación aparece acompañado de su correspondiente nivel crítico (que permite decidir sobre la hipótesis nula de que el coeficiente de correlación vale cero en la población), y del número de casos sobre el que se ha calculado cada coeficiente (coincidirá o no con el número de casos válidos del análisis de regresión dependiendo de la opción elegida para el tratamiento de valores perdidos en el cuadro de diálogo Opciones). 80 Lógicamente, en la diagonal de la matriz de correlaciones aparecen unos, pues la relación entre una variable y ella misma es perfecta (en realidad, la matriz de correlaciones es la matriz de varianzas-covarianzas tipificada: los valores de la diagonal son las varianzas tipificadas; las correlaciones son las covarianzas tipificadas). Tabla 10 Correlaciones Salario act ual Salario inic ial Experiencia previa (mes es) Nivel educativo Correlación de Pearson Sig. (unilat eral) N Correlación de Pearson Sig. (unilat eral) N Correlación de Pearson Sig. (unilat eral) N Correlación de Pearson Sig. (unilat eral) N Salario act ual 1.000 . 474 .880 .000 474 -.097 .017 Salario inic ial .880 .000 474 1.000 . 474 .045 .163 Experiencia previa (meses) -.097 .017 474 .045 .163 474 1.000 . 474 474 474 474 .661 .000 474 .633 .000 474 -.252 .000 474 1.000 . 474 Nivel educativo .661 .000 474 .633 .000 474 -.252 .000 Correlaciones parciales y semiparciales. Esta opción permite obtener los coeficientes de correlación parcial y semiparcial entre la variable dependiente y cada una de las variables independientes. Un coeficiente de correlación parcial expresa el grado de relación existente entre dos variables tras eliminar de ambas de efecto debido a terceras variables En el contexto de análisis de regresión, los coeficientes de correlación parcial expresan el grado de relación existente entre cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al resto de variables independientes incluidas en la ecuación. Un coeficiente de correlación semiparcial expresa el grado de relación existente entre dos variables tras eliminar de una de ellas el efecto debido a terceras variables. En el contexto del análisis de regresión, estos coeficientes expresan el grado de relación existente entre la variable dependiente y la parte de cada variable independiente que no está explicada por el resto de variables independientes. Seleccionando la opción Correlación parcial y semiparcial, la tabla de coeficientes de regresión parcial (Tabla 6 ya vista) incluye la información adicional que muestra la Tabla 11. Tabla 11 Coe ficiente sa Modelo 1 Salario inicial Experiencia previa (meses) Nivel educat ivo Orden cero .880 Correlaciones Parc ial Semiparcial .803 .600 -.097 -.209 -.095 .661 .197 .090 a. Variable dependient e: Salario actual Junto con los coeficientes de correlación parcial y semiparcial, aparecen la correlaciones de orden cero, es decir, los coeficientes de correlación calculados sin tener en cuenta la presencia 81 de terceras variables (se trata de los mismos coeficientes que aparecen en la Tabla 10). Comparando entre sí estos coeficientes (de orden cero, parcial y semiparcial) pueden encontrarse pautas de relación interesantes. En los datos de la Tabla 11 ocurre, por ejemplo, que la relación entre la variable dependiente salario actual y de nivel educativo vale 0,661. Sin embargo, al eliminar de salario actual y de nivel educativo el efecto atribuible al resto de variables independientes (salario inicial y experiencia previa), la relación baja hasta 0,197 (parcial): y cuando el efecto atribuible a salario inicial y experiencia previa se elimina sólo de salario actual, la relación baja hasta 0,090 (semiparcial). Lo cual está indicando que la relación entre salario actual y nivel educativo podría ser espúrea (artificial), pues puede explicarse casi por completo recurriendo a las otras dos variables independientes. El resto de opciones del subcuadro de diálogo Regresión lineal: Estadísticos tiene que ver con algunos supuestos de modelo de regresión lineal (estadísticos de colinealidad, residuos) y con el análisis de regresión por pasos (cambio en R cuadrado). Todas estas opciones se tratan más adelante. Supuestos del modelo de regresión lineal Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de regresión, es necesario vigilar el cumplimiento de estos supuestos: 1. Linealidad. La ecuación de regresión adopta una forma particular; en concreto, la variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una combinación lineal de variables independientes o predictoras y los residuos. El incumplimiento del supuesto de linealidad suele denominarse error de especificación. Algunos ejemplos son: omisión de variable independientes importantes, inclusión de variables independientes irrelevantes, no linealidad (la relación entre las variables independientes y la dependiente no es lineal), parámetros cambiantes (los parámetros no permanecen constantes durante el tiempo que dura la recogida de datos), no aditividad (el efecto de alguna variable independiente es sensible a los niveles de alguna otra variable independiente). etc. 2. Independencia. Los residuos son independientes entre sí, es decir, los residuos constituyen una variable aleatoria (los residuos son las diferencias entre los valores observados y los pronosticados). Es frecuente encontrarse con residuos autocorrelacionados cuando se trabaja con series temporales. 3. Homocedasticidad. Para cada valor de la variable independiente (o combinación valores de las variables independientes), la varianza de los residuos es constante. 4. Normalidad. Para cada valor de la variable independiente (o combinación de valores de las variables independientes), los residuos se distribuyen normalmente con media cero. 5. No-colinealidad. No existe relación lineal exacta entre ninguna de las variables independientes. El incumplimiento de este supuesto da origen a colinealidad o multicolinealidad. 82 Sobre el cumplimiento del primer supuesto puede obtenerse información a partir de una inspección del diagrama de dispersión: si se tiene intención de utilizar el modelo de regresión lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea de tipo lineal (existen gráficos parciales que permiten obtener una representación de la relación neta existente entre dos variables; se estudiarán más adelante). El quinto supuesto, nocolinealidad, no tiene sentido en regresión simple, pues es imprescindible la presencia de más de una variable independiente (se estudiarán diferentes formas de diagnosticar la presencia de colinealidad). El resto de los supuestos, independencia, homocedasticidad y normalidad, están estrechamente asociados al comportamiento de los residuos; por tanto, un análisis cuidadoso de los residuos puede informar sobre el cumplimiento de los mismos. Análisis de los residuos Los residuos de un modelo estadístico son las diferencias existentes entre los valores observados y los valores pronosticados: Yi Yˆi . Pueden obtenerse marcando la opción No tipificados dentro del recuadro Residuos en el subcuadro de diálogo Regresión lineal: Guardar nuevas variables. Los residuos son muy importantes en el análisis de regresión. En primer lugar, informan sobre el grado de exactitud de los pronósticos: cuanto más pequeño es el error típico de los residuos (ver Tabla : error típico de la estimación), mejores son los pronósticos, o lo que es lo mismo, mejor se ajusta la recta de regresión a los puntos del diagrama de dispersión. En segundo lugar, el análisis de las características de los casos con residuos grandes (sean positivos o negativos; es decir, grandes en valor absoluto) puede ayudar a detectar casos atípicos y, consecuentemente, a perfeccionar la ecuación de regresión a través de un estudio detallado de los mismos. La opción Diagnósticos por caso del cuadro de diálogo Regresión lineal: Estadísticos ofrece un listado de todos los residuos o, alternativamente (y esto es más interesante), un listado de los residuos que se alejan de cero (el valor esperado de los residuos) en más de un determinado número de desviaciones típicas. Por defecto, el SPSS ofrece un listado de los residuos que se alejan de cero más de 3 desviaciones típicas, pero esto puede cambiarse introduciendo el valor deseado. Para obtener un listado de los residuos que se alejan de cero más de 3 desviaciones típicas: Marcar la opción Diagnósticos por caso y seleccionar Valores atípicos a mas de 3 desviaciones típicas. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 12 y 13. La tabla 12 contiene los residuos tipificados (residuos divididos por su error típico: una variable tipificada, con media 0 y desviación típica 1). La tabla recoge los casos con residuos que se alejan de su media (cero) más de 3 desviaciones típicas. Si estos residuos están normalmente distribuidos (cosa que se asume en el análisis de regresión), cabe esperar que el 95% de ellos se encuentre en el rango [-1,96 + 1,96]. Y el 99,9%, en el rango [-3, + 3]. Es fácil, por tanto, identificar los casos que poseen residuos grandes. En la práctica, los casos con residuos muy grandes o muy pequeños deben ser examinados para averiguar si las puntuaciones que tienen asignadas son o no correctas. Si, a pesar de tener asociados residuos muy grandes o muy pequeños, las puntuaciones asignadas son correctas, 83 conviene estudiar esos casos detenidamente para averiguar si difieren de algún modo y de forma sistemática del resto de los casos. Esto último es fácil de hacer en el SPSS pues, según se verá más adelante, es posible salvar los residuos correspondientes a cada caso como una variable más del archivo de datos ( y a partir de ahí, utilizarlos en los procedimientos SPSS que se considere pertinente) Tabla 12 Dia gnósticos por casoa Número de caso 18 32 103 106 205 218 274 449 454 Res iduo tip. 6.381 3.095 3.485 3.897 -3.781 5.981 4.953 3.167 3.401 Salario act ual $103,750 $110,625 $97,000 $91,250 $66,750 $80,000 $83,750 $70,000 $90,625 Valor pronosticado $55,048.80 $87,004.54 $70,405.22 $61,505.37 $95,602.99 $34,350.68 $45,946.77 $45,829.66 $64,666.70 Res iduo bruto $48,701.20 $23,620.46 $26,594.78 $29,744.63 -$28,852.99 $45,649.32 $37,803.23 $24,170.34 $25,958.30 a. Variable dependiente: Salario ac tual Además de la tabla de diagnóstico por caso, el Visor ofrece una tabla resumen con información sobre el valor máximo y mínimo, y la media y la desviación típica insesgada de los pronósticos, de los residuos, de los pronósticos tipificados y de los residuos tipificados (ver Tabla 13). Especialmente importante es advertir que la media de los residuos vale cero. Tabla 13 Esta dísticos sobre los re siduosa Valor pronosticado Res iduo bruto Valor pronosticado tip. Res iduo tip. Mínimo $12,382.90 -$28,852.99 -1.442 -3.781 Máx imo $146,851.63 $48,701.20 7.355 6.381 Media $34,419.57 $.00 .000 .000 Des viación típ. $15,287.298 $7,607.676 1.000 .997 N 474 474 474 474 a. Variable dependiente: Salario act ual Independencia El verdadero interés de los residuos reside en su capacidad para ofrecer información crucial sobre el cumplimiento de varios supuestos del modelo de regresión lineal. En concreto, un análisis detallado de los residuos permite obtener información sobre los supuestos de independencia, homocedasticidad, normalidad y linealidad. Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los residuos (supuesto éste particularmente relevante cuando los datos se han recogido siguiendo una secuencia temporal). El estadístico de Durbin-Watson (1951) proporciona información sobre el grado de independencia existente entre ellos: 84 n ei ei 2 1 i 2 DW n ei2 i 1 (donde ei se refiere a los residuos: ei Yi Yˆi ). El estadístico DW oscila entre 0 y 4, y toma el valor 2 cuando lo s residuos son completamente independiente. Los valores menores que 2 indican autocorrelación positiva; los valores mayores que 2 indican autocorrelación negativa. Puede asumirse que los residuos son independientes cuando el estadístico DW toma valores entre 1.5 y 2.5. Para obtener el estadístico de Durbin-Watson: Seleccionar la opción de Durbin-Watson del cuadro de diálogo Regresión lineal: Estadísticos . Esta elección permite obtener la tabla resumen del modelo (ya vista) con información adicional referida al estadístico de Durbin-Watson (ver Tabla 14). Tabla 14 b Resumen del modelo Modelo 1 R R cuadrado .895 a .802 R cuadrado corregida .800 Error típ. de la estimación $7,631.917 Durbin-W atson 1.832 a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses), Salario inicial b. Variable dependiente: Salario actual Puesto que el estadístico DW vale 1,832 (se encuentra entre 1,5 y 2,5), puede asumirse que los residuos son independientes (es decir, no hay razones para pensar que se incumpla el supuesto de independencia). Homocedasticidad El procedimiento Regresión lineal dispone de una serie de gráficos que proporcionan, entre otras cosas, información sobre el grado de cumplimiento de los supuestos de homocedasticidad y normalidad de los residuos. Para obtener estos gráficos: Pulsar el botón Gráficos... del cuadro de diálogo Regresión lineal subcuadro de diálogo Regresión lineal: Gráficos para acceder al Las variables listadas permiten obtener diferentes gráficos de dispersión. Las variables precedidas por un asterisco son variables creadas por el SPSS; todas ellas pueden crearse en el Editor de datos marcando las opciones pertinentes del recuadro Residuos del subcuadro de diálogo Regresión lineal: Guardar nuevas variables 85 DEPENDENT: variable dependiente de la ecuación de regresión ZPRED (pronósticos tipificados): pronósticos divididos por su desviación típica. Son pronósticos transformados en puntuaciones z (es decir, en una variable tipificada con media 0 y desviación típica 1). ZRESID (residuos tipificados): residuos divididos por su desviación típica. El tamaño de cada residuo tipificado indica el número de desviaciones típicas que un residuo se aleja de su media (la cual vale cero), de modo que, si están normalmente distribuidos (y esto es algo que asume el modelo de regresión), el 95% de estos residuos se encontrará en el rango (-1,96, + 1,96), lo cual permite identificar fácilmente casos con residuos grandes. (En algunos contextos, es costumbre valorar estos residuos utilizado 3 desviaciones típicas) . DRESID (residuos eliminados o corregidos): residuos obtenidos al efectuar los pronósticos eliminado de la ecuación de regresión el caso sobre el que se efectúa el pronóstico. El residuo correspondiente a cada caso se obtiene a partir del pronóstico efectuado con una ecuación de regresión en la que no se ha incluido ese caso. Son residuos muy útiles para detectar puntos de influencia (casos con gran peso en la ecuación de regresión; se tratará este problema enseguida). ADJPRED (pronósticos corregidos): pronósticos efectuados con una ecuación de regresión en la que no se incluye el caso pronosticado (ver residuos eliminados o corregidos). Diferencias importantes entre PRED y ADJPRED delatan la presencia de puntos de influencia (casos con gran peso en la ecuación de regresión). SRESID (residuos estudentizados): residuos divididos por su desviación típica, basada ésta en cómo de próximo se encuentra un caso a su (s) media (s) en la (s) variable (s) independiente (s). Al igual que ocurre con los residuos estandarizados (a los que se parecen mucho), los estudentizados están escalados en unidades de desviación típica. Se distribuyen según el modelo de probabilidad t de Student con n – p – 1 grados de libertad (p se refiere al número de variables independientes). Con muestras grandes, aproximadamente el 95% de estos residuos debería encontrarse en el rango (-2. +2). SDRESID (residuos corregidos estudentizados): residuos corregidos divididos por su desviación típica. Útiles también para detectar puntos de influencia. Algunas de estas variables permiten identificar puntos de influencia (se estudian más adelante), pero hay, entre otras, dos variables cuyo diagrama de dispersión informa sobre el supuesto de homocedasticidad o igualdad de varianzas: ZPRED y ZRESID. El supuesto de igualdad de varianzas implica que la variación de los residuos debe ser uniforme en todo el rango de valores pronosticados. O, lo que es lo mismo, que el tamaño de los residuos es independiente del tamaño de los pronósticos, de donde se desprende que el diagrama de dispersión de los pronóstico tipificados (ZPRED) de los residuos tipificados (ZRESID) no debe mostrar ninguna pauta de asociación. Para obtener un diagrama de dispersión con los pronósticos tipificados (ZPRED) y los residuos tipificadoslas (ZRESID): 86 Trasladar la variable ZRESID y cuadro Y: del recuadro Dispersión 1 de 1. Trasladar la variable ZPRED al cuadro X: del recuadro Dispersión 1 de 1. Aceptando estas elecciones, el Visor ofrece el diagrama de dispersión que muestra la Figura Gráfico de dispersión Variable dependiente: Salario actual 8 6 4 2 0 -2 -4 -2 0 2 4 6 8 Regresión Valor pronosticado tipificado En él puede observarse, por un lado, que los residuos y los pronósticos parecen ser independientes, pues la nube de puntos no sigue ninguna pauta de asociación clara, ni lineal ni de otro tipo. Sin embargo, no parece claro que las varianzas sean homogéneas. Más bien parece que conforme va aumentando el valor de los pronósticos también lo va haciendo la dispersión de los residuos: los pronósticos menores que la media (los que en el diagrama tiene puntuación típica por debajo de cero) parecen estar algo más concentrados que los pronósticos mayores que la media (los que en el diagrama tienen puntuación típica mayor que cero). Es relativamente frecuente encontrar esta pauta de comportamiento en los residuos. Cuando un diagrama de dispersión delata la presencia de varianzas heterogéneas, puede utilizarse una transformación de la variable dependiente para resolver el problema (tal como una transformación logarítmica o una transformación raíz cuadrada). No obstante, al utilizar una transformación de la variable dependiente, no debe descuidarse el problema de interpretación que añade el cambio de escala. El diagrama de dispersión de las variables ZPRED y ZRESID posee la utilidad adicional de permitir detectar relaciones de tipo no lineal entre las variables. Si la relación es, de hecho, no lineal, el diagrama puede contener indicios sobre otro tipo de función de ajuste: por ejemplo, los residuos estandarizados podrían, en lugar de estar homogéneamente dispersos a lo largo del diagrama, seguir un trazado curvilíneo, lo cual estaría reflejando la presencia de una relación cuadrática. Normalidad El recuadro Gráficos de los residuos tipificados contiene dos opciones gráficas que informan sobre el grado en el que los residuos tipificados se aproximan a una distribución normal: 87 Histograma. Esta opción ofrece un histograma de los residuos tipificados con una curva normal superpuesta . La curva se construye tomando una media de 0 y una desviación típica de 1, es decir, la misma media desviación típica que los residuos tipificados. En el histograma de la Figura se puede observar, en primer lugar, que la parte central de la distribución acumula muchos más casos de los que acumula una curva normal. En segundo lugar, la distribución es algo asimétrica: en la cola positiva de la distribución existen valores más extremos que en la negativa (esto ocurre cuando uno o varios errores muy grandes, correspondientes por lo general a valores atípicos, son contrarrestados con muchos residuos pequeños de signo opuesto). La distribución de los residuos, por tanto, no parece seguir el modelo de probabilidad normal, de modo que los resultados de análisis deben ser interpretados con cautela. Histograma Variable dependiente: Salario actual 160 140 120 100 80 Frecuencia 60 40 Desv. típ. = 1.00 20 Media = 0.00 N = 474.00 0 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0. 0 .0 -1 0 .0 -2 0 .0 -3 0 .0 -4 Regresión Residuo tipificado Gráfico de prob. Normalidad. Permite obtener un diagrama de probabilidad normal. En un diagrama de este tipo, en el eje de abscisas está presentada la probabilidad acumulada que corresponde a cada residuo tipificado (calculada como la proporción de casos que quedan por debajo de cada residuo tras ordenarlos de menor a mayor); y el eje de ordenadas representa la probabilidad acumulada teórica que corresponde a cada puntuación típica en una curva normal con media 0 y desviación típica 1. Cuando los residuos se distribuyen normalmente, la nube de puntos se encuentra alineada sobre la diagonal del gráfico. La figura siguiente muestra el gráfico de probabilidad normal. La información que ofrece es similar a la ya obtenida con el histograma de la Figura anterior: puesto que los puntos no se encuentran alineados sobre la diagonal del gráfico, no parece que los residuos se distribuyan normalmente. 88 Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: Salario actual 1.00 Prob acum esperada .75 .50 .25 0.00 0.00 .25 .50 .75 1.00 Prob acum observada Al margen de esta aproximación gráfica al problema de la normalidad de los residuos, conviene recordar que el procedimiento Explorar (dentro del menú Analizar > Estadísticos descriptivos) contiene estadísticos (Kolmogorov-Smirnov, Shapiro-Wilk) que permiten contrastar la hipótesis de normalidad. Pruebas de norm alidad a Standardized Residual Kolmogorov-Smirnov Estadístico gl Sig. .122 474 .000 Estadístico .867 Shapiro-Wilk gl 474 Sig. .000 a. Corrección de la significac ión de Lilliefors Linealidad El cuadro de diálogo Regresión lineal: Gráficos contiene una opción que permite generar un tipo particular de diagramas de dispersión llamados diagramas de regresión parcial. Estos diagramas ayudan a formarse una idea rápida sobre la forma que adopta una relación. En el contexto del análisis de regresión son muy útiles porque permiten examinar la relación existente entre la variable dependiente y cada una de las variables independientes por separado, tras eliminar de ellas el efecto del resto de las variables independientes incluidas en el análisis. Estos diagramas son similares a los de dispersión ya estudiados, pero no están basados en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al llevar a cabo un análisis de regresión con el resto de las variables independientes. Por ejemplo, en el diagrama de regresión parcial de salario actual y salario inicial están representados los residuos que resultan de efectuar un análisis de regresión sobre salario inicial incluyendo el resto de variables independientes. La utilidad de estos diagramas está en que, puesto que se controla el efecto del resto de las variables, muestran la relación neta entre las variables representadas. Además, las rectas que mejor se ajustan a la nube de puntos de estos diagramas son las definidas por los correspondientes coeficientes de regresión (es justamente en esa nube 89 de puntos en la que se basan los coeficientes de regresión parcial). Para obtener estos diagramas de regresión parcial: Marca la opción Generar todos los gráficos parciales del subcuadro de diálogo Regresión lineal: Gráficos . Esta opción genera tantos gráficos parciales como variables independientes incluya el análisis. En el ejemplo, puesto que el análisis incluye tres variables independientes, se obtienen tres de estos gráficos. Puede observarse que la relación entre salario inicial (una de las variables independientes) y salario actual (la variable dependiente), tras eliminar el efecto del resto de variables independientes, es claramente lineal y positiva. Gráfico de regresión parcial Gráfico de regresión parcial Variable dependiente: Salario actual Variable dependiente: Salario actual 80000 60000 60000 40000 40000 20000 20000 Salario actual Salario actual 0 -20000 -40000 -200 -100 0 100 200 300 0 -2 0000 -4 0000 -20000 400 -10000 0 10000 20000 30000 40000 50000 60000 Salario inicial Experiencia previa (meses) Gráfico de regresión parcial Variable dependiente: Salario actual 60000 40000 20000 Salario actual 0 -20000 -40000 -10 -8 -6 -4 -2 0 2 4 6 8 Nivel educativo Los diagramas de regresión parcial permite formarse una rápida idea sobre el tamaño y el signo de los coeficientes de regresión parcial (los coeficientes de la ecuación de regresión). En estos diagramas, los valores extremos pueden resultar muy informativos. 90 Colinealidad Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma perfectamente lineal con una o más del resto de variables independientes de la ecuación. Esto ocurre, por ejemplo, cuando se utilizan como variables independientes en la misma ecuación las puntuaciones de las subescalas de un test y la puntuación total en el test (que es la suma de las subescalas y, por tanto, una combinación lineal perfecta de las mismas). Se habla de colinealidad parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación existen correlaciones altas. Se puede dar, por ejemplo, en una investigación de mercados al tomar registros de muchos atributos de un mismo producto; o al utilizar muchos indicadores económicos para construir una ecuación de regresión. En términos generales, cuantas más variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan dos variables). La colinealidad es un problema porque, en el caso de colinealidad perfecta, no es posible estimar los coeficientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el tamaño de los residuos tipificados y esto produce coeficientes de regresión muy inestables: pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy grandes en los coeficientes de regresión. Esta es una de las razones por las que es posible encontrar coeficientes con signo cambiado: correlaciones positivas pueden transformarse en coeficientes de regresión negativos (incluso significativamente negativos). Curiosamente, la medida de ajuste R no se altera por la presencia de colinealidad; pero los efectos atribuidos a las variables independientes pueden ser engañosos. Al evaluar la existencia o no de colinealidad, la dificultad estriba precisamente en determinar cuál es el grado máximo de relación permisible entre las variables independientes. No existe un consenso generalizado sobre este problema, pero puede servir de guía la presencia de ciertos indicios que puedan encontrarse en los resultados de un análisis de regresión (estos indicios, no obstante, pueden tener su origen en otras causas): 2 El estadístico F que evalúa el ajuste general de la ecuación de regresión es significativo, pero no lo es ninguno de los coeficientes de regresión parcial. Los coeficientes de regresión parcial estandarizados (los coeficientes beta) están inflados tanto en positivo como en negativo (adoptan, al mismo tiempo, valores mayores que 1 y menores que –1). Existen valores de tolerancia pequeños (próximos a 0,01). La tolerancia de una varianza independiente es la proporción de varianza de esa variable que no está asociada (que no depende) del resto de variables independientes incluidas en la ecuación. Una variable con una tolerancia de, por ejemplo, 0,01 (muy poca tolerancia) es una variable que comparte el 99% de su varianza con el resto de variables independientes, lo cual significa que se trata de una variable redundante casi por completo. Los coeficientes de correlación estimados son muy grandes (por encima de 0,90 en valor absoluto). 91 Las afirmaciones del tipo inflados, próximos a cero, muy grande, etc., se deben al hecho de que no existe un criterio estadístico formal en el que basar las decisiones. Sólo existen recomendaciones basadas en trabajos de simulación. Al margen de estos indicios, el SPSS ofrece la posibilidad de obtener algunos estadísticos que pueden ayudar a diagnosticar la presencia de colinealidad. Se trata de estadístico formal en el que basar las decisiones clara sobre la presencia o no de colinealidad. Para obtener estos estadísticos: Seleccionar la opción Diagnósticos de colinealidad lineal: Estadísticos . del subcuadro de diálogo Regresión Esta opción permite obtener los estadísticos de colinealidad que recogen las Tablas 16 y 17. La Tabla 16 es la tabla de coeficientes de regresión parcial ya vista, pero ahora contiene información adicional sobre los niveles de tolerancia y sus inversos (FIV). El nivel de tolerancia de una variable se obtiene restando a 1 el coeficiente de determinación R 2 resultante de regresar esa variable sobre el resto de variables independientes. Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del resto de variables, lo cual significa que existe colinealidad. Los factores de inflación de la varianza (FIV) son los inversos de los niveles de tolerancia. Reciben ese nombre porque se utilizan para calcular las varianzas de los coeficientes de regresión. Cuando mayor es el FIV de una variable, mayor es la varianza del correspondiente coeficiente de regresión (los valores mayores 1/(1- R ) se consideran grandes). De ahí que uno de los problemas de la presencia de colinealidad (tolerancias pequeñas, valores FIV grandes) sea la inestabilidad de las estimaciones de los coeficientes de regresión. 2 Coe ficiente sa Modelo 1 Salario inicial Experiencia previa (mes es) Nivel educativo Estadísticos de colinealidad Tolerancia FIV .554 1.804 .866 1.154 .520 1.923 a. Variable dependiente: Salario actual La Tabla 17 muestra la solución resultante de aplicar un análisis de componentes principales a la matriz estandarizada no centrada de productos cruzados de la variables independientes. Los autovalores informan sobre cuántas dimensiones o factores diferentes subyacen en el conjunto de variables independientes utilizadas. La presencia de varios autovalores próximos a cero indica que las variables independientes están muy relacionadas entre sí (colinealidad). Los índices de condición son la raíz cuadrada del cociente entre el autovalor más grande y cada uno del resto de los autovalores. En condiciones de no-colinealidad, estos índices no deben superar el valor 15. Índice mayores que 15 indican un posible problema. Índices mayores que 30 delatan un serio problema de colinealidad. Las proporciones de varianza recogen la proporción de varianza de cada coeficiente de regresión parcial que está explicada por cada dimensión o factor. En condiciones de no-colinealidad, cada dimensión suele explicar gran cantidad de varianza de un solo coeficiente (excepto en lo que se refiere al coeficiente B0 o constante, que siempre aparece asociado a uno de los otros 92 coeficientes; en el ejemplo, el término constante aparece asociado al coeficiente de Nivel educativo). La colinealidad es un problema cuando una dimensión o factor con un índice de condición alto, contribuye a explicar gran cantidad de la varianza de los coeficientes de dos o más variables. Tabla 17 a Diagnósticos de colinea lidad Modelo 1 Dimensión 1 2 3 4 Autovalor 3.401 .489 9.663E-02 1.347E-02 Indic e de condición 1.000 2.638 5.933 15.892 (Constante) .00 .00 .11 .88 Proporciones de la varianz a Experiencia previa Salario inicial (meses) .01 .02 .01 .79 .62 .01 .36 .18 Nivel educ ativo .00 .00 .01 .98 a. Variable dependiente: Salario actual Si se detecta la presencia de colinealidad en un conjunto de datos, hay que aplicar algún tipo de remedio. Por ejemplo: aumentar el tamaño de la muestra (esta solución puede resultar útil si existen pocos casos en relación con el número de variables); crear indicadores múltiples combinando variables (por ejemplo, promediando variables ; o efectuando un análisis de componentes principales para reducir las variables a un conjunto de componentes independientes, y aplicando después el análisis de regresión sobre esos componentes); excluir variables redundantes (es decir, excluir variables que correlacionan muy alto con otras, dejando únicamente las que se consideren más importantes); utilizar una técnica de estimación sesgada, tal como la regresión ridge. Puntos de Influencia Todos los casos contribuyen a la obtención de la ecuación de regresión, pero no todos lo hacen con la misma fuerza. Los puntos de influencia son casos que afectan de forma importante al valor de la ecuación de regresión. La presencia de puntos de influencia no tiene por qué constituir un problema en regresión: de hecho, lo normal es que en un análisis de regresión no todos los casos tengan la misma importancia (desde el punto de vista estadístico). Sin embargo, el analista debe ser consciente de la presencia de tales puntos pues, entre otras cosas, podría tratarse de casos con valores erróneos. Sólo siendo conscientes de si existen o no puntos de influencia es posible corregir el análisis. El procedimiento Regresión lineal ofrece varias medidas para detectar la presencia de puntos de influencia. Para obtenerlas: Pulsar el botón Guardar... del cuadro de diálogo Regresión lineal para acceder al subcuadro de diálogo Regresión lineal: Guardar variables . Marcar todas las opciones de los recuadros Distancia y Estadísticos de influencia (todas estas opciones crean variables nuevas en el archivo de datos). Distancia. Este recuadro recoge tres medidas que expresan el grado en que cada caso se aleja de los demás: 93 Mahalanobis. La distancia de Mahalanobis (1936) mide el grado de distanciamiento de cada caso respecto de los promedios de conjunto de variables independientes. En regresión simple, esta distancia se obtiene simplemente elevando al cuadro la puntuación típica de cada caso en la variable independiente. En regresión múltiple se obtiene multiplicando por n + 1 el valor de influencia de cada caso (ver más abajo). Cook. La distancia de Cook (1977, 1979) mide el cambio que se produce en las estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimación de los coeficientes de regresión. Para evaluar estas distancias puede utilizarse la distribución F con p + 1 y n – p – 1 grados de libertad (p se refiere al número de variables independientes y n al tamaño de la muestra). En general, un caso con una distancia de Cook superior a 1 debe ser revisado. Valores de influencia. Representan una medida de la influencia potencial de cada caso. Referido a las variables independientes, un valor de influencia es una medida normalizada del grado de distanciamiento de un punto respecto del centro de su distribución. Los puntos muy alejados pueden influir de forma muy importante en la ecuación de regresión, pero no necesariamente tienen por qué hacerlo. Con más de 6 variables y al menos 20 casos, se considera que un valor de influencia debe ser revisado si es menor que 2p/n , siendo p el número de variables y n el tamaño de la muestra. Los valores de influencia tienen un máximo de (n – 1)/n. Pueden interpretarse utilizando la siguiente regla general: los valores menores que 0,2 son poco problemáticos; los valores comprendidos entre 0,2 y 0,5 son arriesgados; y los valores mayores que 0,5 deberían evitarse. Estadísticos de influencia. Este recuadro contiene varios estadísticos que contribuyen a precisar la posible presencia de puntos de influencia: DfBetas (diferencia en las betas). Mide el cambio que se produce en los coeficientes de regresión estandarizados (betas) como consecuencia de ir eliminando cada caso de la ecuación de regresión. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes veta tiene la ecuación de regresión (es decir, tantos como variables independientes más uno, el correspondiente a la constante de la ecuación). DfBetas tipificadas. Es el cociente entre Dfbetas (párrafo anterior) y su error típico. Generalmente, un valor mayor que punto de influencia. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes beta tiene la ecuación de regresión. Df Ajuste. (diferencia en el ajuste). Mide el cambio que se produce en el pronóstico de un caso cuando ese caso es eliminado de la ecuación de regresión. Df Ajuste tipificado. Es el cociente entre DfAjuste (párrafo anterior) y su error típico. En general, se consideran puntos de influencia los casos en los que DfAjuste tipificado es mayor que 2 / 2 / n delata la presencia de un posible p / n , siendo p el número de variables independientes y n el tamaño de la muestra. Razón entre las covarianzas (RV). Indica en qué medida la matriz de productos cruzado (base del análisis de regresión) cambia con la eliminación de cada caso. Se considera que un caso es un punto de influencia si el valor absoluto de RV-1 es mayor que 3+p/n. 94 Además de crear las variables correspondientes a cada una de estas opciones, el SPSS ofrece una tabla resumen que incluye, para todos los estadísticos de recuadro Distancias , el valor mínimo, el máximo, la media, la desviación típica insesgada y el número de casos válidos. La tabla también recoge información sobre los pronósticos y los residuos. Conviene señalar que los puntos de influencia no tienen por qué tener asociados residuos particularmente grandes; de hecho, un punto de influencia no sólo puede provocar una pérdida de ajuste, sino que puede hacer que el ajuste global mejore sustancialmente (por ejemplo, cuando todos los puntos están agrupados en una esquina del diagrama y un punto se encuentra muy alejado de ellos en la esquina opuesta). Por tanto, el problema que plantean los puntos de influencia no es precisamente de falta de ajuste. No obstante, es muy aconsejable examinarlos por su desproporcionada influencia sobre la ecuación de regresión. Puesto que estos puntos son distintos de los demás, conviene precisar en qué son distintos. Una vez identificados y examinados, podrían ser eliminados del análisis simplemente porque entorpecen el ajuste, o porque su presencia está haciendo obtener medidas de ajuste infladas. También se podrían eliminar los casos muy atípicos simplemente argumentando que el objetivo del análisis es construir una ecuación para entender lo que ocurre con los casos típicos, corrientes, no con los casos atípicos. Este argumento es más convincente si los casos atípicos representan a una subpoblación especial que se sale del rango de variación normal. Por otro lado, si existe un conjunto de casos que parece formar un subgrupo separado del resto, podría considerarse la posibilidad de incorporar este hecho al modelo de regresión mediante una variable dummy (con unos y ceros para diferenciar ambos subgrupos) o desarrollando diferentes ecuaciones de regresión para los diferentes subgrupos. Entre los expertos estadísticos no existe un acuerdo completo sobre la conveniencia o no de eliminar un determinado caso. No existe, por tanto una regla en la que basar estas decisiones. Pero al usuario puede ayudarle a decidir sobre este particular el pensar que, cuando se decide eliminar un caso, tal acción debe ser justificada ante quien pregunte por las razones que han llevado a eliminarlo. Formas de construir un modelo de regresión En los apartados previos, se ha asumido que el control sobre las variables utilizadas para construir el modelo de regresión recae sobre el analista. Es el analista que decide qué variables independientes desea incluir en la ecuación de regresión trasladándolas a la lista Independientes. Sin embargo, no es infrecuente encontrarse con situaciones en las que, existiendo un elevado número de posibles variables independientes, no existe una teoría o un trabajo previo que oriente al analista en la elección de las variables relevantes. Este tipo de situaciones pueden afrontarse utilizando procedimientos diseñados para seleccionar, entre una gran cantidad de variables, sólo un conjunto reducido de la mismas: aquellas que permiten obtener el mejor ajuste posible. Con estos procedimientos de selección, el control sobre las variables que han de formar parte de la ecuación de regresión pasa de las manos o el criterio de analista a una regla de decisión basada en criterios estadísticos. 3. Criterios de selección de variables Existen diferentes criterios estadísticos para seleccionar variables en un modelo de regresión. Algunos de estos criterios son: el valor del coeficiente de correlación múltiple R 2 (corregido o 95 sin corregir), el valor del coeficiente de correlación parcial entre cada variable independiente y la dependiente, el grado de reducción que se obtiene en el error típico de los residuos al incorporar una variable, etc. De una u otra forma, todos ellos coinciden en intentar maximizar el ajuste del modelo de regresión utilizando el mínimo número posible de variables. Los métodos por pasos que incluye el SPSS (ver siguiente apartado) basan la selección de variables en dos criterios estadísticos: a) Criterio de significación. De acuerdo con este criterio, sólo se incorporan al modelo de regresión aquellas variables que contribuyen al ajuste del modelo de forma significativa. La contribución individual de una variable al ajuste del modelo se establece contrastando, a partir del coeficiente de correlación parcial, la hipótesis de independencia entre esa variable y la variable dependiente. Para decidir si se mantiene o rechaza esa hipótesis de independencia, el SPSS incluye dos criterios de significación: (i) Probabilidad de F. Una variable pasa a formar parte del modelo de regresión si el nivel crítico asociado a su coeficiente de correlación parcial al contrastar la hipótesis de independencia es menor que 0,05 (probabilidad de entrada). Y queda fuera del modelo de regresión si ese nivel crítico es mayor que 0,10 (probabilidad de salida). (ii) Valor de F. Una variable pasa a formar parte de modelo de regresión si el valor del estadístico F utilizado para contrastar la hipótesis de independencia es mayor que 3,84 (valor de entrada). Y queda fuera del modelo si el valor del estadístico F es menor que 2,71 (valor de salida). Para elegir entre estos dos criterios de significación pulsar el botón Opciones del cuadro de diálogo Regresión lineal para acceder al subcuadro de diálogo Regresión lineal: Opciones que muestra la Figura. Las opciones del recuadro Criterios de método por pasos permiten seleccionar uno de los dos criterios de significación disponibles y modificar las probabilidades de entrada y salida. 96 b) Criterio de tolerancia. Superado el criterio de significación, una variable sólo pasa a formar parte del modelo si su nivel de tolerancia es mayor que el nivel establecido por defecto (este nivel es 0,0001, pero puede cambiarse mediante sintaxis) y si, además, aun correspondiéndole un coeficiente de correlación parcial significativamente distinto de cero, su incorporación al modelo no hace que alguna de las variables previamente seleccionadas pase a tener un nivel de tolerancia por debajo del nivel establecido por defecto (aunque esto último depende también del método de selección de variables elegidos; ver siguiente apartado Una forma muy intuitiva de comprender y valorar el efecto resultante de aplicar estos criterios de selección consiste en observar el cambio que se va produciendo en el coeficiente de determinación R2 a medida que se van incorporando (o eliminando) variables al modelo. Este cambio se define como R2cambio = R2 - R2i, donde R2i se refiere al coeficiente de determinación obtenido con todas las variables independientes excepto la i-ésima. Un cambio grande en R2 indica que esa variable contribuye de forma importante a explicar lo que ocurre con la variable dependiente. Para obtener los valores de R2cambio y su significación (el grado en que el cambio observado en R2 difiere de cero) Marcar la opción [Cambio en R cuadrado] del cuadro de diálogo Regresión lineal: Estadísticos. Esta opción permite obtener el valor de R2cambio que se va produciendo con la incorporación de cada nueva variable independiente, el valor del estadístico F resultante de contrastar la hipótesis de que el valor poblacional R2cambio es cero, y el nivel critico asociado a ese estadístico F. 4. Métodos de selección de variables Existen diferentes métodos para seleccionar las variables independientes que debe incluir un modelo de regresión, pero los que mayor aceptación han recibido (sin que esto signifique que son los mejores) son los métodos de selección por pasos ( stepwise). Con estos métodos, se selecciona en primer lugar la mejor variable (siempre de acuerdo con algún criterio estadístico): a continuación, la mejor de las restantes; y así sucesivamente hasta que ya no quedan variables que cumplan los criterios de selección. El procedimiento Regresión lineal del SPSS incluye varios de estos métodos de selección de variables. Todos ellos se encuentran disponibles en el botón de menú desplegable de la opción Método del cuadro de diálogo Regresión lineal. Dos de estos métodos permiten incluir o excluir, en un solo paso, todas las variables independientes seleccionadas (no son, por tanto, métodos de selección por pasos): f) Introducir. Este método construye la ecuación de regresión utilizando todas las variables seleccionadas en la lista Independiente (ver Figura ). Es el método utilizado por defecto. g) Eliminar. Elimina en un solo paso todas las variables de la lista Independientes y ofrece los coeficientes de regresión que corresponderían a cada variable independiente en el caso de que se utilizara cada una de ellas individualmente para construir la ecuación de regresión. El resto de métodos de selección de variables son métodos por pasos, es decir, métodos que van incorporando o eliminando variables paso a paso dependiendo de que éstas cumplan o no los criterios de selección: h) Hacia adelante. Las variables se incorporan al modelo de regresión una a una. En el primer paso se selecciona la variable independiente que, además de superar los criterios de entrada, más alto correlaciona (en valor absoluto) con la dependiente. En los siguientes pasos se 97 utiliza como criterio de selección el coeficiente de correlación parcial: van siendo seleccionadas una a una las variables que, además de superar los criterios de entrada, poseen el coeficiente de correlación parcial más alto en valor absoluto (la relación entre la variable dependiente y cada una de las variables independientes se parcializa controlando el efecto de la (s) variable (s) independiente (s) previamente seleccionada (s). La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada. (Utilizar como criterio de entrada el tamaño, en valor absoluto, de coeficiente de correlación parcial, es equivalente a seleccionar la variable con menor probabilidad de F o mayor valor de F). i) Hacia atrás. Este método comienza incluyendo en el modelo todas las variables seleccionadas en la lista Independiente y luego procede a eliminarlas una a una. La primera variable eliminada es aquella que, además de cumplir los criterios de salida, posee el coeficiente de regresión más bajo en valor absoluto. En cada paso sucesivo se van eliminando las variables con coeficientes de regresión no significativos, siempre en orden inverso al tamaño de su nivel critico. La eliminación de variables se detiene cuando no quedan variables en el modelo que cumplan los criterios de salida. j) Pasos sucesivos. Este método es una especie de mezcla de los métodos hacia delante y hacia atrás. Comienza, al igual que el método hacia delante, seleccionando, en el primer paso, la variable independiente que, además de superar los criterios de entrada, más alto correlaciona (en valor absoluto) con la variable dependiente. A continuación, selecciona la variable independiente que, además de superar los criterios de entrada, posee el coeficiente de correlación parcial más alto (en valor absoluto). Cada vez que se incorpora una nueva variable al modelo, las variables previamente seleccionadas son, al igual que en el método hacia atrás, evaluadas nuevamente para determinar si siguen cumpliendo o no los criterios de salida. Si alguna variable seleccionada cumple los criterios de salida, es expulsada del modelo. El proceso se detiene cuando no quedan variables que superen los criterios de entrada y las variables seleccionadas no cumplen los criterios de salida. 5. Ejemplo: Regresión por Pasos Para ilustrar el funcionamiento de análisis de regresión por pasos se presenta a continuación un ejemplo con el método pasos sucesivos. Se utiliza el salario actual (salario) como variable dependiente y, como variables independientes, la fecha de nacimiento ( fechnac), el nivel educativo (educ), el salario inicial (salini), la experiencia previa (expprev), y la clasificación étnica (minoría). El objetivo del análisis es encontrar un modelo de regresión que explique, con el mínimo número posible de variables independientes, la mayor cantidad posible de la varianza de la variable salario. Para llevar a cabo el análisis: Dependiente: salario. Independientes: fechnac, educ, salini, expprev y minoría. Método: Pasos sucesivos. Pulsar el botón Estadísticos... para acceder al subcuadro de diálogo Regresión lineal: Estadísticos y marcar la opción [Cambio en R cuadrado]. Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas. 98 a Variables introducidas/ elimina das Modelo 1 2 Variables introducidas Variables eliminadas Salario inic ial . Experiencia previa (meses) Nivel educativo 3 Mét odo Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100). . Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100). . Por pasos (criterio: Prob. de F para entrar <= . 050, Prob. de F para salir >= .100). a. Variable dependiente: Salario ac tual La Tabla anterior ofrece un resumen del modelo final al que se ha llegado. En la columna Modelo se indica en número de pasos dados para construir el modelo de regresión: tres pasos. En primer paso se ha seleccionado la variable salario inicial, en el segundo, experiencia previa y, en el tercero, nivel educativo. También se indica si en alguno de los pasos se ha eliminado alguna variable previamente seleccionada; en este ejemplo no se han eliminado variables. Por último, se informa sobre el método de selección aplicado (Por pasos) y sobre los criterios de entrada y salida utilizados: una variable es incorporada al modelo si su coeficiente de regresión parcial es significativamente distinto de cero con un nivel de significación del 5% y, una vez seleccionada, sólo es eliminada del modelo si con la incorporación de otra u otras variables en un paso posterior su coeficiente de regresión parcial deja de ser distinto de cero con un nivel de significación del 10%. Resumen del modelo Estadísticos de cambio Modelo 1 2 3 R R cuadrado .880 a .775 .891 b .794 .896 c .802 R cuadrado corregida .774 .793 .801 Error típ. de la estimación $8,119.791 $7,778.940 $7,631.838 Cambio en R cuadrado .775 .019 .008 Cambio en F 1620.826 43.180 19.293 gl1 1 1 1 gl2 471 470 469 Sig. del cambio en F .000 .000 .000 a. Variables predictoras: (Constante), Salario inicial b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses) c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses), Nivel educativo La Tabla anterior recoge, para cada paso, el valor de R2, el cambio experimentado por R2, y el estadístico F y su significación. El estadístico F permite contrastar la hipótesis de que el cambio en R2 vale cero en la población. Al incorporar la primera variable (Modelo 1), el valor de R2 es 0,775. Lógicamente, en el primer paso, R2cambio = R2. Al contrastar la hipótesis de que el valor poblacional de R2cambio es cero se obtiene un estadístico F de 1.620,83 que, con 1 y 471 grados de libertad, tiene una probabilidad asociada de 0,000. Puesto que este valor es menor que 0,05, puede afirmarse que la proporción de varianza explicada por la variable salario inicial (la variable seleccionada en el primer paso) es significativamente distinta de cero. En el segundo paso (Modelo 2), el valor de R2 aumenta hasta 0,794. Esto supone un cambio de 0,019 (aproximadamente un 2%). La tabla muestra el valor de estadístico F (43,180) obtenido al contrastar la hipótesis de que el valor poblacional R2cambio es cero, y su significación (0,000). Aunque se trata de un incremento muy pequeño (un 2%), el valor del nivel crítico permite afirmar que la variable experiencia previa (la variable incorporada al modelo en el segundo paso) contribuye significativamente a explicar lo que ocurre con la variable dependiente (o, lo que es lo mismo, a mejorar el ajuste). En el tercer y último paso (Modelo 3), R2 toma un valor de 0,802, lo cual supone un incremento de 0,008 (aproximadamente un 1 por ciento). De nuevo se trata de un incremento muy pequeño, pero 99 al evaluar su significación se obtiene un estadístico F de 19,293 y un nivel crítico asociado de 0,000, lo cual está indicado que la variable nivel educativo (la variable incorporada en el tercer paso), también contribuye de forma significativa a explicar el comportamiento de la variable dependiente (o, lo que es lo mismo, a mejorar el ajuste). Las tres variables seleccionadas en el modelo fina consiguen explicar un 80% (R2 = 0,802) de la variabilidad observada en el salario actual. ANOVAd Modelo 1 2 3 Regresión Res idual Total Regresión Res idual Total Regresión Res idual Total Suma de cuadrados 1.069E+11 3.105E+10 1.379E+11 1.095E+11 2.844E+10 1.379E+11 1.106E+11 2.732E+10 1.379E+11 gl 1 471 472 2 470 472 3 469 472 Media cuadrática 1.07E+11 65931012 F 1620.826 Sig. .000 a 5.47E+10 60511906 904. 579 .000 b 3.69E+10 58244948 632. 955 .000 c a. Variables predictoras: (Constante), Salario inicial b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses) c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses), Nivel educativo d. Variable dependiente: Salario actual La tabla resumen del ANOVA muestra el valor del estadístico F obtenido al contrastar la hipótesis de que el valor poblacional de R2 en cada paso es cero. Ahora no se evalúa el cambio que se va produciendo en el valor de R2 de un paso a otro, sino el valor de R2 en cada paso. Lógicamente, si R2 es significativamente distinta de cero en el primer paso, también lo será en los pasos sucesivos. La Tabla siguiente contiene los coeficientes de regresión parcial correspondientes a cada una de las variables incluidas en el modelo de regresión; estos coeficientes sirven para construir la ecuación de regresión en cada paso (incluyendo el término constante). Las primeras columnas recogen el valor de los coeficientes de regresión parcial ( B) y su error típico. A continuación aparecen los coeficientes de regresión parcial estandarizados ( Beta), los cuales informan acerca de la importancia relativa de cada variable dentro de la ecuación. Las dos última columnas muestran los estadísticos t y los niveles crítico (Sig) obtenidos al contrastar las hipótesis de que los coeficientes de regresión parcial valen cero en la población. Un nivel crítico por debajo de 0,05 indica que la variable contribuye significativamente a mejorar el ajuste del modelo. Coe ficientesa Modelo 1 2 3 (Constante) Salario inic ial (Constante) Salario inic ial Experiencia previa (meses ) (Constante) Salario inic ial Experiencia previa (meses ) Nivel educativo Coeficientes no estandarizados B Error típ. 1929.517 889. 168 1.910 .047 3856.955 900. 928 1.924 .045 -22. 500 3.424 -3708.904 1936.045 1.748 .060 -16. 752 3.605 741. 307 168. 772 Coeficientes estandarizados Beta .880 .887 -.138 .806 -.103 .125 t 2.170 40.259 4.281 42.279 -6.571 -1.916 29.192 -4.647 4.392 Sig. .031 .000 .000 .000 .000 .056 .000 .000 .000 a. Variable dependiente: Salario act ual 100 Utilizar el estadístico t para contrastar la hipótesis de que un coeficiente de regresión parcial vale cero es exactamente lo mismo que utilizar el estadístico F para contrastar la hipótesis de que el valor poblacional del cambio observado en R2 vale cero. De hecho, elevando al cuadrado los valores de estadístico t se obtienen los valores del estadístico F. De las dos formas se está intentando evaluar la contribución individual de una variable a la proporción de varianza explicada por el conjunto de variables dependientes. Por último, la Tabla siguiente muestra los coeficientes de regresión parcial de las variables no seleccionadas para formar parte de la ecuación de regresión en cada paso. La información que contiene esta tabla permite conocer en detalle por qué unas variables han sido seleccionadas y otras no. d Variables excluidas Modelo 1 2 3 Beta dentro Experiencia previa (meses) Nivel educativo Fec ha de nacimiento Clas ificación étnic a Nivel educativo Fec ha de nacimiento Clas ificación étnic a Fec ha de nacimiento Clas ificación étnic a a -.138 .173 a .136 a -.040a .125 b .071 b -.019b .054 c -.020c t Sig. Correlación parc ial Estadísticos de colinealidad Tolerancia -6.571 .000 -.290 .998 6.385 6.471 -1.809 4.392 2.020 -.885 1.556 -.965 .000 .000 .071 .000 .044 .377 .120 .335 .283 .286 -.083 .199 .093 -.041 .072 -.045 .599 1.000 .975 .520 .354 .952 .350 .952 a. Variables predictoras en el modelo: (Constante), Salario inicial b. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses ) c. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses ), Nivel educativo d. Variable dependiente: Salario ac tual En el primer paso se ha seleccionado la variable salario inicial porque es la que más alto correlaciona, en valor absoluto, con la variable dependiente. En este primer paso, todavía están fuera del modelo el resto de variables independientes. La columna Beta dentro contiene el valor que tomaría el coeficiente de regresión parcial estandarizado de cada variable en el caso de ser seleccionada en el siguiente paso. Y las dos columnas siguientes (t y Sig.) informan sobre si ese valor que adoptaría el coeficiente de regresión parcial de una variable en el caso de ser incorporada al modelo sería o no significativamente distinto a cero. Puede comprobarse que, en el primer paso, hay tres variables todavía no seleccionadas ( nivel educativo, experiencia previa y fecha de nacimiento ) cuyos coeficientes de regresión poseen niveles críticos por debajo de 0,05 (criterio de entrada). Entre ellas, la variable que posee un coeficiente de correlación parcial mayor en valor absoluto ( experiencia previa = -0,290) y, además, un nivel de tolerancia por encima de 0,001 ( tolerancia mínima establecida por defecto), es justamente la variable seleccionada en el segundo paso. En el segundo paso todavía quedan fuera de la ecuación dos variables cuyos coeficientes de regresión serían significativos en caso de ser seleccionadas en el siguiente paso: nivel educativo y fecha de nacimiento. De esas dos variables, se ha seleccionado en el tercer paso la variable nivel educativo porque, teniendo un nivel de tolerancia por encima de 0,001, es la que posee el coeficiente de correlación parcial más alto. 101 Después del tercer paso todavía quedan dos variables fuera de la ecuación: fecha de nacimiento y clasificación étnica. Pero, puesto que ninguna de las dos supera el criterio de entrada (Sig. < 0,05), es decir, puesto que a ninguna de ellas le corresponde un coeficiente de regresión parcial significativamente distinto de cero, el proceso se detiene y ambas variables quedan fuera del modelo. 6. Qué variables debe incluir la ecuación de regresión El método de selección por pasos ha llevado a construir una ecuación de regresión con tres variables. Esas tres variables han sido incluidas en el modelo porque poseen coeficientes de regresión parcial significativos. Sin embargo, la primera variable explica el 78% de la varianza de la variable dependiente, la segunda el 2%, y la tercera el 2%. Si en lugar de método pasos sucesivos se utiliza el método introducir, se obtienen los resultados que muestran las siguientes tablas. Resumen del modelo Estadísticos de cambio Modelo 1 R R cuadrado .896 a .803 R cuadrado corregida .801 Error típ. de la estimación $7,620.326 Cambio en R cuadrado .803 Cambio en F 381. 605 gl1 5 gl2 467 Sig. del cambio en F .000 a. Variables predictoras: (Constante), Clasificación étnica, Fecha de nacimiento, Salario inicial, Nivel educativo, Experiencia previa (meses) ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados 1.108E+11 2.712E+10 1.379E+11 gl 5 467 472 Media cuadrática 2.22E+10 58069371 F 381. 605 Sig. .000 a a. Variables predictoras: (Constante), Clasificación étnica, Fecha de nacimiento, Salario inicial, Nivel educat ivo, Experiencia previa (meses ) b. Variable dependiente: Salario actual Coe ficientesa Modelo 1 Coeficientes no estandarizados B Error típ. -33438.7 19113.329 1.742 .060 (Constante) Salario inic ial Experiencia previa -9.268 (meses) Nivel educativo 712.743 Fec ha de nacimiento 2.516E-06 Clas ificación étnic a -865.292 Coeficientes estandarizad os Beta .803 t -1.749 28.868 Sig. .081 .000 5.724 -.057 -1.619 .106 169.671 .000 867.208 .120 .055 -.021 4.201 1.576 -.998 .000 .116 .319 a. Variable dependiente: Salario act ual Por un lado, la ganancia que se obtiene en R2 utilizando las 5 variables en lugar de tres seleccionadas con el método por pasos es extremadamente pequeña: 0,803-0,802 = 0,001. (Y el valor de R2 corregida ni siquiera cambia: vale 0,801 en ambos casos). No parece que tenga mucho sentido añadir dos variables a un modelo para obtener una mejora de una milésima en la proporción de varianza aplicada. Aunque es cierto que R2 nunca disminuye cuando se van incorporando nuevas variables al modelo de regresión, sino que aumenta o se queda como está, esto no significa, necesariamente, que la ecuación con más variables se ajuste mejor a los datos poblacionales. Generalmente, conforme va aumentando la calidad del modelo, va disminuyendo el 102 error típico de los residuos (Error típ. De la estimación). Pero el incremento que se va produciendo en R2 al ir añadiendo variables no se corresponde necesariamente con una disminución de error típico de los residuos. Con cada variable nueva que se incorpora al modelo, la suma de cuadrados de la regresión gana un grado de libertad y la suma de cuadrados de los residuos lo pierde. Por tanto, el error típico de los residuos puede aumentar cuando el descenso de la variación residual es demasiado pequeño para compensar el grado de libertad que pierde la suma de cuadrados de los residuos. Estas consideraciones sugieren la conveniencia de utilizar modelos de regresión parsimoniosos, es decir, modelos con un número reducido de variables independientes (con el mínimo número posible de variables). Por otro lado, las variables que tienen pesos significativos en la ecuación de regresión previamente obtenida con el método pasos sucesivos no son las mismas que las que tienen pesos significativos en la ecuación obtenida con el método introducir. Esta diferencia entre métodos de selección de variables debe ser tenida muy en cuenta. ¿Cuáles son las variables buenas?. Atendiendo a criterios puramente estadísticos, la ecuación de regresión con las tres variables seleccionadas por el método pasos sucesivos, es la mejor de las posibles con el mínimo número de variables. Pero en la práctica, la decisión sobre cuántas variables debe incluir la ecuación de regresión puede tomarse teniendo en cuenta, además de los criterios estadísticos, otro tipo de consideraciones. Si, por ejemplo, resulta muy costoso (tiempo, dinero, etc.) obtener las unidades de análisis, un modelo con una única variable independiente podría resultar lo bastante apropiada. Para decidir con qué modelo de regresión quedarse, casi siempre es conveniente tomar en consideración criterios adicionales a los puramente estadísticos. Por otro lado, puesto que los métodos de selección por pasos construyen la ecuación de regresión basándose exclusivamente en criterios estadísticos, podría ocurrir que alguna variable realmente relevante desde el punto de vista teórico quedará fuera del modelo de regresión final. Y esto es algo que hay que vigilar con especial cuidado. Por supuesto, los contrastes estadísticos sirven de apoyo para tomar decisiones. Pero, dado que la potencia de un contraste se incrementa conforme lo hace el tamaño de la muestra, hay que ser muy cautelosos con las conclusiones a las que se llega. Esto significa que, con muestras grandes, efectos muy pequeños desde el punto de vista de su importancia teórica o práctica pueden resultar estadísticamente significativos. Por el contrario, con muestra pequeñas, para que un efecto resulte significativo, debe tratarse de un efecto importante (con muestras pequeñas, existe mayor grado de coincidencia entre la significación estadística y la importancia práctica). Por esta razón, en la determinación de la ecuación de regresión final, debe tenerse en cuenta, cuando se trabaja con muestras grandes, la conveniencia de considerar elementos de decisión adicionales a la pura significación estadística. Puesto que la utilización de los métodos de selección por pasos está bastante generalizada, conviene también alertar sobre el peligro de alcanzar un resultado falsamente positivo (un error de tipo 1). Es decir, si se examina un número de variables lo bastante grande, tarde o temprano una o más pueden resultar significativas sólo por azar. Este riesgo es tanto mayor cuanto más variables se incluyen en el análisis. Para evitar este problema, si la muestra es lo bastante grande, puede dividirse en dos, aplicar el análisis a una mitad y verificar en la otra mitad si se confirma el resultado obtenido. Si la muestra es pequeña, esta solución es inviable y, por tanto, el riesgo de cometer un error de tipo 1 permanece. 103 I. Pronósticos Ya se ha explicado cómo utilizar los coeficientes de regresión parcial ( B) para construir la ecuación de regresión. En el punto V.2. Regresión múltiple se ha llegado a la siguiente ecuación de regresión: Pronóstico (salario) =1,749 salini - 16,730 expprev + 735,956 educ + 3.661.517 Puesto que se conocen los pesos de la ecuación de regresión, podría utilizarse la opción Calcular del menú Transformar para obtener los pronósticos que la ecuación asigna a cada caso. Pero esto es completamente innecesario. El subcuadro de diálogo Regresión lineal: Guardar nuevas variables contiene opciones que permiten generar diferentes tipos de variables relacionadas con los pronósticos: Valores pronosticados. Las opciones de este recuadro generan, en el Editor de datos, cuatro nuevas variables. Estas nuevas variables reciben automáticamente un nombre seguido de un número de serie: nombre_ #. Por ejemplo, la primera vez que se solicitan durante una sesión los pronósticos tipificados, la nueva variable con los pronósticos tipificados recibe el nombre zpr 1. Si se vuelven a solicitar los pronósticos tipificados durante la misma sesión, la nueva variable recibe el nombre zpr_2 etc. No tipificados: pronósticos de la ecuación de regresión en puntuaciones directas. Nombre: pre_#. Tipificados: pronósticos convertidos en puntuaciones típicas (restando a cada pronóstico la media de los pronósticos y dividiendo la diferencia por la desviación típica de los pronósticos). Nombre: zpr_#. Corregidos: pronóstico que corresponde a cada caso cuando la ecuación de regresión se obtiene sin incluir ese caso. Nombre: adj_#. E.T. del pronóstico promedio. Error típico de los pronósticos correspondientes a los casos que tienen el mismo valor en las variables independientes. Nombre: sep_#. Al efectuar pronósticos es posible optar entre: (1) efectuar un pronóstico individual Yi´ para cada caso concreto Xi, o (2) pronosticar para cada caso la media de los pronósticos ( Y0´) correspondientes a todos los casos en con el mismo valor X0 en la(s) variable(s) independiente(s); a esta media es a la que se llama pronóstico promedio. En ambos casos se obtiene el mismo pronóstico (Yi´=Y0´), pero cada tipo de pronóstico (ambos son variables aleatorias) tiene un error típico distinto. Al efectuar un pronóstico individual para un determinado valor de Xi, el error de estimación o variación residual (Yi – Yi´) puede contener dos fuentes de error: (i) La diferencia entre valor observado en la variable dependiente ( Yi) y la media poblacional correspondiente a (ii) X0 Y X0 . La diferencia entre el pronóstico para ese caso ( Yi´ o Y0´) y la media poblacional correspondiente a X0 Y X0 . En un pronóstico individual entran juego ambas fuentes de error. Pero en un pronóstico promedio sólo entra en juego la segunda fuente de error. Por tanto, para un valor dado de X0, el error típico del pronóstico promedio siempre será menor o igual que el error típico del pronóstico individual. En consecuencia, al construir intervalos de confianza para los pronósticos, la amplitud del intervalo cambiará dependiendo del error típico que se tome como referencia. 104 Además, puede intuirse fácilmente que los errores típicos del pronóstico promedio (que ya se ha dicho que están basados en las distancias en parezcan Y0' y Y X0 ) serán tanto menores cuanto más se X 0 y X , pues cuanto más se parezcan, más cerca estará la recta muestral de la poblacional y, consecuentemente, más cerca estarán Y0' y Y X0 . Intervalos de pronóstico (parte inferior del subcuadro de diálogo Regresión lineal: Guardar nuevas variables). Las opciones de este recuadro permiten obtener los intervalos de confianza para los pronósticos: Media. Intervalo de confianza basado en los errores típicos de los pronósticos promedio. Individuos. Intervalo de confianza basado en los errores típicos de los pronósticos individuales. La opción Intervalos de confianza k % permite establecer el nivel de confianza con el que se construyen los intervalos de confianza. Lógicamente, estos dos intervalos son distintos. Para un valor dado de X, el primer intervalo (media) es más estrecho que el segundo (individuos). Recuérdese lo dicho en este mismo apartado sobre los errores típicos de los pronósticos. Cada una de estas dos opciones (media e individuos) genera en el Editor de datos dos nuevas variables con el límite inferior y superior del intervalo. Estas nuevas variables reciben los siguientes nombres: lmci_: límite inferior del intervalo de confianza para el pronóstico medio. umci: límite superio de intervalo de confianza para el pronóstico medio. lici: límite inferior del intervalo de confianza para el pronóstico individual. uici_ límite superior del intervalo de confianza para el pronóstico individual. 7. Validez del modelo de regresión El modelo de regresión puede ser validado utilizando casos nuevos. Para ello, basta con obtener los pronósticos para esos casos nuevos y, a continuación, calcular el coeficiente de correlación entre los valores observado en la variable dependiente y los valores pronosticados para esos casos nuevos. En teoría, el coeficiente de correlación así obtenido debería ser igual al coeficiente de correlación múltiple del análisis de regresión ( R). En la práctica, si el modelo es lo bastante bueno, se observarán pequeñas diferencias entre esos coeficientes atribuibles únicamente al azar muestral. Es muy importante que los nuevos casos representen a la misma población que los casos originalmente utilizados para obtener la ecuación de regresión. En ocasiones, es posible que no se tenga acceso a nuevos datos o que sea muy difícil obtenerlos. En esos casos, todavía es posible validar el modelo de regresión si la muestra es lo bastante grande. Basta con utilizar la mitad de los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuación de regresión y la otra mitad de la muestra para efectuar los pronósticos. Un modelo fiable debería llevar a obtener una correlación similar entre los valores observados y pronosticados de ambas mitades. II. Temas adicionales en el análisis de regresión El proceso de construcción de modelos estadísticos es, en cada caso, un problema específico y particular. Lo que se haga, o pueda hacerse, dependerá del conocimiento que tengamos acerca del 105 comportamiento de las variables en estudio y de los datos disponibles. En la figura podemos ver de forma esquemática los diferentes pasos que tienen lugar en la modelación estadística. Especificación del modelo Estimación de los coeficientes Verificación del modelo Interpretación e Inferencia 8. Especificación del modelo El problema inicial será especificar una forma algebraica para el modelo que pueda proporcionar una descripción del sistema objeto de estudio, que sea conveniente, útil y razonable. 9. Estimación de los coeficientes Una vez especificado, un modelo estadístico normalmente contiene una serie de coeficientes desconocidos, o parámetros. El siguiente paso en la construcción del modelo es utilizar los datos disponibles para estimar dichos coeficientes. Se podrán obtener así, tanto estimaciones puntuales como estimaciones por intervalos. Es decir, en el modelo de regresión múltiple Yi x 1 1i x 2 2i K xKi (1.1) i dependiente y las de las variables independientes. 1, 2,…, k las realizaciones de la variable El método apropiado de estimación depende de la especificación del modelo. Hemos visto que, dados ciertos supuestos acerca de las propiedades estadísticas de los términos de error i del modelo (1.1), el método de mínimos cuadrados será apropiado para estimar los coeficientes de regresión parcial. Sin embargo, como veremos, si alguno de los supuestos no se cumple, los estimadores mínimo-cuadrático pueden ser muy ineficientes. En general, el teorema de GaussMarkov, que da una justificación teórica de por qué utilizar el método de mínimos cuadrados, se cumple sólo cuando los supuestos son ciertos. 10. Verificación del modelo Al formular un modelo, el investigador está incorporando al estudio una serie de intuiciones. Sin embargo, al traducir esto a una expresión algebraica, se estarán llevando a cabo una serie de simplificaciones y supuestos, que en la realidad pueden llegar a ser insostenibles. Por tanto, será siempre conveniente comprobar si el modelo es el adecuado. Una vez estimada la ecuación de regresión, el analista puede darse cuenta de que las estimaciones resultantes no tienen sentido dados los conocimientos que se tienen del sistema a estudio. Por ejemplo, supongamos que un modelo estimado sugiere que, manteniendo el resto de los factores relevantes fijos, la demanda de coches importados crece a medida que crece su precio. Esta conclusión va en contra no sólo de la teoría económica sino del propio sentido común. Cuando la estimación puntual de un coeficiente de regresión tiene el signo “contrario” suele deberse a la escasa disponibilidad de datos. En nuestro ejemplo, esperamos que, a igualdad de los demás factores, exista al menos una modesta relación inversa entre la demanda de coches importados y su precio; sin embargo, esta relación puede no manifestarse en los coeficientes estimados a causa 106 de errores en la muestra. Más serio es el caso en el que los coeficientes estimados tienen el signo “contrario” y difieren significativamente de 0. Es muy posible que, en estas circunstancias, el error se deba a una incorrecta especificación del modelo. El investigador debería en este caso replantearse la especificación original. A lo mejor se ha pasado por alto una variable explicativa de interés, o, posiblemente, la forma funcional que se ha supuesto sea inapropiada. Ciertamente, comprobar la coherencia de modelo resultante va a ser una parte importante de la verificación. Es importante también comprobar los supuestos hechos sobre las propiedades estadísticas de las variables aleatorias del modelo. En la Ecuación de regresión (1.1), se supone habitualmente que los términos de error i tiene todos la misma varianza y que no están correlacionados unos con otros. Cualquier comprobación sobre la corrección de un modelo puede llevar a una especificación alternativa. Es por esto por lo que, en la Figura 1, hemos conectado el paso de especificación del modelo con el de verificación. De esta forma, la construcción de un modelo se entiende como un proceso iterativo de especificación, estimación y verificación, continuando el proceso hasta que se alcance un modelo aparentemente satisfactorio. 11. Interpretación e Inferencia Una vez construido el modelo, podrá ser utilizado para aprender algo acerca del sistema a estudio. En el análisis de regresión, esto puede implicar encontrar intervalos de confianza para los parámetros del modelo, contrastar hipótesis de interés o realizar predicciones de la variable dependiente dados ciertos valores de las variables independientes. Es importante tener presente que la inferencia está basada en el supuesto de que el modelo está correctamente especificado. Cuanto más graves sean los errores de especificación, menos fiables serán las conclusiones derivadas del modelo ajustado. 12. Ejercicio Consideremos datos del archivo “Entidades de ahorro y crédito.sav” Supongamos que queremos explicar la variabilidad a través de los años de los márgenes de beneficio de las entidades de ahorro y crédito. Es razonable suponer que, a igualdad de los demás factores, los márgenes de beneficio estarán positivamente relacionados con los ingresos netos por dólar depositado, es decir, cuanto más altos sean los ingresos netos, más altos serán los márgenes de beneficio. Otra posibilidad es considerar que los márgenes de beneficio caigan debido al aumento de la competencia, a igualdad de los demás factores, cuando el número de entidades de ahorro y crédito crece. Por tanto lo que buscamos es un modelo en el cual la variable dependiente, margen de beneficio (Y), esté relacionada con las dos variables independientes, ingresos netos (X1) número de entidades de ahorro y crédito ( X2). El archivo muestra 25 conjuntos de observaciones anuales. Nuestro interés se centra en el valor esperado de la variable dependiente, pero en este caso, este valor está condicionado al valor que toman todas las variables independientes. Por ejemplo, podríamos preguntar cuál es el valor esperado para el margen porcentual de beneficio en un año en el que los ingresos porcentuales netos por dólar depositado fueron del 4 y hubiera 8.000 oficinas. Una vez más, necesitaremos una notación apropiada para este concepto. Para el caso en el que una variable dependiente, Y, está relacionada con un par de variables independientes, X1 y X2 usaremos E(Y / X1=x1, X2=x2) para representar el valor esperado de la variable dependiente cuando las variables independientes toman los valores x1 y x2, respectivamente. El supuesto de linealidad, en este contexto, implica que esta esperanza condicional es de la forma. E(Y / X1=x1, X2=x2) = donde las constantes 1 1 x1 + y 2 2 x2 (1.2) deben estimarse a partir de los datos. 107 En general, el objetivo será relacionar la variable dependiente, Y, con K variables independientes X1, X2,…, Xk. Entonces, si X1 toma el valor x1, X2 toma el valor x2, y así sucesivamente, la generalización de la Ecuación (1.2) proporcionaría el valor esperado de la variable dependiente como E(Y / X1=x1, X2=x2,..., Xk=xk) = 1x1 + 2x 2 + ... + k xk (1.3) donde E(Y / X1=x1, X2=x2,..., Xk=xk) representa el valor esperado de la variable dependiente cuando las variables independientes toman los valores x1, x2,..., xk y donde las constantes 1, ,…, determinan la naturaleza de la relación. Estas constantes tienen una interpretación 2 k inmediata. En primer lugar, si se da a cada una de las variables independientes el valor 0, puede deducirse de (1.3) que: E(Y / X1=0, X2=0,..., Xk=0) = Por tanto, es el valor esperado de la variable dependiente cuando cada una de las variables independientes toma el valor 0. Con frecuencia, esta interpretación no es de interés práctico, pues el punto en el cual todas las variables independientes son 0 no tiene importancia y, de hecho, puede no tener sentido (por ejemplo, no tiene interés el caso en el que el número de oficinas de ahorro y crédito es 0). Es más, mientras que la forma que hemos supuesto para el modelo puede ser razonable en la región donde se han observado los valores de las variables independientes, sería muy optimista suponer que el modelo es válido para valores alejados de esta región. La interpretación de los coeficientes 1, 2,…, k es extremadamente importante. Supongamos que en la ecuación una de las variables independientes, digamos X1, incrementa su valor en una unidad, pasando de valer x1 a (x1 + 1), mientras que el resto de la variables independientes mantiene su valor. Entonces, tenemos E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) = 1(x1 + 1) + 2 x2 + ... + bkxk Por tanto, tenemos E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) - E(Y / X1 = x1, X2 = x2,..., Xk = xk) = 1(x1 = + 1) + 2 x2 + ... + bkxk - ( 1x1 + 2 x2 + ... + bkxk) 1 De aquí se deduce que 1 es el incremento esperado de Y que resulta de incrementar la variable X1 en una unidad cuando el resto de las variables independientes permanecen constantes. En general, j es el incremento esperado en la variable dependiente que resulta de incrementar la variable Xj en un unidad, cuando el resto de la variables independientes permanece constante. Las constantes j, llamadas coeficientes de regresión parcial, proporcionan medidas separadas de las influencias de las variables independientes en la variable dependiente, cuando el resto de los factores relevantes permanece constante. Volviendo al ejemplo de las entidades de ahorro y crédito, supongamos que la verdadera relación es E Y X1 x1 , X 2 x2 1,5 0, 2 x1 0, 00025x2 El coeficiente correspondiente a x1, indica que incrementar en una unidad los ingresos netos, produciría un incremento de 0,2 en el margen porcentual de beneficio de las entidades de ahorro y crédito, siempre que el número de oficina permanezca constante. De forma análoga, el coeficiente correspondiente a x2, indica que, manteniendo los ingresos netos fijos, un incremento de una oficina de ahorro y crédito, produciría un incremento de –0,00025 - es decir, una reducción esperada de 0,00025 - en el margen porcentual de beneficio. Utilizando valores más 108 realistas, un incremento de 1.000 oficinas de ahorro y crédito, manteniendo los ingresos netos fijos, supondría una reducción esperada de 0,25 en los márgenes porcentual de beneficios. 13. Sesgo de especificación La especificación de un modelo estadístico que represente de forma adecuada el mundo real, es una tarea difícil y delicada. Ciertamente, ningún modelo simple podrá representar perfectamente la naturaleza precisa de determinadas magnitudes reales de interés. El objetivo a la hora de construir un modelo será intentar describir una formulación sencilla que no diverja mucho de la compleja realidad que se desea estudiar. Por una parte, la simplicidad del modelo será una ventaja pero, por otra, divergencias sustanciales entre el modelo y la realidad que intenta representar pueden dar lugar a conclusiones erróneas acerca del comportamiento del sistema estudiado. Un aspecto importante a la hora de formular el modelo, será la especificación adecuada de la forma funcional que mejor ajuste la relación entre la variable dependiente y las variables independientes. Si la forma elegida difiere sustancialmente de la forma verdadera, cualquier conclusión que se saque a partir del modelo se refiere a los supuestos que se hacen acerca de las propiedades estadísticas de los términos de error en la ecuación de regresión. Hasta el momento, en nuestro análisis hemos supuesto que estos errores tenían todos la misma varianza y que estaban incorrelados unos con otros. Si estos supuestos eran de hecho cierto, habíamos visto que el método de mínimos cuadrados y las inferencias realizadas a partir de él, proporcionaban una forma adecuada de aprendizaje acerca del proceso. Sin embargo, si alguno de estos supuestos no fuese cierto, esto no va a tener por qué ser así. A la hora de formular un modelo de regresión, un investigador lo que intenta es poder relacionar la variable de interés con todas las demás variables que sean importantes en dicha relación. Es decir, si suponemos que el modelo lineal es el apropiado, lo que se querrá es poder incluir todas las variables independientes que influyan según esta forma específica en la variable dependiente. Al formular el modelo de regresión. Yi x 1 1i x 2 2i K xKi i está implícito el hecho de que el conjunto de variables independientes X1 , X 2 , , X K , son todas las que afectan de forma significativa al comportamiento de la variable dependiente, Y. Sin embargo, en cualquier problema práctico, habrá otros factores que también afecten a la variable dependiente. La influencia conjunta de estos factores quedará recogida en el término de error, i . Pero lo primordial será, a la hora de decidir las variables independientes a incluir en el modelo, no olvidar ninguna que sea importante. Excepto en el caso especial (y raro) en que las variables omitidas estén incorreladas con las variables independientes incluidas en el modelo de regresión, las consecuencias de este tipo de error de especificación puede llegar a ser muy serias. En particular, las estimaciones por mínimos cuadrados estarán generalmente sesgadas, y la inferencias a partir de los intervalos de confianza y de los contrastes de hipótesis podrán llevarnos a conclusiones erróneas. 14. Ejercicio Utilizando el archivo “Entidades de ahorro y crédito.sav” determine la estimación del modelo de regresión múltiple. Determine R, R2, R2 ajustado, Error estándar de estimación. 109 b d a í p d m a R e M d a a 1 0 5 3 0 a V I n b V c a i c i e d a n o a s r S o B e M i t r g t 1 ( C 4 9 5 0 I n 7 6 7 9 0 d n 4 0 7 2 0 a V La ecuación de regresión estimada que mejor ajusta la relación entre el margen de beneficios y las ganancias y el número de oficina es Y 1,565 0,237 X1º 0,000249 X 2 Una conclusión que sigue de este análisis es que, para un número fijo de oficinas, un incremento de una unidad en las ganancias netas por dólar depositado conlleva un incremento esperado de 0,237 unidades en el margen de beneficio. Ahora bien, supongamos que nuestro único interés se centra en el efecto de las ganancias netas sobre el margen de beneficio. Una manera de solucionar esto podría ser estimar la regresión del margen de beneficio en función de las ganancias netas, a partir de los 25 pares de observaciones. Resumen del modelo Modelo 1 R R cuadrado .704 a .495 R cuadrado corregida .474 Error típ. de la estimación .10089 a. Variables predictoras: (Constante), Ingresos netos por dólar depositado Coe ficientesa Modelo 1 (Constante) Ingresos netos por dólar depos itado Coeficientes no estandarizados B Error típ. 1.326 .139 -.169 Coeficientes estandarizad os Beta .036 -.704 t 9.567 Sig. .000 -4.752 .000 a. Variable dependiente: margen de beneficio porcentual Tal análisis da como resultado el siguiente modelo ajustado Y 1,326 0,169 X1 Si comparamos los dos modelos ajustados, observamos de forma inmediata que una consecuencia de ignorar el número de oficinas es una considerable reducción en el valor de R 2, la proporción de la variabilidad de la variable dependiente que queda explicada mediante este modelo de regresión 110 Existe, sin embargo, una consecuencia todavía más importante. El modelo ajustado anterior implica que un incremento de una unidad en el porcentaje de ganancias netas por dólar depositado conlleva un decrecimiento esperado de 0,169 en el porcentaje del margen de beneficio. Pero esta conclusión es absolutamente contraintuitiva. Lo que todo el mundo esperaría es que, dado que todo lo demás permanece igual, altas ganancias netas estuvieran siempre asociadas con altos márgenes de beneficio. Lo que ha ocurrido es que, a lo largo del periodo de 25 años para la cual se ha estimado el modelo, todo lo demás no ha permanecido igual. En particular, otra variable potencialmente importante-el número de oficinas de entidades de ahorro y crédito- ha cambiado de forma considerable a lo largo de este período. Cuando esta variable se incorpora al análisis de regresión, se llega a la conclusión opuesta. Como habíamos predecido, ahora que se tiene en cuenta la influencia del número de oficinas, la relación entre las ganancias netas y el margen de beneficios resulta ser positiva. Este ejemplo refleja de forma sencilla el problema al que nos referíamos. Si nos olvidamos de incluir en el modelo una variable explicativa que sea importante, cualquier conclusión que se saque acerca de los efectos de otras variables independientes pueden estar seriamente sesgadas. En este caso particular, hemos visto que añadir una variable relevante, puede significar un cambio en el signo de la relación entre la variable dependiente y la variable independiente. Si miramos atentamente los datos, encontramos el porqué de todo esto. En la última parte del período, el margen sobre los beneficios cae y las ganancias netas suben de forma que sugieren una relación negativa entre ambas variables. Gráfico de dispersión 1.0 .9 .8 .7 .6 .5 .4 .3 3.0 3.5 4.0 4.5 5.0 Ingresos netos por dólar depositado Sin embargo, una mirada más atenta de los datos revela un incremento en el número de oficinas en ese mismo período, sugiriendo la posibilidad de que éste sea el factor causante de descenso en el margen sobre beneficios. La única forma correcta de desenredar los efectos separados de las dos variables independientes sobre la variable dependiente será modelándolas juntas en una misma ecuación de regresión. Este ejemplo muestra cuán importante es, cuando existe más de una variable independiente relevante, utilizar el modelo de regresión múltiple, en lugar del modelo de regresión simple. Interprete la tabla ANOVA del modelo de regresión múltiple 111 ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados .402 .063 .464 gl 2 22 24 Media cuadrática .201 .003 F 70.661 Sig. .000 a a. Variables predictoras: (Constante), número de oficinas, Ingresos netos por dólar depositado b. Variable dependiente: margen de beneficio porcentual F: Cociente entre dos medias cuadráticas. Cuando el valor de F es grande y el nivel de significación es pequeño (típicamente menor que 0,05 ó 0,01) se puede rechazar la hipótesis nula. En otras palabras, un nivel de significación pequeño indica que probablemente los resultados no se deban meramente al azar. Recordar que la hipótesis nula es todos los coeficientes de regresión parcial son cero. Esta hipótesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona la descomposición de la suma de cuadrados SCT = SCR + SCE. La primera parte, SCR, es la parte de la variabilidad total debida a la regresión en las variables independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede explicarse mediante la regresión. Coeficientes de regresión parcial Los coeficientes de regresión parcial, i, miden los cambios esperados en la variable dependiente, que resultan de un incremento unitario en una de las variables independientes, cuando el resto de las variables independientes permanecen constantes. En este sentido, los coeficientes de regresión parcial, describen impactos separados de las variables independientes en la variable dependiente. Correlación de orden cero Coeficientes de correlación ordinarios, sin variables de control. Los valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación, y su valor absoluto indica la fuerza. Los valores mayores, en valor absoluto, indican que la fuerza es mayor. Correlación parcial La correlación que permanece entre dos variables después de eliminar la correlación que es debida a su relación mutua con las otras variables. La correlación entre la variable dependiente y una variable independiente cuando se han eliminado de ambas los efectos lineales de las otras variables independientes presentes en el modelo. Correlaciones semiparcial La correlación entre la variable dependiente y una variable independiente cuando se han eliminado de la variable independiente los efectos lineales de las otras variables independientes del modelo. Está relacionada con el cambio en R cuadrado cuando una variable se añade a una ecuación. 112 c a i a p r n M c 1 I n 4 3 4 d n 8 6 8 a V La correlación parcial entre el margen de beneficio porcentual y los ingresos netos porcentuales por dólar depositado, cuando el número de oficinas es constante, es 0,67. La correlación parcial entre el margen de beneficio porcentual y el número de oficinas, cuando los ingresos netos porcentuales por dólar depositado son constantes es -0,86. La utilidad fundamental del coeficiente de correlación parcial es un estadístico descriptivo que proporciona una estimación de la fuerza de la relación. Por consiguiente nuestros hallazgos en los datos de ahorro y crédito indican dos relaciones bastantes fuertes, con una asociación lineal parcial positiva entre márgenes de beneficio e ingresos netos, y una asociación lineal negativa entre márgenes de beneficios y número de oficinas. El coeficiente de correlación parcial es más apropiado para medir la fuerza de las relaciones involucradas que el coeficiente de correlación simple. De hecho, utilizar este último puede llevarnos a conclusiones erróneas. Por ejemplo, el coeficiente de correlación muestral entre margen de beneficio e ingresos netos es negativo (es –0,70) a pesar de que, como hemos visto, una vez que se elimina la influencia del número de oficinas, existe una asociación positiva moderadamente fuerte. 15. Ejercicio: Ventas de Chocolate En un cierto estudio realizado en un parque de atracciones se halló una correlación significativa y muy alta entre la temperatura y el número de tazas de chocolate caliente servidas, R = 0,923 p<=0,000. Lo cual es un resultado muy extraño, pues implica que cuanto mayor es la temperatura más tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable número de visitantes el resultado es muy diferente. Considere el archivo CHOCOLAT.sav. Para hallar el coeficiente de correlación parcial entre temperatura y número de tazas de chocolate caliente controlando el número de visitantes, elegir Estadísticos/correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la sección “ variables”, se selecciona y transfiere la variable visitant a la sección “controlando para”, finalmente se pulsa el botón aceptar. La correlación ahora es no significativa, rp=0,42 p<=0,198. Cuando hace frío, mucha gente (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno. 16. Intervalos de confianza El resultado más importante, en el cual se basa la inferencia sobre los parámetros del modelo de regresión múltiple poblacional, es el que se incluye a continuación: Sea el modelo de regresión poblacional Yi = 1x1 + 2 x2 + ... + k xk + i 113 Sean a, b1, b2,…, bk las estimaciones de mínimo cuadrados de los parámetros de la población y Sa , Sb1 , Sb2 , SbK las estimaciones de las desviaciones típicas de los estimadores de mínimos cuadrados. Si se cumplen las hipótesis de regresión, y los términos de error normal, entonces las variables aleatorias que corresponden a: a ta Sa y bi tbi i i sbi 1, 2, i se distribuyen según una ,K se distribuye según una s de Student con (n – k – 1) grados de libertad. Habitualmente, el interés se centra en los coeficientes de regresión parcial, i más que en la constante . Por esta razón, nos concentraremos en los primeros, advirtiendo que la inferencia sobre la constante sigue los mismos pasos. Puede obtenerse intervalos de confianza para los procedimiento se resume de la siguiente forma: f) i utilizando argumentos conocidos. El Intervalos de confianza para coeficientes de regresión parcial Si los errores de la regresión poblacional se distribuyen según una normal, y la hipótesis 1-5 de la Sección 13.3 se cumplen, entonces, los intervalos de confianza del 100 (1 - )% para los coeficientes de regresión parcial, i son de la forma bi tn K 1, / 2 Sbi donde tn K 1, / 2 i bi tn K 1, / 2 Sbi es el número para el cual y la variable aleatoria tn K 1 P tn K 1 tn K 1, / 2 2 tiene una distribución t de Student con (n – k – 1) grados de libertad. Para la regresión de las entidades de ahorro y crédito, encontramos n 25 b1 0, 237 sb1 0, 0555 b2 0, 000249 Para obtener intervalos de confianza del 99% para tn K 1, / 2 t22,0,005 0,237 - (2,819)(0,0555) < 1 y 2, 0, 0000320 tenemos que 2,819 Por consiguiente, el intervalo de confianza para 0,081 < 1 sb 2 1 del 99% es 1 < 0,237 + (2,819)(0,055) < 0,393 Luego, el intervalo de confianza del 99% para el incremento esperado en los márgenes de beneficio resultante de un incremento de una unidad en los ingresos netos, dado un número fijo de oficinas va desde 0,081 a 0,393. El intervalo de confianza para 2 del 99% es -0,000249 - (2,8199)(0,0000320) < 2 < -0,000249 + (2,819)(0,0000320) -0,000339 < 2 < -0,000159 Luego, el intervalo de confianza del 99% para la reducción esperada en los márgenes de beneficio resultante de un incremento en mil oficinas, para un nivel fijo de ingresos netos, va desde 0,159 a 0,339. Determine los valores pronosticados y los residuales. Gráficos de normalidad para residuo tipificado 114 Histograma Variable dependiente: margen de beneficio porcentual 7 6 5 4 Frecuencia 3 2 Desv. típ. = .96 1 Media = 0.00 N = 25.00 0 -1.50 -1.00 -.50 0.00 .50 1.00 1.50 2.00 Regresión Residuo tipificado Gráfico P-P normal de regresión Residuo tipificado Variable dependiente: margen de beneficio porcentual 1.00 Prob acum esperada .75 .50 .25 0.00 0.00 .25 .50 .75 1.00 Prob acum observada Determine el intervalo de confianza para c 1 y 2. a i c o 9 m p e M i n 1 ( C 0 9 I n 2 2 d n 6 3 a V 115 El intervalo de confianza del 95% para el incremento esperado en los márgenes de beneficios resultante de un incremento de una unidad en los ingresos netos, dado un número fijo de oficinas, va desde 0,122 a 0,352. Interprete la tabla ANOVA del modelo de regresión múltiple ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados .402 .063 .464 gl 2 22 24 Media cuadrática .201 .003 F 70.661 Sig. .000 a a. Variables predictoras: (Constante), número de oficinas, Ingresos netos por dólar depositado b. Variable dependiente: margen de beneficio porcentual F: Cociente entre dos medias cuadráticas. Cuando el valor de F es grande y el nivel de significación es pequeño (típicamente menor que 0,05 ó 0,01) se puede rechazar la hipótesis nula. En otras palabras, un nivel de significación pequeño indica que probablemente los resultados no se deban meramente al azar. Recordar que la hipótesis nula es todos los coeficientes de regresión parcial son cero. Esta hipótesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona la descomposición de la suma de cuadrados SCT=SCR+SCE. La primera parte, SCR, es la parte de la variabilidad total debida a la regresión en las variables independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede explicarse mediante la regresión. 17. Heterocedasticidad Los modelos en los cuales los términos de error no tienen todos la misma varianza se denominan heterocedásticos. Cuando este fenómeno está presente, el método de mínimos cuadrados no es el proceso más eficiente para estimar los coeficientes del modelo de regresión. En la primera parte de esta guía relacionamos los beneficios marginales de las entidades de ahorro y crédito con las ganancias netas por dólar depositado ( X1) y con el número de oficinas (X2), mediante el siguiente modelo Yi 1 X1i 2 X 2i i Se estimaron los coeficientes de este modelo eran estimados por el método de mínimos cuadrados, con el supuesto implícito de que los términos de error tenían todos la misma varianza. Ahora contrastaremos éste supuesto. Resultan útiles las técnicas gráficas para detectar heterocedasticidad. En la práctica se elaboran una serie de gráficos de los residuos i frente a las diferentes variables independientes o frente a los valores esperados, y se examinan. Realizar los gráficos de los residuos de la regresión frente a las dos variables independientes. Para esto se deben guardar primero los residuos no tipificados y los valores pronosticados seleccionando Regresión/Lineal [Guardar] 116 Gráfico de residuos .2 Unstandardized Residual .1 0.0 -.1 3.0 3.5 4.0 4.5 5.0 Ingresos netos por dólar depositado Gráfico de residuos 3 2 Standardized Residual 1 0 -1 -2 6000 7000 8000 9000 10000 número de oficinas A partir de estos dos gráficos, no parece que haya ninguna relación sistemática entre las magnitudes de los residuos y los valores de cada una de las variables independientes. Ahora realice un gráfico entre los residuos frente a los valores pronosticados. 117 Gráfico de dispersión Variable dependiente: margen de beneficio porcentual 1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5 -2 -1 0 1 2 3 Regresión Residuo tipificado Parece no haber una relación fuerte entre las magnitudes de los residuos y los tamaños de los valores predichos de la variable dependiente. Los gráficos no sugieren la presencia de heterocedasticidad. Existen procedimientos más estrictos para detectar heterocedasticidad y para estimar los coeficientes de los modelos de regresión cuando se sospecha que el supuesto de varianzas constantes de los errores es insostenible. (estos pueden verse en libros especializados de econometría) La aparición de errores heterocedásticos puede resultar a partir de estimar un modelo de regresión lineal en circunstancias en las que un modelo loglineal es el adecuado. El analista, debería entonces, cuando hay una indicación de heterocedasticidad, considerar la posibilidad de reestimar el modelo en la forma logarítmica, especialmente si la teoría sugiere que tal especificación no sería descabellada. Esencialmente, tomar logaritmos aliviará la influencia de las observaciones grandes. A menudo, el modelo resultante aparecerá libre de heterocedasticidad. Esta aproximación es apropiada cuando los datos que se están estudiando son series temporales de variables económicas, tales como el consumo, la renta y el dinero, que tienden a crecer exponencialmente con el tiempo. 18. Errores Autocorrelacionados El contraste que se utiliza es el contraste Durban-Watson y está basado en los residuos de la estimación por mínimos cuadrados. f) Prueba de Durbin Watson: La prueba más conocida para detectar correlación serial es la desarrollada por los estadísticos Durbin y Watson. Es comúnmente conocida como el estadístico de Durbin Watson, el cual se define como 118 t n ut 1 ) 2 (u t t 2 d t n ut 2 t 2 Que es simplemente la razón de la suma de las diferencias al cuadrado de residuales sucesivos sobre la SRC. Una gran ventaja del estadístico d es que está basado en los residuales estimados, que aparecen sistematizados en los análisis de regresión. H0: =0 No hay autocorrelación H1: 0 Existe autocorrelación Existe un atabla que proporciona los valores para dU y dL para diferentes valores de n y k (número de var independientes) Rechace Ho Evidencia de autocorrela ción positiva 0 Zona de indeci sión dL No hay evidencia autocorrelación evevidencia dU 2 Rechace Zona Ho Evidencia de indeci de sión autocorrela ción negativa 4-dU 4-dL 4 Observación: Si los errores no están autocorrelacionados se espera que el valor de d esté cercano a 2. Estime el valor del estadístico de DW para nuestro ejemplo y contraste con los valores de la tabla b d a b í p d i m a R e s M d a g o a 1 0 5 3 0 8 a V p b V Para n=25 y k=2 se observa en la tabla dL=1,21 y dU =1,5 Como el valor calculado para d es 1,95 , es mayor que dU, la hipótesis nula de no autocorrelación en los errores será no rechazada. g) Multicolinealidad La colinealidad (o multicolinealidad) es una situación no deseable en la que una de las variables independientes es una función lineal de otras variables independientes. 119 En las ecuaciones de regresión en las que haya distintas variables independientes, el problema de la multicolinealidad surgirá cuando existan fuertes correlaciones entra las variables independientes El SPSS muestra las tolerancias para las variables individuales y una variedad de estadísticos para diagnosticar los problemas de colinealidad. c a i s t e a r I M a 1 I 5 2 d n 5 2 a V Tolerancia: Estadístico utilizado para determinar la cuantía en que están relacionadas las variables independientes unas con otras (para ver si son multicolineales). La tolerancia de una variable es la proporción de su varianza no explicada por las otras variables independientes de la ecuación. Una variable con una tolerancia muy baja contribuye con poca información a un modelo (es colineal), y puede causar problemas de cálculo. Se calcula como 1 menos la R cuadrado para una variable independiente cuando es pronosticada por las otras variables independientes ya incluidas en el análisis. FIV: El recíproco de la tolerancia. Cuando el factor de inflación de la varianza crece, también lo hace la varianza del coeficiente de regresión, haciendo que el estimador sea inestable. Los valores de VIF grandes son un indicador de la existencia de multicolinealidad. a d s d r e o s ó c e e l r o c d s s M v D i i t n c 1 1 6 0 0 0 0 2 2 5 3 4 2 3 3 1 6 6 8 a V Autovalor: Los autovalores ofrecen una indicación de cuántas dimensiones diferentes existen entre las variables independientes. Cuando varios de los autovalores son próximos a cero, las variables están muy inter-correlacionadas y los cambios pequeños en los datos pueden conducir a grandes cambios en las estimaciones de los coeficientes. Índice de condición: Las raíces cuadradas de las razones del mayor autovalor respecto a cada uno de los autovalores sucesivos. Un índice de condición mayor que 15 indica un posible problema y un índice de condición mayor que 30 sugiere un serio problema con la colinealidad. Proporciones de la varianza: Las proporciones de la varianza del estimador explicadas por cada componente principal asociada a cada uno de los autovalores. La colinealidad es un problema cuando una componente asociada a un índice de condición contribuye substancialmente a la varianza de dos o más variables. 120 V Modelos de regresión múltiple con información cualitativa: variables binarias (o ficticias) dummy DESCRIPCIÓN DE INFORMACÓN CUALITATIVA A menudo, los factores cualitativos adoptan la forma de datos binarios: una persona es mujer u hombre, una empresa ofrece cierto plan de retiro a los empleados y otra no, una nación aplica la pena de muerte o no la aplica. En todos estos ejemplos, la información pertinente se capta definiendo una variable binaria o variable cero y uno. En econometría, las variables binarias se denominan muy comúnmente variables ficticias, (o variables dammy) aunque el nombre no es muy descriptivo. Al definir una variable ficticia, debemos decidir a qué situación se asigna el valor uno y a cuál cero. Por ejemplo, en un estudio de la determinación de los salarios de los individuos, definiríamos mujer como una variable binaria que adopte el valor uno para las mujeres y cero para los hombres. En este caso, el nombre indica la situación con valor uno. Se captura la misma información definiendo hombre con valor uno si la persona es hombre y cero si es mujer. Cualquiera de estas formas es mejor que sexo, porque esta denominación no deja en claro cuándo la variable ficticia es uno. No es importante el nombre que demos a nuestras variables para obtener resultados de las regresiones, pero siempre ayuda elegir nombres que clarifiquen ecuaciones y exposiciones. Supongamos que en el ejemplo del salario elegimos el nombre mujer para indicar el sexo (mujer es uno y hombre cero). Además, definimos la variable casada que sea igual a uno si la persona es casada y cero en cualquier otro caso. La tabla 7.1 ofrece una lista parcial de un posible conjunto de datos sobre el salario. Podemos observar que la persona 1 es una mujer que no está casada, la persona 2 es mujer casada, la 3 es un hombre no casado, y así sucesivamente. ¿Por qué utilizamos el cero y el uno para describir información cualitativa? En cierto sentido, se trata de valores arbitrarios: cualquier par de valores distintos serviría igual. El beneficio real de capturar información cualitativa con variables cero y uno es que lleva a modelos de regresión en los que los parámetros tienen interpretaciones muy naturales, como veremos enseguida. VARIABLE INDEPENDIENTE FICTICIA ÚNICA ¿Cómo incorporamos la información binaria en los modelos de regresión? En el caso más simple, con sólo una variable explicativa ficticia, la añadimos como variable independiente de la ecuación. Por ejemplo, considere el siguiente modelo simple para la determinación del salario por hora 121 sala = 0 0 mujer 1 educ u (7.1) Usamos 0 como el parámetro de mujer con el fin de destacar la interpretación de los parámetros que multiplican a las variables ficticias; más adelante emplearemos la notación que resulte más conveniente. En el modelo (7.1) sólo dos factores observados influyen en el salario: sexo y educación. Puesto que mujer = 1 cuando la persona es mujer y mujer = 0 cuando es hombre, el parámetro 0 tiene la siguiente interpretación: 0 es la diferencia en el salario por hora de mujeres y hombres dada la misma escolaridad (y el mismo término de error u). Así, el coeficiente 0 determina si hay discriminación contra las mujeres: si 0 < 0, para el mismo grado de los otros factores, las mujeres ganan, en promedio, menos que los hombres. En términos de esperanzas, si suponemos que la media condicional es cero: E(ulmujer,educ) = 0, entonces 0 = E(sala mujer = 1,educ) - E(sala mujer = 0,educ) Puesto que mujer = 1 corresponde a las mujeres y mujer = O a los hombres, cabe escribir con más sencillez 0 = E(salalmujer,educ) - E(salalhombre,educ). (7.2) La clave es que el grado la escolaridad es el mismo en ambas esperanzas; la diferencia, debe nada más al sexo. 0 se 122 La situación se ilustra gráficamente como un desplazamiento de la intercepción entre hombres y mujeres. En la figura 7.1 se muestra el caso en que 0 < O, es decir, que los hombres ganan un monto fijo más por hora que las mujeres. La diferencia no depende de los años de instrucción y esto explica porqué son paralelos los perfiles de salario y escolaridad de mujeres y hombres. En este punto, se preguntará por qué no incluimos también en (7.1) una variable ficticia, digamos, hombre, que sea uno para hombres y cero para mujeres. La razón es que sería redundante. En (7.1), la intercepción para los hombres es 0 y la de mujeres es 0 + 0 . Puesto que nada más hay dos grupos, sólo necesitamos dos intercepciones distintas. Esto significa que, además de 0 necesitamos sólo una variable ficticia, y la que decidimos incluir fue la de las mujeres. Dos variables ficticias introducirían colinealidad perfecta, porque mujer + hombre = 1, lo que significa que hombre es una función lineal perfecta de mujer. Incluir variables ficticias para ambos sexos es el ejemplo más simple de la denominada trampa de la variable ficticia, que surge cuando demasiadas de estas variables describen cierto número de grupos. Gráfica de Salario hombres salario sala 0 Pendiente 1 educ mujeres 1 sala 0 0 1 educ 0 0+ 0 educ En (7.1) decidimos que los hombres fueran el grupo básico o grupo de referencia, es decir, el grupo con el que hacemos las comparaciones. Por esta razón 0 es la intercepción de hombres y 0 es la diferencia de las intercepciones de mujeres y hombres. Nada cambia demasiado cuando hay más variables explicativas. Si tomamos a los hombres como grupo básico, un modelo que controla la experiencia y la antigüedad además de la educación es sala 0 0 mujer educ 1 2 exp er 3 antig u (7.3) 123 Si educ, exper y antig son características relevantes de la productividad, la hipótesis nula de la no diferencia entre hombres y mujeres es Ho: 0 =0. La alternativa de que hay discriminación contra las mujeres es H1: 0 < 0. ¿Cómo probaríamos en realidad la discriminación salarial? La respuesta es sencilla: estimamos el modelo mediante MCO, exactamente igual que antes y empleamos el estadístico t habitual. En nada difiere la mecánica de los MCO o la teoría estadística cuando algunas de las variables dependientes se definen como ficticias. La única diferencia con lo que hemos hecho hasta aquí está en la interpretación del coeficiente de la variable ficticia. EJEMPLO 1 (Ecuación del salario por hora) Usando los datos en SALA 1.RAW estimamos el modelo en (7.3). Importar el archivo a SPSS. Por ahora, usamos sala (salario) en lugar, de log(sala) como la variable dependiente: saˆla 1.57 1.81 mujer n 526, R .572 educ 2 .025 exp .141 antig .364 (7.4) La intercepción negativa en este caso, la de los hombres, no es muy significativa, puesto que en la muestra nadie está cerca de cero años en educ, exper y antig. El coeficiente de mujer es interesante porque mide la diferencia promedio en el salario por hora entre una mujer y un hombre dados los mismos niveles de educ, exper y antig. Si tomamos un hombre y una mujer con los mismos grados de escolaridad, experiencia y antigüedad, la mujer gana, en promedio, 1.81 dólares menos por hora que el hombre (no olvide que son dólares de 1976). Es ilustrativo comparar el coeficiente de mujer en la ecuación (7.4) con el estimador que obtenemos cuando se eliminan todas las demás variables explicativas: saˆla 7.10 0.21 n 526, R 2.51 mujer 0.30 2 (7.5) .116. Los coeficientes en (7.5) tienen una interpretación simple. La intercepción es el salario promedio de los hombres de la muestra (con mujer = 0), de modo que ellos, en promedio, ganan 7.10 dólares por hora. El coeficiente de mujer es la diferencia en el salario promedio de hombres y mujeres. Así, el salario promedio de las mujeres de la muestra es de 7.10 - 2.51 = 4.59 dólares por hora (dicho sea de paso, en la muestra hay 274 mujeres y 252 hombres). La ecuación (7.5) proporciona una manera sencilla de efectuar una prueba de comparación de medias entre los dos grupos, que en este caso son hombres y mujeres. La diferencia estimada, 2.51, tiene un estadístico t de -8.37, que es estadística mente significativo. En general, la regresión simple en una constante y una variable ficticia es una forma directa de comparar las medias de dos grupos. Para que la prueba t usual sea válida, debemos asumir que es verdadera la suposición de homoscedasticidad, lo que significa que la varianza poblacional de los salarios de los hombres es igual a la de las mujeres. 124 La diferencia salarial estimada entre hombres y mujeres es mayor en (7.5) que en (7.4) por que la primera no controla las diferencias en educación, experiencia ni en antigüedad y, en la muestra, estas son menores entre las mujeres que entre los hombres. La ecuación (7.4) da una estimación más confiable de la brecha, ceteris paribus, entre los salarios de ambos sexos y es de todos modos una diferencia muy grande. EJEMPLO 2 (Efectos de tener una computadora en el promedio de calificaciones en la universidad) Con el fin de determinar los efectos de tener una computadora en el promedio de calificaciones en la universidad, estimamos el modelo colGPA 0 0 PC hsGPA 1 2 ACT u en el que la variable ficticia PC es igual a uno si un estudiante posee una computadora personal y cero de otro modo. Hay varias razones por las que ser dueño de una PC tendría un efecto en colGPA El trabajo del estudiante sería de mayor calidad si lo hace en computadora y se ahorraría el tiempo de espera en el laboratorio de computación. Desde luego, algún estudiante quizá se sintiera más inclinado a entretenerse con los juegos de la máquina o a navegar por Internet si tiene la computadora, así que no es tan obvio que 0 sea positiva. Las variables hsGPA (el promedio en preparatoria) y ACT (la calificación en la prueba de rendimiento) sirven de control: podría ser que los, mejores estudiantes, según las calificaciones de preparatoria y rendimiento, tengan más probabilidades de poseer una computadora. Controlamos estos factores porque quisiéramos conocer efecto promedio en colGPA si se toma un estudiante al azar y se le da una computadora personal. Con los datos de GPA 1.RAW, obtenemos colˆGPA 1.26 0.33 .157 PC .057 n .447 hsGPA .094 141, R 2 .0087 ACT .0105 .219. Esta ecuación implica que un estudiante que cuenta con su PC tiene un promedio de calificaciones pronosticado de alrededor de .16 puntos superior a un estudiante comparable sin computadora (recuerde que tanto colGPA como hsGPA se miden en una escala de cuatro puntos). El efecto también es estadísticamente significativo, ya que tpc = .157/.057 = 2.75. ¿Qué sucede si eliminamos hsGPA y AGde la ecuación? Es evidente que suprimir la última variable tendrá muy poco efecto, ya que su coeficiente y su estadístico t son muy pequeños. Pero hsGPA es muy significativa y quitarla influirá en la estimación de pc. Hacer la regresión de colGPA sobre PC da un estimador de PC igual a aproximadamente .170, con un error estándar de .063; en este caso, pc. y su estadístico t no cambian mucho. 125 Los ejemplos anteriores tienen relevancia para el análisis de políticas. Un caso especial de análisis de políticas es la evaluación de programas, en la que quisiéramos conocer el efecto de los programas económicos o sociales en individuos, empresas, vecindarios, ciudades, etcétera. En el caso más simple, hay dos clases de sujetos. El grupo de control no participa en el programa, sino sólo el grupo experimental o de tratamiento. Estos nombres proceden de la bibliografía de las ciencias experimentales y no han de ser tomados literalmente. Salvo en contados casos, no se eligen al azar los grupos de control y experimental; no obstante, en algunos el análisis de regresión múltiple sirve para controlar bastantes de los otros factores y estimar el efecto causal del programa. EJEMPLO 3 (Efectos de los subsidios a la capacitación en las horas de instrucción) Usando los datos para 1988 de las compañías manufactureras de Michigan que se encuentran en CAPAClTA.RAW, obtenemos la siguiente ecuación estimada: hcaˆpa 46.67 43.41 26.25 subs .98 log vtas 5.59 3.54 6.07 log ntrab (7.7) 3.88 n 105, R 2 .237. La variable dependiente son las horas de capacitación por empleado, a nivel de la compañía (hcapa). La variable subs, el subsidio, es ficticia, e igual a uno si la empresa recibió subsidio en 1988 para capacitación laboral y cero si no fue así. Las variables vtas y ntrab representan las ventas anuales y el número de trabajadores, respectivamente. No podemos introducir hcapa en forma logarítmica, porque es cero en 29 de las 105 empresas usadas en la regresión. La variable subs es estadísticamente muy significativa, ya que tsubs = 4.70. Al controlar ventas y empleo, las compañías que recibieron subsidio capacitaron a cada trabajador, en promedio, 26.25 horas más. Puesto que este promedio de horas es en la muestra de alrededor de 17, con un máximo de 164, subs tiene un efecto notable en la capacitación, como se esperaba. El coeficiente de log(vtas) es pequeño y muy insignificante. El coeficiente de log(ntrab) significa que, si una empresa es 10% mayor, capacita a sus trabajadores alrededor de .61 horas menos; su estadístico t es -1.56, que sólo de modo marginal es estadística mente significativo. Como con cualquier otra variable independiente, debemos preguntar si el efecto medido de una variable cualitativa es causal. En la ecuación (7.7), ¿la diferencia en capacitación entre las empresas se debe al subsidio que reciben, o el subsidio es un indicador de otra cosa? Quizá las empresas que reciben subsidios han capacitado más a sus trabajadores, en promedio, que las que no lo reciben. Nada en el análisis indica si estimamos un efecto causal; debemos saber cómo se clasificaron a las empresas para que recibieran el subsidio. Sólo esperamos que hayamos controlado tantos factores como fuese posible, que se relacionan con el que cada empresa recibiera subsidio y con su grado de capacitación. Interpretación de los coeficientes de las variables explicativas ficticias cuando la variable dependiente es log(y) 126 Una especificación común del trabajo aplicado hace que la variable independiente aparezca en forma logarítmica, con una o más variables ficticias como independientes. En este caso, ¿cómo interpretamos los coeficientes de las variables ficticias? No es de sorprender que los coeficientes tengan una interpretación porcentual. EJEMPLO 4 (Regresión de precios de la vivienda) A partir de los datos de PRECIOV1.RAW, obtenemos la ecuación log precio 5.56 .168 log tlote .707 log piecuad 0.65 .038 .093 .027 brecams .054 colonial .029 n (7.8) .045 88, R 2 .649. Todas las variables son las que ya conocemos, excepto colonial, una variable binaria igual a uno si la casa es de estilo colonial. ¿Qué significa eI coeficiente de colonial? Para cantidades dadas de tlote, piecuad y recams, la diferencia en log(precio) entre una casa de estilo colonial y otra de estilo distinto es .054, lo que quiere decir que se predice que la casa colonial se venda en aproximadamente 5.4% más, manteniendo constantes los demás factores. Este ejemplo muestra que, cuando log(y) es la variable dependiente en un modelo, el coeficiente de una variable ficticia, al multiplicado por 100, se interpreta como la diferencia porcentual en y, manteniendo fijos los demás factores. Cuando el coeficiente de una variable ficticia indica un gran cambio proporcional en y, la diferencia exacta en el porcentaje se obtiene exactamente como el cálculo de la semielasticidad. 127 EJEMPLO 5 (Ecuación del logaritmo del salario por hora) Estimemos de nuevo la ecuación del salario del ejemplo 1, con log(sala) como la variable dependiente y agreguemos los cuadrados de exper y de antig: log saˆla .417 .099 .297 mujer .080 educ .029 exp er .036 .007 .005 .00058 exp er 2 .00020 .032 antig .00059 antig2 .007 .00023 526, R 2 n .441. Mediante la misma aproximación que en el ejemplo 4, el coeficiente de mujer implica que, para los mismos niveles de educ, exper y antig, las mujeres ganan aproximadamente 100(.297) = 29,7% menos que los hombres. Podemos mejorar esto si calculamos la diferencia porcentual exacta entre los salarios pronosticados. Lo que queremos es la diferencia proporcional de los salarios entre hombres y mujeres, manteniendo fijos los demás factores: (sala M- salaH)/salaH. De (7.9), tenemos que log saˆlaM log saˆlaH .297. Sacamos exponencial y restamos uno: saˆlaM saˆlaH / saˆlaH exp .297 1 .257. Esta estimación más exacta implica que el salario de una mujer es, en promedio, 25.7% inferior al salario equivalente de un hombre. Si hubiéramos hecho la misma corrección en el ejemplo 4, habríamos obtenido exp(.054) - 1 = .0555, o alrededor de 5.6%. La corrección tiene un efecto menor en el ejemplo 4 que en el del salario, porque la magnitud del coeficiente de la variable ficticia es mucho menor en (7.8) que en (7.9). En general, si SI es el coeficiente de una variable ficticia, digamos XI' cuando log(y) es la variable dependiente, la diferencia porcentual exacta en la y pronosticada cuando XI = 1 en comparación con el caso en que XI = 0 es 100 exp ˆ1 El estimador 1 . ˆ puede ser positivo o negativo y es importante conservar su signo al calcular 1 (7.10). 128 VARIABLES FICTICIAS PARA MÚLTIPLES CATEGORÍAS Podemos tener más de una variable independiente ficticia en la misma ecuación; por ejemplo, podríamos añadir la variable ficticia casada (estado civil casada) a la ecuación (7.9). El coeficiente de casada da la diferencia proporcional (aproximada) de salarios de quienes están casados y quienes no, manteniendo fijos el sexo, educ, exper y antig. Cuando estimamos el modelo, el coeficiente de casada (con el error estándar entre paréntesis) es .053 (.041) Y el coeficiente de mujer se convierte en -.290(0.36). Así, se estima que el "premio por estar casado" es de alrededor de 5.3%, pero estadísticamente no es diferente de cero (t = 1.29). Una limitación importante de este modelo es que supone que el premio por estar casado es el mismo para hombres que para mujeres; ésto la suavizamos en el ejemplo siguiente. EJEMPLO 6 (Ecuación del logaritmo del salario por hora) Estimemos un modelo que considere las diferencias del salario entre cuatro grupos: casados, casadas, solteros y solteras. Para hacerlo, debemos elegir un grupo básico; optemos por solteros. A continuación, tenemos que definir variables ficticias para los grupos restantes, a los que nombraremos casados, casadas y solteras. Al introducir estas variables en (7.9) (y, desde luego, eliminar mujer que ahora es redundante), tenemos log saˆla .321 .213 casados .198 casadas .100 .055 .058 .110 solteras .079 educ .027 exp er .00054 exp er 2 .056 .007 .005 .00011 .00053 antig2 .029 antig .007 n .00023 526, R 2 .461. Todos los coeficientes, con excepción del de solteras, tienen estadísticos t muy arriba de dos en valor absoluto. El estadístico t de solteras es de alrededor de -1.96, que sólo es significativo al nivel del 5% contra una alternativa bilateral. Para interpretar los coeficientes de las variables ficticias, debemos recordar que el grupo básico es solteros. Así, las estimaciones de las tres variables ficticias miden la diferencia proporcional del salario en relación con los solteros. Por ejemplo, se estima que los casados ganan alrededor de 21.3% más que los solteros, manteniendo fijos los niveles de educación, experiencia y antigüedad [el estimador más preciso de (7.10) es de más o menos 23.7%]. Por su parte, una casada gana, como se predijo, 19.8% menos que un soltero con las mismas cifras para las otras variables. Puesto que el grupo básico está representado por la intercepción en (7.11), incluimos variables ficticias sólo para tres de los cuatro grupos. Si añadiéramos una variable ficticia para los solteros en (7.11), caeríamos en la trampa de la variable ficticia e introduciríamos colinealidad perfecta. Algunos paquetes de regresión corrigen automática mente este error, en tanto que otros se limitan a indicar que hay colinealidad perfecta. Lo mejor es especificar con cuidado las variables ficticias, porque nos obliga a interpretar adecuadamente el modelo final. Aunque solteros es el grupo básico en (7.11), podemos utilizar esta ecuación para obtener la diferencia estimada entre dos grupos cualesquiera. Dado que la intercepción general es común a 129 todos los grupos, podemos ignorarla al buscar las diferencias. Así, la diferencia proporcional estimada entre solteras y casadas es de - .110 - (- .198) = .088, lo que significa que las solteras ganan alrededor de 8.8% más que las casadas. Por desgracia, no podemos tomar la ecuación (7.11) para verificar si la diferencia estimada entre el salario de las solteras y las casadas es estadísticamente significativa. No basta conocer los errores estándares de casadas y solteras para realizar la prueba (véase la sección 4.4). Lo más fácil de hacer es decidir que uno de estos grupos sea el básico y volver a estimar la ecuación. Nada sustantivo cambia, pero conseguimos directamente el estimador que necesitamos y su error estándar. Cuando tomamos casadas como grupo básico, obtenemos log saˆla .123 .411 casados .198 solteros .056 .058 .106 .088 solteras , .052 en donde, desde luego, no ha cambiado ninguno de los coeficientes o errores estándares que no se reportan . El estimador de solteras es, como esperábamos, de .088. Ahora, contamos con un error estándar para ese estimador. El estadístico t para la hipótesis nula de que no hay diferencia poblacional entre los salarios de las casadas y las solteras es tsolteras = .088/.092 = 1.69. Se trata de evidencias marginales contra la hipótesis nula. También vemos que la diferencia estimada entre casados y casadas es estadísticamente muy significativa (tcasados = 7.34). El ejemplo anterior ilustra un principio general para incluir variables ficticias que indiquen grupos diferentes: si el modelo de regresión considera g grupos o categorías, debemos incluir g - 1 variables ficticias junto con una intercepción. La intercepción del grupo básico es la intercepción general del modelo y el coeficiente de la variable ficticia de determinado grupo representa la diferencia estimada de las intercepciones entre tal grupo y el básico. Incluir g variables ficticias junto con una intercepción llevará a la trampa de la variable ficticia. Una alternativa es incluir g variables ficticias y excluir la intercepción general. No es aconsejable porque se vuelve difícil verificar las diferencias en relación con el grupo básico y algunos paquetes de regresión alteran la forma de calcular las R cuadradas cuando las regresiones no tienen intercepción. Ejercicio: Desempleados Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es “Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes: Variable edad antig profesional Etiqueta Edad del trabajador Antigüedad en el último empleo (en años) 1 = Sí 0 = No El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos. 130 Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente. ¿Qué puede observar del gráfico? Diagrama de Dispersión entre Semanas Desempleado Diagrama de Dispersión entre Semanas Desempleado y Antiguedad en último Empleo 90 90 80 80 70 70 60 60 50 50 40 40 SEMANAS SEMANAS y Edad de la persona 30 20 10 30 20 Rsq = 0,7216 10 20 30 40 50 10 60 Rsq = 0,2164 0 edad 10 20 30 40 ANTIG En los diagramas de dispersión se puede observar que existe una correlación positiva entre las variables. En el caso de la edad vs. semanas, la correlación es positiva alta mientras que en el caso de la antigüedad vs. semanas, la correlación es positiva pero media. b) Determine la matriz de correlaciones. ¿Qué puede observar? (10 pts.) Correlations SEMANAS edad ANTIG SEMANAS 1,000 , 50 ,849** ,000 50 ,465** ,001 50 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N edad ,849** ,000 50 1,000 , 50 ,490** ,000 50 ANTIG ,465** ,001 50 ,490** ,000 50 1,000 , 50 **. Correlation is significant at the 0.01 level (2-tailed). En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de desempleo como la correlación entre la antigüedad y las semanas de desempleo son significativas al 99%. c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente. ANOVAb Model 1 Regression Residual Total Sum of Squares 10999,684 4176,496 15176,180 df 2 47 49 Mean Square 5499,842 88,862 F 61,892 Sig. ,000a a. Predictors: (Constant), ANTIG, edad b. Dependent Variable: SEMANAS 131 Coefficientsa Model 1 (Constant) edad ANTIG Unstandardized Coefficients B Std. Error -17,428 5,983 1,794 ,192 ,195 ,264 Standardi zed Coefficien ts Beta t -2,913 9,318 ,739 ,818 ,065 Sig. ,005 ,000 ,464 a. Dependent Variable: SEMANAS El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), puesto que es menor que 0,05, indica que sí existe relación lineal significativa. Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que es significativa al 95%. Sin embargo, la significancia de la variable antigüedad es mayor a 0,05 por lo que se acepta la hipótesis nula de que su valor es igual a cero. d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado. Model Summary Model 1 R ,849a R Square ,722 Adjusted R Square ,716 Std. Error of the Estimate 9,38 a. Predictors: (Constant), edad ANOVAb Model 1 Regression Residual Total Sum of Squares 10951,194 4224,986 15176,180 df 1 48 49 Mean Square 10951,194 88,021 F 124,416 Sig. ,000a a. Predictors: (Constant), edad b. Dependent Variable: SEMANAS Coefficientsa Model 1 (Constant) edad Unstandardized Coefficients B Std. Error -18,179 5,868 1,863 ,167 Standardi zed Coefficien ts Beta ,849 t -3,098 11,154 Sig. ,003 ,000 a. Dependent Variable: SEMANAS Este modelo lineal simple tiene una significancia menor a 0,05 para su variable independiente por lo que es significativa al 95%. 132 En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlación positiva entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variación en las semanas de desempleo puede ser explicada en un 72,2% por la variación de la EDAD. e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del último modelo. Model Summary Model 1 R ,891a R Square ,794 Adjusted R Square ,785 Std. Error of the Estimate 8,16 a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad ANOVAb Model 1 Regression Residual Total Sum of Squares 12048,898 3127,282 15176,180 df 2 47 49 Mean Square 6024,449 66,538 F 90,542 Sig. ,000a ,900 t -3,808 13,361 Sig. ,000 ,000 -,274 -4,062 ,000 a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad b. Dependent Variable: SEMANAS Coefficientsa Model 1 (Constant) edad Es profesional ( 1=SI, 0=NO) Unstandardized Coefficients B Std. Error -19,465 5,112 1,975 ,148 -11,512 2,834 Standardi zed Coefficien ts Beta a. Dependent Variable: SEMANAS Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas. El coeficiente asociado a la EDAD indica que, al mantenerse constante el resto de las variables, la variación en un año de EDAD, en promedio aumenta en 1,975 semanas el tiempo de desempleo. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que una persona profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera profesional. Las ecuaciones son: para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad. 133 Tests of Normality a Standardized Residual Kolmogorov-Smirnov Statistic df Sig. ,088 50 ,200* Shapiro-Wilk df 50 Statistic ,970 Sig. ,407 *. This is a lower bound of the true significance. a. Lilliefors Significance Correction La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hipótesis de normalidad. La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov. Scatterplot Dependent Variable: SEMANAS Regression Standardized Residual 2 1 0 -1 -2 -3 -2 -1 0 1 2 3 Regression Standardized Predicted Value Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningún patrón. Ejercicio: Consideremos el modelo (ANCOVA) de la siguiente manera: Yi donde 1 2 Di Xi (15.2.1) ui Yi = salario anual de un profesor universitario X i = años de experiencia docente Di = 1 si es hombre = 0 si no lo es El modelo (15.2.1) contiene una variable cuantitativa (años de experiencia docente) y una variable cualitativa (sexo) que tiene dos clases (o niveles. clasificaciones o categorías) a saber, hombres y mujeres. ¿Cuál es el significado de (15.2.1)? Suponiendo, como es usual. que E( u i ) = 0, se observa que El salario promedio de una profesora universitaria: E Yi X i , Di 0 1 Xi (15.2.2) 134 El salario promedio de un profesor universitario: E Yi X i , Di 1 1 2 Xi (15.2.3) Geométricamente, se tiene la situación que se muestra en la figura 15.2 (como ilustración se supone que 1 > 0). En palabras, el modelo (15.2.1) postula que las funciones salario de los profesores y de las profesoras universitarias con relación a los años de experiencia docente tienen la misma pendiente ( ), pero interceptos diferentes. En otras palabras, se supone que el nivel del salario promedio de los profesores difiere de aquél de las profesoras (en 2 ). pero la tasa de crecimiento en el salario anual promedio por años de experiencia es el mismo para ambos sexos. Si el supuesto de una pendiente común es válido, una prueba de la hipótesis de que las dos regresiones (15.2.2) y (15.2.3) tienen el mismo intercepto (es decir, que no hay discriminación sexual) puede hacerse fácilmente efectuando la regresión (15.2.1) y evaluando la significancia estadística del 2 estimado con base en la prueba t tradicional. Si la prueba t muestra que 2 es estadísticamente significativo, se rechaza la hipótesis nula de que los niveles de salario anual promedio de los profesores y las profesoras universitarias sean iguales. Antes de proceder, obsérvense las siguientes características del modelo de regresión con variables dicótomas considerado anteriormente. 1. Para diferenciar las dos categorías, hombres y mujeres, se ha introducido solamente una variable dicótoma Di . Si Di = 1 siempre representa hombres, se sabe que Di = 0 es mujeres puesto que solamente hay dos resultados posibles. Por tanto, es suficiente una variable dicótoma para diferenciar dos categorías. Supóngase que el modelo de regresión contiene un término de intercepto; si se fuera a escribir el modelo (15.2.1) como Yi 1 2 D2i 3 D3i Xi ui (15.2.4) 135 donde Yi y X i son como se definieron antes D2i es un profesor 1 = 0 no lo es es una profesora = 0 no lo es D3i = 1 entonces, el modelo (15.2.4), como está planteado, no puede ser estimado debido a la presencia de colinealidad perfecta entre D2 y D3 . Para ver esto, supóngase que se tiene una muestra de tres profesores hombres y dos profesores mujeres. La matriz de datos tendrá una apariencia como la siguiente: Hombres Y1 Hombres Y2 Mujeres Y3 Hombres Y4 Mujeres Y5 D2 D3 1 1 0 1 1 0 1 0 1 1 1 0 1 0 1 X X1 X2 X3 X4 X5 La primera columna a la derecha de la matriz de datos anterior representa el término de intercepto común al. Ahora puede verse fácilmente que D2 = 1 - D3 o D3 = 1 - D2 ; es decir, D2 y D3 son perfectamente colineales. En casos de multicolinealidad perfecta, la estimación MCO usual no es posible. Hay diversas formas de resolver este problema, pero la más simple es asignar las variables dicótomas en la forma que se hizo para el modelo (15.2.1), a saber, utilícese solamente una variable dicótoma si hay dos niveles o clases de la variable cualitativa. En este caso, la matriz de datos anterior no tendrá la columna titulada D3 evitando así el problema de multicolinealidad perfecta. La regla general es ésta: Si una variable cualitativa tiene m categorías, introdúzcase solamente m - 1 variables dicótomas. En el ejemplo, el sexo tiene dos categorías y, por tanto, se introdujo solamente una variable dicótoma. Si esta regla no se sigue. se caerá en lo que podría llamarse la trampa de la variable dicótoma, es decir, la situación de multicolinealidad perfecta. 2. La asignación de los valores 1 y 0 a las dos categorías, tales como hombres y mujeres, es arbitraria en el sentido de que en el ejemplo se hubiera podido asignar D = 1 para mujeres y D = 0 para hombres. En esta situación, las dos regresiones obtenidas de (15.2.1) serán Profesora universitaria: E Yi X i , Di Profesor universitario: E Yi X i , Di 0 1 1 1 Xi 2 Xi En contraste con (15.2.2) y (15.2.3) en los modelos anteriores, 2 dice en cuánto difiere el salario promedio de una profesora universitaria del salario promedio de un profesor universitario. En este caso, sí hay discriminación sexual, se espera que 2 sea negativo, 136 mientras que antes se esperaba que fuera positivo. Por consiguiente, al interpretar los resultados de los modelos que utilizan variables dicótomas, es de gran importancia saber la forma como los valores de 1 y de 0 han sido asignados. 3. Frecuentemente se hace referencia al grupo, categoría o clasificación al cual se asigna el valor de 0 como la categoría base, marca fija, control, comparación, referencia o categoría omitida. Esta es la base en el sentido de que se hacen comparaciones con respecto a esa categoría. Así, en el modelo (15.2.1), la profesora es la categoría base. Obsérvese que el término de intercepto (común) es el término de intercepto para la categoría base en el sentido de que si se efectúa la regresión con D = 0, es decir, sobre el sexo femenino solamente, el intercepto será 1 . Obsérvese también que sea cual fuere la categoría que sirve como base, éste es un 4. asunto de selección que algunas veces obedece a consideraciones a priori. El coeficiente 2 que acompaña a la variable dicótoma D puede llamarse coeficiente de intercepto diferencial porque dice qué tanto difiere el valor del término de intercepto de la categoría que recibe el valor de 1 del coeficiente del intercepto de la categoría base. Ejemplo: Regresión sobre una variable cuantitativa y una variable cualitativa con más de dos categorías Supóngase que, con base en la información de corte transversal. se desea efectuar la regresión del gasto anual en salud por parte de un individuo sobre el ingreso y la educación del individuo. Puesto que la variable educación es cualitativa por naturaleza. supóngase que se consideran tres niveles de educación mutuamente excluyentes: primaria, secundaria y universitaria. Ahora, a diferencia del caso anterior, se tienen más de dos categorías de la variable cualitativa educación. Por consiguiente, siguiendo la regla de que el número de variables dicótomas sea uno menos que el número de categorías de la variable, se deben introducir dos variables dicótomas para cubrir los tres niveles de educación. Suponiendo que los tres grupos educacionales tienen una pendiente común pero diferentes interceptos en la regresión del gasto anual en salud sobre el ingreso anual, se puede utilizar el siguiente modelo: Yi donde 1 2 D2i 3 D3i Xi ui (15.3.1) Yi = gasto anual en salud X i = ingreso anual D2 = 1 si es educación secundaria D3 = 0 si es otro tipo de educación = 1 si es educación universitaria = 0 si es otro tipo de educación Obsérvese que en la asignación anterior de las variables dicótomas, se considera arbitraria la categoría «educación primaria» como la categoría base. Por consiguiente, el intercepto reflejará el intercepto para esta categoría. Los interceptos diferenciales 2 y 3 dicen qué tanto difieren los interceptos de las otras dos categorías del intercepto de la categoría base, lo cual puede verificarse fácilmente de la siguiente manera: Suponiendo que E ui 0 , se obtiene de (15.3.1) 137 E Yi D2 0, D3 E Yi D2 1, D3 0, X i 1 2 Xi E Yi 0, D3 1, X i 1 3 Xi D2 0, X i Xi 1 que son las funciones de gasto promedio en salud para los tres niveles de educación, a saber, la educación primaria. secundaria y universitaria. Geométricamente, la situación se muestra en la figura 15.3 (para fines ilustrativos se supone que 3 > 2 ). Una vez efectuada la regresión (15.3.1), se puede encontrar fácilmente si los interceptos diferenciales 2 y 3 son estadísticamente significativos a nivel individual, es decir, diferentes al grupo base. A propósito, obsérvese que la interpretación de la regresión (15.3.1) cambiaría si se hubiera adoptado un esquema diferente de asignación a las variables dicótomas. Por tanto, si se asigna D2 = 1 a la categoría «educación primaria», y D3 = 1 a la categoría de «educación secundaria», la categoría de referencia será entonces la «educación universitaria» y todas las comparaciones se harán en relación con esta categoría. Ejemplo: Regresión con una variable cuantitativa y dos variables cualitativas La técnica de la variable dicótoma puede extenderse fácilmente para manejar más de una variable cualitativa. Retornando a la regresión de salarios de profesores universitarios (15.2.1), pero suponiendo ahora que adicional mente a los años de experiencia docente y al sexo, la raza del profesor es también un determinante importante del salario. Por simplicidad, supóngase que la raza tiene dos categorías: negra y blanca. Ahora se puede escribir (15.2.1) como Yi donde 1 2 D2i 3 D3i Xi ui Yi = salario anual X i = años de experiencia de enseñanza D2 = 1 si es hombre = 0 si no lo es D3 = 1 si es blanco = 0 si no lo es 138 Obsérvese que cada una de las dos variables cualitativas, el sexo y la raza, tiene dos categorías y, por tanto, se requiere de una variable dicótoma para cada una. Obsérvese además que la categoría omitida, o base, ahora es «profesora negra». . Suponiendo que E ui = 0, se puede obtener la siguiente regresión a partir de (15.4.1): Salario promedio de una profesora negra: E Yi D2 0, D3 0, X i Salario promedio de un profesor negro: E Yi D2 1, D3 0, X i Salario promedio de una profesora blanca: E Yi D2 0, D3 1, X i Salario promedio de un profesor blanco: E Yi D2 1, D3 1, X i 1 Xi 1 2 1 1 Xi Xi 3 2 3 Xi Una vez más, se supone que las regresiones anteriores difieren solamente en el coeficiente del intercepto pero no en el coeficiente de la pendiente . Una estimación MCO de (15.4.1) permitirá probar una diversidad de hipótesis. Por tanto, si 3 estadísticamente significativo, dirá que la raza afecta el salario de los profesores. En forma similar, si 2 es estadísticamente significativo, implicará que el sexo también afecta el salario de los profesores. Si estos dos interceptas diferenciales son estadísticamente, significativos, querrá decir que tanto el sexo como el color son determinantes importantes de los salarios de los profesores. Del análisis anterior se deduce que se puede extender el modelo para incluir más de una variable cuantitativa y más de dos variables cualitativas. La única precaución que debe tomarse es que el número de variables dicótomas para cada variable cualitativa debe ser una menos que el número de categorías de esa variable. Ejemplo: La economía del "doble empleo» Una persona que posee dos o más empleos, uno primario y uno o más secundarios, se conoce como, “doble empleada” Shisko y Rostker estaban interesados en encontrar cuáles factores determinaban los salarios de las personas doblemente empleadas. Con base en una muestra de 318 personas con doble empleo, ellos obtuvieron la siguiente regresión, la cual se presenta en la notación utilizada por los autores (los errores estándar en paréntesis): Wˆ m 37 .07 0.403 w0 90 .06 raza 75 .51 urbano (0.062) (24.47) (21.60) + 47.33 bach + 113.64 reg + 2.26 edad (23.42) (27.62) (0.94) R 2 = 0.34 g de 1 = 311 139 donde wm w0 = salario del doble empleado (centavos de dólar/hora) = salario principal (centavos de dólar/hora) raza = = = = = = = = = 0 si es blanco 1 si no lo es 0 si no es urbano 1 si lo es 0 si no es occidente 1 si es occidente 0 no es graduado de bachiller 1 es graduado de bachiller edad, años urbano reg bach edad En el modelo (15.5.1), hay dos variables explicativas cuantitativas w0 y la edad y cuatro variables cualitativas. Obsérvese que los coeficientes de todas estas variables son estadísticamente significativos al nivel del 5%. Lo que es interesante de anotar es que todas las variables cualitativas afectan los salarios del doble empleo significativamente. Por ejemplo, manteniendo todos los demás factores constantes, se espera que el nivel de salario hora sea más alto en un nivel alrededor de 47 centavos para la persona graduada de bachiller que para aquellos sin grado de bachiller. De la regresión (15.5.1), se pueden derivar diversas regresiones individuales, dos de las cuales son las siguientes: la media de la tasa de salarios hora de personas blancas, no urbanas, de una región no occidental y no graduados con doble empleo (es decir, cuando todas las variables dicótomas son iguales a cero) es ˆm w 37.07 0.403w0 2.26 edad La media de la tasa de salarios-hora de una persona no blanca, urbana, del occidente, bachiller (es decir. cuando todas las variables dicótomas son iguales al) es ˆm w 183.49 0.403w0 2.26 edad Prueba de estabilidad estructural de los modelos de regresión Hasta ahora, en los modelos considerados en este capítulo, se supuso que las variables cualitativas afectan al intercepto pero no al coeficiente de pendiente de los diversos subgrupos de regresión. Pero, ¿qué sucede si las pendientes también son diferentes? Si las pendientes son en realidad diferentes, la prueba de las diferencias en los interceptos puede ser de poca significancia práctica. Por consiguiente, se requiere desarrollar una metodología general para encontrar si una o más regresiones son diferentes, donde la diferencia pueda estar en los interceptos o en las pendientes o en ambos. Para ver la forma como esto puede hacerse, considérese la información sobre ahorro-ingreso para el Reino Unido dada en la tabla 8.8, la cual, por conveniencia, se reproduce en la tabla 15.2. Ejemplo: Ahorro e ingreso, Reino Unido, 1946-1963 Como lo muestra la tabla, la información está dividida en dos periodos, 1946-1954 (período inmediatamente posterior a la Segunda Guerra Mundial, o de reconstrucción) y el lapso 19551963 (de postreconstrucción). Su póngase que se desea averiguar si la relación agregada ahorro ingreso ha cambiado entre los dos periodos. Para ser específico, sea 140 Período de reconstrucción: Yi Yi u1i 1,2,, n1 i Período de postreconstrucción: 2 Xi 1 y1 i y2 X i u 2i 1, 2, , n2 TABLA 15.2 Datos de ahorro personal e ingreso, Reino Unido 1946-1963 (millones de libras) Periodo I 1946 1947 1948 1949 1950 1951 1952 1953 1954 Ahorr o 0.36 0.21 0.08 0.20 0.10 0.12 0.41 0.50 0.43 Ingreso 8.8 9.4 10.0 10.6 11.0 11.9 12.7 13.5 14.3 Periodo 2 Ahorro Ingreso 1955 1956 1957 1958 1959 1960 1961 1962 1963 0.59 0.90 0.95 0.82 1.04 1.53 1.94 1.75 1.99 15.5 16.7 17.7 18.6 19.7 21.1 22.8 23.9 25.2 Fuente: Oficina Central de Estadística, Reino Unido. donde Y = ahorro (millones de £) X = ingreso (millones de £) u1i , u 2i = perturbaciones en las dos regresiones Nota: El número de observaciones n1 y n2 en los dos grupos (periodos) no necesitan ser el mismo. Ahora, las regresiones (15.6.1) y (15.6.2) presentan las siguientes cuatro posibilidades: 1. 1 1 y 2; 2. 1 1 pero es decir, las dos regresiones son idénticas. (Regresiones coincidentes). 2 = 2 ; es decir, las dos regresiones difieren solamente en su ubicación (es decir, en sus interceptos). (Regresiones paralelas). 3. 2 2 ; es decir, las dos regresiones tienen los mismos interceptos pero 1 1 pero 4. pendientes diferentes. (Regresiones concurrentes). 1 1 y 2 2 ; es decir, las dos regresiones son completamente diferentes (Regresiones no similares). Todas estas posibilidades se ilustran en la figura 15.4. De la información dada en la tabla 15.2, se pueden efectuar las dos regresiones Individuales (15.6.1) y (15.6.2) Y luego utilizar una o varias técnicas estadísticas para probar todas las posibilidades anteriores, es decir, para encontrar si la función de ahorro ha sufrido un cambio 141 estructural entre los dos periodos de tiempo. Por cambio estructural se entiende que los parámetros de la función de ahorro han cambiado. Una de dichas técnicas estadísticas es la prueba de Chow . La prueba de Chow mostró que los parámetros de la función de ahorro entre los periodos de reconstrucción y postreconstrucción en efecto cambiaron. Como alternativa a la prueba de Chow, en la siguiente sección se muestra la forma cómo la técnica de la variable dicótoma maneja el problema de cambio estructural o quiebre y cuáles son algunas de sus ventajas con respecto a la prueba de Chow. 142 Ejemplo: Comparación de dos regresiones: enfoque de la variable dicótoma El procedimiento de multipaso de la prueba de Chow analizado en la sección 8.8 puede ser acortado sustancialmente mediante el uso de las variables dicótomas. Aunque las conclusiones globales derivadas de las pruebas de Chow y de variables dicótomas en una aplicación dada son las mismas, el método de variables dicótomas tiene algunas ventajas que serán explicadas después de presentar el método utilizando el mismo ejemplo ahorro-ingreso. Reuniendo todas las observaciones n1 y n2 y estimando la siguiente regresión. Yi 2 Di 1 1Xi 2 Di X i ui donde Yi y X i son el ahorro y el ingreso, lo mismo que antes, y donde Di = 1 para las observaciones en el primer periodo ( hasta 1954) o periodo de reconstrucción y cero para observaciones en el periodo de postreconstrucción. Para ver las implicaciones del modelo (15.7.1) Y suponiendo que E ui E Yi E Yi Di Di 1, X i 0, X i 1 1Xi 1 2 = 0, se obtiene 1 Xi 2 que son las funciones de ahorro promedio para el segundo periodo (de postreconstrucci6n) y primer periodo (de reconstrucción). Estas equivalen a (15.6.2) y (15.6.1) con 1 1, 2 1, 1 1 2 y 2 1 2 . Por consiguiente, la estimación de (15.7.1) es equivalente a estimar las dos funciones de ahorro individual (15.6.1) y (15.6.2). En (15.7.1),0'2 es el intercepto diferencial, igual que antes y 2 es el coeficiente diferencial de pendiente, indicando en cuánto difiere el coeficiente de pendiente de la función de ahorro del primer periodo del coeficiente de pendiente de la función de ahorro del segundo periodo. Obsérvese como la variable dicótoma D se introduce en forma multiplicativa (D multiplicado por X), permitiendo diferenciar entre los coeficientes de las pendientes de los dos periodos, de la misma manera, la introducción de la variable dicótoma en forma aditiva permite distinguir entre los interceptos de los dos periodos. Retornando a los datos de ahorro-ingreso dados en la tabla 15.2, se encuentra que la estimación empírica de (15.7.1) es Yˆt 1.7502 1.4839 Di 0.1504 X t (0.3319) (0.4704) (0.0163) (0.0332) (3.1545) (9.2238) (-3.1144) t = (-5.2733) R2 0.1034 Di X t 0.9425 143 tanto los coeficientes diferenciales de intercepto como los coeficientes diferenciales de las pendientes son estadística mente significativos, dando un fuerte indicio de que las regresiones para los dos periodos son diferentes (véase figura 15.4d). Entonces, siguiendo (15.7.2) Y (15.7.3), se pueden derivar las dos regresiones de la siguiente forma (Nota: D = 1 para el primer periodo; véase figura 15.5): Período de reconstrucción: Yˆt 1.7502 1.4839 0.2663 0.0470 X t 0.1504 0.1034 X t Período de postreconstrucción: Yˆt 1.7502 0.1504 X t como el lector puede verlo, estas regresiones son iguales a las obtenidas del procedimiento multipaso de Chow, lo cual puede verse de las regresiones dadas en la sección 8.8. Las ventajas de la técnica de variable dicótoma [es decir, la estimación de (15.7.1)] sobre la prueba de Chow [es decir, la estimación de las tres regresiones (8.8. t ),(8.8.2) Y la regresión «agrupada» individualmente] pueden verse fácilmente ahora: 1. Se requiere efectuar solamente una regresión simple porque las regresiones individuales pueden deducirse fácilmente de ésta en la forma indicada por las ecuaciones (15.7.2) y (15.7.3). 2. La regresión simple puede ser utilizada para probar una diversidad de hipótesis. Así, si el coeficiente del intercepto diferencial a2 no es estadística mente significativo, se puede aceptar la hipótesis de que las dos regresiones tienen el mismo intercepto, es decir, las dos regresiones son concurrentes (véase figura 15.4c). En forma similar, si el coeficiente diferencial de pendiente {32 no es estadísticamente significativo peroa210 es, por lo menos puede no rechazarse la hipótesis de que las dos regresiones tengan la misma pendiente, es decir, las dos líneas de regresión son paralelas (véase figura 15.4b). La prueba de estabilidad de la regresión completa (es decir, a2 = (32 = O simultáneamente) puede hacerse mediante la prueba F de significancia global de la regresión estimada estudiada en el capítulo 8. Si esta hipótesis se mantiene, las líneas de regresión serán coincidentes, como se muestra en la figura 15.4a. 3. La prueba de Chow no dice explícitamente cuál coeficiente, el del intercepto o el de la pendiente, es diferente o si (como sucede en este ejemplo) ambos son diferentes en los dos periodos, es decir, se puede obtener una prueba de Chow significativa porque sólo la pendiente es diferente o sólo el intercepto es diferente o ambas son diferentes. En otras palabras, no se puede decir, mediante la prueba de Chow, cuál de las cuatro posibilidades señaladas en la figura 15.4 existe en un momento dado. A este respecto, el enfoque de la variable dicótoma tiene una ventaja clara, ya que no solamente dice si las dos regresiones son diferentes, sino que señala la fuente o las fuentes de la diferencia -si ésta se debe al intercepto o a la pendiente o a ambos. En la práctica, el conocimiento de que las dos 144 regresiones difieren en éste o en ese coeficiente es tanto o más importante que el conocimiento simple de que son diferentes. 4. Finalmente, puesto que la agrupación aumenta los grados de libertad, ésta puede mejorar la precisión relativa de los parámetros estimados. Nota: Para crear la variable Dami IF (Periodo >= 1946 & Periodo <= 1954) D = 1 . VARIABLE LABELS D 'Dami' . EXECUTE . IF (Periodo >= 1955 & Periodo <= 1963) D = 0 . VARIABLE LABELS D 'Dami' . EXECUTE . Resumen del modelo Modelo 1 R R cuadrado ,976 a ,953 R cuadrado corregida ,942 Error típ. de la estimación ,15417 a. Variables predictoras: (Constante), DX, Ingreso, Dami ANOVAb Modelo 1 Regresión Res idual Total Suma de cuadrados 6,692 ,333 7,024 gl 3 14 17 Media cuadrática 2,231 ,024 F 93,841 Sig. ,000 a a. Variables predictoras: (Constante), DX, Ingreso, Dami b. Variable dependiente: Ahorro Coe ficientesa Modelo 1 (Constante) Dami Ingreso DX Coeficientes no estandarizados B Error típ. -1,750 ,332 1,484 ,470 ,150 ,016 -,103 ,033 Coeficientes estandarizad os Beta 1,188 1,224 -,963 t -5,273 3,155 9,238 -3,109 Sig. ,000 ,007 ,000 ,008 a. Variable dependiente: Ahorro 145 COMPARACIÓN DE DOS REGRESIONES: ILUSTRACIÓN ADICIONAL Debido a su importancia práctica, se considera otro ejemplo del uso de la técnica de la variable dicótoma para probar la equivalencia de dos (o más) regresiones. Ejemplo 15.5 Comportamiento del desempleo y de las vacantes sin llenar: Gran Bretaña, 1958-1971 Al estudiar la relación entre la tasa de desempleo y la tasa de vacantes sin llenar en la Gran Bretaña durante el periodo 1958-1V a 1971-11. el autor obtuvo el diagrama de dispersión que aparece en la figura 15.6. Como se observa en la figura. al principio del cuarto trimestre de 1966. la relación desempleo vacantes parece haber cambiado; la curva que relaciona las dos variables parece haberse desplazado hacia arriba a partir de ese trimestre, Este desplazamiento hacia arriba implica que para una tasa dada de empleos-vacantes hay más desempleo en el cuarto trimestre de 1966 que antes. En este estudio. el autor encontró que una posible causa del desplazamiento hacia arriba fue que en octubre de 1966 (es decir, en el cuarto trimestre) el gobierno laborista de entonces promulgó la ley nacional de seguros. remplazando el sistema de tasas constantes de beneficios de desempleo de corto plazo. por un sistema mixto de una tasa fija y otros beneficios (previos) relacionados con los ingresos. lo cual obviamente aumentó el nivel de beneficios para los desempleados. Si los beneficios de los desempleados aumentan, es más probable que el 146 desempleado tome más tiempo para buscar trabajo. reflejando así una mayor cantidad de desempleo para cualquier tasa dada de empleos vacantes. Para verificar si la desviación observada en la relación desempleo-vacantes que comenzó a observarse a partir del cuarto trimestre de 1966 era estadísticamente significativa. el autor utilizó el siguiente modelo: UNt 1 2 Dt 1 Vt 2 Dt Vt ut donde UN = tasa de desempleo, % V = tasa de empleos vacantes. % D = 1 para el periodo a partir de 1966-IV = 0 para el periodo anterior a 1966-IV t = tiempo, medido en trimestres. Ejercicio Variables Dami La tabla presenta los gastos de consumo ( Consumo), el ingreso disponible, (Ingreso) y el sexo del jefe del hogar(Sexojh) Familia F1 F2 F3 F4 F5 F6 F7 F8 F9 F10 F11 F12 Consumo 18535 11350 12130 15210 8680 16760 13480 9680 17840 11180 14320 19860 Ingreso 22550 14035 13040 17500 9430 20635 16470 10720 22350 12200 16810 23000 SexoJh 1 1 2 1 2 1 1 2 1 2 2 1 NOTA: 1=hombre, 2=mujer a) Considere el archivo desde Excel grabado como “Consumo ingreso sexo 4.0.xls” Archivo/abrir/ desde Excel / Consumo ingreso 4.0.xls. Active leer nombre de variable Rango;B3:N6 Aceptar b) Seleccione Datos/Transponer Variable: f1-f2-f3-f4-f5-f6-f7-f8-f9-f10-f11-f12 Variable de nombre: familia Aceptar Verifique que estén bien definidas las variables y complete con las etiquetas Guardar en C:SPSS Consumo-ingreso-sexojh.sav c) Realice un gráfico de dispersión entre consumo e ingreso d) Realice una regresión lineal entre consumo e ingreso. Interprete los resultados. Compare con el resultado analizado en clases (a) C 1663,60 (2,73) 0,75Yd R2 0,978 (21,12) Para esto considere una regresión lineal simple; Dependientes; consumo 147 Independientes; ingreso Etiqueta de caso; familia Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Gráficos; Y; ZRESID X: ZPRED Histograma Graf de prob normal e) Pruebe si la ordenada en el origen es diferente según sea el sexo del jefe del hogar. Compare con la expresión: C 186,12 0,0,82Yd 832,09D (16,56) (1,82) R2 0,984 Defina una variable Dummy como: D=1 para familias encabezadas por una mujer (2) D=0 en caso contrario (1) Para esto considere Transformar/recodificar/ en distintas variables/ Variable numérica: sexojh Variable de resultado: D Etiqueta: damy(jefe hogar mujer=1; jefe hogar hombre=0) Cambiar Valores antiguos y nuevos: Valor antiguo; valor 1 Valor nuevo; valor; 0 Añadir Valor antiguo; valor 2 Valor nuevo; valor; 1 Añadir Continuar Aceptar En el editor de datos aparecerá variable dami. Complete las etiquetas, 1= mujer; 0=hombre. Para probar si la ordenada en el origen es diferente según sea el sexo del jefe del hogar. considere regresión lineal simple; Dependientes; consumo Independientes; ingreso, damy Etiqueta de caso; familia Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que D no es estadísticamente significativo f) Pruebe si la pendiente para una inclinación es diferente según sea el sexo del jefe del hogar Compare con C 709,18 0,79Yd 0,05Yd D (18,11) (1,51) R2 0,983 Para esto considere Transformar/calcular/ Variable de destino: IngrD 148 Tipo Numércio Etiqueta; Ingreso por dami Expresión: ingreso*d Aceptar considere regresión lineal simple; Dependientes; consumo Independientes; ingreso, ingrd Etiqueta de caso; familia Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que ingrd no es estadísticamente significativo g) Pruebe si tanto la ordenada en el origen como la pendiente son diferentes Compare con C 184,7 0,83Yd (13,65) 1757,99 D 0,06Yd D (1,03) R2 0,985 (-0,57) Considere regresión lineal simple; Dependientes; consumo Independientes; ingreso, damy, ingrd Etiqueta de caso; familia Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo. Continuar Verifique que tanto damy como ingrd no son estadísticamente significativos 149 VI Análisis de Regresión logística Regresión Logística 2.1.1. 2.1.2. 2.1.3. 2.1.4. Introducción Modelo y criterios de ajuste Variables categóricas, nuevas variables y opciones Métodos de selección de variables 2.1.1. Introducción Imaginemos por un momento que en una investigación estamos trabajando con una variable dependiente con únicamente dos categorías u opciones y que queremos averiguar la probabilidad de ocurrencia de una u otra a partir de una serie de informaciones de una serie de variables que denominamos independientes. Pues bien, la regresión logística es un modelo que a partir de los coeficientes estimados para cada una de esas variables independientes y fruto de la probabilidad de los individuos en la dependiente, nos va a permitir asignar los mismos a una u otra categoría u opción de respuesta. Vayamos por partes. Una variable dependiente dicotómica, es decir, con dos opciones o posibilidades de respuesta: sí o no responde a un mailing, sí o no vota en una elecciones, si trabaja o no trabaja, acierta o se equivoca en un pronóstico, se avería o no en un periodo de tiempo determinado, sí o no contesta al teléfono, beneficios o pérdidas en un ejercicio, diagnóstico positivo o negativo en una prueba médica, etc. En la práctica nos vamos a encontrar con infinidad de variables dicotómicas y con interés por nuestra parte de averiguar cuál o cuáles de las que denominamos independientes son las que inciden y en qué grado en que los individuos del tipo que sean tengan más probabilidades de decantarse por una u otra categoría de la citada variable. Seguramente al lector un planteamiento de este tipo le recordará los modelos de regresión lineal múltiple. También allí teníamos una variable dependiente cuyos valores tratábamos de explicar a partir de una serie de variables independientes (el precio de venta de los coches o la satisfacción de los individuos con su trabajo a partir de una serie de características técnicas de los todo terreno, en el primer caso, y de una serie de valoraciones del puesto de trabajo, en el segundo). En aquella ocasión decíamos que la variable dependiente debía ser cuantitativa, al igual que las independientes, mantener una relación lineal con las mismas, distribuirse normalmente, etc., y las predicciones se realizaban en términos de valores en la variable dependiente a partir de valores en cada una de las independientes. En el análisis discriminante se plantea un modelo similar al de regresión lineal múltiple, pero con una diferencia importante: la variable dependiente del mismo, en lugar de ser numérica, será categórica, con dos, tres o más categorías, y el modelo, a partir de la información que proporcionen las variables independientes numéricas, calculará para cada individuo la probabilidad de pertenencia a cada grupo, nivel o categoría definida en la variable dependiente. También en este caso los datos deberán cumplir una serie de supuestos previos cuales son la distribución normal multivariante de las variables independientes, igualdad de las matrices de varianciascovariancias entre grupos, etc. Pues bien, la regresión logística que vamos a ver en este apartado no deja de ser un caso particular del modelo discriminante, en el que la variable dependiente tiene exclusivamente dos categorías, a la vez que parte de unos supuestos menos restrictivos y permite introducir como independientes en el modelo variables categóricas. 150 Para ilustrar el procedimiento vamos a utilizar el archivo trabajo.sav y como variable dependiente b1 (situación laboral) que es una de las pocas variables (si no la única) dicotómicas del archivo. B1: Situación laboral 1=Si; 5=No; 9=NC Advertimos al lector que tal y como está planteada la pregunta, los resultados de la misma no son comparables con los de otras fuentes que definan las personas «activas» con otros criterios. En un primer modelo muy sencillo vamos a entrar como independientes las variables c1 (sexo), c2 (edad) y c6 (nivel de estudios). Hipotéticamente, y no con la información del archivo, sería tanto como plantear un modelo que permita pronosticar la situación laboral de un individuo (activo o no) a partir de una serie de informaciones referidas al mismo (variables independientes) y ver en qué medida cada una de éstas determina la situación laboral. Por razones obvias vamos a limitar la muestra a aquellos individuos con edades inferiores a 65 años (y por tanto en edad legal de poder trabajar), y recordamos que la muestra ya hace referencia a personas de más de 18 años. Como en el tema anterior y en muchos ejercicios de los siguientes, advertimos al lector acerca de la finalidad puramente ilustrativa de los ejemplos y sin otras pretensiones que las de facilitar la comprensión del procedimiento estadístico. Previamente cargado el archivo trabajo.sav y seleccionados los individuos menores de 65 años (Select Cases if edad < 65). USE ALL. COMPUTE filter_$=(c2 < 65). VARIABLE LABEL filter_$ 'c2 < 65 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Statistics/Regression/ Logistic y obtendremos el cuadro de diálogo principal de la regresión logística de la Figura 2. l. En Dependent entramos la variable b1 y en Covariates c1 , c2 y c6 . A continuación, pulsamos el botón Categorical y del subcuadro de diálogo que obtendremos y que posteriormente comentaremos, seleccionamos c1 , y la pasamos al campo Categorical Covariates. Dejamos el resto de opciones por defecto y pulsamos Continue. Fig 2.1 Fig 2.2 151 Volveremos al cuadro de diálogo principal de la Figura 2.1 y observaremos que a continuación de c1 y entre paréntesis nos ha añadido el sistema (Cat). No pulsamos el botón Save (después lo haremos) y si el botón Opciones. Del subcuadro que se nos abre, seleccionamos las seis opciones de Statistics y Plots y dejamos todo el resto con sus valores por defecto, tal y como nos muestra el subcuadro de diálogo principal y OK para ejecutar el procedimiento. Obtendremos los resultados que pasamos a comentar. Resumen del procesam iento de los casos Cas os no ponderados Cas os seleccionados a N Incluidos en el análisis Cas os perdidos Total Cas os no s eleccionados Total 973 0 973 0 973 Codificación de la variabl e depe ndiente Porc entaje 100, 0 ,0 100, 0 ,0 100, 0 Valor original Sí No Valor interno 0 1 a. Si está activada la ponderación, c onsulte la tabla de clasificación para ver el número total de cas os. Codificaci ones de vari ables categóricas Sex o Hombre Mujer Frec uencia 484 489 Codificación de (1) parámetros 1,000 ,000 Fig 2.3 En el primer cuadro de la Figura 2.3 podemos observar cómo del total de 1.200 personas del archivo, han quedado para el análisis 973. La variable dependiente originariamente tiene unos valores no Missing de 1 y 5, correspondiendo el 1 a una respuesta afirmativa de que sí se realiza algún tipo de trabajo y el 5 a la respuesta negativa. Observar cómo el sistema recodifica estos valores asignando 0 a sí trabaja y 1 a no trabaja. Esta circunstancia es sumamente importante para poder interpretar todos los resultados de la regresión logística. El sistema, y a partir de los datos de cada sujeto en las variables independientes (sexo, edad y nivel de estudios), calcula una probabilidad para cada uno de ellos. Como tal probabilidad, sus valores oscilarán entre 0 y 1, de modo que cuanto más tienda a 0, más probable será que el individuo sea una persona que trabaja, y al revés cuanto más tienda a 1. El sistema clasificará de este modo a todos los sujetos de la muestra en activos o no activos a partir de un punto de corte que por defecto está situado en 0,50. El porcentaje de individuos correctamente clasificados por el modelo será uno de los indicadores de la eficacia y del ajuste del mismo. Gráficamente: Sí trabajan Individuos que el sistema clasificará como que si trabajan Punto de corte 0,5 No trabajan Individuos que el sistema clasificará como que no trabajan Como variables covariantes, predictoras o independientes, hemos entrado las tres ya mencionadas, sexo, edad y nivel de estudios. Éstas pueden ser numéricas (las tres entradas lo 152 son), pero si queremos que alguna de ellas sea tratada como categórica (y c1 lo es), deberemos proceder a explicitarlo en el subcuadro de diálogo Categorical, que posteriormente analizaremos como detalle. Advertimos en la figura 2.3 que, así como esta variable en el archivo está codificada como 1 = Hombre y 2 = Mujer, el sistema para la regresión logística (y lo hará para cualquier variable dicotómica) la recodifica a 1 y 0, algo que deberemos tener muy en cuenta a la hora de interpretar los coeficiente de la regresión. Del resto de opciones del cuadro de diálogo principal de la figura 2.1, los bloques nos permitirán, al igual que ya vimos en la regresión lineal múltiple entrar las variable agrupadas en dos, tres o más series distintas, en tanto que el botón a x b nos permitirá entrar en el modelo interacciones entre variables previamente seleccionadas de la lista. Estas variables pueden ser categóricas y por supuesto exclusivamente con dos categorías que pueden estar codificadas, por ejemplo, 0 y 1. Advertimos al lector acerca de la necesidad de, en especial en estos casos, contrastar si el producto de la interacción responde o no al sentido de la misma (dos variables codificadas cada una de ellas con 0 y 1 nos dan tres productos 0 y únicamente un producto 1). Los distintos métodos de entrada de las variables en el modelo los analizaremos más adelante, al igual que todas las opciones del subcuadro de diálogo Opciones de la Figura 2.2, que también las iremos viendo a lo largo del desarrollo del ejemplo. Únicamente añadir que en el cuadro de diálogo principal y a través del botón Variable de selección podemos realizar el análisis de regresión logística únicamente para una submuestra del archivo, por ejemplo, residentes en Andalucía ( c15 = 01), con ingresos mensuales superiores a 450.000 ptas. ( c17 = 9), etc. Si no lo hemos hecho con la variable edad ( c2 < 65) es porque el sistema no permite que una variable que forma parte del modelo pueda a la vez servir como criterio de selección de una submuestra, o al revés, a pesar de que como en este caso pueda tener sentido llevarlo a cabo. (Variable de selección: Elija una variable de selección para limitar el análisis a un subconjunto de casos que tengan un valor particular en esta variable. Después de elegir la variable, elija una relación (igual, distinto de, menor que, etc.), e introduzca un valor para la variable de selección de casos). 2.1.2. Modelo y criterios de ajuste En la Figura 2.4 podemos ver los parámetros estimados por el modelo de regresión logística. Definiremos las dos opciones de respuesta de los individuos en la variable dependiente ( b1 ) como respuesta SI y respuesta NO y, por tanto, cuando hablemos en lo sucesivo en términos de probabilidad haremos pr{sí} para referimos a una de las opciones y pr {no} para referimos a la otra Variables en la e cuación Pas o a 1 c1(1) c2 c6 Constante B -,930 -,001 -,228 1,744 E.T. ,139 ,005 ,032 ,293 Wald 44,867 ,072 51,121 35,375 gl 1 1 1 1 Sig. ,000 ,788 ,000 ,000 Exp(B) ,395 ,999 ,797 5,720 I.C. 95,0% para EXP(B) Inferior Superior ,301 ,518 ,988 1,009 ,748 ,848 a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6. Fig 2.4 153 Si el modelo contase con una única variable independiente, podría escribirse: e B0 pr sí donde: 1 e B1 X 1 pr sí o B0 B1 X 1 B0 B1 X e B0 y B1 son los coeficientes estimados a partir de los datos. X sería la variable independiente. e es la base de logaritmos naturales (2,718) Si el modelo contase con varias variables independientes, como es el caso: eZ 1 eZ pr sí o pr sí B2 X 2 1 1 e Z donde: Z es la combinación lineal: Z B0 B1 X 1 Bp X p Lógicamente la pr{no}= 1 - pr{sí}. Observamos que así como en la regresión lineal la estimación de parámetros se lleva a cabo a través del método de mínimos cuadrados" en la regresión logística se utiliza el método de máxima verosimilitud, de modo que los coeficientes que estima el modelo hacen nuestros datos «más verosímiles». Puesto que el modelo no es lineal, se necesita un algoritmo iterativo para esta estimación. Pues bien, estos coeficientes y para el modelo hipotetizado son los que aparecen en la primera columna (B) de la Tabla 2.4. Según estos coeficientes el modelo de regresión logística para el ejemplo podríamos escribirlo como sigue: pr b1 1 1 e Z donde Z = 1,74403 - 0,93005 (sexo) - 0,00145 (edad) - 0,22751 (nivel de estudios). Aplicado el modelo a un individuo cualquiera de la muestra, por ejemplo, el primero de la base de datos que es un hombre (nivel 1) de 26 años de edad y con un nivel de estudios primarios (nivel 2), tendremos: Z 1 = 1,744 - 0,93(1) – 0,0015(26) - 0,2275(2) = 0,32 pr b1 1 1 2,7188282 0.32 0,579324 154 Puesto que, tal y como hemos comentado con anterioridad, esta probabilidad oscila entre 0 y 1, correspondiendo 0 a la categoría Sí trabaja. y 1 a la categoría No trabaja y estando establecido por defecto el punto de corte en 0,5, el individuo número 1 de la muestra que es un hombre de 26 años y con estudios primarios, el modelo lo clasificará como que «no trabaja», dadas sus características en las variables independientes. El número de «aciertos» globales del modelo en esta clasificación será uno de los indicadores fundamentales de la bondad del mismo, tal y como veremos más adelante. También veremos que tanto esta probabilidad para cada sujeto como su asignación a una u otra categoría serán dos columnas que podrá generar el sistema en la base de datos. La segunda columna de la tabla de la Figura 2.4 (S.E.) corresponde a los errores estándar de los coeficientes y la tercera (Wald) corresponde al estadístico de Wald que contrasta la hipótesis de si los coeficientes son iguales a “0” y que sigue una distribución 2 con unos grados de libertad y un nivel de significación que son los que aparecen en las columnas 4ª y 5ª de la tabla. Como el estadístico de prueba del contraste tiene un grado de libertad, el estadístico de Wald puede calcularse como el cuadrado del cociente entre el valor del coeficiente y su error estándar. En concreto, y para la primera variable c1 : Estadístico de Wald = Coeficiente E. estándar 2 0,93 0,1388 2 44,89 A partir de los datos de la tabla y con un riesgo = 5 por 100 podemos concluir que los coeficientes de las variables c1 y c6 son estadísticamente distintos de “0” y por tanto significativos con valores respectivos 44,8666 y 51,1204 y nivel de significación 0,0000 para ambos. En cambio no resulta significativo el coeficiente de la variable c2 (edad) con un estadístico de Wald de 0,0723 y un nivel de significación 0,7880. También es importante saber interpretar correctamente el signo de los coeficientes de regresión. Por ejemplo, signos negativos en la variable c6 (nivel de estudios) que, recordemos, tiene valores que oscilan entre 0 (no sabe leer) y 8 (estudios universitarios) significan que, en la medida que subimos en los valores de esta variable y, por tanto, elevamos el nivel de estudios, descendemos en los valores de la variable dependiente (situación laboral) que, recordemos, oscila entre 0 (sí trabaja) y 1 (no trabaja). La misma interpretación cabe hacer para el resto de variables del modelo Las últimas tres columnas de la tabla (Exp B) y los límites de estos coeficientes B estimados exponencialmente tienen mucho que ver con lo que sería la interpretación de los valores de los coeficientes en el modelo de regresión. Recordamos del modelo de regresión múltiple que en realidad el valor del coeficiente significaba el cambio en unidades de la variable dependiente por cada unidad de cambio en la variable independiente a que se refiere el coeficiente, permaneciendo invariantes los valores del resto de variables independientes del modelo. Pues bien, a nivel de coeficientes estimados exponencialmente la interpretación es muy similar y la diferencia estriba en que en este caso no se trata de incremento o disminución de la probabilidad de la variable dependiente por cada unidad de cambio en las independientes (permaneciendo el resto invariantes), sino del incremento o disminución que se produce en el cociente entre pr{sí}/pr{no}, obteniendo éste tal y como recoge la ecuación siguiente 155 pr sí pr no e B0 B1 X 1 B2 X 2 Bp X p e B0 e B1 X1 e B2 X 2 e Bp X p Las dos columnas últimas de la tabla recogen los límites de estos coeficientes así estimados para un nivel de confianza del 95 por 100 (valor por defecto) que se puede modificar en el subcuadro de diálogo Options de la Figura 2.2. a Tabla de clasifica ción Pronosticado Pas o 1 Obs ervado Situación laboral Porc entaje global Sí No Situación laboral Sí No 169 233 106 465 Porc entaje correcto 42,0 81,4 65,2 a. El valor de c orte es ,500 Fig 2.5 En la Figura 2.5 tenemos lo que se conoce como tabla de clasificación. Es una de las posibilidades que nos ofrece el sistema de poder interpretar el ajuste del modelo a los datos. El punto de corte está establecido por defecto en 0,5 y en total tenemos una muestra de 973 individuos menores de 65 años, de los que 402 (169 + 233) se declaran «activos» y 571 no realizan ningún tipo de trabajo. De los primeros, es decir, de los que sí trabajan, el sistema clasifica correctamente únicamente 169, que son los que aparecen en la primera casilla de la diagonal de la tabla. Estos 169 sobre los 402 de la fila suponen un porcentaje de clasificación correcta de únicamente el 42,04 por 100. De los 571 que declaran no trabajar, 465 son clasificados correctamente, lo que supone un porcentaje del 81,44 por 100. En total 634 sobre 973 son correctamente clasificados por el modelo, lo que supone un porcentaje del 81,44 por 100. En total 634 sobre 973 son correctamente clasificados por el modelo, lo que supone un porcentaje del 65,16 por 100. Fuera de la diagonal de la tabla tenemos los casos incorrectamente clasificados. . Idealmente, un buen modelo en este caso debería asignar probabilidades muy bajas a los individuos que sí trabajan y muy próximas a 1 a los que no trabajan y, por tanto, el gráfico que veremos a continuación responde a una distribución bimodal y con valores extremos. Pero en la práctica puede suceder que los individuos correcta o incorrectamente clasificados lo sean en mayor o menor número con valores próximos al punto de corte, es decir, valores próximos a 0,50. Esto nos abrirá las puertas a una posible modificación de este punto de corte, que podremos llevar a cabo en el subcuadro de diálogo Opciones de la Figura 2.2 (Punto de corte para la clasificación) y siempre con el objetivo de aumentar el porcentaje de casos correctamente clasificados por el modelo. De cualquier modo, y sobre todo en investigación experimental y diagnóstico, conviene tener muy presente los riesgos que puedan derivarse de una incorrecta clasificación en uno y otro sentido y que en gran medida determina también el establecimiento de este punto de corte. En la Figura 2.6 tenemos representadas las probabilidades estimadas por el modelo para todos los sujetos de la muestra. 156 Fig 2.6 En abcisas tenemos los valores de probabilidad y la división en dos partes tomando como referencia el punto de corte 0,50, figurando a la izquierda S de respuesta afirmativa y a la derecha N de respuesta negativa. En el histograma cada símbolo S o N representa el grupo o nivel al que el individuo específico o grupo de individuos (en el ejemplo son 12,5 por cada símbolo) pertenecen realmente y que puede no coincidir con el grupo o nivel al que son asignados según las probabilidades estimadas a .partir de los coeficientes del modelo. En concreto, todas las N situadas a la izquierda de 0,5 corresponden cada una de ellas a grupos de 12,5 individuos que no trabajan y a los que el modelo ha clasificado como que sí trabajan, y al revés con todas las S situadas a la derecha de 0,5. Como comentábamos anteriormente, cuanto valores más extremos y menores asignaciones incorrectas tengamos, más eficaz será el modelo. Por otro lado, y a la vista de los resultados en el histograma, desplazar el punto de corte tampoco redundaría en una mejora ostensible del modelo. En la Figura 2.7 tenemos entre otras informaciones los resultados de diversos criterios que nos miden igualmente la bondad de ajuste del modelo a los datos. 157 a,b,c ,d Historial de iteraciones a,b,c Historial de iteraci ones Iteración Pas o 1 0 2 3 -2 log de la verosimilitud 1319,364 1319,361 1319,361 Coeficientes Constante ,347 ,351 ,351 Iteración Pas o 1 1 2 3 4 a. En el modelo se inc luye una constante. b. -2 log de la verosimilitud inic ial: 1319,361 c. La estimación ha finalizado en el número de iteración 3 porque las estimaciones de los parámetros han cambiado en menos de ,001. -2 log de la verosimilitud 1205,779 1204,392 1204,391 1204,391 Constante 1,577 1,739 1,744 1,744 Coeficientes c1(1) c2 -,829 -,002 -,927 -,001 -,930 -,001 -,930 -,001 a. Mét odo: Int roducir b. En el modelo se incluye una cons tante. c. -2 log de la verosimilitud inicial: 1319,361 d. La estimac ión ha finalizado en el número de iteración 4 porque las estimaciones de los parámetros han cambiado en menos de ,001. Pruebas om nibus sobre l os coe ficiente s del m odelo Resumen de los model os Pas o 1 -2 log de la R cuadrado verosimilitud de Cox y Snell 1204,391a ,111 R cuadrado de Nagelkerke ,150 Pas o 1 Pas o Bloque Modelo Chi-cuadrado 114, 970 114, 970 114, 970 gl 3 3 3 Sig. ,000 ,000 ,000 a. La estimac ión ha finalizado en el número de iteración 4 porque las est imaciones de los parámetros han cambiado en menos de ,001. Fig 2.7 Una posibilidad consiste en ver cuán «verosímiles» son los resultados obtenidos a partir de los parámetros estimados, sin olvidar que éstos están estimados justamente a través del método de máxima verosimilitud. Se suele utilizar -2 Log Likelihood (-2LL), de modo que sus valores tenderán a 0 si la verosimilitud tiende a máxima y al revés si esta es baja. En el ejemplo, y con un valor –2LL = 13l9,3615 con únicamente la constante en el modelo y 1204,391 con todas las variables (recordar que hemos utilizado el método Enter y un solo bloque de variables), podemos concluir con un deficiente ajuste del modelo a los datos. El estadístico 2 testa la hipótesis nula de si los coeficientes del modelo en su conjunto son estadísticamente distintos de 0, circunstancia que se confirma, corroborando, en parte, los resultados obtenidos a través del estadístico de Wald de la tabla de la Figura 2.4. El hecho de utilizar un solo bloque de variables y que éstas no entren paso a paso sino a la vez hace que el estadístico sea el mismo para el modelo, el bloque y el único paso de la prueba. 2.1.3. Variables categóricas, nuevas variables y opciones Por defecto, el sistema considera las variables string de la base de datos como variables categóricas (el nombre de la empresa, el modelo de vehículo, etc.) y las variables numéricas como continuas, pero sucede en muchos casos que algunas de las variables de la base de datos codificadas como numéricas no son tales, sino categóricas, y los valores numéricos asignados no tienen otra finalidad que la de diferenciar unas categorías de otras.. Variables de este tipo tenemos varias en nuestros archivos y, en concreto, en el de trabajo.sav una muy característica puede ser el estado civil ( c3 ) con valores (1) soltero, (2) casado, (3) vive en pareja (4) separado/a, (5) divorciado/a y (6) viudo/a. Ni en la regresión logística ni en la lineal podemos entrar esta variable como independiente numérica y si queremos que sea tratada como tal categórica que es, deberemos pulsar el botón Categorical del cuadro de diálogo principal de la regresión logística (Figura 2.1) y acceder al subcuadro de diálogo Define Categorical Variables de la Figura 2.8. 158 c6 -,206 -,227 -,228 -,228 Fig 2.8 Partiendo de nuevo del archivo trabajo.sav y seleccionados también los individuos de edad < 65 años, entramos de nuevo en el cuadro de diálogo principal de la regresión logística (Figura 2.1). A las tres variables covariantes entradas en el apartado anterior ( c1 , c2 y c6 añadimos c3 (estado civil) y como dependiente seguimos dejando b1 . Pulsamos el botón Categorical y accedemos al subcuadro de diálogo de la Figura 2.8. Pasamos a Categorical Covariates c1 (que ya lo estaba) y c3 . Como contraste dejamos la opción por defecto Indicator y como categoría de referencia seleccionamos Last. Pulsamos Continue y del subcuadro Options seleccionamos exactamente las mismas que anteriormente (Figura 2.2) dejando el resto de opciones por defecto. Ejecutamos el procedimiento con OK. Entre otros resultados de interés que modificarán ligeramente los obtenidos con el modelo anterior, nos encontraremos en el output con la tabla de la Figura 2.9 que comentamos a continuación. Codificaciones de varia bles ca tegóricas Estado civil Sex o Solt ero Cas ado Vive pareja Separado Divorciado Viudo Hombre Mujer Frec uencia 290 635 9 13 5 21 484 489 (1) 1,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 Codificación de parámetros (2) (3) (4) ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000 (5) ,000 ,000 ,000 ,000 1,000 ,000 Variables en la e cuación Pas o a 1 c1(1) c2 c6 c3 c3(1) c3(2) c3(3) c3(4) c3(5) Constante B -1,026 ,017 -,252 E.T. ,144 ,007 ,033 ,294 -,720 1,053 -,772 -1,007 1,575 ,684 ,649 1,063 ,899 1,128 ,746 Wald 50,553 6,265 57,714 30,640 ,184 1,233 ,982 ,737 ,797 4,458 gl 1 1 1 5 1 1 1 1 1 1 Sig. ,000 ,012 ,000 ,000 ,668 ,267 ,322 ,391 ,372 ,035 Exp(B) ,359 1,017 ,777 1,341 ,487 2,867 ,462 ,365 4,830 I.C. 95,0% para EXP(B) Inferior Superior ,270 ,476 1,004 1,031 ,728 ,829 ,351 ,137 ,357 ,079 ,040 5,129 1,735 23,019 2,692 3,334 a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6, c3. Fig 2.9 159 El sistema nos ha recodificado de manera automática las dos variables que le hemos señalado como variables categóricas. El caso de la variable dicotómica es poco problemático puesto que el sistema se limita a codificada como 1 y 0. Son las variables dummy y pueden lógicamente cambiarse las asignaciones recodificando previamente la variable en la base de datos. En el caso de la segunda de las variables ( c3 ) observamos que el sistema ha creado tantas nuevas variables (véase la tabla Variables in the Equation de la Figura 2.9) como categorías menos una tiene la variable original. La asignación de coeficientes para cada categoría que lleva a cabo el sistema se hace de acuerdo con la categoría de referencia ( Last, en el ejemplo) y el tipo de contraste (Indicator) que es la opción por defecto. Obviamente se pueden cambiar una y otra opción. La primera tabla de la Figura 2.9 nos da los códigos de la variable para las seis categorías (Value) y las frecuencias por categoría. Entre paréntesis las cinco nuevas variables generadas por el sistema y bajo cada columna los coeficientes creados por el sistema para las nuevas variables. Observar que estos coeficientes son todos 0 para la categoría tomada como referencia (la última/viudo/a en el ejemplo) y el resto tendrán en la matriz de contrastes 0 o 1 indicando su presencia o ausencia en la variable: Los solteros, código 1 en la primera variable y 0 en el resto. Los casados, 0 en la primera variable, 1 en la segunda variable y 0 en el resto de las variables. Y así sucesivamente para las cinco categorías, excepto la de referencia. El valor estimado por el modelo para cada coeficiente B de cada una de las nuevas variables deberá interpretarse del mismo modo que el resto de coeficientes de las variables independientes del modelo, pero siempre teniendo como referencia la categoría tomada como tal, de modo que estar soltero, casado, etc., incremental disminuye la probabilidad de estar activo o no, siempre respecto a la categoría de referencia, viudo/a en este caso. Volvemos de nuevo al modelo original planteado en el apartado 2.1.2 y con b1 como dependiente, c1 , c2 y c6 como covariantes. Pulsamos el botón Save y accedemos al subcuadro de diálogo Save New Variables de la Figura 2.10. Seleccionamos todas las opciones del mismo y pulsamos Continue. De los subcuadros Categorical y Options podemos seleccionar las mismas opciones que en el apartado 2.1.2. . Fig 2.10 160 Una vez estimado el modelo de regresión lineal, resultaba de interés analizar los diversos tipos de residuales, los diversos indicadores de distancia, estadísticos de influencia, diagnósticos de colinealidad, etc., puesto que resultaban herramientas útiles para identificar aquellos puntos en los que el modelo no ajustaba correctamente, puntos con gran influencia en la estimación de parámetros, variables estrechamente relacionadas con otras, etc. En la regresión logística encontramos estadísticos similares y son los que aparecen en el subcuadro de diálogo de la Figura 2.10. Éstas son sus características: PRE_l (Probabilities). Probabilidad de ocurrencia de cada caso predicha por el modelo. PGR_l (Predicted Group). Grupo al que será asignado cada sujeto de acuerdo con su probabilidad. Si cruzamos esta variable con b1 (dependiente) a través de Crosstabs, obtendremos idénticos resultados que en la tabla de clasificación de la Figura 2.5. COO_1 y LEV _1 (Distancia de Cook y Leverage). Al igual que en la regresión lineal, miden la influencia de cada caso en los residuales y en las predicciones respectivamente. La distancia de Cook mide la influencia de eliminar un caso, no únicamente en su residual sino en el resto de residuales del resto de sujetos. Se calcula: Di donde: Z i2 1 hi hi 2 Z es el residual estandarizado y h es el valor Leverage Por su parte, el Leverage mide el impacto de las puntuaciones en las predicciones y, contrariamente a lo que sucede en la regresión lineal, su valor depende tanto de la variable dependiente como del resto de elementos del modelo. Sus valores oscilan entre 0 y 1 y su media se calcula como cociente entre p y N, siendo p el número de parámetros estimados por el modelo, incluida la constante, y N el tamaño de muestra. RES_l (Residuals). Diferencia entre las probabilidades observadas y las predicciones. L ZRE_l (Standardized Residuals). Residuales estandarizados como cociente entre los residuales y una estimación de la desviación estándar. Zi Re sidual pi 1 pi Si la muestra es grande, deben seguir una distribución normal de media = 0° y desviación estándar =1. 161 Resúmene s de ca sosa 1 2 3 4 5 6 7 8 9 10 Total Número de c aso 1 2 3 4 5 6 8 9 10 11 N Probabilidad pronosticada ,57961 ,57713 ,58377 ,80793 ,77499 ,62229 ,34926 ,63139 ,56967 ,52195 10 Grupo pronosticado No No No No No No Sí No No No 10 Diferencia entre las probabilida des pronosticad as y obs ervadas -,57961 -,57713 -,58377 ,19207 ,22501 -,62229 ,65074 ,36861 -,56967 ,47805 10 Res iduo normalizado -1,17420 -1,16824 -1,18428 ,48758 ,53883 -1,28357 1,36500 ,76408 -1,15055 ,95703 10 a. Limitado a los primeros 10 casos . 2.1.4. Métodos de selección de variables Una vez más, y partiendo del archivo trabajo.sav del que hemos seleccionado exclusivamente los individuos de edad inferior a 65 años, entramos en el cuadro de diálogo de la regresión logística (Figura 2.1) y entramos exactamente las mismas variables que allí definimos, es decir, b1 como dependiente y c1 (Cat) , c2 y c6 como covariantes. Si abrimos la lista desplegable del botón Method observaremos que disponemos de siete opciones distintas además de Enter que es la opción por defecto y utilizada hasta este momento. Seleccionamos Forward: Wald. No entramos en el subcuadro Save y de Options seleccionamos todas las opciones y valores por defecto que aparecen en la Figura 2.2 y que hemos utilizado hasta el momento. Ejecutamos el procedimiento con OK. Señalar ante todo que lo que acabamos de hacer no es sino seleccionar un procedimiento distinto al Enter de entrada de variables en el modelo, rememorando algo que ya hicimos en la regresión lineal múltiple. Distintos algoritmos pueden dar lugar a diferentes modelos, de entre los que 162 deberemos seleccionar aquel que, además de una buena capacidad explicativa y un buen ajuste, sea interpretable y lo más sencillo posible. Las tablas de la Figura 2.11 recogen un resumen de lo que sería el output de la regresión logística con el método Forward Wald. Debemos advertir al lector que al igual que en otros muchos casos, en esta figura se recoge únicamente la esencia del procedimiento y en el output encontrará mucha más información. Esta información hace referencia a los diversos tests de ajuste en cada paso del modelo, tabla de clasificación, histograma, pruebas de significación de los coeficientes del modelo, etc., que no hacen sino reiterar para cada paso algo que el lector ya conoce del modelo general visto anteriormente. En la lista desplegable Method encontramos dos opciones distintas, cada una de ellas con tres alternativas. Estas dos opciones son: Forward Stepwise Selection: las variables van entrando (o saliendo) del modelo de una en una, a partir de un modelo inicial en el que únicamente figura la constante. Es el utilizado en este ejemplo. Backward Stepwise Selection: las variables van saliendo del modelo (o volviendo a entrar en el mismo) también una a una, pero a partir del modelo inicial en el que todas ellas están incluidas. De este modo, y en el primer cuadro del output, observamos cómo en efecto la única «variable» que figura en el modelo es la constante, con un coeficiente, error estándar, etc., que ya hemos interpretado con anterioridad. Variables en la e cuación Pas o 0 B ,351 Constante E.T. ,065 Wald 29,054 gl 1 Sig. ,000 Exp(B) 1,420 Pruebas omnibus sobre los coeficientes del modelo Chi-cuadrado Paso 1 Paso 2 gl Sig. Paso 55,739 1 ,000 Bloque 55,739 1 ,000 Modelo 55,739 1 ,000 Paso 5,920 1 ,015 Bloque 61,659 2 ,000 Modelo 61,659 2 ,000 Resumen de los modelos Paso 1 2 -2 log de la verosimilitud 1263,622(a) R cuadrado de Cox y Snell ,056 R cuadrado de Nagelkerke ,075 1257,702(a) ,061 ,083 a La estimación ha finalizado en el número de iteración 3 porque las estimaciones de los parámetros han cambiado en menos de ,001. Variables que no están e n la ecuación Pas o 1 Vari ables Pas o 2 Estadísticos global es Vari ables Estadísticos global es c2 c3 c3 Puntuación 5,898 ,062 8,109 2,290 2,290 gl 1 1 2 1 1 Sig. ,015 ,803 ,017 ,130 ,130 163 Variables en la e cuación Pas a o 1 Pas b o 2 c1(1) Constante c2 c1(1) Constante B -,988 ,864 ,012 -,975 E.T. ,135 ,099 ,005 ,135 Wald 53,935 76,129 5,873 52,220 ,397 ,215 3,408 gl 1 1 1 1 Sig. ,000 ,000 ,015 ,000 Exp(B) ,372 2,372 1,012 ,377 1 ,065 1,487 I.C. 95,0% para EXP(B) Inferior Superior ,286 ,485 1,002 ,289 1,022 ,491 a. Variable(s) introduc ida(s) en el paso 1: c 1. b. Variable(s) introduc ida(s) en el paso 2: c 2. En el segundo cuadro de la Figura 2.11, tenemos en primera instancia las variables que no han entrado en el modelo todavía. El sistema analiza el estadístico Score y su grado de significación y, de las tres variables que en este caso están fuera del modelo, selecciona para entrar en el mismo aquella que tiene un grado de significación más bajo, en este caso, la variable c6 con un estadístico igual a 68,285 y una p = 0,0000. A continuación, el sistema compara este grado de significación con el criterio de entrada establecido (por defecto y en este caso 0,05), tal y como podemos observar en Probability for Stepwise: Entry = 0,05 de la Figura 2.2. Como quiera que el grado de significación p = 0,0000 es menor que 0,05, la variable entra en el modelo en el primer paso, tal y como observamos en el tercer cuadro. Una vez entrada la variable en el modelo, el sistema reevalúa el mismo al objeto de constatar si todas ellas cumplen con el criterio de salida. El criterio viene definido tanto por el estadístico utilizado (el de Wald en el ejemplo) como por la probabilidad asignada al mismo para que una variable salga del modelo. En el subcuadro de diálogo de la Figura 2.2 podemos ver que esta probabilidad es por defecto 0,10 (Probability for Stepwise Removal: 0,10) y, por tanto, todas las variables quedarán dentro del modelo. En el tercer bloque aparecen en primer lugar las variables que todavía están fuera del modelo; el sistema selecciona c1 para entrar en este paso, cumple el criterio de entrada (p = 0,0000 menor que 0,05) y en efecto entra en el mismo. Una vez dentro, tanto la constante como las dos variables entradas cumplen el requisito de salida y permanecen en el mismo. Finalmente, y en el último bloque c2 con un Score = 0,0723 y un grado de significación p = 0,7880, no cumple el requisito de entrada, con lo que el sistema se detiene y queda establecido el modelo definitivo. El subcuadro de diálogo Options de la Figura 2.2 recoge alguna opción más, interesante para los distintos métodos de entrada de las variables en el modelo. Display ofrece una doble alternativa, que consiste la primera (At each step) en que el output recoja todos los estadísticos y gráficos seleccionados para cada paso del modelo, siempre que el método no sea el Enter en cuyo caso entran todas las variables a la vez. Como comentábamos anteriormente, esto nos permitirá evaluar el modelo en cada estadio distinto. El resto de opciones, o las hemos analizado anteriormente o no necesitan mayores comentarios por nuestra parte, y únicamente recordar del capítulo 6 de Estadística básica que los límites del gráfico de «outliers» podemos modificarlos y hacer visibles o únicamente éstos o todos los casos. Al final del output el sistema nos advierte de no haber encontrado outliers con los límites fijados, que es la opción por defecto, es decir, dos desviaciones estándar. Referencia: Análisis Estadístico con SPSS para Windows. Volumen II: Estadística Multivariante. Autor Visauta Vinacua. Mc Graw Hill. 164 Ejemplo (Regresión logística simple) Este ejemplo muestra cómo ejecutar el procedimiento Regresión logística con las especificaciones que el programa tiene establecidas por defecto y cómo interpretar los resultados obtenidos. Considere el archivo GSS93 reducido.sav, que se encuentra en la misma carpeta en la que está instalado el SPSS. El archivo contiene variables socio-demográficas y de opinión correspondientes a la Encuesta General (General Social Survey) del año 93. Se trata de una macroencuesta realizada anualmente en los Estados Unidos de América. A partir de estos datos se va a intentar predecir y explicar si una persona ha votado o no en las últimas elecciones a partir de un conjunto de características socio-demográficas. La variable que distingue a los sujetos que manifiestan haber votado de aquellos que manifiestan no haber votado es la variable voto92. Para conocer cómo se comporta esta variable, la tabla 1 muestra su distribución de frecuencias. Tabla 1 Votó en las elecciones de 1992 Válidos Perdidos Total Ha votado No ha votado No elegible Rehusa Total No sabe No contesta Total Frecuencia 1032 420 34 6 1492 4 4 8 1500 Porcentaje 68,8 28,0 2,3 ,4 99,5 ,3 ,3 ,5 100,0 Porcentaje válido 69,2 28,2 2,3 ,4 100,0 Porcentaje acumulado 69,2 97,3 99,6 100,0 La variable Voto92 presenta más de dos categorías de respuesta. Si se utiliza como variable dependiente tal como se encuentra en el archivo de datos, el Visor emitirá una advertencia comunicando que la variable dependiente seleccionada tiene más de dos categorías y que no es posible llevar a cabo el análisis. Para poder utilizar una variable politómica como variable dependiente en un análisis de regresión logística binaria, es necesario filtrar previamente las dos categorías con las que se desea trabajar o, alternativamente, recodificar la variable original haciéndole tomar sólo dos valores, cuando esto tenga sentido. En el ejemplo, se ha utilizado el procedimiento Recodificar > En distintas variables del menú Transformar para crear una nueva variable denominada voto, con etiqueta “¿Votó en 1992?”. En esta nueva variable, se ha asignado el código 0 (con etiqueta “Sí votó”) a los casos con valor 1 en la variable voto92, y el código 1 (con etiqueta “No votó”) a los casos con valor 2 en la variable voto92. Esta última categoría (1= “No votó”) va a desempeñar un importante rol en el análisis (como se verá más adelante, aunque los códigos asignados a las categorías de la variable dependiente no afectan al proceso de estimación de los parámetros del modelo, tienen especial importancia en la interpretación de los resultados). La tabla 2 muestra la distribución de frecuencia de la nueva variable voto. Un dato interesante de estos resultados es que el 28,9% de las personas encuestadas no votó en las elecciones. 165 Tabla 2 ¿Votó en 1992? Válidos Perdidos Total Sí votó No votó Total Sist ema Frec uencia 1032 420 1452 48 1500 Porc entaje 68,8 28,0 96,8 3,2 100, 0 Porc entaje válido 71,1 28,9 100, 0 Porc entaje acumulado 71,1 100, 0 Para simplificar la explicación de esta primera aproximación al análisis de regresión logística también se ha recodificado la variable periodic (frecuencia con la que se lee el periódico) en una nueva variable denominada leer, con etiqueta “¿Lee el periódico?”. En esta nueva variable, a los casos con código 1 (“Diariamente”), 2 (“Varios días a la semana”) y 3 (“Varios días al mes”) se les ha asignado el código 0, con etiqueta “Si lee”; y a los casos con valores 4 (“Raramente”) y 5 (“Nunca”) se les ha asignado el código 1, con etiqueta “No lee”. La tabla 28.3 ofrece la distribución de frecuencia de la nueva variable. Tabla 3 ¿Le e el pe riódico? Válidos Perdidos Total Sí lee No lee Total Sist ema Frec uencia 862 148 1010 490 1500 Porc entaje 57,5 9,9 67,3 32,7 100, 0 Porc entaje válido 85,3 14,7 100, 0 Porc entaje acumulado 85,3 100, 0 Para averiguar si la variable que se desea utilizar como dependiente ( voto) está relacionada con la variable que se va a utilizar como independiente (leer), se puede, como paso previo, cruzar ambas variables en una tabla de contingencias bidimensional. El procedimiento Estadísticos descriptivos > Tablas de contingencias del menú Analizar permite obtener las frecuencias conjuntas que muestra la tabla 4. La tabla contiene las frecuencias observadas y los porcentajes de columna. El porcentaje de sujetos que manifiesta haber votado es del 74,9% entre los sujetos que leen el periódico y del 47% entre los sujetos que no leen el periódico. Los resultados de la tabla indica que de los 1.500 casos del archivo original, únicamente 976 poseen respuestas válidas en ambas variables. Tabla 4 Tabla de contingencia ¿Votó e n 1992? * ¿Le e el pe riódico? ¿Votó en 1992? Sí votó No votó Total Rec uento % de ¿Lee el periódico? Rec uento % de ¿Lee el periódico? Rec uento % de ¿Lee el periódico? ¿Lee el periódico? Sí lee No lee 624 68 74,9% 47,6% 209 75 25,1% 52,4% 833 143 100, 0% 100, 0% Total 692 70,9% 284 29,1% 976 100, 0% 166 Para comprobar si es posible predecir el resultado de la variable voto a partir de la variable leer mediante una ecuación de regresión logística: En el cuadro de diálogo Regresión logística binaria (ver figura 4), seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar la variable leer y trasladarla a la lista Covariables. Aceptando estas elecciones, el Visor de resultados ofrece la información que muestran las tablas 5 a la 13. La tabla 5 informa sobre el número de casos válidos incluidos en el análisis y sobre el número de casos excluidos del análisis por tener algún valor perdido (ya sea en la variable dependiente, en la independiente, o en ambas). Tabla 5 Resumen del procesam iento de los casos Cas os no ponderados Cas os seleccionados a N Incluidos en el análisis Cas os perdidos Total Cas os no s eleccionados Total 976 524 1500 0 1500 Porc entaje 65,1 34,9 100, 0 ,0 100, 0 a. Si está activada la ponderación, c onsulte la tabla de clasificación para ver el número total de cas os. Tabla 6 Codificación de la variabl e depe ndiente Valor original Sí votó No votó Valor interno 0 1 La tabla 6 muestra la codificación interna utilizada por el procedimiento para distinguir los casos en cada una de las categorías de la variable dependiente. El procedimiento asigna el valor 0 a los casos que presentan el menor valor en la variable dependiente (sea éste numérico o de cadena) y asigna el valor 1 a los casos con mayor valor. En el ejemplo, los códigos originales de la variable dependiente y los códigos internos asignados por el procedimiento coinciden. Como se verá más adelante, la categoría con el valor interno 1 juega un papel especial en la interpretación del modelo. 167 Tabla 7 a,b Tabla de clasifica ción Pronosticado Pas o 0 Obs ervado ¿Votó en 1992? ¿Votó en 1992? Sí votó No votó 692 0 284 0 Sí votó No votó Porc entaje correcto 100, 0 ,0 70,9 Porc entaje global a. En el modelo se inc luye una const ante. b. El valor de c orte es ,500 El modelo de regresión logística no es un modelo lineal, por lo que se utiliza un método de máxima verosimilitud para estimar los parámetros del modelo que sólo incluye la constante (no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la dimensión de las filas que recuerda que se trata del paso 0. La tabla 7 muestra la clasificación de los casos en el Visor bajo el título Bloque 0 = Bloque inicial y contienen información relacionada con el modelo nulo: el modelo que sólo incluye la constante (no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la dimensión de las filas que recuerda que se trata del paso 0. La tabla 7 muestra la clasificación de los casos en el paso 0. Esta tabla se denomina también la matriz de confusión y en ella se cruza el resultado observado en la variable dependiente con el resultado pronosticado por el modelo nulo. Puesto que el modelo nulo todavía no incluye la variable independiente, todos los casos son clasificados en la misma categoría: aquélla a la que pertenecen más casos. Por tanto, el porcentaje de casos correctamente clasificados coincide con el porcentaje de casos pertenecientes a esa categoría más numerosa. Los datos de la matriz de confusión en el paso 0 coinciden con la frecuencia marginales de la variable dependiente tal como se presenta en la tabla 4; pero, lógicamente, no coinciden con las frecuencias de su distribución univariante dependiente (ver tabla 2) cuando existen valores perdidos. La tabla 8 ofrece la estimación correspondiente al término constante (B= -0,891), varios estadísticos asociados a esa estimación ( error típico, estadístico de Wald y grados de libertad) y la significación o nivel crítico del coeficientes estimado ( Sig). De momento, la constante es el único término presente en el modelo. Tabla 8 Variables en la e cuación Pas o 0 Constante B -,891 E.T. ,070 Wald 159,717 gl 1 Sig. ,000 Exp(B) ,410 La tabla 9 contiene información sobre lo que ocurrirá cuando la variable independiente sea incorporada al modelo: ofrece, para cada variable independiente, un contraste de la hipótesis nula de que el efecto de la variable es nulo. Puesto que en este ejemplo únicamente se está utilizando una variable independiente (leer), la tabla sólo muestra información referida a esa variable. Si el nivel crítico asociado al contraste (Sig.) es menor que 0,05, se puede rechazar la hipótesis nula y afirmar que la variable independiente contribuye significativamente a explicar el comportamiento de la dependiente (o, de otro modo, a mejorar el ajuste del modelo). Esta tabla tiene, según se verá, un interés especial cuando se ajustan modelos por pasos. Tabla 9 168 Variables que no están e n la ecuación Pas o 0 Variables Estadísticos globales Puntuación 44,275 44,275 LEE gl 1 1 Sig. ,000 ,000 Las tablas 10 a la 13 aparecen en el Visor bajo el título Bloque 1: Método = Introducir y contienen los resultados propiamente dichos del modelo estimado. La tabla 10 muestra el resultado de contrastar la hipótesis nla de que el modelo no mejora con la inclusión de la variable independiente en el paso 1. En este caso todas las líneas de la tabla son iguales por ser la variable leer la primera y única variable incluida en el modelo. Puesto que el nivel crítico ( Sig) es menor que 0,05, se puede rechazar la hipótesis nula y concluir que la incorporación de la variable leer mejora significativamente el ajuste y la capacidad predictiva del modelo. Tabla 10 Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o Bloque Modelo Chi-cuadrado 40,723 40,723 40,723 gl 1 1 1 Sig. ,000 ,000 ,000 La tabla 11 muestra los estadísticos de bondad de ajuste global para el modelo estimado. Puesto que el modelo de regresión logística utiliza como variable criterio una variable categórica, estos estadísticos son meramente orientativos; suelen adoptar valores moderados o incluso bajos aun cuando el modelo estimado pueda ser apropiado y útil. Tabla 11 Resumen de los model os Pas o 1 -2 log de la R cuadrado verosimilitud de Cox y Snell 1136,392a ,041 R cuadrado de Nagelkerke ,058 a. La estimac ión ha finalizado en el número de iteración 4 porque las est imaciones de los parámetros han cambiado en menos de ,001. El concepto de verosimilitud hace referencia a la probabilidad de obtener una muestra como la obtenida cuando se asume que el valor verdadero de los parámetros es el estimado. La razón de verosimilitudes (es decir el logaritmo de la verosimilitud multiplicado por –2) se utiliza para valorar el ajuste del modelo. Dado que la verosimilitud es un valor menor que 1 (se parece a una probabilidad), suele transformarse en la razón de verosimilitudes para convertirla en un número positivo de mayor amplitud. Si el modelo se ajusta bien a los datos, la verosimilitud de los datos será grande y el valor de –2LL será pequeño (cuando el modelo se ajusta perfectamente a los datos, la verosimilitud vale 1 y –2LL vale 0). La razón de verosimilitudes del modelo nulo (el modelo en el paso 0) se utiliza como unto de referencia para valorar el incremento en el ajuste que se produce al incluir las variables independientes. De hecho, el estadístico de puntuación utilizado para valorar la capacidad predictiva de las variables independientes en los modelos por pasos se basa en el cambio que va experimentando -2LL en cada paso en relación con el valor de –2LL en el modelo nulo. 169 La tabla de clasificación (tabla 12), también denominada matriz de confusión o matriz de clasificación correcta, ofrece una clasificación de los casos basada en el modelo de regresión logística. Las filas de la tabla contienen las categorías de la variable dependiente a las que realmente pertenecen los casos, mientras que las columnas contienen las categorías pronosticadas por el modelo. En la diagonal principal se encuentra el número de casos correctamente clasificados por el modelo. La última columna contiene el porcentaje de casos correctamente clasificados en cada fila. (Lógicamente, si en lugar del porcentaje de errores de clasificación, la tabla recibiría el nombre de tabla de clasificación incorrecta). La matriz de confusión es en realidad un indicador de la validez del modelo, puesto que muestra su capacidad predictiva (su capacidad para clasificar correctamente los casos). Tabla 12 a Tabla de clasifica ción Pronosticado Pas o 1 Obs ervado ¿Votó en 1992? ¿Votó en 1992? Sí votó No votó 624 68 209 75 Sí votó No votó Porc entaje global Porc entaje correcto 90,2 26,4 71,6 a. El valor de c orte es ,500 La matriz de confusión no es del todo útil hasta que se consigue establecer el mejor punto de corte posible para la clasificación. Por defecto, el procedimiento utiliza como valor de corte la puntuación 0,5. En la mayoría de las situaciones, cuando el modelo incorpora un gran número de variables independientes y los grupos pronosticados son aproximadamente del mismo tamaño, este valor de corte es suficientemente bueno. Sin embargo, la determinación del mejor punto de corte corresponde al estudio de la clasificación, que será estudiada más adelante con detalle. La tabla de variables incluidas en la ecuación (tabla 13) muestra las estimaciones de los coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretarlos. Tabla 13 Variables e n la ecuación Pas o a 1 LEE Constante B 1,192 -1,094 E.T. ,186 ,080 Wald 41,258 187, 316 gl 1 1 Sig. ,000 ,000 Exp(B) 3,293 ,335 a. Variable(s) introduc ida(s) en el pas o 1: LEE. Para entender e interpretar todos estos resultados es conveniente revisar brevemente los fundamentos matemáticos del modelo de regresión logística. Por ahora basta con saber que el modelo contiene coeficientes significativamente distintos de 0 y que el hecho de que el coeficiente correspondiente a la variable leer sea positivo indica que los sujetos que no leen el periódico tienen una mayor probabilidad de no votar que los que si leen el periódico. Cálculo de las probabilidades pronosticadas Utilizando los datos de la tabla 13, la ecuación de regresión logística toma la forma : 170 1 P(Y 1) La variable dependiente 1 Y 1 B0 B1 X e 1 e ( 1,094 1,192 X ) del ejemplo es la variable voto (¿Votó en 1992?), una variable dicotómica que puede tomar los valores: Y 0 ”Si votó” e Y 1 ”No votó”. Y la variable independiente (X) del ejemplo es la variable (¿Lee el periódico?), una variable dicotómica que puede tomar los valores: X 0 “Sí lee” y X 1 ”No lee”. En el caso d que un encuestado no lea el periódico 1 , la probabilidad pronosticada por la ecuación de regresión logística X para la categoría “No votó” vale: P(Y 1 X 1 1) 1 e 1,094 1,192 1 1 1 e 0,098 0,5245 Y en el caso de que un encuestado lea el periódico, la probabilidad pronosticada para la categoría “No votó” vale: 1 P Y 1 X 0 1 e 1,094 1,192 0 1 1 e1,094 0, 2509 Por tanto, a partir de los pronósticos derivados de la ecuación de regresión logística, se puede afirmar que, entre los sujetos que manifiestan no leer el periódico, la probabilidad de abstención en las elecciones es mayor (aproximadamente el doble) que entre los sujetos que manifiestan leer el periódico. Es muy importante tener en cuenta que los pronósticos obtenidos con la ecuación de regresión logística siempre se refieren a una de las dos categorías de la variable dependiente: aquella codificada con el valor mayor y que es la que el procedimiento Regresión logística codifica internamente con el valor 1. En el ejemplo, la categoría “No votó”. Interpretación de los coeficientes En la ecuación de regresión lineal, el valor del coeficiente de regresión asociado a una variable independiente representa la cantidad de cambio en los pronósticos por unidad de cambio en el variable independiente. En el modelo de regresión logística no ocurre esto. En el ejemplo, el valor del coeficiente de la variable independiente es 1,192, mientras que la diferencia entre las dos probabilidades pronosticadas vale 0,524 – 0,251 = 0,273. El significado de los coeficientes de regresión no es el mismo en ambos modelos de regresión Con los datos del ejemplo, la transformación encuestado “Lee el periódico” (X = 0) vale: ln Por tanto, B0 P Y 1 X 0 P Y 0 X 0 B0 logit del suceso “No votó” (Y = 1), cuando el ln 0, 2509 1 0, 2509 ln 0,335 1, 094 1, 09 (ver tabla 13). Y la transformación logit del suceso “No votó” cuando el encuestado “No lee el periódico” (X = 1) vale: 171 ln P Y 1 X 1 P Y 0 X 1 B0 B1 ln 0,5245 1 0,5245 ln 1,103 0, 098 Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del coeficiente B1 (ver tabla 13): B1 0, 098 1, 094 1,192 Así pues, en el modelo de regresión logística, el coeficiente de regresión asociado a una variable independiente representa el cambio producido en la transformación logit por unidad de cambio en la variable independiente. Ahora bien, razonar en término de cambios en los logaritmos resulta poco intuitivo. Es preferible interpretar directamente el cambio en las ventajas y no en los logaritmos de las ventajas. Volviendo a la expresión de la ventaja: P Y P Y 1 0 e B0 B1 X e B0 e B1 X Se ve claramente que una ventaja se puede expresar en términos de potencias del número e. Por ello se suele informar del valor exponencial de los coeficientes de regresión. En los resultados de la regresión logística se incluye tanto el valor del coeficiente de regresión (B) como el de Exp(B) o eB . En el ejemplo, la ventaja del suceso “No votó” cuando el encuestado “No lee el periódico” vale 1,103, mientras que la ventaja de ese mismo suceso cuando el encuestado “Sí lee el periódico” vale 0,335. Si se expresa el cambio proporcional de la ventaja en términos de un cociente (como una razón) se obtiene 1,103/0,335 = 3,293, que es justamente el valor de e (ver Exp(B) en la tabla 13). A este cambio proporcional se le denomina razón de las ventajas (odds ratio en inglés), dado que es el resultado de dividir dos ventajas. Y se interpreta en términos del cambio proporcional (ya sea aumento o disminución) que se produce en la ventaja del suceso o evento de interés (“No vota” en el ejemplo) por cada unidad de cambio que se produce en la variable independiente (VI). Resumiendo: 1.19 La razón de las ventajas vale 1 (y su correspondiente coeficiente de regresión vale cero) cuando la VI no produce ningún efecto sobre la ventaja de un suceso. La razón de las ventajas es mayor que 1 (y su correspondiente coeficiente de regresión es mayor que 0) cuando un aumento en la VI lleva asociado un aumento de la ventaja del suceso. La razón de la ventajas es menor que 1 (y su correspondiente coeficiente de regresión es menor que 0) cuando un aumento en la VI conlleva una disminución de la ventaja del suceso. El valor 1 es, por tanto el referente para la interpretación. Si la probabilidad de un suceso bajo la condición A vale, por ejemplo, 0,60, la ventaja de ese suceso vale 0,60/0,40 = 1,5; y si la probabilidad de ese suceso bajo la condición B vale 0,80, su ventaja vale 0,80/0,50 = 4. Es decir, cuando la probabilidad de un suceso para de 0,60 a 0,80, su ventaja pasa de 1,5 a 4. Y la razón de las ventajas expresa este aumento adoptando un valor de 4/1,5 = 2,67, el cual indica que la ventaja del suceso ha aumentado 2,67 veces: 2,67(1,5) = 4. 172 Otro ejemplo. Si la probabilidad de un suceso bajo la condición A vale 0,60, su ventaja vale 0,60/0,40 = 1,5; si la probabilidad de ese suceso bajo la condición B vale 0,40, su ventaja vale 0,40/0,60 = 0,67. Es decir, cuando la probabilidad de un suceso pasa de 0,60 a 0,40, su ventaja pasa de 1,5 a 0,67 (disminuye 0,83 puntos). La razón de las ventajas expresa esta disminución adoptando un valor de 0,67/1,5 = 0,44, el cual indica que la ventaja del suceso ha disminuido un 56%: 0,56(1,5) = 0,83. En contextos relacionados con la salud, cuando el evento de interés se refiere a la aparición de una enfermedad o algún desenlace fatal, a las variables independientes cuya razón de las ventajas es mayor que 1 se les suele llamar factores de riesgo y a la variables independientes cuya razón de las ventajas es menor que 1, factores de protección. Análisis de Regresión logística múltiple Hasta ahora, por motivos didácticos, se han descrito los aspectos básicos de la regresión logística utilizando una sola variable independiente. Sin embargo, lo habitual es intentar que un modelo alcance la mayor capacidad discriminativa posible incluyendo en él más de una variable independiente. Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión logística utilizando más de una variable independiente. Se sigue utilizando el archivo GSS93 reducido.sav, la misma variable dependiente que en el primer ejemplo ( voto) y, además de la variable independiente allí utilizada (leer), otras cuatro nuevas: En el cuadro de diálogo Regresión logística, seleccionar la variable voto (¿Votó en 1992?) y trasladarla al cuadro Dependiente. Seleccionar las variables leer (¿Lee el periódico?), edad (Edad del encuestado), hijos (Número de hijos), educ (Años de escolarización) e ingfam91 (Ingresos familiares en 1991), y trasladarlas a la lista Covariables. Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 14 a la 18. Tabla 14 Variables que no están e n la e cuación Pas o 0 Variables Estadísticos globales LEE EDAD EDUC INGFAM91 HIJOS Puntuación 45,137 20,956 60,910 53,935 ,188 136, 954 gl 1 1 1 1 1 5 Sig. ,000 ,000 ,000 ,000 ,664 ,000 La tabla 14 contiene los valores del estadístico de puntuación de Rao. Este estadístico mide la contribución individual de cada variable a la mejora del ajuste global del modelo. El nivel crítico (Sig) asociado a cada estadístico indica qué variables contribuyen significativamente al ajuste. Puede verse que, exceptuando la variable hijos, todas las variables incluidas en el análisis son significativas; por tanto, buenas candidatas para formar parte del modelo de regresión. La última línea, Estadísticos globales, contiene una valoración global de todas las variables independientes tomadas juntas. 173 Tabla 15 Contrastes de ajuste global Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o Bloque Modelo Chi-cuadrado 143, 754 143, 754 143, 754 gl 5 5 5 Sig. ,000 ,000 ,000 La tabla 15 ofrece una prueba de ajuste global. El estadístico chi-cuadrado permite contrastar la hipótesis de que el incremento obtenido en el ajuste global del modelo es nulo. Este estadístico sirve para determinar si, al introducir las cinco variables independientes en el modelo, se consigue un incremento significativo del ajuste global. Este incremento se valora tomando como punto de referencia el modelo nulo. Puesto que el modelo se construye en un único paso (pues se está utilizando el método introducir; ver siguiente apartado), todas las secciones de tabla informan del mismo valor; la mejora respecto al modelo nulo, es decir, respecto al modelo del paso 0 (Chi-cuadrado = 143,754). En el ejemplo, esta mejora es significativa: Sig. = 0.000. Tabla 16 Resumen de los model os Pas o 1 -2 log de la R cuadrado verosimilitud de Cox y Snell 970,392a ,143 R cuadrado de Nagelkerke ,205 a. La estimac ión ha finalizado en el número de iteración 5 porque las est imaciones de los parámetros han cambiado en menos de ,001. La tabla 16 ofrece un resumen del modelo. Contiene tres estadísticos que permiten valorar el ajuste global del modelo en el paso 1, es decir, del modelo que incluye todas las variables. Comparando estos resultados con los de la tabla 11 se puede apreciar que los valores de los estadísticos de Cox y Snell y de Nagelkerke han mejorado, si bien siguen siendo modelos pensando en términos de un modelo lineal. Tabla 17 a Tabla de clasifica ción Pronosticado Pas o 1 Obs ervado ¿Votó en 1992? Porc entaje global Sí votó No votó ¿Votó en 1992? Sí votó No votó 615 54 189 76 Porc entaje correcto 91,9 28,7 74,0 a. El valor de c orte es ,500 174 La tabla 17 muestra la matriz de confusión con los resultados de la clasificación. Comparando estos resultados con los del modelo que únicamente incluye la variable leer (Ver tabla 12), puede apreciarse que el porcentaje global de clasificación correcta ha aumentado: ha pasado del 71,6 % al 74,0%. Sin embargo, el porcentaje de clasificación correcta sigue siendo mucho mayor en el grupo de votantes que en el de no votantes. Según se explicará más adelante, aunque no es posible mejorar el porcentaje global de clasificación correcta sin incluir nuevas variables independientes, si es posible equilibrar la tasa de aciertos en los dos grupos manipulando el punto de corte utilizado en la clasificación. Tabla 18 Variables e n la ecuación Pas a o 1 LEE EDA D EDUC INGFAM91 HIJOS Constante B ,671 -,034 -,192 -,056 ,018 3,636 E.T. ,207 ,006 ,032 ,016 ,051 ,526 Wald 10,468 36,188 35,276 12,722 ,125 47,706 gl 1 1 1 1 1 1 Sig. ,001 ,000 ,000 ,000 ,723 ,000 Exp(B) 1,956 ,967 ,825 ,945 1,018 37,957 a. Variable(s) introduc ida(s) en el pas o 1: LE E, EDA D, EDUC, INGFAM91, HIJOS. La tabla de variables incluidas en la ecuación (tabla 18) muestra las estimaciones de los coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretarlos. La significación de cada coeficiente se evalúa a partir del estadístico de Wald. Este estadístico permite contrastar la hipótesis nula de que el coeficiente vale cero en la población y se obtiene elevando al cuadrado el cociente entre el valor estimado del coeficiente (B) y su error típico (error tip). Es un estadístico similar a una t . Cuando el nivel crítico (Sig.) asociado al estadístico de Wald es menor que 0,05, se puede rechazar la hipótesis nula y, por tanto, concluir que la correspondiente VI está significativamente relacionada con la VD. Un inconveniente de este estadístico es que es demasiado sensible al tamaño de los coeficientes; en general, cuando el valor de un coeficiente es muy grande (en valor absoluto) el estadístico de Wald es poco fiable. En estos casos es preferible evaluar la significación de las variables utilizando un método por pasos (ver siguiente apartado). El coeficiente asociado a la variable hijos no es significativo (Sig. > 0,05) por lo que, en principio, no parece que sea necesario incluir esta variable en el modelo final. El resto de coeficientes son significativos. Por lo que puede afirmarse que todas las variables excepto hijos contribuyen significativamente a mejorar el ajuste del modelo. De todos los coeficientes significativos (Sig. < 0,05), sólo el correspondiente a la variable leer es positivo, por lo que ya se puede anticipar que sólo la razón de las ventajas de esta variable tendrá un valor mayor que uno: la abstención ( voto = 1) es más probable entre los sujetos que no leen el periódico (leer = 1). La columna de la razón de las ventajas, Exp(B), permite cuantificar en qué grado aumenta la abstención cuando los sujetos no leen el periódico (y se mantienen constantes las restantes variables). Puesto que el punto de comparación es el valor 1 y el Exp(B) de la variable leer vale 1,956, se puede concluir que al ventaja de la abstención entre los sujetos que no leen el periódico es aproximadamente el doble que entre los que sí lo leen. El signo negativo del resto de los coeficientes indica que el incremento en cualquiera de las demás variables disminuye la probabilidad de que un sujeto no vote: la abstención es menos probable a medida que aumentan la edad, los ingresos familiares y los años de escolarización. La razón de las ventajas de, por ejemplo, la variable educ (años de escolarización) vale Exp(B) = 2 175 0,825; como de nuevo el valor de comparación es 1, se puede afirmar que por cada año más de escolarización se consigue una reducción proporcional de la ventaja de 1-0,825 = 0,175; lo que significa que cada año adicional de escolarización reduce la ventaja de la abstención en un 17,5%. Con variables cuantitativas como la edad suele resultar más conveniente interpretar la razón de las ventajas asociada a una década en lugar de la razón de las ventajas asociada a un solo año. En kB ese caso, la razón de las ventajas asociada a un cambio de k unidades se obtiene mediante e , siendo B el coeficiente de regresión correspondiente al cambio de una unidad. En el ejemplo, la razón de las ventajas asociada a una década vale e 10 ( 0 , 034 ) 0,712 , lo que significa que por cada diez años que aumenta la edad de los sujetos, la ventaja de la abstención disminuye un 100 (1 – 0,712) = 28,8%. Conviene señalar que los coeficientes del modelo de regresión logística están expresados en la métrica original de las variables. A diferencia de lo que ocurre en el modelo de regresión lineal múltiple, aquí no es posible tipificar los coeficientes para valorar la importancia relativa de las variables. A pesar de eso, la interpretación de la razón de las ventajas se realiza en términos del cambio producido en la ventaja del suceso de interés por unidad de cambio producido en la variable independiente. Pero no parece que suponga el mismo esfuerzo cumplir un año más de edad que superar un año más de estudios. Para resolver este problema es habitual transformar la escala original de las variables independientes; cuando se utilizan variables tipificadas es más fácil interpretar la importancia relativa de una variable. Análisis de regresión logística por pasos Hasta ahora sólo se ha explicado cómo construir modelos de regresión logística en un único paso, es decir, forzando la inclusión en el modelo de todas las variables independientes seleccionadas para el análisis. Pero esta no es la única ni, muchas veces, la mejor manera de proceder. Cuando, como es habitual, se dispone de más de una variable independiente, existen varios métodos para seleccionar la variable o variables que deben formar parte del modelo de final: la introducción forzosa, la selección por pasos y la selección por bloques. El método de introducción forzosa hace que el modelo de regresión incluya todas las variables independientes seleccionadas. Tiene la ventaja de que permite establecer el efecto conjunto de todas las variables cuando existe colinealidad. Pero, como contrapartida, puede darse el caso de que un modelo incluya variables que no contribuyen al ajuste del modelo. Los métodos de selección por pasos permiten utilizar criterios estadísticos para, de forma automática, incluir en el modelo las variables que son significativas y dejar fuera las que no lo son. Estos métodos dan lugar a modelos que sólo incluyen variables significativas, pero tienen el inconveniente de que pueden dejar fuera del modelo variables teórica o conceptualmente relevantes. Los métodos de selección por bloques permiten al usuario manipular la inclusión y/o exclusión de variables mediante la combinación secuenciada de distintos procedimientos, pudiendo generar modelos jerárquicos. Métodos de selección de variables Las opciones del menú desplegable Método permiten decidir qué método de selección de variables se desea utilizar para construir el modelo de regresión. En los métodos de selección por pasos, la inclusión (y la exclusión) de variables se basa en criterios estadísticos: sólo se incluyen las variables que contribuyen al ajuste global del modelo, es decir, las variables que 176 ayudan a mejorar la capacidad predictiva del modelo. Para decidir qué variables contribuyen al ajuste del modelo, todos los métodos de selección de variables utilizan el estadístico de puntuación de Rao. Para la exclusión de variables se puede elegir entre el estadístico de Wald, el cambio en la razón de verosimilitudes y el estadístico condicional. Los métodos hacia adelante parten del modelo nulo (modelo que no incluye ninguna variable independiente) y van incluyendo variables paso a paso hasta que no quedan variables significativas por incluir. Los métodos hacia atrás parten del modelo saturado (modelo que incluye todas las variables seleccionadas por el usuario) y van excluyendo variables pasos a paso hasta que no quedan variables no-significativas por excluir. Introducir. Es el método que actúa por defecto. Construye el modelo de regresión, en un solo paso, con todas las variables independientes seleccionadas en la lista Covariables. Adelante: Condicional. Método de selección por pasos hacia delante que, partiendo del modelo nulo, va incorporando aquellas variables cuyo estadístico de puntuación, siendo significativo, posee la probabilidad asociada más pequeña. Tras incorporar al modelo una nueva variable, todas las variables incluidas hasta ese momento son revisadas para determinar si existe alguna que debe ser excluida (es decir, para determinar si, como consecuencia de la nueva incorporación, el estadístico de puntuación de alguna variable ha dejado de ser significativo). El proceso se detiene cuando entre las variables no incluidas en el modelo no queda ninguna cuyo estadístico de puntuación sea significativo. Adelante: RV. Método similar al condicional pero que difiere en el estadístico utilizado para evaluar la exclusión de variables: en lugar del estadístico de puntuación de Rao se utiliza la razón de verosimilitudes (RV). Con este método, se van eliminando por turno cada una de las variables del modelo y evaluando si la variable eliminada hace o no perder ajuste. El estadístico RV contrasta la hipótesis nula de que la variable eliminada tiene un coeficiente igual a 0. El valor de RV para el modelo con esa variable. Adelante: Wald. Método similar al condicional que, para excluir variables del modelo, en lugar del estadístico de puntuación de Rao, utiliza el estadístico de Wald. Una variable es excluida del modelo si la significación asociada al estadístico de Wald es mayor que 0.10. Atrás: Condicional. Método de selección por pasos hacia atrás en el que, partiendo del modelo saturado y utilizando el estadístico de puntuación de Rao, se van eliminando variables no significativas una a una hasta que no es posible seguir eliminando variables porque todas las que quedan en el modelo son significativas. Atrás: RV. Método de selección por pasos hacia atrás. La exclusión de variables se basa en la razón de verosimilitudes. Atrás: Wald. Método de selección por pasos hacia atrás. La exclusión de variables se basa en el estadístico de Wald. Ejemplo (Regresión logística por pasos) Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión logística utilizando un método de selección por pasos (en concreto, el método adelante: condicional). Se siguen utilizando las mismas variables del ejemplo anterior: En el cuadro de diálogo Regresión logística seleccionar la variable voto (¿Votó en 1992?) y trasladarla al cuadro Dependiente. 177 Seleccionar las variables leer (¿Lee el periódico?), edad (Edad del encuestado), hijos (Número de hijos). Educ (Años de escolarización) e ingfam91 (ingresos familiares en 1991), y trasladarlas a la lista de Covariables. Pulsar el botón de menú desplegable del recuadro Método y seleccionar el método Adelante: Condicional. Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 19 a la 23. Tabla 19 Pruebas om nibus sobre l os coe ficiente s del m odelo Pas o 1 Pas o 2 Pas o 3 Pas o 4 Pas o Bloque Modelo Pas o Bloque Modelo Pas o Bloque Modelo Pas o Bloque Modelo Chi-cuadrado 61,826 61,826 61,826 55,422 117, 248 117, 248 15,904 133, 152 133, 152 10,477 143, 629 143, 629 gl 1 1 1 1 2 2 1 3 3 1 4 4 Sig. ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,001 ,000 ,000 La tabla 19 ofrece una prueba de ajuste global. Recuérdese que el estadístico chi-cua-drado permite contrastar la hipótesis de que la mejora obtenida en el ajuste es nula. La tabla informa, paso a paso, de las variaciones producidas en el ajuste como consecuencia de la incorporación (o eliminación) de cada nueva variable. En cada paso se muestran tres tipo de información: la fila Paso informa sobre la mejora en el ajuste debida a la variable recién incorporada (la mejora se evalúa respecto al ajuste obtenido en el paso previo); la fila Bloque se refiere a la mejora en el ajuste debida al bloque de variables recién incorporado(sólo útil si se utiliza un método de selección de variables por bolques); la fila Modelo informa sobre la mejora en el ajuste debida al total de variables incluidas (la mejora se evalúa respecto a la obtenida en el paso 0). En el primer paso se incluye la variable educ (ver tabla 21); y la inclusión de esta variable supone una mejora significativa del ajuste (Sig. = 0,000). En el segundo paso se incluye la variable edad (ver tabla .21); su inclusión (Paso) supone una mejora significativa del ajuste respecto al paso anterior, y el modelo resultante (Modelo), que en este segundo paso incluye el término constante y la variable edad y educ, también ofrece una mejora significativa del ajuste. Etc. El modelo consta de 4 pasos y es en el último donde se consigue el mejor ajuste. 178 Tabla 20 Resumen de los model os Pas o 1 2 3 4 -2 log de la R cuadrado verosimilitud de Cox y S nell 1052,320a ,064 b 996,899 ,118 980,995b ,133 970,518b ,143 R cuadrado de Nagelkerke ,092 ,169 ,191 ,205 a. La estimac ión ha finalizado en el número de iteración 4 porque las est imaciones de los parámetros han cambiado en menos de ,001. b. La estimac ión ha finalizado en el número de iteración 5 porque las est imaciones de los parámetros han cambiado en menos de ,001. En los estadísticos de ajuste global de la tabla 28.20 también se puede apreciar que el ajuste global del modelo va mejorando en cada paso, mientras que el valor de la razón de verosimilitudes (-2 log de la verosimilitud) va disminuyendo paulatinamente. Tabla 21 Variables e n la ecuación Pas a o 1 Pas b o 2 Pas c o 3 Pas d o 4 EDUC Constante EDA D EDUC Constante EDA D EDUC INGFAM91 Constante LEE EDA D EDUC INGFAM91 Constante B -,190 1,474 -,036 -,262 E.T. ,025 ,323 ,005 ,029 Wald 55,734 20,829 49,291 81,079 3,976 ,497 -,035 -,211 -,062 4,171 ,675 -,033 -,194 -,056 3,654 ,005 ,031 ,016 ,501 ,207 ,005 ,032 ,016 ,524 gl 1 1 1 1 Sig. ,000 ,000 ,000 ,000 Exp(B) ,827 4,365 ,965 ,769 64,098 1 ,000 53,287 48,098 45,555 15,821 69,170 10,623 41,045 37,042 12,597 48,591 1 1 1 1 1 1 1 1 1 ,000 ,000 ,000 ,000 ,001 ,000 ,000 ,000 ,000 ,966 ,809 ,940 64,768 1,964 ,968 ,824 ,946 38,618 a. Variable(s) introduc ida(s) en el pas o 1: EDUC. b. Variable(s) introduc ida(s) en el pas o 2: EDAD. c. Variable(s) introduc ida(s) en el pas o 3: INGFAM91. d. Variable(s) introduc ida(s) en el pas o 4: LE E. La tabla.21 informa sobre las variables incorporadas al modelo en cada uno de los pasos. También informa sobre las estimaciones de los coeficientes y su significación. Generalmente, el paso que interesa valorar es el último, pues es el que contiene el modelo final. De las cinco variables independientes seleccionadas para el análisis, el método por pasos utilizado ha seleccionado cuatro. En el ejemplo anterior, en el que el modelo construido incluía las cinco variables, la variable hijos tenía asociado un coeficiente no significativo. Ahora, al proceder por pasos, la variable hijos ha quedado fuera. El modelo final sólo incluye variables cuyos coeficientes son significativamente distintos de cero. 179 Tabla 22 a Modelo si se elim ina el término Variable Pas o 1 EDUC Pas o 2 EDA D EDUC Pas o 3 Pas o 4 EDA D EDUC INGFAM91 LEE EDA D EDUC INGFAM91 Log verosimilitud del modelo -557,366 -526,576 Cambio en -2 log de la verosimilitud 62,413 56,254 -547,402 -517,851 -516,008 -498,482 -490,503 -508,231 -505,730 -491,586 1 1 Sig. del cambio ,000 ,000 97,906 1 ,000 54,708 51,021 15,969 10,488 45,944 40,943 12,654 1 1 1 1 1 1 1 ,000 ,000 ,000 ,001 ,000 ,000 ,000 gl a. Según las estimac iones condicionales de los parámetros La tabla 22 ofrece, para cada paso, una evaluación de la pérdida de ajuste que se produciría en el modelo si se eliminaran, una a una, las variables ya incluidas. Esto sirve para valorar la pertinencia de excluir en un paso dado alguna de las variables previamente incluidas. Recuérdese que los métodos de selección de variables por pasos hacia delante permiten la exclusión de una variable previamente incluida si se aprecia una pérdida en su significación como consecuencia de la incorporación de nuevas variables. Lo que ha ocurrido en el ejemplo es que no se ha excluido ninguna de las variables previamente incluidas (cosa, por otra parte, bastante habitual). Tabla 23 Variables que no están e n la ecuación Pas o 1 Variables Pas o 2 Estadísticos globales Variables Pas o 3 Estadísticos globales Variables Pas o 4 Estadísticos globales Variables Estadísticos globales LEE EDA D HIJOS INGFAM91 LEE HIJOS INGFAM91 LEE HIJOS HIJOS Puntuación 24,618 52,000 6,976 17,686 80,186 14,238 ,035 16,116 26,902 10,780 ,274 10,911 ,126 ,126 gl 1 1 1 1 4 1 1 1 3 1 1 2 1 1 Sig. ,000 ,000 ,008 ,000 ,000 ,000 ,851 ,000 ,000 ,001 ,601 ,004 ,723 ,723 La tabla 23 muestra información sobre las variables todavía no incluidas en el modelo en cada paso. El estadístico de puntuación de Rao permite apreciar qué variable será incluida en el 180 siguiente paso: aquella a la que corresponde el mayor estadístico de puntuación (siempre que éste sea significativo). En la tabla se puede ver que, de las variables no incluidas en el primer paso, la variable edad es la que tiene un estadístico de puntuación más alto (52,013); como además es significativo ( Sig. = 0,000), esa será la variable incorporada al modelo en el siguiente paso. En el resto de los pasos se aplica el mismo criterio. La información de la tabla 23 puede resultar interesante para apreciar cómo, por efecto de la presencia de colinealidad, algunas variables van perdiendo significación antes de poder ser incluidas en el modelo. La variable hijos, por ejemplo, podría haber entrado en el paso 1, pero la información que comparte con la variable edad impide que pueda entrar en pasos sucesivos. Variables Categóricas A diferencia de lo que ocurre con el análisis discriminante, el análisis de regresión logística ofrece la posibilidad de utilizar variables independientes categóricas (nominales u ordinales). El procedimiento permite identificar y definir las variables categóricas incluidas en la lista de variables independientes y decidir qué tratamiento recibirán en el análisis. Cuando una variable categórica está codificada como una variable indicador, es decir, con códigos 0 y 1 (uno de ellos indicando la ausencia de la característica y el otro indicando la presencia de la característica), la variable puede introducirse directamente en el análisis sin necesidad de ninguna aclaración adicional (de hecho, ya se ha utilizado una variable indicador en los ejemplos previos). Pero si los códigos de una variable categórica no son 0 y 1, o ésta tiene más de dos categorías, es necesario definir la variable como categórica e indicar el tratamiento que debe recibir. Para decidir qué variables deben ser tratadas como categóricas: Pulsar el botón Categórica... del cuadro de diálogo Regresión logística para acceder al subcuadro de diálogo Regresión logística: Definir variables categóricas que muestra la figura 181 Seleccionar, en la lista Covariables, la(s) que debe(n) ser tratada(s) como categórica(s) y trasladarla(s) a la lista Covariables categóricas. Seleccionar, en la lista Covariables categóricas, la variable que se desea definir (o todas las variables que se desea definir de la misma manera) y utilizar el menú desplegable Contraste para seleccionar un tipo de contraste (en el caso de que se desee aplicar un contraste distinto de contraste Indicador, que es el que se aplica por defecto). Pulsar el botón Cambiar para hacer efectivos los cambios y el botón Continuar para volver al cuadro de diálogo principal. Ejemplo (Regresión Logística > Categórica) Este ejemplo muestra cómo definir una variable categórica e interpretar los resultados relacionados con ella. Se sigue utilizando la misma variable dependiente que en las ejemplos anteriores (voto) y, como variable independiente, se utiliza la variable sitlab (situación laboral), una variable categórica con 8 niveles o categorías. En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar la variable sitlab y trasladarla a la lista Covariables. Pulsar el botón Categórica... para acceder al subcuadro de diálogo Regresión logística: Definir variables categóricas Seleccionar la variable sitlab en la lista Covariables y trasladarla a la lista Covariables categóricas. Dejar Indicador como opción del recuadro Contraste y pulsar el botón Continuar para volver al cuadro de diálogo principal. Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas 24 y 25 (sólo se explican los resultados relacionados con la variable categórica incluida en el análisis). Tabla 24 Codificaciones de varia bles ca tegóricas Situación laboral Frec uencia A tiempo completo 724 A tiempo parcial 159 Temporalmete 28 desempleado Des empleado 50 Retirado 224 Estudiante 38 Ama de cas a 195 Otro 34 Codificación de parámetros (3) (4) (5) ,000 ,000 ,000 ,000 ,000 ,000 (1) 1,000 ,000 (2) ,000 1,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 (6) ,000 ,000 (7) ,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 ,000 ,000 1,000 ,000 La tabla 24 muestra la codificación asignada a las categorías de la variable sitlab. La variable se ha descompuesto en 7 variables indicador. A todas las categorías (excepto a la última) se les ha asignado el valor 1 en la columna correspondiente al parámetro que la va a representar en la estimaciones del modelo. El resto de valores en la misma fila y columna son cero. Esta información sirve para saber que, más adelante, la categoría “A tiempo completo” va a estar representada por el parámetro o coeficiente 1, la categoría “A tiempo parcial” por el parámetro o coeficiente 2, etc. Por supuesto, cambiando el esquema de codificación (contraste) en el correspondiente cuadro de diálogo, cambiarán los códigos asignados a cada categoría. 182 Tabla 25 Variables e n la ecuación B Pas a o 1 SITLAB SITLAB(1) SITLAB(2) SITLAB(3) SITLAB(4) SITLAB(5) SITLAB(6) SITLAB(7) Constante -1,019 -1,193 -1,526 ,323 -1,052 -,773 -,580 ,000 E.T. ,353 ,391 ,601 ,447 ,375 ,489 ,374 ,343 Wald 36,819 8,327 9,312 6,449 ,522 7,847 2,497 2,403 ,000 gl 7 1 1 1 1 1 1 1 1 Sig. ,000 ,004 ,002 ,011 ,470 ,005 ,114 ,121 1,000 Exp(B) ,361 ,303 ,217 1,381 ,349 ,462 ,560 1,000 a. Variable(s) introduc ida(s) en el pas o 1: SITLAB. La tabla 25 ofrece las estimaciones de los coeficientes del modelo y su significación ( Sig). Estos coeficientes corresponden a la variable sitlab, a los parámetros categóricos definidos al codificar las categorías de la variable sitlab en la tabla 24 y a la constante del modelo. La primera fila, encabezada con el nombre de la variable, ofrece un contraste de la variable sitlab globalmente considerada. Si este contraste de la variable sitlab no fuera significativo, carecería de sentido seguir inspeccionando los parámetros categóricos en los que se descompone la variable. A continuación se muestran las estimaciones de los parámetros y su significación. La interpretación que debe hacerse de esta información depende del tipo de codificación asignada (es decir, del tipo de contraste elegido). En el ejemplo, dado que se ha asignado una codificación tipo indicador, cada uno de los coeficientes B representa a una categoría de la variable sitlab. Un coeficiente significativo (es decir, un coeficiente son Sig. < 0,05) indica que la categoría a la que representa difiere significativamente de la categoría de referencia (en el ejemplo, la última). Los coeficientes 4, 6 y 7 no son significativos, por lo que se puede afirmar que los sujetos de las categorías “Desempleado”, “Estudiante” y “Ama de casa” no difieren significativamente de los sujetos de la categoría “Otro”. Se puede considerar que la probabilidad de abstención de estas tres categorías no difiere de la probabilidad de abstención de la categoría de referencia. Los coeficientes 1, 2, 3 y 5 son significativos (Sig. < 0,05) y con una razón de las ventajas o Exp(B) menor que 1 en todos los casos. Se puede afirmar, por tanto, que en las categorías “A tiempo completo”, “A tiempo parcial”, “Temporalmente desempleado” y “Retirado”, l a probabilidad de no votar (voto = 1) es menor que en la categoría de referencia “Otro”. Guardar pronósticos y residuos En ocasiones puede interesar llevar a cabo un estudio pormenorizado de los casos que componen la muestra utilizada en el análisis, o utilizar en otros procedimientos los resultados de la clasificación realizada por la regresión logística. El SPSS permite guardar en el archivo de datos algunos de los resultados generados por el procedimiento Regresión logística. Para guardar como variables estos resultados: Pulsar el botón Guardar... del cuadro de diálogo Regresión logística para acceder al subcuadro de diálogo Regresión logística: Guardar nuevas variables 183 Valores pronosticados. Las opciones de este recuadro permiten crear variables nuevas basadas en los pronósticos del modelo: Probabilidades. Crea una variable en la que, a cada caso del archivo de datos, se le asigna la probabilidad pronosticada por el modelo (la probabilidad de pertenecer a la categoría de la variable dependiente codificada con un 1). Grupo de pertenencia. Crea una variable en la que, a cada caso del archivo de datos, se le asigna el grupo (categoría de la variable dependiente) en el que ha sido clasificado por el modelo a partir del punto de corte seleccionado en el cuadro de diálogo Opciones. El punto de corte por defecto es 0,5. Influencia. Las opciones de este recuadro permiten crear variables con información relacionada con la influencia (peso, importancia) de cada caso en el modelo de regresión: o De Cook. La distancia de Cook (1977) mide el cambio que se produce en las estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable en la estimación de los coeficientes. Para evaluar estas distancias puede utilizarse la distribución F con p + 1 y n – p – 1 grados de libertad (p se refiere al número de variables independientes y n al tamaño de la muestra). En general, un caso con una distancia de Cook superior a 1 debe ser revisado. o Valores de influencia. Representan la influencia potencial de cada caso en el modelo de regresión. Un valor de influencia es una medida normalizada del grado de distanciamiento de un punto respecto del centro de su distribución. Los puntos muy alejados pueden influir de forma muy importante en la ecuación de regresión, pero no necesariamente tienen por qué hacerlo. Los valores de influencia se encuentran entre 0 y 1, y su valor promedio es p/n, donde p es el número de parámetros estimados (incluida la constante) y n es el tamaño de la muestra. o BfBetas. (diferencia en las betas). Mide el cambio que se produce en los coeficientes de regresión estandarizados (betas) como consecuencia de ir eliminando cada caso de la ecuación de regresión. El SPSS crea en el Editor de datos tantas variables nuevas como coeficientes beta tiene la ecuación de regresión, incluida la constante. Residuos. Las opciones de este recuadro permiten crear variables que contienen información relacionada con los residuos: No tipificados. A cada caso le corresponde un residuo no tipificado o bruto R1 resultado de restar la probabilidad pronosticada por el modelo a la probabilidad observada: Ri Pi Pi ` (estas probabilidades se refieren al evento de interés, es decir a la categoría de la variable dependiente codificada internamente con un 1; así, Pi se refiere a la probabilidad observada de que el caso i pertenezca a la categoría 1). Logit. Residuos en cala logit RLi . El residuo logit es el residuo no tipificado dividido por la varianza de su pronóstico RLi ´ Ri / Pi (1 ´ Pi ) Método de Student. Guarda los residuos estudentizados, los cuales representan el cambio observado en la desviación del modelo al excluir cada caso del modelo. 184 Tipificados. Los residuos tipificados se obtienen dividiendo los residuos no tipificados por una estimación de su error típico. En el caso de la regresión logística, un residuo se tipifica dividiéndolo por la raíz cuadrada de Pi 1 Pi . Los residuos tipificados, también conocidos como residuos de Pearson o residuos estandarizados, se distribuyen de forma aproximadamente normal con media 0 y desviación típica 1. Desvianza. La desvianza se define como la raíz cuadrada de –2 ln '' Pi , siendo Pi ' ' la probabilidad pronosticada para el grupo real (es decir, la probabilidad pronosticada de que un caso pertenezca al grupo –categoría de la variable dependiente- que realmente pertenece). El procedimiento calcula la desvianza asignado la raíz cuadrada positiva si en caso pertenece a la categoría codificada con un 1, y asignando la raíz cuadrada negativa si el caso no pertenece a esa categoría. Con nuestra grandes, la desvianza se distribuye de forma aproximadamente normal. Ejemplo (Regresión logística > Guardar) Este ejemplo muestra cómo crear y almacenar, en el Editor de datos, nuevas variables con información relativa a algunos resultados del análisis de regresión logística. Al igual que en los ejemplos anteriores, se va a utilizar la variable voto (¿Votó en 1992?) como variable dependiente; y, como variables independientes, las variables leer (¿Lee el periódico?), edad (Edad del encuestado), titestud (Título escolar), indsocec (índice socioeconómico del encuestado) y telenov (Frecuencia de visualización de telenovelas): En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar las variables leer, edad, titestud, indsocec y telenov, y trasladarlas a la lista de Covariables. Pulsar el botón Guardar... para acceder al subcuadro de diálogo Regresión logística: Guardar nuevas variables y seleccionar las opciones Probabilidades y Grupo de pertenencia del recuadro Valores pronosticados, y la opción Tipificados del recuadro Residuos. Pulsar el botón Continuar para volver al cuadro diálogo principal. Aceptando estas selecciones, el Visor ofrece, entre otros, los recuadros que muestran las tablas 28.28 a la 28.30. Además, el Editor de datos genera estas tres nuevas variables: Pre_1, con etiqueta “Predicted probability” (probabilidad pronosticada). Pre_2, con etiqueta “Predicted group” (grupo pronosticado). Zre_1, con etiqueta “Normalizad residual” (residuo tipificado). La tabla 26 muestra el porcentaje de casos correctamente clasificados en cada uno de los grupos. La tabla sugiere que el punto de corte utilizado por defecto (0,5) puede ser mejorado, pues aunque el porcentaje global de casos correctamente clasificados es del 74,1%, en el grupo de no votantes sólo se clasifica correctamente al 26,9% de los casos. 185 Tabla 26 a Tabla de clasifica ción Pronosticado Pas o 1 Obs ervado ¿Votó en 1992? ¿Votó en 1992? Sí votó No votó 614 47 193 71 Sí votó No votó Porc entaje global Porc entaje correcto 92,9 26,9 74,1 a. El valor de c orte es ,500 La tabla 27 muestra las estimaciones de los coeficientes del modelo y su significación. Al igual que en un modelo de regresión lineal, estos coeficientes pueden utilizarse para construir una ecuación lineal y, de esta forma, obtener los pronósticos: Pr = 1,415 + 0,894 leer - 0,030 edad - 0,576 titestud - 0,017 indsocec + 0,137 telenov Tabla 27 Variables en la e cuación Pas a o 1 LEE EDAD TITESTUD INDSOCEC TELENOV Constante B ,894 -,030 -,576 -,017 ,137 1,415 E.T. ,210 ,005 ,104 ,006 ,068 ,352 Wald 18,125 37,196 30,461 8,698 4,115 16,134 gl 1 1 1 1 1 1 Sig. ,000 ,000 ,000 ,003 ,043 ,000 Exp(B) 2,445 ,970 ,562 ,983 1,147 4,117 a. Variable(s) introducida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV. Transformando Pr a escala logística se obtienen las probabilidades pronosticadas por el modelo. Es decir, las probabilidades que el modelo pronostica y que se acaban de almacenar en la variable pre_1 se obtienen transformando Pr (la ecuación de regresión lineal) a escala logística: PY 1 1 1 e Pr Una vez obtenidos los pronósticos, puede cambiarse el punto de corte ensayando valores que ofrezcan un mejor equilibrio entre las proporciones de clasificación correcta en ambos grupos (esto se hace desde el cuadro de diálogo Opciones; ver siguiente apartado). La tabla 28 muestra algunos estadísticos descriptivos referidos a las tres nuevas variables creadas por el procedimiento en el Editor de datos. Estos descriptivos se han obtenido con el procedimiento Estadísticos descriptivos > Descriptivos del menú Analizar. Observando la tabla se ve, por ejemplo, que las probabilidades pronosticadas oscilan entre 0,01 y 0,81 y que la proporción de casos clasificados en el grupo o categoría 1, es decir, la media del grupo pronosticado) vale 0,128: el procedimiento, utilizando el punto de corte establecido por defecto (0,5), ha clasificado en el grupo de no votantes al 12,8% de los casos. Tabla 28 186 Esta dísticos descriptivos N Probabilidad pronosticada Grupo pronosticado Res iduo normalizado N válido (según list a) Mínimo Máx imo Media Des v. típ. 953 ,01504 ,80736 ,2852953 ,17746283 953 925 925 0 -1,83720 1 6,01187 ,13 ,0054241 ,334 1,017198 En relación con los residuos tipificados, se observa, en primer lugar, que su media vale aproximadamente 0 y su desviación típica aproximadamente 1. Se aprecia que existe al menos un caso con un valor pronosticado considerablemente alto ( Máximo = 6,012): al menos un caso presenta un residuo que se aleja más de 6 desviaciones típicas por encima de la media de los pronósticos. El significado de los residuos en un modelo de regresión logística no es muy distinto del de los residuos en un modelo de regresión lineal: un residuo alto (generalmente, un residuo situado a más de 3 desviaciones típicas por encima de la media) permite identificar a un sujeto que se ha abstenido a pesar de que sus puntuaciones en el conjunto de las variables independientes definen el perfil típico de los sujetos que votan en las elecciones; por el contrario, un residuo bajo (generalmente, un residuo situado a más de 3 desviaciones típicas por debajo de la media) permite identificar a un sujeto que sí ha votado a pesar de que sus puntuaciones en el conjunto de la variables independientes definen el perfil típico de los sujetos que se abstienen. Opciones El cuadro de diálogo Opciones permite obtener información adicional a la que el procedimiento ofrece por defecto. También permite controlar las probabilidades de entrada y salida utilizadas en los métodos de selección por pasos, establecer el número máximo de iteraciones en el algoritmo de estimación, decidir si el modelo debe o no incluir el término constante y cambiar el punto de corte que el procedimiento utiliza para clasificar los casos. Para utilizar estas opciones: Pulsar el botón Opciones... del cuadro de diálogo Regresión logística para acceder al subcuadro de diálogo Regresión logística: Estadísticos y gráficos. estadísticos y gráficos. Las opciones de este recuadro permiten seleccionar algunos Gráficos de clasificación. Genera un histograma apilado de las probabilidades pronosticadas por el modelo. En este histograma se distinguen los casos de cada uno de los dos grupos utilizados en el análisis, el punto de corte utilizado en la clasificación y los territorios de clasificación. Bondad de ajuste de Hosmer- Lemeshow. Este índice es útil para evaluar el ajuste global del modelo, particularmente cuando se dispone de muchas variables independientes o cuando algunas de las variables independientes son continuas. Listado de residuos por caso. Genera un listado de los residuos no tipificados, de las probabilidades pronosticadas, del grupo observado y del grupo pronosticado: o Valores atípicos a más de k desv. Típicas. Limita el listado a los casos cuyo residuo tipificado se aleja de la media de los residuos más de k desviaciones típicas (en valor absoluto). o Todos los casos. Lista todos los casos incluidos en el análisis. 187 Correlaciones de estimaciones. Ofrece la matriz de correlaciones entre las estimaciones de los parámetros del modelo. Historial de iteraciones. Genera un listado con los valores de los coeficientes estimados y del logaritmo de la función de verosimilitud en cada iteración del proceso de estimación. IC para Exp(B): _%. Incluye en la tabla de estimaciones de los coeficientes (variables en el modelo) el intervalo de confianza para el valor exponencial de cada coeficiente B . Este intervalo se construye, por defecto, con una confianza del 95%, pero es e posible cambiar el nivel de confianza introduciendo un valor entre 1 y 99. Mostrar. Las opciones de este recuadro permiten controlar el detalle con el que se generan los resultados: En cada paso. Se muestran los estadísticos, tablas y gráficos correspondientes a cada paso de la estimación. No se muestra el resumen de los pasos. En el último paso. Se muestran los estadísticos, tablas y gráficos correspondientes al modelo final de cada bloque. En estos resultados se resumen los pasos intermedios. Probabilidades para los casos. Las opciones de este cuadro permiten modificar los niveles de significación utilizados en los métodos de selección por pasos. La probabilidad de Entrada (0,05 por defecto) se refiere al nivel de significación utilizando para considerar que el coeficiente asociado a una variable todavía no incluida en el modelo es distinto de cero y, por tanto, que la variable debe ser incluida en el modelo. Este valor es necesario para garantizar que el modelo final solo incluya variables que contribuyan significativamente al ajuste global. La probabilidad de Salida (0,10 por defecto) se refiere al nivel de significación utilizando para considerar que el coeficiente asociado a una variable ya incluida en el modelo ha dejado de ser significativo (como consecuencia de la incorporación de nuevas variables) y, por tanto, que la variable debe ser excluida del modelo. Este valor es necesario para garantizar que el modelo final no incluya variables que no contribuyan significativamente al ajuste global. La probabilidad de salida debe ser mayor que la de entrada. Punto de corte para la clasificación. Esta opción permite cambiar el valor del punto de corte utilizando en la clasificación. Recuérdese que el punto de corte es el valor que se utiliza para clasificar a los casos en uno u otro grupo o categoría de la variable dependiente: los casos cuya probabilidad pronosticada es mayor que el punto de corte son clasificados en el grupo o categoría codificada con un 1; los casos cuya probabilidad pronosticada es menor que el punto de corte son clasificados en el otro grupo o categoría. El valor por defecto es 0,5. Nº máximo de iteraciones. Esta opción permite establecer el número máximo de iteraciones que el algoritmo de estimación puede llegar a recorrer en el proceso de estimación de los coeficientes. El valor por defecto es 20, lo que suele ser suficiente en la mayoría de los casos para encontrar un solución. Incluir constante en el modelo. Esta opción permite determinar si el modelo estimado debe o no incluir el término constante. Esta opción (que se encuentra activa por defecto) no debe desactivarse hasta comprobar que la constante del modelo no es significativa. 188 Ejemplo (Regresión logística > Opciones) Este ejemplo muestra cómo personalizar las opciones del procedimiento Regresión logística (tales como el punto de corte para la clasificación) y cómo obtener e interpretar algunos resultados adicionales a los que el procedimiento ofrece por defecto. Al igual que en los ejemplos anteriores, se va a seguir utilizando la variable voto (¿Votó en 1992?) como variable dependiente; y, como variables independientes, las variables leer (¿Lee el periódico?), edad (Edad del encuestado), titestud (Título escolar), indsocec (Índice socioeconómico del encuestado) y telenov (Frecuencia de visualización de telenovelas): En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al cuadro Dependiente. Seleccionar las variables leer, edad, titestud, indsosec y telenov, y trasladarlas a la lista de Covariables. Pulsar el botón Opciones... para acceder al subcuadro de diálogo Regresión logística: Opciones y marcar todas las opciones del recuadro Estadísticos y gráficos. Cambiar el Punto de corte para la clasificación introduciendo el valor 0,30. Pulsar el botón Continuar para volver al cuadro de diálogo principal. Tabla 29 Variables e n la e cuación Pas o a 1 LEE EDAD TITESTUD INDSOCEC TELENOV Constante B ,894 -,030 -,576 -,017 ,137 1,415 E.T. ,210 ,005 ,104 ,006 ,068 ,352 Wald 18,125 37,196 30,461 8,698 4,115 16,134 gl 1 1 1 1 1 1 Sig. ,000 ,000 ,000 ,003 ,043 ,000 Exp(B) 2,445 ,970 ,562 ,983 1,147 4,117 I.C. 95,0% para EXP(B) Inferior Superior 1,620 3,691 ,961 ,980 ,458 ,690 ,972 ,994 1,005 1,310 a. Variable(s) introduc ida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV. La tabla 29 muestra las estimaciones de los coeficientes y su significación. En esta ocasión, la tabla incluye, como novedad, los intervalos de confianza al 95% para cada valor Exp(B). Estos intervalos permiten contrastar la hipótesis nula de que la razón de las ventajas vale 1 en la población (lo cual es equivalente a contrastar con el estadístico de Wald la hipótesis de que un coeficiente vale cero en la población): cuando el intervalo de confianza no incluye el valor 1, se puede rechazar esa hipótesis y concluir que la correspondiente variable independiente posee un efecto significativo. Además, los intervalos de confianza informan sobre la importancia relativa de las variables independientes: las variables a las que corresponden intervalos que se solapan son variables con un efecto similar; las variables con intervalos que nos e solapan son variables con un efecto significativamente distinto (aunque no debe olvidarse que la magnitud de la razón de las ventajas depende de la métrica de las variables). Observando los valores de la tabla se ve que las cinco variables independientes incluidas en el análisis poseen un efecto significativo: todos los niveles críticos ( Sig.) son menores que 0,05 y ningún intervalo de confianza incluye el valor 1. Por un lado, las variables leer y telenov tienen valores tienen valores Exp(B) significativamente mayores que 1, por lo que puede afirmarse que los sujetos que no leen el periódico y que no ven telenovelas (es decir, los sujetos a los que corresponden los códigos más altos en esas variables) tienden a no votar, si bien el efecto de variable leer es significativamente mayor que el de la variable telenov (pues los límites de sus intervalos de confianza no se solapan y los de la variable leer son más altos que los de la variable telenov). Por otro lado, la variables edad, titestud e indsocec tienen valores Exp(B) 189 significativamente menores que 1, por lo que puede afirmarse que los sujetos de menor edad, menor título académico y menor índice socioeconómico tienden a no votar, si bien el efecto de la variable titestud es significativamente mayor que el de las variables edad e indsocec, no existiendo diferencias significativas entre los efectos de estas dos últimas variables. La tabla 37 muestra las correlaciones entre las estimaciones de los coeficientes del modelo. Al valorar esta correlaciones, lo que habitualmente se encuentra es que el término constante correlaciona con las estimaciones correspondientes a las variables independientes (pues el término constante no es más que un factor de escala que refleja la métrica de conjunto de variables independientes). Sin embargo, las correlaciones entre las estimaciones de las variables independientes deben ser pequeñas, pues una correlación elevada entre dos coeficientes debe interpretarse como un indicio de colinealidad. Y cuando existe colinealidad, la estimación del coeficiente relativo a una variable puede estar demasiado afectada (sesgada) por la presencia de la(s) otra(s) variable(s). En el ejemplo, la matriz de correlaciones entre los coeficientes no contiene correlaciones elevadas. Tabla 30 Matriz de correla ciones Pas o 1 Constante LEE EDAD TITESTUD INDSOCEC TELENOV Constante 1,000 -,143 -,617 -,134 -,514 -,342 LEE -,143 1,000 ,044 ,145 -,074 ,029 EDAD -,617 ,044 1,000 ,240 -,008 -,164 TITESTUD -,134 ,145 ,240 1,000 -,461 -,077 INDSOCEC -,514 -,074 -,008 -,461 1,000 -,010 TELENOV -,342 ,029 -,164 -,077 -,010 1,000 El gráfico de la figura muestra un histograma de las probabilidades pronosticadas. Los casos se encuentran identificados por una letra; la base del gráfico incluye una leyenda que informa de los símbolos utilizados para diferenciar los casos (S = “Sí votó”, N = “No votó”), del número de casos que representa cada símbolo (Each Symbol Represents 2,5 Cases) y del punto de corte utilizado (The Cut Value is 0,30). Debajo del eje de abscisas se indica el territorio que corresponde a cada pronóstico (la secuencia de símbolos del territorio cambia en el valor del punto de corte). En una situación ideal (clasificación perfecta), todos los símbolos del interior del gráfico estarían situados en la vertical de su propio territorio. Los casos no situados en la vertical de su territorio son casos mal clasificados por el modelo. Step number: 1 Observed Groups and Predicted Probabilities 40 F R N N N N N N N NNN S S N N NN 30 N SNSSSNSNS N N NNN NN E SSSSSSSNS NNS SNN NNN Q SSSSSSSSSS SNSNSNNNSNNN U SSSSSSSSSS SNSNSSSNSNNN NN N E 20 SSSSSSSSSSNSSSNSSSSSSSNNNN N N SSSSSSSSSSNSSSNSSSSSSSNNNN N C SSSSSSSSSSSSSSSSSSSSSSNNNNNN Y SSSSSSSSSSSSSSSSSSSSSSSNNSNS NN N N 10 SSSSSSSSSSSSSSSSSSSSSSSSNSNS NN SSSSSSSSSSSSSSSSSSSSSSSSSSSS NN N N SNNNN NN SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSN SNNSSNNNN N SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNSSSSSSSSNN N N Predicted Prob: 0 ,25 ,5 ,75 1 Group: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN Predicted Probability is of Membership for No votó The Cut Value is ,50 Symbols: S - Sí votó N - No votó Each Symbol Represents 2,5 Cases. 190 La tabla 31 muestra un listado con los casos cuyo valor pronosticado difiere en más de dos desviaciones típicas del valor observado, es decir, los casos cuyo residuos típificado es mayor que 2 o menor que –2. La tabla ofrece, para cada uno de estos casos, el número de registro que ocupa en el Editor de datos (Caso); si el caso ha sido seleccionado o no para estimar el modelo (Estado de la selección); la categoría de la variable dependiente a la que pertenece ( Observado), con una marca de dos asteriscos si ha sido mal clasificado; la probabilidad pronosticada por el modelo (Pronosticado); el grupo en el que ha sido clasificado (Grupo pronosticado) y los residuos en bruto (Resid.) y tipificados (Zresid.). En general, siempre resulta interesante detenerse a estudiar con detalle los casos con residuos grandes (en valor absoluto) pues, generalmente, corresponden a casos que pueden estar influyendo desproporcionadamente en la estimación de los coeficientes del modelo. En ocasiones, incluso, puede ser recomendable excluir estos casos de la muestra y volver a estimar el modelo sin ellos para comprobar en qué grado varían las estimaciones de los coeficientes. Tabla 31 Listado por casosb Cas o 11 194 284 285 316 378 450 511 718 759 772 787 788 875 1091 1096 1167 1172 1186 1239 1408 Estado de a selección S S S S S S S S S S S S S S S S S S S S S Obs ervado ¿Votó en 1992? N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** N** Variable temporal Pronosticado ,121 ,137 ,027 ,039 ,087 ,107 ,061 ,083 ,131 ,066 ,112 ,090 ,052 ,096 ,130 ,114 ,123 ,068 ,069 ,096 ,041 Grupo pronosticado S S S S S S S S S S S S S S S S S S S S S Res id ,879 ,863 ,973 ,961 ,913 ,893 ,939 ,917 ,869 ,934 ,888 ,910 ,948 ,904 ,870 ,886 ,877 ,932 ,931 ,904 ,959 ZResid 2,701 2,507 6,012 4,988 3,248 2,887 3,934 3,321 2,579 3,760 2,809 3,189 4,277 3,061 2,589 2,794 2,664 3,713 3,677 3,062 4,858 a. S = Selecc ionados , N = Casos no selec cionados y ** = Casos mal c lasificados. b. Se listan los casos con residuos estudentizados mayores que 2,000. Seleccionar El cuadro de diálogo Regresión logística incluye la posibilidad de utilizar una variable de selección, es decir, una variable cuyos valores determinan qué casos van a ser incluidos en el análisis y qué casos van a ser excluidos (una variable de selección produce un efecto similar al que produce una variable de filtro impuesta con el procedimiento Seleccionar casos, aunque, según se verá enseguida, existen diferencias). Para utilizar una variable de selección: Los casos del archivo de datos que cumplan el criterio de selección serán incluidos en el análisis; los que no cumplan el criterio de selección serán excluidos. Sin embargo, esta exclusión sólo afecta al proceso de estimación del modelo, pues cuando el procedimiento crea nuevas variables (pronósticos, residuos, etc.), cuando construye la tabla de clasificación (la matriz de confusión) y cuando ofrece información particular sobre los casos (tal como el gráfico de clasificación o el 191 listado de valores atípicos), distingue entre los casos incluidos en el análisis (los utilizados en la estimación del modelo) y los no incluidos. Bibliografía: SPSS 11 Guía para el análisis de datos Capítulo 28 Antonio Pardo Merino y Miguel ängel Ruiz Díaz Mc Graw Hill 192 VII Análisis Factorial El análisis factorial es una técnica que nos permite identificar un número relativamente pequeño de factores que pueden ser utilizados para representar la relación existente entre un conjunto de variables intercorrelacionadas. Analicemos, por ejemplo, la pregunta 17 del cuestionario cuyos datos recoge el archivo trabajo.sav y referida a la evaluación por parte de los encuestados de la importancia que según su opinión pueden tener cada una de las causas que se enumeran, en el alto índice de paro en España. Son las siguientes: b13: La crisis económica. b14: La política de empleo del gobierno. b15: La mala gestión de los empresarios. b16: La comodidad de la gente, que sólo quiere buenos trabajos. b17: La falta de preparación del trabajador. b18: Las pocas ganas de trabajar de la gente. b19: El no saber buscar trabajo. b20: Que hay mucho pluriempleo. b21: Que el trabajo que hay no se reparte bien socialmente. El modelo matemático que subyace a esta técnica es similar al de la regresión simple y en él cada variable aparece como combinación lineal de una serie de factores que no son en este momento observables. Por ejemplo, b13 (la crisis económica) puede aparecer expresada como: b13 = a(sujeto) + b(externos al sujeto) + c(entorno) + Ua " donde sujeto, externos al sujeto y entorno no son variables independientes sino grupos de variables desconocidas por nosotros a priori, que pueden ser los factores subyacentes y que hemos denominado «sujeto» como factor que puede englobar las variables referidas a causas del paro inherentes al propio sujeto, «externas al sujeto», en donde estarían como causantes del paro el gobierno y los empresarios, por ejemplo, y el «entorno» en donde bien podrían estar la crisis económica y el reparto del trabajo. Vamos a corroborarlo con la técnica del análisis factoriaI. Es importante señalar que el análisis factorial nos puede permitir reflejar el conjunto de variables con el menor número de factores posible y que a su vez éstos tienen una interpretación clara y un sentido preciso. Aunque en la práctica el análisis factorial (AF) y el método de componentes principales (PC) se utilizan indistintamente y dan resultados similares, conviene señalar que así como en el análisis de componentes principales el objetivo consiste en encontrar una serie de componentes que expliquen el máximo de variancia total de las variables originales, el objetivo del análisis factorial es encontrar una serie de factores que expliquen el máximo de variancia común de las variables originales. 193 Descriptivos y matriz de correlaciones Abrir archivo trabajo.sav. Crear un conjunto que considere las variables b13 a b21. Analizar/Reducción de datos/Análisis Factorial Considerar las variables b13 a b21 y pulsar Descriptivos-Extracción-Rotación-Puntuaciones y Opciones seleccionando las opciones que aparecen en las pantallas. Esta dísticos descriptivos Cris is Política de empleo Empresarios Comodidad Preparación Ganas de t rabajar Bús queda Pluriempleo Reparto Media 3,93 3,91 3,53 3,02 2,92 2,85 2,77 3,57 3,87 Des viación típic a ,882 ,933 1,005 1,133 1,086 1,203 1,099 1,005 ,877 N del anális is 1009 1009 1009 1009 1009 1009 1009 1009 1009 Fig 1 194 a Matriz de correla ciones Correlación Sig. (Unilat eral) Cris is Política de empleo Empresarios Comodidad Preparación Ganas de t rabajar Bús queda Pluriempleo Reparto Cris is Política de empleo Empresarios Comodidad Preparación Ganas de t rabajar Bús queda Pluriempleo Reparto Cris is 1,000 ,397 ,185 -,120 -,003 -,157 -,101 ,019 ,084 Política de empleo ,397 1,000 ,202 -,077 -,050 -,104 -,078 ,054 ,103 ,000 ,000 ,000 ,000 ,457 ,000 ,001 ,273 ,004 ,000 ,007 ,057 ,000 ,006 ,044 ,001 Empresarios ,185 ,202 1,000 ,028 -,010 -,024 ,044 ,101 ,161 ,000 ,000 ,185 ,373 ,221 ,082 ,001 ,000 Comodidad -,120 -,077 ,028 1,000 ,336 ,559 ,387 ,214 ,043 ,000 ,007 ,185 Preparación -,003 -,050 -,010 ,336 1,000 ,425 ,345 ,115 ,045 ,457 ,057 ,373 ,000 ,000 ,000 ,000 ,000 ,087 Ganas de trabajar -,157 -,104 -,024 ,559 ,425 1,000 ,451 ,195 ,071 ,000 ,000 ,221 ,000 ,000 ,000 ,000 ,000 ,077 Bús queda -,101 -,078 ,044 ,387 ,345 ,451 1,000 ,231 ,134 ,001 ,006 ,082 ,000 ,000 ,000 ,000 ,000 ,012 ,000 ,000 Pluriempleo ,019 ,054 ,101 ,214 ,115 ,195 ,231 1,000 ,376 ,273 ,044 ,001 ,000 ,000 ,000 ,000 Reparto ,084 ,103 ,161 ,043 ,045 ,071 ,134 ,376 1,000 ,004 ,001 ,000 ,087 ,077 ,012 ,000 ,000 ,000 a. Determinante = ,240 Fig 2 En la Figura 1 aparecen en primer lugar la media, desviación estándar y las etiquetas de cada una de las nueve variables entradas en el análisis factorial y para los 1.009 sujetos de la muestra que han respondido a las nueve preguntas del cuestionario a las que se refieren estas variables. Aparece este resultado en el output si en el subcuadro de diálogo «Descriptivos» seleccionamos la opción «Descriptivos univariados». Son 1.009 sujetos en todas las variables puesto que en el subcuadro de diálogo «Opciones» seleccionamos « Excluir casos según lista ». Si la opción seleccionada hubiese sido «Excluir casos según pareja» aparecería en el output una columna con el número de respuestas válidas en cada variable (y no necesariamente el mismo). A continuación aparece la matriz de correlaciones entre variables y el determinante de la misma a pie de tabla. Finalmente el grado de significación de estos coeficientes en un contraste unilateral. Es importante que todas las variables tengan al menos un coeficiente de correlación significativo en la matriz. Inve rsa de la ma triz de correl acione s Cris is Política de empleo Empresarios Comodidad Preparación Ganas de t rabajar Bús queda Pluriempleo Reparto Fig 3 Cris is 1,239 -,441 -,134 ,061 -,115 ,138 ,059 -,008 -,049 Política de empleo -,441 1,223 -,153 ,014 ,034 ,024 ,048 -,043 -,059 Empresarios -,134 -,153 1,086 -,063 ,032 ,054 -,058 -,038 -,128 Comodidad ,061 ,014 -,063 1,548 -,148 -,674 -,207 -,160 ,080 Preparación -,115 ,034 ,032 -,148 1,290 -,376 -,231 ,005 ,005 Ganas de trabajar ,138 ,024 ,054 -,674 -,376 1,740 -,361 -,067 -,027 Bús queda ,059 ,048 -,058 -,207 -,231 -,361 1,380 -,144 -,086 Pluriempleo -,008 -,043 -,038 -,160 ,005 -,067 -,144 1,247 -,427 Reparto -,049 -,059 -,128 ,080 ,005 -,027 -,086 -,427 1,201 KMO y prueba de Bartl ett Medida de adecuación muestral de Kais er-Mey er-Olkin. Prueba de esfericidad de Bartlett Fig 4 Chi-cuadrado aproximado gl Sig. ,712 1434,418 36 ,000 En la Figura 3 tenemos la inversa de la matriz de correlaciones, los «KMO» (Kaiser-Meyer-Olkin) y el test de Bartlett. Este último, es decir, el test de Bartlett, se utiliza para verificar si la 195 matriz de correlaciones es una matriz de identidad, es decir, si todos los coeficientes de la diagonal son iguales a la unidad y los externos a la diagonal iguales a 0. Este estadístico se obtiene a partir de la transformación X2 del determinante de la matriz de correlaciones y cuanto mayor sea y por tanto menor el grado de significación, más improbable que la matriz sea una matriz de identidad. En el ejemplo, con un valor 1434,418 y un grado de significación p = 0,000 resulta evidente que no se trata de una matriz de identidad. En el supuesto de que no se pudiese rechazar esta hipótesis, se desaconseja proceder a realizar un análisis factorial con los datos. El índice KMO nos compara los coeficientes de correlación de Pearson obtenidos en la Figura 2 con los coeficientes de correlación parcial entre variables. Se obtiene: rij2 i j 2 ij KMO aij2 r i j i j donde: rij es el coeficiente de correlación de Pearson entre las variables i y j aij es el coeficiente de correlación parcial entre las variables i y j. Si los coeficientes de correlación parcial entre las variables son muy pequeños, quiere esto decir que la relación entre cada par de las mismas se debe o puede ser explicada por el resto y por tanto llevar a cabo un análisis factorial de los datos no deja de ser una buena solución. En este supuesto, si la suma de los coeficientes de correlación parcial al cuadrado es muy pequeña, KMO será un índice muy próximo a la unidad y por tanto el análisis factorial un procedimiento adecuado. En cambio, valores pequeños en este índice nos dan a entender todo lo contrario. De hecho, y para Kaiser (1974): 1≥ KMO > 0,90 son considerados excelentes. 0,90 ≥ KMO > 0,80 son considerados buenos. 0,80 ≥ KMO > 0,70 son considerados aceptables. 0,70 ≥ KMO > 0,60 son considerados mediocres o regulares. 0,60 ≥ KMO > 0,50 son considerados malos. KMO < 0,50 son considerados inaceptables o muy malos. En el ejemplo este valor es de 0,712 y por tanto se puede considerar como aceptable y continuar con el análisis factorial. Un último indicador de la magnitud de la relación lineal entre las variables y que veremos más adelante es el coeficiente de correlación múltiple entre cada variable y el resto y que coincidirá con la comunalidad inicial cuando el procedimiento no sea el de componentes principales. 196 Matrices a nti-ima gen Covarianza anti-imagen Correlación anti-imagen Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto Cris is ,807 -,291 -,100 ,032 -,072 ,064 ,034 -,005 -,033 ,601 a -,358 -,116 ,044 -,091 ,094 ,045 -,006 -,040 Política de empleo -,291 ,818 -,115 ,007 ,022 ,011 ,028 -,028 -,040 -,358 ,609 a -,132 ,010 ,027 ,016 ,037 -,034 -,048 Empresarios -,100 -,115 ,921 -,038 ,023 ,029 -,039 -,028 -,098 -,116 -,132 ,690 a -,049 ,027 ,039 -,047 -,033 -,112 Comodidad Preparación ,032 -,072 ,007 ,022 -,038 ,023 ,646 -,074 -,074 ,775 -,250 -,168 -,097 -,130 -,083 ,003 ,043 ,003 ,044 -,091 ,010 ,027 -,049 ,027 ,744 a -,104 -,104 ,791 a -,411 -,251 -,142 -,173 -,115 ,004 ,058 ,004 Ganas de trabajar ,064 ,011 ,029 -,250 -,168 ,575 -,151 -,031 -,013 ,094 ,016 ,039 -,411 -,251 ,721 a -,233 -,046 -,019 Bús queda Pluriempleo ,034 -,005 ,028 -,028 -,039 -,028 -,097 -,083 -,130 ,003 -,151 -,031 ,725 -,083 -,083 ,802 -,052 -,285 ,045 -,006 ,037 -,034 -,047 -,033 -,142 -,115 -,173 ,004 -,233 -,046 ,816 a -,109 -,109 ,669 a -,067 -,349 Reparto -,033 -,040 -,098 ,043 ,003 -,013 -,052 -,285 ,833 -,040 -,048 -,112 ,058 ,004 -,019 -,067 -,349 ,591 a a. Medida de adecuac ión muestral Fig 5 En la Figura .5 tenemos las matrices «anti.imagem> de covariancias y correlaciones entre todas las variables del ejemplo. Serán los negativos de los coeficientes de correlación parcial entre cada par de variables neutralizando el efecto de todas las restantes. Interesan por tanto coeficientes cuanto más pequeños, mejor. En la diagonal de esta última tenemos los coeficientes MSA (Measures of Sampling Adequacy) que vienen a ser los KMO pero en este caso para cada variable por separado. n lugar de incluir los sumatorios de todos los pares de variables de la tabla (36 en el ejemplo), solamente se incluyen en el sumatorio los pares de variables en las que la variable para la que se calcula el coeficiente está implicada. Por lo demás, la interpretación de sus valores es idéntica a la realizada para los KMO. En resumen, y por lo que hace referencia al ejemplo que nos ocupa, tenemos: · . . . . Coeficientes de correlación de Pearson que en la mayoría de los casos son altamente significativos. El determinante de la matriz de correlaciones (0,240) relativamente bajo. El indice KMO = 0,712 bastante aceptable. El resultado del test de Bartlett con un X2 = 1434,418 Y P = 0,000. Valores muy bajos en la matrices anti-imagen, MSA bastante altos en la diagonal de la matriz de correlaciones anti-imagen. Todo ello nos lleva a concluir que el análisis factorial que sigue a continuación resulta a priori pertinente y puede proporcionamos conclusiones satisfactorias. Extracción de factores Componentes principales (PC) En esencia, la finalidad del análisis factorial es poder llegar a interpretar una matriz de correlaciones como la del ejemplo con nueve variables a partir del menor número posible de factores. Para ello, existen diferentes procedimientos, y si volvemos al subcuadro de diálogo «Extraction», y abrimos la lista desplegable de los diferentes métodos obtendremos los siguientes: 197 El sistema coge por defecto el método de componentes principales que es el que hemos utilizado en esta primera parte del ejemplo y cuyos resultados comentaremos a continuación. Consiste básicamente en llevar a cabo una combinación lineal de todas las variables de modo que el primer componente principal sea una combinación que explique la mayor proporción de variancia de la muestra, el segundo la segunda mayor y que a su vez esté incorrelacionado con el primero, y así sucesivamente hasta tantos componentes como variables. En esencia, por tanto: reducir un número de variables intercorrelacionadas a un número inferior de factores no correlacionados. Ver si las nueve variables de partida, entre algunas de las cuales hemos visto que existe una correlación muy significativa, pueden ser reducidas a dos, tres o más factores que las agrupen y que tengan un sentido y significado. Com unalidades Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto Inicial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extracción ,644 ,620 ,329 ,592 ,523 ,684 ,519 ,646 ,693 Mét odo de extracción: Análisis de Componentes principales. Fig 6 En la Figura 6 tenemos las comunalidades iniciales de la solución de componentes principales. Estos resultados se obticnen si en el subcuadro dc diálogo «Descriptives» y dentro de «Statistics» seleccionamos «Initial Solution». Si utilizamos tantos componentes principales como variablcs, cada variable puede ser explicada por ella misma y por tanto toda la variabilidad de cada variable, que expresada en unidades de desviación estandarizadas es igual a la unidad, explicada a su vez por los factores comunes. Esta es la razón por la que en la Figura 6 la 198 comunalidad inicial es igual a la unidad para todas las variables. De entrada, la decisión respecto al número de factores que deseamos para representar los datos puede adoptarse desde una doble vía que es la que aparece en el subcuadro de diálogo «Extraction». Por defecto el sistema extraerá tantos factores como haya en la solución inicial con valores propios (eigenvalues) superiores a la unidad. Varianza total ex plicada Componente 1 2 3 4 5 6 7 8 9 Sumas de las saturaciones al cuadrado de la extrac ción % de la Total varianza % acumulado 2,449 27,211 27,211 1,684 18,714 45,925 1,116 12,395 58,320 Autovalores iniciales % de la Total varianza % acumulado 2,449 27,211 27,211 1,684 18,714 45,925 1,116 12,395 58,320 ,848 9,426 67,747 ,705 7,834 75,580 ,616 6,842 82,422 ,597 6,629 89,051 ,568 6,314 95,365 ,417 4,635 100,000 Mét odo de extracc ión: Análisis de Componentes princ ipales. Fig 7 En la Figura .7 vemos que hay tres factores con valores propios superiores a 1 y que en definitiva será el número que extraerá el sistema. Evidentemente, podemos cambiar el valor por defecto correspondiente al «eigenvalue ovcr». La segunda posibilidad corresponde al botón de radio «Number of factors» y consiste sencillamente en fijar un número entero determinado de factores, siempre inferior, lógicamente, al número de variables. La Figura 7 recoge, en porcentajes individuales y acumulados, la proporción de variancia total explicada por cada factor, tanto para la solución no rotada como para la rotada. En concreto, qué porcentaje supone 2,449 sobre el total de variabilidad (nueve en el ejemplo) de toda la muestra. Los tres factores incluidos en el modelo son capaces de explicar exactamente un 58,32 por 100 de la variabilidad total, lo que puede interpretarse como un porcentaje aceptable. Gráfico de sedimentación 2,5 Autovalor 2,0 1,5 1,0 0,5 0,0 Fig 8 1 2 3 4 5 6 7 8 9 Número de componente 199 En la Figura .8 tenemos una representación gráfica de estos resultados, figurando en abcisas el número total de factores y en ordenadas el valor propio de cada uno de ellos. a Matriz de componentes a Matriz de componentes Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto 1 -,229 -,185 ,020 ,748 ,629 ,804 ,718 ,436 ,236 Component e 2 ,640 ,668 ,569 -,036 ,002 -,085 ,045 ,437 ,551 3 ,426 ,373 ,070 ,177 ,357 ,174 ,040 -,515 -,577 Mét odo de extracc ión: Análisis de componentes principales. a. 3 componentes ext raídos Ganas de trabajar Comodidad Bús queda Preparación Política de empleo Cris is Empresarios Reparto Pluriempleo 1 ,804 ,748 ,718 ,629 -,185 -,229 ,020 ,236 ,436 Component e 2 -,085 -,036 ,045 ,002 ,668 ,640 ,569 ,551 ,437 3 ,174 ,177 ,040 ,357 ,373 ,426 ,070 -,577 -,515 Mét odo de extracc ión: Análisis de componentes principales. a. 3 componentes ext raídos Fig 9 Fig10 En la Figura 9 tenemos los coeficientes utilizados para expresar cada variable estandarizada en términos de los tres factores del modelo. Estos coeficientes se conocen también con el nombre de pesos factoriales, cargas, ponderaciones factoriales o saturaciones factoriales ya que nos indican la carga de cada variable en cada factor, de modo que los factores con unos pesos. factoriales más elevados en términos absolutos nos indican una relación estrecha con las variables. El ideal desde el punto de vista del análisis factorial es encontrar un modelo en el que todas las variables saturen en algún factor, es decir, pesos factoriales altos en uno y bajos en el resto. Por ejemplo la variable b18 (Ganas de trabajar como posible explicación del alto índice de desempleo en el país) es una variable con una elevada carga factorial en el primero de los factores y mucho más pequeña en los dos restantes. Podríamos expresar la variable b18 como B18= 0,80408F1-0,08519F2+0,17407F3 Donde F1,F2 y F3 son los tres factores del modelo. En la primera tabla de la Figura 9 aparecen ordenadas las variables tal y como están en la base de datos. La figura 10 es la que corresponde a la opción que hemos seleccionado en el subcuadro de diálogo Options . En efecto, al seleccionar «Sorted by size» el sistema ordena las variables en la matriz de mayor a menor peso o carga factorial y siempre comenzando por el primer factor, posteriormente el segundo, y así sucesivamente. Finalmente la opción del mismo subcuadro de diálogo «Suppress absolute values less than» nos permite una lectura todavía más clara de la matriz puesto que permite eliminar de la misma aquellos coeficientes con valores inferiores a uno dado (0,10 por defecto). La Figura 11 correspondería a esta opción. 200 a Matriz de componentes Ganas de trabajar Comodidad Bús queda Preparación Política de empleo Cris is Empresarios Reparto Pluriempleo 1 ,804 ,748 ,718 ,629 -,185 -,229 Component e 2 ,236 ,436 ,668 ,640 ,569 ,551 ,437 3 ,174 ,177 ,357 ,373 ,426 -,577 -,515 Mét odo de extracc ión: Análisis de componentes principales. a. 3 componentes ext raídos Fig11 Si los factores están incorrelacionados (son ortogonales) los valores de estos coeficientes no dependen unos de otros. Representan por tanto la contribución única de cada factor en la variable y en ese sentido no dejan de ser sino los coeficientes de correlación de cada factor con la variable. Para determinar en qué medida los tres factores son capaces de explicar las variables originales, podemos sumar la proporción de variancia de la variable explicada por cada uno de ellos (es decir, los coeficientes al cuadrado) y de este modo obtener las comunalidades que aparecen en la diagonal de la Figura 6.12. Consideremos de nuevo la variable b18 (Ganas de trabajar) y calculemos esta sumatoria b18=0,804082 +0,085192 + 0,174072 =0,68410 Correlaciones reproduci das Correlación reproducida Res idual a Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto Cris is ,644 b ,629 ,389 -,119 ,009 -,164 -,118 -,039 ,053 -,232 -,204 -,001 -,013 ,008 ,017 ,058 ,031 Política de empleo ,629 ,620 b ,402 -,096 ,018 -,141 -,088 ,019 ,109 -,232 -,201 ,019 -,068 ,036 ,009 ,035 -,006 Empresarios ,389 ,402 ,329 b ,007 ,039 -,020 ,043 ,221 ,277 -,204 -,201 ,021 -,049 -,004 ,001 -,120 -,116 Comodidad Preparación -,119 ,009 -,096 ,018 ,007 ,039 ,592 b ,534 ,534 ,523 b ,635 ,568 ,542 ,219 ,054 -,001 ,019 ,021 -,197 -,076 -,156 -,005 -,012 ,466 ,091 -,057 -,013 -,068 -,049 -,197 -,143 -,121 ,024 ,102 Ganas de trabajar -,164 -,141 -,020 ,635 ,568 Bús queda -,118 -,088 ,043 ,542 ,466 ,580 ,6841b ,580 ,223 ,042 ,008 ,036 -,004 -,076 -,143 -,129 -,029 ,029 ,519 b ,312 ,171 ,017 ,009 ,001 -,156 -,121 -,129 -,080 -,037 Pluriempleo -,039 ,019 ,221 ,219 ,091 ,223 Reparto ,053 ,109 ,277 ,054 -,057 ,042 ,312 ,646 b ,641 ,058 ,035 -,120 -,005 ,024 -,029 -,080 -,265 Mét odo de extracc ión: Análisis de Componentes principales. a. Los residuos se calculan entre las correlaciones observadas y reproduc idas. Hay 16 (44,0%) residuales no redundantes con valores absolutos mayores que 0,05. b. Comunalidades reproducidas Fig 12 Casi el 70 por 100 de la variabilidad de b18 es explicada por los tres factores del modelo, en tanto que por ejemplo de la variable b15 (Empresarios) los mismos únicamente explican en torno al 33 por 100. Reiteramos que esta proporción de la variabilidad de cada variable explicada por los factores del modelo es lo que se conoce con el nombre de comunalidad de la variable. Obviamente su valor oscila entre 0 y 1 y la parte de variancia no explicada por el modelo factorial, es decir, 1- comunalidad, es lo que se conoce con el nombre de factor único o unicidad. 201 ,171 ,641 ,693 b ,031 -,006 -,116 -,012 ,102 ,029 -,037 -,265 La correlación obtenida entre los distintos factores y las variables puede ser utilizada para estimar la correlación entre las variables, de modo que si los factores son ortogonales, el coeficiente de correlación entre las variables i y j será: k rij rfi rfj rli rlj r2i r2 j ... rki rkj j 1 donde k es el número de factores comunes rfi es el coeficiente de correlación entre el factor f y la variable i De la figura 12 podemos obtener, por ejemplo, que la correlación estimada entre las variables b18 y b16 será: rb18b16 0,80408. 0,74803 0,08519 0,03568 0,17407.0,17722 0,6353642 Estos coeficientes de correlación así estimados son los que aparecen en la primera parte de la figura 12. La diferencia entre estos coeficientes de correlación así estimados y los coeficientes de correlación observados de la figura 3 es lo que se conoce como residuales y son los valores que aparecen en la segunda parte de la tabla de la figura 12. En el caso de las dos variables b18 y b16 este residual será exactamente: Residual b18 b16. = 0,55914 - 0,6353642 = -0,0762242 En la parte inferior de la tabla aparece un mensaje donde nos indica el número de residuales superiores a 0,05 en valores absolutos y el porcentaje sobre el total. En el ejemplo son exactamente 16 que sobre un total de 36 representan el 44 por 100. En realidad la magnitud y cuantía de los residuales con valores superiores a 0,05 son unos buenos indicadores del ajuste del modelo a los datos. En la diagonal de la tabla y tal y como hemos comentado con anterioridad aparecen las comunalidades. Rotación La finalidad de la rotación no es otra sino la de ayudamos a interpretar, en el supuesto de que no quede claro en la matriz de pesos factoriales no rotada de la Figura 9, el sentido y significado de los factores. Tal y como podemos ver en el subcuadro de diálogo «Rotación» existen varios procedimientos. V ARIMAX, EQUAMAX y QUARTlMAX son procedimientos ortogonales que es tanto como decir que los factores se mantienen incorrelacionados y los ejes formando ángulos rectos. El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de los denominados oblicuos o no ortogonales. Señalar a su vez que la rotación no afecta a la comunalidad y al porcentaje de variancia explicada por el modelo, aun que si puede cambiar la de cada factor. Dentro de los procedimientos ortogonales, el más utilizado es el V ARIMAX, y trata de minimizar el número de variables que hay con pesos o saturaciones elevadas en cada factor. El QUARTIMAX trata de minimizar el número de factores necesarios para explicar un conjunto de variables, mientras que el EQUAMAX es una combinación de los dos anteriores (trata de simplificar factores y variables). Dentro de los no ortogonales, que como ya hemos señalado son procedimientos de rotación oblicua (no ortogonal y por tanto con correlaciones entre factores no necesariamente iguales a 202 O) el PROMAX es el mas rápido de calcular por parte del sistema y por tanto el más aconsejable para grandes bases de datos. En resumen, todos ellos tratan de obtener una matriz factorial que se aproxime al principio de estructura simple. Según este principio, la matriz factorial debe reunir las siguientes características: Cada factor debe tener unos pocos pesos altos y el resto próximos a 0. Cada variable no debe estar saturada más que en un solo factor. No deben existir factores con la misma distribución. En la Figura 13 tenemos los resultados de la matriz de pesos factoriales no rotada, VARIMAX, QUARTlMAX Y EQUAMAX como ortogonales y OBLlMIN y PROMAX con parámetros valores por defecto como no ortogonales. 203 a Matriz de componentes rotados Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo 1 ,818 ,765 ,712 ,688 -,090 -,067 ,027 ,014 ,226 Component e 2 -,111 -,058 ,085 -,056 ,795 ,784 ,512 ,129 ,033 a Matriz de componentes rotados 3 ,055 ,062 -,095 ,205 -,059 ,010 ,257 ,822 ,771 Mét odo de extracc ión: Análisis de componentes principales. Mét odo de rotación: Normalización Quartimax con Kaiser. a. La rotación ha convergido en 5 iteraciones . Ganas de trabajar Comodidad Bús queda Preparación Política de empleo Cris is Empresarios Reparto Pluriempleo 1 ,804 ,748 ,718 ,629 -,185 -,229 ,020 ,236 ,436 3 ,174 ,177 ,040 ,357 ,373 ,426 ,070 -,577 -,515 Mét odo de extracc ión: Análisis de componentes principales. a. 3 componentes ext raídos Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo Component e 2 -,085 -,035 ,122 -,048 ,806 ,790 ,496 ,056 -,028 3 ,088 ,094 -,063 ,233 -,051 ,019 ,265 ,824 ,780 Mét odo de extracc ión: Análisis de componentes principales. Mét odo de rotación: Normalización Equamax con Kaiser. a. La rotación ha convergido en 5 iteraciones . Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo 1 ,815 ,762 ,715 ,682 -,081 -,061 ,024 -,008 ,205 Component e 2 -,118 -,065 ,080 -,064 ,796 ,785 ,509 ,120 ,023 3 ,076 ,083 -,074 ,224 -,053 ,017 ,263 ,823 ,777 Mét odo de extracc ión: Análisis de componentes principales. Mét odo de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 5 iteraciones . Matriz de configuración.a Matriz de configuración.a 1 ,813 ,762 ,740 ,664 -,026 -,013 ,028 -,091 ,124 Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo Component e 2 -,122 -,069 ,077 -,068 ,797 ,785 ,508 ,117 ,019 a Matriz de componentes rotados a Matriz de componentes Component e 2 -,085 -,036 ,045 ,002 ,668 ,640 ,569 ,551 ,437 1 ,813 ,761 ,716 ,678 -,077 -,057 ,023 -,019 ,194 3 -,014 -,021 ,146 -,172 ,106 ,036 -,229 -,834 -,775 Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo 1 ,815 ,765 ,751 ,663 -,006 ,005 ,034 -,111 ,105 Component e 2 -,068 -,019 ,136 -,034 ,804 ,789 ,497 ,057 -,022 3 -,002 ,009 -,154 ,161 -,080 -,010 ,246 ,841 ,776 Mét odo de extracc ión: Análisis de componentes principales. Mét odo de extracc ión: Análisis de componentes principales. Met odo de rotación: Normalización Oblimin con K aiser. a. La rotación ha convergido en 5 iteraciones . Mét odo de rotación: Normalización Promax con Kaiser. a. La rotación ha convergido en 5 iteraciones . 204 El método utilizado en todos los casos ha sido el de componentes principales. Todos ellos coinciden a grandes rasgos en la siguiente asignación: Factor 1 Variables: b18: Pocas ganas de trabajar de la gente. b16: La comodidad de la gente, que sólo quiere buenos trabajos. b19: El no saber buscar trabajo. b17: La falta de preparación del trabajador. Factor 2 Variables: b4: a política de empleo del gobierno. b3: a crisis económica. b5: La mala gestión de los empresarios. Factor 3 Variables: b21: Que el trabajo que hay no se reparte bien socialmente. b22: Que hay mucho pluriempleo. Analizando someramente estos resultados, bien podría tratarse de tres factores claramente diferenciados y referidos al propio trabajador el primero, gobierno y empresarios el segundo y reparto o redistribución del trabajo el tercero. Gráficamente podemos ver estos mismos resultados en la Figura 14 que corresponde al gráfico tridimensional de la solución rotada V AR1MAX y componentes principales. Gráfico de componentes en espacio rotado b14 1,0 b21 b15 b20 nte 2 pone m o C b13 0,5 b17 0,0 b16 -0,5 b18 1,0 -1,0 ,0 -1 0,5 ,5 -0 te en n o 0,0 0 0, Co mp on -0,5 5 0, 0 1, en te 1 -1,0 3 p m Co Fig 14 205 Cuadro de texto Gráfico de componentes en espacio rotado -1,0 Componente 2 -0,5 b18 0,0 b21 b16 b20 b17 b15 0,5 b13 b14 1,0 0 1, 5 0, 0 0, ,5 -0 ,0 -1 Componente 1 Nota al pie Fig 15 Al igual que hemos representado las variables sobre un plano formado por los factores 1 y 2, pueden intervenir los factores 1 y 3, 2 Y 3 o cualquier combinación binaria de los mismos si son más de tres en la solución. Los valores de cada variable en las coordenadas corresponden a los pesos factoriales de las mismas en los ejes de cada factor. Pueden ser valores comprendidos entre -1 y 1, y obviamente cuanto mayor sea esta coordenada, más contribuye a la formación del eje, a la inercia del mismo. De hecho, de la posición de las variables respecto a los ejes es de donde podremos deducir el sentido y significado de los factores. En realidad los planos factoriales están situados en el interior de un círculo de radio la unidad, y en ese sentido lo ideal es que los puntos «variables del estudio» no estén concentrados en torno al origen del espacio bidimensional en este caso (0,0) sino próximos al borde del círculo o de los ejes factoriales. . B 16, B 17. B 18 Y B 19 están altamente correlacionadas entre si y a su vez correlacionadas positivamente con el factor I (están situadas cercanas al extremo positivo del eje). . B 13 Y B 14 lo mismo pero para el factor 2. Siguiendo con la idea de identificar del mejor modo posible las variables que en cualquier caso tienen pesos factoriales más elevados o saturan más en cada uno de los factores tal y como ya comentamos anteriormente, el sistema nos posibilita eliminar de la matriz de pesos factoriales y en las columnas de los diversos factores, los pesos de aquellas variables con un valor inferior a uno determinado y que por defecto es 0,10. 206 a Matriz de componentes rotados Ganas de trabajar Comodidad Preparación Bús queda Cris is Política de empleo Empresarios Reparto Pluriempleo 1 ,815 ,762 ,715 ,682 Component e 2 -,118 ,224 ,796 ,785 ,509 ,120 ,205 3 ,263 ,823 ,777 Mét odo de extracc ión: Análisis de componentes principales. Mét odo de rotación: Normalización Varimax con Kaiser. a. La rotación ha convergido en 5 iteraciones . Fig 16 Puntuaciones factoriales Puesto que la finalidad última del análisis factorial es reducir un gran número de variables a un pequeño número de factores, es a veces aconsejable estimar las puntuaciones factoriales de cada sujeto. Ya dijimos al iniciar este tema que un factor no es otra cosa sino una combinación lineal de las variables originales: p Fj W ji X i W ji X 1 W j 2 X 2 ... W jp X p i 1 Donde Wi son los coeficientes de las puntuaciones factoriales p es el número de variables Esta misma expresión pero para un individuo k determinado nos dará: p F jk W ji X ik i 1 Donde Xik es el valor estandarizado de la variable i para el sujeto k. Wji: es el coeficiente de las puntuacion factorial del factor j variable i Puesto que excepto para componentes principales no se pueden obtener puntuaciones factoriales exactas, se lleva a cabo una estimación de las mismas. En el subcuadro de diálogo «Puntuaciones» aparecen las diversas técnicas que recoge el programa para obtener los coeficientes de las puntuaciones factoriales. Si seleccionamos los ítems de la pantalla 207 Matriz de coeficie ntes para el cálculo de las puntuaciones en las com ponentes Cris is Política de empleo Empresarios Comodidad Preparación Ganas de trabajar Bús queda Pluriempleo Reparto 1 -,093 -,076 ,008 ,305 ,257 ,328 ,293 ,178 ,096 Component e 2 ,380 ,397 ,338 -,021 ,001 -,051 ,027 ,259 ,327 3 ,382 ,335 ,063 ,159 ,320 ,156 ,036 -,462 -,518 Mét odo de extracc ión: Análisis de componentes principales. Puntuaciones de c omponentes. Fig 17 con componentes principales y sin rotación obtendremos los coeficientes de la Figura 17. A su vez, en la base de datos habremos generado tres nuevas columnas correspondientes a las puntuaciones factoriales de cada sujeto en cada uno de los tres factores del modelo. En la Figura 18 aparecen estas puntuaciones factoriales para los 10 primeros sujetos de la muestra. Sea cual sea el procedimiento utilizado, estas puntuaciones factoriales tendrán media igual a cero y desviación estándar que en componentes principales será igual a la unidad en todos los casos. Resúmene s de ca sosa Número de c aso 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Total N REGR factor score 1 for analysis 1 1,06279 -,70528 -2,13193 -1,30937 -2,08549 -1,50853 -1,45866 -1,66638 ,22297 -,16443 10 REGR factor score 2 for analysis 1 1,54558 ,18764 ,87922 1,32218 ,70519 ,05484 ,82965 ,84921 ,43546 -,43639 10 REGR factor score 3 for analysis 1 1,32489 -,26646 1,50009 -,06271 ,31273 1,51359 -,61956 ,74869 -,37878 -1,00114 10 a. Limitado a los primeros 10 casos. En cuanto a sus valores concretos y para ver un ejemplo, cogemos el individuo número 1 de la base de datos, sus puntuaciones directas en las variables del ejemplo y sus puntuaciones estandarizadas. Si multiplicamos sus puntuaciones estandarizadas en cada una de las variables por los coeficientes en cada factor de las mismas (fig 17) obtendremos las puntuaciones factoriales de cada individuo en los tres factores y que son las que aparecen en la base de datos (Figura 18). Más concretamente y para el primer sujeto: B" B" 1'. Directas Variables 5 Bu B,. 5 5 B" B,. 4 B" 4 4 B.. B,. 4 4 4 1'. Eslándar. 1,24218 1,19047 1,4b942 0,85487 I,Olb91 0,94081 1,12151 O,437bO O,1473b Coef. Factor 1 0,03778 O,03b83 0.01869 0,34275 0,35493 0,36407 0,28509 -0,01011 -0,10864 ("oef. Factor 2 0,53259 0,51885 0,31393 0,01275 0,12354 -0,01722 -0,00876 -0,05346 -0,01193 Cocf. Factor 3 -0,11774 -0,06662 0,13829 -0,03663 -0,16488 -0,04316 0,08067 0,55620 0,61014 208 La puntuación factorial del primer sujeto en el primer factor será Factor 1 = (1,24218) (-0,09345) + (1,19047) (-0,07560) + (1,46942) (0,00814 + (0,85487) (0,30544) +…+ + (0,14736) (0,09634) = 1,06279 Una vez obtenidas las puntuaciones factoriales de cada sujeto en los tres factores, el análisis factorial acaba con una representación gráfica de la posición de cada sujeto en el hiperplano. En el ejemplo el sistema ha extraído tres factores y generado por tanto tres columnas en la base de datos con las puntuaciones factoriales de cada sujeto en cada uno de los tres factores. Estas variables, ya lo hemos comentado anteriormente, fac1_1, fac2_1 y fac3_1. Referencia: Capítulo 6. Análisis estadístico con SPSS para Windows Autor : Visauta. Volumen II:Estadística Multivariante 209 Análisis factorial El análisis factorial es una técnica de reducción de la dimensionalidad de los datos. Su propósito último consiste en buscar el número mínimo de dimensiones capaces de explicar el máximo de información contenida en los datos. A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en el análisis factorial no existe variable dependiente. Todas las variables del análisis tienen el mismo rango: todas ellas son independientes en el sentido de que no existe a priori una dependencia conceptual de unas variables sobre otras. Para llevar a cabo un análisis factorial: Seleccionar la opción Reducción de datos> Análisis factorial... del menú Analizar para acceder al cuadro de diálogo Análisis factorial La lista de variables del archivo de datos contiene un listado de todas las variables del archivo, incluidas las variables de cadena (aunque éstas sólo pueden utilizarse como variables de selección). Para llevar a cabo un análisis factorial: Seleccionar el conjunto de variables que se desea analizar y trasladarlas a la lista Variables. Variable de selección. Este cuadro permite seleccionar una de las variables del archivo de datos como variable de filtro para definir una sub-muestra de sujetos que cumplan una determinada condición. Esta opción es especialmente útil cuando se ha reservado un porcentaje de los sujetos de la muestra para llevar a cabo una validación cruzada del modelo final. Para utilizar una variable de selección: Trasladar la variable al cuadro Variable de selección y pulsar el botón Valor... para acceder al subcuadro de diálogo Establecer valor Introducir en el cuadro de texto el valor de la variable de selección que identifica a los casos que se desea incluir en el análisis. Ejemplo (Análisis factorial) Este ejemplo muestra cómo ejecutar el procedimiento Análisis factorial con las especificaciones que el programa tiene establecidas por defecto. Se desea comprobar si es posible resumir, mediante un número reducido de dimensiones o factores, la información disponible sobre las características laborales de un conjunto de empleados. (archivo de datos: Datos de empleados.sav). Para ello: o En el cuadro de diálogo Análisis factorial, seleccionar las variables educ, catlab, salario, salini, tiempemp, expprev y edad y trasladarlas a la lista Variables. Nota. La variable edad se ha creado con la opción Calcular a partir de la variable fechnac con la expresión «edad = RND((CTIME.DAYS(DATE.DMY(31,12,1997) - fechnac)/365.25)», 210 obteniendo así la edad en años a fecha 31/12/1997. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 1 a la 3. Tabla 1 Comunalidades Inicial Extracción Nivel educativo 1,000 ,682 Categoría laboral 1,000 ,782 Salario actual 1,000 ,901 Salario inicial 1,000 ,887 Meses desde el contrato 1,000 ,997 Experiencia previa (meses) 1,000 ,893 EDAD 1,000 ,889 Método de extracción: Análisis de Componentes principales. La Tabla 1 contiene las comunalidades asignadas inicialmente a las variables (inicial) y las comunalidades reproducidas por la solución factorial (extracción). La comunalidad de una variable es la proporción de su varianza que puede ser explicada por el modelo factorial obtenido. Estudiando las comunalidades de la extracción puede valorarse qué variables son peor explicadas por el modelo. En el ejemplo, la variable nivel educativo es la peor explicada: el modelo sólo es capaz de reproducir el 68,2 % de su variabilidad original. En una nota a pie de tabla se indica que, para llegar a esta solución factorial, se ha utilizado un método de extracción denominado componentes principales. Dicho método de extracción, que es el que actúa por defecto, asume que es posible explicar el 100% de la varianza observada y, por ello, todas las comunalidades iniciales son iguales a la unidad (que es justamente la varianza de una variable en puntuaciones típicas). A partir de la información de esta tabla es posible empezar a plantearse si el número de factores obtenidos (enseguida se verá cuáles son esos factores) es suficiente para explicar todas y cada una de las variables incluidas en el análisis. También éste es el momento de empezar a plantearse si, dando por bueno el número de factores extraído, alguna de las variables incluidas podría quedar fuera del análisis. 211 Tabla 2 Varianza total ex plicada Componente 1 2 3 4 5 6 7 Autovalores iniciales % de la Total varianza % acumulado 3,167 45,244 45,244 1,856 26,509 71,753 1,008 14,406 86,159 ,428 6,121 92,280 ,247 3,522 95,803 ,196 2,796 98,598 ,098 1,402 100,000 Sumas de las saturaciones al cuadrado de la extrac ción % de la Total varianza % acumulado 3,167 45,244 45,244 1,856 26,509 71,753 1,008 14,406 86,159 Mét odo de extracc ión: Análisis de Componentes princ ipales. En la tabla de porcentajes de varianza explicada (Tabla 2) se ofrece un listado de los autovalores de la matriz de varianzas-covarianzas y del porcentaje de varianza que representa cada uno de ellos. Los autovalores expresan la cantidad de la varianza total que está explicada por cada factor; y los porcentajes de varianza explicada asociados a cada factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide con el número de variables). Por defecto, se extraen tantos factores como autovalores mayores que I tiene la matriz analizada. En el ejemplo hay 3 autovalores mayores que 1, por lo que el procedimiento extrae 3 factores que consiguen explicar un 86,16 % de la varianza de los datos originales. La tabla muestra también, para cada factor con autovalor mayor que 1, la suma de las saturaciones al cuadrado: las sumas de cuadrados de la columna Total (que coinciden con los autovalores cuando se utiliza el método componentes principales, pero no cuando se utilizan otros métodos de extracción), pueden ayudar, según se verá, a determinar el número idóneo de factores. La información de esta tabla puede utilizarse para tomar una decisión sobre el número idóneo de factores que se debe extraer. Si se quisiera explicar, por ejemplo, un mínimo del 90% de la variabilidad contenida en los datos, sería necesario extraer cuatro factores. La matriz de varianzas-covarianzas analizada por defecto es la matriz de correlaciones entre las 7 variables incluidas en el análisis. Puesto que esta matriz es de dimensiones 7 x 7, es posible extraer hasta 7 factores independientes. Tal como muestra la columna de porcentajes acumulados (% acumulado), con los 7 factores que es posible extraer se consigue explicar el 100 % de la varianza total, pero con ello no se consigue el objetivo de reducir el número de dimensiones necesarias para explicar los datos. Tabla 3 a Matriz de componentes Nivel educativo Categoría laboral Salario act ual Salario inic ial Mes es des de el c ontrato Experiencia previa (meses) EDA D 1 ,806 ,843 ,944 ,910 ,043 Componente 2 -,173 ,260 ,089 ,232 ,054 3 ,047 -,061 ,041 -,077 ,996 -,179 ,927 -,043 -,233 ,913 ,026 Mét odo de extracc ión: Análisis de componentes princ ipales. a. 3 componentes ex traídos 212 En la Tabla 3 se encuentra la solución factorial propiamente dicha. Contiene las correlaciones entre las variables originales (o saturaciones) y cada uno de los factores. Conviene señalar que esta matriz cambia de denominación dependiendo del método de extracción elegido. En este caso se denomina matriz de componentes porque en el ejemplo se ha utilizado el método de componentes principales como método de extracción (es el método que actúa por defecto). También recibe el nombre de matriz de estructura factorial. Comparando las saturaciones relativas de cada variable en cada uno de los tres factores puede apreciarse que el primer factor está constituido por las variables nivel educativo, categoría laboral, salario actual y salario inicial. Todas estas variables saturan en un único factor porque constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este factor parece reflejar una dimensión de «promoción dentro de la empresa». El segundo factor recoge el grupo de las variables experiencia previa y edad, por lo que podría representar algo así como la «veteranía laboral». Por último, el tercer factor está formado por una única variable, meses desde el contrato, o lo que es lo mismo, la «antigüedad en el puesto», que es independiente de la «promoción dentro de la empresa» y de la «veteranía laboral» (puesto que los factores son independientes entre sí y la variable no satura en los otros dos factores). Descriptivos La opción Descriptivos ofrece algunos estadísticos descriptivos, además de la matriz de correlaciones y otras matrices y estadísticos relacionados con ella. Para obtener estos estadísticos descriptivos: Pulsar el botón Descriptivos... del cuadro de diálogo Análisis facforial para acceder al subcuadro de diálogo Análisis factorial: Descriptivos Estadísticos. Este recuadro contiene varias opciones para seleccionar los estadísticos descriptivos del análisis: Descriptivos univariados. ofrece, para cada variable, el número de casos válidos, la media y la desviación típica. Solución inicial. Permite obtener las comunalidades iniciales, los autovalores de la matriz analizada y los porcentajes de varianza asociados a cada autovalor. Esta opción está activa por defecto y la información que genera es la que aparece en las Tablas 1 y 2. Matriz de correlaciones. En este recuadro se encuentran las opciones necesarias para obtener información sobre la matriz de correlaciones y algunos estadísticos asociados a ella. Coeficientes. Ofrece la matriz con los coeficientes de correlación entre las variables utilizadas en el análisis. Niveles de significación. Incluye en la matriz de correlaciones los niveles críticos unilaterales asociados a cada coeficiente. Determinante. Determinante de la matriz de correlaciones. El valor del determinante aparece en una nota a pie de tabla. Los determinantes próximos a cero están indicando que las variables utilizadas están linealmente relacionadas, lo que significa que el análisis factorial es una técnica pertinente para analizar esas variables. Inversa. Inversa de la matriz de correlaciones. Esta matriz es la base para el cálculo de las 213 comunalidades iniciales en algunos métodos de extracción y para el cálculo de la matriz antiimagen (ver más abajo). Reproducida. Matriz reproducida. La matriz reproducida es la matriz de correlaciones que se obtiene a partir de la solución factorial hallada. Si el modelo es bueno y el número de factores el adecuado, la estructura factorial debe ser capaz de reproducir la matriz de correlaciones. En la diagonal de la matriz reproducida se encuentran las comunalidades finales. Junto con la matriz de correlaciones reproducidas se ofrece la matriz de correlaciones residuales, la cual contiene los residuos, es decir, las diferencias entre las correlaciones observadas y las correlaciones reproducidas. Si el modelo es bueno, el número de residuos con valores elevados debe ser mínimo. Anti-imagen. Matriz de covarianzas anti-imagen y matriz de correlaciones anti-imagen. La matriz de covarianzas anti-imagen contiene los negativos de las covarianzas parciales y la matriz de correlaciones anti-imagen contiene los coeficientes de correlación parcial cambiados de signo (la correlación entre dos variables se parcial iza teniendo en cuenta el resto de variables incluidas en el análisis). En la diagonal de la matriz de correlaciones antiimagen se encuentran las medidas de adecuación muestral para cada variable. Si el modelo factorial elegido es adecuado para explicar los datos, los elementos de la diagonal de la matriz de correlaciones anti-imagen deben tener un valor próximo a 1 y el resto de elementos deben ser pequeños. KMO y prueba de esfericidad de Bartlett. La medida de adecuación muestral K MO (Kaiser-Meyer-Olkin) contrasta si las correlaciones parciales entre las variables son suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial. El estadístico KMO varía entre 0 y 1. Los valores pequeños indican que el análisis factorial puede no ser una buena idea, dado que las correlaciones entre los pares de variables no pueden ser explicadas por otras variables. Los menores que 0,5 indican que no debe utilizarse el análisis factorial con los datos muestrales que se están analizando. La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo factorial no sería pertinente. Ejemplo (Análisis factorial > Descriptivos) Este ejemplo muestra cómo obtener e interpretar algunos estadísticos descriptivos adicionales a la solución ofrecida por defecto. Además de los estadísticos descriptivos, también se verá que es posible obtener estadísticos inferenciales para contrastar algunas hipótesis relevantes en el contexto del análisis factorial. Se siguen utilizando las mismas siete variables que en el ejemplo anterior. Para obtener estos estadísticos: En el subcuadro de diálogo Análisis factorial: Descriptivos, seleccionar todas las opciones de los distintos recuadros. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4 a 8. La Tabla 4 ofrece, para cada una de las variables incluidas en el análisis, algunos estadísticos descriptivos univariados: la media, la desviación típica insesgada y el número de casos válidos que serán utilizados en el análisis (número éste que, lógicamente, puede diferir del número de casos del archivo de datos). Si se mantienen las especificaciones que el programa tiene establecidas por defecto y el análisis se basa en la matriz de correlaciones, las diferencias de escala y de variabilidad entre las 214 variables carecen de relevancia. Sin embargo, si se decide que el análisis se base en la matriz de varianzas-covarianzas, las variables con mayor variabilidad tendrán mayor importancia en la solución final. Tabla 4. Esta dísticos descriptivos Nivel educativo Categoría laboral Salario actual Salario inicial Mes es desde el contrato Experiencia previa (meses) EDA D Media 13,49 1,41 $34, 418.45 $17, 009.25 81,14 Des viación típic a 2,886 ,774 $17, 093.723 $7,877.562 10,048 N del anális is 473 473 473 473 473 95,95 104, 680 473 41,23 11,771 473 La Tabla 5 ofrece la matriz de correlaciones, es decir, los coeficientes de correlación de Pearson entre cada par de variables. Si no se especifica lo contrario, ésta es, según se ha señalado ya, la matriz de la cual parte el análisis. Con el método de extracción componel1les principales (método que actúa por defecto), la matriz de correlaciones se auto-descompone en sus autovalores y autovectores para alcanzada solución factorial. El resto de los métodos de extracción se basan en una transformación de la matriz de correlaciones. Tabla 5 Matriz de correla cionesa Correlación Sig. (Unilateral) Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) EDAD Nivel educativo Categoría laboral Salario actual Salario inicial Meses desde el contrato Experiencia previa (meses) EDAD Salario inicial ,633 ,755 ,880 1,000 -,018 Meses desde el contrato ,050 ,004 ,084 -,018 1,000 Experiencia previa (meses) -,252 ,062 -,097 ,045 ,002 -,097 ,045 ,002 1,000 ,801 -,144 ,000 ,000 -,009 ,000 ,000 ,000 ,054 ,137 ,468 ,033 ,344 ,801 ,000 ,088 ,017 ,162 ,485 1,000 ,000 ,418 ,001 ,422 ,120 Nivel educativo 1,000 ,515 ,661 ,633 ,050 Categoría laboral ,515 1,000 ,780 ,755 ,004 Salario actual ,661 ,780 1,000 ,880 ,084 -,252 ,062 -,282 ,010 ,000 ,000 ,000 ,000 ,137 ,000 ,000 ,468 ,000 ,033 ,344 ,000 ,088 ,017 ,162 ,485 ,000 ,418 ,001 ,422 ,120 EDAD -,282 ,010 -,144 -,009 ,054 ,000 ,000 a. Determinante = ,012 Para que el análisis sea fructífero es conveniente que la matriz contenga grupos de variables que correlacionen fuertemente entre sí. Una matriz de correlaciones próxima a una matriz identidad indica que el análisis factorial conducirá a una solución deficiente. Para formarse una idea sobre el grado de relación existente entre las variables, la Tabla 4 ofrece, además de la matriz de correlaciones, el nivel crítico unilateral (Sig. unilateral) asociado a cada codiciente de correlación (el nivel crítico bilateral se obtiene multiplicando por dos el unilateral). Un nivel crítico menor que 0,05 indica que la correlación poblacional entre el correspondiente par de 215 variables puede ser considerada significativamente distinta de cero. Lo deseable, por tanto, es encontrar muchos niveles críticos pequeños. Por último, en una nota a pie de tabla aparece el valor del determinante de la matriz de correlaciones. Cuando las variables de una matriz están linealmente relacionadas, el valor del determinante se aproxima a cero, lo cual es un buen dato desde el punto de vista de la idoneidad del análisis. La Tabla 6 recoge la inversa de la matriz de correlaciones. Esta matriz se encuentra estrechamente relacionada con la matriz anti-imagen que aparece más abajo (ver Tabla .8). Si el determinante de la matriz de correlaciones vale exactamente cero, el programa emite una advertencia indicando que no es posible calcular la matriz inversa, en cuyo caso tampoco seráposible utilizar algunos de los métodos de extracción (por ejemplo, ejes principales o máxima verosimilitud). Tabla 6 Inversa de la matriz de correlaciones Nivel educativo Nivel educativo 2,030 Categoría laboral -,058 Salario actual -,533 Salario inicial -,785 Meses desde el contrato -,086 Experiencia previa ,288 (meses) EDAD ,264 Categoría Meses desde laboral Salario actual Salario inicial el contrato -,058 -,533 -,785 -,086 2,799 -1,675 -,591 ,129 -1,675 6,333 -3,998 -,600 -,591 -3,998 5,492 ,500 ,129 -,600 ,500 1,075 Experiencia previa (meses) ,288 -,246 ,424 -,521 ,054 EDAD ,264 -,099 ,432 -,350 -,209 -,246 ,424 -,521 ,054 2,908 -2,192 -,099 ,432 -,350 -,209 -2,192 2,901 La Tabla 7 contiene dos estadísticos que permiten valorar la bondad de ajuste o adecuación de los datos analizados a un modelo factorial: la medida de adecuación muestral KMO y la prueba de esfericidad de Bartlett. KMO y prue ba de Bartlett Medida de adecuac ión muestral de Kais er-Meyer-Olkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig. ,724 2072,714 21 ,000 Tabla 7 La medida de adecuación muestra/ de Kaiser-Meyer-Olkin/ (KMO) es un índice que compara la magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de correlación parcial: 216 donde rij representa el coeficiente de correlación simple entre las variables i y j y rij. m representa la correlación parcial entre las variables i y j eliminado el efecto de las restantes m variables incluidas en el análisis. Puesto que la correlación parcial entre dos variables debe ser pequeña cuando el modelo factorial es adecuado (ver más adelante), el denominador debe aumentar poco si los datos corresponden a una estructura factorial, en cuyo caso KMO tomará un valor próximo a l. Si el valor de la medida de adecuación muestral es reducido (los valores por debajo de 0,6 se consideran mediocres) puede que no sea pertinente utilizar el análisis factorial con esos datos. La diagonal de la matriz de correlaciones anti-imagen incluye los coeficientes de adecuación muestral para cada variable individualmente considerada. La prueba de esfericidad de Bartlell contrasta la hipótesis nula de que la matriz de correlaciones observada es en realidad una matriz identidad. Asumiendo que los datos provienen de una distribución normal multivariante, el estadístico de Bartlett se distribuye aproximadamente según el modelo de probabilidad chi-cuadrado y es una transformación del determinante de la matriz de correlaciones. Si el nivel crítico (Sig.) es mayor que 0,05, no se podrá rechazar la hipótesis nula de esfericidad y, consecuentemente, no se podrá asegurar que el modelo factorial sea adecuado para explicar los datos. La Tabla 8 ofrece la matriz de varianzas-covarianzas anti-imagen y la matriz de correlaciones anti-imagen. La matriz de correlaciones anti-imagen se encuentra relacionada con la matriz analizada por el método de extracción Análisis Imagen y se utiliza como diagnóstico de la adecuación de los datos a un modelo factorial. Tabla 8 Matrices a nti-ima gen Covarianza anti-imagen Correlación anti-imagen Nivel educativo Categoría laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDAD Nivel educativo Categoría laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDAD Experiencia previa (meses) ,049 -,030 ,023 -,033 ,017 EDAD ,045 -,012 ,023 -,022 -,067 ,017 ,344 -,260 -,067 -,058 ,074 -,230 ,206 ,098 a -,260 ,118 -,086 ,099 -,130 ,031 ,345 ,109 -,035 ,101 -,088 -,118 Nivel educ ativo ,493 -,010 -,041 -,070 -,039 Categoría laboral -,010 ,357 -,095 -,038 ,043 Mes es des de el contrato -,039 ,043 -,088 ,085 ,930 Salario actual -,041 -,095 ,158 -,115 -,088 Salario inic ial -,070 -,038 -,115 ,182 ,085 ,049 -,030 ,023 -,033 ,045 ,921 a -,024 -,149 -,235 -,058 -,012 -,024 ,881 a -,398 -,151 ,074 ,023 -,149 -,398 ,723 a -,678 -,230 -,022 -,235 -,151 -,678 ,743 a ,206 ,118 -,086 ,099 -,130 ,031 ,538 ,109 -,035 ,101 -,088 -,118 -,755 a -,755 ,548 a a. Medida de adecuac ión muestral En este contexto, un coeficiente de correlación parcial expresa el grado de relación existente entre dos variables tras eliminar el electo de las restantes variables incluidas en el análisis. Cuando las variables incluidas en el análisis comparten gran cantidad de información debido a la presencia de factores comunes, la correlación parcial entre cualquier par de variables debe ser reducida. Por el contrario, cuando dos variables comparten gran cantidad de información entre ellas, pero no la comparten con las restantes variables (ni, consecuentemente, con los factores comunes), la correlación parcial entre ellas será elevada, siendo esto un mal síntoma de cara á la idoneidad del análisis. 217 Por otro lado, las correlaciones parciales son también estimaciones de las correlaciones entre los factores únicos (existe un factor único para cada variable del modelo). Y puesto que los factores únicos son independientes entre sí, los valores de las correlaciones parciales deben estar próximos a cero. La correlación anti-imagen es el negativo de la correlación parcial entre dos variables. Si la matriz de correlaciones anti-imagen contiene una gran proporción de coeficientes elevados, el modelo factorial puede no ser adecuado para analizar los datos. La diagonal de la matriz de correlaciones anti-imagen contiene una medida de adecuación muestral para cada variable. Esta medida es similar a la medida KMO, pero para cada variable individualmente considerada. Los valores de la diagonal de la matriz de covarianza anti-imagen se obtienen restando a la unidad la correlación múltiple al cuadrado entre cada variable y las restantes variables del análisis. Por tanto, estos valores representan una estimación de la unicidad de cada variable o, lo que es lo mismo, una estimación de lo que cada variable tiene de propio o de no compartido con las demás. Tabla 9 Correlaciones reproduci das Correlación reproducida Res idual a Nivel educativo Categoría laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDA D Nivel educativo Categoría laboral Salario actual Salario inic ial Mes es des de el contrato Experiencia previa (meses) EDA D Nivel educ ativo ,682 b ,632 ,748 ,690 ,073 Categoría laboral Salario actual Salario inic ial ,632 ,748 ,690 ,782 b ,816 ,832 ,816 ,901 b ,876 ,832 ,876 ,887 b -,010 ,087 -,025 Mes es des de el contrato ,073 -,010 ,087 -,025 ,997 b Experiencia previa (meses) -,306 ,093 -,088 ,056 ,000 b -,306 ,093 -,088 ,056 ,000 ,893 -,344 ,040 -,116 -,137 -,087 -,036 -,001 -,057 -,076 ,004 ,066 -,022 ,014 -,002 ,006 ,887 ,055 -,031 -,010 -,011 ,002 -,116 -,087 -,057 -,022 -,036 -,076 ,014 ,004 -,002 ,006 ,055 -,031 -,010 -,011 ,002 ,062 -,031 -,007 -,008 -,012 EDA D -,344 ,040 -,137 -,001 ,066 ,887 ,889 b ,062 -,031 -,007 -,008 -,012 -,086 -,086 Mét odo de extracc ión: Análisis de Componentes principales. a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (33,0%) residuales no redundantes con valores absolutos mayores que 0,05. b. Comunalidades reproducidas Nota. Generalmente, los valores de estas dos matrices se muestran en notación científica (en formato exponencial). Si se desea reformar la tabla para que los valores no se muestren en notación científica, sino en notación decimal, se puede ejecutar el proceso de SPSS Deshacer notación científica.sbs. Para ello: Seleccionar la tabla en el Visor de resultados. Seleccionar la opción Ejecutar proceso... del menú Utilidades. En la carpeta Scripts (que cuelga de la carpeta en la que está instalado el SPSS), seleccionar el archivo Deshacer notación científica.sbs. La Tabla 9 muestra la matriz de correlaciones reproducidas. El Visor ofrece esta tabla al final de los resultados de la extracción y no junto al resto de estadísticos descriptivos. La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir utilizando tan sólo la información contenida en la solución factorial. Es decir, utilizando la matriz de la Tabla 3. En concreto, la matriz reproducida se obtiene post-multiplicando la matriz factorial por su traspuesta. Además de la matriz de correlaciones reproducidas, la Tabla 9 también incluye la matriz 218 residual, la cual contiene los residuos del análisis factorial. Cada residuo expresa la diferencia existente entre la correlación observada entre dos variables (ver Tabla 5) y la correlación reproducida por la estructura factorial para esas dos variables. Si el análisis ha sido fructífero, la mayoría de las correlaciones reproducidas se parecerán a las correlaciones observadas y los residuos serán muy pequeños. De hecho, como orientación, la tabla incluye una nota a pie de tabla que contabiliza el número de residuos mayores que 0,05 (un valor arbitrariamente pequeño) y el porcentaje que ese número representa sobre el total de correlaciones no redundantes de la matriz. Existen varias razones por las que el análisis podría desembocar en una matriz residual con un gran número de residuos altos (en valor absoluto). En primer lugar, podría ocurrir que se hubiera extraído un número insuficiente de factores y que, consecuentemente, la estructura factorial no fuera capaz de reproducir adecuadamente la matriz de correlaciones observada. En segundo lugar, podría ocurrir que las correlaciones observadas estuvieran mal estimadas, bien por la presencia de sesgos en la medida de las variables, bien porque el coeficiente de correlación de Pearson no fuera el apropiado para cuantificar la relación por causa de la escala utilizada para medir las variables. Por último, aunque no menos importante, podría ocurrir que el modelo factorial no fuera pertinente para analizar los datos (porque las variables no estuvieran linealmente relacionadas, porque en los datos analizados no existiera ningún tipo de estructura factorial, etc.). Extracción La opción Extracción permite controlar varios aspectos relacionados con la fase de extracción de los factores. Entre otras cosas, permite decidir qué modelo factorial se desea utilizar, en qué matriz de datos basar el análisis y cuántos factores deben extraerse. Para controlar los aspectos relacionados con el proceso de extracción de factores: Pulsar el botón Extracción... del cuadro de diálogo Análisis factorial para acceder al subcuadro de diálogo Análisis factorial: Extracción que muestra la Figura 20.4. Método. En esta lista desplegable se puede seleccionar el modelo factorial que será utilizado para estimar las saturaciones de las variables en los factores. Los distintos métodos difieren tanto en el algoritmo de cálculo como en la matriz que será analizada (se asume que la matriz seleccionada es la matriz de correlaciones). Los distintos métodos disponibles son: 219 Componentes principales. Método de extracción en el que los factores obtenidos son los autovectores de la matriz de correlaciones re-escalados. Mínimos cuadrados no ponderados. Método de extracción que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida, ignorando los elementos de la diagonal. Mínimos cuadrados generalizados. Método de extracción que minimiza la suma de los cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida. Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables cuya unicidad es alta reciben un peso menor que aquellas cuya unicidad es baja. Este método genera un estadístico de bondad de ajuste chi-cuadrado que permite contrastar la hipótesis nula de que la matriz residual es una matriz nula. Máxima verosimilitud. Método de extracción que proporciona las estimaciones de los parámetros que con mayor probabilidad han producido la matriz de correlaciones observada, asumiendo que la muestra procede de una distribución normal multivariada. Las correlaciones se ponderan por el inverso de la unicidad de las variables y se emplea un algoritmo iterativo. Este método genera un estadístico de bondad de ajuste chi-cuadrado que permite contrastar la capacidad del modelo para explicar la matriz de correlaciones. Ejes principales. Método de estimación iterativo en el que, como estimación inicial de la comunalidad, la matriz de correlaciones original se reduce sustituyendo los unos de su diagonal por las estimaciones de la correlación múltiple al cuadrado entre cada variable y todas las demás. La matriz reducida se auto-descompone y se corrigen las estimaciones iniciales de la comunalidad por las nuevas estimaciones resultantes. El proceso continua hasta que no existe diferencia entre las estimaciones de las comunalidades entre dos pasos sucesivos o se alcanza alguno de los criterios de parada. Alfa. Método de extracción que considera las variables incluidas en el análisis como una muestra del universo de las variables posibles. Este método maximiza la generalizabilidad de los factores calculada como el alfa de Cronbach. Imagen. Método de extracción en el que se auto-descompone la matriz. de correlaciones imagen. Se asume que la comunalidad es igual al cuadrado de la correlación múltiple entre una variable y todas las demás. Al solicitar este método de extracción, los resultados incluyen una tabla con la matriz de covarianza imagen. Analizar. Las opciones de este recuadro sólo están disponibles cuando se seleccionan los métodos de componentes principales, ejes principales y análisis imagen. Estas opciones permiten seleccionar el tipo de matriz que será analizada. Matriz de correlaciones. El análisis se basa en la matriz de correlaciones, en la matriz de correlaciones reducida, o en la matriz de correlaciones anti-imagen, según el método seleccionado. Matriz de covarianza. El análisis se basa en la matriz de varianzas-covarianzas, en la matriz de varianzas-covarianzas reducida, o la matriz de covarianzas anti-imagen, según el método seleccionado. 220 Extraer. Este recuadro contiene opciones que permiten determinar el número de factores que se extraerán en la solución factorial, bien a partir de una regla heurística, bien especificando un número concreto: Autovalores mayores que. Si la matriz analizada es la de correlaciones, esta opción permite utilizar el tamaño de los autovalores como criterio para decidir el número de factores que estarán presentes en la solución factorial. Por defecto se extraen los factores cuyos autovalores son mayores que 1 (a este criterio se le denomina regla K 1). Si la matriz analizada es la de varianzas-covarianzas, la regla expresa el número de veces que un autovalor debe ser mayor que el autovalor promedio de la matriz para que el correspondiente factor sea retenido en la solución. El valor que actúa por defecto es 1, pero este valor puede cambiarse introduciendo otro distinto (entre cero y el número de variables) en el correspondiente cuadro de texto. Número de factores. Permite especificar el número exacto de factores que se desea incluir en la solución. Se debe introducir dicho número en el recuadro de texto. Mostrar. Estas opciones permiten seleccionar los resultados de la extracción que aparecerán en el visor de resultados. Solución factorial sin rotar. Muestra las saturaciones factoriales sin rotar (la matriz de componentes o factorial), las comunalidades y los autovalores de la solución factorial. Gráfico de sedimentación (también llamado prueba de sedimentación de Cattell). Muestra una representación gráfica de la magnitud de los autovalores. El corte en la tendencia descendente sirve de regla para la determinación del número óptimo de factores que deben estar presentes en la solución. Siempre se muestra la representación de los autovalores de la matriz de correlaciones (o de covarianzas) originales, independientemente del método de extracción seleccionado. N° de iteraciones para convergencia. Este cuadro de texto permite establecer el número máximo de iteraciones que los algoritmos pueden realizar para encontrar la solución factorial final. El valor por defecto es 25 (que resulta habitualmente apropiado para obtener una solución), pero este valor puede cambiarse introduciendo cualquier otro entero positivo. 221 Gráfico de sedimentación 3,5 3,0 2,5 2,0 1,5 Autovalor 1,0 ,5 0,0 1 2 3 4 5 6 7 Número de componente El gráfico de sedimentación sirve para determinar el número óptimo de factores.Consiste simplemente en una representación gráfica del tamaño de los autovalores. Según se ha señalado ya, los autovalores indican la cantidad de varianza que está explicada por cada componente principal. Tanto la tabla de porcentajes de varianza explicada (ver Tabla 11) como el gráfico de sedimentación (ver Figura ) muestran los autovalores ordenados de mayor a menor: el primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor de los restantes, y así sucesivamente. Si un autovalor se aproxima a cero, esto significa que el factor correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza total. Por tanto, un factor al que corresponde un autovalor próximo a cero se considera un factor residual y carente de sentido en el análisis. Al representar todos los autovalores ordenados por su tamaño es posible formarse muy rápidamente una idea sobre si la cantidad de varianza asociada a cada uno de ellos es relevante para el análisis o si por el contrario se trata sólo de varianza residual. Los autovalores residuales se encuentran en la parte derecha del gráfico, formando una planicie de poca inclinación, en contraposición a la fuerte pendiente formada por los autovalores que explican la mayor parte de la varianza disponible. Por este motivo, es conveniente inspeccionar el gráfico de sedimentación de izquierda a derecha, buscando el punto de inflexión en el que los autovalores dejan de formar una pendiente significativa, con mucha inclinación, y comienzan a describir una caída con poca o ninguna inclinación. En el ejemplo, la pendiente pierde inclinación a partir del cuarto autovalor (hacia su derecha). O lo que es lo mismo, el cuarto autovalor no provoca pendiente respecto del quinto (es decir, el cuarto valor se encuentra en la misma planicie sin pendiente que el quinto), por lo que puede considerarse que sólo deben extraerse los tres primeros factores y desechar del cuarto en adelante. Es importante señalar que el aspecto del gráfico de sedimentación no cambia como consecuencia del número de factores seleccionado. Por otra parte, el gráfico siempre muestra todos los posibles autovalores de la matriz de correlaciones original, no los autovalores de la matriz analizada, que puede ser distinta de la de correlaciones dependiendo del método de extracción 222 utilizado. Rotación La opción Rotación permite controlar la fase de rotación del análisis. Con esta opción es posible definir el método de rotación que se desea utilizar (para facilitar la interpretación de la solución factorial) y solicitar la representación gráfica de las saturaciones. Por defecto, no se encuentra seleccionado ningún método de rotación. Para seleccionar el método de rotación: Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial para acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8. pueden obtenerse factores relacionados entre si. Los métodos disponibles son: Ninguno. No se aplica ningún método de rotación. Es la opción que actúa por defecto. Cuando la solución consta de un único factor y no se ha se ha marcado esta opción, el Visor de resultados muestra un mensaje advirtiendo que no es posible rotar la solución. Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la solución por columna. Quartimax. Método de rotación ortogonal que minimiza el número de factores necesarios para explicar cada variable. Simplifica la interpretación de las variables observadas optimizando la interpretación por filas. Equamax. Método de rotación que es combinación del método Varimax, que simplifica los factores, y del método Quartimax, que simplifica las variables. Se minimiza tanto el número de variables que saturan alto en un factor como el número de factores necesarios para explicar una variable. Oblimin directo. Método para la rotación oblicua (no ortogonal). Cuando delta es igual a cero (el valor por defecto), las soluciones son las más oblicuas. A medida que delta se va haciendo más negativo, los factores son menos oblicuos. Para anular el valor por defecto de delta, puede introducirse un número menor o igual que 0,8. Delta. El valor de delta permite controlar el grado de oblicuidad que pueden llegar a alcanzar los factores de la solución. 223 Promax. Rotación oblicua que permite que los factores estén correlacionados. Puede calcularse más rápidamente que una rotación oblimin directa, por lo que es útil para grandes conjuntos de datos. Kappa. Parámetro que controla el cálculo de la rotación Promax. El valor por defecto es 4. Este valor es adecuado para la mayoría de los análisis. Mostrar. Las opciones de este recuadro permiten decidir qué resultados de la rotación mostrará el Visor de resultados. Por defecto, cuando se selecciona alguno de los métodos de rotación, el Visor muestra la solución rotada. Si se encuentra seleccionada la opción Ninguna del recuadro Método no será posible seleccionar ninguna de las opciones de este recuadro. Solución rotada. Permite obtener una o más tablas con los resultados del proceso de rotación. Al seleccionar una rotación ortogonal, esta opción permite obtener la matriz de estructura factorial rotada y la matriz de transformación necesaria para rotar los factores a partir de la solución inicial. Además, en la tabla de porcentajes de V'arianza explicada aparecen columnas adicionales que contienen la varianza total explicada por los factores rotados. Al seleccionar una rotación oblicua, esta opción permite obtener la matriz de configuración rotada, que contiene las saturaciones de las variables en los factores, y la matriz de estructura, que contiene las correlaciones entre las variables observadas y los factores (cuando la rotación es ortogonal, ambas matrices son idénticas). Además, ofrece la matriz de correlaciones entre los factores y desecha la matriz de transformación para la rotación. En la tabla de porcentajes de varianza explicada sólo se incluyen los autovalores de los factores rotados (ya que no tiene sentido hablar de porcentajes de varianza independientes). Gráficos de saturaciones. Esta opción genera un gráfico de dispersión que refleja la ubicación de las variables en el espacio definido por los factores. Se trata de un gráfico de las saturaciones. El gráfico muestra, por detecto, los tres primeros factores de la solución factorial en un gráfico tridimensional. Si se desea representar otros factores, es necesario editar el gráfico y elegir esos otros factores. Los ejes factoriales se representan siempre en formato ortogonal, aunque exista correlación entre los factores. N° máximo de iteraciones para convergencia. Permite determinar el número máximo de iteraciones que puede recorrer el algoritmo de estimación para encontrar la solución rotada. Por defecto se efectúan un máximo de 25 iteraciones, lo cual resulta suficiente en la mayoría de los casos. Ejemplo (Análisis factorial > Rotación ortogonal) Este ejemplo muestra cómo rotar la estructura factorial original mediante un método ortogonal. La estructura que se va a rotar es la obtenida en el ejemplo anterior (2 factores) con el método de extracción ejes principales. Primero se representará gráficamente la solución no rotada y posteriormente se comparará con la solución rotada. Para representar gráficamente la solución factorial no rotada del ejemplo anterior (6 varia bles, 2 factores, método de extracción ejes principales): Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8. 224 En el recuadro Mostrar, seleccionar la opción Gráficos de saturaciones. Aceptando estas selecciones se obtiene, además de los resultados del ejemplo anterior, el gráfico de las saturaciones factoriales que muestra la Figura 20.9. Un gráfico de factores o de saturaciones factoriales representa el espacio factorial definido por los factores contenidos en la solución factorial. Si la solución contiene un único factor, el gráfico no se genera y aparece una advertencia indicando tal circunstancia; si la solución contiene dos factores se genera un diagrama de dispersión simple; si la solución contiene tres o más factores se genera un gráfico de dispersión tridimensional en el que sólo se representan los tres primeros factores. Cuando la solución contiene más de tres factores, el gráfico tridimensional representa los tres primeros factores, pero almacena también la información correspondiente a los restantes factores. Para representar factores distintos de los tres primeros pueden hacerse dos cosas, ambas desde el Editor de gráficos (al cual se accede pinchando dos veces sobre un gráfico): (1) seleccionar en el menú Series los tres factores que se desea representar, o (2) solicitar en el menú Galería un diagrama de dispersión matricial para representar simultáneamente todos los factores dos a dos. Un gráfico .de saturaciones factoriales es un diagrama de dispersión en el que los factores definen los ejes del espacio y las variables constituyen los puntos del diagrama. Las coordenadas de una variable en cada factor se corresponden con las saturaciones de la variable en dichos factores, es decir, con los valores de la matriz factorial (ver Tabla 20.18). La rotación de la solución original se realiza con el objetivo de mejorar la interpretación de la estructura factorial. Las restricciones de la auto-descomposición de la matriz de correlaciones imponen que el primer factor explique el máximo de la varianza común disponible en los datos, que el segundo factor explique el máximo de la varianza común restante (e independiente de la explicada por el primer factor), y así sucesivamente hasta el último de los factores. Estas restricciones se imponen para deshacer la indeterminación intrínseca a la solución del sistema homogéneo de ecuaciones que da lugar a los autovectores. Un efecto indeseable de estas restricciones es que los primeros factores tienden a capitalizar la información de covariación contenida en la matriz de correlaciones, acumulando más información de la que posiblemente les corresponda. Este hecho se aprecia en que las saturaciones de las variables en los primeros factores (y en especial en el primer factor) suelen encontrase infladas, llevando esto a conceder excesiva importancia a los primeros factores. Cuando la estructura factorial es clara y cada variable del análisis se encuentra inequívocamente asignada a un único factor, el electo contaminante de las restricciones no suele apreciarse. Sin embargo, cuando las variables saturan en más de un factor o existe un factor general que domina la solución, la rotación puede ser de gran utilidad para interpretar los resultados. 225 Otro de los motivos que justifican la rotación es que la solución factorial original es siempre ortogonal (los factores no rotados son siempre independientes entre si). Sin embargo, existe un gran número de situaciones (y en especial en las ciencias sociales) en las que los factores pueden estar relacionados entre sí. En estos casos, si se desea estimar el grado de relación existente entre los factores, debe recurrirse a una rotación oblicua. En el gráfico de la Figura 20.9 pueden apreciarse dos grupos diferenciados de variables. El primer grupo de se encuentra próximo al extremo positivo del factor 1, formado por las variables salario (salario actual), salini (salario inicial), catlab (categoría laboral) y educ (nivel educativo). El segundo grupo de variables se encuentra próximo al extremo positivo del factor 2 y está formado por las variables expprev (experiencia previa) y edad. Se aprecia un panorama similar si se estudia con detenimiento la matriz factorial de la Tabla 20.18. En ella se puede apreciar que el grupo de variables pertenecientes al segundo factor también saturan, aunque poco, en el primer factor. Además, la variable nivel educativo, aunque se encuentra relativamente distante del primer factor, satura bastante en él (tal vez de manera excesiva). Si se efectúa una rotación ortogonal, es muy posible que se aclare algo más la estructura de las variables. Para aplicar un método de rotación (manteniendo las mismas 6 variables utilizadas en los ejemplos anteriores, forzando una solución de 2 factores y utilizando ejes principales como método de extracción): Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8. En el recuadro Método, seleccionar la opción Varimax y pulsar el botón Continuar para volver al cuadro de diálogo principal. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.19 a la 20.22 y la Figura 20.11. La tabla de comunalidades no ha cambiado; es la misma que la ya obtenida en la extracción no rotada (ver Tabla 20.16). Es importante resaltar este detalle pues obedece al hecho de que en el proceso de rotación se busca clarificar la interpretación de la estructura factorial subyacente sin alterar la situación relativa de unas variables respecto a las otras, y sin alterar tampoco el porcentaje de la varianza de cada variable que es capaz de explicar cada factor. Para que las comunalidades de las variables cambien, es necesario variar el número de factores de la solución. Lo que sí cambia en el proceso de rotación es el porcentaje de varianza total explicada por cada factor (y cambia tanto más cuanto más éxito tiene la rotación). Ahora, al haber solicitado la aplicación de un método de rotación, la tabla de porcentajes de varianza explicada (ver Tabla 20.19) incorpora información adicional referida a la suma de las saturaciones tras la rotación de los factores. En el ejemplo, puede comprobarse que las sumas de los cuadrados de las saturaciones correspondientes a la solución rotada no coinciden con las de la extracción no rotada. No obstante, difieren muy poco, por lo que se puede pensar que la rotación no mejora demasiado la interpretación de la solución factorial y que la extracción inicial ofrece ya una solución lo suficientemente clara. 226 La matriz de la estructura factorial no rotada (ver Tabla 20.20) contiene la solución factorial antes de aplicar la rotación (es decir, contiene las saturaciones de las variables en los factores no rotados). Esta matriz es idéntica a la obtenida en la solución no rotada (ver Tabla 20.18). El Visor ofrece esta tabla (que es el punto de partida del proceso de rotación) justo antes de presentar la matriz de la estructura factorial rotada. La matriz de la estructura factorial rotada aparece en la tabla denominada matriz de factores rotados (ver Tabla 20.21). Comparando los valores de esta tabla con los de la matriz no rotada de la Tabla 20.20, puede comprobarse que las saturaciones de las dos variables agrupadas en el segundo factor ha mejorado algo: se han incrementado ligeramente las de ese factor y han disminuido las del primero (recuérdese que la comunalidad de una variable es igual a la suma de los cuadrados de las saturaciones de esa variable y que esa suma no se altera con la rotación; por tanto, si la saturación de una variable aumenta en un factor, su saturación en los restantes factores debe disminuir). La variable categoría laboral también se ha desplazado hacia su factor, el primero, disminuyendo su saturación en el segundo factor. Sin embargo, la variable nivel educativo, que antes saturaba fundamentalmente en el primer factor, ha perdido parte de su correlación con él en beneficio del segundo factor, con el que ahora comparte más información. En definitiva, el proceso de rotación busca lo que Thurstone (1947) denominó una estructura simple: variables que saturen, a ser posible, en un único factor, y factores que contengan un número reducido de variables que saturen inequívoca y exclusivamente en ellos. Con todo, las variables que compartan información con varios factores, si existen, entorpecerán el proceso de rotación y, en lugar de una única saturación elevada en un único factor, tenderán a mostrar saturaciones moderadas en varios factores (como ocurre en el ejemplo, en parte, con la variable nivel educativo). 227 La Tabla 20.22 muestra la matriz de transformación de los factores, que es la matriz utilizada para rotar la solución inicial. Esta matriz adopta la forma: Donde A es la matriz de estructura factorial antes de la rotación, T es la matriz de transformación ya es la matriz de estructura factorial después de la rotación. Igualando los términos de la matriz anterior con los de la Tabla 20.22 y despejando, se obtiene un ángulo de rotación de aproximadamente 10° en el sentido contrario al de las agujas del reloj. Como el método de rotación utilizado es ortogonal, los ejes rotados seguirán siendo ortogonales o independientes entre sí, es decir, seguirán formando un ángulo de 90°. Para ayudar a percibir con claridad el efecto de la rotación, la Figura 20.10 muestra los ejes rotados superpuestos sobre el gráfico de la solución no rotada de la Figura 20.9. No obstante, en la rotación que ofrece el Visor (ver Figura 20.11), da la impresión de que son las variables las que se desplazan hacia los ejes en lugar de ser los ejes los que se desplazan hacia las variables. 228 El gráfico muestra con claridad cómo las variables pertenecientes factor 2 se han aproximado más a él, cómo el grupo de variables pertenecientes al factor 1 ahora se encuentran atravesadas por el eje que representa dicho factor y cómo la variable nivel educativo se ha distanciado del factor 1, llevando esto a pensar que esa variable comparte, de hecho, información con el factor 2. A la vista del gráfico y de la matriz de estructura rotada, puede interpretarse que la personas de mayor edad y experiencia de la empresa tienden a presentar un menor nivel educativo y viceversa, las personas de menor edad y experiencia laboral tienden a presentar un mayor nivel educativo. Ejemplo (Análisis factorial > Rotación oblicua) Este ejemplo muestra cómo rotar la solución factorial original mediante un método oblicuo y compara los resultados de la rotación oblicua con los de la rotación ortogonal del ejemplo anterior. La estructura rotada es la ya obtenida con el método de extracción ejes principales (6 variables, 2 factores). Para seleccionar un método de rotación oblicuo: Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8. En el recuadro Método, seleccionar la opción Oblimin directo. Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.23 a la 20.27. La tabla de comunalidades es la misma que la ya obtenida en la extracción no rotada (ver Tabla 20.16). Recuérdese que el proceso de rotación busca clarificar la interpretación de la estructura factorial sin alterar la situación relativa de las variables ni el porcentaje de la varianza de cada variable que es capaz de explicar el conjunto de factores. La tabla de porcentajes de varianza explicada (Tabla 20.23) muestra información parcial sobre el resultado de la rotación: si bien la tabla recoge las sumas de cuadrados de las saturaciones de las variables en cada factor (última columna de la tabla), no es posible sumar esas sumas de cuadrados e interpretarlas como porcentajes de varianza explicada. Esto es debido a que los factores ya no tienen por qué cumplir la restricción de ser ortogonales entre sí y, consecuentemente, la varianza de la suma de los factores ya no es igual a la suma de las varianzas de los factores (el encabezamiento completo de la última columna de la tabla -Suma de sus saturaciones al cuadrado de la rotación-sólo puede verse ensanchando la columna). 229 La matriz de la estructura factorial no rotada (Tabla 20.24) se ofrece en una tabla denominada matriz factorial y, al igual que ocurre con la tabla de comunalidades, también es idéntica obtenida anteriormente (ver Tabla 20.18). A diferencia de lo que ocurre en la rotación ortogonal, los resultados de la rotación oblicua pueden representarse en una única matriz. Si los factores son ortogonales (independientes e sí), la saturación de una variable en un factor, es decir, su proyección sobre el factor, es i¡ a la correlación de esa variable con el factor. Pero si los factores son oblicuos (correlacionan entre sí), la saturación y la correlación de una variable en un factor no coinciden. Por motivo, al solicitar una rotación oblicua, el Visor muestra dos matrices para la estructura fa rial rotada: una con las correlaciones (a la que llama matriz factorial) y otra con las saturaciones (a la que llama matriz de configuración). La matriz de configuración ofrece las saturaciones de las variables en los factores de la solución rotada (Tabla 20.25). Esas saturaciones, que son las que se representan en el gráfico del espacio factorial rotado, representan la contribución neta de cada variable en cada factor, por lo que constituyen la manera más fácil de interpretar la solución factorial. 230 La matriz de estructura contiene las correlaciones entre las variables y los factores de la solución rotada (Tabla 20.26). Estas correlaciones representan la contribución bruta de cada variable a cada factor. Cuando los factores están muy relacionados (se encuentran muy próximos en el espacio), la matriz de estructura contiene correlaciones muy grandes entre todas las variables y todos los factores, lo cual hace muy difícil la interpretación al no poder precisar a qué factor hay asignar cada variable (si bien esto representa la situación real: las variables que correlacionan con un factor también lo harán con los factores relacionados con él). En la Figura 20.12 están representadas las proyecciones espaciales que dan lugar a las saturaciones factoriales de la matriz de configuración y a las correlaciones variables-factores de la matriz de estructura. Todo ello dentro del espacio factorial definido por dos factorescorrelacionados entre sí (oblicuos). En la figura puede apreciarse que las saturaciones y las correlaciones más altas en un factor (proyecciones más largas: by b') corresponden a las variables que más cerca se encuentran de él. Sin embargo, justamente por tratarse de factores oblicuos, mientras la saturación de una variable en el factor del que se encuentra más alejada es muy reducida (proyección a), la correlación de esa misma variable con ese mismo factor (proyección a') es más alta que la saturación. La matriz de correlaciones entre los factores (Tabla 20.27) permite apreciar el grado de proximidad existente entre los factores: cuanto mayor sea la correlación entre los factores (en valor absoluto), más próximos se encontrarán éstos en el espacio. Estas correlaciones están estrechamente relacionadas con el ángulo que forman los factores: equivalen al coseno del ángulo comprendido entre ellos. En nuestro ejemplo: correlación(factor l, factor 2) = -0, l 04 = cos(9) y arcos(-0,104) = 9 == 96°. Los factores se encuentran abiertos un poco más de 90 grados; por tanto, no son ortogonales (si los factores fueran ortogonales o independientes, la correlación entre ambos valdría cero y el ángulo comprendido entre ellos sería exactamente de 90 grados). 231 Puede darse el caso de que, aun solicitando una rotación oblicua, los factores permanezcan ortogonales. El algoritmo de rotación oblicua busca rotar de manera autónoma cada uno de los factores, pero eso no quiere decir que los factores deban aproximarse entre sí cuando la solución ortogonal es la mejor de las posibles. En el ejemplo, el ángulo entre factores ha permanecido prácticamente en 90 grados (casi ortogonales), razón por la cual la matriz de configuración y la matriz de estructura apenas difieren entre sí. Cuando se realiza una rotación oblicua, el gráfico de las saturaciones en el espacio factorial rotado (Figura 20.13) puede resultar engañoso. Aunque el gráfico representa la posición relativa de las variables en los factores, el ángulo entre los factores se mantiene en 90 grados, independientemente del ángulo real obtenido con la rotación. Para interpretar correctamente el gráfico debe tenerse en cuenta cuál es la posición de las variables respecto del factor en el que más saturan (que es el factor al que se encuentran más próximas). Sin embargo, la inclinación de los ejes debe intuirse a partir de los valores de la matriz de correlaciones entre los factores. Puntuaciones factoriales Una vez alcanzada la solución factorial final, suele resultar interesante obtener una estimación de las puntuaciones de los sujetos en cada uno de los factores resultantes de la extracción a fin de valorar la situación relativa de cada sujeto en esas dimensiones ocultas capaces de resumir la información contenida en las variables originales. El cuadro de diálogo Puntuaciones factoriales contiene varias opciones que permiten solicitar las estimaciones de las puntuaciones factoriales y seleccionar el método de estimación que se desea utilizar para obtener tales estimaciones. Para acceder a estas opciones: Pulsar el botón Puntuaciones... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para acceder al subcuadro de diálogo Análisis factorial: Puntuaciones factoriales que muestra la Figura 20.14. Guardar como variables. Activando esta opción se guardan automáticamente en el Editor de datos las puntuaciones factoriales estimadas para cada sujeto en cada uno de los factores obtenidos en la solución factoría!. Para ello, el SPSS crea en el archivo de datos activo tantas 232 variables nuevas como factores contenga la solución factorial. Si no se selecciona esta opción no .es posible acceder a los métodos de estimación de las puntuaciones factoriales. Método. Este recuadro contiene varios métodos de estimación de las puntuaciones factoriales. Por defecto se encuentra seleccionado el método de Regresión, que es el de uso más generalizado. Es importante señalar que las opciones de este recuadro no tienen electo alguno cuando se ha seleccionado componentes principales como método de extracción, ya que en ese modelo factorial las puntuaciones factoriales no son estimadas, sino calculadas directamente a partir de las variables originales. Regresión. Método de estimación de las puntuaciones factoriales en el que las estimaciones resultantes tienen una media de cero y una varianza igual al cuadrado de la correlación múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos. Las puntuaciones factoriales estimadas con este método pueden estar correlacionadas incluso cuando los factores son ortogonales. Bartlett. Método de estimación de las puntuaciones factoriales en el que las estimaciones resultantes tienen una media de cero. Este método minimiza la suma de cuadrados de los factores únicos (es decir, minimiza la unicidad correspondiente a cada una de las variables incluidas en el análisis). Anderson-Rubin. Este método de estimación es una modificación del método de Bartlett que asegura la ortogonalidad de las puntuaciones factoriales estimadas. Las estimaciones resultantes tienen una media de cero, una desviación típica de uno y son independientes entre sí (incluso en el caso de que se haya solicitado una solución rotada oblicua). Mostrar matriz de coeficientes de las puntuaciones factoriales. Esta opción permite obtener una tabla con los pesos o ponderaciones necesarios para calcular las puntuaciones factoriales a partir de las variables originales. Esta opción se encuentra desactivada por defecto. Por tanto, para obtener la matriz de coeficientes no basta con solicitar las puntuaciones factoriales. Ejemplo (Análisis factorial > Puntuaciones) Este ejemplo muestra cómo obtener e interpretar las estimaciones de las puntuaciones factoriales. Se comparan varios métodos de estimación de las puntuaciones factoriales. Las puntuaciones factoriales de los sujetos dependen del método de extracción utilizado, del método de rotación elegido y del método de estimación de las puntuaciones factoriales seleccionado. Cada combinación de estos tres aspectos del análisis da lugar a un conjunto de puntuaciones factoriales distintas para un sujeto dado. La elección de las puntuaciones factoriales más adecuadas depende de los propósitos del investigador. Así, por ejemplo, si se desea realizar un análisis factorial de segundo orden sobre las puntuaciones factoriales, no debe seleccionarse el método de Anderson-Rubin, ya que este método impone la ortogonalidad de las puntuaciones factoríales y el análisis factorial ulterior no tendría sentido. En ese caso sería recomendable utilizar el método de regresión con una rotación oblicua para asegurar la posibilidad de explotar las relaciones existentes entre los factores. Para solicitar las estimaciones de las puntuaciones factoriales: En el cuadro de diálogo Análisis factorial (ver Figura 20.1), seleccionar las seis variables con las que se viene trabajando en los últimos ejemplos (educ, catlab, salario, salini, exprev y edad), y trasladarlas a la lista Variables. Pulsar el botón Puntuaciones... para acceder al subcuadro de diálogo Análisis factorial: Puntuaciones factoriales (ver la Figura 20.15). 233 Marcar la opción Guardar como variables (al marcar esta opción, aparece seleccionada, por defecto, la opción Regresión del recuadro Método) y la opción Mostrar la matriz de coeficientes de las puntuaciones factoriales. Pulsar el botón Continuar para volver al cuadro de diálogo principal. Pulsar el botón Extracción... para acceder al subcuadro de diálogo Análisis vectorial: Extracción (ver Figura 20.4). Seleccionar la opción Componentes principales en el menú emergente del cuadro Método e introducir un 2 en el cuadro de texto Número de factores. Pulsar el botón Continuar para volver al cuadro de diálogo principal. Pulsar el botón Rotación... para acceder al subcuadro de diálogo Análisis factorial: Rotación (ver Figura 20.8) y seleccionar la opción Ninguno del recuadro Método. Pulsar el botón Continuar para volver al cuadro de diálogo principal. Aceptando estas selecciones, el Visor ofrece, además de las tablas de resultados ya vistas en los ejemplos anteriores (comunalidades, porcentajes de varianza explicada, matriz de componentes, etc.), dos nuevas tablas con información referida a las puntuaciones factoriales solicitadas. La Tabla 20.28 muestra la matriz de coeficientes para el cálculo de las puntuaciones factoriales, la cual contiene las ponderaciones que recibe cada variable en el cálculo de las puntuaciones factoriales. Puesto que se ha utilizado el método de extracción de componel1les principales, las dimensiones obtenidas reciben el nombre de componentes (en lugar del nombre factores que reciben con otros métodos de extracción). Combinando cada variable con sus correspondientes coeficientes pueden construirse las dos ecuaciones lineales en las que se basa el cálculo de las puntuaciones factoriales: Y1 = 0,255 educ + 0,266 catlab + 0,298 salario + 0,288 salini - 0,057 expprev - 0,074 edad Y2 = -0,093 educ + 0,141 catlab + 0,048 salario + 0,127 salini + 0,500 expprev + 0,492 x edad Las dos puntuaciones factoriales de un sujeto se obtienen sustituyendo cada variable por sus respectivos valores. La Tabla 20.29, obtenida con el procedimiento Informes> Resúmenes de casos del menú Analizar muestra las puntuaciones factoriales de los 10 primeros sujetos. Tabla 20.29. Listado de las puntuaciones factoriales de los 10 primeros sujetos. REGR factor REGR factor score 1 score 2 for analysis 1 for analysis 1 1 1.38309 .88997 2 .28680 - .46629 3 -1.00661 2.35341 4 -1.09351 .85072 234 5 6 7 8 9 10 .28864 -.14950 .07017 -.64438 -.35485 -.72959 .23986 - .40335 .01337 -1.03708 .32729 1.03906 Las puntuaciones factoriales se encuentran en formato diferencial, por lo que una puntuación de cero se corresponde con una puntuación factorial igual a la media, las puntuaciones positivas son puntuaciones mayores que la media y las puntuaciones negativas son puntuaciones menores que la media. Si se desea eliminar los signos negativos siempre es posible realizar una transformación de las puntuaciones para cambiar la escala de las nuevas variables. Las puntuaciones factoriales se almacenan de manera automática como nuevas variables en el Editor de datos y reciben, también de forma automática, un nombre que identifica, por este orden: el método de estimación de las puntuaciones (en el ejemplo, REGR), el número del factor al que corresponden las puntuaciones (factor score 1) y el número de orden del análisis durante la sesión (analisys 1). Este nombre es único y distintivo, de manera que si se solicitan nuevas estimaciones de las puntuaciones, las nuevas puntuaciones se almacenarán al final del archivo de datos con nuevos nombres. Para interpretar mejor las puntuaciones factoriales de los sujetos es conveniente solicitar algunos estadísticos descriptivos de las nuevas variables. La Tabla 20.30 muestra algunos descriptivos obtenidos con el procedimiento Estadísticos descriptivos> Descriptivos del menú Analizar. La media de las nuevas variables vale 0 y su desviación típica 1, lo que significa que pueden interpretarse como si fueran puntuaciones típicas. Inspeccionando la Tabla 20.29 puede apreciarse que el primer sujeto recibe una puntuación alta y por encima de la media en el primer factor y también una puntuación moderadamente alta en el segundo. El tercer sujeto puntúa bajo en el primer factor,(se encuentra a una desviación típica por debajo de la media) y muy alto en el segundo (se encuentra a más de dos desviaciones típicas por encima de la media). El séptimo sujeto se encuentra situado en tomo a la media en ambos factores. Tabla 20.30. Estadísticos descriptivos de las puntuaciones factoriales. Máxim Desv. N Mínimo Media o tip. REGR factor score 1 for 47 -1.529 4.950 .000 1.000 analysis 1 3 REGR factor secre 2 for 47 -1.212 3.083 .000 1.000 analysis 1 3 47 N válido (según lista) 3 Además de las puntuaciones factoriales, el procedimiento ofrece también la matriz de varianzascovarianzas de las puntuaciones factoriales (Tabla 20.31). Lógicamente, esta matriz contiene, en la diagonal principal (es decir, en las casillas 1: I y 2:2), la varianza de las puntuaciones factoriales de cada componente o factor (que ya se sabe que vale uno) y, fuera de la diagonal principal (es decir, en las casillas 1:2 y 2: 1), las covarianzas existentes entre cada par de componentes o factores (covarianza que en el ejemplo vale cero, indicando esto que las puntuaciones factoriales de ambos factores son completamente independientes entre sí: su correlación 235 es nula). Esta circunstancia (la independencia completa entre las puntuaciones factoriales) es bastante excepcional cuando las estimaciones se efectúan mediante el método de regresión. De hecho, se trata de un caso muy particular. Pero obsérvese que la Tabla 20.31 no informa sobre el método de estimación utilizado (a pesar de que en el cuadro de diálogo Análisis factorial: Puntuaciones se ha seleccionado el método de estimación regresión), sino que se limita a señalar que las puntuaciones factoriales analizadas son las puntuaciones en las componente. principales. Cuando la extracción de los factores se realiza con el método componentes principales. las puntuaciones factoriales no se obtienen mediante estimación, sino que son directamente calculadas a partir de la solución factorial. Y puesto que la extracción con el método componentes principales siempre ofrece una solución ortogonal, las puntuaciones factoriales basadas en esa solución también serán ortogonales. Sin embargo, cuando se utiliza un método de extracción distinto del de componentes principales no es posible obtener directamente las puntuaciones factoriales a partir de la matriz de estructura, sino que deben ser estimadas mediante uno cualquiera de los métodos de estimación disponibles. La Tabla 20.32 ofrece la matriz de coeficientes obtenida con el método de extracción componentes principales, el método de rotación oblimin directo y el método regresión para la estimación de las puntuaciones factoriales. Tabla 20.32. Matriz de coeficientes para el cálculo de las puntuaciones factoriales. Nivel educativo Categoría laboral Salario actual Salario inicial Experiencia previa Edad (años) Componente 1 2 .240 -.148 .283 .077 .302 -.021 .302 .058 .012 .500 -.006 .496 Método de extracción: Análisis de componentes principales Método de rotación: Oblimin con normalización de Kaiser. Puntuaciones de componentes. Puede observarse en la tabla que las nuevas ponderaciones son ligeramente distintas de las obtenidas con la solución no rotada. No tiene sentido detenerse en esta matriz de coeficientes pues sólo sirve como instrumento de cálculo en el caso de que se desee estimar las puntuaciones factoriales con alguna herramienta distinta del SPSS. Si se desea estudiar el cambio en la estructura factorial es más adecuado referirse a las matrices de configuración y de estructura. Donde se pueden apreciar con claridad las diferencias entre las soluciones rotada y no rotada es en la matriz de varianzas-covarianzas (Tabla 20.33). Ahora, en la solución rotada, las varianzas 236 de las puntuaciones siguen valiendo aproximadamente uno, pero la covarianza entre las puntuaciones ya no es nula, sino que existe una ligera relación negativa entre las puntuaciones de ambas componentes. Por último, veamos qué efecto tiene sobre las puntuaciones factoriales aplicar el método de extracción ejes principales, manteniendo el método de rotación oblimin directo y el método de estimación regresión. La Tabla 20.34 muestra los coeficientes obtenidos. Ahora sí se menciona en una nota a pie de tabla el método de estimación utilizado para obtener las puntuaciones factoriales (Método de puntuaciones factoriales: Regresión), pues al utilizar un método de extracción distinto de componentes principales, las puntuaciones factoriales no pueden calcularse directamente sino que necesitan ser estimadas. Tal vez sorprenda observar que las variables del primer factor no reciben ponderaciones similares a las obtenidas con el método componentes principales (ver Tabla 20.32). Esto es debido a que el método regresión es muy similar al análisis de regresión múltiple y, cuando existe colinealidad estre las variables, no es necesario incorporar la misma información de manera repetitiva. En la matriz de varianzas-covarianzas de las puntuaciones factoriales (Tabla 20.35) puede apreciarse que las puntuaciones factoriales están más relacionadas que antes y que las varianzas de las puntuaciones factoriales de ambos factores son distintas de uno y distintas entre sí. Normalmente, cuando se utiliza el método de estimación regresión, las puntuaciones factoriales correspondientes a factores con autovalores mas grandes suelen tener una varianza mayor. Además, si se utiliza un método de extracción distinto del de componentes principales, las puntuaciones factoriales tienden a mostrar cierta correlación incluso aunque no se haya efectuado una rotación oblicua. Opciones El cuadro de diálogo Análisis factorial: Opciones permite controlar algunos aspectos relacionados con el tratamiento que se desea dar a los valores perdidos y con el formato de las tablas de 237 resultados que genera el Visor de resultados. Para controlar estos aspectos: Pulsar el botón Opciones... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para. acceder al subcuadro de diálogo Análisis factorial: Opciones que muestra la Figura 20.15. Valores perdidos. Este recuadro permite controlar el tratamiento que se desea dar a valores perdidos. Excluir casos según lista. Es la opción por defecto. Se excluyen del análisis los sujetos que tengan valores perdidos en cualquiera de las variables trasladadas a la lista Variables del cuadro de diálogo Análisis factorial (ver Figura 20.1). Es el tratamiento más consistente de todos: sólo se incluyen en el análisis los casos completos (es decir, los casos con puntuación válida en todas las variables seleccionadas), pero conviene tener en cuenta que esta forma de tratar los valores perdidos puede suponer la pérdida de un gran número de casos y, con ello, la consiguiente reducción del tamaño efectivo de la muestra. Excluir casos según pareja. Los sujetos con valor perdido en una variable se excluyen del análisis sólo para el cálculo de los estadísticos en los que está implicada esa variable. Este método permite aprovechar más cantidad de información que el anterior, pero, puesto que no todas las correlaciones se calculan sobre el mismo número de casos, podrían obtenerse matrices de correlaciones inconsistentes imposibles de analizar posteriormente. Reemplazar por la media. Los valores perdidos en una variable se sustituyen por la media de esa variable. Si en una variable existen muy pocos casos con valor perdido, reemplazar el valor perdido por la media no constituye un problema importante. Pero en la medida en que el número de valores perdidos aumenta, la sustitución por la media tiene el efecto de centrar las variables disminuyendo su variabilidad. Formato de visualización de los coeficientes. Las opciones de este recuadro permiten cambiar algunos aspectos relacionados con el formato de presentación de las tablas. Ordenados por tamaño. Esta opción sirve para ordenar las variables de las tablas de resultados en función de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones, correlaciones, etc). La ordenación se realiza de forma ascendente: primero las variables con coeficientes más altos. Si no se marca esta opción, las tablas muestran las variables en el mismo orden en el que han sido trasladas a la lista de Variables del cuadro de diálogo Análisis factorial (ver Figura 20.1). Suprimir valores absolutos menores que... Esta opción permite suprimir de las tablas de resultados los coeficientes cuyo un valor absoluto sea menor que el valor establecido en el cuadro de texto. El valor por defecto es 0,10, pero este valor puede cambiarse introduciendo un valor distinto. Esta opción es de gran ayuda: al desaparecer de la tabla 238 los coeficientes excesivamente pequeños (en valor absoluto), se facilita notablemente la interpretación de los resultados. Ejemplo (Análisis factorial > Opciones) Este ejemplo muestra cómo utilizar algunas de las opciones disponibles en el procedimiento. En concreto, muestra cómo ordenar las variables en la matriz de estructura y cómo suprimir las saturaciones pequeñas. Se utilizarán las mismas seis variables que se han venido utilizando en los ejemplos anteriores, ejes principales como método de extracción (forzando una solución de 2 factores) y varimax como método de rotación. Para acceder a las opciones del procedimiento: En el cuadro de diálogo Análisis factorial: Opciones (ver Figura 20.15), seleccionar las opciones Ordenar por tamaño y Suprimir valores absolutos menores que 0,10 del recuadro Formato de visualización de los coeficientes. Aceptando estas selecciones, el Visor de resultados ofrece (además de las comunalidades, porcentajes de varianza explicada, etc.), la matriz de la estructura factorial rotada que muestra la Tabla 20.35. Las opciones seleccionadas sólo tienen efecto sobre las matrices de configuración y de estructura. Lo primero que puede observarse en la Tabla 20.36 es que se han suprimido las saturaciones menores que 0,01 (en valor absoluto). Dado que las saturaciones muy pequeñas suden carecer de valor interpretativo, suprimirlas de la tabla facilita que la atención pueda centrarse en las saturaciones más relevantes. Esta opción cumple únicamente el propósito de ayudar a interpretar la solución factorial; por tanto, no es aconsejable utilizarla si se tiene intención de publicar los resultados. .La Tabla 20.36 también muestra las variables ordenadas por el tamaño de sus saturaciones. Primero se encuentran las variables que más saturan en el primer factor (empezando por las saturaciones más altas); después, las que más saturan en el segundo factor. De nuevo se trata de una opción que facilita la lectura de los resultados y cuya única función es la de facilitar la interpretación de la matriz de saturaciones. Bibliografía: Cap 20 de Guía para el análisis de datos SPSS 11.0. Antonio Pardo. Mc Graw Hill 239