03-Estudios de Casos MGPP 2012 - U

Anuncio
UNIVERSIDAD DE CHILE
MAGISTER EN GESTION Y POLITICAS
PÚBLICAS
ESTADÍSTICA APLICADA Y
ECONOMETRÍA
APLICACIONES DE SPSS
Profesora
: Sara Arancibia C.
Profesora Auxiliar: Carlos Andrade G
Primer Semestre 2012
1
FORMULAS PARA TRIUNFAR
LA FORMULA BÁSICA. Los investigadores se han dedicado a averiguar cuál ha sido la idea, el
secreto que ha llevado al triunfo a los grandes personajes de la historia. Y han encontrado una
fórmula que todos los triunfadores practicaron, y sin la cual no habrían llegado a ser grandes
ni famosos. Esta fórmula consiste en los siguientes cinco puntos:
a) Dirigir el pensamiento hacia una meta fija que se desea conseguir. Saber bien cuál es
esa meta que se desea alcanzar y no desviar la atención de ella.
b) Elaborar un plan para lograr conseguir esa meta, un plan cuidadoso y detallado que se
va siguiendo día por día, y que hace que nuestra actividad sea organizada y llena de
entusiasmo.
c) Desarrollar un sincero deseo de realizar aquello que se desea conseguir. El deseo
ardiente es el más importante motivador de las acciones. El deseo de lograr éxitos
consigue la costumbre de conseguir éxitos.
d) Adquirir una confianza grande en sí mismo; confianza en las propias capacidades y
habilidades para lograr el éxito, concediéndole muchísima mayor importancia a las
cualidades positivas que se tiene que a las debilidades o a las posibilidades de derrota.
e) Dedicarse a una acción tenaz e incansable para lograr obtener la meta que se busca
conseguir, sin desanimarse por los obstáculos, las críticas, las circunstancias adversas, o
lo negativo que los demás piensen, hagan o digan. Esa energía concentrada hacia la
consecución de una meta, trae enormemente las oportunidades, las cuales no se dejan
atrapar por los que están sin hacer nada, pero se acercan generosamente a quienes se
atreven a atacar, a trabajar fuertemente por conseguir el éxito.
Esta fórmula básica Meyer la llamó “El plan del éxito personal a base de automotivación”,
para desarrollar al máximo el potencial de cada uno.
Meyer resume la fórmula básica en la siguiente frase:
“Todo lo bueno que: vivamente imaginamos, ardientemente deseamos, sinceramente
creamos, y entusiastamente emprendamos, de una manera impresionantemente
favorable se transformará en algo placentero y beneficioso para nosotros”
(Eliécer Salesman. “100 Fórmulas para llegar al éxito”)
Si una de tus metas es APRENDER aplica esta fórmula y “comienza con la mente abierta”.
La cualidad más importante que afectará tu éxito en el curso es tu ACTITUD. Ésta
determinará lo que estés dispuesto a hacer en el curso, y la calidad de ese esfuerzo
contribuirá de la manera más significativa a tu éxito.
2
Contenido
I
II
Análisis Inicial de los datos y repaso de herramientas de SPSS.
ANOVA de un factor.
Caso EnfermerasCaso Premio colegios ( SIMCE)
III
Análisis de regresión simple y modelos lin-log y log-lin
IV
Análisis de regresión múltiple
V
VI
VII
Modelos de regresión múltiple con variables cualitativas (dummy)
Análisis de regresión logística
Análisis factorial
3
I
Análisis Inicial de los datos
Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima
preocupación es profundizar en la técnica estadística seleccionada, sin .embargo, existe una
etapa previa incluso más compleja y esencial que consiste en realizar un examen exhaustivo de los
datos recabados.
La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran
avance en la consecución de resultados lógicos consistentes. Dichos problemas se pueden
subsanar comenzando por una inspección visual de las representaciones gráficas de los datos,
completándose con un análisis de datos ausentes o perdidos y de los casos atípicos (conocidos
bajo la denominación de outliers) y finalizando con la comprobación de que se cumplen ciertas
hipótesis de partida: en el caso de análisis multivariable nos referimos a; normalidad, linealidad y
homocedasticidad, supuestos subyacentes en todos los métodos multivariantes.
Representaciones gráficas para el análisis de datos
La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la
incorporación de módulos específicamente diseñados para la inspección gráfica de los datos.
El estudio de cada variable es fundamental para conocer sus características y comprobar si es
oportuna y relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su
distribución. Esto se consigue mediante el histograma, que representa gráficamente los datos
mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar
la normalidad de la variable, se efectuará superponiendo la curva normal sobre la distribución o
realizando gráficos P-P o Q-Q.
Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se
trata de un gráfico de puntos de datos basados en dos variables, representadas una en el eje
horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se
debe a la existencia de correlación lineal. Si los puntos siguen distintas formas la relación no
podrá calificarse de lineal. La inexistencia de relación se podrá constatar si la nube de puntos es
aleatoria y dispersa. ( Mediante correlaciones bivariadas Pearson se podrá determinar mediante
una prueba de hipótesis si la correlación entre dos variables de escala es significativa).
Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre
grupos, si lo que se pretende es apreciar la existencia de dos o más grupos en una variable
métrica, como ocurre en el análisis discriminante o en el análisis de la varianza. Este gráfico
distribuye los datos de tal forma que los límites superior e inferior de la caja marcan los
cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer
cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la distribución. La mediana
se representa mediante una línea dentro de la caja. Existirá asimetría si la mediana se aproxima
al final de la caja. El tamaño de la caja dependerá de la distancia entre las observaciones.
También se representa la distancia entre la mayor y la menor de las observaciones mediante unas
líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se
pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja.
4
Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del
eje de categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores
extremos para la categoría o variable.
Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa
cada categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación
vienen definidos por una variable de definición distinta.
Años de escolarización por raza
899
634
20
Número de años de escolarización
718
15
10
691
5
1.366
702
244
693
620
688
596
765
1.476
735
0
Blanca
Negra
Otra
Raza del encuestado
Años de escolarización por raza agrupados por sexo
20
961
Número de años de escolarización
634
Sexo del encuestado
718
Mujer
Hombre
960
15
10
1.404
804
244
5
621
620
596
1.448
693
695
688
765
821
735
0
Blanca
Negra
Otra
Raza del encuestado
5
Detección de variables con categorías mal codificadas
En muchos archivos de datos se detectan problemas en variables nominales con categorías en
formato cadena sin un código asociado. Para detectar este problema es aconsejable realizar
tablas de frecuencia de las variables y observar si las categorías presentan errores de digitación,
como por ejemplo la variable sexo podría presentar problemas si las categorías están mal
digitadas; Hombre, HOMBRE, hombre representan a la misma categoría, sin embargo en una tabla
de frecuencia aparecerán como categorías diferentes. Para solucionar este problema se
recomienda recodificar automáticamente asignándole a las categorías de la variable un código
numérico y luego con recodificar en distinta variable asignar correctamente los códigos.
Análisis de datos ausentes
En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables)
el analista debe ser consciente de que se enfrenta a una información que puede no existir en
determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing
values. El porqué de la existencia de datos ausentes puede deberse a distintas razones como
errores al codificar los datos e introducirlos en el computador, fallas del encuestador al
completar el cuestionario, negación del encuestado a responder ciertas preguntas calificadas de
controvertidas… Razones comunes y muy habituales en todo proceso investigador.
El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los
resultados y sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta
ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario
depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos teóricos de la
investigación no se alteran sustancialmente, una opción sería suprimir aquellas variables y/o casos
que peor se comportan respecto a los datos ausentes. En este caso el investigador deberá
sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar
posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de
que su matriz de datos está completa y posee observaciones válidas.
Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre
valores válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o
sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en
base a otra información existente en la muestra.
Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los
resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis.
No existe una estimación respecto al porcentaje de missing que produce dificultades en una
muestra determinada.
Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la
existencia de un patrón de comportamiento en éstos. En efecto, la presencia de missing que se
distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemática
asociada a ciertas variables puede generar distorsión en los resultados.
La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o
limitar la posibilidad de generalizar los resultados de una investigación. La principal tarea del
analista consistirá en identificar su presencia, y desempeñar las acciones necesarias para
minimizar sus efectos.
En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes.
7= No procede, 8= No sabe , 9= No contesta
6
97= No procede, 98= No sabe, 99= No contesta
997= No procede, 998= No sabe, 999= No contesta
Se utilizan estos códigos cuando no son parte de los posibles datos de la variable.
El SPSS tiene un menú especial para tratar los valores perdidos.
El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el
sistema.
Detección de outliers
Al examinar los datos recabados después de un proceso muestral el investigador puede detectar
la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto,
enfrentándose de este modo a ciertos casos que, por ser claramente diferentes de otras
observaciones de la muestra, son calificados como outliers o atípicos.
El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la
variable criterio y su valor previsto, puesto que da lugar a observaciones que no son
representaciones apropiadas de la población de la cual se extrae la muestra.
Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al
introducir los datos o al codificar. Pero también pueden ser consecuencia de un evento
extraordinario que hace destacar esa observación. Este acontecimiento anormal puede tener o
no una explicación. En cualquiera de estas situaciones, una vez que: los outliers el analista debe
juzgar qué es lo más apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas
del análisis.
Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a
la mayor parte de la muestra, pueden contener información representativa de un segmento
dominante. No obstante, habrá situaciones donde lo más acertado sea su supresión porque pueden
distorsionar seriamente los tests estadísticos dados los problemas que presentan.
La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de
aquellos casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar
conjuntamente pares de variables se utilizará el gráfico de dispersión. Este método bivariable
permite identificar los casos atípicos al venir representado como puntos aislados. Por su parte, la
detección multivariable supone evaluar cada observación a lo largo de un conjunto de variables.
Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de
cada observación en un espacio multidimensional respecto del centro medio de las observaciones.
Cuando se descubren errores
Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los
cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir
errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto,
entonces se pueden codificar esos reactivos como valores perdidos y se excluirán de los análisis.
Es importante mencionar que la función Valores Perdidos de SPSS puede realizar esta tarea.
Otras herramientas muy útiles para limpiar los datos
7
Recodificar automáticamente:
El cuadro de diálogo Recodificación automática le permite convertir los valores numéricos y de
cadena en valores enteros consecutivos. Si los códigos de la categoría no son secuenciales, las
casillas vacías resultantes reducen el rendimiento e incrementan los requisitos de memoria de
muchos procedimientos. Además, algunos procedimientos no pueden utilizar variables de cadena y
otros requieren valores enteros consecutivos para los niveles de los factores.
La nueva variable, o variables, creadas por la recodificación automática conservan
todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no
tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor
recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor.
Los valores de cadena se recodifican por orden alfabético, con las mayúsculas
antes que las minúsculas.
Los valores perdidos se recodifican como valores perdidos mayores que cualquier
valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no
perdidos, el valor perdido mínimo se recodificará como 11, y el valor 11 será un valor perdido para
la nueva variable.
Recodificar en la misma variable /distinta variable
El cuadro de diálogo Recodificar en las mismas variables le permite reasignar los valores de las
variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo,
podría agrupar los salarios en categorías que sean rangos de salarios.
El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las
variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable
nueva.
Puede recodificar variables numéricas en variables de cadena y viceversa.
Si selecciona múltiples variables, todas deben ser del mismo tipo. No se
pueden recodificar juntas las variables numéricas y de cadena.
Una vez que se han limpiado los datos podemos pasar a la parte más interesante del proceso, el
análisis de datos.
Supuestos subyacentes en los métodos multivariables
Es lógico pensar que de una buena materia prima podremos obtener un buen producto; de igual
modo, de unos buenos datos obtendremos un buen análisis. En este proceso de depuración de la
información, el último eslabón consiste en comprobar que se cumplen ciertas hipótesis de partida,
puesto que asegurarán la consecución de un análisis multivariante óptimo. Estos análisis se
caracterizan por su gran complejidad al integrar y combinar numerosas variables que pueden
producir distorsiones y sesgos potenciales. Por ello es imprescindible que dentro de lo posible los
datos respeten ciertos supuestos.
8
Normalidad
La hipótesis de partida que debe cumplir cualquier análisis multivariable es la normalidad de los
datos. Por tanto, el investigador debería comenzar su análisis evaluando la normalidad de todas y
cada una de las variables que pasen a formar parte del estudio. Si este supuesto no se cumple, el
resto de tests estadísticos diferenciadores de cada técnica multivariable no serán válidos,
puesto que se requiere la normalidad para el uso de los estadísticos de la t y de la F.
La herramienta más simple que sirve para diagnosticar la normalidad es el histograma,
previamente explicado, mediante el cual se comparan los valores de los datos observados con la
distribución normal. Además de hacer esta comprobación visual, se pueden utilizar los tests de
asimetría y curtosis, disponibles en todos los programas en la parte de estadísticos descriptivos
básicos.
Señalar que en aquellas situaciones en las que las distribuciones sean no normales será necesaria
la realización de transformaciones de los datos.
La condición de distribución normal se puede referir a una variable en particular o a un conjunto
de variables. Para evaluar normalidad en una variable se estudia la forma de la distribución
mediante la prueba de Kolmogorov-Smirnov.
Evaluar distribución normal en un conjunto de variables simultáneamente no es fácil. En primer
término, la representación gráfica de más de tres variables en un plano es prácticamente
imposible. En segundo lugar, condición necesaria de normalidad multivariable es que cada variable
se distribuya normalmente, sin embargo, no es condición suficiente. En efecto, que cada variable
separada se distribuya según la ley normal no implica que todas juntas 10 hagan.
En la literatura se presentan diversas pruebas elaboradas para verificar normalidad
multivariable. No obstante, los paquetes de procesamiento de información no han incorporado
tales pruebas. En la práctica el estudio de cada variable por .separado es la única manera de
examinar limitadamente esta materia. Para estos efectos se utilizan diversos gráficos.
Linealidad
Nuevamente y con la intención de resolver problemas potenciales antes de comenzar con el
análisis multivariable conviene examinar si las relaciones entre las variables que intervienen en el
estudio son lineales. La linealidad indica que el modelo a contrastar predice los valores de la
variable(s) dependiente(s) siempre que se produzca una modificación en las variables
independientes. Técnicas estadísticas como la regresión múltiple, el análisis factorial o los
sistemas de ecuaciones estructurales se basan en medidas de correlación. Esto significa que es
condición necesaria la existencia de asociaciones lineales entre variables para obtener
coeficientes de correlación que las representen y ejecutar los modelos utilizando estas técnicas.
La relación lineal entre dos variables se representa a través de una línea recta; por tanto, para
comprobar que este supuesto se cumple basta con analizar los gráficos de dispersión de las
variables e intentar identificar si los datos siguen ese trazado lineal. Otra opción es examinar los
residuos después de efectuar un análisis de regresión múltiple (como se verá en el Capítulo 7),
9
dado que éstos reflejan la parte no explicada de la variable dependiente, o lo que es lo mismo, la
parte no lineal de la relación.
En aquellos casos en que la consecución de los datos sea no lineal se debe optar por transformar
una o ambas variables para conseguir la linealidad. Un procedimiento válido es efectuar
transformaciones mediante la utilización de la raíz cuadrada, o bien crear una nueva variable,
denominada polinómica, que represente la parte no lineal de la relación.
Homocedasticidad
La homocedasticidad es el último supuesto que deben cumplir los datos antes de iniciar su
tratamiento multidimensional. Concretamente, se verifica esta hipótesis cuando la varianza de los
errores es constante. Es decir, la variación de la variable dependiente que se intenta explicar a
través de las variables independientes -finalidad de técnicas como la regresión múltiple-, no se
concentra en un pequeño grupo de valores independientes. El objetivo es conseguir una dispersión
por igual de la varianza de la variable dependiente a lo largo del rango de los valores de la
variable independiente. En aquellos casos en que este supuesto no se cumpla estaremos ante una
perturbación conocida como heterocedasticidad. Técnicamente suele deberse a muestras en las
que aparecen asimetrías importantes en los valores de las variables porque toman valores
anormalmente altos o bajos respecto a la media.
Se puede comprobar la existencia de homocedasticidad gráficamente, observando que no hay
ningún punto que se aleje mucho del resto. Si, por el contrario, se constatan observaciones
extremas habrá que convertir esas variables en variables especiales que se llaman dummy o
ficticias. Esta transformación de los datos de las variables hace que todos los valores tengan un
efecto potencialmente igual en la predicción.
De forma complementaria, todos los paquetes estadísticos vienen provistos de tests estadísticos
de homocedasticidad, como el test de Levene y el test M de Box, ambos usados para evaluar si la
varianza de la variable dependiente permanece constante.
El supuesto de homocedasticidad dice relación con la dispersión de los datos. En particular, con
la igualdad de varianzas en todos los grupos de la población origen de la muestra. La
homocedasticidad multivariable se evalúa en la matriz de varianzas y covarianzas.
Cabe destacar que en el contexto multivariable medir relación entre pares de variables da lugar
a una matriz de correlaciones que presenta la relación de todos los pares de variables. Para que
los resultados sean fiables las matrices no deben ser singulares ni multicolineales.
Existe multicolinealidad en una matriz de correlaciones cuando los coeficientes asumen valores
extremadamente altos. La presencia de multicolinealidad es indicadora de relación intensa entre
pares de variables. El determinante de matrices con multicolinealidad es próximo a cero. Existe
singularidad cuando el determinante de una matriz es cero.
El valor del determinante debe ser distinto de cero para calcular la inversa de una matriz. El
cálculo de la inversa es necesario para efectuar el equivalente entre matrices a la división entre
números. Una matriz con determinante cero o próximo a cero no permite el cálculo de su inversa
-o un cálculo fiable de ésta. En consecuencia, no es posible efectuar el proceso matricial
equivalente a la división.
10
Diversas estrategias son posibles de implementar para resolver la presencia de multicolinealidad
o singularidad. El procedimiento más simple es borrar la variable que produce el problema.
Solución legítima dado que la presencia de una variable correlacionada con otra u otras indica que
ésta es combinación lineal de las demás y, en consecuencia, su eliminación no significa pérdida de
información. Otro procedimiento es ingresar en forma sucesiva las variables a analizar de modo
que no participen en el modelo variables correlacionadas con otras previamente incluidas.
Respecto a las condiciones de aplicación, más importante que evaluar su cumplimiento, es saber
en cada técnica específica cuáles son los efectos que genera la violación de los supuestos. En
opinión de Harris (1975) las técnicas multivariables no se ven seriamente afectadas cuando se
violan los supuestos en muestras suficientemente grandes. En tal caso, son procedimientos
resistentes y robustos. Resistentes a la presencia de valores extremos y robustos ante distribuciones distintas a la ley normal.
Bibliografía:
Análisis Estadístico Multivariable de Manuel Vivanco. Editorial Universitaria
Análisis Multivariable para las Ciencias Sociales de Lévy. Editorial Pearson
Introducción a la Econometría de Jeffrey Wooldridge. Editorial Thomson
Repaso de herramientas de SPSS
Considere el archivo “consumo de agua potable.sav” correspondiente a una muestra aleatoria de
hogares de la región Metropolitana que contiene el consumo de agua potable del mes de Enero del
2005. Considere además el archivo Ingresos hogares.sav correspondientes al ingreso familiar del
hogar de los mismos hogares de la muestra considerada para el consumo de agua potable.
Prepare un informe para un ejecutivo que necesita la siguiente información respecto al consumo
de agua del mes de Enero de los hogares de la base de datos con sus respectivos ingresos.
Suponga que se ha realizado la verificación de los datos. Responda las siguientes preguntas:”
a) Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el
gasto depende del límite de sobreconsumo (LSC= 60 m3).
El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo
(LSC=60m3)
Para los metros cúbicos de agua que excede al LSC el valor por m 3 es $560.
Mostrar la sintaxis correspondiente.
b) Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del
gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El
Bosque (4) y Providencia (22). Muestre la sintaxis de todo el procedimiento.
c) Crear una variable “rangconsu” que considere los hogares con sobreconsumo
(consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20).
Mostrar la sintaxis correspondiente.
d) Crear una tabla que muestre el número de comunas y porcentaje respecto al total de
hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango
de consumo.
11
e) Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal
y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares.
Muestre la sintaxis del procedimiento e identifique las comunas con mayor promedio de
gastos por rangos de consumo.
f) Determine mediante un gráfico si las variables gasto e ingreso siguen una tendencia lineal
REPASO PRUEBAS DE HIPOTESIS
Prueba T- Kolmogorov Smirnov- Levene
g)
Determine si existen diferencias significativas del gasto promedio en agua potable para
las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.
h)
Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribución
normal.
Solución:
a)
Crear una variable que indique el gasto en agua potable de cada hogar, sabiendo que el
gasto depende del límite de sobreconsumo (LSC= 60 m3).
El valor del m3 de agua es $270 si el consumo es menor o igual al límite de sobreconsumo
(LSC=60m3)
Para los metros cúbicos de agua que excede al LSC el valor por m 3 es $560.
Mostrar la sintaxis correspondiente.
IF (consumo <= 60) gasto = 270 * consumo .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .
IF (consumo > 60) gasto = 270 * 60+560 * (consumo - 60) .
VARIABLE LABELS gasto 'gasto consumo de agua potable' .
EXECUTE .
b)
Mostrar una tabla que contenga el número de casos, la media, mediana, desv. estándar del
gasto en agua potable y de los ingresos de los hogares para las comunas de Cerrillos (1), El Bosque
(4) y Providencia (22). Muestre la sintaxis de todo el procedimiento.
Ordenar en forma ascendente la variable clave. Fundir archivos y luego
Seleccionar comparar media/ medias y hacer tabla seleccionando las tres comunas solicitadas.
12
Para archivo consumo de agua potable
SORT CASES BY
id_hogar (A) .
Informe
Comuna donde se
enc uentra el hogar
CERRILLOS
EL B OSQUE
PROVIDENCIA
Total
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
gas to en
consumo de
agua potable
31
47854,1806
21240,0000
49861,12054
33
48226,1576
28116,8000
48102,31021
16
72221,1750
51771,2000
61026,33408
831
50438,9338
32440,0000
47495,05844
Ingreso
del hogar
31
494340,11
285355,32
420754,9
33
498187,25
328828,24
393996,4
16
709947,18
536311,29
516956,7
831
526677,52
387124,20
382120,2
Para archivo Ingresos hogares
SORT CASES BY
id_hogar (A) .
A partir del archivo Consumo agua potable
MATCH FILES /FILE=*
/FILE='D:\AIE 2005\Solemnes \Ingreso hogares.sav'
/BY id_hogar.
EXECUTE.
MEANS
TABLES=gasto ingreso BY comu
/CELLS COUNT MEAN MEDIAN STDDEV
Otra forma : Hacer un cubo OLAP
USE ALL.
COMPUTE filter_$=(comu = 1 | comu = 4 | comu = 22).
VARIABLE LABEL filter_$ 'comu = 1 | comu = 24 | comu = 22 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
Cubos OLAP
FILTER BY filter_$.
Comuna donde se
gast o en consumo
EXECUTE .
encuentra el hogar
CERRILLOS
OLAP CUBES
gasto ingreso BY comu
/CELLS=COUNT MEAN MEDIAN STDDEV
/TITLE='Cubos OLAP'.
EL BOSQUE
PROVIDENCIA
Total
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
N
Media
Mediana
Des v. típ.
de agua pot able
31
47854,1806
21240,0000
49861,12054
33
48226,1576
28116,8000
48102,31021
16
72221,1750
51771,2000
61026,33408
80
52881,0200
27198,4000
51799,61604
Ingreso del hogar
31
494340,11
285355,32
420754,873
33
498187,25
328828,24
393996,449
16
709947,18
536311,29
516956,682
80
539048,47
341093,04
433874,646
13
c)
Crear una variable “rangconsu” que considere los hogares con sobreconsumo
(consumo>60), con consumo normal (20<consumo<=60) y bajo consumo (consumo<=20). Mostrar la
sintaxis correspondiente
RECODE
consumo
(Lowest thru 20=1) (20.001 thru 60=2) (60.001 thru Highest=3) INTO rangcons .
VARIABLE LABELS rangcons 'rangos de consumo'.
EXECUTE .
En def de variables
1= bajo consumo
2= consumo normal
3=sobreconsumo
d) Crear una tabla que muestre el número de comunas y porcentaje respecto al total de
hogares con ingresos menores o iguales a $500. 000 y mayores a $500.000 versus rango
de consumo.
RECODE
ingreso
(Lowest thru 500000=1) (500000.01 thru Highest=2) INTO raningreso .
VARIABLE LABELS raningreso 'rangos de ingresos'.
EXECUTE .
Tabla de contingencia rango de consumo * rangos de ingresos
rango de
consumo
hasta 20
20,001 a 60
mayor a 60
Total
Recuento
% del total
Recuento
% del total
Recuento
% del total
Recuento
% del total
rangos de ingresos
hasta
mayor a
500.000
500.000
21
1
2,5%
,1%
225
1
27,1%
,1%
245
338
29,5%
40,7%
491
340
59,1%
40,9%
Total
22
2,6%
226
27,2%
583
70,2%
831
100,0%
e)
Crear un archivo que muestre por comuna y por rangos de consumo (sobreconsumo, normal
y bajo) el promedio de los gastos de agua potable y el promedio del ingreso de hogares. Muestre
la sintaxis del procedimiento e identifique las comunas con mayor promedio de gastos por rangos
de consumo.
AGGREGATE
/OUTFILE='D:\AIE 2005\Solemnes 1 2005-1\AGR comu gastos ingresos.sav'
/BREAK=comu rangcons
/gasto_mean = MEAN(gasto) /ingreso_mean = MEAN(ingreso) .
EXAMINE
VARIABLES=gasto_mean BY rangcons /ID= comu
/PLOT BOXPLOT STEMLEAF
14
/COMPARE GROUP
/STATISTICS EXTREME
/MISSING LISTWISE
/NOTOTAL.
Val ores ex tremos
gas to_mean
May ores
rangos de c onsumo
Bajo consumo
Consumo normal
Sobreconsumo
i)
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
Número
del caso
42
28
73
76
45
43
57
32
26
71
81
58
62
35
16
Comuna donde se
enc uentra el hogar
MACUL
LA REINA
SAN MIGUEL
SAN RAMON
MAIPU
MACUL
PROVIDENCIA
LAS CONDES
LA P INTANA
SAN JOAQUIN
VITA CURA
PROVIDENCIA
QUILICURA
LO BARNE CHEA
HUE CHURABA
Valor
5313,60
5248,80
5227,20
5216,40
5184,00
15390,00
14382,00
14040,00
13543,20
12957,69
95301,87
92287,20
88189,65
87406,61
82689,42
Determine mediante un gráfico si las variables gasto e ingreso siguen una tendencia lineal
15
PRUEBAS DE HIPOTESIS
f)
Determine si existen diferencias significativas del gasto promedio en agua potable para
las comunas Vitacura (32) y Las Condes (13). Mostrar las tablas y argumentar su respuesta.
Esta dísticos de grupo
gas to en consumo
de agua potable
Comuna donde se
enc uentra el hogar
LAS CONDES
VITACURA
N
47
30
Media
74515,74
95301,87
Des viación
típ.
58634,62025
98739,12261
Error típ. de
la media
8552,73838
18027,2149
Prueba de muestras independi entes
Prueba de Levene
para la igualdad de
varianzas
F
gast o en consumo
de agua pot able
Se han asumido
varianzas iguales
No s e han asumido
varianzas iguales
Sig.
,988
Prueba T para la igualdad de medias
t
,324
gl
Sig. (bilateral)
Diferencia
de medias
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-1,160
75
,250
-20786,122
17917,04140
-56478,7
14906,45
-1,042
42,177
,303
-20786,122
19953,19051
-61048,3
19476,03
La significancia obtenida para la prueba de Levene es superior a 0,05 lo que indica con un 95% de
confianza que no hay evidencias que permitan descartar la hipótesis de que las varianzas son
iguales. De esta forma nos debemos fijar en la primera línea de la tabla de la prueba T para la
igualdad de medias.
En esta tabla nos encontramos con una significancia superior a 0,05 lo que indica con un 95% de
confianza que no hay evidencias que permitan descartar la hipótesis de que las medias son iguales.
Esto también se puede observar del intervalo de confianza al 95% para la diferencia entre las
medias. El intervalo contiene el valor cero lo que indica que no hay evidencia que permita
descartar que la diferencia entre las medias sea cero, ie., que las medias son iguales.
j)
Determine si las variables Ingreso, habitantes , gasto consumo se siguen una distribución
normal.
Según la prueba de K-S las variables no siguen una distribución normal, dado que se rechaza la
hipótesis de normalidad
Pruebas de norm alidad
a
Kolmogorov-Smirnov
Estadístico
gl
Sig.
N° de Habitantes
del Hogar
Consumo de
Agua Potable
Ingreso del hogar
Estadístico
Shapiro-Wilk
gl
Sig.
,140
831
,000
,934
831
,000
,181
831
,000
,849
831
,000
,150
831
,000
,873
831
,000
a. Corrección de la s ignificación de Lilliefors
16
17
II
Análisis ANOVA de un factor
Estudio de Caso: Satisfacción Laboral de Enfermeras.
A la Asociación Nacional de Salud de Saludlandia le preocupa la escasez de enfermeras que
parece estarse previendo para el futuro. Para investigar el grado actual de satisfacción con la
profesión entre las enfermeras, se ha patrocinado un estudio en hospitales por todo Saludlandia.
Como parte de este estudio, se pidió a 50 enfermeras que indicaran su grado de satisfacción en
el trabajo, en el sueldo y en las oportunidades de ascenso. Cada uno de los tres aspectos de
satisfacción fue medido en una escala de 0 a 100, y los mayores valores representan mayores
niveles de satisfacción.
Los datos de la muestra se clasificaron según el tipo de hospital de las enfermeras. Los tipos
fueron privados, geriátricos y universitarios. Para obtener los datos bajar el archivo
ENFERMERAS.SAV .
Responder las siguientes preguntas respaldando sus respuestas con las tablas y gráficas de SPSS
que considere convenientes.
a) Muestre un gráfico que permita visualizar el grado de satisfacción de las enfermeras
según tipo de hospital. Comente.
f) Con base en las tres variables de satisfacción laboral (sin considerar el tipo de hospital)
¿qué aspecto laboral satisface más a las enfermeras? ¿Cuál parece ser el que menos las
satisface? ¿En que áreas, si es que las hay, siente usted que deben introducirse
mejoras? Argumente con los estadísticos descriptivos y diagrama de tallo y hojas.
Describa sus razonamientos.
g) Determine un intervalo de confianza del 95% para la media de cada uno de los
indicadores de satisfacción laboral para la población de enfermeras. Interprete.
(Muestre una tabla con media, intervalos de confianza, y la media recortada al 5%)
h) Para la variable satisfacción con el trabajo. Determine si existen diferencias
significativas entre las medias de los tres grupos de tipo de hospital; privados,
geriátricos y universitarios.
i) Para la variable satisfacción con el sueldo. Determine si existen diferencias
significativas entre las medias de los tres grupos de tipo de hospital; privados,
geriátricos y universitarios
j) Determine si existe correlación significativa entre los indicadores de satisfacción
laboral. Argumente su respuesta.
k) Determine si las variables de satisfacción; con el trabajo, con el sueldo, y con
oportunidades de ascenso siguen una distribución normal. Argumente su respuesta.
18
Solución:
l) El gráfico agrupado muestra la media de los indicadores de satisfacción laboral de
las enfermeras consideradas en el estudio por tipo de hospital. Las enfermeras de
los tres tipos de hospital muestran un alto promedio en satisfacción con su trabajo,
alcanzando un valor aproximado a 80%. En los hospitales privados se observa que el
indicador más bajo en promedio es la satisfacción con el sueldo 46% siendo además el
más bajo al comparar con hospitales geriátricos y universitarios (los que indican un
promedio 55% y 62% respectivamente). La satisfacción con oportunidades de
ascenso se observa similar en promedio entre los hospitales privados y geriátricos
(59 % en promedio) y algo menor para los hospitales universitarios ( 53% en
promedio)
Satisfacción laboral de enfermeras
por tipo de hospital
90
80
80
79
80
70
Satisfacción con el
trabajo (%)
60
62
59
59
55
Mean
50
Satisfacción con el
53
sueldo (%)
Satisfacción con
46
40
oportunidades de asc
privados
geriátricos
universitarios
Tipo Hospital
*** Gráficos Barras. Resúmenes para variables separables .
GRAPH
/BAR(GROUPED)=MEAN(sattraba) MEAN(satsalar) MEAN(satascen) BY tiphospi
/MISSING=LISTWISE REPORT.
m) Si consideramos los indicadores sin importar el tipo de hospital se puede apreciar que la
mayoría de las enfermeras muestran un alto nivel de satisfacción con el trabajo
alcanzando un promedio de 79,80 y una mediana de 82 que indica que el 50% de las
enfermeras tienen un nivel de satisfacción superior o igual a 82 con un mínimo 63. El
tallo y hojas muestra que 40 de 50 enfermeras tiene un nivel de satisfacción con el
trabajo entre 70 y 89. Seis enfermeras con un superior o igual a 90.
19
Esta dísticos
N
Media
Mediana
Des v. típ.
Rango
Mínimo
Máx imo
Perc entiles
Válidos
Perdidos
25
50
75
Satisfacción
con el trabajo
(%)
50
0
79,80
82,00
8,288
32
63
95
72,00
82,00
87,00
Satisfacción
con el sueldo
(%)
50
0
53,26
54,00
16,462
88
2
90
42,75
54,00
60,00
Satisfacción
con
oportunidad
es de
ascenso (% )
50
0
57,28
57,50
17,594
86
6
92
48,50
57,50
68,00
Satisfacción con el trabajo (%) Stem-and-Leaf Plot
Frequency
Stem & Leaf
2,00
6 . 34
2,00
6 . 59
14,00
7 . 01111222223444
6,00
7 . 567789
8,00
8 . 22244444
12,00
8 . 555667788899
5,00
9 . 00004
1,00
9. 5
Stem width:
Each leaf:
10
1 case(s)
La media para satisfacción con el sueldo muestra un nivel moderado de 53,26. El 25% de las
enfermeras
muestra un nivel bajo de satisfacción con el sueldo, hasta 42,5. La mitad de las enfermeras
muestra para este indicador un valor hasta 54. De las 50 enfermeras 28 muestran un nivel entre
51 y 80 observándose sólo 2 valores extremos altos desde 89.
20
Satisfacción con el sueldo (%) Stem-and-Leaf Plot
Frequency
Stem & Leaf
1,00 Extremes
,00
2.
3,00
,00
(=<2)
2 . 578
3.
6,00
3 . 667778
3,00
4 . 223
7,00
4 . 5778999
5,00
5 . 11233
9,00
5 . 566677999
5,00
6 . 00000
3,00
6 . 666
3,00
7 . 024
2,00
7 . 66
1,00
8. 0
2,00 Extremes
(>=89)
Respecto al indicador satisfacción con oportunidades de ascenso se observa levemente
superior al indicador de sueldo en media y mediana con valores
57,28 y 57,5
respectivamente. El tallo y hojas muestra 35 personas con niveles entre 51 y 86 y 2 con
niveles superiores a 90.
Satisfacción con oportunidades de ascenso (%) Stem-and-Leaf Plot
Frequency
Stem & Leaf
2,00 Extremes
(=<16)
2,00
2 . 39
2,00
3 . 77
7,00
4 . 0125679
14,00
5 . 11222444556789
12,00
6 . 122334467788
7,00
7 . 0224589
2,00
8 . 26
2,00
9 . 12
Stem width:
Each leaf:
10
1 case(s)
21
Se observa una mayor variabilidad en opinión entre las enfermeras en el indicador de
satisfacción con el sueldo con un rango 88 (diferencia entre el máximo y el mínimo ) y un
coeficiente de variación 30,9% ( ( 16,46/53,26)*100) el cual determina el grado de
dispersión de los datos relativo a su media .
Se recomienda estudiar estrategias para mejorar el área que tiene relación con el
sueldo. Por ejemplo bonos de incentivo según desempeño que mejoren el sueldo de las
enfermeras.
n) El intervalo de confianza para la media de satisfacción con el trabajo para la población
de enfermeras indica que con un 95% de confianza la media de satisfacción con el
trabajo estará entre 77,44 y 88,16.
Asimismo el intervalo de confianza para la media de satisfacción con el sueldo para la
población de enfermeras indica que con un 95% de confianza la media de satisfacción
con el sueldo estará entre 48,58 y 57,94.
El intervalo de confianza para la media de satisfacción con oportunidades de ascenso
para la población de enfermeras indica que con un 95% de confianza la media de
satisfacción con oportunidades de ascenso estará entre 52,28 y 62,28.
Descriptive s
Sati sfacción con
el trabajo (% )
Sati sfacción con
el sueldo (% )
Sati sfacción con
oportunidades de
ascenso (% )
Mean
95% Confidence
Interval for M ean
5% Trimmed Mean
Mean
95% Confidence
Interval for M ean
5% Trimmed Mean
Mean
95% Confidence
Interval for M ean
Lower Bound
Upper Bound
Stat istic
79,80
77,44
82,16
79,92
53,26
48,58
Lower Bound
Upper Bound
57,94
53,41
57,28
52,28
Lower Bound
Upper Bound
62,28
5% Trimmed Mean
57,88
o) Para esta pregunta se realiza una prueba ANOVA donde H0: 1= 2=
3
Descriptivos
Satisfacción con el trabajo (%)
N
privados
geriátricos
universitarios
Total
19
17
14
50
Media
79,32
80,41
79,71
79,80
Des viación
típic a
8,035
9,702
7,269
8,288
Error típico
1,843
2,353
1,943
1,172
Intervalo de confianza para
la media al 95%
Límite
Límite inferior
superior
75,44
83,19
75,42
85,40
75,52
83,91
77,44
82,16
Mínimo
64
63
69
63
Máx imo
90
95
90
95
La prueba entrega los descriptivos básicos de la variable satisfacción con el trabajo
para la muestra por tipo de hospital
22
Prueba de homogeneida d de varianza s
Satisfacción con el trabajo (%)
Estadístico
de Levene
,796
gl1
gl2
2
47
Sig.
,457
Para la variable satisfacción en el trabajo, la prueba de homogeneidad de varianzas nos
permite no rechazar la hipótesis nula de igualdad de varianzas entre los tres tipos de
hospital .
ANOVA
Satisfacción con el trabajo (%)
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
10,920
3355,080
3366,000
Media
cuadrática
5,460
71,385
gl
2
47
49
F
,076
Sig.
,926
El nivel de significancia de la prueba ANOVA nos permite no rechazar la Ho de igualdad
de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ). Por lo tanto, para la variable
satisfacción con el trabajo no existen diferencias significativas entre las medias de los
tres grupos de tipo de hospital; privados, geriátricos y universitarios.
Com paraciones m últiple s
Variable dependiente: Sat isfacción con el trabajo (%)
HSD de Tuk ey
(I) Tipo Hos pital
privados
(J) Tipo Hos pital
geriátricos
universitarios
privados
universitarios
privados
geriátricos
geriátricos
universitarios
Diferencia de
medias (I-J)
-1,10
-,40
1,10
,70
,40
-,70
Error típico
2,821
2,976
2,821
3,049
2,976
3,049
Sig.
,920
,990
,920
,972
,990
,972
Intervalo de confianza al
95%
Límite
Límite inferior
superior
-7,92
5,73
-7,60
6,80
-5,73
7,92
-6,68
8,08
-6,80
7,60
-8,08
6,68
La prueba de Tukey confirma lo dicho en la prueba ANOVA en la que no existen
diferencias significativas entre los grupos ( de a pares )
p) La prueba entrega los descriptivos básicos de la variable satisfacción con el sueldo para
la muestra por tipo de hospital
Descriptivos
Satisfacción con el sueldo (%)
N
privados
geriátricos
universitarios
Total
19
17
14
50
Media
45,79
54,65
61,71
53,26
Des viación
típic a
15,343
15,301
15,696
16,462
Error típico
3,520
3,711
4,195
2,328
Intervalo de confianza para
la media al 95%
Límite
Límite inferior
superior
38,39
53,18
46,78
62,51
52,65
70,78
48,58
57,94
Mínimo
2
27
36
2
Máx imo
66
76
90
90
Prueba de homogeneida d de varianza s
Satisfacción con el sueldo (%)
Estadístico
de Levene
,120
gl1
gl2
2
47
Sig.
,887
23
Para la variable satisfacción con el sueldo, la prueba de homogeneidad de varianzas nos
permite no rechazar la hipótesis nula de igualdad de varianzas entre los tres tipos de
hospital .
ANOVA
Satisfacción con el sueldo (%)
Inter-grupos
Intra-grupos
Total
Suma de
cuadrados
2093,723
11185,897
13279,620
gl
2
47
49
Media
cuadrática
1046,861
237, 998
F
4,399
Sig.
,018
El nivel de significancia de la prueba ANOVA nos permite rechazar la Ho de igualdad
de medias entre los tres tipos de hospital (Ho: 1= 2= 3 ) con un nivel de significancia
del 0.05 para la variable satisfacción con el sueldo. Por lo tanto existen diferencias
significativas entre las medias de los tres grupos de tipo de hospital; privados,
geriátricos y universitarios.
La prueba de Tukey nos muestra que existen diferencias significativas entre las medias
los hospitales privados y geriátricos y entre los geriátricos y universitarios, pero entre
los privados y universitarios no existen diferencias significativas
Com paraciones m últiple s
Variable dependiente: Sat isfacción con el sueldo (%)
HSD de Tuk ey
(I) Tipo Hos pital
privados
geriátricos
universitarios
(J) Tipo Hos pital
geriátricos
universitarios
privados
universitarios
privados
geriátricos
Diferencia de
medias (I-J)
Error típico
-8,86
5,150
-15, 92*
5,434
8,86
5,150
-7,07
5,568
15,92*
5,434
7,07
5,568
Intervalo de confianza al
95%
Límite
Límite inferior
superior
-21, 32
3,61
-29, 08
-2,77
-3,61
21,32
-20, 54
6,41
2,77
29,08
-6,41
20,54
Sig.
,209
,014
,209
,419
,014
,419
*. La diferencia entre las medias es signific ativa al nivel .05.
q) La matriz de correlaciones bivariadas nos muestra que los tres indicadores no se
correlacionan pues el nivel de significancia de cada uno de ellos es mayor que 0,05, por
lo tanto no se rechaza Ho que establece que no hay correlación entre las variables
Correlaciones
Satisfacción con
el trabajo (% )
Satisfacción con
el sueldo (% )
Satisfacción con
oportunidades de
ascenso (% )
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Satisfacción
con el trabajo
(%)
1
.
50
,141
,329
50
-,222
,122
Satisfacción
con el sueldo
(%)
,141
,329
50
1
.
50
,010
,946
Satisfacción
con
oportunidad
es de
ascenso (% )
-,222
,122
50
,010
,946
50
1
.
50
50
50
24
r) La prueba de Shapiro Wilk nos muestra que las variables satisfacción con el sueldo y
satisfacción con oportunidades de ascenso siguen una distribución normal pues el nivel
de significancia es mayor que 0,05 por tanto no se rechaza Ho que establece que la
distribución se ajusta a una curva normal, en cambio la variable satisfacción con el
trabajo no se ajusta a una distribución normal
Pruebas de norm alidad
a
Kolmogorov-Smirnov
Estadístico
gl
Sig.
Satisfacción con
el trabajo (% )
Satisfacción con
el s ueldo (% )
Satisfacción con
oportunidades de
asc enso (% )
Estadístico
Shapiro-Wilk
gl
Sig.
,154
50
,005
,950
50
,033
,121
50
,064
,976
50
,414
,101
50
,200*
,974
50
,339
*. Este es un límite inferior de la significac ión verdadera.
a. Corrección de la s ignificación de Lilliefors
Gráfico Q-Q normal de Satisfacción con el trabajo (%)
3
2
1
Normal esperado
0
-1
-2
-3
60
70
80
90
100
Valor observado
25
Gráfico Q-Q normal de Satisfacción con el sueldo (%)
3
2
1
Normal esperado
0
-1
-2
-3
0
20
40
60
80
100
Valor observado
Gráfico Q-Q normal de Satisfacción con oportunidades de ascenso (%)
3
2
1
Normal esperado
0
-1
-2
-3
0
20
40
60
80
100
Valor observado
26
Estudio de caso: Premio Colegios
1
Objetivo del caso:
Utilizar herramientas de análisis descriptivo e inferencial para conocer información útil de la
unidad de análisis, en este caso colegios y aplicar posibles criterios para asignar algún tipo de
beneficio por segmentos o grupos con perfiles similares.
Enunciado del caso:
Suponga que usted es un asesor del Ministerio de Educación y debe preparar un informe en
relación a los rendimientos de los estudiantes de enseñanza media del año 2006. Entre los
diversos informes que debe realizar se le ha pedido que sugiera qué colegios premiar con un
estímulo por los resultados de la prueba SIMCE de los segundos medios.
El SIMCE es el sistema nacional de medición de resultados de aprendizaje del Ministerio de
Educación de Chile. Su propósito principal es construir al mejoramiento de la calidad y equidad de
la educación, informando sobre el desempeño de los alumnos y alumnas en algunas áreas del
curriculum nacional y relacionándolos con el contexto escolar y social en el que ellos aprenden.
Las pruebas SIMCE evalúan el logro de los Objetivos Fundamentales y Contenidos Mínimos
Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a través de una
prueba común que se aplica a nivel nacional, una vez al año, a los estudiantes que cursan un
determinado nivel educacional. Hasta el 2005 la aplicación de las pruebas se alternaron entre 4°
Básico, 8° Básico y 2° Medio. Desde el 2006, las pruebas evalúan todos los años el nivel del 4°
Básico y se alternan los niveles de 8° Básico y 2° Medio. (Fuente: Resultados nacionales SIMCE
2006. MINEDUC)
Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2°
Medio del 2006. Algunas de las variables de interés son:
VARIABLE
ETIQUETA DE VARIABLE
Idest
Identificador del establecimiento
Región
Nombre de la Región
Comuna
Nombre de la comuna
ddca
Dependencia
ETIQUETA DEVALOR
CP: Corporación Privada
MC; Corporación Municipal
MD; DAEM (Departamento de
Administración
de
Educación
Municipal)
PP: Particular Pagado
PS: Particular Subvencionado
1
TP
Caso elaborado por Sara Arancibia
P
27
ruralida
Caracterización del establecimiento
1= Rural
2=Urbano
socioeconómico
Grupo
socioeconómico
establecimiento
del
A Bajo
B Medio Bajo
C Medio
D Medio Alto
E Alto
prom_len
Promedio puntaje de lenguaje
prom_mat
Promedio puntaje de matemáticas
Después de múltiples reuniones con expertos en educación, usted ha llegado a definir junto con
los expertos un criterio para premiar a las escuelas; crear grupos homogéneos de escuelas y
definir puntajes de corte para cada grupo. De esta forma se estará distinguiendo a los colegios
que se destacan entre colegios con similares características. El premio se otorgará a los colegios
con puntajes promedios mayores o iguales al percentil 75 (para cada grupo).
Los grupos homogéneos se definieron en base a dos criterios: la dependencia del establecimiento
definido como Municipal, Privado y Subvencionado y la caracterización del establecimiento Rural
y Urbano
Los grupos homogéneos definidos por el grupo experto son,
1: Municipal y Rural
2: Municipal y Urbano
3: Privado y Rural
4: Privado y Urbano
5: Subvencionado y Rural
6: Subvencionado y Urbano
Usted como asesor del Ministerio de Educación debe aplicar los criterios definidos con los
expertos para crear los grupos de colegios homogéneos e identificar cuáles son los
establecimientos premiados realizando distintas comparaciones por dependencia, tipo y zona
(Norte, Central y Sur). Además debe determinar si existen diferencias significativas entre los
tipos de colegios y por dependencia
Para realizar su análisis deberá realizar las siguientes etapas:
1. Limpiar y ordenar la base de interés para el análisis
a)
Crear la variable “Dependencia” considerando sólo tres categorías:
Municipalizado, Privado y Subvencionado
b)
Crear la variable zona considerando Zona Norte, Centro y Sur
c)
Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y
lenguaje
28
d)
Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá
crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según
corresponda.
e)
Determinar para cada grupo el percentil 75.
f)
Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio
mencionado 1=SI recibe premio y 0=NO recibe premio.
2. Realizar un análisis descriptivo de los datos
a)
¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué
porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y
menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia?
b)
¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250
puntos; entre 251 y 300 puntos y superior a 300 puntos
c)
¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje
superior
a
300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos?
¿Qué puede decir de los
Municipalizados y Rurales?
d)
¿Qué porcentaje representa el total de colegios premiados respecto al
total
de
colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron
premiados?
¿Qué
porcentaje de los colegios premiados son
Subvencionados? ¿Qué porcentaje de los premiados
son de la zona Norte, Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué
porcentaje del total son premiados y del Sur?
e)
¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y
urbana?. Realice un gráfico que permita observar la forma de la distribución de los
puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un
diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar?
f)
Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en
lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen
diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y
urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y
matemáticas es similar si se compara los segmentos rural y urbano
g)
Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la
distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y
muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo.
h)
Realice un gráfico considerando a todos los colegios en estudio y otro gráfico
considerando sólo el segmento de premiados, que permitan observar la posición del grupo
en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete.
i)
Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE.
3.
Realizar pruebas de hipótesis
Asuma que la base de datos corresponde a la población de todos los colegios que dieron la SIMCE
en el año 2006. Considere una muestra aleatoria de aproximadamente el 20% de los colegios
considerados y realice pruebas de hipótesis que permita responder las siguientes preguntas.
29
a)
¿Existen diferencias significativas entre los puntajes promedios de la
los colegios de tipo Rural y Urbano?
SIMCE entre
b)
¿Existen diferencias significativas entre los puntajes promedios de Matemáticas por
dependencia?
c)
¿Existen diferencias significativas entre los puntajes promedios de Lenguaje por
dependencia?
d)
Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios
de lenguaje y matemáticas?
e)
¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si
existe relación determine si la relación es alta, moderada o débil.
4. Concluir
a) Realice resumidamente un análisis descriptivo básico para los colegios premiados usando
medidas de tendencia central y medidas de dispersión.
b)
Sintetizar sus comentarios acerca de los vínculos que explica.
c) Sugiera otra alternativa para determinar cómo premiar a los colegios por su rendimiento en
la prueba SIMCE.
DESARROLLO:
1.
Limpiar y ordenar la base de interés para el análisis
a)
Crear la variable “Dependencia” considerando sólo tres categorías:
Municipalizado, Privado y Subvencionado
En primer lugar observamos que la variable de dependencia “ddcia” de la base de datos viene con
formato cadena o string. Recodificaremos automáticamente y luego llevaremos las cinco
categorías sólo a tres categorías.
Para esto ir al Menú: Transformar/ recodificación automática
AUTORECODE
VARIABLES=ddcia /INTO depend
/PRINT.
Old Value New Value Value Label
CP
MC
MD
PP
PS
1 Corporación Privada
2 Corporación Municipal
3 DAEM
4 Particular Pagado
5 Particular Subencionado
Para crear tres categorías juntaremos las categorías Corporación Municipal y DAEM en
Municipalizado y las categorías Corporación Privada y Particular pagado en Privado
Para esto ir al Menú: Transformar/Recodificar en distinta variable
30
RECODE
depend
(4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia .
VARIABLE LABELS dependencia 'Tipo de dependencia'.
EXECUTE .
En definición de la variable
Asignar etiquetas de valor a los códigos 1 al 3
1= Municipalizado
2=Privado
3=Subvencionado
b)
Crear la variable zona considerando Zona; Norte, Centro y Sur
En primer lugar se observa que la variable Región viene en formato de cadena. Se recodificará
automáticamente.
Menú: Transformar/Recodificación automática
AUTORECODE
VARIABLES=region /INTO reg
/PRINT
En el visor de resultados se puede observar los códigos de cada categoría
Old Value
New Value Value Label
Región de Aisén del General
Carlos Ibañez del Campo
Región de Antofagasta
Región de Atacama
Región de Coquimbo
Región de la Araucanía
Región de Los Lagos
Región de Magallanes y de la
Antártica Chilena
Región de Tarapacá
Región de Valparaíso
Región del Biobío
Región del Libertador General
Bernardo O' Higgins
Región del Maule
Región Metropolitana
1 Región de Aisén del General
1 Carlos Ibañez del Campo
2 Región de Antofagasta
3 Región de Atacama
4 Región de Coquimbo
5 Región de la Araucanía
6 Región de Los Lagos
7 Región de Magallanes y de la
7 Antártica Chilena
8 Región de Tarapacá
9 Región de Valparaíso
10 Región del Biobío
11 Región del Libertador General
11 Bernardo O' Higgins
12 Región del Maule
13 Región Metropolitana
Para crear las categorías de zona se recodificará en distintas variables
31
Menú: Transformar/Recodificar en distinta variable
RECODE
region
(1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona .
VARIABLE LABELS zona 'zona'.
EXECUTE .
En definición de variables
1= Norte
2= Centro
3= Sur
c)
Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y
lenguaje
Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o
cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar
en vista de variables el tipo String a numérico.
Para crear la variable puntprom seleccione Menú: Transformar/Calcular
Variable destino:
puntprom
Tipo:
numérico
Etiqueta:
Promedio de Matemáticas y Lenguaje
Expresión:
MEAN(prom_len,prom_mat)
COMPUTE puntprom = MEAN(prom_len,prom_mat) .
VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y
matemáticas’.
EXECUTE .
d)
Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá
crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según
corresponda.
Para crear la variable de grupo primero recodificaremos automáticamente la variables ruralida a
código numérico con nombre caract
Donde
caract=1 Rural
caract=2 Urbano
Menú: Transformar/Recodificación automática
AUTORECODE
VARIABLES=ruralida /INTO caract
/PRINT.
32
Ahora formamos los seis grupos según criterio dado
Creación de la variable grupo
*** Sintaxis Grupo ***.
IF
IF
IF
IF
IF
IF
(dependencia = 1 & caract = 1) grupo = 1 .
(dependencia = 1 & caract = 2) grupo = 2 .
(dependencia = 2 & caract = 1) grupo = 3 .
(dependencia = 2 & caract = 2) grupo = 4 .
(dependencia = 3 & caract = 1) grupo = 5 .
(dependencia = 3 & caract = 2) grupo = 6 .
EXECUTE
.
Luego
en la definición
de variables en valores se define:
1: Municipal y Rural
2: Municipal y Urbano
3: Privado y Rural
4: Privado y Urbano
5: Subvencionado y Rural
6: Subvencionado y Urbano
e)
Determinar para cada grupo el percentil 75.
Para el cálculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Menú:
Analizar/Frecuencias [Estadísticos]: Percentil 75
SORT CASES BY grupo .
SPLIT FILE
LAYERED BY grupo .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/PERCENTILES= 75
/ORDER= ANALYSIS .
No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos.
f)
Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio
mencionado 1=SI recibe premio y 0=NO recibe premio.
Se consideró el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO)
33
Estadísticos
puntaje promedio entre lenguaje y matemáticas
Municipalizado y Rural
N
Válidos
Perdidos
Percentiles
75
Municipalizado y Urbano N
Válidos
Perdidos
Percentiles
75
Privado y Rural
N
Válidos
Perdidos
Percentiles
75
Privado y Urbano
N
Válidos
Perdidos
Percentiles
75
Subvencionado y Rural
N
Válidos
Perdidos
Percentiles
75
Subvencionado y Urbano N
Válidos
Perdidos
Percentiles
75
68
0
225,6250
587
0
246,0000
19
0
322,0000
388
0
324,0000
86
0
246,3750
1171
0
286,0000
*** Sintaxis Premio ***.
IF (grupo = 1 & puntprom >= 225.625) premio = 1 .
IF (grupo = 1 & puntprom < 225.625) premio = 0 .
IF (grupo = 2 & puntprom >= 246) premio = 1 .
IF (grupo = 2 & puntprom < 246) premio = 0 .
IF (grupo = 3 & puntprom >= 322.5) premio = 1 .
IF (grupo = 3 & puntprom < 322.5) premio = 0 .
IF (grupo = 4 & puntprom >= 324)
premio = 1 .
IF (grupo = 4 & puntprom < 324)
premio = 0 .
IF (grupo = 5 & puntprom >= 246.375)
premio = 1 .
IF (grupo = 5 & puntprom < 246.375)
premio = 0 .
IF (grupo = 6 & puntprom >= 286) premio = 1 .
IF (grupo = 6 & puntprom < 286) premio = 0 .
En definición de variables se agrega la etiqueta de valor
VARIABLE LABELS premio 'premio (SI=1, NO=0)' .
1=SI
EXECUTE .
0=NO
2. Gráficos
a) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en
lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen
diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y
urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y
matemáticas es similar si se compara los segmentos rural y urbano
Para realizar esta gráfica se selecciona
Menú: Grafico/barras/Para distintas variables/Agrupado
GRAPH
/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia
/MISSING=LISTWISE .
34
Media de puntajes de lenguaje y matemáticas por dependencia
prom_len
prom_mat
Media
300
200
291,3
306,1
259,5
235,5
256,9
226,6
100
0
Municipalizado
Privado
Subvencionado
Tipo de dependencia
Del gráfico se observa que tanto para lenguaje como para matemáticas los colegios
privados tiene mejores resultados observándose sin embargo diferencias en casi 15
puntos a favor del promedio de matemáticas. Los colegios subvencionados presentan
puntajes intermedios si comparamos los privados y los municipalizados con puntajes en
torno a 257 puntos en matemáticas y con una diferencia de solo 2 puntos a favor del
puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes
promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor
de lenguaje.
Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por
dependencia, agrupados por tipo rural y urbano hacemos un gráfico de barras agrupados
seleccionando resúmenes para grupos de casos.
GRAPH
/BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract
35
Media de puntajes promedios en lenguaje por dependencia agrupados por
caracterización Rural y Urbano
Caracterización del
establecimiento
300
Rural
Urbano
Media prom_len
250
200
150
292,2
272,9
237,1
261,4
234
221,3
100
50
0
Municipalizado
Privado
Subvencionado
Tipo de dependencia
Se observa una clara diferencia entre los grupos con caracterización rural y urbana,
notándose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo
en los colegios rurales en relación a los colegios urbanos.
Para comparar el comportamiento en los resultados de ambas pruebas por dependencia
entre la caracterización de Rural y Urbano es conveniente hacer un gráfico en dos
paneles. Para esto vamos a
Menú: Gráficos/ barras agrupadas/ resumen para distintas variables
GRAPH
/BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY
dependencia
/PANEL ROWVAR=caract ROWOP=CROSS
/MISSING=LISTWISE .
36
Media de puntajes de lenguaje y matemáticas por dependencia para colegios
urbanos y rurales
prom_len
prom_mat
200
292,2
237,1
228,5
221,3
210,6
100
307
261,4
259,3
234
224,7
0
Rural
Media
300
200
272,9
100
286,8
Caracterización del establecimiento
Urbano
Media
300
0
Municipalizado
Privado
Subvencionado
Tipo de dependencia
El gráfico nos muestra un comportamiento muy similar por dependencia entre los
urbanos y rurales en cuanto a que los puntajes promedios más altos se observan en los
colegios privados, los puntajes intermedios en los subvencionados y los puntajes más
bajos en los municipalizados.
En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los
puntajes de los colegios rurales.
g) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico
considerando sólo el segmento de premiados, que permitan observar la posición del grupo
en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete.
Para esto realizaremos un diagrama de cajas por grupo.
Menú: Analizar/ Explorar/gráficos
EXAMINE
VARIABLES=puntprom BY grupo
/PLOT BOXPLOT HISTOGRAM
/COMPARE GROUP
/STATISTICS NONE
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
37
Puntajes promedios SIMCE por grupo de colegios
2175
2173
2174
Puntaje SIMCE promedio
350
1097
2176
853
1301
300
285
250
1657
200
1684
Municipalizado
y Rural
Municipalizado Privado y Rural
y Urbano
Privado y
Urbano
Subvencionado Subvencionado
y Rural
y Urbano
Grupo
Del gráfico se puede apreciar que los mayores puntajes se concentran en los colegios
privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa
que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede
ver que los puntajes más bajos se concentran en los colegios municipalizados y rurales
presentando la menor de las medianas y es el grupo que presenta la menor variabilidad
en los puntajes, es decir son bastante homogéneos en cuanto al resultado promedio
SIMCE, mostrando sólo un caso sobre los 250 puntos en promedio. Se observa que el
grupo de municipalizados urbanos a pesar de tener la mayoría de los colegios
concentrados en puntajes bajos es el único grupo que presenta varios colegios con
puntajes atípicos y un extremo en la parte alta de puntajes. Respecto a los
subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una
marcada diferencia a puntajes más bajos en los colegios rurales.
Para obtener el diagrama de cajas para los premiados, primero se selecciona a los
colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la
gráfica.
USE ALL.
COMPUTE filter_$=(premio = 1).
VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
38
Es claro que la posición de cada grupo en general se mantiene en relación a la gráfica
analizada anteriormente. Los puntajes de los premiados con mayor puntaje se
concentran en los privados, observándose muy concentrados, bastante homogéneos
entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en
los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del
grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es
el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes
atípicos superiores en el rango de puntajes del grupo de los privados. El 50% de los
colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75)
del grupo de municipalizados urbanos se comporta de una manera muy similar a los
colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados
rurales. Se observa más notoriamente la diferencia en los puntajes de los colegios
premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen
a los subvencionados urbanos.
Puntaje promedio para los colegios premiados por grupo de colegios
2190
360
2175
2173
Puntaje SIMCE promedio
340
2174
2169
2172
1097
320
300
280
260
285
240
220
Municipalizado
y Rural
Municipalizado Privado y Rural
y Urbano
Privado y
Urbano
Subvencionado Subvencionado
y Rural
y Urbano
Grupo
Si consideramos la base de datos como si fuera la población de colegios que rinde la
SIMCE, podríamos decir que claramente se observa diferencias significativas entre las
medias de puntajes entre los diferentes grupos de colegios.
39
3. Pruebas de hipótesis
Asuma que la base de datos corresponde a la población de todos los colegios que rindieron la
prueba SIMCE en el año 2006. Considere una muestra aleatoria de aproximadamente el 20%
de los colegios considerados y realice pruebas de hipótesis que permita responder las
siguientes preguntas.
En primer lugar se debe seleccionar una muestra aleatoria. Para esto ir a Menú: Seleccionar/
Muestra aleatoria de datos
Sintaxis
USE ALL.
COMPUTE filter_$=(uniform(1)<=.20).
VARIABLE LABEL filter_$ 'Approximately 20 % of cases (SAMPLE)'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
a) ¿Existen diferencias significativas entre los puntajes promedios de la
SIMCE entre
los colegios de tipo Rural y Urbano?
Esta pregunta corresponde a realizar una prueba T para muestras independientes. Dado que
es una prueba paramétrica veremos previamente si se verifica la normalidad de la variable
“puntprom” en ambos grupos Rural y Urbano.
Menú: Analizar/ Explorar/ Gráficos con prueba de normalidad
EXAMINE
VARIABLES=puntprom BY caract /ID= Idest
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES EXTREME
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Pruebas de normalidad
puntaje promedio entre
lenguaje y matemáticas
Caracterización del
establecimiento
Rural
Urbano
a
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,201
45
,000
,078
425
,000
Estadístico
,797
,964
Shapiro-Wilk
gl
45
425
Sig.
,000
,000
a. Corrección de la s ignificac ión de Lilliefors
Dado que la significancia en la prueba K-S es menor a 0,05, tanto para el grupo de colegios
rurales como urbanos se rechaza la hipótesis nula de normalidad, donde H0: La variable
puntaje promedio distribuye normal
Sin embargo, la prueba T es robusta a desviaciones de la normalidad, por tanto veremos si
existen valores extremos o atípicos y los filtraremos según sea la cantidad 2, para luego
solicitar el coeficiente de asimetría. Si éste está cerca de cero se considerará que la
distribución es simétrica y en consecuencia se podrá aplicar la prueba T.
Si son muchos los casos extremos y atípicos seguramente la distribución no será simétrica y no
podríamos aplicar la prueba T 2
40
Para lo anterior consideremos el diagrama de cajas que se seleccionó en el menú explorar en
la sintaxis anterior.
puntaje promedio entre lenguaje y matemáticas
Media de puntajes promedios SIMCE por caracterización Rural y Urbano
350,00
760,00
300,00
1190,00
1195,00
250,00
200,00
Rural
Urbano
Caracterización del establecimiento
En la gráfica se puede apreciar que hay valores atípicos y extremos en el grupo de colegios
rurales. Al editar la gráfica se puede ver que dentro de los extremos aparecen tres
promedios extremos con identificación 1171, 754 y 760
Además se puede apreciar dos atípicos con identificación, 1190, 1195
Filtremos estos cinco valores y verifiquemos si se cumple la asimetría
Menú: Datos/Seleccionar casos
USE ALL.
COMPUTE filter_$=(Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 & Idest
~= 1195).
VARIABLE LABEL filter_$ 'Idest ~= 1171 & Idest ~= 754 & Idest ~= 760 & Idest ~= 1190 &
Idest ~= 1195 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
41
Una vez filtrados los valores extremos y atípicos solicitemos el coeficiente de asimetría para
cada grupo de caracterización; Rural y Urbano
Par esto conviene segmentar por “caract” y luego en Frecuencias/ Estadísticos solicitar el
coeficiente de asimetría. Menú: Datos/ Segmentar archivo
SPLIT FILE
LAYERED BY caract .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .
SORT CASES BY caract .
SPLIT FILE
LAYERED BY caract .
FREQUENCIES
VARIABLES=puntprom /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .
Coe ficiente de asimetría para l a varia ble puntaje promedi o
punt aje promedio entre lenguaje y matemáticas
Rural
N
Válidos
Perdidos
Asimetría
Urbano
N
Válidos
Perdidos
Asimetría
40
0
,553
425
0
,258
Dado que el coeficiente de asimetría está cerca de cero podemos considerar la variable
“puntprom” simétrica en ambos grupos Rural y Urbano y por tanto podemos aplicar la prueba
T para muestras independientes: Previamente debemos sacar la segmentación y tomar todos
los casos, dejando el filtro realizado anteriormente para los extremos y atípicos.
Para realizar la prueba T:
Menú: Analizar/Comparar medias/Prueba T para muestras independientes
***Sintaxis***
T-TEST
GROUPS = caract(1 2)
/MISSING = ANALYSIS
/VARIABLES = puntprom
/CRITERIA = CI(.95) .
42
Esta dísticos de grupo
punt aje promedio entre
lenguaje y matemáticas
Caracterización del
establecimiento
Rural
Urbano
N
40
425
Media
216, 2125
260, 4612
Des viación
típ.
16,63827
39,08043
Error típ. de
la media
2,63074
1,89568
Prueba de muestras independientes
Prueba de Levene
para la igualdad de
varianzas
F
punt aje promedio entre
lenguaje y matemáticas
Se han asumido
varianzas iguales
No s e han asumido
varianzas iguales
42,153
Sig.
,000
Prueba T para la igualdad de medias
Sig. (bilateral)
-7,095
463
,000
-44, 24868
6,23655
-56, 50412
-31, 99323
-13, 646
87,838
,000
-44, 24868
3,24259
-50, 69281
-37, 80454
t
gl
Error típ. de
la diferencia
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
Diferencia
de medias
En la tabla de estadísticos de grupo se observa el número de casos por cada grupo en la
muestra y la media y dispersión del puntaje promedio para los datos de la muestra de
colegios.
La tabla de la prueba T para muestras independientes entrega en primer lugar el resultado de
la prueba de Levene para la igualdad de varianzas. En este caso dado que la significancia es
menor a 0,05 se rechaza la hipótesis nula.
H0 :
2
1
2
2
que indica que la varianza del puntaje promedio para el grupo Rural no difiere
de la varianza del puntaje promedio para el grupo Urbano.
Por tanto no se asume varianzas iguales y en este caso se lee la prueba T de la segunda fila de
la tabla.
Dado que la significancia es menor a 0,05 se rechaza la hipótesis nula de igualdad de medias
H0 :
1
2
que indica que no hay diferencias significativas en las medias del promedio de
puntajes SIMCE para el grupo Rural y Urbano.
Por tanto, existe evidencia para afirmar que existen diferencias significativas en la media de
los promedios de puntajes entre el grupo de colegios rurales y los colegios urbanos con un
nivel de significancia del 5%.Por otra parte la tabla entrega un intervalo de confianza del 95%
para la diferencia de medias. En este caso la diferencia de medias para los promedios de
puntajes entre los colegios urbanos y rurales está entre 38 puntos y 51 puntos
aproximadamente con un 95 % de confianza.
b) ¿Existen diferencias significativas entre las medias de los puntajes promedios de
Matemáticas por dependencia?
La variable dependencia es una variable nominal con tres categorías. Por tanto se trata de una
Prueba ANOVA de un factor, donde la hipótesis nula es H 0 : 1
2
3
es decir, las medias de los puntajes promedios de matemáticas de los colegios municipalizados,
privados y subvencionados no difieren significativamente entre sí.
Previamente verificaremos la hipótesis de normalidad. Dado que la prueba es robusta a
desviaciones de la normalidad por lo menos se debe verificar que los datos se comportan de
manera simétrica.
Para verificar la normalidad, solicitamos la prueba de K-S en;
43
Menú: Analizar/ Explorar/ Gráficos
EXAMINE
VARIABLES=prom_mat BY dependencia /ID= Idest
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Se obtiene la tabla con la prueba K-S
Pruebas de norm alidad
a
Tipo de dependenc ia
Municipaliz ado
Privado
Subvencionado
prom_mat
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,083
128
,032
,120
82
,005
,072
260
,002
Estadístico
,947
,948
,972
Shapiro-Wilk
gl
128
82
260
Sig.
,000
,002
,000
a. Corrección de la significac ión de Lilliefors
Claramente se observa que la variable puntaje de matemáticas no distribuye normal en ninguno de
los grupos de dependencia.
Entonces veremos el diagrama de caja correspondiente al puntaje promedio para cada grupo de
dependencia.
Media de puntajes promedios de matemáticas por dependencia
400
350
250,00
prom_mat
661,00
300
575,00
250
200
150
Municipalizado
Privado
Subvencionado
Tipo de dependencia
44
Se puede apreciar del diagrama de cajas que en el grupo de colegios municipalizados hay tres
colegios con valores atípicos, cuya identificación corresponden a 250, 661 y 575.
Filtraremos estos valores
Menú: Datos/ seleccionar
USE ALL.
COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 575).
VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 575 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Ahora veamos los coeficientes de asimetría para comprobar que los datos distribuyen en
forma simétrica en cada grupo.
Menú: Datos/ Segmentar archivo/ Frecuencias
SORT CASES BY dependencia .
SPLIT FILE
LAYERED BY dependencia .
FREQUENCIES
VARIABLES=prom_mat /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .
Esta dísticos
prom_mat
Municipaliz ado
N
Privado
Asimetría
N
Subvencionado
Asimetría
N
Válidos
Perdidos
Válidos
Perdidos
Válidos
Perdidos
Asimetría
125
0
,309
82
0
-,592
260
0
,102
Se puede apreciar que los coeficientes de asimetría son cercanos a cero y por tanto podemos
considerar las distribuciones simétricas para cada grupo de dependencia.
Ahora podemos aplicar la prueba ANOVA de un factor. Previamente consideramos todos los
casos (sacar la segmentación por dependencia).
Menú: Analizar/comparar medias/ ANOVA de un factor
ONEWAY
prom_mat BY dependencia
/STATISTICS DESCRIPTIVES HOMOGENEITY
/MISSING ANALYSIS .
45
En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hipótesis nula
es
H0 :
2
1
2
2
2
3
Es decir no existen diferencias significativas en la variabilidad del puntaje promedio de
matemáticas entre los tres grupos de dependencia
Prueba de homogeneida d de varianza s
prom_mat
Estadístico
de Levene
38,170
gl1
gl2
464
2
Sig.
,000
De la tabla obtenemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis
nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige
que se cumpla la hipótesis anterior).
En este caso veremos la prueba de Welch, que representa una alternativa robusta al
estadístico F del ANOVA cuando no se puede asumir varianzas iguales 3 Para esto en
Opciones activamos Welch, donde la hipótesis nula correspondiente es H 0 : 1
2
3
Pruebas robustas de igualdad de las m edias
prom_mat
a
Welch
Estadístico
177, 550
gl1
2
gl2
205, 874
Sig.
,000
a. Dist ribuidos en F asintóticamente.
De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis de
igualdad de medias y en consecuencia hay diferencias significativas entre las medias del
puntaje promedio de matemáticas por dependencia.
Para conocer entre qué grupos de dependencia hay diferencias, solicitamos en
Post-Hoc la opción de Games-Howell que es un método que se basa en la distribución del rango
estudentizado y en un estadístico T. Es el mejor método que permite controlar la tasa de
error en diferentes situaciones.
3
Tanto el estadístico de Welch como el de Brown- Forsythe se distribuyen según el modelo de
probabilidad F, pero con grados de libertad corregidos
46
Com paraciones m últiple s
Variable dependiente: prom_mat
Games-Howell
(I) Tipo de dependencia
Municipaliz ado
Privado
Subvencionado
(J) Tipo de dependencia
Privado
Subvencionado
Municipaliz ado
Subvencionado
Municipaliz ado
Privado
Diferencia de
medias (I-J)
Error típico
-84, 934*
4,824
-36, 050*
3,371
84,934*
4,824
48,884*
5,206
36,050*
3,371
-48, 884*
5,206
Sig.
,000
,000
,000
,000
,000
,000
Intervalo de confianza al
95%
Límite
Límite inferior
superior
-96, 39
-73, 48
-43, 98
-28, 12
73,48
96,39
36,56
61,21
28,12
43,98
-61, 21
-36, 56
*. La diferencia entre las medias es signific ativa al nivel .05.
Dado que todas las significancias son menores a 0,05 se puede concluir que existen
diferencias significativas en los puntajes promedios de matemáticas entre todos los pares
posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza
para la diferencia de medias poblacionales del puntaje promedio de matemáticas para cada
par de grupos considerados en el análisis con un 95% de confianza.
c) ¿Existen diferencias significativas entre los puntajes promedios de Lenguaje por
dependencia?
Repitiendo el mimo procedimiento para los puntajes de matemáticas se realiza un diagrama de
caja para ver los atípicos en los puntajes de lenguaje por dependencia obteniendo que existen
dos atípicos en el grupo de municipalizados y un caso atípico en los privados
Media de los puntajes promedio de lenguaje por dependencia
250,00
300
prom_len
661,00
250
54,00
200
Municipalizado
Privado
Subvencionado
Tipo de dependencia
47
Se filtran para luego pedir el coeficiente de asimetría.
USE ALL.
COMPUTE filter_$=(Idest ~= 250 & Idest ~= 661 & Idest ~= 54).
VARIABLE LABEL filter_$ 'Idest ~= 250 & Idest ~= 661 & Idest ~= 54 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
SORT CASES BY dependencia .
SPLIT FILE
LAYERED BY dependencia .
FREQUENCIES
VARIABLES=prom_len /FORMAT=NOTABLE
/STATISTICS=SKEWNESS SESKEW
/ORDER= ANALYSIS .
Esta dísticos
prom_len
Municipaliz ado
N
Privado
Asimetría
N
Subvencionado
Asimetría
N
Válidos
Perdidos
Válidos
Perdidos
Válidos
Perdidos
Asimetría
126
0
,445
81
0
-,535
260
0
-,024
Se puede observar que la variable puntaje promedio de lenguaje distribuye en forma
simétrica en los tres grupos de dependencia pues los tres coeficientes de asimetría están
cercanos a cero. Por tanto podemos aplicar la prueba ANOVA.
Previamente consideramos todos los casos (sacar la segmentación por dependencia).
Menú: Analizar/comparar medias/ ANOVA de un factor
ONEWAY
prom_len BY dependencia
/STATISTICS DESCRIPTIVES HOMOGENEITY
/MISSING ANALYSIS .
En primer lugar vemos la prueba de Levene de igualdad de varianzas, donde la hipótesis nula
es
H0 :
2
1
2
2
2
3 .
Es decir no existen diferencias significativas en la variabilidad del
puntaje promedio de lenguaje entre los tres grupos de dependencia
Prueba de homogeneida d de varianza s
prom_len
Estadístico
de Levene
29,956
gl1
2
gl2
464
Sig.
,000
48
De la tabla obtenemos que la significancia es menor a 0.05, por tanto se rechaza la hipótesis
nula de igualdad de varianzas y en consecuencia no podemos ver la tabla ANOVA (que exige
que se cumpla la hipótesis anterior).
En este caso veremos la prueba de Welch, que representa una alternativa robusta al
estadístico F del ANOVA cuando no se puede asumir varianzas iguales 4 Para esto en
Opciones activamos Welch, donde la hipótesis nula correspondiente es H 0 : 1
2
3
Pruebas robustas de igualdad de las m edias
prom_len
a
Welch
Estadístico
183, 227
gl1
2
gl2
208, 914
Sig.
,000
a. Dist ribuidos en F asintóticamente.
De la tabla vemos que la significancia es menor a 0,05, por tanto se rechaza la hipótesis de
igualdad de medias y en consecuencia hay diferencias significativas entre las medias del
puntaje promedio de lenguaje por dependencia.
Para conocer entre qué grupos de dependencia hay diferencias, solicitamos en
Post-Hoc la opción de Games-Howell que es un método que se basa en la distribución del rango
estudentizado y en un estadístico T. Es el mejor método que permite controlar la tasa de
error en diferentes situaciones.
Com paraciones m últiple s
Variable dependiente: prom_len
Games-Howell
(I) Tipo de dependencia
Municipaliz ado
Privado
Subvencionado
(J) Tipo de dependencia
Privado
Subvencionado
Municipaliz ado
Subvencionado
Municipaliz ado
Privado
Diferencia de
medias (I-J)
Error típico
-58, 521*
3,265
-27, 955*
2,396
58,521*
3,265
30,566*
3,452
27,955*
2,396
-30, 566*
3,452
Sig.
,000
,000
,000
,000
,000
,000
Intervalo de confianza al
95%
Límite
Límite inferior
superior
-66, 27
-50, 77
-33, 59
-22, 32
50,77
66,27
22,40
38,74
22,32
33,59
-38, 74
-22, 40
*. La diferencia entre las medias es signific ativa al nivel .05.
Dado que todas las significancias son menores a 0,05 se puede concluir que existen
diferencias significativas en los puntajes promedios de lenguaje entre todos los pares
posibles de grupos de dependencia. Adicionalmente la tabla entrega un intervalo de confianza
para la diferencia de medias poblacionales del puntaje promedio de lenguaje para cada par de
grupos considerados en el análisis con un 95% de confianza.
d) Para cada grupo de dependencia, ¿Existen diferencias significativas entre los promedios
de lenguaje y matemáticas?.
Esta prueba corresponde para cada grupo de dependencia a una prueba T para muestras
0 es decir la diferencia
relacionadas, donde la hipótesis nula corresponde a H 0 : 1
2
de las medias poblacionales del puntaje promedio de matemáticas y de lenguaje es cero.
4
Tanto el estadístico de Welch como el de Brown- Forsythe se distribuyen según el modelo de
probabilidad F, pero con grados de libertad corregidos
49
Previamente segmentaremos por dependencia.
SORT CASES BY dependencia .
SPLIT FILE
SEPARATE BY dependencia .
Calcularemos la variable diferencia entre ambos puntajes “difpunt”. Luego veremos si la
diferencia entre las dos variables consideradas distribuye normal. Al igual que la prueba T
para muestras independientes es robusta a desviaciones de la normalidad, por tanto bastaría
filtrar los casos extremos o atípicos si es que la cantidad es marginal y luego probar que es
simétrica.
Menú; Transformar/Calcular
Luego de calcular la diferencia se procede a verificar si distribuye normal
Menú; Analizar/ Explorar/ gráficos
COMPUTE difpunt = prom_mat - prom_len .
EXECUTE .
EXAMINE
VARIABLES=difpunt /ID= Idest
/PLOT BOXPLOT HISTOGRAM NPPLOT
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
Para cada grupo de dependencia se observa de la prueba K-S que no se rechaza la normalidad de
la variable diferencia entre los puntajes, en consecuencia se verifica la hipótesis de la prueba T
para muestras relacionadas.
Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a
una distribución normal.
b
Pruebas de norm alidad
a
difpunt
Kolmogorov-Smirnov
Shapiro-Wilk
Estadístico
gl
Sig.
Estadístico
gl
,053
128
,200*
,995
128
Sig.
,942
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependenc ia = Municipalizado
Es interesante observar el histograma, donde se puede ver que la forma se asemeja bastante a
una distribución normal .
50
Histograma
Tipo de dependencia= Municipalizado
25
Frecuencia
20
15
10
5
Mean = -9,8125
Std. Dev. = 12,76792
N = 128
0
-50,00
-40,00
-30,00
-20,00
-10,00
0,00
10,00
20,00
difpunt
b
Pruebas de norm alidad
a
difpunt
Kolmogorov-Smirnov
Estadístico
gl
Sig.
,097
82
,054
Estadístico
,978
Shapiro-Wilk
gl
82
Sig.
,173
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependenc ia = Privado
Histograma
Tipo de dependencia= Privado
20
Frecuencia
15
10
5
Mean = 16,6585
Std. Dev. = 17,67276
N = 82
0
-40,00
-20,00
0,00
20,00
40,00
60,00
difpunt
51
Para los colegios privados se puede apreciar en el histograma de la variable que existe un colegio
con una diferencia entre los puntajes matemáticos y lenguaje bastante amplio, siendo el caso
atípico con el valor negativo mayor. Sin embargo la prueba Kolmogorov- Smirnov nos permite no
rechazar la normalidad de la variable diferencia, dado que la significancia es mayor a 0,05.
b
Pruebas de norm alidad
a
difpunt
Kolmogorov-Smirnov
Shapiro-Wilk
Estadístico
gl
Sig.
Estadístico
gl
,046
260
,200*
,990
260
Sig.
,082
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significac ión de Lilliefors
b. Tipo de dependenc ia = Subvencionado
Histograma
Tipo de dependencia= Subvencionado
40
Frecuencia
30
20
10
Mean = -2,6654
Std. Dev. = 18,13696
N = 260
0
-40,00
-20,00
0,00
20,00
40,00
60,00
difpunt
En el caso de los subvencionados se observa un puntaje muy alto en el histograma,
correspondiendo a un colegio con una diferencia promedio entre matemáticas y lenguaje cercano
a 60 puntos. Sin embargo se comporta con un buen ajuste a la distribución normal pues la
significancia es 0,200 mayor a 0,05.
Ahora para cada grupo de dependencia aplicaremos la prueba T para muestras relacionadas.
T-TEST
PAIRS = prom_mat WITH prom_len (PAIRED)
/CRITERIA = CI(.95)
/MISSING = ANALYSIS.
a
Esta dísticos de muestra s rela cionadas
Par 1
prom_mat
prom_len
Media
223,27
233,09
N
128
128
Des viación
típ.
25,380
19,010
Error típ. de
la media
2,243
1,680
a. Tipo de dependencia = Municipalizado
52
En primer lugar se aprecia la tabla con estadísticos básicos de la muestra para colegios con
dependencia municipalizado, mostrando que las medias muestrales tienen una diferencia de
aproximadamente 10 puntos entre los puntajes promedios a favor de lenguaje.
a
Correlaciones de muestras rel aciona das
N
Par 1
prom_mat y prom_len
128
Correlación
,873
Sig.
,000
a. Tipo de dependenc ia = Municipalizado
La tabla de correlaciones indica que para los colegios municipalizados el puntaje de matemáticas y
de lenguaje se correlacionan linealmente, con una fuerza de asociación positiva alta
a
Prueba de muestras rel aciona das
Diferencias relacionadas
Par 1
prom_mat - prom_len
Media
-9,813
Des viación
típ.
12,768
Error típ. de
la media
1,129
95% Intervalo de
confianza para la
diferencia
Inferior
Superior
-12, 046
-7,579
t
-8,695
gl
127
Sig. (bilateral)
,000
a. Tipo de dependenc ia = Municipalizado
De la prueba T para muestras relacionadas, se rechaza la hipótesis nula de igualdad de medias
(diferencia igual a cero), dado que la significancia es menor a 0.05, por tanto existen diferencias
significativas entre el promedio de matemáticas y el promedio de lenguaje para los colegios
municipalizados. Del intervalo de confianza para la diferencia se puede deducir que con un 95%
de confianza la media poblacional del puntaje promedio de lenguaje es superior al de matemáticas
y la diferencia está entre aproximadamente 7,5 puntos y 12 puntos.
De manera equivalente se realiza una prueba T para muestras relacionadas para los colegios con
dependencia privado y subvencionado, obteniéndose en ambos casos diferencias significativas
entre los promedios de matemáticas y lenguaje.
e) ¿Existe relación entre el grupo socioeconómico del establecimiento y la dependencia? Si existe
relación determine si la relación es alta, moderada o débil.
Ambas variables pueden ser consideradas como nominales. En este caso la hipótesis nula a probar
es
H0: Las variables grupo socioeconómico del establecimiento es independiente de la dependencia
del colegio.
En primer lugar solicitemos la tabla de contingencia para ambas variables, considerando tanto la
frecuencia observada y la frecuencia esperada.
53
Tabla de contingencia Grupo Socioe conóm ico de l establecimie nto * Tipo de dependencia
Grupo Socioeconómico
del establecimient o
Bajo
Medio Bajo
Medio
Medio Alto
Alto
Total
Rec uento
Frec uencia
Rec uento
Frec uencia
Rec uento
Frec uencia
Rec uento
Frec uencia
Rec uento
Frec uencia
Rec uento
Frec uencia
esperada
esperada
esperada
esperada
esperada
esperada
Tipo de dependenc ia
Municipali
Subvenci
zado
Privado
onado
56
2
40
26,7
17,1
54,2
57
9
53
32,4
20,8
65,8
13
1
101
31,3
20,1
63,6
2
18
61
22,1
14,1
44,8
0
52
5
15,5
9,9
31,5
128
82
260
128,0
82,0
260,0
Total
98
98,0
119
119,0
115
115,0
81
81,0
57
57,0
470
470,0
Se puede observar que las frecuencias esperadas son muy diferentes de las frecuencias
observadas, característica de variables no independientes.
Apliquemos la prueba chi-cuadrado de independencia.
CROSSTABS
/TABLES=socioeconomico BY dependencia
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ CC
/CELLS= COUNT EXPECTED
/COUNT ROUND CELL .
Pruebas de chi-cuadra do
Chi-cuadrado de Pearson
Raz ón de verosimilitud
N de casos válidos
Valor
368,714a
331,315
470
gl
8
8
Sig. asintótica
(bilateral)
,000
,000
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuenc ia mínima esperada es 9,94.
De la prueba chi cuadrado se desprende que las variables están relacionadas, no son
independientes dado que la significancia es menor a 0,05.
Para conocer el grado de la intensidad de la relación vemos el valor del coeficiente de
contingencia. Se puede apreciar que este coeficiente es significativo y alcanza un valor 0,663
Medidas simétricas
Valor
Nominal por
nominal
N de casos válidos
Coeficiente de
contingenc ia
Sig.
aproximada
,663
,000
470
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintót ico bas ado en la hipótesis
nula.
moderado alto.
54
4. Concluir
a) Realice resumidamente un análisis descriptivo básico para los colegios premiados usando
medidas de tendencia central y medidas de dispersión.
En primer lugar conviene seleccionar a los colegios premiados. Para esto
Datos/ seleccionar casos/ Si/Premio=1
USE ALL.
COMPUTE filter_$=(premio = 1).
VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Se puede solicitar una tabla con los estadísticos básicos para el puntaje matemáticas, lenguaje y
puntaje promedio por dependencia.
MEANS
TABLES=prom_mat prom_len puntprom BY dependencia
/CELLS COUNT MEAN MEDIAN STDDEV MIN MAX NPCT .
55
Informe
Tipo de dependenc ia
Municipaliz ado
Privado
Subvencionado
Total
N
Media
Mediana
Des v. típ.
Mínimo
Máx imo
% del total
N
Media
Mediana
Des v. típ.
Mínimo
Máx imo
% del total
N
Media
Mediana
Des v. típ.
Mínimo
Máx imo
% del total
N
Media
Mediana
Des v. típ.
Mínimo
Máx imo
% del total
de N
de N
de N
de N
prom_mat
23
261,35
258,00
22,663
236
325
19,8%
21
347,71
344,00
13,539
327
380
18,1%
72
312,14
313,00
19,149
246
352
62,1%
116
308,51
313,00
33,019
236
380
100,0%
prom_len
23
263,30
257,00
14,683
251
317
19,8%
21
318,90
317,00
6,818
306
336
18,1%
72
295,61
297,50
13,440
252
319
62,1%
116
293,42
297,50
21,537
251
336
100,0%
puntaje
promedio
entre lenguaje
y
mat emáticas
23
262,3261
256,0000
17,80361
246,50
321,00
19,8%
21
333,3095
331,5000
8,71848
322,00
352,50
18,1%
72
303,8750
305,2500
15,08304
249,00
331,00
62,1%
116
300,9655
305,2500
26,63168
246,50
352,50
100,0%
Y para visualizar gráficamente los resultados podemos observar el diagrama de cajas para el
puntaje promedio SIMCE por grupo homogéneo
En primer lugar se puede observar que el total de colegios premiados alcanzó a 116 colegios de los
cuales el 62,1% corresponde a colegios subvencionados.
Los mejores puntajes se concentran en los colegios privados con un puntaje promedio de 333
puntos, siendo el promedio de matemáticas superior al promedio de lenguaje en casi 29 puntos. En
segundo lugar se observan los puntajes de los colegios subvencionados con una media de casi 304
puntos y una diferencia de aproximadamente 17 puntos a favor del promedio de matemáticas. Sin
embargo en los colegios municipalizados se observa apenas una media de 262 puntos muy inferior
a los privados y subvencionados con un puntaje bastante parejo entre la media de matemáticas y
lenguaje observándose sólo 2 puntos a favor de lenguaje.
Si observamos el diagrama de cajas de la pregunta h) , el grupo de colegios premiados que
presenta menores puntajes corresponde al grupo Municipalizados y Rurales alcanzando una
mediana cerca de 235 puntos, observándose un colegio con un valor atípico cerca de 257 puntos.
Se observa una gran diferencia en los puntajes de los premiados municipalizados urbanos que
alcanzan una mediana de casi 262 puntos con varios puntajes promedios atípicos altos, hasta 348
puntos, además se observa bastante variabilidad entre los puntajes promedios de este grupo. Los
56
colegios premiados privados, tanto rural como urbano se presentan con puntajes altos bastante
homogéneos y con por lo menos el 50% de los colegios con puntajes promedios sobre 332 puntos.
Respecto a los colegios subvencionados se observa una gran diferencia entre rurales y urbanos
siendo la mediana de los puntajes 265 y 303 puntos respectivamente.
La media de los puntajes del total de colegios premiados alcanzó un promedio de
aproximadamente 301 puntos con una mediana de 305 puntos indicando que el 50% de los colegios
premiados alcanzaron un puntaje promedio superior o igual a 305 puntos, obteniendo como valor
mínimo 246, 5 puntos y un máximo de 352,5 puntos, lo que da una amplitud bastante amplia de 116
puntos con una desviación estándar de aproximadamente 27 puntos, es decir en promedio los
puntajes se desvían de la media en 26 puntos.
En síntesis, si bien los colegios considerados son todos premiados existe mucha variabilidad entre
ellos, debiendo ser necesario focalizar estrategias para apoyar a los colegios rurales no privados,
que están muy por debajo de los urbanos y de los privados en general.
b)
Sintetizar sus comentarios acerca de los vínculos que explica.
En el análisis explicativo de los datos que realizamos en la tercera parte del caso aplicamos (en
base a una muestra del 20% de la población), pruebas T para muestras independientes, muestras
relacionadas y ANOVA de un factor, y prueba chi cuadrado para la independencia,probándose las
siguientes afirmaciones con un nivel de significancia del 0,05;
Existen diferencias significativas entre los puntajes promedios de la SIMCE 2006 de segundos
medios entre los colegios de tipo Rural y Urbano, siendo mayor el promedio para colegios urbanos.
Existen diferencias significativas entre los puntajes promedios de Matemáticas entre los
colegios municipalizados, privados y subvencionados. Del mismo modo ocurre para los puntajes
promedios de lenguaje.
Para cada grupo de dependencia, existen diferencias significativas entre los promedios de
lenguaje y matemáticas.
Existe relación significativa entre el grupo socioeconómico del establecimiento y la dependencia,
siendo bastante considerable, es decir los colegios municipalizados están mas relacionados con un
grupo socioeconómico bajo y medio bajo, los colegios subvencionados con un grupo socioeconómico
medio, medio bajo y medio alto y los colegios privados con el grupo socioeconómico alto.
c)
Sugiera otra alternativa para determinar cómo premiar a los colegios por su rendimiento
en la prueba SIMCE.
Otra alternativa podría ser que por grupos homogéneos, se calcule la variable de puntuaciones z
para el puntaje promedio SIMCE y se determine un criterio como por ejemplo, que los colegios
elegidos estén por sobre una desviación estándar de la media, es decir con un puntaje z mayor o
igual a 1.
57
III Análisis de Regresión Lineal simple
un estudio más formal del análisis de regresión comenzando con el modelo de
regresión lineal simple (simple = una variable independiente), pero conviene no perder de vista que
, puesto que generalmente interesará estudiar simultáneamente más de una variable predictora,
este modelo es sólo un punto de partida en el estudio del análisis de regresión.
Consideremos el archivo Datos de empleados que, como ya se ha dicho, se instala con el programa
en el propio directorio SPSS. Y, de momento, se utilizará la variable salario (salario actual) como
variable dependiente y la variable salini (salario inicial) como variable independiente o predictora.
Abordaremos
Para llevar a cabo un análisis de regresión simple con las especificaciones que el programa tiene
establecidas por defecto:

Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de
diálogo Regresión lineal.

Seleccionar la variable salario en la lista de variables de archivo de datos y trasladarla al
cuadro Dependiente.

Seleccionar la variable salani y trasladarla a la lista Independiente.
Aceptando estas especificaciones, el Visor ofrece los resultados que muestran las tablas
siguientes.
Tabla 1
Resumen del modelo
Modelo
1
R
R cuadrado
.880 a
.775
R cuadrado
corregida
.774
Error típ. de la
estimación
$8,115.356
a. Variables predictoras: (Constante), Salario inicial
Tabla 2
ANOVAb
Coe ficientesa
Media
cuadrática
F
Coeficientes
Regresión
1.07E+11
1622.118
estandarizad
Res idual
65858997
os
Total
Modelo
Beta
t
1
(Constante)
1928.206
2.170
a. Variables
predictoras:
(Constante),888.680
Salario inicial
Salariodependiente:
inic ial
1.909 actual .047
.880
40.276
b. Variable
Salario
a. Variable dependiente: Salario ac tual
Modelo
1
Suma de
cuadrados
gl
1.068E+11
Coeficientes no 1
3.109E+10
estandarizados 472
1.379E+11
473
B
Error típ.
Sig.
.000 a
Sig.
.031
.000
Tabla3
58
Bondad de ajuste
La primera información que se obtiene se refiere al coeficiente de correlación múltiple
R ya
su cuadrado. Puesto que el modelo de regresión sólo incluye dos variables, el coeficiente de
correlación múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de
Pearson entre esas dos variables . Su cuadrado (R cuadrado) es el coeficiente de determinación:
R2
Suma de cuadrados de los residuos
Suma de cuadrados total
1
(los residuos son las diferencias existentes entre las puntuaciones observadas y los pronósticos
obtenidos con la recta).
Además del porcentaje de mejora en los pronósticos, R expresa la proporción de varianza de la
variable dependiente que está explicada por la variable independiente. En el ejemplo (ver Tabla
2
1), R toma un valor muy alto (su máximo es 1); y R indica que el 77,5% de la variabilidad del
salario actual está explicada por, depende de, o está asociada al salario inicial.
Es importante señalar en este momento que el análisis de regresión no permite afirmar que las
relaciones detectadas sean de tipo causal: únicamente es posible hablar de relación y de grado de
relación. Debe quedar muy claro desde el principio que una relación, por sí sola, nunca implica
causalidad.
2
R cuadrado corregida es una corrección a la baja de R que se basa en el número de casos y de
2
variables independientes:
2
Rcorregida
R2
p 1 R2 / n
p 1
(p se refiere al número de variables independiente). En una situación con pocos casos y mucha
variables independiente, R
2
es un estimador algo optimista (artificialmente alto) del verdadero
coeficiente de correlación poblacional. En tal caso, el valor de R corregida será sensiblemente
2
más bajo que el de R . En el ejemplo, como hay 474 casos y una sola variable independiente, los
2
dos valores de R (el corregido y el no corregido) son prácticamente iguales.
2
El error típico de la estimación
Se
es la desviación típica de los residuos, es decir, la
desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente
Yi y los pronósticos efectuados con la recta de regresión
la suma de las distancias al cuadrado están divididas por
Error típico de estimación =
Se
Yˆi , aunque no exactamente, pues
n 2:
Yi
Yˆi
2
/ n 2
En realidad, este error típico es la raíz cuadrada de la media cuadrática residual de la Tabla .
Representa una medida de la parte de variabilidad de la variable dependiente que no está
59
explicada por la recta de regresión. En general, cuanto mejor es el ajuste, más pequeño es este
error típico.
La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relación significativa entre la
variable independiente y la dependiente. El estadístico F permite contrastar la hipótesis nula de
que el valor poblacional de R es cero (que en el modelo de regresión simple equivale a contrastar
la hipótesis de que la pendiente de la recta de regresión vale cero). El nivel crítico (Sig.) indica
que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que
R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que
cero y que, en consecuencia, puede afirmarse que ambas variables están linealmente relacionadas.
Ecuación de Regresión
La Tabla 3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coeficientes
no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de
regresión en puntuaciones directas.
El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de
regresión
B0 . Recibe el nombre de constante porque, según se verá es la constante del
modelo de regresión:
B0
Y
B1 X
Y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de
regresión
B1 :
B1
X iYi
n
X i2
Xi
Yi
Xi
2
B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de
cambio de la variable independiente (salini). Según esto, la ecuación de regresión queda de la
siguiente manera:
Pronóstico en salario = 1928,206 + 1,909 salini
Es decir, a cada valor de salini le corresponde un pronóstico en salario basado en un incremento
constante (1928,206) más 1,909 veces el valor de salini.
60
Coeficientes de Regresión Estandarizados
Los coeficientes Beta (coeficiente de regresión parcial estandarizados) son los coeficientes que
definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables
originales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la
siguiente manera:
B1 S x / S y .
1
En el análisis de regresión simple, el coeficiente de regresión estandarizado correspondiente a la
única variable independiente presente en la ecuación coincide exactamente con el coeficiente de
correlación de Pearson. En regresión múltiple, según se verá enseguida, los coeficientes de
regresión estandarizados permiten valorar la importancia relativa de cada variable independiente
dentro de la ecuación.
Prueba de Significación
Finalmente, los estadísticos t y sus niveles críticos (Sig.) permiten contrastar las hipótesis nulas
de que los coeficientes de regresión valen cero en la población. Estos estadísticos t se obtienen
dividendo los coeficientes de regresión B0 y
tB 0
B0
SB0
Se
1
n
B1 entre sus correspondientes errores típicos:
y
B1
SB 1
t B1
siendo:
SB 0
X2
Xi
X
2
y
Se
S B1
Xi
X
2
Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student con
n
2
grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de
regresión es significativamente distinto de cero y, en consecuencia, en el caso de B1 , si la
variable independiente está significativamente relacionada con la dependiente.
Puesto que en regresión simple se trabaja con una única variable independiente, el resultado del
estadístico t (Tabla 3) es equivalente al del estadístico F de la tabla resumen del ANOVA (Tabla
2). De hecho, en regresión simple, t
2
F.
A partir de los resultados de análisis (ver Tabla 3), pueden establecerse las siguientes
conclusiones:
1.
El origen poblacional de la recta de regresión
cero (generalmente, contrastar la hipótesis
0
“
0
es significativamente distinto de
0 ” carece de utilidad, pues no
contiene información sobre la relación entre X i e Yi ).
61
2. La
pendiente poblacional de la recta de regresión (el coeficiente de regresión
1
correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar
que entre salario y salini existe relación lineal significativa.
Ejercicio:
Correlaciones y Regresiones
1. Coeficiente de Correlación
Considere el archivo “Estudio Morfología.sav”.
a)
Determine si las variables estatura, peso y coeficiente intelectual
están correlacionadas significativamente.
Para esto seleccione Analizar/Correlaciones/Bivariadas
Variables:
ci, estatura y peso
Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar
las correlaciones significativas].
Correlaciones
Coc iente intelectual
ESTATURA
PES O
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
Coc iente
intelectual
1
.
149
,081
,325
149
,001
,988
148
ESTATURA
,081
,325
149
1
.
150
,600**
,000
149
PES O
,001
,988
148
,600**
,000
149
1
.
149
**. La c orrelación es s ignificat iva al nivel 0,01 (bilateral).
b)
Interprete el coeficiente de correlación
2. Diagrama de Dispersión
La forma de una relación se puede estudiar visualmente a partir de la nube de
puntos generada en el Gráfico de Dispersión:
Seleccione Gráficos/Dispersión/Dispersión Simple
Eje Y:
peso
Eje X:
estatura
Establecer marcas por:
sexo
Etiquetar mediante:
iden
Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R 2 e interprete.
62
Gráfico de dispersión simple
110
27
100
93
90
31
80
70
SEXO
60
Mujer
PESO
Hombre
50
Total Population
40
R² = 0,3606
120
140
160
180
200
220
240
260
280
ESTATURA
Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de
dispersión, compare ahora el R2 e interprete.
USE ALL.
COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31).
VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FILTER BY filter_$.
EXECUTE .
Gráfico de dispersión simple
110
100
90
80
SEXO
70
Mujer
60
PESO
Hombre
50
Total Population
40
R² = 0,7182
140
150
160
170
180
190
200
ESTATURA
Se han filtrado los casos 27, 31 y 93
f)
Realice un gráfico de dispersión superpuesto.
Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos.
63
Seleccione el par estatura - peso y el par ci - peso
gráfico de dispersión superpuesto
300
31
200
31
100
Cociente intelectual
PESO
ESTATURA
0
40
g)
PESO
50
60
70
80
90
100
110
Realice un gráfico de dispersión matricial.
El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se
pueden obtener con las variables que se especifiquen.
Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables
a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso.
Pulsar aceptar.
Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis
parejas).
Ejercicio: Morfología e Inteligencia
Utilizando el archivo “Estudio Morfología.sav”. responda las siguientes preguntas:
h)
Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y
Error típico de estimación
Resumen del modelo
Modelo
1
R
,847(a)
R cuadrado
,718
R cuadrado
corregida
,716
Error típ. de la
estimación
6,4593
a Variables predictoras: (Constante), ESTATURA
El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es
considerable.
El R2 0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura.
64
Una forma de estimar el error estándar del estimador es basándose en los residuos;
e2
S Y ,X
n 2
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y
mide la dispersión con respecto a una recta promedio, denominada recta de regresión.
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
15309,683
6008,032
21317,715
Media
cuadrática
15309,683
41,722
gl
1
144
145
F
366, 941
Sig.
,000 a
a. Variables predictoras: (Constante), ESTATURA
b. Variable dependiente: PESO
Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test
T donde H0: 1 = 0
i)
Estime la ecuación de regresión
Coe ficientesa
Modelo
1
(Constante)
ESTATURA
Coeficientes no
estandarizados
B
Error típ.
-92, 138
8,816
,999
,052
Coeficientes
estandarizad
os
Beta
,847
t
-10, 451
19,156
Sig.
,000
,000
a. Variable dependiente: PESO
Y = -92,13 + 0,999•X
donde
Y = Peso
X = Estatura
j)
Pruebe la hipótesis nula H0: 1 = 0 para la estatura y el peso. ¿Existe una relación
significativa entre el ingreso y el consumo?
En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del
estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia.
Dado que la sig < 0,01 se rechaza la hipótesis nula H0:
relación significativa entre ingreso y consumo.
k)
1
= 0. Concluimos entonces que existe una
Interprete la pendiente de la ecuación de regresión.
La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio)
por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en
la estatura, en promedio el peso aumenta en 0,999 unidades.
Nota: Inferencias sobre la Pendiente.
A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción,
primero debemos determinar si en la población parece existir una relación entre las dos
variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda
relación en la población, por definición la pendiente de la línea de regresión de la población
65
sería de cero 1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H 0: 1=0.
La hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la
hipótesis alternativa no es simplemente que existe relación entre las dos variables, sino
además que esta relación es de un tipo específico (directa o inversa).
Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2
grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en
la ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula
estándar es:
t
donde s
b1
b1 ( 1 )o
sb1
SY , X
X2
nX
2
Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es
cero, la fórmula se simplifica y enuncia como
t
b1
sb1
El intervalo de confianza para la pendiente de la población 1, en el que los grados de
libertad asociados con t son n-2, se elabora de la siguiente manera:
b1 tsb1
Definición de grados de libertad: Los grados de libertad indican el número de valores “libres
de variar” en la muestra que sirve de base al intervalo de confianza.
l)
Determine el intervalo de confianza del 95% para 1. Para esto seleccione Regresión
lineal/ Estadísticos/Intervalos de confianza.
En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del
intervalo de confianza para b1 al 95%.
Coe ficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
ESTATURA
B
-92, 138
,999
Error típ.
8,816
,052
Coeficientes
estandarizad
os
Beta
,847
t
-10, 451
19,156
Sig.
,000
,000
Intervalo de confianza para
B al 95%
Límite
Límite inferior
superior
-109,564
-74, 712
,896
1,102
a. Variable dependiente: PESO
Se tiene que el intervalo de confianza de 95% para 1 es 0,896 a 1,102
Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de
entre 0,896 y 1,102 con una confianza de 95%.
66
c
a
i
f i
c
e
s
a
e
c
n
n
o
a
l
d
r
9
m
S
o
e
p
B
e
M
r
i
t
e
g
i
t
1
(
C
9
4
7
2
4
2
I
N
1
9
4
6
0
2
0
a
V
m)
Determine los valores pronosticados y los residuos usando la ecuación de regresión
desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el
cuadro de diálogo “Regresión lineal” y en el cuadro de diálogo siguiente considere valores
pronosticados no tipificados (es decir el valor que predice el modelo para la variable dependiente)
y valores tipificados (transformación de cada valor pronosticado a su forma tipificada). Además
considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor
pronosticado del modelo) y los residuos tipificados.
Observación:
Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los
estadísticos obtenidos en la muestra, deberemos tener en cuenta una serie de
requisitos:
Normalidad e igualdad de las varianzas en la variable dependiente (Y) del
modelo para valores fijos de la independiente o independientes del mismo X.
Independencia de las observaciones
Linealidad en la relación entre las variables.
67
n) Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los
siguientes gráficos:
(i) Los residuos tipificados ZRESID frente a los valores pronosticados tipificados
ZPRED para contrastar la igualdad de las varianzas.
Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los
residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la
media de los mismos y de valor cero, podemos concluir que se cumple el requisito de
linealidad en la relación entre las variables. Este gráfico puede igualmente servirnos
para contrastar hasta qué punto el principio de igualdad de varianzas puede o no ser
violado por los datos. Si la variabilidad de los residuales a lo largo de los valores
predichos es más o menos constante, podemos concluir que se cumple la igualdad de
varianzas. No en caso contrario.
(ii) Los residuos tipificados-gráfico de prob. normal.
Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la
normalidad. Si la variable se distribuye normalmente los puntos representados
forman una línea recta diagonal
68
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: PESO
1,0
,8
Prob acum esperada
,5
,3
0,0
0,0
,3
,5
,8
1,0
Prob acum observada
Gráfico de dispersión
Variable dependiente: PESO
3
Regresión Residuo tipificado
2
1
0
-1
-2
-3
-3
-2
-1
0
1
2
3
Regresión Valor pronosticado tipificado
Pruebas de norm alidad
a
Standardized Residual
Kolmogorov-Smirnov
Shapiro-Wilk
Estadístico
gl
Sig.
Estadístico
gl
,044
146
,200*
,992
146
Sig.
,601
*. Este es un límite inferior de la significación verdadera.
a. Corrección de la significac ión de Lilliefors
69
Modelo log-log
Consideremos datos sobre el gasto de consumo personal total (GCPERT), el gasto en bienes
duraderos (GASBD), el gasto en bienes perecederos (GASBPER) y el gasto en servicios
(GASERV), todos medidos en millones de dólares de 1992.
Considere el archivo “gasto en bienes.sav”
a)
b)
c)
d)
Realice el gráfico de dispersión entre gastbd y gastcpt. ¿Qué observa?
Realice el gráfico de dispersión entre ln(gastbd) y ln(gastcpt). ¿Qué observa?
Determine si existe correlación significativa entre las variables del punto b)
Calcular la elasticidad del gasto en bienes durables respecto al gasto de consumo
personal total.
Referencia ( Gujarati Tabla 6.3 ejemplo pag 171 cuarta edición)
Gráfico de dispersión
Gráfico de dispersión
750,00
6,60
ln de gasto en bienes duraderos
Gasto en bienes duraderos
700,00
650,00
600,00
550,00
6,50
6,40
6,30
500,00
6,20
4200,00
4400,00
4600,00
4800,00
5000,00
5200,00
8,35
Gasto consumo personal total
8,40
8,45
8,50
8,55
8,60
ln del gasto de consumo personal total
COMPUTE lngastbd = LN(gastbd) .
VARIABLE LABELS lngastbd 'ln de gasto en bienes duraderos' .
EXECUTE .
COMPUTE lngastcpt = LN(gastcpt) .
VARIABLE LABELS lngastcpt 'ln del gasto de consumo personal total'
EXECUTE .
CORRELATIONS
/VARIABLES=lngastbd lngastcpt
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE .
Correlaciones
ln de gasto en bienes
duraderos
ln del gasto de
cons umo personal total
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
ln de gasto
en bienes
duraderos
1
ln del gasto
de c onsumo
pers onal tot al
,992**
,000
23
23
,992**
1
,000
23
23
**. La c orrelación es s ignificat iva al nivel 0,01 (bilateral).
70
Resumen del modelo
Modelo
1
R
R cuadrado
,992 a
,985
R cuadrado
corregida
,984
Error típ. de la
estimación
,01332
a. Variables predictoras: (Constante), ln del gasto de consumo
pers onal tot al
Coe ficiente sa
Modelo
1
(Constante)
ln del gasto de
cons umo personal total
Coeficientes no
estandarizados
B
Error típ.
-9,697
,434
1,906
,051
Coeficientes
estandarizad
os
Beta
,992
t
-22, 337
Sig.
,000
37,096
,000
a. Variable dependiente: ln de gasto en bienes duraderos
Todos estos resultados muestran que la elasticidad de GASBD respecto a GCPERT es de casi 1.90, lo
que sugiere que si el gasto personal total aumenta 1 %, en promedio, el gasto en bienes duraderos
se incrementa casi 1.90%. En consecuencia, el gasto en bienes duraderos es muy sensible a los
cambios en el gasto de consumo personal. Ésta es una razón por la que los productores de bienes
duraderos siguen muy de cerca los cambios en el ingreso personal y el gasto de consumo personal.
Modelo Lin-Log
Considere el archivo “gasto total y en comida.sav”
e)
Realice el gráfico de dispersión entre gasal y gastot. ¿Qué observa?
f)
Realice el gráfico de dispersión entre gasal y ln(gastot). ¿Qué observa?
g)
Determine si existe correlación significativa entre las variables del punto b)
h)
Determine el modelo lin log correspondiente a las variables anteriores.
i)
Interprete los coeficientes r y r2.
j)
Calcular la pendiente de la ecuación e interprete.
Referencia ( Gujarati Tabla 2.8 ejemplo pag 176 cuarta edición)
71
COMPUTE lngastot = LN(gastot) .
VARIABLE LABELS lngastot 'ln de gasto total' .
EXECUTE .
Gráfico de dispersión
800
600
600
gasto en alimentos
gasto en alimentos
Gráfico de dispersión
800
400
400
200
200
0
0
5,90
200
400
600
800
6,00
6,10
6,20
1000
6,30
6,40
6,50
6,60
6,70
ln de gasto total
gasto total
Correlaciones
gast o en alimentos
ln de gasto total
Correlación de Pearson
Sig. (bilateral)
N
Correlación de Pearson
Sig. (bilateral)
N
gast o en
alimentos
1
ln de gasto
total
,614**
,000
55
55
,614**
1
,000
55
55
**. La c orrelación es s ignificat iva al nivel 0,01 (bilateral).
Resumen del modelo
Modelo
1
R
R cuadrado
,614 a
,377
R cuadrado
corregida
,365
Error típ. de la
estimación
66,477
a. Variables predictoras: (Constante), ln de gasto tot al
Coe ficientesa
Modelo
1
(Constante)
ln de gasto total
Coeficientes no
estandarizados
B
Error típ.
-1283,912
292, 810
257, 270
45,434
Coeficientes
estandarizad
os
Beta
,614
t
-4,385
5,662
Sig.
,000
,000
a. Variable dependiente: gas to en alimentos
72
Interpretación: El coeficiente de la pendiente, que vale casi 257, significa que un incremento en el
gasto total en alimentos de 1%, en promedio, propicia un incremento de casi 2.57 rupias en el
gasto en alimento de las 55 familias incluidas en la muestra. (Nota: se dividió el coeficiente
estimado de la pendiente entre 100.)
Ejercicios Regresiones con LN
1.- Considere el archivo Consumo café.sav.
Calcule las variables lnconsumo y lnprecio. Para esto seleccione Transformar/Calcular
Utilice la función logaritmo natural (LN)
2.- Realice un gráfico de dispersión para las variables consumo y precio y para las variables
lnconsumo y lnprecio
Gráfico de dispersión entre consumo y precio
Gráfico de dispersión entre lnconsumo y lnprecio
2,6
1,0
2,5
,9
2,3
2,2
2,1
2,0
1,9
,6
,8
1,0
logarítmo natural del consumo
2,4
1,2
,8
,7
,6
R² = 0,6628
1,4
1,6
1,8
2,0
Precio real del café ( $ por libra)
,5
R² = 0,7448
-,4
-,2
0,0
,2
,4
,6
,8
logarítmo natural del precio
3.- Seleccione estadística/regresiónlineal
Dependiente: consumo
Independiente: precio
Etiqueta de caso: año
Estadísticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos
¿Cómo interpreta la pendiente?
4.- Nuevamente seleccione estadística/regresiónlineal
Dependiente: lnconsumo
Independiente:lnprecio
Etiqueta de caso: año
Estadísticos: estimaciones, intervalos de confianza, ajuste del modelo, descriptivos
¿Cómo interpreta la pendiente?
73
Resumen del modelob
Modelo
1
R
cuadrado
,745
R
,863a
R
cuadrado
corregida
,716
Error típ.
de la
estimación
5,015E-02
a. Variables predictoras: (Constante), logarítmo natural del
precio
b. Variable dependiente: logarítmo natural del consumo
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
6,605E-02
2,263E-02
8,869E-02
gl
1
9
10
Media
cuadrática
6,605E-02
2,515E-03
F
26,267
Sig.
,001 a
a. Variables predictoras: (Constante), logarítmo natural del precio
b. Variable dependiente: logarítmo natural del consumo
Coefic iente sa
Coeficie ntes no
estand arizado s
Mo delo
1
(Constante )
log arítm o nat ural d el
pre ci o
B
,77 7
Error tí p.
,01 5
-,25 3
,04 9
Coeficie nt
es
estand ari
zado s
Beta
-,86 3
t
51, 005
Sig.
,00 0
-5,1 25
,00 1
Inte rvalo d e conf ianza
para B al 95 %
Lím ite
Lím ite
infe rior
su perio r
,74 3
,81 2
-,36 5
-,14 1
a. Variab le de pend iente : loga rítmo natu ral de l consumo
74
IV Análisis de Regresión Lineal Múltiple
El procedimiento Regresión lineal permite utilizar más de una variable independiente y, por tanto,
permite ajustar modelos de regresión lineal múltiple (múltiple = más de una variable
independiente).
Pero, en un análisis de regresión múltiple, la ecuación de regresión ya no define una recta en un
plano, sino un hiperplano en un espacio multidimensional. En un modelo como por ejemplo, dos
variable independiente, el diagrama de dispersión adopta la forma de un plano en un espacio
tridimensional. Asi, con salario como variable dependiente y salini (salario inicial) y expprev
(experiencia previa) como variables independientes, el diagrama de dispersión adopta el formato
que muestra la Figura 1.
Gráfico de dispersión
160000
140000
120000
Salario actual
100000
80000
60000
40000
20000
100000
80000
60000
40000
20000
0
100 200
300 400
500
Experiencia previa (meses)
Salario inicial
Es decir, con dos variables independientes es necesario utilizar tres ejes para poder representar
el correspondiente diagrama de dispersión. Y si en lugar de dos variables independientes se
utilizaran tres, es necesario un espacio de cuatro dimensiones para poder construir el diagrama
de dispersión.
Y un espacio de cinco dimensiones para poder construir el diagrama
correspondiente a un modelo con cuatro variables independiente.
Por tanto, con más de una variable independiente, la representación gráfica de las relaciones
presentes en un modelo de regresión resulta poco intuitiva, muy complicada y nada útil. Es más
fácil y práctico partir de la ecuación del modelo de regresión lineal:
Y
0
1
X1
2
X2
k
Xk
En un modelo de estas características, la variable dependiente (Y) se interpreta como una
combinación lineal de un conjunto de K variables independientes
X k , cada una de las cuales va
75
acompañada de un coeficiente
k
que indica el peso relativo de esa variable en la ecuación. El
modelo incluye además una constante
0
y un componente aleatorio (los residuos:
) que
recoge todo lo que las variables independientes no explican.
Este modelo, en cuanto modelo estadístico que es, se basa en una serie de supuestos (linealidad,
independencia, normalidad, homocedasticidad y no-colinealidad) que se estudiarán en el
siguiente apartado.
Los términos del modelo de regresión, al igual que los de cualquier otro modelo estadístico, son
valores poblacionales. Para poder trabajar con él es necesario estimarlos. Y las estimaciones
mínimo-cuadráticas se obtienen, según se ha señalado ya, intentando minimizar la suma de las
diferencias al cuadrado entre los valores observados
Yˆ
B0
B1 X 1
B2 X 2
Y y los pronosticados Ŷ :
Bk X k
Al igual que en el análisis de regresión simple descrito en el apartado anterior, se seguirá
utilizando la variable salario (salario actual) como variable dependiente. Pero ahora se van a
incluir en el modelo tres variables independientes: salini (salario inicial), expprev (experiencia
previa) y educ (nivel educativo).
Para llevar a cabo un análisis de regresión múltiple con las especificaciones que el programa tiene
establecidas por defecto:
Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de
diálogo Regresión lineal
Seleccionar la variable salario en la lista de variables del archivo de datos y trasladarla al
cuadro Dependiente.
Seleccionar las variables salini, expprev y educ en la lista de variables del archivo de
datos y trasladarlas a la lista Independientes.



Aceptando estas selecciones, el Visor de resultados ofrece la información que muestran las
Tablas 4 a la 6.
Tabla 4
Resumen del modelo
Modelo
1
R
R cuadrado
.895 a
.802
R cuadrado
corregida
.800
Error típ. de la
estimación
$7,631.917
a. Variables predictoras: (Constante), Nivel educativo,
Experiencia previa (meses), Salario inicial
76
Tabla 5
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
1.105E+11
2.738E+10
1.379E+11
gl
3
470
473
Media
cuadrática
3.68E+10
58246157
F
632. 607
Sig.
.000 a
a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa (meses),
Salario inicial
b. Variable dependiente: Salario actual
Tabla 6
Coe ficientesa
Modelo
1
(Constante)
Salario inic ial
Experiencia
previa (mes es)
Nivel educativo
Coeficientes no
estandarizados
B
Error típ.
-3661.517
1935.490
1.749
.060
Coeficientes
estandarizad
os
Beta
.806
t
-1.892
29.198
Sig.
.059
.000
-16. 730
3.605
-.102
-4.641
.000
735. 956
168. 689
.124
4.363
.000
a. Variable dependiente: Salario act ual
Bondad de Ajuste
La Tabla 4 ofrece un resumen del modelo. Este resumen se refiere, básicamente, a la calidad del
modelo de regresión: tomadas juntas, las tres variables independientes incluidas en el análisis
explican un 80% de la varianza de la variable dependiente, pues R corregida vale 0,80. Además,
el error típico de los residuos (8.115,36 en el análisis de regresión simple) ha disminuido algo
(7.631,92 en el análisis de regresión múltiple), lo que indica una ligera mejora en el ajuste. De
nuevo, como el número de variables es pequeño en relación al número de casos, el valor corregido
2
de R es casi idéntico al valor no corregido.
2
El estadístico F (ver Tabla 5) contrasta la hipótesis nula de que el valor poblacional de R es cero
y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y
el conjunto de variables independientes tomadas juntas. El valor del nivel crítico ( Sig. = 0,000),
puesto que es menor que 0,05, indica que sí existe relación lineal significativa. Puede afirmarse,
por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube
de puntos.
La tabla de coeficiente de regresión parcial (Tabla 6) contiene toda la información necesaria
para construir la ecuación de regresión mínimo-cuadrática. En la columna encabezada Coeficiente
no estandarizados se encuentran los coeficientes
Bk
que forman parte de la ecuación en
puntuaciones directas:
Pronóstico en salario =
3.661,517
1, 49 salari
16,730 exp prev
735,956 educ
77
Estos coeficientes no estandarizados se interpretan en los términos ya conocidos. Por ejemplo,
el coeficiente correspondiente a la variable salini, que vale 1,749, indica que, si el resto de
términos de la ecuación se mantienen constantes, a un aumento de una unidad (un dólar) en salini
le corresponde, un aumento de 1,749 dólares en salario.
Conviene señalar que estos coeficientes no son independientes entre si. De hecho, reciben el
nombre de coeficientes de regresión parcial porque el valor concreto estimado para cada
coeficiente se ajusta o corrige teniendo en cuenta la presencia en el modelo de los coeficientes
correspondientes al resto de variables independientes. Conviene, por tanto, interpretarlos con
cautela.
El signo del coeficiente de regresión parcial de una variable puede no ser el mismo que el del
coeficiente de correlación simple entre esa variable y la dependiente. Esto es debido a los
ajustes que se llevan a cabo para poder obtener la mejor ecuación posible. Aunque existen
diferentes explicaciones para justificar el cambio de signo de un coeficiente de regresión, una de
las que deben ser más seriamente consideradas es la que se refiere a la presencia de un alto
grado de asociación entre algunas de las variables independientes (colinealidad). Se tratará este
tema más adelante.
Coeficientes de Regresión estandarizados
Los coeficientes Beta están basados en las puntuaciones típicas y, por tanto, son directamente
comparables entre sí. Indican la cantidad de cambio, en puntuaciones típicas, que se producirá en
la variable dependiente por cada cambio de una unidad en la correspondiente variable
independiente (manteniendo constantes el resto de variables independientes).
Estos coeficientes proporcionan una pista muy útil sobre la importancia relativa de cada variable
independiente en la ecuación de regresión. En general, una variable tiene tanto más peso
(importancia) en la ecuación de regresión cuanto mayor (en valor absoluto) es su coeficiente de
regresión estandarizado. Observando los coeficiente Beta de la Tabla.6 puede comprobarse que
la variable salini es más importante (la que más peso tiene en la ecuación); después, educ; por
último, expprev. Lo ya dicho sobre la no independencia de los coeficientes de regresión parcial no
estandarizados también vale aquí.
Pruebas de Significación
Las pruebas t y sus niveles críticos (última dos columnas de la Tabla 6: t y Sig.) sirven para
contrastar la hipótesis nula de que un coeficiente de regresión vale cero en la población. Niveles
críticos (Sig.) muy pequeños (generalmente menores que 0,05) indican que esa hipótesis debe ser
rechazada.
Un coeficiente de cero indica ausencia de relación lineal, de modo que los coeficientes
significativamente distintos de cero informan sobre qué variables son relevantes en la ecuación
de regresión. Observando el nivel crítico asociado a cada prueba t (Tabla 6), puede verse que las
tres variables utilizadas poseen coeficientes significativamente distintos de cero (en todos ellos,
Sig. = 0,000). Las tres variables, por tanto, contribuyen de forma significativa al ajuste del
modelo, o si se prefiere, a explicar lo que ocurre con la variable dependiente.
78
Información Complementaria
Además de obtener la ecuación de regresión y valorar la calidad de su ajuste, un análisis de
regresión no debe renunciar a obtener algunos estadísticos descriptivos elementales como la
matriz de correlaciones, la media y la desviación típica de cada variable, el número de casos con
el que se está trabajando, etc. Para obtener estadísticos:
Pulsar el botón Estadísticos... del cuadro de diálogo Regresión lineal para acceder al
subcuadro de diálogo Regresión lineal: Estadísticos.
Entre las opciones que ofrece este subcuadro de diálogo, existen dos que se encuentran
marcadas por defecto. Estas dos opciones ya marcadas son precisamente las que permiten
obtener la información que recogen las Tablas 1 a la 6 cuando se pulsa el botón Aceptar del
cuadro de diálogo Regresión lineal sin hacer otra cosa que seleccionar la variable dependiente y
la (s) independiente (s):


Estimaciones. Ofrece las estimaciones de los coeficientes de regresión parcial no
estandarizados (B) y estandarizados (Beta), junto con las pruebas de significación t
individuales para contrastar las hipótesis de que el valor poblacional de esos coeficientes
es cero (ver Tablas 3 y 6).

Ajuste del modelo. Muestra el coeficiente de correlación múltiple, su cuadro corregido
y no corregido, y el error típico de los residuos : R, R , R corregida y error típico de la
estimación). Esta opción también permite obtener la tabla resumen del ANOVA, la cual
contiene el estadístico F para contrastar la hipótesis “R = 0” .
2
2
Al margen de las dos opciones, que se encuentran activas por defecto, el subcuadro de diálogo
Regresión lineal: Estadístico
contiene varias opciones muy interesantes en un análisis de
regresión:

Intervalos de confianza. Esta opción, situada en el recuadro Coeficientes de regresión,
hace que, además de las estimaciones puntuales de los coeficientes de regresión parcial
(las cuales ya se obtienen con la opción Estimaciones), puedan obtenerse también los
intervalos de confianza para esos coeficientes (ver Tabla 7).
Coe ficientesa
Coeficientes no
estandarizados
Modelo
1
(Constante)
Salario inic ial
Experiencia
previa (mes es)
Nivel educativo
B
-3661.517
1.749
Error típ.
1935.490
.060
-16. 730
3.605
735. 956
168. 689
Coeficientes
estandarizad
os
Beta
Intervalo de confianza para
B al 95%
Límite
Límite inferior
superior
-7464.803
141. 768
1.631
1.866
.806
t
-1.892
29.198
Sig.
.059
.000
-.102
-4.641
.000
-23. 814
-9.646
.124
4.363
.000
404. 477
1067.434
a. Variable dependiente: Salario actual
Tabla 7
79
Estos intervalos informan de los límites entre los que cabe esperar que se encuentre el valor
poblacional de cada coeficiente de regresión. Los límites se obtienen sumando y restando 1,96
errores típicos al valor del correspondiente coeficiente de regresión (1,96 porque el SPSS
trabaja, por defecto, con un nivel de confianza de 0,95).
Intervalos de confianza muy amplios indican que las estimaciones obtenidas son poco precisas y
probablemente, inestables (cosa que suele ocurrir, por ejemplo, cuando existen problemas de
colinealidad; se estudiará este tema más adelante, en la sección dedicada a los supuestos del
modelo de regresión).

Matriz de covarianza.
Muestra una matriz con las covarianzas y correlaciones
existentes entre los coeficientes de regresión parcial. Los valores obtenidos (Tabla.8) indican
que efectivamente, los coeficientes de regresión parcial no son independientes entre sí.
Tabla 8
Correlaciones de los coe ficienteas
Modelo
1
Correlaciones
Covarianzas
Nivel educativo
Experiencia
previa (mes es)
Salario inicial
Nivel educativo
Experiencia
previa (mes es)
Salario inicial
Nivel
educ ativo
1.000
Experiencia
previa
(meses)
.363
.363
1.000
-.274
-.667
28456.057
-.274
220. 958
1.000
-6.737
220. 958
12.997
-5.908E-02
-6.737
-5.908E-02
3.587E-03
Salario inicial
-.667
a. Variable dependiente: Salario actual
Descriptivos. Esta opción permite obtener la media y la desviación típico insesgada de
todas las variables incluidas en el análisis, y el número de casos válidos (ver Tabla 9).


Esta dísticos descriptivos
Salario actual
Salario inic ial
Experiencia
previa (mes es)
Nivel educativo
Media
$34,419.57
$17,016.09
Des viación
típ.
$17,075.661
$7,870.638
95.86
104.586
474
13.49
2.885
474
N
474
474
También permite obtener la matriz de correlaciones bivariadas entre el conjunto de variables
incluidas en el análisis (ver Tabla 10). En esta matriz de correlaciones, cada coeficiente de
correlación aparece acompañado de su correspondiente nivel crítico (que permite decidir sobre la
hipótesis nula de que el coeficiente de correlación vale cero en la población), y del número de
casos sobre el que se ha calculado cada coeficiente (coincidirá o no con el número de casos
válidos del análisis de regresión dependiendo de la opción elegida para el tratamiento de valores
perdidos en el cuadro de diálogo Opciones).
80
Lógicamente, en la diagonal de la matriz de correlaciones aparecen unos, pues la relación entre
una variable y ella misma es perfecta (en realidad, la matriz de correlaciones es la matriz de
varianzas-covarianzas tipificada: los valores de la diagonal son las varianzas tipificadas; las
correlaciones son las covarianzas tipificadas).
Tabla 10
Correlaciones
Salario act ual
Salario inic ial
Experiencia
previa (mes es)
Nivel educativo
Correlación de Pearson
Sig. (unilat eral)
N
Correlación de Pearson
Sig. (unilat eral)
N
Correlación de Pearson
Sig. (unilat eral)
N
Correlación de Pearson
Sig. (unilat eral)
N
Salario act ual
1.000
.
474
.880
.000
474
-.097
.017
Salario inic ial
.880
.000
474
1.000
.
474
.045
.163
Experiencia
previa
(meses)
-.097
.017
474
.045
.163
474
1.000
.
474
474
474
474
.661
.000
474
.633
.000
474
-.252
.000
474
1.000
.
474
Nivel
educativo
.661
.000
474
.633
.000
474
-.252
.000
Correlaciones parciales y semiparciales. Esta opción permite obtener los coeficientes
de correlación parcial y semiparcial entre la variable dependiente y cada una de las variables
independientes.
Un coeficiente de correlación parcial expresa el grado de relación existente entre dos variables
tras eliminar de ambas de efecto debido a terceras variables En el contexto de análisis de
regresión, los coeficientes de correlación parcial expresan el grado de relación existente entre
cada variable independiente y la variable dependiente tras eliminar de ambas el efecto debido al
resto de variables independientes incluidas en la ecuación.
Un coeficiente de correlación semiparcial expresa el grado de relación existente entre dos
variables tras eliminar de una de ellas el efecto debido a terceras variables. En el contexto del
análisis de regresión, estos coeficientes expresan el grado de relación existente entre la variable
dependiente y la parte de cada variable independiente que no está explicada por el resto de
variables independientes.
Seleccionando la opción Correlación parcial y semiparcial, la tabla de coeficientes de regresión
parcial (Tabla 6 ya vista) incluye la información adicional que muestra la Tabla 11.
Tabla 11

Coe ficiente sa
Modelo
1
Salario inicial
Experiencia
previa (meses)
Nivel educat ivo
Orden cero
.880
Correlaciones
Parc ial
Semiparcial
.803
.600
-.097
-.209
-.095
.661
.197
.090
a. Variable dependient e: Salario actual
Junto con los coeficientes de correlación parcial y semiparcial, aparecen la correlaciones de
orden cero, es decir, los coeficientes de correlación calculados sin tener en cuenta la presencia
81
de terceras variables (se trata de los mismos coeficientes que aparecen en la Tabla 10).
Comparando entre sí estos coeficientes (de orden cero, parcial
y semiparcial) pueden
encontrarse pautas de relación interesantes. En los datos de la Tabla 11 ocurre, por ejemplo, que
la relación entre la variable dependiente salario actual y de nivel educativo vale 0,661. Sin
embargo, al eliminar de salario actual y de nivel educativo el efecto atribuible al resto de
variables independientes (salario inicial y experiencia previa), la relación baja hasta 0,197
(parcial): y cuando el efecto atribuible a salario inicial y experiencia previa se elimina sólo de
salario actual, la relación baja hasta 0,090 (semiparcial). Lo cual está indicando que la relación
entre salario actual y nivel educativo podría ser espúrea (artificial), pues puede explicarse casi
por completo recurriendo a las otras dos variables independientes.
El resto de opciones del subcuadro de diálogo Regresión lineal: Estadísticos tiene que ver con
algunos supuestos de modelo de regresión lineal (estadísticos de colinealidad, residuos) y con el
análisis de regresión por pasos (cambio en R cuadrado).
Todas estas opciones se tratan más adelante.
Supuestos del modelo de regresión lineal
Los supuestos de un modelo estadístico se refieren a una serie de condiciones que deben darse
para garantizar la validez del modelo. Al efectuar aplicaciones prácticas del modelo de regresión,
es necesario vigilar el cumplimiento de estos supuestos:
1.
Linealidad. La ecuación de regresión adopta una forma particular; en concreto, la
variable dependiente es la suma de un conjunto de elementos: el origen de la recta, una
combinación lineal de variables independientes o predictoras y los residuos.
El
incumplimiento del supuesto de linealidad suele denominarse error de especificación.
Algunos ejemplos son: omisión de variable independientes importantes, inclusión de
variables independientes irrelevantes, no linealidad (la relación entre las variables
independientes y la dependiente no es lineal), parámetros cambiantes (los parámetros no
permanecen constantes durante el tiempo que dura la recogida de datos), no aditividad (el
efecto de alguna variable independiente es sensible a los niveles de alguna otra variable
independiente). etc.
2. Independencia. Los residuos son independientes entre sí, es decir, los residuos
constituyen una variable aleatoria (los residuos son las diferencias entre los valores
observados y los pronosticados).
Es frecuente encontrarse con residuos
autocorrelacionados cuando se trabaja con series temporales.
3. Homocedasticidad. Para cada valor de la variable independiente (o combinación valores
de las variables independientes), la varianza de los residuos es constante.
4. Normalidad. Para cada valor de la variable independiente (o combinación de valores de las
variables independientes), los residuos se distribuyen normalmente con media cero.
5. No-colinealidad. No existe relación lineal exacta entre ninguna de las variables
independientes.
El incumplimiento de este supuesto da origen a colinealidad o
multicolinealidad.
82
Sobre el cumplimiento del primer supuesto puede obtenerse información a partir de una
inspección del diagrama de dispersión: si se tiene intención de utilizar el modelo de regresión
lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea de
tipo lineal (existen gráficos parciales que permiten obtener una representación de la relación
neta existente entre dos variables; se estudiarán más adelante). El quinto supuesto, nocolinealidad, no tiene sentido en regresión simple, pues es imprescindible la presencia de más de
una variable independiente (se estudiarán diferentes formas de diagnosticar la presencia de
colinealidad). El resto de los supuestos, independencia, homocedasticidad y normalidad, están
estrechamente asociados al comportamiento de los residuos; por tanto, un análisis cuidadoso de
los residuos puede informar sobre el cumplimiento de los mismos.
Análisis de los residuos
Los residuos de un modelo estadístico son las diferencias existentes entre los valores
observados y los valores pronosticados:
Yi
Yˆi . Pueden obtenerse marcando la opción No
tipificados dentro del recuadro Residuos en el subcuadro de diálogo Regresión lineal: Guardar
nuevas variables. Los residuos son muy importantes en el análisis de regresión. En primer lugar,
informan sobre el grado de exactitud de los pronósticos: cuanto más pequeño es el error típico
de los residuos (ver Tabla : error típico de la estimación), mejores son los pronósticos, o lo que es
lo mismo, mejor se ajusta la recta de regresión a los puntos del diagrama de dispersión. En
segundo lugar, el análisis de las características de los casos con residuos grandes (sean positivos
o negativos; es decir, grandes en valor absoluto) puede ayudar a detectar casos atípicos y,
consecuentemente, a perfeccionar la ecuación de regresión a través de un estudio detallado de
los mismos.
La opción Diagnósticos por caso del cuadro de diálogo Regresión lineal: Estadísticos ofrece un
listado de todos los residuos o, alternativamente (y esto es más interesante), un listado de los
residuos que se alejan de cero (el valor esperado de los residuos) en más de un determinado
número de desviaciones típicas.
Por defecto, el SPSS ofrece un listado de los residuos que se alejan de cero más de 3
desviaciones típicas, pero esto puede cambiarse introduciendo el valor deseado. Para obtener un
listado de los residuos que se alejan de cero más de 3 desviaciones típicas:

Marcar la opción Diagnósticos por caso y seleccionar Valores atípicos a mas de
3
desviaciones típicas.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 12 y 13.
La tabla 12 contiene los residuos tipificados (residuos divididos por su error típico: una variable
tipificada, con media 0 y desviación típica 1). La tabla recoge los casos con residuos que se alejan
de su media (cero) más de 3 desviaciones típicas. Si estos residuos están normalmente
distribuidos (cosa que se asume en el análisis de regresión), cabe esperar que el 95% de ellos se
encuentre en el rango [-1,96 + 1,96]. Y el 99,9%, en el rango [-3, + 3]. Es fácil, por tanto,
identificar los casos que poseen residuos grandes.
En la práctica, los casos con residuos muy grandes o muy pequeños deben ser examinados para
averiguar si las puntuaciones que tienen asignadas son o no correctas. Si, a pesar de tener
asociados residuos muy grandes o muy pequeños, las puntuaciones asignadas son correctas,
83
conviene estudiar esos casos detenidamente para averiguar si difieren de algún modo y de forma
sistemática del resto de los casos. Esto último es fácil de hacer en el SPSS pues, según se verá
más adelante, es posible salvar los residuos correspondientes a cada caso como una variable más
del archivo de datos ( y a partir de ahí, utilizarlos en los procedimientos SPSS que se considere
pertinente)
Tabla 12
Dia gnósticos por casoa
Número de caso
18
32
103
106
205
218
274
449
454
Res iduo tip.
6.381
3.095
3.485
3.897
-3.781
5.981
4.953
3.167
3.401
Salario act ual
$103,750
$110,625
$97,000
$91,250
$66,750
$80,000
$83,750
$70,000
$90,625
Valor
pronosticado
$55,048.80
$87,004.54
$70,405.22
$61,505.37
$95,602.99
$34,350.68
$45,946.77
$45,829.66
$64,666.70
Res iduo bruto
$48,701.20
$23,620.46
$26,594.78
$29,744.63
-$28,852.99
$45,649.32
$37,803.23
$24,170.34
$25,958.30
a. Variable dependiente: Salario ac tual
Además de la tabla de diagnóstico por caso, el Visor ofrece una tabla resumen con información
sobre el valor máximo y mínimo, y la media y la desviación típica insesgada de los pronósticos, de
los residuos, de los pronósticos tipificados y de los residuos tipificados (ver Tabla 13).
Especialmente importante es advertir que la media de los residuos vale cero.
Tabla 13
Esta dísticos sobre los re siduosa
Valor pronosticado
Res iduo bruto
Valor pronosticado tip.
Res iduo tip.
Mínimo
$12,382.90
-$28,852.99
-1.442
-3.781
Máx imo
$146,851.63
$48,701.20
7.355
6.381
Media
$34,419.57
$.00
.000
.000
Des viación
típ.
$15,287.298
$7,607.676
1.000
.997
N
474
474
474
474
a. Variable dependiente: Salario act ual
Independencia
El verdadero interés de los residuos reside en su capacidad para ofrecer información crucial
sobre el cumplimiento de varios supuestos del modelo de regresión lineal. En concreto, un análisis
detallado de los residuos permite obtener información sobre los supuestos de independencia,
homocedasticidad, normalidad y linealidad.
Uno de los supuestos básicos del modelo de regresión lineal es el de independencia entre los
residuos (supuesto éste particularmente relevante cuando los datos se han recogido siguiendo
una secuencia temporal). El estadístico de Durbin-Watson (1951) proporciona información sobre
el grado de independencia existente entre ellos:
84
n
ei
ei
2
1
i 2
DW
n
ei2
i 1
(donde ei se refiere a los residuos:
ei
Yi
Yˆi ). El estadístico DW oscila entre 0 y 4, y toma
el valor 2 cuando lo s residuos son completamente independiente. Los valores menores que 2
indican autocorrelación positiva; los valores mayores que 2 indican autocorrelación negativa.
Puede asumirse que los residuos son independientes cuando el estadístico DW toma valores entre
1.5 y 2.5.
Para obtener el estadístico de

Durbin-Watson:
Seleccionar la opción de Durbin-Watson del cuadro de diálogo Regresión lineal:
Estadísticos .
Esta elección permite obtener la tabla resumen del modelo (ya vista) con información adicional
referida al estadístico de Durbin-Watson (ver Tabla 14).
Tabla 14
b
Resumen del modelo
Modelo
1
R
R cuadrado
.895 a
.802
R cuadrado
corregida
.800
Error típ. de la
estimación
$7,631.917
Durbin-W
atson
1.832
a. Variables predictoras: (Constante), Nivel educativo, Experiencia previa
(meses), Salario inicial
b. Variable dependiente: Salario actual
Puesto que el estadístico DW vale 1,832 (se encuentra entre 1,5 y 2,5), puede asumirse que los
residuos son independientes (es decir, no hay razones para pensar que se incumpla el supuesto de
independencia).
Homocedasticidad
El procedimiento Regresión lineal dispone de una serie de gráficos que proporcionan, entre otras
cosas, información sobre el grado de cumplimiento de los supuestos de homocedasticidad y
normalidad de los residuos. Para obtener estos gráficos:

Pulsar el botón Gráficos... del cuadro de diálogo Regresión lineal
subcuadro de diálogo Regresión lineal: Gráficos
para acceder al
Las variables listadas permiten obtener diferentes gráficos de dispersión. Las variables
precedidas por un asterisco son variables creadas por el SPSS; todas ellas pueden crearse en el
Editor de datos marcando las opciones pertinentes del recuadro Residuos del subcuadro de
diálogo Regresión lineal: Guardar nuevas variables
85
DEPENDENT: variable dependiente de la ecuación de regresión
ZPRED (pronósticos tipificados): pronósticos divididos por su desviación típica. Son
pronósticos transformados en puntuaciones z (es decir, en una variable tipificada con
media 0 y desviación típica 1).
ZRESID (residuos tipificados): residuos divididos por su desviación típica. El tamaño de
cada residuo tipificado indica el número de desviaciones típicas que un residuo se aleja de
su media (la cual vale cero), de modo que, si están normalmente distribuidos (y esto es
algo que asume el modelo de regresión), el 95% de estos residuos se encontrará en el
rango (-1,96, + 1,96), lo cual permite identificar fácilmente casos con residuos grandes.
(En algunos contextos, es costumbre valorar estos residuos utilizado 3 desviaciones
típicas) .
DRESID (residuos eliminados o corregidos):
residuos obtenidos al efectuar los
pronósticos eliminado de la ecuación de regresión el caso sobre el que se efectúa el
pronóstico. El residuo correspondiente a cada caso se obtiene a partir del pronóstico
efectuado con una ecuación de regresión en la que no se ha incluido ese caso. Son
residuos muy útiles para detectar puntos de influencia (casos con gran peso en la ecuación
de regresión; se tratará este problema enseguida).
ADJPRED (pronósticos corregidos): pronósticos efectuados con una ecuación de
regresión en la que no se incluye el caso pronosticado (ver residuos eliminados o
corregidos). Diferencias importantes entre PRED y ADJPRED delatan la presencia de
puntos de influencia (casos con gran peso en la ecuación de regresión).
SRESID (residuos estudentizados): residuos divididos por su desviación típica, basada
ésta en cómo de próximo se encuentra un caso a su (s) media (s) en la (s) variable (s)
independiente (s). Al igual que ocurre con los residuos estandarizados (a los que se
parecen mucho), los estudentizados están escalados en unidades de desviación típica. Se
distribuyen según el modelo de probabilidad t de Student con n – p – 1 grados de libertad
(p se refiere al número de variables independientes).
Con muestras grandes,
aproximadamente el 95% de estos residuos debería encontrarse en el rango (-2. +2).
SDRESID (residuos corregidos estudentizados): residuos corregidos divididos por su
desviación típica. Útiles también para detectar puntos de influencia.
Algunas de estas variables permiten identificar puntos de influencia (se estudian más adelante),
pero hay, entre otras, dos variables cuyo diagrama de dispersión informa sobre el supuesto de
homocedasticidad o igualdad de varianzas: ZPRED y ZRESID. El supuesto de igualdad de
varianzas implica que la variación de los residuos debe ser uniforme en todo el rango de valores
pronosticados. O, lo que es lo mismo, que el tamaño de los residuos es independiente del tamaño
de los pronósticos, de donde se desprende que el diagrama de dispersión de los pronóstico
tipificados (ZPRED) de los residuos tipificados (ZRESID) no debe mostrar ninguna pauta de
asociación.
Para obtener un diagrama de dispersión con los pronósticos tipificados (ZPRED) y los residuos
tipificadoslas (ZRESID):
86


Trasladar la variable ZRESID y cuadro Y: del recuadro Dispersión 1 de 1.
Trasladar la variable ZPRED al cuadro X: del recuadro Dispersión 1 de 1.
Aceptando estas elecciones, el Visor ofrece el diagrama de dispersión que muestra la
Figura
Gráfico de dispersión
Variable dependiente: Salario actual
8
6
4
2
0
-2
-4
-2
0
2
4
6
8
Regresión Valor pronosticado tipificado
En él puede observarse, por un lado, que los residuos y los pronósticos parecen ser
independientes, pues la nube de puntos no sigue ninguna pauta de asociación clara, ni lineal ni de
otro tipo. Sin embargo, no parece claro que las varianzas sean homogéneas. Más bien parece que
conforme va aumentando el valor de los pronósticos también lo va haciendo la dispersión de los
residuos: los pronósticos menores que la media (los que en el diagrama tiene puntuación típica
por debajo de cero) parecen estar algo más concentrados que los pronósticos mayores que la
media (los que en el diagrama tienen puntuación típica mayor que cero). Es relativamente
frecuente encontrar esta pauta de comportamiento en los residuos.
Cuando un diagrama de dispersión delata la presencia de varianzas heterogéneas, puede utilizarse
una transformación de la variable dependiente para resolver el problema (tal como una
transformación logarítmica o una transformación raíz cuadrada). No obstante, al utilizar una
transformación de la variable dependiente, no debe descuidarse el problema de interpretación
que añade el cambio de escala.
El diagrama de dispersión de las variables ZPRED y ZRESID posee la utilidad adicional de
permitir detectar relaciones de tipo no lineal entre las variables. Si la relación es, de hecho, no
lineal, el diagrama puede contener indicios sobre otro tipo de función de ajuste: por ejemplo, los
residuos estandarizados podrían, en lugar de estar homogéneamente dispersos a lo largo del
diagrama, seguir un trazado curvilíneo, lo cual estaría reflejando la presencia de una relación
cuadrática.
Normalidad
El recuadro Gráficos de los residuos tipificados contiene dos opciones gráficas que informan
sobre el grado en el que los residuos tipificados se aproximan a una distribución normal:
87

Histograma. Esta opción ofrece un histograma de los residuos tipificados con una curva
normal superpuesta . La curva se construye tomando una media de 0 y una desviación
típica de 1, es decir, la misma media desviación típica que los residuos tipificados.
En el histograma de la Figura se puede observar, en primer lugar, que la parte central de
la distribución acumula muchos más casos de los que acumula una curva normal. En
segundo lugar, la distribución es algo asimétrica: en la cola positiva de la distribución
existen valores más extremos que en la negativa (esto ocurre cuando uno o varios errores
muy grandes, correspondientes por lo general a valores atípicos, son contrarrestados con
muchos residuos pequeños de signo opuesto). La distribución de los residuos, por tanto,
no parece seguir el modelo de probabilidad normal, de modo que los resultados de análisis
deben ser interpretados con cautela.
Histograma
Variable dependiente: Salario actual
160
140
120
100
80
Frecuencia
60
40
Desv. típ. = 1.00
20
Media = 0.00
N = 474.00
0
00
6.
00
5.
00
4.
00
3.
00
2.
00
1.
00
0.
0
.0
-1
0
.0
-2
0
.0
-3
0
.0
-4
Regresión Residuo tipificado

Gráfico de prob. Normalidad. Permite obtener un diagrama de probabilidad normal. En
un diagrama de este tipo, en el eje de abscisas está presentada la probabilidad acumulada
que corresponde a cada residuo tipificado (calculada como la proporción de casos que
quedan por debajo de cada residuo tras ordenarlos de menor a mayor); y el eje de
ordenadas representa la probabilidad acumulada teórica que corresponde a cada
puntuación típica en una curva normal con media 0 y desviación típica 1. Cuando los
residuos se distribuyen normalmente, la nube de puntos se encuentra alineada sobre la
diagonal del gráfico.
La figura siguiente muestra el gráfico de probabilidad normal. La información que ofrece
es similar a la ya obtenida con el histograma de la Figura anterior: puesto que los puntos
no se encuentran alineados sobre la diagonal del gráfico, no parece que los residuos se
distribuyan normalmente.
88
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: Salario actual
1.00
Prob acum esperada
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Prob acum observada
Al margen de esta aproximación gráfica al problema de la normalidad de los residuos,
conviene recordar que el procedimiento Explorar (dentro del menú Analizar >
Estadísticos descriptivos) contiene estadísticos (Kolmogorov-Smirnov, Shapiro-Wilk) que
permiten contrastar la hipótesis de normalidad.
Pruebas de norm alidad
a
Standardized Residual
Kolmogorov-Smirnov
Estadístico
gl
Sig.
.122
474
.000
Estadístico
.867
Shapiro-Wilk
gl
474
Sig.
.000
a. Corrección de la significac ión de Lilliefors
Linealidad
El cuadro de diálogo Regresión lineal: Gráficos contiene una opción que permite generar un tipo
particular de diagramas de dispersión llamados diagramas de regresión parcial. Estos diagramas
ayudan a formarse una idea rápida sobre la forma que adopta una relación. En el contexto del
análisis de regresión son muy útiles porque permiten examinar la relación existente entre la
variable dependiente y cada una de las variables independientes por separado, tras eliminar de
ellas el efecto del resto de las variables independientes incluidas en el análisis.
Estos diagramas son similares a los de dispersión ya estudiados, pero no están basados en las
puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al
llevar a cabo un análisis de regresión con el resto de las variables independientes. Por ejemplo,
en el diagrama de regresión parcial de salario actual y salario inicial están representados los
residuos que resultan de efectuar un análisis de regresión sobre salario inicial incluyendo el
resto de variables independientes. La utilidad de estos diagramas está en que, puesto que se
controla el efecto del resto de las variables, muestran la relación neta entre las variables
representadas. Además, las rectas que mejor se ajustan a la nube de puntos de estos diagramas
son las definidas por los correspondientes coeficientes de regresión (es justamente en esa nube
89
de puntos en la que se basan los coeficientes de regresión parcial). Para obtener estos diagramas
de regresión parcial:

Marca la opción
Generar todos los gráficos parciales del subcuadro de diálogo
Regresión lineal: Gráficos .
Esta opción genera tantos gráficos parciales como variables independientes incluya el
análisis. En el ejemplo, puesto que el análisis incluye tres variables independientes, se
obtienen tres de estos gráficos. Puede observarse que la relación entre salario inicial
(una de las variables independientes) y salario actual (la variable dependiente), tras
eliminar el efecto del resto de variables independientes, es claramente lineal y positiva.
Gráfico de regresión parcial
Gráfico de regresión parcial
Variable dependiente: Salario actual
Variable dependiente: Salario actual
80000
60000
60000
40000
40000
20000
20000
Salario actual
Salario actual
0
-20000
-40000
-200
-100
0
100
200
300
0
-2 0000
-4 0000
-20000
400
-10000
0
10000
20000
30000
40000
50000
60000
Salario inicial
Experiencia previa (meses)
Gráfico de regresión parcial
Variable dependiente: Salario actual
60000
40000
20000
Salario actual
0
-20000
-40000
-10
-8
-6
-4
-2
0
2
4
6
8
Nivel educativo
Los diagramas de regresión parcial permite formarse una rápida idea sobre el tamaño y el signo
de los coeficientes de regresión parcial (los coeficientes de la ecuación de regresión). En estos
diagramas, los valores extremos pueden resultar muy informativos.
90
Colinealidad
Existe colinealidad perfecta cuando una de las variables independientes se relaciona de forma
perfectamente lineal con una o más del resto de variables independientes de la ecuación. Esto
ocurre, por ejemplo, cuando se utilizan como variables independientes en la misma ecuación las
puntuaciones de las subescalas de un test y la puntuación total en el test (que es la suma de las
subescalas y, por tanto, una combinación lineal perfecta de las mismas). Se habla de colinealidad
parcial o, simplemente, colinealidad, cuando entre las variables independientes de una ecuación
existen correlaciones altas. Se puede dar, por ejemplo, en una investigación de mercados al
tomar registros de muchos atributos de un mismo producto; o al utilizar muchos indicadores
económicos para construir una ecuación de regresión. En términos generales, cuantas más
variables hay en una ecuación, más fácil es que exista colinealidad (aunque, en principio, bastan
dos variables).
La colinealidad es un problema porque, en el caso de colinealidad perfecta, no es posible estimar
los coeficientes de la ecuación de regresión; y en el caso de colinealidad parcial, aumenta el
tamaño de los residuos tipificados y esto produce coeficientes de regresión muy inestables:
pequeños cambios en los datos (añadir o quitar un caso, por ejemplo) produce cambios muy
grandes en los coeficientes de regresión. Esta es una de las razones por las que es posible
encontrar coeficientes con signo cambiado: correlaciones positivas pueden transformarse en
coeficientes de regresión negativos (incluso significativamente negativos). Curiosamente, la
medida de ajuste R no se altera por la presencia de colinealidad; pero los efectos atribuidos a
las variables independientes pueden ser engañosos.
Al evaluar la existencia o no de colinealidad, la dificultad estriba precisamente en determinar
cuál es el grado máximo de relación permisible entre las variables independientes. No existe un
consenso generalizado sobre este problema, pero puede servir de guía la presencia de ciertos
indicios que puedan encontrarse en los resultados de un análisis de regresión (estos indicios, no
obstante, pueden tener su origen en otras causas):
2
El estadístico F que evalúa el ajuste general de la ecuación de regresión es significativo,
pero no lo es ninguno de los coeficientes de regresión parcial.
Los coeficientes de regresión parcial estandarizados (los coeficientes beta) están
inflados tanto en positivo como en negativo (adoptan, al mismo tiempo, valores mayores
que 1 y menores que –1).
Existen valores de tolerancia pequeños (próximos a 0,01). La tolerancia de una varianza
independiente es la proporción de varianza de esa variable que no está asociada (que no
depende) del resto de variables independientes incluidas en la ecuación. Una variable con
una tolerancia de, por ejemplo, 0,01 (muy poca tolerancia) es una variable que comparte el
99% de su varianza con el resto de variables independientes, lo cual significa que se trata
de una variable redundante casi por completo.
Los coeficientes de correlación estimados son muy grandes (por encima de 0,90 en valor
absoluto).
91
Las afirmaciones del tipo inflados, próximos a cero, muy grande, etc., se deben al hecho de que no
existe un criterio estadístico formal en el que basar las decisiones.
Sólo existen
recomendaciones basadas en trabajos de simulación.
Al margen de estos indicios, el SPSS ofrece la posibilidad de obtener algunos estadísticos que
pueden ayudar a diagnosticar la presencia de colinealidad. Se trata de estadístico formal en el
que basar las decisiones clara sobre la presencia o no de colinealidad. Para obtener estos
estadísticos:

Seleccionar la opción Diagnósticos de colinealidad
lineal: Estadísticos .
del subcuadro de diálogo Regresión
Esta opción permite obtener los estadísticos de colinealidad que recogen las Tablas 16 y 17. La
Tabla 16 es la tabla de coeficientes de regresión parcial ya vista, pero ahora contiene
información adicional sobre los niveles de tolerancia y sus inversos (FIV).
El nivel de tolerancia de una variable se obtiene restando a 1 el coeficiente de determinación
R 2 resultante de regresar esa variable sobre el resto de variables independientes. Valores
de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación
lineal del resto de variables, lo cual significa que existe colinealidad.
Los factores de inflación de la varianza (FIV) son los inversos de los niveles de tolerancia.
Reciben ese nombre porque se utilizan para calcular las varianzas de los coeficientes de
regresión. Cuando mayor es el FIV de una variable, mayor es la varianza del correspondiente
coeficiente de regresión (los valores mayores 1/(1- R ) se consideran grandes). De ahí que uno
de los problemas de la presencia de colinealidad (tolerancias pequeñas, valores FIV grandes) sea
la inestabilidad de las estimaciones de los coeficientes de regresión.
2
Coe ficiente sa
Modelo
1
Salario inicial
Experiencia
previa (mes es)
Nivel educativo
Estadísticos de
colinealidad
Tolerancia
FIV
.554
1.804
.866
1.154
.520
1.923
a. Variable dependiente: Salario actual
La Tabla 17 muestra la solución resultante de aplicar un análisis de componentes principales a la
matriz estandarizada no centrada de productos cruzados de la variables independientes. Los
autovalores informan sobre cuántas dimensiones o factores diferentes subyacen en el conjunto
de variables independientes utilizadas. La presencia de varios autovalores próximos a cero indica
que las variables independientes están muy relacionadas entre sí (colinealidad).
Los índices de condición son la raíz cuadrada del cociente entre el autovalor más grande y cada
uno del resto de los autovalores. En condiciones de no-colinealidad, estos índices no deben
superar el valor 15. Índice mayores que 15 indican un posible problema. Índices mayores que 30
delatan un serio problema de colinealidad.
Las proporciones de varianza recogen la proporción de varianza de cada coeficiente de regresión
parcial que está explicada por cada dimensión o factor. En condiciones de no-colinealidad, cada
dimensión suele explicar gran cantidad de varianza de un solo coeficiente (excepto en lo que se
refiere al coeficiente
B0 o constante, que siempre aparece asociado a uno de los otros
92
coeficientes; en el ejemplo, el término constante aparece asociado al coeficiente de Nivel
educativo). La colinealidad es un problema cuando una dimensión o factor con un índice de
condición alto, contribuye a explicar gran cantidad de la varianza de los coeficientes de dos o más
variables.
Tabla 17
a
Diagnósticos de colinea lidad
Modelo
1
Dimensión
1
2
3
4
Autovalor
3.401
.489
9.663E-02
1.347E-02
Indic e de
condición
1.000
2.638
5.933
15.892
(Constante)
.00
.00
.11
.88
Proporciones de la varianz a
Experiencia
previa
Salario inicial
(meses)
.01
.02
.01
.79
.62
.01
.36
.18
Nivel
educ ativo
.00
.00
.01
.98
a. Variable dependiente: Salario actual
Si se detecta la presencia de colinealidad en un conjunto de datos, hay que aplicar algún tipo de
remedio. Por ejemplo: aumentar el tamaño de la muestra (esta solución puede resultar útil si
existen pocos casos en relación con el número de variables); crear indicadores múltiples
combinando variables (por ejemplo, promediando variables ; o efectuando un análisis de
componentes principales para reducir las variables a un conjunto de componentes independientes,
y aplicando después el análisis de regresión sobre esos componentes); excluir variables
redundantes (es decir, excluir variables que correlacionan muy alto con otras, dejando
únicamente las que se consideren más importantes); utilizar una técnica de estimación sesgada,
tal como la regresión ridge.
Puntos de Influencia
Todos los casos contribuyen a la obtención de la ecuación de regresión, pero no todos lo hacen
con la misma fuerza. Los puntos de influencia son casos que afectan de forma importante al valor
de la ecuación de regresión. La presencia de puntos de influencia no tiene por qué constituir un
problema en regresión: de hecho, lo normal es que en un análisis de regresión no todos los casos
tengan la misma importancia (desde el punto de vista estadístico). Sin embargo, el analista debe
ser consciente de la presencia de tales puntos pues, entre otras cosas, podría tratarse de casos
con valores erróneos. Sólo siendo conscientes de si existen o no puntos de influencia es posible
corregir el análisis.
El procedimiento Regresión lineal ofrece varias medidas para detectar la presencia de puntos
de influencia. Para obtenerlas:

Pulsar el botón Guardar... del cuadro de diálogo Regresión lineal para acceder al
subcuadro de diálogo Regresión lineal: Guardar variables .

Marcar todas las opciones de los recuadros Distancia y Estadísticos de influencia (todas
estas opciones crean variables nuevas en el archivo de datos).
Distancia. Este recuadro recoge tres medidas que expresan el grado en que cada caso se aleja
de los demás:
93

Mahalanobis. La distancia de Mahalanobis (1936) mide el grado de distanciamiento de
cada caso respecto de los promedios de conjunto de variables independientes. En
regresión simple, esta distancia se obtiene simplemente elevando al cuadro la puntuación
típica de cada caso en la variable independiente. En regresión múltiple se obtiene
multiplicando por n + 1 el valor de influencia de cada caso (ver más abajo).

Cook. La distancia de Cook (1977, 1979) mide el cambio que se produce en las
estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecuación de
regresión. Una distancia de Cook grande indica que ese caso tiene un peso considerable
en la estimación de los coeficientes de regresión. Para evaluar estas distancias puede
utilizarse la distribución F con p + 1 y n – p – 1 grados de libertad (p se refiere al número
de variables independientes y n al tamaño de la muestra). En general, un caso con una
distancia de Cook superior a 1 debe ser revisado.

Valores de influencia. Representan una medida de la influencia potencial de cada caso.
Referido a las variables independientes, un valor de influencia es una medida normalizada
del grado de distanciamiento de un punto respecto del centro de su distribución. Los
puntos muy alejados pueden influir de forma muy importante en la ecuación de regresión,
pero no necesariamente tienen por qué hacerlo.
Con más de 6 variables y al menos 20 casos, se considera que un valor de influencia debe
ser revisado si es menor que 2p/n , siendo p el número de variables y n el tamaño de la
muestra. Los valores de influencia tienen un máximo de (n – 1)/n. Pueden interpretarse
utilizando la siguiente regla general: los valores menores que 0,2 son poco problemáticos;
los valores comprendidos entre 0,2 y 0,5 son arriesgados; y los valores mayores que 0,5
deberían evitarse.
Estadísticos de influencia. Este recuadro contiene varios estadísticos que contribuyen a
precisar la posible presencia de puntos de influencia:


DfBetas (diferencia en las betas). Mide el cambio que se produce en los coeficientes
de regresión estandarizados (betas) como consecuencia de ir eliminando cada caso de
la ecuación de regresión. El SPSS crea en el Editor de datos tantas variables nuevas
como coeficientes veta tiene la ecuación de regresión (es decir, tantos como variables
independientes más uno, el correspondiente a la constante de la ecuación).
DfBetas tipificadas. Es el cociente entre Dfbetas (párrafo anterior) y su error
típico. Generalmente, un valor mayor que


punto de influencia. El SPSS crea en el Editor de datos tantas variables nuevas como
coeficientes beta tiene la ecuación de regresión.
Df Ajuste. (diferencia en el ajuste). Mide el cambio que se produce en el pronóstico
de un caso cuando ese caso es eliminado de la ecuación de regresión.
Df Ajuste tipificado. Es el cociente entre DfAjuste (párrafo anterior) y su error
típico. En general, se consideran puntos de influencia los casos en los que DfAjuste
tipificado es mayor que 2 /

2 / n delata la presencia de un posible
p / n , siendo p el número de variables independientes
y n el tamaño de la muestra.
Razón entre las covarianzas (RV). Indica en qué medida la matriz de productos
cruzado (base del análisis de regresión) cambia con la eliminación de cada caso. Se
considera que un caso es un punto de influencia si el valor absoluto de RV-1 es mayor
que 3+p/n.
94
Además de crear las variables correspondientes a cada una de estas opciones, el SPSS ofrece
una tabla resumen que incluye, para todos los estadísticos de recuadro Distancias , el valor
mínimo, el máximo, la media, la desviación típica insesgada y el número de casos válidos. La tabla
también recoge información sobre los pronósticos y los residuos.
Conviene señalar que los puntos de influencia no tienen por qué tener asociados residuos
particularmente grandes; de hecho, un punto de influencia no sólo puede provocar una pérdida de
ajuste, sino que puede hacer que el ajuste global mejore sustancialmente (por ejemplo, cuando
todos los puntos están agrupados en una esquina del diagrama y un punto se encuentra muy
alejado de ellos en la esquina opuesta). Por tanto, el problema que plantean los puntos de
influencia no es precisamente de falta de ajuste. No obstante, es muy aconsejable examinarlos
por su desproporcionada influencia sobre la ecuación de regresión. Puesto que estos puntos son
distintos de los demás, conviene precisar en qué son distintos.
Una vez identificados y examinados, podrían ser eliminados del análisis simplemente porque
entorpecen el ajuste, o porque su presencia está haciendo obtener medidas de ajuste infladas.
También se podrían eliminar los casos muy atípicos simplemente argumentando que el objetivo del
análisis es construir una ecuación para entender lo que ocurre con los casos típicos, corrientes, no
con los casos atípicos. Este argumento es más convincente si los casos atípicos representan a una
subpoblación especial que se sale del rango de variación normal. Por otro lado, si existe un
conjunto de casos que parece formar un subgrupo separado del resto, podría considerarse la
posibilidad de incorporar este hecho al modelo de regresión mediante una variable dummy (con
unos y ceros para diferenciar ambos subgrupos) o desarrollando diferentes ecuaciones de
regresión para los diferentes subgrupos.
Entre los expertos estadísticos no existe un acuerdo completo sobre la conveniencia o no de
eliminar un determinado caso. No existe, por tanto una regla en la que basar estas decisiones.
Pero al usuario puede ayudarle a decidir sobre este particular el pensar que, cuando se decide
eliminar un caso, tal acción debe ser justificada ante quien pregunte por las razones que han
llevado a eliminarlo.
Formas de construir un modelo de regresión
En los apartados previos, se ha asumido que el control sobre las variables utilizadas para
construir el modelo de regresión recae sobre el analista. Es el analista que decide qué variables
independientes desea incluir en la ecuación de regresión trasladándolas a la lista Independientes.
Sin embargo, no es infrecuente encontrarse con situaciones en las que, existiendo un elevado
número de posibles variables independientes, no existe una teoría o un trabajo previo que oriente
al analista en la elección de las variables relevantes. Este tipo de situaciones pueden afrontarse
utilizando procedimientos diseñados para seleccionar, entre una gran cantidad de variables, sólo
un conjunto reducido de la mismas: aquellas que permiten obtener el mejor ajuste posible. Con
estos procedimientos de selección, el control sobre las variables que han de formar parte de la
ecuación de regresión pasa de las manos o el criterio de analista a una regla de decisión basada en
criterios estadísticos.
3.
Criterios de selección de variables
Existen diferentes criterios estadísticos para seleccionar variables en un modelo de regresión.
Algunos de estos criterios son: el valor del coeficiente de correlación múltiple R
2
(corregido o
95
sin corregir), el valor del coeficiente de correlación parcial entre cada variable independiente y la
dependiente, el grado de reducción que se obtiene en el error típico de los residuos al incorporar
una variable, etc. De una u otra forma, todos ellos coinciden en intentar maximizar el ajuste del
modelo de regresión utilizando el mínimo número posible de variables.
Los métodos por pasos que incluye el SPSS (ver siguiente apartado) basan la selección de
variables en dos criterios estadísticos:
a)
Criterio de significación. De acuerdo con este criterio, sólo se incorporan al modelo de
regresión aquellas variables que contribuyen al ajuste del modelo de forma significativa. La
contribución individual de una variable al ajuste del modelo se establece contrastando, a partir
del coeficiente de correlación parcial, la hipótesis de independencia entre esa variable y la
variable dependiente. Para decidir si se mantiene o rechaza esa hipótesis de independencia, el
SPSS incluye dos criterios de significación:
(i)
Probabilidad de F. Una variable pasa a formar parte del modelo de regresión si el
nivel crítico asociado a su coeficiente de correlación parcial al contrastar la hipótesis de
independencia es menor que 0,05 (probabilidad de entrada). Y queda fuera del modelo de
regresión si ese nivel crítico es mayor que 0,10 (probabilidad de salida).
(ii)
Valor de F. Una variable pasa a formar parte de modelo de regresión si el valor del
estadístico F utilizado para contrastar la hipótesis de independencia es mayor que 3,84 (valor de
entrada). Y queda fuera del modelo si el valor del estadístico F es menor que 2,71 (valor de
salida).
Para elegir entre estos dos criterios de significación pulsar el botón Opciones del cuadro de
diálogo Regresión lineal para acceder al subcuadro de diálogo Regresión lineal: Opciones que
muestra la Figura.
Las opciones del recuadro Criterios de método por pasos permiten seleccionar uno de los dos
criterios de significación disponibles y modificar las probabilidades de entrada y salida.
96
b)
Criterio de tolerancia. Superado el criterio de significación, una variable sólo pasa a
formar parte del modelo si su nivel de tolerancia es mayor que el nivel establecido por defecto
(este nivel es 0,0001, pero puede cambiarse mediante sintaxis) y si, además, aun
correspondiéndole un coeficiente de correlación parcial significativamente distinto de cero, su
incorporación al modelo no hace que alguna de las variables previamente seleccionadas pase a
tener un nivel de tolerancia por debajo del nivel establecido por defecto (aunque esto último
depende también del método de selección de variables elegidos; ver siguiente apartado
Una forma muy intuitiva de comprender y valorar el efecto resultante de aplicar estos criterios
de selección consiste en observar el cambio que se va produciendo en el coeficiente de
determinación R2 a medida que se van incorporando (o eliminando) variables al modelo. Este
cambio se define como R2cambio = R2 - R2i, donde R2i se refiere al coeficiente de determinación
obtenido con todas las variables independientes excepto la i-ésima. Un cambio grande en R2 indica
que esa variable contribuye de forma importante a explicar lo que ocurre con la variable
dependiente. Para obtener los valores de R2cambio y su significación (el grado en que el cambio
observado en R2 difiere de cero) Marcar la opción [Cambio en R cuadrado] del cuadro de diálogo
Regresión lineal: Estadísticos.
Esta opción permite obtener el valor de R2cambio que se va produciendo con la incorporación de
cada nueva variable independiente, el valor del estadístico F resultante de contrastar la hipótesis
de que el valor poblacional R2cambio es cero, y el nivel critico asociado a ese estadístico F.
4.
Métodos de selección de variables
Existen diferentes métodos para seleccionar las variables independientes que debe incluir un
modelo de regresión, pero los que mayor aceptación han recibido (sin que esto signifique que son
los mejores) son los métodos de selección por pasos ( stepwise). Con estos métodos, se selecciona
en primer lugar la mejor variable (siempre de acuerdo con algún criterio estadístico): a
continuación, la mejor de las restantes; y así sucesivamente hasta que ya no quedan variables que
cumplan los criterios de selección.
El procedimiento Regresión lineal del SPSS incluye varios de estos métodos de selección de
variables. Todos ellos se encuentran disponibles en el botón de menú desplegable de la opción
Método del cuadro de diálogo Regresión lineal. Dos de estos métodos permiten incluir o excluir,
en un solo paso, todas las variables independientes seleccionadas (no son, por tanto, métodos de
selección por pasos):
f)
Introducir. Este método construye la ecuación de regresión utilizando todas las
variables seleccionadas en la lista Independiente (ver Figura ). Es el método utilizado por
defecto.
g)
Eliminar. Elimina en un solo paso todas las variables de la lista Independientes y ofrece
los coeficientes de regresión que corresponderían a cada variable independiente en el caso de
que se utilizara cada una de ellas individualmente para construir la ecuación de regresión.
El resto de métodos de selección de variables son métodos por pasos, es decir, métodos que van
incorporando o eliminando variables paso a paso dependiendo de que éstas cumplan o no los
criterios de selección:
h)
Hacia adelante. Las variables se incorporan al modelo de regresión una a una. En el
primer paso se selecciona la variable independiente que, además de superar los criterios de
entrada, más alto correlaciona (en valor absoluto) con la dependiente. En los siguientes pasos se
97
utiliza como criterio de selección el coeficiente de correlación parcial: van siendo seleccionadas
una a una las variables que, además de superar los criterios de entrada, poseen el coeficiente de
correlación parcial más alto en valor absoluto (la relación entre la variable dependiente y cada una
de las variables independientes se parcializa controlando el efecto de la (s) variable (s)
independiente (s) previamente seleccionada (s).
La selección de variables se detiene cuando no quedan variables que superen el criterio de
entrada. (Utilizar como criterio de entrada el tamaño, en valor absoluto, de coeficiente de
correlación parcial, es equivalente a seleccionar la variable con menor probabilidad de F o mayor
valor de F).
i)
Hacia atrás. Este método comienza incluyendo en el modelo todas las variables
seleccionadas en la lista Independiente y luego procede a eliminarlas una a una. La primera
variable eliminada es aquella que, además de cumplir los criterios de salida, posee el coeficiente
de regresión más bajo en valor absoluto. En cada paso sucesivo se van eliminando las variables con
coeficientes de regresión no significativos, siempre en orden inverso al tamaño de su nivel
critico.
La eliminación de variables se detiene cuando no quedan variables en el modelo que cumplan los
criterios de salida.
j)
Pasos sucesivos. Este método es una especie de mezcla de los métodos hacia delante y
hacia atrás. Comienza, al igual que el método hacia delante, seleccionando, en el primer paso, la
variable independiente que, además de superar los criterios de entrada, más alto correlaciona (en
valor absoluto) con la variable dependiente. A continuación, selecciona la variable independiente
que, además de superar los criterios de entrada, posee el coeficiente de correlación parcial más
alto (en valor absoluto). Cada vez que se incorpora una nueva variable al modelo, las variables
previamente seleccionadas son, al igual que en el método hacia atrás, evaluadas nuevamente para
determinar si siguen cumpliendo o no los criterios de salida. Si alguna variable seleccionada
cumple los criterios de salida, es expulsada del modelo.
El proceso se detiene cuando no quedan variables que superen los criterios de entrada y las
variables seleccionadas no cumplen los criterios de salida.
5.
Ejemplo: Regresión por Pasos
Para ilustrar el funcionamiento de análisis de regresión por pasos se presenta a continuación un
ejemplo con el método pasos sucesivos. Se utiliza el salario actual (salario) como variable
dependiente y, como variables independientes, la fecha de nacimiento ( fechnac), el nivel
educativo (educ), el salario inicial (salini), la experiencia previa (expprev), y la clasificación étnica
(minoría). El objetivo del análisis es encontrar un modelo de regresión que explique, con el mínimo
número posible de variables independientes, la mayor cantidad posible de la varianza de la
variable salario. Para llevar a cabo el análisis:
Dependiente:
salario.
Independientes:
fechnac, educ, salini, expprev y minoría.
Método:
Pasos sucesivos.
Pulsar el botón Estadísticos... para acceder al subcuadro de diálogo Regresión lineal: Estadísticos
y marcar la opción [Cambio en R cuadrado].
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas.
98
a
Variables introducidas/ elimina das
Modelo
1
2
Variables
introducidas
Variables
eliminadas
Salario inic ial
.
Experiencia
previa
(meses)
Nivel
educativo
3
Mét odo
Por pasos (criterio: Prob. de F para entrar
<= . 050, Prob. de F para salir >= .100).
.
Por pasos (criterio: Prob. de F para entrar
<= . 050, Prob. de F para salir >= .100).
.
Por pasos (criterio: Prob. de F para entrar
<= . 050, Prob. de F para salir >= .100).
a. Variable dependiente: Salario ac tual
La Tabla anterior ofrece un resumen del modelo final al que se ha llegado. En la columna Modelo
se indica en número de pasos dados para construir el modelo de regresión: tres pasos. En primer
paso se ha seleccionado la variable salario inicial, en el segundo, experiencia previa y, en el
tercero, nivel educativo. También se indica si en alguno de los pasos se ha eliminado alguna
variable previamente seleccionada; en este ejemplo no se han eliminado variables. Por último, se
informa sobre el método de selección aplicado (Por pasos) y sobre los criterios de entrada y
salida utilizados: una variable es incorporada al modelo si su coeficiente de regresión parcial es
significativamente distinto de cero con un nivel de significación del 5% y, una vez seleccionada,
sólo es eliminada del modelo si con la incorporación de otra u otras variables en un paso posterior
su coeficiente de regresión parcial deja de ser distinto de cero con un nivel de significación del
10%.
Resumen del modelo
Estadísticos de cambio
Modelo
1
2
3
R
R cuadrado
.880 a
.775
.891 b
.794
.896 c
.802
R cuadrado
corregida
.774
.793
.801
Error típ. de la
estimación
$8,119.791
$7,778.940
$7,631.838
Cambio en
R cuadrado
.775
.019
.008
Cambio en F
1620.826
43.180
19.293
gl1
1
1
1
gl2
471
470
469
Sig. del
cambio en F
.000
.000
.000
a. Variables predictoras: (Constante), Salario inicial
b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses)
c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses), Nivel educativo
La Tabla anterior recoge, para cada paso, el valor de R2, el cambio experimentado por R2, y el
estadístico F y su significación. El estadístico F permite contrastar la hipótesis de que el cambio
en R2 vale cero en la población. Al incorporar la primera variable (Modelo 1), el valor de R2 es
0,775. Lógicamente, en el primer paso, R2cambio = R2. Al contrastar la hipótesis de que el valor
poblacional de R2cambio es cero se obtiene un estadístico F de 1.620,83 que, con 1 y 471 grados de
libertad, tiene una probabilidad asociada de 0,000. Puesto que este valor es menor que 0,05,
puede afirmarse que la proporción de varianza explicada por la variable salario inicial (la variable
seleccionada en el primer paso) es significativamente distinta de cero.
En el segundo paso (Modelo 2), el valor de R2 aumenta hasta 0,794. Esto supone un cambio de
0,019 (aproximadamente un 2%). La tabla muestra el valor de estadístico F (43,180) obtenido al
contrastar la hipótesis de que el valor poblacional R2cambio es cero, y su significación (0,000).
Aunque se trata de un incremento muy pequeño (un 2%), el valor del nivel crítico permite afirmar
que la variable experiencia previa (la variable incorporada al modelo en el segundo paso)
contribuye significativamente a explicar lo que ocurre con la variable dependiente (o, lo que es lo
mismo, a mejorar el ajuste).
En el tercer y último paso (Modelo 3), R2 toma un valor de 0,802, lo cual supone un incremento de
0,008 (aproximadamente un 1 por ciento). De nuevo se trata de un incremento muy pequeño, pero
99
al evaluar su significación se obtiene un estadístico F de 19,293 y un nivel crítico asociado de
0,000, lo cual está indicado que la variable nivel educativo (la variable incorporada en el tercer
paso), también contribuye de forma significativa a explicar el comportamiento de la variable
dependiente (o, lo que es lo mismo, a mejorar el ajuste). Las tres variables seleccionadas en el
modelo fina consiguen explicar un 80% (R2 = 0,802) de la variabilidad observada en el salario
actual.
ANOVAd
Modelo
1
2
3
Regresión
Res idual
Total
Regresión
Res idual
Total
Regresión
Res idual
Total
Suma de
cuadrados
1.069E+11
3.105E+10
1.379E+11
1.095E+11
2.844E+10
1.379E+11
1.106E+11
2.732E+10
1.379E+11
gl
1
471
472
2
470
472
3
469
472
Media
cuadrática
1.07E+11
65931012
F
1620.826
Sig.
.000 a
5.47E+10
60511906
904. 579
.000 b
3.69E+10
58244948
632. 955
.000 c
a. Variables predictoras: (Constante), Salario inicial
b. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses)
c. Variables predictoras: (Constante), Salario inicial, Experiencia previa (meses),
Nivel educativo
d. Variable dependiente: Salario actual
La tabla resumen del ANOVA muestra el valor del estadístico F obtenido al contrastar la
hipótesis de que el valor poblacional de R2 en cada paso es cero. Ahora no se evalúa el cambio que
se va produciendo en el valor de R2 de un paso a otro, sino el valor de R2 en cada paso.
Lógicamente, si R2 es significativamente distinta de cero en el primer paso, también lo será en los
pasos sucesivos.
La Tabla siguiente contiene los coeficientes de regresión parcial correspondientes a cada una de
las variables incluidas en el modelo de regresión; estos coeficientes sirven para construir la
ecuación de regresión en cada paso (incluyendo el término constante). Las primeras columnas
recogen el valor de los coeficientes de regresión parcial ( B) y su error típico. A continuación
aparecen los coeficientes de regresión parcial estandarizados ( Beta), los cuales informan acerca
de la importancia relativa de cada variable dentro de la ecuación. Las dos última columnas
muestran los estadísticos t y los niveles crítico (Sig) obtenidos al contrastar las hipótesis de que
los coeficientes de regresión parcial valen cero en la población. Un nivel crítico por debajo de
0,05 indica que la variable contribuye significativamente a mejorar el ajuste del modelo.
Coe ficientesa
Modelo
1
2
3
(Constante)
Salario inic ial
(Constante)
Salario inic ial
Experiencia previa (meses )
(Constante)
Salario inic ial
Experiencia previa (meses )
Nivel educativo
Coeficientes no
estandarizados
B
Error típ.
1929.517
889. 168
1.910
.047
3856.955
900. 928
1.924
.045
-22. 500
3.424
-3708.904
1936.045
1.748
.060
-16. 752
3.605
741. 307
168. 772
Coeficientes
estandarizados
Beta
.880
.887
-.138
.806
-.103
.125
t
2.170
40.259
4.281
42.279
-6.571
-1.916
29.192
-4.647
4.392
Sig.
.031
.000
.000
.000
.000
.056
.000
.000
.000
a. Variable dependiente: Salario act ual
100
Utilizar el estadístico t para contrastar la hipótesis de que un coeficiente de regresión parcial
vale cero es exactamente lo mismo que utilizar el estadístico F para contrastar la hipótesis de
que el valor poblacional del cambio observado en R2 vale cero. De hecho, elevando al cuadrado los
valores de estadístico t se obtienen los valores del estadístico F. De las dos formas se está
intentando evaluar la contribución individual de una variable a la proporción de varianza explicada
por el conjunto de variables dependientes.
Por último, la Tabla siguiente muestra los coeficientes de regresión parcial de las variables no
seleccionadas para formar parte de la ecuación de regresión en cada paso. La información que
contiene esta tabla permite conocer en detalle por qué unas variables han sido seleccionadas y
otras no.
d
Variables excluidas
Modelo
1
2
3
Beta dentro
Experiencia previa
(meses)
Nivel educativo
Fec ha de nacimiento
Clas ificación étnic a
Nivel educativo
Fec ha de nacimiento
Clas ificación étnic a
Fec ha de nacimiento
Clas ificación étnic a
a
-.138
.173 a
.136 a
-.040a
.125 b
.071 b
-.019b
.054 c
-.020c
t
Sig.
Correlación
parc ial
Estadísticos
de
colinealidad
Tolerancia
-6.571
.000
-.290
.998
6.385
6.471
-1.809
4.392
2.020
-.885
1.556
-.965
.000
.000
.071
.000
.044
.377
.120
.335
.283
.286
-.083
.199
.093
-.041
.072
-.045
.599
1.000
.975
.520
.354
.952
.350
.952
a. Variables predictoras en el modelo: (Constante), Salario inicial
b. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses )
c. Variables predictoras en el modelo: (Constante), Salario inicial, Experiencia previa (meses ), Nivel
educativo
d. Variable dependiente: Salario ac tual
En el primer paso se ha seleccionado la variable salario inicial porque es la que más alto
correlaciona, en valor absoluto, con la variable dependiente. En este primer paso, todavía están
fuera del modelo el resto de variables independientes.
La columna Beta dentro contiene el valor que tomaría el coeficiente de regresión parcial
estandarizado de cada variable en el caso de ser seleccionada en el siguiente paso. Y las dos
columnas siguientes (t y Sig.) informan sobre si ese valor que adoptaría el coeficiente de
regresión parcial de una variable en el caso de ser incorporada al modelo sería o no
significativamente distinto a cero.
Puede comprobarse que, en el primer paso, hay tres variables todavía no seleccionadas ( nivel
educativo, experiencia previa y fecha de nacimiento ) cuyos coeficientes de regresión poseen
niveles críticos por debajo de 0,05 (criterio de entrada). Entre ellas, la variable que posee un
coeficiente de correlación parcial mayor en valor absoluto ( experiencia previa = -0,290) y,
además, un nivel de tolerancia por encima de 0,001 ( tolerancia mínima establecida por defecto),
es justamente la variable seleccionada en el segundo paso.
En el segundo paso todavía quedan fuera de la ecuación dos variables cuyos coeficientes de
regresión serían significativos en caso de ser seleccionadas en el siguiente paso: nivel educativo y
fecha de nacimiento. De esas dos variables, se ha seleccionado en el tercer paso la variable nivel
educativo porque, teniendo un nivel de tolerancia por encima de 0,001, es la que posee el
coeficiente de correlación parcial más alto.
101
Después del tercer paso todavía quedan dos variables fuera de la ecuación: fecha de nacimiento y
clasificación étnica. Pero, puesto que ninguna de las dos supera el criterio de entrada (Sig. <
0,05), es decir, puesto que a ninguna de ellas le corresponde un coeficiente de regresión parcial
significativamente distinto de cero, el proceso se detiene y ambas variables quedan fuera del
modelo.
6.
Qué variables debe incluir la ecuación de regresión
El método de selección por pasos ha llevado a construir una ecuación de regresión con tres
variables. Esas tres variables han sido incluidas en el modelo porque poseen coeficientes de
regresión parcial significativos. Sin embargo, la primera variable explica el 78% de la varianza de
la variable dependiente, la segunda el 2%, y la tercera el 2%. Si en lugar de método pasos
sucesivos se utiliza el método introducir, se obtienen los resultados que muestran las siguientes
tablas.
Resumen del modelo
Estadísticos de cambio
Modelo
1
R
R cuadrado
.896 a
.803
R cuadrado
corregida
.801
Error típ. de la
estimación
$7,620.326
Cambio en
R cuadrado
.803
Cambio en F
381. 605
gl1
5
gl2
467
Sig. del
cambio en F
.000
a. Variables predictoras: (Constante), Clasificación étnica, Fecha de nacimiento, Salario inicial, Nivel educativo, Experiencia previa
(meses)
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
1.108E+11
2.712E+10
1.379E+11
gl
5
467
472
Media
cuadrática
2.22E+10
58069371
F
381. 605
Sig.
.000 a
a. Variables predictoras: (Constante), Clasificación étnica, Fecha de nacimiento,
Salario inicial, Nivel educat ivo, Experiencia previa (meses )
b. Variable dependiente: Salario actual
Coe ficientesa
Modelo
1
Coeficientes no
estandarizados
B
Error típ.
-33438.7 19113.329
1.742
.060
(Constante)
Salario inic ial
Experiencia previa
-9.268
(meses)
Nivel educativo
712.743
Fec ha de nacimiento 2.516E-06
Clas ificación étnic a
-865.292
Coeficientes
estandarizad
os
Beta
.803
t
-1.749
28.868
Sig.
.081
.000
5.724
-.057
-1.619
.106
169.671
.000
867.208
.120
.055
-.021
4.201
1.576
-.998
.000
.116
.319
a. Variable dependiente: Salario act ual
Por un lado, la ganancia que se obtiene en R2 utilizando las 5 variables en lugar de tres
seleccionadas con el método por pasos es extremadamente pequeña: 0,803-0,802 = 0,001. (Y el
valor de R2 corregida ni siquiera cambia: vale 0,801 en ambos casos). No parece que tenga mucho
sentido añadir dos variables a un modelo para obtener una mejora de una milésima en la
proporción de varianza aplicada. Aunque es cierto que R2 nunca disminuye cuando se van
incorporando nuevas variables al modelo de regresión, sino que aumenta o se queda como está,
esto no significa, necesariamente, que la ecuación con más variables se ajuste mejor a los datos
poblacionales. Generalmente, conforme va aumentando la calidad del modelo, va disminuyendo el
102
error típico de los residuos (Error típ. De la estimación). Pero el incremento que se va
produciendo en R2 al ir añadiendo variables no se corresponde necesariamente con una
disminución de error típico de los residuos. Con cada variable nueva que se incorpora al modelo, la
suma de cuadrados de la regresión gana un grado de libertad y la suma de cuadrados de los
residuos lo pierde. Por tanto, el error típico de los residuos puede aumentar cuando el descenso
de la variación residual es demasiado pequeño para compensar el grado de libertad que pierde la
suma de cuadrados de los residuos. Estas consideraciones sugieren la conveniencia de utilizar
modelos de regresión parsimoniosos, es decir, modelos con un número reducido de variables
independientes (con el mínimo número posible de variables).
Por otro lado, las variables que tienen pesos significativos en la ecuación de regresión
previamente obtenida con el método pasos sucesivos no son las mismas que las que tienen pesos
significativos en la ecuación obtenida con el método introducir. Esta diferencia entre métodos de
selección de variables debe ser tenida muy en cuenta. ¿Cuáles son las variables buenas?.
Atendiendo a criterios puramente estadísticos, la ecuación de regresión con las tres variables
seleccionadas por el método pasos sucesivos, es la mejor de las posibles con el mínimo número de
variables. Pero en la práctica, la decisión sobre cuántas variables debe incluir la ecuación de
regresión puede tomarse teniendo en cuenta, además de los criterios estadísticos, otro tipo de
consideraciones. Si, por ejemplo, resulta muy costoso (tiempo, dinero, etc.) obtener las unidades
de análisis, un modelo con una única variable independiente podría resultar lo bastante apropiada.
Para decidir con qué modelo de regresión quedarse, casi siempre es conveniente tomar en
consideración criterios adicionales a los puramente estadísticos.
Por otro lado, puesto que los métodos de selección por pasos construyen la ecuación de regresión
basándose exclusivamente en criterios estadísticos, podría ocurrir que alguna variable realmente
relevante desde el punto de vista teórico quedará fuera del modelo de regresión final. Y esto es
algo que hay que vigilar con especial cuidado.
Por supuesto, los contrastes estadísticos sirven de apoyo para tomar decisiones. Pero, dado que
la potencia de un contraste se incrementa conforme lo hace el tamaño de la muestra, hay que ser
muy cautelosos con las conclusiones a las que se llega. Esto significa que, con muestras grandes,
efectos muy pequeños desde el punto de vista de su importancia teórica o práctica pueden
resultar estadísticamente significativos. Por el contrario, con muestra pequeñas, para que un
efecto resulte significativo, debe tratarse de un efecto importante (con muestras pequeñas,
existe mayor grado de coincidencia entre la significación estadística y la importancia práctica).
Por esta razón, en la determinación de la ecuación de regresión final, debe tenerse en cuenta,
cuando se trabaja con muestras grandes, la conveniencia de considerar elementos de decisión
adicionales a la pura significación estadística.
Puesto que la utilización de los métodos de selección por pasos está bastante generalizada,
conviene también alertar sobre el peligro de alcanzar un resultado falsamente positivo (un error
de tipo 1). Es decir, si se examina un número de variables lo bastante grande, tarde o temprano
una o más pueden resultar significativas sólo por azar. Este riesgo es tanto mayor cuanto más
variables se incluyen en el análisis. Para evitar este problema, si la muestra es lo bastante grande,
puede dividirse en dos, aplicar el análisis a una mitad y verificar en la otra mitad si se confirma el
resultado obtenido. Si la muestra es pequeña, esta solución es inviable y, por tanto, el riesgo de
cometer un error de tipo 1 permanece.
103
I.
Pronósticos
Ya se ha explicado cómo utilizar los coeficientes de regresión parcial ( B) para construir la
ecuación de regresión. En el punto V.2. Regresión múltiple se ha llegado a la siguiente ecuación de
regresión:
Pronóstico (salario)
=1,749 salini - 16,730 expprev + 735,956 educ + 3.661.517
Puesto que se conocen los pesos de la ecuación de regresión, podría utilizarse la opción Calcular
del menú Transformar para obtener los pronósticos que la ecuación asigna a cada caso. Pero esto
es completamente innecesario. El subcuadro de diálogo Regresión lineal: Guardar nuevas variables
contiene opciones que permiten generar diferentes tipos de variables relacionadas con los
pronósticos:
Valores pronosticados. Las opciones de este recuadro generan, en el Editor de datos, cuatro
nuevas variables. Estas nuevas variables reciben automáticamente un nombre seguido de un
número de serie: nombre_ #. Por ejemplo, la primera vez que se solicitan durante una sesión los
pronósticos tipificados, la nueva variable con los pronósticos tipificados recibe el nombre zpr 1.
Si se vuelven a solicitar los pronósticos tipificados durante la misma sesión, la nueva variable
recibe el nombre zpr_2 etc.
No tipificados: pronósticos de la ecuación de regresión en puntuaciones directas. Nombre:
pre_#.
Tipificados: pronósticos convertidos en puntuaciones típicas (restando a cada pronóstico la
media de los pronósticos y dividiendo la diferencia por la desviación típica de los pronósticos).
Nombre: zpr_#.
Corregidos: pronóstico que corresponde a cada caso cuando la ecuación de regresión se obtiene
sin incluir ese caso. Nombre: adj_#.
E.T. del pronóstico promedio. Error típico de los pronósticos correspondientes a los casos que
tienen el mismo valor en las variables independientes. Nombre: sep_#.
Al efectuar pronósticos es posible optar entre: (1) efectuar un pronóstico individual Yi´ para
cada caso concreto Xi, o (2) pronosticar para cada caso la media de los pronósticos ( Y0´)
correspondientes a todos los casos en con el mismo valor X0 en la(s) variable(s) independiente(s);
a esta media es a la que se llama pronóstico promedio. En ambos casos se obtiene el mismo
pronóstico (Yi´=Y0´), pero cada tipo de pronóstico (ambos son variables aleatorias) tiene un error
típico distinto. Al efectuar un pronóstico individual para un determinado valor de Xi, el error de
estimación o variación residual (Yi – Yi´) puede contener dos fuentes de error:
(i)
La diferencia entre valor observado en la variable dependiente ( Yi) y la media
poblacional correspondiente a
(ii)
X0
Y X0
.
La diferencia entre el pronóstico para ese caso ( Yi´ o Y0´) y la media poblacional
correspondiente a
X0
Y X0
.
En un pronóstico individual entran juego ambas fuentes de error. Pero en un pronóstico promedio
sólo entra en juego la segunda fuente de error. Por tanto, para un valor dado de X0, el error
típico del pronóstico promedio siempre será menor o igual que el error típico del pronóstico
individual. En consecuencia, al construir intervalos de confianza para los pronósticos, la amplitud
del intervalo cambiará dependiendo del error típico que se tome como referencia.
104
Además, puede intuirse fácilmente que los errores típicos del pronóstico promedio (que ya se ha
dicho que están basados en las distancias en
parezcan
Y0' y
Y X0
) serán tanto menores cuanto más se
X 0 y X , pues cuanto más se parezcan, más cerca estará la recta muestral de la
poblacional y, consecuentemente, más cerca estarán
Y0' y
Y X0
.
Intervalos de pronóstico (parte inferior del subcuadro de diálogo Regresión lineal: Guardar
nuevas variables). Las opciones de este recuadro permiten obtener los intervalos de confianza
para los pronósticos:
Media. Intervalo de confianza basado en los errores típicos de los pronósticos promedio.
Individuos. Intervalo de confianza basado en los errores típicos de los pronósticos individuales.
La opción Intervalos de confianza k % permite establecer el nivel de confianza con el que se
construyen los intervalos de confianza.
Lógicamente, estos dos intervalos son distintos. Para un valor dado de X, el primer intervalo
(media) es más estrecho que el segundo (individuos). Recuérdese lo dicho en este mismo apartado
sobre los errores típicos de los pronósticos.
Cada una de estas dos opciones (media e individuos) genera en el Editor de datos dos nuevas
variables con el límite inferior y superior del intervalo. Estas nuevas variables reciben los
siguientes nombres:
lmci_: límite inferior del intervalo de confianza para el pronóstico medio.
umci: límite superio de intervalo de confianza para el pronóstico medio.
lici: límite inferior del intervalo de confianza para el pronóstico individual.
uici_ límite superior del intervalo de confianza para el pronóstico individual.
7.
Validez del modelo de regresión
El modelo de regresión puede ser validado utilizando casos nuevos. Para ello, basta con obtener
los pronósticos para esos casos nuevos y, a continuación, calcular el coeficiente de correlación
entre los valores observado en la variable dependiente y los valores pronosticados para esos
casos nuevos. En teoría, el coeficiente de correlación así obtenido debería ser igual al coeficiente
de correlación múltiple del análisis de regresión ( R). En la práctica, si el modelo es lo bastante
bueno, se observarán pequeñas diferencias entre esos coeficientes atribuibles únicamente al
azar muestral. Es muy importante que los nuevos casos representen a la misma población que los
casos originalmente utilizados para obtener la ecuación de regresión.
En ocasiones, es posible que no se tenga acceso a nuevos datos o que sea muy difícil obtenerlos.
En esos casos, todavía es posible validar el modelo de regresión si la muestra es lo bastante
grande. Basta con utilizar la mitad de los casos de la muestra (aleatoriamente seleccionados) para
obtener la ecuación de regresión y la otra mitad de la muestra para efectuar los pronósticos. Un
modelo fiable debería llevar a obtener una correlación similar entre los valores observados y
pronosticados de ambas mitades.
II.
Temas adicionales en el análisis de regresión
El proceso de construcción de modelos estadísticos es, en cada caso, un problema específico y
particular. Lo que se haga, o pueda hacerse, dependerá del conocimiento que tengamos acerca del
105
comportamiento de las variables en estudio y de los datos disponibles. En la figura podemos ver
de forma esquemática los diferentes pasos que tienen lugar en la modelación estadística.
Especificación del modelo
Estimación de los coeficientes
Verificación del modelo
Interpretación e Inferencia
8.
Especificación del modelo
El problema inicial será especificar una forma algebraica para el modelo que pueda proporcionar
una descripción del sistema objeto de estudio, que sea conveniente, útil y razonable.
9.
Estimación de los coeficientes
Una vez especificado, un modelo estadístico normalmente contiene una serie de coeficientes
desconocidos, o parámetros. El siguiente paso en la construcción del modelo es utilizar los datos
disponibles para estimar dichos coeficientes. Se podrán obtener así, tanto estimaciones
puntuales como estimaciones por intervalos. Es decir, en el modelo de regresión múltiple
Yi
x
1 1i
x
2 2i
K
xKi
(1.1)
i
dependiente y las de las variables independientes.
1,
2,…,
k
las realizaciones de la variable
El método apropiado de estimación depende de la especificación del modelo. Hemos visto que,
dados ciertos supuestos acerca de las propiedades estadísticas de los términos de error i del
modelo (1.1), el método de mínimos cuadrados será apropiado para estimar los coeficientes de
regresión parcial. Sin embargo, como veremos, si alguno de los supuestos no se cumple, los
estimadores mínimo-cuadrático pueden ser muy ineficientes. En general, el teorema de GaussMarkov, que da una justificación teórica de por qué utilizar el método de mínimos cuadrados, se
cumple sólo cuando los supuestos son ciertos.
10.
Verificación del modelo
Al formular un modelo, el investigador está incorporando al estudio una serie de intuiciones. Sin
embargo, al traducir esto a una expresión algebraica, se estarán llevando a cabo una serie de
simplificaciones y supuestos, que en la realidad pueden llegar a ser insostenibles. Por tanto, será
siempre conveniente comprobar si el modelo es el adecuado.
Una vez estimada la ecuación de regresión, el analista puede darse cuenta de que las estimaciones
resultantes no tienen sentido dados los conocimientos que se tienen del sistema a estudio. Por
ejemplo, supongamos que un modelo estimado sugiere que, manteniendo el resto de los factores
relevantes fijos, la demanda de coches importados crece a medida que crece su precio. Esta
conclusión va en contra no sólo de la teoría económica sino del propio sentido común. Cuando la
estimación puntual de un coeficiente de regresión tiene el signo “contrario” suele deberse a la
escasa disponibilidad de datos. En nuestro ejemplo, esperamos que, a igualdad de los demás
factores, exista al menos una modesta relación inversa entre la demanda de coches importados y
su precio; sin embargo, esta relación puede no manifestarse en los coeficientes estimados a causa
106
de errores en la muestra. Más serio es el caso en el que los coeficientes estimados tienen el signo
“contrario” y difieren significativamente de 0. Es muy posible que, en estas circunstancias, el
error se deba a una incorrecta especificación del modelo. El investigador debería en este caso
replantearse la especificación original. A lo mejor se ha pasado por alto una variable explicativa
de interés, o, posiblemente, la forma funcional que se ha supuesto sea inapropiada. Ciertamente,
comprobar la coherencia de modelo resultante va a ser una parte importante de la verificación.
Es importante también comprobar los supuestos hechos sobre las propiedades estadísticas de las
variables aleatorias del modelo. En la Ecuación de regresión (1.1), se supone habitualmente que los
términos de error i tiene todos la misma varianza y que no están correlacionados unos con otros.
Cualquier comprobación sobre la corrección de un modelo puede llevar a una especificación
alternativa. Es por esto por lo que, en la Figura 1, hemos conectado el paso de especificación del
modelo con el de verificación. De esta forma, la construcción de un modelo se entiende como un
proceso iterativo de especificación, estimación y verificación, continuando el proceso hasta que
se alcance un modelo aparentemente satisfactorio.
11.
Interpretación e Inferencia
Una vez construido el modelo, podrá ser utilizado para aprender algo acerca del sistema a
estudio. En el análisis de regresión, esto puede implicar encontrar intervalos de confianza para
los parámetros del modelo, contrastar hipótesis de interés o realizar predicciones de la variable
dependiente dados ciertos valores de las variables independientes. Es importante tener presente
que la inferencia está basada en el supuesto de que el modelo está correctamente especificado.
Cuanto más graves sean los errores de especificación, menos fiables serán las conclusiones
derivadas del modelo ajustado.
12.
Ejercicio
Consideremos datos del archivo “Entidades de ahorro y crédito.sav”
Supongamos que queremos explicar la variabilidad a través de los años de los márgenes de
beneficio de las entidades de ahorro y crédito. Es razonable suponer que, a igualdad de los demás
factores, los márgenes de beneficio estarán positivamente relacionados con los ingresos netos
por dólar depositado, es decir, cuanto más altos sean los ingresos netos, más altos serán los
márgenes de beneficio. Otra posibilidad es considerar que los márgenes de beneficio caigan
debido al aumento de la competencia, a igualdad de los demás factores, cuando el número de
entidades de ahorro y crédito crece. Por tanto lo que buscamos es un modelo en el cual la variable
dependiente, margen de beneficio (Y), esté relacionada con las dos variables independientes,
ingresos netos (X1) número de entidades de ahorro y crédito ( X2). El archivo muestra 25
conjuntos de observaciones anuales.
Nuestro interés se centra en el valor esperado de la variable dependiente, pero en este caso,
este valor está condicionado al valor que toman todas las variables independientes. Por ejemplo,
podríamos preguntar cuál es el valor esperado para el margen porcentual de beneficio en un año
en el que los ingresos porcentuales netos por dólar depositado fueron del 4 y hubiera 8.000
oficinas. Una vez más, necesitaremos una notación apropiada para este concepto. Para el caso en
el que una variable dependiente, Y, está relacionada con un par de variables independientes, X1 y
X2 usaremos E(Y / X1=x1, X2=x2) para representar el valor esperado de la variable dependiente
cuando las variables independientes toman los valores x1 y x2, respectivamente. El supuesto de
linealidad, en este contexto, implica que esta esperanza condicional es de la forma.
E(Y / X1=x1, X2=x2) =
donde las constantes
1
1 x1
+
y
2
2 x2
(1.2)
deben estimarse a partir de los datos.
107
En general, el objetivo será relacionar la variable dependiente, Y, con K variables independientes
X1, X2,…, Xk. Entonces, si X1 toma el valor x1, X2 toma el valor x2, y así sucesivamente, la
generalización de la Ecuación (1.2) proporcionaría el valor esperado de la variable dependiente
como
E(Y / X1=x1, X2=x2,..., Xk=xk) =
1x1
+
2x 2
+ ... +
k xk
(1.3)
donde E(Y / X1=x1, X2=x2,..., Xk=xk) representa el valor esperado de la variable dependiente
cuando las variables independientes toman los valores x1, x2,..., xk y donde las constantes
1,
,…,
determinan
la
naturaleza
de
la
relación.
Estas
constantes
tienen
una
interpretación
2
k
inmediata. En primer lugar, si se da a cada una de las variables independientes el valor 0, puede
deducirse de (1.3) que:
E(Y / X1=0, X2=0,..., Xk=0) =
Por tanto, es el valor esperado de la variable dependiente cuando cada una de las variables
independientes toma el valor 0. Con frecuencia, esta interpretación no es de interés práctico,
pues el punto en el cual todas las variables independientes son 0 no tiene importancia y, de hecho,
puede no tener sentido (por ejemplo, no tiene interés el caso en el que el número de oficinas de
ahorro y crédito es 0). Es más, mientras que la forma que hemos supuesto para el modelo puede
ser razonable en la región donde se han observado los valores de las variables independientes,
sería muy optimista suponer que el modelo es válido para valores alejados de esta región.
La interpretación de los coeficientes 1, 2,…, k es extremadamente importante. Supongamos que
en la ecuación una de las variables independientes, digamos X1, incrementa su valor en una unidad,
pasando de valer x1 a (x1 + 1), mientras que el resto de la variables independientes mantiene su
valor. Entonces, tenemos
E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) =
1(x1
+ 1) +
2 x2
+ ... + bkxk
Por tanto, tenemos
E(Y / X1 = x1 + 1, X2 = x2,..., Xk = xk) - E(Y / X1 = x1, X2 = x2,..., Xk = xk) =
1(x1
=
+ 1) +
2 x2
+ ... + bkxk - (
1x1
+
2 x2
+ ... + bkxk)
1
De aquí se deduce que 1 es el incremento esperado de Y que resulta de incrementar la variable
X1 en una unidad cuando el resto de las variables independientes permanecen constantes. En
general, j es el incremento esperado en la variable dependiente que resulta de incrementar la
variable Xj en un unidad, cuando el resto de la variables independientes permanece constante. Las
constantes j, llamadas coeficientes de regresión parcial, proporcionan medidas separadas de las
influencias de las variables independientes en la variable dependiente, cuando el resto de los
factores relevantes permanece constante.
Volviendo al ejemplo de las entidades de ahorro y crédito, supongamos que la verdadera relación
es
E Y X1
x1 , X 2
x2
1,5
0, 2 x1
0, 00025x2
El coeficiente correspondiente a x1, indica que incrementar en una unidad los ingresos netos,
produciría un incremento de 0,2 en el margen porcentual de beneficio de las entidades de ahorro
y crédito, siempre que el número de oficina permanezca constante. De forma análoga, el
coeficiente correspondiente a x2, indica que, manteniendo los ingresos netos fijos, un incremento
de una oficina de ahorro y crédito, produciría un incremento de –0,00025 - es decir, una
reducción esperada de 0,00025 - en el margen porcentual de beneficio. Utilizando valores más
108
realistas, un incremento de 1.000 oficinas de ahorro y crédito, manteniendo los ingresos netos
fijos, supondría una reducción esperada de 0,25 en los márgenes porcentual de beneficios.
13.
Sesgo de especificación
La especificación de un modelo estadístico que represente de forma adecuada el mundo real, es
una tarea difícil y delicada. Ciertamente, ningún modelo simple podrá representar perfectamente
la naturaleza precisa de determinadas magnitudes reales de interés. El objetivo a la hora de
construir un modelo será intentar describir una formulación sencilla que no diverja mucho de la
compleja realidad que se desea estudiar. Por una parte, la simplicidad del modelo será una ventaja
pero, por otra, divergencias sustanciales entre el modelo y la realidad que intenta representar
pueden dar lugar a conclusiones erróneas acerca del comportamiento del sistema estudiado.
Un aspecto importante a la hora de formular el modelo, será la especificación adecuada de la
forma funcional que mejor ajuste la relación entre la variable dependiente y las variables
independientes. Si la forma elegida difiere sustancialmente de la forma verdadera, cualquier
conclusión que se saque a partir del modelo se refiere a los supuestos que se hacen acerca de las
propiedades estadísticas de los términos de error en la ecuación de regresión. Hasta el momento,
en nuestro análisis hemos supuesto que estos errores tenían todos la misma varianza y que
estaban incorrelados unos con otros. Si estos supuestos eran de hecho cierto, habíamos visto que
el método de mínimos cuadrados y las inferencias realizadas a partir de él, proporcionaban una
forma adecuada de aprendizaje acerca del proceso. Sin embargo, si alguno de estos supuestos no
fuese cierto, esto no va a tener por qué ser así.
A la hora de formular un modelo de regresión, un investigador lo que intenta es poder relacionar
la variable de interés con todas las demás variables que sean importantes en dicha relación. Es
decir, si suponemos que el modelo lineal es el apropiado, lo que se querrá es poder incluir todas
las variables independientes que influyan según esta forma específica en la variable dependiente.
Al formular el modelo de regresión.
Yi
x
1 1i
x
2 2i
K
xKi
i
está implícito el hecho de que el conjunto de variables independientes
X1 , X 2 ,
, X K , son todas
las que afectan de forma significativa al comportamiento de la variable dependiente, Y. Sin
embargo, en cualquier problema práctico, habrá otros factores que también afecten a la variable
dependiente. La influencia conjunta de estos factores quedará recogida en el término de error,
i . Pero lo primordial será, a la hora de decidir las variables independientes a incluir en el
modelo, no olvidar ninguna que sea importante.
Excepto en el caso especial (y raro) en que las variables omitidas estén incorreladas con las
variables independientes incluidas en el modelo de regresión, las consecuencias de este tipo de
error de especificación puede llegar a ser muy serias. En particular, las estimaciones por mínimos
cuadrados estarán generalmente sesgadas, y la inferencias a partir de los intervalos de confianza
y de los contrastes de hipótesis podrán llevarnos a conclusiones erróneas.
14.
Ejercicio
Utilizando el archivo “Entidades de ahorro y crédito.sav” determine la estimación del modelo de
regresión múltiple.
Determine R, R2, R2 ajustado, Error estándar de estimación.
109
b
d
a
í
p
d
m
a
R
e
M
d
a
a
1
0
5
3
0
a
V
I
n
b
V
c
a
i
c
i
e
d
a
n
o
a s
r
S
o
B
e
M
i
t
r
g
t
1
(
C
4
9
5
0
I n
7
6
7
9
0
d
n
4
0
7
2
0
a
V
La ecuación de regresión estimada que mejor ajusta la relación entre el margen de beneficios y
las ganancias y el número de oficina es
Y
1,565 0,237 X1º
0,000249 X 2
Una conclusión que sigue de este análisis es que, para un número fijo de oficinas, un incremento
de una unidad en las ganancias netas por dólar depositado conlleva un incremento esperado de
0,237 unidades en el margen de beneficio.
Ahora bien, supongamos que nuestro único interés se centra en el efecto de las ganancias netas
sobre el margen de beneficio. Una manera de solucionar esto podría ser estimar la regresión del
margen de beneficio en función de las ganancias netas, a partir de los 25 pares de observaciones.
Resumen del modelo
Modelo
1
R
R cuadrado
.704 a
.495
R cuadrado
corregida
.474
Error típ. de la
estimación
.10089
a. Variables predictoras: (Constante), Ingresos netos por dólar
depositado
Coe ficientesa
Modelo
1
(Constante)
Ingresos netos por
dólar depos itado
Coeficientes no
estandarizados
B
Error típ.
1.326
.139
-.169
Coeficientes
estandarizad
os
Beta
.036
-.704
t
9.567
Sig.
.000
-4.752
.000
a. Variable dependiente: margen de beneficio porcentual
Tal análisis da como resultado el siguiente modelo ajustado
Y
1,326 0,169 X1
Si comparamos los dos modelos ajustados, observamos de forma inmediata que una consecuencia
de ignorar el número de oficinas es una considerable reducción en el valor de R 2, la proporción de
la variabilidad de la variable dependiente que queda explicada mediante este modelo de regresión
110
Existe, sin embargo, una consecuencia todavía más importante. El modelo ajustado anterior
implica que un incremento de una unidad en el porcentaje de ganancias netas por dólar depositado
conlleva un decrecimiento esperado de 0,169 en el porcentaje del margen de beneficio.
Pero esta conclusión es absolutamente contraintuitiva. Lo que todo el mundo esperaría es que,
dado que todo lo demás permanece igual, altas ganancias netas estuvieran siempre asociadas con
altos márgenes de beneficio. Lo que ha ocurrido es que, a lo largo del periodo de 25 años para la
cual se ha estimado el modelo, todo lo demás no ha permanecido igual. En particular, otra variable
potencialmente importante-el número de oficinas de entidades de ahorro y crédito- ha cambiado
de forma considerable a lo largo de este período. Cuando esta variable se incorpora al análisis de
regresión, se llega a la conclusión opuesta. Como habíamos predecido, ahora que se tiene en
cuenta la influencia del número de oficinas, la relación entre las ganancias netas y el margen de
beneficios resulta ser positiva.
Este ejemplo refleja de forma sencilla el problema al que nos referíamos. Si nos olvidamos de
incluir en el modelo una variable explicativa que sea importante, cualquier conclusión que se saque
acerca de los efectos de otras variables independientes pueden estar seriamente sesgadas. En
este caso particular, hemos visto que añadir una variable relevante, puede significar un cambio en
el signo de la relación entre la variable dependiente y la variable independiente. Si miramos
atentamente los datos, encontramos el porqué de todo esto. En la última parte del período, el
margen sobre los beneficios cae y las ganancias netas suben de forma que sugieren una relación
negativa entre ambas variables.
Gráfico de dispersión
1.0
.9
.8
.7
.6
.5
.4
.3
3.0
3.5
4.0
4.5
5.0
Ingresos netos por dólar depositado
Sin embargo, una mirada más atenta de los datos revela un incremento en el número de oficinas
en ese mismo período, sugiriendo la posibilidad de que éste sea el factor causante de descenso en
el margen sobre beneficios. La única forma correcta de desenredar los efectos separados de las
dos variables independientes sobre la variable dependiente será modelándolas juntas en una
misma ecuación de regresión. Este ejemplo muestra cuán importante es, cuando existe más de
una variable independiente relevante, utilizar el modelo de regresión múltiple, en lugar del modelo
de regresión simple.
Interprete la tabla ANOVA del modelo de regresión múltiple
111
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
.402
.063
.464
gl
2
22
24
Media
cuadrática
.201
.003
F
70.661
Sig.
.000 a
a. Variables predictoras: (Constante), número de oficinas, Ingresos netos por dólar
depositado
b. Variable dependiente: margen de beneficio porcentual
F: Cociente entre dos medias cuadráticas. Cuando el valor de F es grande y el nivel de
significación es pequeño (típicamente menor que 0,05 ó 0,01) se puede rechazar la hipótesis nula.
En otras palabras, un nivel de significación pequeño indica que probablemente los resultados no se
deban meramente al azar.
Recordar que la hipótesis nula es todos los coeficientes de regresión parcial son cero. Esta
hipótesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen
ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona
la descomposición de la suma de cuadrados SCT = SCR + SCE.
La primera parte, SCR, es la parte de la variabilidad total debida a la regresión en las variables
independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede
explicarse mediante la regresión.
Coeficientes de regresión parcial
Los coeficientes de regresión parcial, i, miden los cambios esperados en la variable
dependiente, que resultan de un incremento unitario en una de las variables independientes,
cuando el resto de las variables independientes permanecen constantes. En este sentido, los
coeficientes de regresión parcial, describen impactos separados de las variables
independientes en la variable dependiente.
Correlación de orden cero
Coeficientes de correlación ordinarios, sin variables de control. Los valores del coeficiente
de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación, y su
valor absoluto indica la fuerza. Los valores mayores, en valor absoluto, indican que la fuerza
es mayor.
Correlación parcial
La correlación que permanece entre dos variables después de eliminar la correlación que es
debida a su relación mutua con las otras variables. La correlación entre la variable
dependiente y una variable independiente cuando se han eliminado de ambas los efectos
lineales de las otras variables independientes presentes en el modelo.
Correlaciones semiparcial
La correlación entre la variable dependiente y una variable independiente cuando se han
eliminado de la variable independiente los efectos lineales de las otras variables
independientes del modelo. Está relacionada con el cambio en R cuadrado cuando una
variable se añade a una ecuación.
112
c
a
i
a
p
r
n
M
c
1
I
n
4
3
4
d
n
8
6
8
a
V
La correlación parcial entre el margen de beneficio porcentual y los ingresos netos porcentuales
por dólar depositado, cuando el número de oficinas es constante, es 0,67. La correlación parcial
entre el margen de beneficio porcentual y el número de oficinas, cuando los ingresos netos
porcentuales por dólar depositado son constantes es -0,86.
La utilidad fundamental del coeficiente de correlación parcial es un estadístico descriptivo que
proporciona una estimación de la fuerza de la relación. Por consiguiente nuestros hallazgos en los
datos de ahorro y crédito indican dos relaciones bastantes fuertes, con una asociación lineal
parcial positiva entre márgenes de beneficio e ingresos netos, y una asociación lineal negativa
entre márgenes de beneficios y número de oficinas.
El coeficiente de correlación parcial es más apropiado para medir la fuerza de las relaciones
involucradas que el coeficiente de correlación simple. De hecho, utilizar este último puede
llevarnos a conclusiones erróneas. Por ejemplo, el coeficiente de correlación muestral entre
margen de beneficio e ingresos netos es negativo (es –0,70) a pesar de que, como hemos visto,
una vez que se elimina la influencia del número de oficinas, existe una asociación positiva
moderadamente fuerte.
15. Ejercicio: Ventas de Chocolate
En un cierto estudio realizado en un parque de atracciones se halló una correlación significativa y
muy alta entre la temperatura y el número de tazas de chocolate caliente servidas, R = 0,923
p<=0,000. Lo cual es un resultado muy extraño, pues implica que cuanto mayor es la temperatura
más tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable número de
visitantes el resultado es muy diferente.
Considere el archivo CHOCOLAT.sav. Para hallar el coeficiente de correlación parcial entre
temperatura y número de tazas de chocolate caliente controlando el número de visitantes, elegir
Estadísticos/correlaciones/parciales. Se seleccionan y transfieren las variables tazas y
temperatura a la sección “ variables”, se selecciona y transfiere la variable visitant a la sección
“controlando para”, finalmente se pulsa el botón aceptar. La correlación ahora es no significativa,
rp=0,42 p<=0,198. Cuando hace frío, mucha gente (de la poca gente que va) toma chocolate, pero
cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en
verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que
en invierno.
16.
Intervalos de confianza
El resultado más importante, en el cual se basa la inferencia sobre los parámetros del modelo de
regresión múltiple poblacional, es el que se incluye a continuación:
Sea el modelo de regresión poblacional
Yi =
1x1
+
2 x2
+ ... +
k xk
+
i
113
Sean a, b1, b2,…, bk las estimaciones de mínimo cuadrados de los parámetros de la población y
Sa , Sb1 , Sb2 , SbK las estimaciones de las desviaciones típicas de los estimadores de mínimos
cuadrados.
Si se cumplen las hipótesis de regresión, y los términos de error
normal, entonces las variables aleatorias que corresponden a:
a
ta
Sa
y
bi
tbi
i
i
sbi
1, 2,
i
se distribuyen según una
,K
se distribuye según una s de Student con (n – k – 1) grados de libertad.
Habitualmente, el interés se centra en los coeficientes de regresión parcial, i más que en la
constante . Por esta razón, nos concentraremos en los primeros, advirtiendo que la inferencia
sobre la constante sigue los mismos pasos.
Puede obtenerse intervalos de confianza para los
procedimiento se resume de la siguiente forma:
f)
i
utilizando argumentos conocidos. El
Intervalos de confianza para coeficientes de regresión parcial
Si los errores de la regresión poblacional se distribuyen según una normal, y la hipótesis 1-5 de la
Sección 13.3 se cumplen, entonces, los intervalos de confianza del 100 (1 - )% para los
coeficientes de regresión parcial, i son de la forma
bi tn
K
1, / 2
Sbi
donde
tn
K 1, / 2
i
bi
tn
K 1, / 2 Sbi
es el número para el cual
y la variable aleatoria tn
K 1
P tn
K 1
tn
K
1, / 2
2
tiene una distribución t de Student con (n – k – 1) grados de
libertad.
Para la regresión de las entidades de ahorro y crédito, encontramos
n
25
b1
0, 237
sb1
0, 0555
b2
0, 000249
Para obtener intervalos de confianza del 99% para
tn
K
1, / 2
t22,0,005
0,237 - (2,819)(0,0555) <
1
y
2,
0, 0000320
tenemos que
2,819
Por consiguiente, el intervalo de confianza para
0,081 <
1
sb 2
1
del 99% es
1
< 0,237 + (2,819)(0,055)
< 0,393
Luego, el intervalo de confianza del 99% para el incremento esperado en los márgenes de
beneficio resultante de un incremento de una unidad en los ingresos netos, dado un número fijo
de oficinas va desde 0,081 a 0,393. El intervalo de confianza para 2 del 99% es
-0,000249 - (2,8199)(0,0000320) <
2
< -0,000249 + (2,819)(0,0000320)
-0,000339 <
2
< -0,000159
Luego, el intervalo de confianza del 99% para la reducción esperada en los márgenes de beneficio
resultante de un incremento en mil oficinas, para un nivel fijo de ingresos netos, va desde 0,159 a
0,339.
Determine los valores pronosticados y los residuales. Gráficos de normalidad para residuo
tipificado
114
Histograma
Variable dependiente: margen de beneficio porcentual
7
6
5
4
Frecuencia
3
2
Desv. típ. = .96
1
Media = 0.00
N = 25.00
0
-1.50
-1.00
-.50
0.00
.50
1.00
1.50
2.00
Regresión Residuo tipificado
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: margen de beneficio porcentual
1.00
Prob acum esperada
.75
.50
.25
0.00
0.00
.25
.50
.75
1.00
Prob acum observada
Determine el intervalo de confianza para
c
1
y
2.
a
i
c
o
9
m
p
e
M
i
n
1
(
C
0
9
I n
2
2
d
n
6
3
a
V
115
El intervalo de confianza del 95% para el incremento esperado en los márgenes de beneficios
resultante de un incremento de una unidad en los ingresos netos, dado un número fijo de oficinas,
va desde 0,122 a 0,352.
Interprete la tabla ANOVA del modelo de regresión múltiple
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
.402
.063
.464
gl
2
22
24
Media
cuadrática
.201
.003
F
70.661
Sig.
.000 a
a. Variables predictoras: (Constante), número de oficinas, Ingresos netos por dólar
depositado
b. Variable dependiente: margen de beneficio porcentual
F: Cociente entre dos medias cuadráticas. Cuando el valor de F es grande y el nivel de
significación es pequeño (típicamente menor que 0,05 ó 0,01) se puede rechazar la hipótesis nula.
En otras palabras, un nivel de significación pequeño indica que probablemente los resultados no se
deban meramente al azar.
Recordar que la hipótesis nula es todos los coeficientes de regresión parcial son cero. Esta
hipótesis nula, implica que, tomadas de forma conjunta, las variables independientes no tienen
ninguna influencia lineal en la variable dependiente. Las bases de este contraste las proporciona
la descomposición de la suma de cuadrados SCT=SCR+SCE.
La primera parte, SCR, es la parte de la variabilidad total debida a la regresión en las variables
independientes, mientras que la segunda, SCE, es la parte de la variabilidad que no puede
explicarse mediante la regresión.
17.
Heterocedasticidad
Los modelos en los cuales los términos de error no tienen todos la misma varianza se denominan
heterocedásticos. Cuando este fenómeno está presente, el método de mínimos cuadrados no es el
proceso más eficiente para estimar los coeficientes del modelo de regresión.
En la primera parte de esta guía relacionamos los beneficios marginales de las entidades de
ahorro y crédito con las ganancias netas por dólar depositado ( X1) y con el número de oficinas
(X2), mediante el siguiente modelo
Yi
1 X1i
2 X 2i
i
Se estimaron los coeficientes de este modelo eran estimados por el método de mínimos
cuadrados, con el supuesto implícito de que los términos de error tenían todos la misma varianza.
Ahora contrastaremos éste supuesto.
Resultan útiles las técnicas gráficas para detectar heterocedasticidad. En la práctica se elaboran
una serie de gráficos de los residuos i frente a las diferentes variables independientes o frente
a los valores esperados, y se examinan.
Realizar los gráficos de los residuos de la regresión frente a las dos variables independientes.
Para esto se deben guardar primero los residuos no tipificados y los valores pronosticados
seleccionando Regresión/Lineal [Guardar]
116
Gráfico de residuos
.2
Unstandardized Residual
.1
0.0
-.1
3.0
3.5
4.0
4.5
5.0
Ingresos netos por dólar depositado
Gráfico de residuos
3
2
Standardized Residual
1
0
-1
-2
6000
7000
8000
9000
10000
número de oficinas
A partir de estos dos gráficos, no parece que haya ninguna relación sistemática entre las
magnitudes de los residuos y los valores de cada una de las variables independientes.
Ahora realice un gráfico entre los residuos frente a los valores pronosticados.
117
Gráfico de dispersión
Variable dependiente: margen de beneficio porcentual
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
-2.0
-2.5
-2
-1
0
1
2
3
Regresión Residuo tipificado
Parece no haber una relación fuerte entre las magnitudes de los residuos y los tamaños de los
valores predichos de la variable dependiente. Los gráficos no sugieren la presencia de
heterocedasticidad.
Existen procedimientos más estrictos para detectar heterocedasticidad y para estimar los
coeficientes de los modelos de regresión cuando se sospecha que el supuesto de varianzas
constantes de los errores es insostenible. (estos pueden verse en libros especializados de
econometría)
La aparición de errores heterocedásticos puede resultar a partir de estimar un modelo de
regresión lineal en circunstancias en las que un modelo loglineal es el adecuado. El analista,
debería entonces, cuando hay una indicación de heterocedasticidad, considerar la posibilidad de
reestimar el modelo en la forma logarítmica, especialmente si la teoría sugiere que tal
especificación no sería descabellada. Esencialmente, tomar logaritmos aliviará la influencia de las
observaciones grandes. A menudo, el modelo resultante aparecerá libre de heterocedasticidad.
Esta aproximación es apropiada cuando los datos que se están estudiando son series temporales
de variables económicas, tales como el consumo, la renta y el dinero, que tienden a crecer
exponencialmente con el tiempo.
18.
Errores Autocorrelacionados
El contraste que se utiliza es el contraste Durban-Watson y está basado en los residuos de la
estimación por mínimos cuadrados.
f)
Prueba de Durbin Watson:
La prueba más conocida para detectar correlación serial es la desarrollada por los
estadísticos Durbin y Watson. Es comúnmente conocida como el estadístico de Durbin
Watson, el cual se define como
118
t n
ut 1 ) 2
(u t
t 2
d
t n
ut 2
t 2
Que es simplemente la razón de la suma de las diferencias al cuadrado de residuales
sucesivos sobre la SRC.
Una gran ventaja del estadístico d es que está basado en los residuales estimados, que
aparecen sistematizados en los análisis de regresión.
H0: =0 No hay autocorrelación
H1: 0 Existe autocorrelación
Existe un atabla que proporciona los valores para dU y dL para diferentes valores de n y k
(número de var independientes)
Rechace
Ho
Evidencia
de
autocorrela
ción
positiva
0
Zona
de
indeci
sión
dL
No hay
evidencia
autocorrelación
evevidencia
dU
2
Rechace
Zona Ho
Evidencia
de
indeci de
sión autocorrela
ción
negativa
4-dU 4-dL
4
Observación:
Si los errores no están autocorrelacionados se espera que el valor de d esté cercano a
2.
Estime el valor del estadístico de DW para nuestro ejemplo y contraste con los valores de
la tabla
b
d
a
b
í
p
d
i
m
a
R
e
s
M
d
a
g
o
a
1
0
5
3
0
8
a
V
p
b
V
Para n=25 y k=2 se observa en la tabla dL=1,21 y dU =1,5
Como el valor calculado para d es 1,95 , es mayor que dU, la hipótesis nula de no
autocorrelación en los errores será no rechazada.
g)
Multicolinealidad
La colinealidad (o multicolinealidad) es una situación no deseable en la que una de las variables
independientes es una función lineal de otras variables independientes.
119
En las ecuaciones de regresión en las que haya distintas variables independientes, el problema de
la multicolinealidad surgirá cuando existan fuertes correlaciones entra las variables
independientes
El SPSS muestra las tolerancias para las variables individuales y una variedad de estadísticos
para diagnosticar los problemas de colinealidad.
c
a
i
s
t
e
a
r
I
M
a
1
I
5
2
d
n
5
2
a
V
Tolerancia: Estadístico utilizado para determinar la cuantía en que están relacionadas las
variables independientes unas con otras (para ver si son multicolineales). La tolerancia de una
variable es la proporción de su varianza no explicada por las otras variables independientes de la
ecuación. Una variable con una tolerancia muy baja contribuye con poca información a un modelo
(es colineal), y puede causar problemas de cálculo. Se calcula como 1 menos la R cuadrado para
una variable independiente cuando es pronosticada por las otras variables independientes ya
incluidas en el análisis.
FIV: El recíproco de la tolerancia. Cuando el factor de inflación de la varianza crece, también lo
hace la varianza del coeficiente de regresión, haciendo que el estimador sea inestable. Los
valores de VIF grandes son un indicador de la existencia de multicolinealidad.
a
d
s
d
r
e
o
s
ó
c
e
e
l
r
o
c
d
s
s
M
v
D
i
i
t
n
c
1
1
6
0
0
0
0
2
2
5
3
4
2
3
3
1
6
6
8
a
V
Autovalor: Los autovalores ofrecen una indicación de cuántas dimensiones diferentes existen
entre las variables independientes. Cuando varios de los autovalores son próximos a cero, las
variables están muy inter-correlacionadas y los cambios pequeños en los datos pueden conducir a
grandes cambios en las estimaciones de los coeficientes.
Índice de condición: Las raíces cuadradas de las razones del mayor autovalor respecto a cada uno
de los autovalores sucesivos. Un índice de condición mayor que 15 indica un posible problema y un
índice de condición mayor que 30 sugiere un serio problema con la colinealidad.
Proporciones de la varianza: Las proporciones de la varianza del estimador explicadas por cada
componente principal asociada a cada uno de los autovalores. La colinealidad es un problema
cuando una componente asociada a un índice de condición contribuye substancialmente a la
varianza de dos o más variables.
120
V Modelos de regresión múltiple con información cualitativa:
variables binarias (o ficticias) dummy
DESCRIPCIÓN DE INFORMACÓN CUALITATIVA
A menudo, los factores cualitativos adoptan la forma de datos binarios: una persona es mujer
u hombre, una empresa ofrece cierto plan de retiro a los empleados y otra no, una nación
aplica la pena de muerte o no la aplica. En todos estos ejemplos, la información pertinente se
capta definiendo una variable binaria o variable cero y uno.
En econometría, las variables binarias se denominan muy comúnmente variables ficticias, (o
variables dammy) aunque el nombre no es muy descriptivo.
Al definir una variable ficticia, debemos decidir a qué situación se asigna el valor uno y a cuál
cero. Por ejemplo, en un estudio de la determinación de los salarios de los individuos,
definiríamos mujer como una variable binaria que adopte el valor uno para las mujeres y cero
para los hombres. En este caso, el nombre indica la situación con valor uno.
Se captura la misma información definiendo hombre con valor uno si la persona es hombre y
cero si es mujer. Cualquiera de estas formas es mejor que sexo, porque esta denominación no
deja en claro cuándo la variable ficticia es uno. No es importante el nombre que demos a
nuestras variables para obtener resultados de las regresiones, pero siempre ayuda elegir
nombres que clarifiquen ecuaciones y exposiciones.
Supongamos que en el ejemplo del salario elegimos el nombre mujer para indicar el sexo
(mujer es uno y hombre cero). Además, definimos la variable casada que sea igual a uno si la
persona es casada y cero en cualquier otro caso. La tabla 7.1 ofrece una lista parcial de un
posible conjunto de datos sobre el salario. Podemos observar que la persona 1 es una mujer
que no está casada, la persona 2 es mujer casada, la 3 es un hombre no casado, y así
sucesivamente.
¿Por qué utilizamos el cero y el uno para describir información cualitativa? En cierto sentido,
se trata de valores arbitrarios: cualquier par de valores distintos serviría igual. El beneficio
real de capturar información cualitativa con variables cero y uno es que lleva a modelos de
regresión en los que los parámetros tienen interpretaciones muy naturales, como veremos
enseguida.
VARIABLE INDEPENDIENTE FICTICIA ÚNICA
¿Cómo incorporamos la información binaria en los modelos de regresión? En el caso más
simple, con sólo una variable explicativa ficticia, la añadimos como variable independiente de
la ecuación. Por ejemplo, considere el siguiente modelo simple para la determinación del
salario por hora
121
sala =
0
0
mujer
1
educ
u
(7.1)
Usamos 0 como el parámetro de mujer con el fin de destacar la interpretación de los parámetros
que multiplican a las variables ficticias; más adelante emplearemos la notación que resulte más
conveniente.
En el modelo (7.1) sólo dos factores observados influyen en el salario: sexo y educación. Puesto
que mujer = 1 cuando la persona es mujer y mujer = 0 cuando es hombre, el parámetro 0 tiene la
siguiente interpretación: 0 es la diferencia en el salario por hora de mujeres y hombres dada la
misma escolaridad (y el mismo término de error u). Así, el coeficiente 0 determina si hay
discriminación contra las mujeres: si 0 < 0, para el mismo grado de los otros factores, las
mujeres ganan, en promedio, menos que los hombres.
En términos de esperanzas, si suponemos que la media condicional es cero: E(ulmujer,educ) = 0,
entonces
0
= E(sala mujer = 1,educ) - E(sala mujer = 0,educ)
Puesto que mujer = 1 corresponde a las mujeres y mujer = O a los hombres, cabe escribir con más
sencillez
0
= E(salalmujer,educ) - E(salalhombre,educ).
(7.2)
La clave es que el grado la escolaridad es el mismo en ambas esperanzas; la diferencia,
debe nada más al sexo.
0
se
122
La situación se ilustra gráficamente como un desplazamiento de la intercepción entre hombres y
mujeres. En la figura 7.1 se muestra el caso en que 0 < O, es decir, que los hombres ganan un
monto fijo más por hora que las mujeres. La diferencia no depende de los años de instrucción y
esto explica porqué son paralelos los perfiles de salario y escolaridad de mujeres y hombres.
En este punto, se preguntará por qué no incluimos también en (7.1) una variable ficticia, digamos,
hombre, que sea uno para hombres y cero para mujeres. La razón es que sería redundante.
En (7.1), la intercepción para los hombres es 0 y la de mujeres es 0 + 0 . Puesto que nada más
hay dos grupos, sólo necesitamos dos intercepciones distintas. Esto significa que, además de 0
necesitamos sólo una variable ficticia, y la que decidimos incluir fue la de las mujeres. Dos
variables ficticias introducirían colinealidad perfecta, porque mujer + hombre = 1, lo que significa
que hombre es una función lineal perfecta de mujer. Incluir variables ficticias para ambos sexos
es el ejemplo más simple de la denominada trampa de la variable ficticia, que surge cuando
demasiadas de estas variables describen cierto número de grupos.
Gráfica de Salario
hombres
salario
sala
0
Pendiente
1
educ
mujeres
1
sala
0
0
1
educ
0
0+ 0
educ
En (7.1) decidimos que los hombres fueran el grupo básico o grupo de referencia, es decir, el
grupo con el que hacemos las comparaciones. Por esta razón 0 es la intercepción de hombres y 0
es la diferencia de las intercepciones de mujeres y hombres.
Nada cambia demasiado cuando hay más variables explicativas. Si tomamos a los hombres como
grupo básico, un modelo que controla la experiencia y la antigüedad además de la educación es
sala
0
0
mujer
educ
1
2
exp er
3
antig u
(7.3)
123
Si educ, exper y antig son características relevantes de la productividad, la hipótesis nula de la
no diferencia entre hombres y mujeres es Ho: 0 =0. La alternativa de que hay discriminación
contra las mujeres es H1: 0 < 0.
¿Cómo probaríamos en realidad la discriminación salarial? La respuesta es sencilla: estimamos el
modelo mediante MCO, exactamente igual que antes y empleamos el estadístico t habitual. En
nada difiere la mecánica de los MCO o la teoría estadística cuando algunas de las variables
dependientes se definen como ficticias. La única diferencia con lo que hemos hecho hasta aquí
está en la interpretación del coeficiente de la variable ficticia.
EJEMPLO 1
(Ecuación del salario por hora)
Usando los datos en SALA 1.RAW estimamos el modelo en (7.3).
Importar el archivo a SPSS. Por ahora, usamos sala (salario) en lugar, de log(sala) como la
variable dependiente:
saˆla
1.57
1.81 mujer
n
526, R
.572 educ
2
.025 exp
.141 antig
.364
(7.4)
La intercepción negativa en este caso, la de los hombres, no es muy significativa, puesto que en la
muestra nadie está cerca de cero años en educ, exper y antig. El coeficiente de mujer es
interesante porque mide la diferencia promedio en el salario por hora entre una mujer y un
hombre dados los mismos niveles de educ, exper y antig. Si tomamos un hombre y una mujer con
los mismos grados de escolaridad, experiencia y antigüedad, la mujer gana, en promedio, 1.81
dólares menos por hora que el hombre (no olvide que son dólares de 1976).
Es ilustrativo comparar el coeficiente de mujer en la ecuación (7.4) con el estimador que
obtenemos cuando se eliminan todas las demás variables explicativas:
saˆla
7.10
0.21
n
526, R
2.51 mujer
0.30
2
(7.5)
.116.
Los coeficientes en (7.5) tienen una interpretación simple. La intercepción es el salario promedio
de los hombres de la muestra (con mujer = 0), de modo que ellos, en promedio, ganan 7.10 dólares
por hora. El coeficiente de mujer es la diferencia en el salario promedio de hombres y mujeres.
Así, el salario promedio de las mujeres de la muestra es de 7.10 - 2.51 = 4.59 dólares por hora
(dicho sea de paso, en la muestra hay 274 mujeres y 252 hombres).
La ecuación (7.5) proporciona una manera sencilla de efectuar una prueba de comparación de
medias entre los dos grupos, que en este caso son hombres y mujeres. La diferencia estimada, 2.51, tiene un estadístico t de -8.37, que es estadística mente significativo. En general, la
regresión simple en una constante y una variable ficticia es una forma directa de comparar las
medias de dos grupos. Para que la prueba t usual sea válida, debemos asumir que es verdadera la
suposición de homoscedasticidad, lo que significa que la varianza poblacional de los salarios de los
hombres es igual a la de las mujeres.
124
La diferencia salarial estimada entre hombres y mujeres es mayor en (7.5) que en (7.4) por que la
primera no controla las diferencias en educación, experiencia ni en antigüedad y, en la muestra,
estas son menores entre las mujeres que entre los hombres. La ecuación (7.4) da una estimación
más confiable de la brecha, ceteris paribus, entre los salarios de ambos sexos y es de todos
modos una diferencia muy grande.
EJEMPLO 2 (Efectos de tener una computadora en el promedio de
calificaciones en la universidad)
Con el fin de determinar los efectos de tener una computadora en el promedio de calificaciones
en la universidad, estimamos el modelo
colGPA
0
0
PC
hsGPA
1
2
ACT
u
en el que la variable ficticia PC es igual a uno si un estudiante posee una computadora personal y
cero de otro modo. Hay varias razones por las que ser dueño de una PC tendría un efecto en
colGPA
El trabajo del estudiante sería de mayor calidad si lo hace en computadora y se ahorraría el
tiempo de espera en el laboratorio de computación. Desde luego, algún estudiante quizá se
sintiera más inclinado a entretenerse con los juegos de la máquina o a navegar por Internet si
tiene la computadora, así que no es tan obvio que 0 sea positiva. Las variables hsGPA (el
promedio en preparatoria) y ACT (la calificación en la prueba de rendimiento) sirven de control:
podría ser que los, mejores estudiantes, según las calificaciones de preparatoria y rendimiento,
tengan más probabilidades de poseer una computadora. Controlamos estos factores porque
quisiéramos conocer efecto promedio en colGPA si se toma un estudiante al azar y se le da una
computadora personal.
Con los datos de GPA 1.RAW, obtenemos
colˆGPA
1.26
0.33
.157 PC
.057
n
.447 hsGPA
.094
141, R 2
.0087 ACT
.0105
.219.
Esta ecuación implica que un estudiante que cuenta con su PC tiene un promedio de calificaciones
pronosticado de alrededor de .16 puntos superior a un estudiante comparable sin computadora
(recuerde que tanto colGPA como hsGPA se miden en una escala de cuatro puntos). El efecto
también es estadísticamente significativo, ya que tpc = .157/.057 = 2.75.
¿Qué sucede si eliminamos hsGPA y AGde la ecuación? Es evidente que suprimir la última variable
tendrá muy poco efecto, ya que su coeficiente y su estadístico t son muy pequeños. Pero hsGPA
es muy significativa y quitarla influirá en la estimación de pc. Hacer la regresión de colGPA
sobre PC da un estimador de PC igual a aproximadamente .170, con un error estándar de .063; en
este caso, pc. y su estadístico t no cambian mucho.
125
Los ejemplos anteriores tienen relevancia para el análisis de políticas. Un caso especial de análisis
de políticas es la evaluación de programas, en la que quisiéramos conocer el efecto de los
programas económicos o sociales en individuos, empresas, vecindarios, ciudades, etcétera.
En el caso más simple, hay dos clases de sujetos. El grupo de control no participa en el programa,
sino sólo el grupo experimental o de tratamiento. Estos nombres proceden de la bibliografía de
las ciencias experimentales y no han de ser tomados literalmente. Salvo en contados casos, no se
eligen al azar los grupos de control y experimental; no obstante, en algunos el análisis de
regresión múltiple sirve para controlar bastantes de los otros factores y estimar el efecto causal
del programa.
EJEMPLO 3 (Efectos de los subsidios a la capacitación en las horas de
instrucción)
Usando los datos para 1988 de las compañías manufactureras de Michigan que se encuentran en
CAPAClTA.RAW, obtenemos la siguiente ecuación estimada:
hcaˆpa
46.67
43.41
26.25 subs
.98 log vtas
5.59
3.54
6.07 log ntrab
(7.7)
3.88
n
105, R 2
.237.
La variable dependiente son las horas de capacitación por empleado, a nivel de la compañía
(hcapa). La variable subs, el subsidio, es ficticia, e igual a uno si la empresa recibió subsidio en
1988 para capacitación laboral y cero si no fue así. Las variables vtas y ntrab representan las
ventas anuales y el número de trabajadores, respectivamente. No podemos introducir hcapa en
forma logarítmica, porque es cero en 29 de las 105 empresas usadas en la regresión.
La variable subs es estadísticamente muy significativa, ya que tsubs = 4.70. Al controlar ventas y
empleo, las compañías que recibieron subsidio capacitaron a cada trabajador, en promedio, 26.25
horas más. Puesto que este promedio de horas es en la muestra de alrededor de 17, con un
máximo de 164, subs tiene un efecto notable en la capacitación, como se esperaba.
El coeficiente de log(vtas) es pequeño y muy insignificante. El coeficiente de log(ntrab) significa
que, si una empresa es 10% mayor, capacita a sus trabajadores alrededor de .61 horas menos; su
estadístico t es -1.56, que sólo de modo marginal es estadística mente significativo.
Como con cualquier otra variable independiente, debemos preguntar si el efecto medido de una
variable cualitativa es causal. En la ecuación (7.7), ¿la diferencia en capacitación entre las
empresas se debe al subsidio que reciben, o el subsidio es un indicador de otra cosa? Quizá las
empresas que reciben subsidios han capacitado más a sus trabajadores, en promedio, que las que
no lo reciben. Nada en el análisis indica si estimamos un efecto causal; debemos saber cómo se
clasificaron a las empresas para que recibieran el subsidio. Sólo esperamos que hayamos
controlado tantos factores como fuese posible, que se relacionan con el que cada empresa
recibiera subsidio y con su grado de capacitación.
Interpretación de los coeficientes de las variables explicativas ficticias cuando la variable
dependiente es log(y)
126
Una especificación común del trabajo aplicado hace que la variable independiente aparezca en
forma logarítmica, con una o más variables ficticias como independientes. En este caso, ¿cómo
interpretamos los coeficientes de las variables ficticias? No es de sorprender que los
coeficientes tengan una interpretación porcentual.
EJEMPLO 4 (Regresión de precios de la vivienda)
A partir de los datos de PRECIOV1.RAW, obtenemos la ecuación
log precio
5.56
.168 log tlote
.707 log piecuad
0.65
.038
.093
.027 brecams
.054 colonial
.029
n
(7.8)
.045
88, R 2
.649.
Todas las variables son las que ya conocemos, excepto colonial, una variable binaria igual a uno si
la casa es de estilo colonial. ¿Qué significa eI coeficiente de colonial? Para cantidades dadas de
tlote, piecuad y recams, la diferencia en log(precio) entre una casa de estilo colonial y otra de
estilo distinto es .054, lo que quiere decir que se predice que la casa colonial se venda en
aproximadamente 5.4% más, manteniendo constantes los demás factores.
Este ejemplo muestra que, cuando log(y) es la variable dependiente en un modelo, el coeficiente
de una variable ficticia, al multiplicado por 100, se interpreta como la diferencia porcentual en y,
manteniendo fijos los demás factores. Cuando el coeficiente de una variable ficticia indica un
gran cambio proporcional en y, la diferencia exacta en el porcentaje se obtiene exactamente
como el cálculo de la semielasticidad.
127
EJEMPLO 5
(Ecuación del logaritmo del salario por hora)
Estimemos de nuevo la ecuación del salario del ejemplo 1, con log(sala) como la variable
dependiente y agreguemos los cuadrados de exper y de antig:
log saˆla
.417
.099
.297 mujer
.080 educ
.029 exp er
.036
.007
.005
.00058 exp er
2
.00020
.032 antig
.00059 antig2
.007
.00023
526, R 2
n
.441.
Mediante la misma aproximación que en el ejemplo 4, el coeficiente de mujer implica que, para los
mismos niveles de educ, exper y antig, las mujeres ganan aproximadamente 100(.297) = 29,7%
menos que los hombres. Podemos mejorar esto si calculamos la diferencia porcentual exacta
entre los salarios pronosticados. Lo que queremos es la diferencia proporcional de los salarios
entre hombres y mujeres, manteniendo fijos los demás factores:
(sala M- salaH)/salaH.
De (7.9), tenemos que
log saˆlaM
log saˆlaH
.297.
Sacamos exponencial y restamos uno:
saˆlaM
saˆlaH / saˆlaH
exp .297
1
.257.
Esta estimación más exacta implica que el salario de una mujer es, en promedio, 25.7% inferior al
salario equivalente de un hombre.
Si hubiéramos hecho la misma corrección en el ejemplo 4, habríamos obtenido exp(.054) - 1 =
.0555, o alrededor de 5.6%. La corrección tiene un efecto menor en el ejemplo 4 que en el del
salario, porque la magnitud del coeficiente de la variable ficticia es mucho menor en (7.8) que en
(7.9).
En general, si SI es el coeficiente de una variable ficticia, digamos XI' cuando log(y) es la
variable dependiente, la diferencia porcentual exacta en la y pronosticada cuando XI = 1 en
comparación con el caso en que XI = 0 es
100 exp ˆ1
El estimador
1 .
ˆ puede ser positivo o negativo y es importante conservar su signo al calcular
1
(7.10).
128
VARIABLES FICTICIAS PARA MÚLTIPLES CATEGORÍAS
Podemos tener más de una variable independiente ficticia en la misma ecuación; por ejemplo,
podríamos añadir la variable ficticia casada (estado civil casada) a la ecuación (7.9). El
coeficiente de casada da la diferencia proporcional (aproximada) de salarios de quienes están
casados y quienes no, manteniendo fijos el sexo, educ, exper y antig. Cuando estimamos el
modelo, el coeficiente de casada (con el error estándar entre paréntesis) es .053 (.041) Y el
coeficiente de mujer se convierte en -.290(0.36). Así, se estima que el "premio por estar
casado" es de alrededor de 5.3%, pero estadísticamente no es diferente de cero (t = 1.29). Una
limitación importante de este modelo es que supone que el premio por estar casado es el mismo
para hombres que para mujeres; ésto la suavizamos en el ejemplo siguiente.
EJEMPLO 6
(Ecuación del logaritmo del salario por hora)
Estimemos un modelo que considere las diferencias del salario entre cuatro grupos: casados,
casadas, solteros y solteras. Para hacerlo, debemos elegir un grupo básico; optemos por solteros.
A continuación, tenemos que definir variables ficticias para los grupos restantes, a los que
nombraremos casados, casadas y solteras. Al introducir estas variables en (7.9) (y, desde luego,
eliminar mujer que ahora es redundante), tenemos
log saˆla
.321
.213 casados
.198 casadas
.100
.055
.058
.110 solteras
.079 educ
.027 exp er
.00054 exp er 2
.056
.007
.005
.00011
.00053 antig2
.029 antig
.007
n
.00023
526, R
2
.461.
Todos los coeficientes, con excepción del de solteras, tienen estadísticos t muy arriba de dos en
valor absoluto. El estadístico t de solteras es de alrededor de -1.96, que sólo es significativo al
nivel del 5% contra una alternativa bilateral.
Para interpretar los coeficientes de las variables ficticias, debemos recordar que el grupo básico
es solteros. Así, las estimaciones de las tres variables ficticias miden la diferencia proporcional
del salario en relación con los solteros. Por ejemplo, se estima que los casados ganan alrededor de
21.3% más que los solteros, manteniendo fijos los niveles de educación, experiencia y antigüedad
[el estimador más preciso de (7.10) es de más o menos 23.7%]. Por su parte, una casada gana,
como se predijo, 19.8% menos que un soltero con las mismas cifras para las otras variables.
Puesto que el grupo básico está representado por la intercepción en (7.11), incluimos variables
ficticias sólo para tres de los cuatro grupos. Si añadiéramos una variable ficticia para los
solteros en (7.11), caeríamos en la trampa de la variable ficticia e introduciríamos colinealidad
perfecta. Algunos paquetes de regresión corrigen automática mente este error, en tanto que
otros se limitan a indicar que hay colinealidad perfecta. Lo mejor es especificar con cuidado las
variables ficticias, porque nos obliga a interpretar adecuadamente el modelo final.
Aunque solteros es el grupo básico en (7.11), podemos utilizar esta ecuación para obtener la
diferencia estimada entre dos grupos cualesquiera. Dado que la intercepción general es común a
129
todos los grupos, podemos ignorarla al buscar las diferencias. Así, la diferencia proporcional
estimada entre solteras y casadas es de - .110 - (- .198) = .088, lo que significa que las solteras
ganan alrededor de 8.8% más que las casadas. Por desgracia, no podemos tomar la ecuación (7.11)
para verificar si la diferencia estimada entre el salario de las solteras y las casadas es
estadísticamente significativa. No basta conocer los errores estándares de casadas y solteras
para realizar la prueba (véase la sección 4.4). Lo más fácil de hacer es decidir que uno de estos
grupos sea el básico y volver a estimar la ecuación. Nada sustantivo cambia, pero conseguimos
directamente el estimador que necesitamos y su error estándar. Cuando tomamos casadas como
grupo básico, obtenemos
log saˆla
.123
.411 casados
.198 solteros
.056
.058
.106
.088 solteras
,
.052
en donde, desde luego, no ha cambiado ninguno de los coeficientes o errores estándares que no se
reportan . El estimador de solteras es, como esperábamos, de .088. Ahora, contamos con un error
estándar para ese estimador. El estadístico t para la hipótesis nula de que no hay diferencia
poblacional entre los salarios de las casadas y las solteras es tsolteras = .088/.092 = 1.69. Se
trata de evidencias marginales contra la hipótesis nula. También vemos que la diferencia estimada
entre casados y casadas es estadísticamente muy significativa (tcasados = 7.34).
El ejemplo anterior ilustra un principio general para incluir variables ficticias que indiquen
grupos diferentes: si el modelo de regresión considera g grupos o categorías, debemos
incluir g - 1 variables ficticias junto con una intercepción. La intercepción del grupo básico
es la intercepción general del modelo y el coeficiente de la variable ficticia de determinado
grupo representa la diferencia estimada de las intercepciones entre tal grupo y el básico.
Incluir g variables ficticias junto con una intercepción llevará a la trampa de la variable
ficticia. Una alternativa es incluir g variables ficticias y excluir la intercepción general. No
es aconsejable porque se vuelve difícil verificar las diferencias en relación con el grupo
básico y algunos paquetes de regresión alteran la forma de calcular las R cuadradas cuando
las regresiones no tienen intercepción.
Ejercicio: Desempleados
Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un
estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que
pueden tener relación con la cantidad de semanas que un empleado está desempleado. La variable
dependiente en el estudio es “Semanas” y se define como la cantidad de semanas que ha estado
desempleado un trabajador a causa de su despido.
En el estudio se emplearon las siguientes variables independientes:
Variable
edad
antig
profesional
Etiqueta
Edad del trabajador
Antigüedad en el último empleo (en
años)
1 = Sí
0 = No
El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos.
130
Desde la pregunta a) hasta la d) no considere la variable dami profesional
a) Realice un diagrama de dispersión para cada variable independiente con la variable
dependiente. ¿Qué puede observar del gráfico?
Diagrama de Dispersión entre Semanas Desempleado
Diagrama de Dispersión entre Semanas Desempleado
y Antiguedad en último Empleo
90
90
80
80
70
70
60
60
50
50
40
40
SEMANAS
SEMANAS
y Edad de la persona
30
20
10
30
20
Rsq = 0,7216
10
20
30
40
50
10
60
Rsq = 0,2164
0
edad
10
20
30
40
ANTIG
En los diagramas de dispersión se puede observar que existe una correlación positiva entre las
variables. En el caso de la edad vs. semanas, la correlación es positiva alta mientras que en el caso
de la antigüedad vs. semanas, la correlación es positiva pero media.
b)
Determine la matriz de correlaciones. ¿Qué puede observar? (10 pts.)
Correlations
SEMANAS
edad
ANTIG
SEMANAS
1,000
,
50
,849**
,000
50
,465**
,001
50
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
edad
,849**
,000
50
1,000
,
50
,490**
,000
50
ANTIG
,465**
,001
50
,490**
,000
50
1,000
,
50
**. Correlation is significant at the 0.01 level (2-tailed).
En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las
semanas de desempleo como la correlación entre la antigüedad y las semanas de desempleo son
significativas al 99%.
c)
Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del
modelo e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables
independientes? Argumente.
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
10999,684
4176,496
15176,180
df
2
47
49
Mean Square
5499,842
88,862
F
61,892
Sig.
,000a
a. Predictors: (Constant), ANTIG, edad
b. Dependent Variable: SEMANAS
131
Coefficientsa
Model
1
(Constant)
edad
ANTIG
Unstandardized
Coefficients
B
Std. Error
-17,428
5,983
1,794
,192
,195
,264
Standardi
zed
Coefficien
ts
Beta
t
-2,913
9,318
,739
,818
,065
Sig.
,005
,000
,464
a. Dependent Variable: SEMANAS
El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto,
permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto
de variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), puesto que es
menor que 0,05, indica que sí existe relación lineal significativa.
Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un
buen ajuste a la nube de puntos.
Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa
que es significativa al 95%. Sin embargo, la significancia de la variable antigüedad es mayor a
0,05 por lo que se acepta la hipótesis nula de que su valor es igual a cero.
d)
Determine la ecuación de un modelo donde todas las variables sean significativas.
Interprete el coeficiente R y el R cuadrado.
Model Summary
Model
1
R
,849a
R Square
,722
Adjusted
R Square
,716
Std. Error of
the Estimate
9,38
a. Predictors: (Constant), edad
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
10951,194
4224,986
15176,180
df
1
48
49
Mean Square
10951,194
88,021
F
124,416
Sig.
,000a
a. Predictors: (Constant), edad
b. Dependent Variable: SEMANAS
Coefficientsa
Model
1
(Constant)
edad
Unstandardized
Coefficients
B
Std. Error
-18,179
5,868
1,863
,167
Standardi
zed
Coefficien
ts
Beta
,849
t
-3,098
11,154
Sig.
,003
,000
a. Dependent Variable: SEMANAS
Este modelo lineal simple tiene una significancia menor a 0,05 para su variable independiente por
lo que es significativa al 95%.
132
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para
los desempleados existe una alta correlación positiva entre las variables SEMANAS y EDAD. Por
otra parte, el valor R2 = 0,722 indica que la variación en las semanas de desempleo puede ser
explicada en un 72,2% por la variación de la EDAD.
e)
¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los
coeficientes de las variables independientes del último modelo.
Model Summary
Model
1
R
,891a
R Square
,794
Adjusted
R Square
,785
Std. Error of
the Estimate
8,16
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO),
edad
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
12048,898
3127,282
15176,180
df
2
47
49
Mean Square
6024,449
66,538
F
90,542
Sig.
,000a
,900
t
-3,808
13,361
Sig.
,000
,000
-,274
-4,062
,000
a. Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edad
b. Dependent Variable: SEMANAS
Coefficientsa
Model
1
(Constant)
edad
Es profesional
( 1=SI, 0=NO)
Unstandardized
Coefficients
B
Std. Error
-19,465
5,112
1,975
,148
-11,512
2,834
Standardi
zed
Coefficien
ts
Beta
a. Dependent Variable: SEMANAS
Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable
dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el
valor del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las
variables independientes son significativas.
El coeficiente asociado a la EDAD indica que, al mantenerse constante el resto de las variables, la
variación en un año de EDAD, en promedio aumenta en 1,975 semanas el tiempo de desempleo. Por
otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que una persona
profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera
profesional.
Las ecuaciones son:
para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD
para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD
f)
Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad
de los residuos y homocedasticidad.
133
Tests of Normality
a
Standardized Residual
Kolmogorov-Smirnov
Statistic
df
Sig.
,088
50
,200*
Shapiro-Wilk
df
50
Statistic
,970
Sig.
,407
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hipótesis de normalidad.
La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos
analizados, se usa el valor de Kolmogorov-Smirnov.
Scatterplot
Dependent Variable: SEMANAS
Regression Standardized Residual
2
1
0
-1
-2
-3
-2
-1
0
1
2
3
Regression Standardized Predicted Value
Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se
encuentran distribuidos en forma aleatoria sin seguir ningún patrón.
Ejercicio:
Consideremos el modelo (ANCOVA) de la siguiente manera:
Yi
donde
1
2 Di
Xi
(15.2.1)
ui
Yi = salario anual de un profesor universitario
X i = años de experiencia docente
Di = 1 si es hombre
= 0 si no lo es
El modelo (15.2.1) contiene una variable cuantitativa (años de experiencia docente) y una variable
cualitativa (sexo) que tiene dos clases (o niveles. clasificaciones o categorías) a saber, hombres y
mujeres.
¿Cuál es el significado de (15.2.1)? Suponiendo, como es usual. que E( u i ) = 0, se observa que
El salario promedio de una profesora universitaria:
E Yi X i , Di
0
1
Xi
(15.2.2)
134
El salario promedio de un profesor universitario:
E Yi X i , Di
1
1
2
Xi
(15.2.3)
Geométricamente, se tiene la situación que se muestra en la figura 15.2 (como ilustración se
supone que 1 > 0). En palabras, el modelo (15.2.1) postula que las funciones salario de los
profesores y de las profesoras universitarias con relación a los años de experiencia docente
tienen la misma pendiente ( ), pero interceptos diferentes. En otras palabras, se supone que el
nivel del salario promedio de los profesores difiere de aquél de las profesoras (en
2
). pero la
tasa de crecimiento en el salario anual promedio por años de experiencia es el mismo para ambos
sexos.
Si el supuesto de una pendiente común es válido, una prueba de la hipótesis de que las dos
regresiones (15.2.2) y (15.2.3) tienen el mismo intercepto (es decir, que no hay discriminación
sexual) puede hacerse fácilmente efectuando la regresión (15.2.1) y evaluando la significancia
estadística del 2 estimado con base en la prueba t tradicional. Si la prueba t muestra que 2
es estadísticamente significativo, se rechaza la hipótesis nula de que los niveles de salario anual
promedio de los profesores y las profesoras universitarias sean iguales.
Antes de proceder, obsérvense las siguientes características del modelo de regresión con
variables dicótomas considerado anteriormente.
1. Para diferenciar las dos categorías, hombres y mujeres, se ha introducido solamente una
variable dicótoma Di . Si Di = 1 siempre representa hombres, se sabe que Di = 0 es
mujeres puesto que solamente hay dos resultados posibles. Por tanto, es suficiente una
variable dicótoma para diferenciar dos categorías. Supóngase que el modelo de regresión
contiene un término de intercepto; si se fuera a escribir el modelo (15.2.1) como
Yi
1
2 D2i
3 D3i
Xi
ui (15.2.4)
135
donde Yi y X i son como se definieron antes
D2i
es un profesor
1
= 0
no lo es
es una profesora
= 0
no lo es
D3i = 1
entonces, el modelo (15.2.4), como está planteado, no puede ser estimado debido a la presencia de
colinealidad perfecta entre D2 y D3 . Para ver esto, supóngase que se tiene una muestra de
tres profesores hombres y dos profesores mujeres. La matriz de datos tendrá una apariencia
como la siguiente:
Hombres
Y1
Hombres Y2
Mujeres
Y3
Hombres Y4
Mujeres
Y5
D2
D3
1
1
0
1
1
0
1
0
1
1
1
0
1
0
1
X
X1
X2
X3
X4
X5
La primera columna a la derecha de la matriz de datos anterior representa el término de
intercepto común al. Ahora puede verse fácilmente que D2 = 1 - D3 o D3 = 1 - D2 ; es decir, D2
y D3 son perfectamente colineales. En casos de multicolinealidad perfecta, la estimación MCO
usual no es posible. Hay diversas formas de resolver este problema, pero la más simple es asignar
las variables dicótomas en la forma que se hizo para el modelo (15.2.1), a saber, utilícese
solamente una variable dicótoma si hay dos niveles o clases de la variable cualitativa. En este
caso, la matriz de datos anterior no tendrá la columna titulada D3 evitando así el problema de
multicolinealidad perfecta. La regla general es ésta: Si una variable cualitativa tiene m
categorías, introdúzcase solamente m - 1 variables dicótomas. En el ejemplo, el sexo tiene
dos categorías y, por tanto, se introdujo solamente una variable dicótoma. Si esta regla no
se sigue. se caerá en lo que podría llamarse la trampa de la variable dicótoma, es decir, la
situación de multicolinealidad perfecta.
2. La asignación de los valores 1 y 0 a las dos categorías, tales como hombres y mujeres, es
arbitraria en el sentido de que en el ejemplo se hubiera podido asignar D = 1 para mujeres y D
= 0 para hombres. En esta situación, las dos regresiones obtenidas de (15.2.1) serán
Profesora universitaria:
E Yi X i , Di
Profesor universitario: E Yi X i , Di
0
1
1
1
Xi
2
Xi
En contraste con (15.2.2) y (15.2.3) en los modelos anteriores,
2
dice en cuánto difiere el
salario promedio de una profesora universitaria del salario promedio de un profesor
universitario. En este caso, sí hay discriminación sexual, se espera que 2 sea negativo,
136
mientras que antes se esperaba que fuera positivo. Por consiguiente, al interpretar los
resultados de los modelos que utilizan variables dicótomas, es de gran importancia saber la
forma como los valores de 1 y de 0 han sido asignados.
3. Frecuentemente se hace referencia al grupo, categoría o clasificación al cual se asigna el valor
de 0 como la categoría base, marca fija, control, comparación, referencia o categoría omitida.
Esta es la base en el sentido de que se hacen comparaciones con respecto a esa categoría.
Así, en el modelo (15.2.1), la profesora es la categoría base. Obsérvese que el término de
intercepto (común) es el término de intercepto para la categoría base en el sentido de que si
se efectúa la regresión con D = 0, es decir, sobre el sexo femenino solamente, el intercepto
será 1 . Obsérvese también que sea cual fuere la categoría que sirve como base, éste es un
4.
asunto de selección que algunas veces obedece a consideraciones a priori.
El coeficiente 2 que acompaña a la variable dicótoma D puede llamarse coeficiente de
intercepto diferencial porque dice qué tanto difiere el valor del término de intercepto de la
categoría que recibe el valor de 1 del coeficiente del intercepto de la categoría base.
Ejemplo: Regresión sobre una variable cuantitativa y una variable cualitativa con
más de dos categorías
Supóngase que, con base en la información de corte transversal. se desea efectuar la regresión
del gasto anual en salud por parte de un individuo sobre el ingreso y la educación del individuo.
Puesto que la variable educación es cualitativa por naturaleza. supóngase que se consideran tres
niveles de educación mutuamente excluyentes: primaria, secundaria y universitaria. Ahora, a
diferencia del caso anterior, se tienen más de dos categorías de la variable cualitativa educación.
Por consiguiente, siguiendo la regla de que el número de variables dicótomas sea uno menos
que el número de categorías de la variable, se deben introducir dos variables dicótomas
para cubrir los tres niveles de educación. Suponiendo que los tres grupos educacionales tienen
una pendiente común pero diferentes interceptos en la regresión del gasto anual en salud sobre
el ingreso anual, se puede utilizar el siguiente modelo:
Yi
donde
1
2 D2i
3 D3i
Xi
ui
(15.3.1)
Yi = gasto anual en salud
X i = ingreso anual
D2 = 1 si es educación secundaria
D3
= 0 si es otro tipo de educación
= 1 si es educación universitaria
= 0 si es otro tipo de educación
Obsérvese que en la asignación anterior de las variables dicótomas, se considera arbitraria la
categoría «educación primaria» como la categoría base. Por consiguiente, el intercepto reflejará
el intercepto para esta categoría. Los interceptos diferenciales
2 y
3 dicen qué tanto
difieren los interceptos de las otras dos categorías del intercepto de la categoría base, lo cual
puede verificarse fácilmente de la siguiente manera: Suponiendo que E ui
0 , se obtiene de
(15.3.1)
137
E Yi D2
0, D3
E Yi D2
1, D3
0, X i
1
2
Xi
E Yi
0, D3
1, X i
1
3
Xi
D2
0, X i
Xi
1
que son las funciones de gasto promedio en salud para los tres niveles de educación, a saber, la
educación primaria. secundaria y universitaria. Geométricamente, la situación se muestra en la
figura 15.3 (para fines ilustrativos se supone que 3 > 2 ).
Una vez efectuada la regresión (15.3.1), se puede encontrar fácilmente si los interceptos
diferenciales 2 y 3 son estadísticamente significativos a nivel individual, es decir, diferentes
al grupo base.
A propósito, obsérvese que la interpretación de la regresión (15.3.1) cambiaría si se hubiera
adoptado un esquema diferente de asignación a las variables dicótomas. Por tanto, si se asigna
D2 = 1 a la categoría «educación primaria», y D3 = 1 a la categoría de «educación secundaria», la
categoría de referencia será entonces la «educación universitaria» y todas las comparaciones se
harán en relación con esta categoría.
Ejemplo: Regresión con una variable cuantitativa y dos variables cualitativas
La técnica de la variable dicótoma puede extenderse fácilmente para manejar más de una
variable cualitativa. Retornando a la regresión de salarios de profesores universitarios (15.2.1),
pero suponiendo ahora que adicional mente a los años de experiencia docente y al sexo, la raza del
profesor es también un determinante importante del salario. Por simplicidad, supóngase que la
raza tiene dos categorías: negra y blanca. Ahora se puede escribir (15.2.1) como
Yi
donde
1
2 D2i
3 D3i
Xi
ui
Yi = salario anual
X i = años de experiencia de enseñanza
D2 = 1 si es hombre
= 0 si no lo es
D3 = 1 si es blanco
= 0 si no lo es
138
Obsérvese que cada una de las dos variables cualitativas, el sexo y la raza, tiene dos categorías y,
por tanto, se requiere de una variable dicótoma para cada una. Obsérvese además que la
categoría omitida, o base, ahora es «profesora negra». .
Suponiendo que E ui = 0, se puede obtener la siguiente regresión a partir de (15.4.1):
Salario promedio de una profesora negra:
E Yi D2
0, D3
0, X i
Salario promedio de un profesor negro:
E Yi D2 1, D3 0, X i
Salario promedio de una profesora blanca:
E Yi D2 0, D3 1, X i
Salario promedio de un profesor blanco:
E Yi D2 1, D3 1, X i
1
Xi
1
2
1
1
Xi
Xi
3
2
3
Xi
Una vez más, se supone que las regresiones anteriores difieren solamente en el coeficiente del
intercepto pero no en el coeficiente de la pendiente
.
Una estimación MCO de (15.4.1) permitirá probar una diversidad de hipótesis. Por tanto, si
3
estadísticamente significativo, dirá que la raza afecta el salario de los profesores. En forma
similar, si 2 es estadísticamente significativo, implicará que el sexo también afecta el salario de
los profesores. Si estos dos interceptas diferenciales son estadísticamente, significativos,
querrá decir que tanto el sexo como el color son determinantes importantes de los salarios de los
profesores.
Del análisis anterior se deduce que se puede extender el modelo para incluir más de una variable
cuantitativa y más de dos variables cualitativas. La única precaución que debe tomarse es que el
número de variables dicótomas para cada variable cualitativa debe ser una menos que el número
de categorías de esa variable.
Ejemplo: La economía del "doble empleo»
Una persona que posee dos o más empleos, uno primario y uno o más secundarios, se conoce como,
“doble empleada” Shisko y Rostker estaban interesados en encontrar cuáles factores
determinaban los salarios de las personas doblemente empleadas. Con base en una muestra de 318
personas con doble empleo, ellos obtuvieron la siguiente regresión, la cual se presenta en la
notación utilizada por los autores (los errores estándar en paréntesis):
Wˆ m
37 .07
0.403 w0
90 .06 raza
75 .51 urbano
(0.062)
(24.47)
(21.60)
+ 47.33 bach + 113.64 reg + 2.26 edad
(23.42)
(27.62)
(0.94)
R 2 = 0.34
g de 1 = 311
139
donde
wm
w0
=
salario del doble empleado (centavos de dólar/hora)
=
salario principal (centavos de dólar/hora)
raza
=
=
=
=
=
=
=
=
=
0 si es blanco
1 si no lo es
0 si no es urbano
1 si lo es
0 si no es occidente
1 si es occidente
0 no es graduado de bachiller
1 es graduado de bachiller
edad, años
urbano
reg
bach
edad
En el modelo (15.5.1), hay dos variables explicativas cuantitativas w0 y la edad y cuatro variables
cualitativas. Obsérvese que los coeficientes de todas estas variables son estadísticamente
significativos al nivel del 5%. Lo que es interesante de anotar es que todas las variables
cualitativas afectan los salarios del doble empleo significativamente. Por ejemplo, manteniendo
todos los demás factores constantes, se espera que el nivel de salario hora sea más alto en un
nivel alrededor de 47 centavos para la persona graduada de bachiller que para aquellos sin grado
de bachiller.
De la regresión (15.5.1), se pueden derivar diversas regresiones individuales, dos de las cuales son
las siguientes: la media de la tasa de salarios hora de personas blancas, no urbanas, de una región
no occidental y no graduados con doble empleo (es decir, cuando todas las variables dicótomas
son iguales a cero) es
ˆm
w
37.07
0.403w0
2.26 edad
La media de la tasa de salarios-hora de una persona no blanca, urbana, del occidente, bachiller (es
decir. cuando todas las variables dicótomas son iguales al) es
ˆm
w
183.49
0.403w0
2.26 edad
Prueba de estabilidad estructural de los modelos de regresión
Hasta ahora, en los modelos considerados en este capítulo, se supuso que las variables
cualitativas afectan al intercepto pero no al coeficiente de pendiente de los diversos subgrupos
de regresión. Pero, ¿qué sucede si las pendientes también son diferentes? Si las pendientes son
en realidad diferentes, la prueba de las diferencias en los interceptos puede ser de poca
significancia práctica. Por consiguiente, se requiere desarrollar una metodología general para
encontrar si una o más regresiones son diferentes, donde la diferencia pueda estar en los
interceptos o en las pendientes o en ambos. Para ver la forma como esto puede hacerse,
considérese la información sobre ahorro-ingreso para el Reino Unido dada en la tabla 8.8, la cual,
por conveniencia, se reproduce en la tabla 15.2.
Ejemplo: Ahorro e ingreso, Reino Unido, 1946-1963
Como lo muestra la tabla, la información está dividida en dos periodos, 1946-1954 (período
inmediatamente posterior a la Segunda Guerra Mundial, o de reconstrucción) y el lapso 19551963 (de postreconstrucción). Su póngase que se desea averiguar si la relación agregada ahorro
ingreso ha cambiado entre los dos periodos. Para ser específico, sea
140
Período de reconstrucción:
Yi
Yi
u1i
1,2,, n1
i
Período de postreconstrucción:
2 Xi
1
y1
i
y2 X i
u 2i
1, 2, , n2
TABLA 15.2
Datos de ahorro personal e ingreso, Reino Unido
1946-1963 (millones de libras)
Periodo I
1946
1947
1948
1949
1950
1951
1952
1953
1954
Ahorr
o
0.36
0.21
0.08
0.20
0.10
0.12
0.41
0.50
0.43
Ingreso
8.8
9.4
10.0
10.6
11.0
11.9
12.7
13.5
14.3
Periodo 2 Ahorro Ingreso
1955
1956
1957
1958
1959
1960
1961
1962
1963
0.59
0.90
0.95
0.82
1.04
1.53
1.94
1.75
1.99
15.5
16.7
17.7
18.6
19.7
21.1
22.8
23.9
25.2
Fuente: Oficina Central de Estadística, Reino Unido.
donde Y = ahorro (millones de £)
X = ingreso (millones de £)
u1i , u 2i = perturbaciones en las dos regresiones
Nota: El número de observaciones n1 y n2
en los dos grupos (periodos) no necesitan ser el
mismo.
Ahora, las regresiones (15.6.1) y (15.6.2) presentan las siguientes cuatro posibilidades:
1.
1
1
y
2;
2.
1
1
pero
es decir, las dos regresiones son idénticas. (Regresiones coincidentes).
2
=
2
; es decir, las dos regresiones difieren solamente en su ubicación (es
decir, en sus interceptos). (Regresiones paralelas).
3.
2
2 ; es decir, las dos regresiones tienen los mismos interceptos pero
1
1 pero
4.
pendientes diferentes. (Regresiones concurrentes).
1
1 y
2
2 ; es decir, las dos regresiones son completamente diferentes
(Regresiones no similares). Todas estas posibilidades se ilustran en la figura 15.4.
De la información dada en la tabla 15.2, se pueden efectuar las dos regresiones Individuales
(15.6.1) y (15.6.2) Y luego utilizar una o varias técnicas estadísticas para probar todas las
posibilidades anteriores, es decir, para encontrar si la función de ahorro ha sufrido un cambio
141
estructural entre los dos periodos de tiempo. Por cambio estructural se entiende que los
parámetros de la función de ahorro han cambiado.
Una de dichas técnicas estadísticas es la prueba de Chow . La prueba de Chow mostró que los
parámetros de la función de ahorro entre los periodos de reconstrucción y postreconstrucción en
efecto cambiaron.
Como alternativa a la prueba de Chow, en la siguiente sección se muestra la forma cómo la técnica
de la variable dicótoma maneja el problema de cambio estructural o quiebre y cuáles son algunas
de sus ventajas con respecto a la prueba de Chow.
142
Ejemplo: Comparación de dos regresiones: enfoque de la variable dicótoma
El procedimiento de multipaso de la prueba de Chow analizado en la sección 8.8 puede ser
acortado sustancialmente mediante el uso de las variables dicótomas. Aunque las conclusiones
globales derivadas de las pruebas de Chow y de variables dicótomas en una aplicación dada son las
mismas, el método de variables dicótomas tiene algunas ventajas que serán explicadas después de
presentar el método utilizando el mismo ejemplo ahorro-ingreso.
Reuniendo todas las observaciones n1 y n2 y estimando la siguiente regresión.
Yi
2 Di
1
1Xi
2
Di X i
ui
donde Yi y X i son el ahorro y el ingreso, lo mismo que antes, y donde Di = 1 para las
observaciones en el primer periodo ( hasta 1954) o periodo de reconstrucción y cero para
observaciones en el periodo de postreconstrucción.
Para ver las implicaciones del modelo (15.7.1) Y suponiendo que E ui
E Yi
E Yi
Di
Di
1, X i
0, X i
1
1Xi
1
2
= 0, se obtiene
1
Xi
2
que son las funciones de ahorro promedio para el segundo periodo (de postreconstrucci6n) y
primer periodo (de reconstrucción). Estas equivalen a (15.6.2) y (15.6.1) con
1
1,
2
1,
1
1
2 y
2
1
2 . Por consiguiente, la estimación de
(15.7.1) es equivalente a estimar las dos funciones de ahorro individual (15.6.1) y (15.6.2).
En (15.7.1),0'2 es el intercepto diferencial, igual que antes y
2
es el coeficiente diferencial de
pendiente, indicando en cuánto difiere el coeficiente de pendiente de la función de ahorro del
primer periodo del coeficiente de pendiente de la función de ahorro del segundo periodo.
Obsérvese como la variable dicótoma D se introduce en forma multiplicativa (D multiplicado por
X), permitiendo diferenciar entre los coeficientes de las pendientes de los dos periodos, de la
misma manera, la introducción de la variable dicótoma en forma aditiva permite distinguir entre
los interceptos de los dos periodos.
Retornando a los datos de ahorro-ingreso dados en la tabla 15.2, se encuentra que la estimación
empírica de (15.7.1) es
Yˆt
1.7502
1.4839 Di
0.1504 X t
(0.3319)
(0.4704)
(0.0163)
(0.0332)
(3.1545)
(9.2238)
(-3.1144)
t = (-5.2733)
R2
0.1034 Di X t
0.9425
143
tanto los coeficientes diferenciales de intercepto como los coeficientes diferenciales de las
pendientes son estadística mente significativos, dando un fuerte indicio de que las regresiones
para los dos periodos son diferentes (véase figura 15.4d). Entonces, siguiendo (15.7.2) Y (15.7.3),
se pueden derivar las dos regresiones de la siguiente forma (Nota: D = 1 para el primer periodo;
véase figura 15.5):
Período de reconstrucción:
Yˆt
1.7502
1.4839
0.2663
0.0470 X t
0.1504
0.1034 X t
Período de postreconstrucción:
Yˆt
1.7502
0.1504 X t
como el lector puede verlo, estas regresiones son iguales a las obtenidas del procedimiento
multipaso de Chow, lo cual puede verse de las regresiones dadas en la sección 8.8.
Las ventajas de la técnica de variable dicótoma [es decir, la estimación de (15.7.1)] sobre la
prueba de Chow [es decir, la estimación de las tres regresiones (8.8. t ),(8.8.2) Y la regresión
«agrupada» individualmente] pueden verse fácilmente ahora:
1. Se requiere efectuar solamente una regresión simple porque las regresiones individuales
pueden deducirse fácilmente de ésta en la forma indicada por las ecuaciones (15.7.2) y
(15.7.3).
2. La regresión simple puede ser utilizada para probar una diversidad de hipótesis. Así, si el
coeficiente del intercepto diferencial a2 no es estadística mente significativo, se puede
aceptar la hipótesis de que las dos regresiones tienen el mismo intercepto, es decir, las dos
regresiones son concurrentes (véase figura 15.4c). En forma similar, si el coeficiente
diferencial de pendiente {32 no es estadísticamente significativo peroa210 es, por lo menos
puede no rechazarse la hipótesis de que las dos regresiones tengan la misma pendiente, es
decir, las dos líneas de regresión son paralelas (véase figura 15.4b). La prueba de estabilidad
de la regresión completa (es decir, a2 = (32 = O simultáneamente) puede hacerse mediante la
prueba F de significancia global de la regresión estimada estudiada en el capítulo 8. Si esta
hipótesis se mantiene, las líneas de regresión serán coincidentes, como se muestra en la
figura 15.4a.
3. La prueba de Chow no dice explícitamente cuál coeficiente, el del intercepto o el de la
pendiente, es diferente o si (como sucede en este ejemplo) ambos son diferentes en los dos
periodos, es decir, se puede obtener una prueba de Chow significativa porque sólo la
pendiente es diferente o sólo el intercepto es diferente o ambas son diferentes. En otras
palabras, no se puede decir, mediante la prueba de Chow, cuál de las cuatro posibilidades
señaladas en la figura 15.4 existe en un momento dado. A este respecto, el enfoque de la
variable dicótoma tiene una ventaja clara, ya que no solamente dice si las dos regresiones son
diferentes, sino que señala la fuente o las fuentes de la diferencia -si ésta se debe al
intercepto o a la pendiente o a ambos. En la práctica, el conocimiento de que las dos
144
regresiones difieren en éste o en ese coeficiente es tanto o más importante que el
conocimiento simple de que son diferentes.
4. Finalmente, puesto que la agrupación aumenta los grados de libertad, ésta puede mejorar la
precisión relativa de los parámetros estimados.
Nota: Para crear la variable Dami
IF (Periodo >= 1946 & Periodo <= 1954) D = 1 .
VARIABLE LABELS D 'Dami' .
EXECUTE .
IF (Periodo >= 1955 & Periodo <= 1963) D = 0 .
VARIABLE LABELS D 'Dami' .
EXECUTE .
Resumen del modelo
Modelo
1
R
R cuadrado
,976 a
,953
R cuadrado
corregida
,942
Error típ. de la
estimación
,15417
a. Variables predictoras: (Constante), DX, Ingreso, Dami
ANOVAb
Modelo
1
Regresión
Res idual
Total
Suma de
cuadrados
6,692
,333
7,024
gl
3
14
17
Media
cuadrática
2,231
,024
F
93,841
Sig.
,000 a
a. Variables predictoras: (Constante), DX, Ingreso, Dami
b. Variable dependiente: Ahorro
Coe ficientesa
Modelo
1
(Constante)
Dami
Ingreso
DX
Coeficientes no
estandarizados
B
Error típ.
-1,750
,332
1,484
,470
,150
,016
-,103
,033
Coeficientes
estandarizad
os
Beta
1,188
1,224
-,963
t
-5,273
3,155
9,238
-3,109
Sig.
,000
,007
,000
,008
a. Variable dependiente: Ahorro
145
COMPARACIÓN DE DOS REGRESIONES: ILUSTRACIÓN ADICIONAL
Debido a su importancia práctica, se considera otro ejemplo del uso de la técnica de la variable
dicótoma para probar la equivalencia de dos (o más) regresiones.
Ejemplo 15.5 Comportamiento del desempleo
y de las vacantes sin llenar: Gran Bretaña, 1958-1971
Al estudiar la relación entre la tasa de desempleo y la tasa de vacantes sin llenar en la Gran
Bretaña durante el periodo 1958-1V a 1971-11. el autor obtuvo el diagrama de dispersión que
aparece en la figura 15.6. Como se observa en la figura. al principio del cuarto trimestre de 1966.
la relación desempleo
vacantes parece haber cambiado; la curva que relaciona las dos variables parece haberse
desplazado hacia arriba a partir de ese trimestre, Este desplazamiento hacia arriba implica que
para una tasa dada de empleos-vacantes hay más desempleo en el cuarto trimestre de 1966 que
antes. En este estudio. el autor encontró que una posible causa del desplazamiento hacia arriba
fue que en octubre de 1966 (es decir, en el cuarto trimestre) el gobierno laborista de entonces
promulgó la ley nacional de seguros. remplazando el sistema de tasas constantes de beneficios de
desempleo de corto plazo. por un sistema mixto de una tasa fija y otros beneficios (previos)
relacionados con los ingresos. lo cual obviamente aumentó el nivel de beneficios para los
desempleados. Si los beneficios de los desempleados aumentan, es más probable que el
146
desempleado tome más tiempo para buscar trabajo. reflejando así una mayor cantidad de
desempleo para cualquier tasa dada de empleos vacantes.
Para verificar si la desviación observada en la relación desempleo-vacantes que comenzó a
observarse a partir del cuarto trimestre de 1966 era estadísticamente significativa. el autor
utilizó el siguiente modelo:
UNt
1
2 Dt
1 Vt
2
Dt Vt
ut
donde UN = tasa de desempleo, %
V
= tasa de empleos vacantes. %
D
= 1 para el periodo a partir de 1966-IV
= 0 para el periodo anterior a 1966-IV
t
= tiempo, medido en trimestres.
Ejercicio
Variables Dami
La tabla presenta los gastos de consumo ( Consumo), el ingreso disponible, (Ingreso)
y el sexo del jefe del hogar(Sexojh)
Familia
F1
F2
F3
F4
F5
F6
F7
F8
F9
F10
F11
F12
Consumo 18535 11350
12130 15210 8680
16760 13480
9680 17840 11180 14320 19860
Ingreso
22550 14035
13040 17500 9430
20635 16470 10720 22350 12200 16810 23000
SexoJh
1
1
2
1
2
1
1
2
1
2
2
1
NOTA: 1=hombre, 2=mujer
a) Considere el archivo desde Excel grabado como “Consumo ingreso sexo 4.0.xls”
Archivo/abrir/ desde Excel / Consumo ingreso 4.0.xls.
Active leer nombre de variable
Rango;B3:N6
Aceptar
b) Seleccione Datos/Transponer
Variable: f1-f2-f3-f4-f5-f6-f7-f8-f9-f10-f11-f12
Variable de nombre: familia
Aceptar
Verifique que estén bien definidas las variables y complete con las etiquetas
Guardar en C:SPSS Consumo-ingreso-sexojh.sav
c) Realice un gráfico de dispersión entre consumo e ingreso
d) Realice una regresión lineal entre consumo e ingreso. Interprete los resultados.
Compare con el resultado analizado en clases
(a)
C 1663,60
(2,73)
0,75Yd
R2
0,978
(21,12)
Para esto considere una regresión lineal simple;
Dependientes; consumo
147
Independientes; ingreso
Etiqueta de caso; familia
Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo.
Continuar
Gráficos;
Y; ZRESID
X: ZPRED
Histograma Graf de prob normal
e) Pruebe si la ordenada en el origen es diferente según sea el sexo del jefe del hogar.
Compare con la expresión:
C 186,12
0,0,82Yd
832,09D
(16,56)
(1,82)
R2
0,984
Defina una variable Dummy como: D=1 para familias encabezadas por una mujer (2)
D=0 en caso contrario (1)
Para esto considere Transformar/recodificar/ en distintas variables/
Variable numérica: sexojh
Variable de resultado: D
Etiqueta: damy(jefe hogar mujer=1; jefe hogar hombre=0)
Cambiar
Valores antiguos y nuevos:
Valor antiguo; valor 1
Valor nuevo; valor; 0
Añadir
Valor antiguo; valor 2
Valor nuevo; valor; 1
Añadir Continuar
Aceptar
En el editor de datos aparecerá variable dami. Complete las etiquetas, 1= mujer; 0=hombre.
Para probar si la ordenada en el origen es diferente según sea el sexo del jefe del hogar.
considere regresión lineal simple;
Dependientes; consumo
Independientes; ingreso, damy
Etiqueta de caso; familia
Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo.
Continuar
Verifique que D no es estadísticamente significativo
f) Pruebe si la pendiente para una inclinación es diferente según sea el sexo del jefe del hogar
Compare con
C 709,18
0,79Yd
0,05Yd D
(18,11)
(1,51)
R2
0,983
Para esto considere
Transformar/calcular/
Variable de destino: IngrD
148
Tipo Numércio
Etiqueta; Ingreso por dami
Expresión: ingreso*d
Aceptar
considere regresión lineal simple;
Dependientes; consumo
Independientes; ingreso, ingrd
Etiqueta de caso; familia
Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo.
Continuar
Verifique que ingrd no es estadísticamente significativo
g) Pruebe si tanto la ordenada en el origen como la pendiente son diferentes
Compare con
C
184,7
0,83Yd
(13,65)
1757,99 D 0,06Yd D
(1,03)
R2
0,985
(-0,57)
Considere regresión lineal simple;
Dependientes; consumo
Independientes; ingreso, damy, ingrd
Etiqueta de caso; familia
Estadísticos; Estimaciones, intervalos de confianza, ajuste del modelo.
Continuar
Verifique que tanto damy como ingrd no son estadísticamente significativos
149
VI Análisis de Regresión logística
Regresión Logística
2.1.1.
2.1.2.
2.1.3.
2.1.4.
Introducción
Modelo y criterios de ajuste
Variables categóricas, nuevas variables y opciones
Métodos de selección de variables
2.1.1. Introducción
Imaginemos por un momento que en una investigación estamos trabajando con una variable
dependiente con únicamente dos categorías u opciones y que queremos averiguar la probabilidad
de ocurrencia de una u otra a partir de una serie de informaciones de una serie de variables que
denominamos independientes. Pues bien, la regresión logística es un modelo que a partir de los
coeficientes estimados para cada una de esas variables independientes y fruto de la probabilidad
de los individuos en la dependiente, nos va a permitir asignar los mismos a una u otra categoría u
opción de respuesta. Vayamos por partes. Una variable dependiente dicotómica, es decir, con dos
opciones o posibilidades de respuesta: sí o no responde a un mailing, sí o no vota en una
elecciones, si trabaja o no trabaja, acierta o se equivoca en un pronóstico, se avería o no en un
periodo de tiempo determinado, sí o no contesta al teléfono, beneficios o pérdidas en un
ejercicio, diagnóstico positivo o negativo en una prueba médica, etc. En la práctica nos vamos a
encontrar con infinidad de variables dicotómicas y con interés por nuestra parte de averiguar
cuál o cuáles de las que denominamos independientes son las que inciden y en qué grado en que los
individuos del tipo que sean tengan más probabilidades de decantarse por una u otra categoría de
la citada variable.
Seguramente al lector un planteamiento de este tipo le recordará los modelos de regresión lineal
múltiple. También allí teníamos una variable dependiente cuyos valores tratábamos de explicar a
partir de una serie de variables independientes (el precio de venta de los coches o la satisfacción
de los individuos con su trabajo a partir de una serie de características técnicas de los todo
terreno, en el primer caso, y de una serie de valoraciones del puesto de trabajo, en el segundo).
En aquella ocasión decíamos que la variable dependiente debía ser cuantitativa, al igual que las
independientes, mantener una relación lineal con las mismas, distribuirse normalmente, etc., y las
predicciones se realizaban en términos de valores en la variable dependiente a partir de valores
en cada una de las independientes.
En el análisis discriminante se plantea un modelo similar al de regresión lineal múltiple, pero con
una diferencia importante: la variable dependiente del mismo, en lugar de ser numérica, será
categórica, con dos, tres o más categorías, y el modelo, a partir de la información que
proporcionen las variables independientes numéricas, calculará para cada individuo la probabilidad
de pertenencia a cada grupo, nivel o categoría definida en la variable dependiente. También en
este caso los datos deberán cumplir una serie de supuestos previos cuales son la distribución
normal multivariante de las variables independientes, igualdad de las matrices de varianciascovariancias entre grupos, etc.
Pues bien, la regresión logística que vamos a ver en este apartado no deja de ser un caso
particular del modelo discriminante, en el que la variable dependiente tiene exclusivamente
dos categorías, a la vez que parte de unos supuestos menos restrictivos y permite introducir
como independientes en el modelo variables categóricas.
150
Para ilustrar el procedimiento vamos a utilizar el archivo trabajo.sav y como variable
dependiente b1 (situación laboral) que es una de las pocas variables (si no la única) dicotómicas
del archivo.
B1: Situación laboral 1=Si;
5=No; 9=NC
Advertimos al lector que tal y como está planteada la pregunta, los resultados de la misma no son
comparables con los de otras fuentes que definan las personas «activas» con otros criterios. En
un primer modelo muy sencillo vamos a entrar como independientes las variables c1 (sexo), c2
(edad) y c6 (nivel de estudios). Hipotéticamente, y no con la información del archivo, sería tanto
como plantear un modelo que permita pronosticar la situación laboral de un individuo (activo o no)
a partir de una serie de informaciones referidas al mismo (variables independientes) y ver en qué
medida cada una de éstas determina la situación laboral.
Por razones obvias vamos a limitar la muestra a aquellos individuos con edades inferiores a 65
años (y por tanto en edad legal de poder trabajar), y recordamos que la muestra ya hace
referencia a personas de más de 18 años. Como en el tema anterior y en muchos ejercicios de los
siguientes, advertimos al lector acerca de la finalidad puramente ilustrativa de los ejemplos y sin
otras pretensiones que las de facilitar la comprensión del procedimiento estadístico.

Previamente cargado el archivo trabajo.sav y seleccionados los individuos menores de 65
años (Select Cases if edad < 65).
USE ALL.
COMPUTE filter_$=(c2 < 65).
VARIABLE LABEL filter_$ 'c2 < 65 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
Statistics/Regression/ Logistic y obtendremos el cuadro de diálogo principal de la regresión
logística de la Figura 2. l. En Dependent entramos la variable b1 y en Covariates c1 , c2 y c6 . A
continuación, pulsamos el botón Categorical y del subcuadro de diálogo que obtendremos y que
posteriormente comentaremos, seleccionamos c1 , y la pasamos al campo Categorical Covariates.
Dejamos el resto de opciones por defecto y pulsamos Continue.
Fig 2.1
Fig 2.2
151
Volveremos al cuadro de diálogo principal de la Figura 2.1 y observaremos que a continuación de
c1 y entre paréntesis nos ha añadido el sistema (Cat). No pulsamos el botón Save (después lo
haremos) y si el botón Opciones. Del subcuadro que se nos abre, seleccionamos las seis opciones
de Statistics y Plots y dejamos todo el resto con sus valores por defecto, tal y como nos muestra
el subcuadro de diálogo principal y OK para ejecutar el procedimiento. Obtendremos los
resultados que pasamos a comentar.
Resumen del procesam iento de los casos
Cas os no ponderados
Cas os seleccionados
a
N
Incluidos en el análisis
Cas os perdidos
Total
Cas os no s eleccionados
Total
973
0
973
0
973
Codificación de la variabl e depe ndiente
Porc entaje
100, 0
,0
100, 0
,0
100, 0
Valor original
Sí
No
Valor interno
0
1
a. Si está activada la ponderación, c onsulte la tabla de clasificación para
ver el número total de cas os.
Codificaci ones de vari ables categóricas
Sex o
Hombre
Mujer
Frec uencia
484
489
Codificación
de
(1)
parámetros
1,000
,000
Fig 2.3
En el primer cuadro de la Figura 2.3 podemos observar cómo del total de 1.200 personas del
archivo, han quedado para el análisis 973. La variable dependiente originariamente tiene unos
valores no Missing de 1 y 5, correspondiendo el 1 a una respuesta afirmativa de que sí se realiza
algún tipo de trabajo y el 5 a la respuesta negativa. Observar cómo el sistema recodifica estos
valores asignando 0 a sí trabaja y 1 a no trabaja. Esta circunstancia es sumamente importante
para poder interpretar todos los resultados de la regresión logística. El sistema, y a partir de los
datos de cada sujeto en las variables independientes (sexo, edad y nivel de estudios), calcula una
probabilidad para cada uno de ellos.
Como tal probabilidad, sus valores oscilarán entre 0 y 1, de modo que cuanto más tienda a 0, más
probable será que el individuo sea una persona que trabaja, y al revés cuanto más tienda a 1. El
sistema clasificará de este modo a todos los sujetos de la muestra en activos o no activos a
partir de un punto de corte que por defecto está situado en 0,50. El porcentaje de individuos
correctamente clasificados por el modelo será uno de los indicadores de la eficacia y del ajuste
del mismo. Gráficamente:
Sí trabajan
Individuos que el
sistema clasificará
como que si trabajan
Punto de corte
0,5
No trabajan
Individuos que el
sistema clasificará
como que no
trabajan
Como variables covariantes, predictoras o independientes, hemos entrado las tres ya
mencionadas, sexo, edad y nivel de estudios. Éstas pueden ser numéricas (las tres entradas lo
152
son), pero si queremos que alguna de ellas sea tratada como categórica (y c1 lo es), deberemos
proceder a explicitarlo en el subcuadro de diálogo Categorical, que posteriormente analizaremos
como detalle. Advertimos en la figura 2.3 que, así como esta variable en el archivo está
codificada como 1 = Hombre y 2 = Mujer, el sistema para la regresión logística (y lo hará para
cualquier variable dicotómica) la recodifica a 1 y 0, algo que deberemos tener muy en cuenta a la
hora de interpretar los coeficiente de la regresión.
Del resto de opciones del cuadro de diálogo principal de la figura 2.1, los bloques nos permitirán,
al igual que ya vimos en la regresión lineal múltiple entrar las variable agrupadas en dos, tres o
más series distintas, en tanto que el botón a x b nos permitirá entrar en el modelo interacciones
entre variables previamente seleccionadas de la lista. Estas variables pueden ser categóricas y
por supuesto exclusivamente con dos categorías que pueden estar codificadas, por ejemplo, 0 y 1.
Advertimos al lector acerca de la necesidad de, en especial en estos casos, contrastar si el
producto de la interacción responde o no al sentido de la misma (dos variables codificadas cada
una de ellas con 0 y 1 nos dan tres productos 0 y únicamente un producto 1). Los distintos
métodos de entrada de las variables en el modelo los analizaremos más adelante, al igual que
todas las opciones del subcuadro de diálogo Opciones de la Figura 2.2, que también las iremos
viendo a lo largo del desarrollo del ejemplo. Únicamente añadir que en el cuadro de diálogo
principal y a través del botón Variable de selección podemos realizar el análisis de regresión
logística únicamente para una submuestra del archivo, por ejemplo, residentes en Andalucía ( c15 =
01), con ingresos mensuales superiores a 450.000 ptas. ( c17 = 9), etc. Si no lo hemos hecho con la
variable edad ( c2 < 65) es porque el sistema no permite que una variable que forma parte del
modelo pueda a la vez servir como criterio de selección de una submuestra, o al revés, a pesar de
que como en este caso pueda tener sentido llevarlo a cabo.
(Variable de selección: Elija una variable de selección para limitar el análisis a un subconjunto de
casos que tengan un valor particular en esta variable. Después de elegir la variable, elija una
relación (igual, distinto de, menor que, etc.), e introduzca un valor para la variable de selección de
casos).
2.1.2. Modelo y criterios de ajuste
En la Figura 2.4 podemos ver los parámetros estimados por el modelo de regresión logística.
Definiremos las dos opciones de respuesta de los individuos en la variable dependiente ( b1 ) como
respuesta SI y respuesta NO y, por tanto, cuando hablemos en lo sucesivo en términos de
probabilidad haremos pr{sí} para referimos a una de las opciones y pr {no} para referimos a la
otra
Variables en la e cuación
Pas
o
a
1
c1(1)
c2
c6
Constante
B
-,930
-,001
-,228
1,744
E.T.
,139
,005
,032
,293
Wald
44,867
,072
51,121
35,375
gl
1
1
1
1
Sig.
,000
,788
,000
,000
Exp(B)
,395
,999
,797
5,720
I.C. 95,0% para EXP(B)
Inferior
Superior
,301
,518
,988
1,009
,748
,848
a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6.
Fig 2.4
153
Si el modelo contase con una única variable independiente, podría escribirse:
e B0
pr sí
donde:
1 e
B1 X
1
pr sí
o
B0 B1 X
1
B0 B1 X
e
B0 y B1 son los coeficientes estimados a partir de los datos.
X sería la variable independiente.
e es la base de logaritmos naturales (2,718)
Si el modelo contase con varias variables independientes, como es el caso:
eZ
1 eZ
pr sí
o
pr sí
B2 X 2

1
1 e
Z
donde: Z es la combinación lineal:
Z
B0
B1 X 1
Bp X p
Lógicamente la pr{no}= 1 - pr{sí}.
Observamos que así como en la regresión lineal la estimación de parámetros se lleva a cabo a
través del método de mínimos cuadrados" en la regresión logística se utiliza el método de máxima
verosimilitud, de modo que los coeficientes que estima el modelo hacen nuestros datos «más
verosímiles». Puesto que el modelo no es lineal, se necesita un algoritmo iterativo para esta
estimación.
Pues bien, estos coeficientes y para el modelo hipotetizado son los que aparecen en la primera
columna (B) de la Tabla 2.4. Según estos coeficientes el modelo de regresión logística para el
ejemplo podríamos escribirlo como sigue:
pr b1
1
1 e
Z
donde Z = 1,74403 - 0,93005 (sexo) - 0,00145 (edad) - 0,22751 (nivel de estudios).
Aplicado el modelo a un individuo cualquiera de la muestra, por ejemplo, el primero de la base de
datos que es un hombre (nivel 1) de 26 años de edad y con un nivel de estudios primarios (nivel 2),
tendremos:
Z 1 = 1,744 - 0,93(1) – 0,0015(26) - 0,2275(2) = 0,32
pr b1
1
1
2,7188282
0.32
0,579324
154
Puesto que, tal y como hemos comentado con anterioridad, esta probabilidad oscila entre 0 y 1,
correspondiendo 0 a la categoría Sí trabaja. y 1 a la categoría No trabaja y estando establecido
por defecto el punto de corte en 0,5, el individuo número 1 de la muestra que es un hombre de 26
años y con estudios primarios, el modelo lo clasificará como que «no trabaja», dadas sus
características en las variables independientes. El número de «aciertos» globales del modelo en
esta clasificación será uno de los indicadores fundamentales de la bondad del mismo, tal y como
veremos más adelante. También veremos que tanto esta probabilidad para cada sujeto como su
asignación a una u otra categoría serán dos columnas que podrá generar el sistema en la base de
datos.
La segunda columna de la tabla de la Figura 2.4 (S.E.) corresponde a los errores estándar de los
coeficientes y la tercera (Wald) corresponde al estadístico de Wald que contrasta la hipótesis
de si los coeficientes son iguales a “0” y que sigue una distribución
2
con unos grados de
libertad y un nivel de significación que son los que aparecen en las columnas 4ª y 5ª de la tabla.
Como el estadístico de prueba del contraste tiene un grado de libertad, el estadístico de Wald
puede calcularse como el cuadrado del cociente entre el valor del coeficiente y su error estándar.
En concreto, y para la primera variable c1 :
Estadístico de Wald =
Coeficiente
E. estándar
2
0,93
0,1388
2
44,89
A partir de los datos de la tabla y con un riesgo
= 5 por 100 podemos concluir que los
coeficientes de las variables c1 y c6 son estadísticamente distintos de “0” y por tanto
significativos con valores respectivos 44,8666 y 51,1204 y nivel de significación 0,0000 para
ambos. En cambio no resulta significativo el coeficiente de la variable c2 (edad) con un
estadístico de Wald de 0,0723 y un nivel de significación 0,7880.
También es importante saber interpretar correctamente el signo de los coeficientes de
regresión. Por ejemplo, signos negativos en la variable c6 (nivel de estudios) que, recordemos,
tiene valores que oscilan entre 0 (no sabe leer) y 8 (estudios universitarios) significan que, en la
medida que subimos en los valores de esta variable y, por tanto, elevamos el nivel de estudios,
descendemos en los valores de la variable dependiente (situación laboral) que, recordemos, oscila
entre 0 (sí trabaja) y 1 (no trabaja). La misma interpretación cabe hacer para el resto de
variables del modelo
Las últimas tres columnas de la tabla (Exp B) y los límites de estos coeficientes B estimados
exponencialmente tienen mucho que ver con lo que sería la interpretación de los valores de los
coeficientes en el modelo de regresión. Recordamos del modelo de regresión múltiple que en
realidad el valor del coeficiente significaba el cambio en unidades de la variable dependiente por
cada unidad de cambio en la variable independiente a que se refiere el coeficiente,
permaneciendo invariantes los valores del resto de variables independientes del modelo. Pues
bien, a nivel de coeficientes estimados exponencialmente la interpretación es muy similar y la
diferencia estriba en que en este caso no se trata de incremento o disminución de la probabilidad
de la variable dependiente por cada unidad de cambio en las independientes (permaneciendo el
resto invariantes), sino del incremento o disminución que se produce en el cociente entre
pr{sí}/pr{no}, obteniendo éste tal y como recoge la ecuación siguiente
155
pr sí
pr no
e
B0 B1 X 1 B2 X 2
 Bp X p
e B0 e B1 X1 e B2 X 2  e
Bp X p
Las dos columnas últimas de la tabla recogen los límites de estos coeficientes así estimados para
un nivel de confianza del 95 por 100 (valor por defecto) que se puede modificar en el subcuadro
de diálogo Options de la Figura 2.2.
a
Tabla de clasifica ción
Pronosticado
Pas o 1
Obs ervado
Situación laboral
Porc entaje global
Sí
No
Situación laboral
Sí
No
169
233
106
465
Porc entaje
correcto
42,0
81,4
65,2
a. El valor de c orte es ,500
Fig 2.5
En la Figura 2.5 tenemos lo que se conoce como tabla de clasificación. Es una de las posibilidades
que nos ofrece el sistema de poder interpretar el ajuste del modelo a los datos.
El punto de corte está establecido por defecto en 0,5 y en total tenemos una muestra de 973
individuos menores de 65 años, de los que 402 (169 + 233) se declaran «activos» y 571 no
realizan ningún tipo de trabajo. De los primeros, es decir, de los que sí trabajan, el sistema
clasifica correctamente únicamente 169, que son los que aparecen en la primera casilla de la
diagonal de la tabla. Estos 169 sobre los 402 de la fila suponen un porcentaje de clasificación
correcta de únicamente el 42,04 por 100. De los 571 que declaran no trabajar, 465 son
clasificados correctamente, lo que supone un porcentaje del 81,44 por 100. En total 634 sobre
973 son correctamente clasificados por el modelo, lo que supone un porcentaje del 81,44 por 100.
En total 634 sobre 973 son correctamente clasificados por el modelo, lo que supone un
porcentaje del 65,16 por 100.
Fuera de la diagonal de la tabla tenemos los casos incorrectamente clasificados. . Idealmente, un
buen modelo en este caso debería asignar probabilidades muy bajas a los individuos que sí
trabajan y muy próximas a 1 a los que no trabajan y, por tanto, el gráfico que veremos a
continuación responde a una distribución bimodal y con valores extremos. Pero en la práctica
puede suceder que los individuos correcta o incorrectamente clasificados lo sean en mayor o
menor número con valores próximos al punto de corte, es decir, valores próximos a 0,50. Esto nos
abrirá las puertas a una posible modificación de este punto de corte, que podremos llevar a cabo
en el subcuadro de diálogo Opciones de la Figura 2.2 (Punto de corte para la clasificación) y
siempre con el objetivo de aumentar el porcentaje de casos correctamente clasificados por el
modelo. De cualquier modo, y sobre todo en investigación experimental y diagnóstico, conviene
tener muy presente los riesgos que puedan derivarse de una incorrecta clasificación en uno y otro
sentido y que en gran medida determina también el establecimiento de este punto de corte. En la
Figura 2.6 tenemos representadas las probabilidades estimadas por el modelo para todos los
sujetos de la muestra.
156
Fig 2.6
En abcisas tenemos los valores de probabilidad y la división en dos partes tomando como
referencia el punto de corte 0,50, figurando a la izquierda S de respuesta afirmativa y a la
derecha N de respuesta negativa. En el histograma cada símbolo S o N representa el grupo o
nivel al que el individuo específico o grupo de individuos (en el ejemplo son 12,5 por cada símbolo)
pertenecen realmente y que puede no coincidir con el grupo o nivel al que son asignados según las
probabilidades estimadas a .partir de los coeficientes del modelo.
En concreto, todas las N situadas a la izquierda de 0,5 corresponden cada una de ellas a grupos
de 12,5 individuos que no trabajan y a los que el modelo ha clasificado como que sí trabajan, y al
revés con todas las S situadas a la derecha de 0,5. Como comentábamos anteriormente, cuanto
valores más extremos y menores asignaciones incorrectas tengamos, más eficaz será el modelo.
Por otro lado, y a la vista de los resultados en el histograma, desplazar el punto de corte tampoco
redundaría en una mejora ostensible del modelo.
En la Figura 2.7 tenemos entre otras informaciones los resultados de diversos criterios que nos
miden igualmente la bondad de ajuste del modelo a los datos.
157
a,b,c ,d
Historial de iteraciones
a,b,c
Historial de iteraci ones
Iteración
Pas o
1
0
2
3
-2 log de la
verosimilitud
1319,364
1319,361
1319,361
Coeficientes
Constante
,347
,351
,351
Iteración
Pas o
1
1
2
3
4
a. En el modelo se inc luye una constante.
b. -2 log de la verosimilitud inic ial: 1319,361
c. La estimación ha finalizado en el número de
iteración 3 porque las estimaciones de los
parámetros han cambiado en menos de ,001.
-2 log de la
verosimilitud
1205,779
1204,392
1204,391
1204,391
Constante
1,577
1,739
1,744
1,744
Coeficientes
c1(1)
c2
-,829
-,002
-,927
-,001
-,930
-,001
-,930
-,001
a. Mét odo: Int roducir
b. En el modelo se incluye una cons tante.
c. -2 log de la verosimilitud inicial: 1319,361
d. La estimac ión ha finalizado en el número de iteración 4 porque las
estimaciones de los parámetros han cambiado en menos de ,001.
Pruebas om nibus sobre l os coe ficiente s del m odelo
Resumen de los model os
Pas o
1
-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
1204,391a
,111
R cuadrado
de
Nagelkerke
,150
Pas o 1
Pas o
Bloque
Modelo
Chi-cuadrado
114, 970
114, 970
114, 970
gl
3
3
3
Sig.
,000
,000
,000
a. La estimac ión ha finalizado en el número de
iteración 4 porque las est imaciones de los
parámetros han cambiado en menos de ,001.
Fig 2.7
Una posibilidad consiste en ver cuán «verosímiles» son los resultados obtenidos a partir de los
parámetros estimados, sin olvidar que éstos están estimados justamente a través del método de
máxima verosimilitud. Se suele utilizar -2 Log Likelihood (-2LL), de modo que sus valores
tenderán a 0 si la verosimilitud tiende a máxima y al revés si esta es baja.
En el ejemplo, y con un valor –2LL = 13l9,3615 con únicamente la constante en el modelo y
1204,391 con todas las variables (recordar que hemos utilizado el método Enter y un solo bloque
de variables), podemos concluir con un deficiente ajuste del modelo a los datos. El estadístico
2
testa la hipótesis nula de si los coeficientes del modelo en su conjunto son estadísticamente
distintos de 0, circunstancia que se confirma, corroborando, en parte, los resultados obtenidos a
través del estadístico de Wald de la tabla de la Figura 2.4. El hecho de utilizar un solo bloque de
variables y que éstas no entren paso a paso sino a la vez hace que el estadístico sea el mismo para
el modelo, el bloque y el único paso de la prueba.
2.1.3. Variables categóricas, nuevas variables y opciones
Por defecto, el sistema considera las variables string de la base de datos como variables
categóricas (el nombre de la empresa, el modelo de vehículo, etc.) y las variables numéricas como
continuas, pero sucede en muchos casos que algunas de las variables de la base de datos
codificadas como numéricas no son tales, sino categóricas, y los valores numéricos asignados no
tienen otra finalidad que la de diferenciar unas categorías de otras.. Variables de este tipo
tenemos varias en nuestros archivos y, en concreto, en el de trabajo.sav una muy característica
puede ser el estado civil ( c3 ) con valores (1) soltero, (2) casado, (3) vive en pareja (4)
separado/a, (5) divorciado/a y (6) viudo/a. Ni en la regresión logística ni en la lineal podemos
entrar esta variable como independiente numérica y si queremos que sea tratada como tal
categórica que es, deberemos pulsar el botón Categorical del cuadro de diálogo principal de la
regresión logística (Figura 2.1) y acceder al subcuadro de diálogo Define Categorical Variables de
la Figura 2.8.
158
c6
-,206
-,227
-,228
-,228
Fig 2.8

Partiendo de nuevo del archivo trabajo.sav y seleccionados también los individuos de edad
< 65 años, entramos de nuevo en el cuadro de diálogo principal de la regresión logística
(Figura 2.1). A las tres variables covariantes entradas en el apartado anterior ( c1 , c2 y
c6 añadimos c3 (estado civil) y como dependiente seguimos dejando b1 . Pulsamos el botón
Categorical y accedemos al subcuadro de diálogo de la Figura 2.8. Pasamos a Categorical
Covariates c1 (que ya lo estaba) y c3 . Como contraste dejamos la opción por defecto
Indicator y como categoría de referencia seleccionamos Last. Pulsamos Continue y del
subcuadro Options seleccionamos exactamente las mismas que anteriormente (Figura 2.2)
dejando el resto de opciones por defecto. Ejecutamos el procedimiento con OK.
Entre otros resultados de interés que modificarán ligeramente los obtenidos con el modelo
anterior, nos encontraremos en el output con la tabla de la Figura 2.9 que comentamos a
continuación.
Codificaciones de varia bles ca tegóricas
Estado
civil
Sex o
Solt ero
Cas ado
Vive pareja
Separado
Divorciado
Viudo
Hombre
Mujer
Frec uencia
290
635
9
13
5
21
484
489
(1)
1,000
,000
,000
,000
,000
,000
1,000
,000
Codificación de parámetros
(2)
(3)
(4)
,000
,000
,000
1,000
,000
,000
,000
1,000
,000
,000
,000
1,000
,000
,000
,000
,000
,000
,000
(5)
,000
,000
,000
,000
1,000
,000
Variables en la e cuación
Pas
o
a
1
c1(1)
c2
c6
c3
c3(1)
c3(2)
c3(3)
c3(4)
c3(5)
Constante
B
-1,026
,017
-,252
E.T.
,144
,007
,033
,294
-,720
1,053
-,772
-1,007
1,575
,684
,649
1,063
,899
1,128
,746
Wald
50,553
6,265
57,714
30,640
,184
1,233
,982
,737
,797
4,458
gl
1
1
1
5
1
1
1
1
1
1
Sig.
,000
,012
,000
,000
,668
,267
,322
,391
,372
,035
Exp(B)
,359
1,017
,777
1,341
,487
2,867
,462
,365
4,830
I.C. 95,0% para EXP(B)
Inferior
Superior
,270
,476
1,004
1,031
,728
,829
,351
,137
,357
,079
,040
5,129
1,735
23,019
2,692
3,334
a. Variable(s) introduc ida(s) en el paso 1: c 1, c2, c 6, c3.
Fig 2.9
159
El sistema nos ha recodificado de manera automática las dos variables que le hemos señalado
como variables categóricas. El caso de la variable dicotómica es poco problemático puesto que el
sistema se limita a codificada como 1 y 0. Son las variables dummy y pueden lógicamente
cambiarse las asignaciones recodificando previamente la variable en la base de datos. En el caso
de la segunda de las variables ( c3 ) observamos que el sistema ha creado tantas nuevas variables
(véase la tabla Variables in the Equation de la Figura 2.9) como categorías menos una tiene la
variable original. La asignación de coeficientes para cada categoría que lleva a cabo el sistema se
hace de acuerdo con la categoría de referencia ( Last, en el ejemplo) y el tipo de contraste
(Indicator) que es la opción por defecto. Obviamente se pueden cambiar una y otra opción. La
primera tabla de la Figura 2.9 nos da los códigos de la variable para las seis categorías (Value) y
las frecuencias por categoría. Entre paréntesis las cinco nuevas variables generadas por el
sistema y bajo cada columna los coeficientes creados por el sistema para las nuevas variables.
Observar que estos coeficientes son todos 0 para la categoría tomada como referencia (la
última/viudo/a en el ejemplo) y el resto tendrán en la matriz de contrastes 0 o 1 indicando su
presencia o ausencia en la variable:



Los solteros, código 1 en la primera variable y 0 en el resto.
Los casados, 0 en la primera variable, 1 en la segunda variable y 0 en el
resto de las variables.
Y así sucesivamente para las cinco categorías, excepto la de referencia.
El valor estimado por el modelo para cada coeficiente B de cada una de las nuevas variables
deberá interpretarse del mismo modo que el resto de coeficientes de las variables
independientes del modelo, pero siempre teniendo como referencia la categoría tomada como tal,
de modo que estar soltero, casado, etc., incremental disminuye la probabilidad de estar activo o
no, siempre respecto a la categoría de referencia, viudo/a en este caso.

Volvemos de nuevo al modelo original planteado en el apartado 2.1.2 y con b1 como
dependiente, c1 , c2 y c6 como covariantes. Pulsamos el botón Save y accedemos al
subcuadro de diálogo Save New Variables de la Figura 2.10. Seleccionamos todas las
opciones del mismo y pulsamos Continue. De los subcuadros Categorical y Options
podemos seleccionar las mismas opciones que en el apartado 2.1.2. .
Fig 2.10
160
Una vez estimado el modelo de regresión lineal, resultaba de interés analizar los diversos tipos
de residuales, los diversos indicadores de distancia, estadísticos de influencia, diagnósticos de
colinealidad, etc., puesto que resultaban herramientas útiles para identificar aquellos puntos en
los que el modelo no ajustaba correctamente, puntos con gran influencia en la estimación de
parámetros, variables estrechamente relacionadas con otras, etc. En la regresión logística
encontramos estadísticos similares y son los que aparecen en el subcuadro de diálogo de la Figura
2.10. Éstas son sus características:



PRE_l (Probabilities). Probabilidad de ocurrencia de cada caso predicha por el modelo.
PGR_l (Predicted Group). Grupo al que será asignado cada sujeto de acuerdo con su
probabilidad. Si cruzamos esta variable con b1 (dependiente) a través de Crosstabs,
obtendremos idénticos resultados que en la tabla de clasificación de la Figura 2.5.
COO_1 y LEV _1 (Distancia de Cook y Leverage). Al igual que en la regresión lineal, miden
la influencia de cada caso en los residuales y en las predicciones respectivamente. La
distancia de Cook mide la influencia de eliminar un caso, no únicamente en su residual
sino en el resto de residuales del resto de sujetos. Se calcula:
Di
donde:
Z i2
1
hi
hi
2
Z es el residual estandarizado y
h es el valor Leverage
Por su parte, el Leverage mide el impacto de las puntuaciones en las predicciones y,
contrariamente a lo que sucede en la regresión lineal, su valor depende tanto de la variable
dependiente como del resto de elementos del modelo. Sus valores oscilan entre 0 y 1 y su media
se calcula como cociente entre p y N, siendo p el número de parámetros estimados por el modelo,
incluida la constante, y N el tamaño de muestra.


RES_l (Residuals). Diferencia entre las probabilidades observadas y las
predicciones.
L
ZRE_l (Standardized Residuals). Residuales estandarizados como cociente
entre los residuales y una estimación de la desviación estándar.
Zi
Re sidual
pi 1 pi
Si la muestra es grande, deben seguir una distribución normal de media = 0° y desviación
estándar =1.
161
Resúmene s de ca sosa
1
2
3
4
5
6
7
8
9
10
Total
Número
de c aso
1
2
3
4
5
6
8
9
10
11
N
Probabilidad
pronosticada
,57961
,57713
,58377
,80793
,77499
,62229
,34926
,63139
,56967
,52195
10
Grupo
pronosticado
No
No
No
No
No
No
Sí
No
No
No
10
Diferencia
entre las
probabilida
des
pronosticad
as y
obs ervadas
-,57961
-,57713
-,58377
,19207
,22501
-,62229
,65074
,36861
-,56967
,47805
10
Res iduo
normalizado
-1,17420
-1,16824
-1,18428
,48758
,53883
-1,28357
1,36500
,76408
-1,15055
,95703
10
a. Limitado a los primeros 10 casos .
2.1.4. Métodos de selección de variables
Una vez más, y partiendo del archivo trabajo.sav del que hemos seleccionado exclusivamente los
individuos de edad inferior a 65 años, entramos en el cuadro de diálogo de la regresión logística
(Figura 2.1) y entramos exactamente las mismas variables que allí definimos, es decir, b1 como
dependiente y c1 (Cat) , c2 y c6 como covariantes. Si abrimos la lista desplegable del botón
Method observaremos que disponemos de siete opciones distintas además de Enter que es la
opción por defecto y utilizada hasta este momento. Seleccionamos Forward: Wald. No entramos
en el subcuadro Save y de Options seleccionamos todas las opciones y valores por defecto que
aparecen en la Figura 2.2 y que hemos utilizado hasta el momento. Ejecutamos el procedimiento
con OK.
Señalar ante todo que lo que acabamos de hacer no es sino seleccionar un procedimiento distinto
al Enter de entrada de variables en el modelo, rememorando algo que ya hicimos en la regresión
lineal múltiple. Distintos algoritmos pueden dar lugar a diferentes modelos, de entre los que
162
deberemos seleccionar aquel que, además de una buena capacidad explicativa y un buen ajuste,
sea interpretable y lo más sencillo posible.
Las tablas de la Figura 2.11 recogen un resumen de lo que sería el output de la regresión logística
con el método Forward Wald. Debemos advertir al lector que al igual que en otros muchos casos,
en esta figura se recoge únicamente la esencia del procedimiento y en el output encontrará
mucha más información. Esta información hace referencia a los diversos tests de ajuste en cada
paso del modelo, tabla de clasificación, histograma, pruebas de significación de los coeficientes
del modelo, etc., que no hacen sino reiterar para cada paso algo que el lector ya conoce del
modelo general visto anteriormente.
En la lista desplegable Method encontramos dos opciones distintas, cada una de ellas con tres
alternativas. Estas dos opciones son:
 Forward Stepwise Selection: las variables van entrando (o saliendo) del modelo de una en
una, a partir de un modelo inicial en el que únicamente figura la constante. Es el utilizado
en este ejemplo.
 Backward Stepwise Selection: las variables van saliendo del modelo (o volviendo a entrar
en el mismo) también una a una, pero a partir del modelo inicial en el que todas ellas están
incluidas.
De este modo, y en el primer cuadro del output, observamos cómo en efecto la única «variable»
que figura en el modelo es la constante, con un coeficiente, error estándar, etc., que ya hemos
interpretado con anterioridad.
Variables en la e cuación
Pas o 0
B
,351
Constante
E.T.
,065
Wald
29,054
gl
1
Sig.
,000
Exp(B)
1,420
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado
Paso 1
Paso 2
gl
Sig.
Paso
55,739
1
,000
Bloque
55,739
1
,000
Modelo
55,739
1
,000
Paso
5,920
1
,015
Bloque
61,659
2
,000
Modelo
61,659
2
,000
Resumen de los modelos
Paso
1
2
-2 log de la
verosimilitud
1263,622(a)
R cuadrado de
Cox y Snell
,056
R cuadrado
de
Nagelkerke
,075
1257,702(a)
,061
,083
a La estimación ha finalizado en el número de iteración 3 porque las estimaciones de los parámetros
han cambiado en menos de ,001.
Variables que no están e n la ecuación
Pas o 1
Vari ables
Pas o 2
Estadísticos global es
Vari ables
Estadísticos global es
c2
c3
c3
Puntuación
5,898
,062
8,109
2,290
2,290
gl
1
1
2
1
1
Sig.
,015
,803
,017
,130
,130
163
Variables en la e cuación
Pas
a o
1
Pas
b o
2
c1(1)
Constante
c2
c1(1)
Constante
B
-,988
,864
,012
-,975
E.T.
,135
,099
,005
,135
Wald
53,935
76,129
5,873
52,220
,397
,215
3,408
gl
1
1
1
1
Sig.
,000
,000
,015
,000
Exp(B)
,372
2,372
1,012
,377
1
,065
1,487
I.C. 95,0% para EXP(B)
Inferior
Superior
,286
,485
1,002
,289
1,022
,491
a. Variable(s) introduc ida(s) en el paso 1: c 1.
b. Variable(s) introduc ida(s) en el paso 2: c 2.
En el segundo cuadro de la Figura 2.11, tenemos en primera instancia las variables que no han
entrado en el modelo todavía. El sistema analiza el estadístico Score y su grado de significación
y, de las tres variables que en este caso están fuera del modelo, selecciona para entrar en el
mismo aquella que tiene un grado de significación más bajo, en este caso, la variable c6 con un
estadístico igual a 68,285 y una p = 0,0000. A continuación, el sistema compara este grado de
significación con el criterio de entrada establecido (por defecto y en este caso 0,05), tal y como
podemos observar en Probability for Stepwise: Entry = 0,05 de la Figura 2.2. Como quiera que el
grado de significación p = 0,0000 es menor que 0,05, la variable entra en el modelo en el primer
paso, tal y como observamos en el tercer cuadro. Una vez entrada la variable en el modelo, el
sistema reevalúa el mismo al objeto de constatar si todas ellas cumplen con el criterio de salida.
El criterio viene definido tanto por el estadístico utilizado (el de Wald en el ejemplo) como por la
probabilidad asignada al mismo para que una variable salga del modelo. En el subcuadro de diálogo
de la Figura 2.2 podemos ver que esta probabilidad es por defecto 0,10 (Probability for Stepwise
Removal: 0,10) y, por tanto, todas las variables quedarán dentro del modelo.
En el tercer bloque aparecen en primer lugar las variables que todavía están fuera del modelo; el
sistema selecciona c1 para entrar en este paso, cumple el criterio de entrada (p = 0,0000 menor
que 0,05) y en efecto entra en el mismo. Una vez dentro, tanto la constante como las dos
variables entradas cumplen el requisito de salida y permanecen en el mismo.
Finalmente, y en el último bloque c2 con un Score = 0,0723 y un grado de significación p =
0,7880, no cumple el requisito de entrada, con lo que el sistema se detiene y queda establecido el
modelo definitivo.
El subcuadro de diálogo Options de la Figura 2.2 recoge alguna opción más, interesante para los
distintos métodos de entrada de las variables en el modelo. Display ofrece una doble alternativa,
que consiste la primera (At each step) en que el output recoja todos los estadísticos y gráficos
seleccionados para cada paso del modelo, siempre que el método no sea el Enter en cuyo caso
entran todas las variables a la vez. Como comentábamos anteriormente, esto nos permitirá
evaluar el modelo en cada estadio distinto. El resto de opciones, o las hemos analizado
anteriormente o no necesitan mayores comentarios por nuestra parte, y únicamente recordar del
capítulo 6 de Estadística básica que los límites del gráfico de «outliers» podemos modificarlos y
hacer visibles o únicamente éstos o todos los casos. Al final del output el sistema nos advierte de
no haber encontrado outliers con los límites fijados, que es la opción por defecto, es decir, dos
desviaciones estándar.
Referencia: Análisis Estadístico con SPSS para Windows.
Volumen II: Estadística Multivariante. Autor Visauta Vinacua.
Mc Graw Hill.
164
Ejemplo (Regresión logística simple)
Este ejemplo muestra cómo ejecutar el procedimiento Regresión logística con las
especificaciones que el programa tiene establecidas por defecto y cómo interpretar los
resultados obtenidos. Considere el archivo GSS93 reducido.sav, que se encuentra en la misma
carpeta en la que está instalado el SPSS. El archivo contiene variables socio-demográficas y de
opinión correspondientes a la Encuesta General (General Social Survey) del año 93. Se trata de
una macroencuesta realizada anualmente en los Estados Unidos de América.
A partir de estos datos se va a intentar predecir y explicar si una persona ha votado o no en las
últimas elecciones a partir de un conjunto de características socio-demográficas. La variable que
distingue a los sujetos que manifiestan haber votado de aquellos que manifiestan no haber
votado es la variable voto92.
Para conocer cómo se comporta esta variable, la tabla 1 muestra su distribución de frecuencias.
Tabla 1
Votó en las elecciones de 1992
Válidos
Perdidos
Total
Ha votado
No ha votado
No elegible
Rehusa
Total
No sabe
No contesta
Total
Frecuencia
1032
420
34
6
1492
4
4
8
1500
Porcentaje
68,8
28,0
2,3
,4
99,5
,3
,3
,5
100,0
Porcentaje
válido
69,2
28,2
2,3
,4
100,0
Porcentaje
acumulado
69,2
97,3
99,6
100,0
La variable Voto92 presenta más de dos categorías de respuesta. Si se utiliza como variable
dependiente tal como se encuentra en el archivo de datos, el Visor emitirá una advertencia
comunicando que la variable dependiente seleccionada tiene más de dos categorías y que no es
posible llevar a cabo el análisis.
Para poder utilizar una variable politómica como variable dependiente en un análisis de regresión
logística binaria, es necesario filtrar previamente las dos categorías con las que se desea
trabajar o, alternativamente, recodificar la variable original haciéndole tomar sólo dos valores,
cuando esto tenga sentido.
En el ejemplo, se ha utilizado el procedimiento Recodificar > En distintas variables del menú
Transformar para crear una nueva variable denominada voto, con etiqueta “¿Votó en 1992?”. En
esta nueva variable, se ha asignado el código 0 (con etiqueta “Sí votó”) a los casos con valor 1 en
la variable voto92, y el código 1 (con etiqueta “No votó”) a los casos con valor 2 en la variable
voto92. Esta última categoría (1= “No votó”) va a desempeñar un importante rol en el análisis
(como se verá más adelante, aunque los códigos asignados a las categorías de la variable
dependiente no afectan al proceso de estimación de los parámetros del modelo, tienen especial
importancia en la interpretación de los resultados).
La tabla 2 muestra la distribución de frecuencia de la nueva variable voto. Un dato interesante
de estos resultados es que el 28,9% de las personas encuestadas no votó en las elecciones.
165
Tabla 2
¿Votó en 1992?
Válidos
Perdidos
Total
Sí votó
No votó
Total
Sist ema
Frec uencia
1032
420
1452
48
1500
Porc entaje
68,8
28,0
96,8
3,2
100, 0
Porc entaje
válido
71,1
28,9
100, 0
Porc entaje
acumulado
71,1
100, 0
Para simplificar la explicación de esta primera aproximación al análisis de regresión logística
también se ha recodificado la variable periodic (frecuencia con la que se lee el periódico) en una
nueva variable denominada leer, con etiqueta “¿Lee el periódico?”. En esta nueva variable, a los
casos con código 1 (“Diariamente”), 2 (“Varios días a la semana”) y 3 (“Varios días al mes”) se les
ha asignado el código 0, con etiqueta “Si lee”; y a los casos con valores 4 (“Raramente”) y 5
(“Nunca”) se les ha asignado el código 1, con etiqueta “No lee”. La tabla 28.3 ofrece la
distribución de frecuencia de la nueva variable.
Tabla 3
¿Le e el pe riódico?
Válidos
Perdidos
Total
Sí lee
No lee
Total
Sist ema
Frec uencia
862
148
1010
490
1500
Porc entaje
57,5
9,9
67,3
32,7
100, 0
Porc entaje
válido
85,3
14,7
100, 0
Porc entaje
acumulado
85,3
100, 0
Para averiguar si la variable que se desea utilizar como dependiente ( voto) está relacionada con la
variable que se va a utilizar como independiente (leer), se puede, como paso previo, cruzar ambas
variables en una tabla de contingencias bidimensional. El procedimiento Estadísticos descriptivos
> Tablas de contingencias del menú Analizar permite obtener las frecuencias conjuntas que
muestra la tabla 4. La tabla contiene las frecuencias observadas y los porcentajes de columna.
El porcentaje de sujetos que manifiesta haber votado es del 74,9% entre los sujetos que leen el
periódico y del 47% entre los sujetos que no leen el periódico. Los resultados de la tabla indica
que de los 1.500 casos del archivo original, únicamente 976 poseen respuestas válidas en ambas
variables.
Tabla 4
Tabla de contingencia ¿Votó e n 1992? * ¿Le e el pe riódico?
¿Votó en
1992?
Sí votó
No votó
Total
Rec uento
% de ¿Lee el periódico?
Rec uento
% de ¿Lee el periódico?
Rec uento
% de ¿Lee el periódico?
¿Lee el periódico?
Sí lee
No lee
624
68
74,9%
47,6%
209
75
25,1%
52,4%
833
143
100, 0%
100, 0%
Total
692
70,9%
284
29,1%
976
100, 0%
166
Para comprobar si es posible predecir el resultado de la variable voto a partir de la variable leer
mediante una ecuación de regresión logística:

En el cuadro de diálogo Regresión logística binaria (ver figura 4), seleccionar la variable
voto y trasladarla al cuadro Dependiente.

Seleccionar la variable leer y trasladarla a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la información que muestran las tablas
5 a la 13.
La tabla 5 informa sobre el número de casos válidos incluidos en el análisis y sobre el número de
casos excluidos del análisis por tener algún valor perdido (ya sea en la variable dependiente, en la
independiente, o en ambas).
Tabla 5
Resumen del procesam iento de los casos
Cas os no ponderados
Cas os seleccionados
a
N
Incluidos en el análisis
Cas os perdidos
Total
Cas os no s eleccionados
Total
976
524
1500
0
1500
Porc entaje
65,1
34,9
100, 0
,0
100, 0
a. Si está activada la ponderación, c onsulte la tabla de clasificación para
ver el número total de cas os.
Tabla 6
Codificación de la variabl e depe ndiente
Valor original
Sí votó
No votó
Valor interno
0
1
La tabla 6 muestra la codificación interna utilizada por el procedimiento para distinguir los casos
en cada una de las categorías de la variable dependiente. El procedimiento asigna el valor 0 a los
casos que presentan el menor valor en la variable dependiente (sea éste numérico o de cadena) y
asigna el valor 1 a los casos con mayor valor. En el ejemplo, los códigos originales de la variable
dependiente y los códigos internos asignados por el procedimiento coinciden. Como se verá más
adelante, la categoría con el valor interno 1 juega un papel especial en la interpretación del
modelo.
167
Tabla 7
a,b
Tabla de clasifica ción
Pronosticado
Pas o 0
Obs ervado
¿Votó en 1992?
¿Votó en 1992?
Sí votó
No votó
692
0
284
0
Sí votó
No votó
Porc entaje
correcto
100, 0
,0
70,9
Porc entaje global
a. En el modelo se inc luye una const ante.
b. El valor de c orte es ,500
El modelo de regresión logística no es un modelo lineal, por lo que se utiliza un método de máxima
verosimilitud para estimar los parámetros del modelo que sólo incluye la constante (no incluye la
variable independiente). Las tablas de este bloque incluyen una cabecera en la dimensión de las
filas que recuerda que se trata del paso 0.
La tabla 7 muestra la clasificación de los casos en el Visor bajo el título Bloque 0 = Bloque inicial
y contienen información relacionada con el modelo nulo: el modelo que sólo incluye la constante
(no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la
dimensión de las filas que recuerda que se trata del paso 0.
La tabla 7 muestra la clasificación de los casos en el paso 0. Esta tabla se denomina también la
matriz de confusión y en ella se cruza el resultado observado en la variable dependiente con el
resultado pronosticado por el modelo nulo. Puesto que el modelo nulo todavía no incluye la
variable independiente, todos los casos son clasificados en la misma categoría: aquélla a la que
pertenecen más casos. Por tanto, el porcentaje de casos correctamente clasificados coincide con
el porcentaje de casos pertenecientes a esa categoría más numerosa.
Los datos de la matriz de confusión en el paso 0 coinciden con la frecuencia marginales de la
variable dependiente tal como se presenta en la tabla 4; pero, lógicamente, no coinciden con las
frecuencias de su distribución univariante dependiente (ver tabla 2) cuando existen valores
perdidos.
La tabla 8 ofrece la estimación correspondiente al término constante
(B= -0,891), varios estadísticos asociados a esa estimación ( error típico, estadístico de Wald y
grados de libertad) y la significación o nivel crítico del coeficientes estimado ( Sig). De momento,
la constante es el único término presente en el modelo.
Tabla 8
Variables en la e cuación
Pas o 0
Constante
B
-,891
E.T.
,070
Wald
159,717
gl
1
Sig.
,000
Exp(B)
,410
La tabla 9 contiene información sobre lo que ocurrirá cuando la variable independiente sea
incorporada al modelo: ofrece, para cada variable independiente, un contraste de la hipótesis nula
de que el efecto de la variable es nulo. Puesto que en este ejemplo únicamente se está utilizando
una variable independiente (leer), la tabla sólo muestra información referida a esa variable. Si el
nivel crítico asociado al contraste (Sig.) es menor que 0,05, se puede rechazar la hipótesis nula y
afirmar que la variable independiente contribuye significativamente a explicar el comportamiento
de la dependiente (o, de otro modo, a mejorar el ajuste del modelo). Esta tabla tiene, según se
verá, un interés especial cuando se ajustan modelos por pasos.
Tabla 9
168
Variables que no están e n la ecuación
Pas o 0
Variables
Estadísticos globales
Puntuación
44,275
44,275
LEE
gl
1
1
Sig.
,000
,000
Las tablas 10 a la 13 aparecen en el Visor bajo el título Bloque 1: Método = Introducir y
contienen los resultados propiamente dichos del modelo estimado. La tabla 10 muestra el
resultado de contrastar la hipótesis nla de que el modelo no mejora con la inclusión de la variable
independiente en el paso 1. En este caso todas las líneas de la tabla son iguales por ser la variable
leer la primera y única variable incluida en el modelo. Puesto que el nivel crítico ( Sig) es menor
que 0,05, se puede rechazar la hipótesis nula y concluir que la incorporación de la variable leer
mejora significativamente el ajuste y la capacidad predictiva del modelo.
Tabla 10
Pruebas om nibus sobre l os coe ficiente s del m odelo
Pas o 1
Pas o
Bloque
Modelo
Chi-cuadrado
40,723
40,723
40,723
gl
1
1
1
Sig.
,000
,000
,000
La tabla 11 muestra los estadísticos de bondad de ajuste global para el modelo estimado. Puesto
que el modelo de regresión logística utiliza como variable criterio una variable categórica, estos
estadísticos son meramente orientativos; suelen adoptar valores moderados o incluso bajos aun
cuando el modelo estimado pueda ser apropiado y útil.
Tabla 11
Resumen de los model os
Pas o
1
-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
1136,392a
,041
R cuadrado
de
Nagelkerke
,058
a. La estimac ión ha finalizado en el número de
iteración 4 porque las est imaciones de los
parámetros han cambiado en menos de ,001.
El concepto de verosimilitud hace referencia a la probabilidad de obtener una muestra como la
obtenida cuando se asume que el valor verdadero de los parámetros es el estimado. La razón de
verosimilitudes (es decir el logaritmo de la verosimilitud multiplicado por –2) se utiliza para
valorar el ajuste del modelo. Dado que la verosimilitud es un valor menor que 1 (se parece a una
probabilidad), suele transformarse en la razón de verosimilitudes para convertirla en un número
positivo de mayor amplitud. Si el modelo se ajusta bien a los datos, la verosimilitud de los datos
será grande y el valor de –2LL será pequeño (cuando el modelo se ajusta perfectamente a los
datos, la verosimilitud vale 1 y –2LL vale 0).
La razón de verosimilitudes del modelo nulo (el modelo en el paso 0) se utiliza como unto de
referencia para valorar el incremento en el ajuste que se produce al incluir las variables
independientes. De hecho, el estadístico de puntuación utilizado para valorar la capacidad
predictiva de las variables independientes en los modelos por pasos se basa en el cambio que va
experimentando -2LL en cada paso en relación con el valor de –2LL en el modelo nulo.
169
La tabla de clasificación (tabla 12), también denominada matriz de confusión o matriz de
clasificación correcta, ofrece una clasificación de los casos basada en el modelo de regresión
logística. Las filas de la tabla contienen las categorías de la variable dependiente a las que
realmente pertenecen los casos, mientras que las columnas contienen las categorías
pronosticadas por el modelo. En la diagonal principal se encuentra el número de casos
correctamente clasificados por el modelo. La última columna contiene el porcentaje de casos
correctamente clasificados en cada fila. (Lógicamente, si en lugar del porcentaje de errores de
clasificación, la tabla recibiría el nombre de tabla de clasificación incorrecta).
La matriz de confusión es en realidad un indicador de la validez del modelo, puesto que muestra
su capacidad predictiva (su capacidad para clasificar correctamente los casos).
Tabla 12
a
Tabla de clasifica ción
Pronosticado
Pas o 1
Obs ervado
¿Votó en 1992?
¿Votó en 1992?
Sí votó
No votó
624
68
209
75
Sí votó
No votó
Porc entaje global
Porc entaje
correcto
90,2
26,4
71,6
a. El valor de c orte es ,500
La matriz de confusión no es del todo útil hasta que se consigue establecer el mejor punto de
corte posible para la clasificación. Por defecto, el procedimiento utiliza como valor de corte la
puntuación 0,5. En la mayoría de las situaciones, cuando el modelo incorpora un gran número de
variables independientes y los grupos pronosticados son aproximadamente del mismo tamaño,
este valor de corte es suficientemente bueno. Sin embargo, la determinación del mejor punto de
corte corresponde al estudio de la clasificación, que será estudiada más adelante con detalle.
La tabla de variables incluidas en la ecuación (tabla 13) muestra las estimaciones de los
coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretarlos.
Tabla 13
Variables e n la ecuación
Pas
o
a
1
LEE
Constante
B
1,192
-1,094
E.T.
,186
,080
Wald
41,258
187, 316
gl
1
1
Sig.
,000
,000
Exp(B)
3,293
,335
a. Variable(s) introduc ida(s) en el pas o 1: LEE.
Para entender e interpretar todos estos resultados es conveniente revisar brevemente los
fundamentos matemáticos del modelo de regresión logística. Por ahora basta con saber que el
modelo contiene coeficientes significativamente distintos de 0 y que el hecho de que el
coeficiente correspondiente a la variable leer sea positivo indica que los sujetos que no leen el
periódico tienen una mayor probabilidad de no votar que los que si leen el periódico.
Cálculo de las probabilidades pronosticadas
Utilizando los datos de la tabla 13, la ecuación de regresión logística toma la forma :
170
1
P(Y 1)
La variable dependiente
1
Y
1
B0 B1 X
e
1
e
( 1,094 1,192 X )
del ejemplo es la variable voto (¿Votó en 1992?), una variable
dicotómica que puede tomar los valores:
Y 0 ”Si votó” e Y 1
”No votó”. Y la variable
independiente (X) del ejemplo es la variable (¿Lee el periódico?), una variable dicotómica que
puede tomar los valores: X
0 “Sí lee” y X 1 ”No lee”. En el caso d que un encuestado
no lea el periódico
1 , la probabilidad pronosticada por la ecuación de regresión logística
X
para la categoría “No votó” vale:
P(Y
1 X
1
1)
1
e
1,094 1,192 1
1
1
e 0,098
0,5245
Y en el caso de que un encuestado lea el periódico, la probabilidad pronosticada para la categoría
“No votó” vale:
1
P Y
1 X
0
1
e
1,094 1,192 0
1
1 e1,094
0, 2509
Por tanto, a partir de los pronósticos derivados de la ecuación de regresión logística, se puede
afirmar que, entre los sujetos que manifiestan no leer el periódico, la probabilidad de abstención
en las elecciones es mayor (aproximadamente el doble) que entre los sujetos que manifiestan leer
el periódico.
Es muy importante tener en cuenta que los pronósticos obtenidos con la ecuación de regresión
logística siempre se refieren a una de las dos categorías de la variable dependiente: aquella
codificada con el valor mayor y que es la que el procedimiento Regresión logística codifica
internamente con el valor 1. En el ejemplo, la categoría “No votó”.
Interpretación de los coeficientes
En la ecuación de regresión lineal, el valor del coeficiente de regresión asociado a una variable
independiente representa la cantidad de cambio en los pronósticos por unidad de cambio en el
variable independiente. En el modelo de regresión logística no ocurre esto. En el ejemplo, el
valor del coeficiente de la variable independiente es 1,192, mientras que la diferencia entre las
dos probabilidades pronosticadas vale 0,524 – 0,251 = 0,273. El significado de los coeficientes
de regresión no es el mismo en ambos modelos de regresión
Con los datos del ejemplo, la transformación
encuestado “Lee el periódico” (X = 0) vale:
ln
Por tanto, B0
P Y
1
X
0
P Y 0
X
0
B0
logit del suceso “No votó” (Y = 1), cuando el
ln
0, 2509
1 0, 2509
ln 0,335
1, 094
1, 09 (ver tabla 13). Y la transformación logit del suceso “No votó” cuando el
encuestado “No lee el periódico” (X = 1) vale:
171
ln
P Y
1
X
1
P Y
0
X
1
B0
B1
ln
0,5245
1 0,5245
ln 1,103
0, 098
Por tanto, la diferencia entre ambos logaritmos permite obtener el valor del coeficiente
B1 (ver
tabla 13):
B1
0, 098
1, 094
1,192
Así pues, en el modelo de regresión logística, el coeficiente de regresión asociado a una variable
independiente representa el cambio producido en la transformación logit por unidad de cambio
en la variable independiente.
Ahora bien, razonar en término de cambios en los logaritmos resulta poco intuitivo. Es preferible
interpretar directamente el cambio en las ventajas y no en los logaritmos de las ventajas.
Volviendo a la expresión de la ventaja:
P Y
P Y
1
0
e B0
B1 X
e B0 e B1 X
Se ve claramente que una ventaja se puede expresar en términos de potencias del número e. Por
ello se suele informar del valor exponencial de los coeficientes de regresión.
En los resultados de la regresión logística se incluye tanto el valor del coeficiente de regresión
(B) como el de Exp(B) o
eB .
En el ejemplo, la ventaja del suceso “No votó” cuando el encuestado “No lee el periódico” vale
1,103, mientras que la ventaja de ese mismo suceso cuando el encuestado “Sí lee el periódico”
vale 0,335. Si se expresa el cambio proporcional de la ventaja en términos de un cociente (como
una razón) se obtiene 1,103/0,335 = 3,293, que es justamente el valor de e
(ver Exp(B) en la
tabla 13). A este cambio proporcional se le denomina razón de las ventajas (odds ratio en
inglés), dado que es el resultado de dividir dos ventajas. Y se interpreta en términos del
cambio proporcional (ya sea aumento o disminución) que se produce en la ventaja del suceso o
evento de interés (“No vota” en el ejemplo) por cada unidad de cambio que se produce en la
variable independiente (VI). Resumiendo:
1.19

La razón de las ventajas vale 1 (y su correspondiente coeficiente de regresión vale cero)
cuando la VI no produce ningún efecto sobre la ventaja de un suceso.

La razón de las ventajas es mayor que 1 (y su correspondiente coeficiente de regresión es
mayor que 0) cuando un aumento en la VI lleva asociado un aumento de la ventaja del
suceso.
La razón de la ventajas es menor que 1 (y su correspondiente coeficiente de regresión es
menor que 0) cuando un aumento en la VI conlleva una disminución de la ventaja del
suceso.

El valor 1 es, por tanto el referente para la interpretación. Si la probabilidad de un suceso bajo
la condición A vale, por ejemplo, 0,60, la ventaja de ese suceso vale 0,60/0,40 = 1,5; y si la
probabilidad de ese suceso bajo la condición B vale 0,80, su ventaja vale 0,80/0,50 = 4. Es decir,
cuando la probabilidad de un suceso para de 0,60 a 0,80, su ventaja pasa de 1,5 a 4. Y la razón de
las ventajas expresa este aumento adoptando un valor de 4/1,5 = 2,67, el cual indica que la
ventaja del suceso ha aumentado 2,67 veces: 2,67(1,5) = 4.
172
Otro ejemplo. Si la probabilidad de un suceso bajo la condición A vale 0,60, su ventaja vale
0,60/0,40 = 1,5; si la probabilidad de ese suceso bajo la condición B vale 0,40, su ventaja vale
0,40/0,60 = 0,67. Es decir, cuando la probabilidad de un suceso pasa de 0,60 a 0,40, su ventaja
pasa de 1,5 a 0,67 (disminuye 0,83 puntos). La razón de las ventajas expresa esta disminución
adoptando un valor de 0,67/1,5 = 0,44, el cual indica que la ventaja del suceso ha disminuido un
56%: 0,56(1,5) = 0,83.
En contextos relacionados con la salud, cuando el evento de interés se refiere a la aparición de
una enfermedad o algún desenlace fatal, a las variables independientes cuya razón de las ventajas
es mayor que 1 se les suele llamar factores de riesgo y a la variables independientes cuya razón
de las ventajas es menor que 1, factores de protección.
Análisis de Regresión logística múltiple
Hasta ahora, por motivos didácticos, se han descrito los aspectos básicos de la regresión
logística utilizando una sola variable independiente. Sin embargo, lo habitual es intentar que un
modelo alcance la mayor capacidad discriminativa posible incluyendo en él más de una variable
independiente. Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión
logística utilizando más de una variable independiente. Se sigue utilizando el archivo GSS93
reducido.sav, la misma variable dependiente que en el primer ejemplo ( voto) y, además de la
variable independiente allí utilizada (leer), otras cuatro nuevas:

En el cuadro de diálogo Regresión logística, seleccionar la variable voto (¿Votó en 1992?)
y trasladarla al cuadro Dependiente.

Seleccionar las variables leer (¿Lee el periódico?), edad (Edad del encuestado), hijos
(Número de hijos), educ (Años de escolarización) e ingfam91 (Ingresos familiares en
1991), y trasladarlas a la lista Covariables.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas
14 a la 18.
Tabla 14
Variables que no están e n la e cuación
Pas o
0
Variables
Estadísticos globales
LEE
EDAD
EDUC
INGFAM91
HIJOS
Puntuación
45,137
20,956
60,910
53,935
,188
136, 954
gl
1
1
1
1
1
5
Sig.
,000
,000
,000
,000
,664
,000
La tabla 14 contiene los valores del estadístico de puntuación de Rao. Este estadístico mide la
contribución individual de cada variable a la mejora del ajuste global del modelo. El nivel crítico
(Sig) asociado a cada estadístico indica qué variables contribuyen significativamente al ajuste.
Puede verse que, exceptuando la variable hijos, todas las variables incluidas en el análisis son
significativas; por tanto, buenas candidatas para formar parte del modelo de regresión. La última
línea, Estadísticos globales, contiene una valoración global de todas las variables independientes
tomadas juntas.
173
Tabla 15 Contrastes de ajuste global
Pruebas om nibus sobre l os coe ficiente s del m odelo
Pas o 1
Pas o
Bloque
Modelo
Chi-cuadrado
143, 754
143, 754
143, 754
gl
5
5
5
Sig.
,000
,000
,000
La tabla 15 ofrece una prueba de ajuste global. El estadístico chi-cuadrado permite contrastar
la hipótesis de que el incremento obtenido en el ajuste global del modelo es nulo. Este
estadístico sirve para determinar si, al introducir las cinco variables independientes en el modelo,
se consigue un incremento significativo del ajuste global. Este incremento se valora tomando
como punto de referencia el modelo nulo. Puesto que el modelo se construye en un único paso
(pues se está utilizando el método introducir; ver siguiente apartado), todas las secciones de
tabla informan del mismo valor; la mejora respecto al modelo nulo, es decir, respecto al modelo
del paso 0
(Chi-cuadrado = 143,754). En el ejemplo, esta mejora es significativa:
Sig. = 0.000.
Tabla 16
Resumen de los model os
Pas o
1
-2 log de la
R cuadrado
verosimilitud
de Cox y Snell
970,392a
,143
R cuadrado
de
Nagelkerke
,205
a. La estimac ión ha finalizado en el número de
iteración 5 porque las est imaciones de los
parámetros han cambiado en menos de ,001.
La tabla 16 ofrece un resumen del modelo. Contiene tres estadísticos que permiten valorar el
ajuste global del modelo en el paso 1, es decir, del modelo que incluye todas las variables.
Comparando estos resultados con los de la tabla 11 se puede apreciar que los valores de los
estadísticos de Cox y Snell y de Nagelkerke han mejorado, si bien siguen siendo modelos
pensando en términos de un modelo lineal.
Tabla 17
a
Tabla de clasifica ción
Pronosticado
Pas o 1
Obs ervado
¿Votó en 1992?
Porc entaje global
Sí votó
No votó
¿Votó en 1992?
Sí votó
No votó
615
54
189
76
Porc entaje
correcto
91,9
28,7
74,0
a. El valor de c orte es ,500
174
La tabla 17 muestra la matriz de confusión con los resultados de la clasificación. Comparando
estos resultados con los del modelo que únicamente incluye la variable leer (Ver tabla 12), puede
apreciarse que el porcentaje global de clasificación correcta ha aumentado: ha pasado del 71,6 %
al 74,0%. Sin embargo, el porcentaje de clasificación correcta sigue siendo mucho mayor en el
grupo de votantes que en el de no votantes. Según se explicará más adelante, aunque no es
posible mejorar el porcentaje global de clasificación correcta sin incluir nuevas variables
independientes, si es posible equilibrar la tasa de aciertos en los dos grupos manipulando el punto
de corte utilizado en la clasificación.
Tabla 18
Variables e n la ecuación
Pas
a o
1
LEE
EDA D
EDUC
INGFAM91
HIJOS
Constante
B
,671
-,034
-,192
-,056
,018
3,636
E.T.
,207
,006
,032
,016
,051
,526
Wald
10,468
36,188
35,276
12,722
,125
47,706
gl
1
1
1
1
1
1
Sig.
,001
,000
,000
,000
,723
,000
Exp(B)
1,956
,967
,825
,945
1,018
37,957
a. Variable(s) introduc ida(s) en el pas o 1: LE E, EDA D, EDUC, INGFAM91, HIJOS.
La tabla de variables incluidas en la ecuación (tabla 18) muestra las estimaciones de los
coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretarlos.
La significación de cada coeficiente se evalúa a partir del estadístico de Wald.
Este
estadístico permite contrastar la hipótesis nula de que el coeficiente vale cero en la
población y se obtiene elevando al cuadrado el cociente entre el valor estimado del
coeficiente (B) y su error típico (error tip). Es un estadístico similar a una t . Cuando el nivel
crítico (Sig.) asociado al estadístico de Wald es menor que 0,05, se puede rechazar la hipótesis
nula y, por tanto, concluir que la correspondiente VI está significativamente relacionada con la
VD.
Un inconveniente de este estadístico es que es demasiado sensible al tamaño de los coeficientes;
en general, cuando el valor de un coeficiente es muy grande (en valor absoluto) el estadístico de
Wald es poco fiable. En estos casos es preferible evaluar la significación de las variables
utilizando un método por pasos (ver siguiente apartado).
El coeficiente asociado a la variable hijos no es significativo (Sig. > 0,05) por lo que, en principio,
no parece que sea necesario incluir esta variable en el modelo final. El resto de coeficientes son
significativos. Por lo que puede afirmarse que todas las variables excepto hijos contribuyen
significativamente a mejorar el ajuste del modelo.
De todos los coeficientes significativos (Sig. < 0,05), sólo el correspondiente a la variable leer es
positivo, por lo que ya se puede anticipar que sólo la razón de las ventajas de esta variable
tendrá un valor mayor que uno: la abstención ( voto = 1) es más probable entre los sujetos que no
leen el periódico (leer = 1). La columna de la razón de las ventajas, Exp(B), permite cuantificar en
qué grado aumenta la abstención cuando los sujetos no leen el periódico (y se mantienen
constantes las restantes variables). Puesto que el punto de comparación es el valor 1 y el Exp(B)
de la variable leer vale 1,956, se puede concluir que al ventaja de la abstención entre los sujetos
que no leen el periódico es aproximadamente el doble que entre los que sí lo leen.
El signo negativo del resto de los coeficientes indica que el incremento en cualquiera de las
demás variables disminuye la probabilidad de que un sujeto no vote: la abstención es menos
probable a medida que aumentan la edad, los ingresos familiares y los años de escolarización. La
razón de las ventajas de, por ejemplo, la variable educ (años de escolarización) vale Exp(B) =
2
175
0,825; como de nuevo el valor de comparación es 1, se puede afirmar que por cada año más de
escolarización se consigue una reducción proporcional de la ventaja de 1-0,825 = 0,175; lo que
significa que cada año adicional de escolarización reduce la ventaja de la abstención en un 17,5%.
Con variables cuantitativas como la edad suele resultar más conveniente interpretar la razón de
las ventajas asociada a una década en lugar de la razón de las ventajas asociada a un solo año. En
kB
ese caso, la razón de las ventajas asociada a un cambio de k unidades se obtiene mediante e ,
siendo B el coeficiente de regresión correspondiente al cambio de una unidad. En el ejemplo, la
razón de las ventajas asociada a una década vale e
10 ( 0 , 034 )
0,712 , lo que significa que por cada
diez años que aumenta la edad de los sujetos, la ventaja de la abstención disminuye un 100 (1 –
0,712) = 28,8%.
Conviene señalar que los coeficientes del modelo de regresión logística están expresados en la
métrica original de las variables. A diferencia de lo que ocurre en el modelo de regresión lineal
múltiple, aquí no es posible tipificar los coeficientes para valorar la importancia relativa de las
variables. A pesar de eso, la interpretación de la razón de las ventajas se realiza en
términos del cambio producido en la ventaja del suceso de interés por unidad de cambio
producido en la variable independiente. Pero no parece que suponga el mismo esfuerzo cumplir
un año más de edad que superar un año más de estudios. Para resolver este problema es habitual
transformar la escala original de las variables independientes; cuando se utilizan variables
tipificadas es más fácil interpretar la importancia relativa de una variable.
Análisis de regresión logística por pasos
Hasta ahora sólo se ha explicado cómo construir modelos de regresión logística en un único paso,
es decir, forzando la inclusión en el modelo de todas las variables independientes seleccionadas
para el análisis. Pero esta no es la única ni, muchas veces, la mejor manera de proceder. Cuando,
como es habitual, se dispone de más de una variable independiente, existen varios métodos para
seleccionar la variable o variables que deben formar parte del modelo de final: la introducción
forzosa, la selección por pasos y la selección por bloques.
El método de introducción forzosa hace que el modelo de regresión incluya todas las variables
independientes seleccionadas. Tiene la ventaja de que permite establecer el efecto conjunto de
todas las variables cuando existe colinealidad. Pero, como contrapartida, puede darse el caso de
que un modelo incluya variables que no contribuyen al ajuste del modelo.
Los métodos de selección por pasos permiten utilizar criterios estadísticos para, de forma
automática, incluir en el modelo las variables que son significativas y dejar fuera las que no lo son.
Estos métodos dan lugar a modelos que sólo incluyen variables significativas, pero tienen el
inconveniente de que pueden dejar fuera del modelo variables teórica o conceptualmente
relevantes.
Los métodos de selección por bloques permiten al usuario manipular la inclusión y/o exclusión de
variables mediante la combinación secuenciada de distintos procedimientos, pudiendo generar
modelos jerárquicos.
Métodos de selección de variables
Las opciones del menú desplegable Método permiten decidir qué método de selección de
variables se desea utilizar para construir el modelo de regresión. En los métodos de selección
por pasos, la inclusión (y la exclusión) de variables se basa en criterios estadísticos: sólo se
incluyen las variables que contribuyen al ajuste global del modelo, es decir, las variables que
176
ayudan a mejorar la capacidad predictiva del modelo. Para decidir qué variables contribuyen al
ajuste del modelo, todos los métodos de selección de variables utilizan el estadístico de
puntuación de Rao. Para la exclusión de variables se puede elegir entre el estadístico de Wald, el
cambio en la razón de verosimilitudes y el estadístico condicional.
Los métodos hacia adelante parten del modelo nulo (modelo que no incluye ninguna variable
independiente) y van incluyendo variables paso a paso hasta que no quedan variables significativas
por incluir. Los métodos hacia atrás parten del modelo saturado (modelo que incluye todas las
variables seleccionadas por el usuario) y van excluyendo variables pasos a paso hasta que no
quedan variables no-significativas por excluir.







Introducir. Es el método que actúa por defecto. Construye el modelo de regresión, en un
solo paso, con todas las variables independientes seleccionadas en la lista Covariables.
Adelante: Condicional. Método de selección por pasos hacia delante que, partiendo del
modelo nulo, va incorporando aquellas variables cuyo estadístico de puntuación, siendo
significativo, posee la probabilidad asociada más pequeña. Tras incorporar al modelo una
nueva variable, todas las variables incluidas hasta ese momento son revisadas para
determinar si existe alguna que debe ser excluida (es decir, para determinar si, como
consecuencia de la nueva incorporación, el estadístico de puntuación de alguna variable ha
dejado de ser significativo). El proceso se detiene cuando entre las variables no incluidas
en el modelo no queda ninguna cuyo estadístico de puntuación sea significativo.
Adelante: RV. Método similar al condicional pero que difiere en el estadístico utilizado
para evaluar la exclusión de variables: en lugar del estadístico de puntuación de Rao se
utiliza la razón de verosimilitudes (RV). Con este método, se van eliminando por turno
cada una de las variables del modelo y evaluando si la variable eliminada hace o no perder
ajuste. El estadístico RV contrasta la hipótesis nula de que la variable eliminada tiene un
coeficiente igual a 0. El valor de RV para el modelo con esa variable.
Adelante: Wald. Método similar al condicional que, para excluir variables del modelo,
en lugar del estadístico de puntuación de Rao, utiliza el estadístico de Wald. Una variable
es excluida del modelo si la significación asociada al estadístico de Wald es mayor que
0.10.
Atrás: Condicional. Método de selección por pasos hacia atrás en el que, partiendo del
modelo saturado y utilizando el estadístico de puntuación de Rao, se van eliminando
variables no significativas una a una hasta que no es posible seguir eliminando variables
porque todas las que quedan en el modelo son significativas.
Atrás: RV. Método de selección por pasos hacia atrás. La exclusión de variables se
basa en la razón de verosimilitudes.
Atrás: Wald. Método de selección por pasos hacia atrás. La exclusión de variables se
basa en el estadístico de Wald.
Ejemplo (Regresión logística por pasos)
Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión logística utilizando un
método de selección por pasos (en concreto, el método adelante: condicional). Se siguen
utilizando las mismas variables del ejemplo anterior:

En el cuadro de diálogo Regresión logística seleccionar la variable voto (¿Votó en 1992?)
y trasladarla al cuadro Dependiente.
177

Seleccionar las variables leer (¿Lee el periódico?), edad (Edad del encuestado), hijos
(Número de hijos). Educ (Años de escolarización) e ingfam91 (ingresos familiares en
1991), y trasladarlas a la lista de Covariables.

Pulsar el botón de menú desplegable del recuadro Método y seleccionar el método
Adelante: Condicional.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las tablas
19 a la 23.
Tabla 19
Pruebas om nibus sobre l os coe ficiente s del m odelo
Pas o 1
Pas o 2
Pas o 3
Pas o 4
Pas o
Bloque
Modelo
Pas o
Bloque
Modelo
Pas o
Bloque
Modelo
Pas o
Bloque
Modelo
Chi-cuadrado
61,826
61,826
61,826
55,422
117, 248
117, 248
15,904
133, 152
133, 152
10,477
143, 629
143, 629
gl
1
1
1
1
2
2
1
3
3
1
4
4
Sig.
,000
,000
,000
,000
,000
,000
,000
,000
,000
,001
,000
,000
La tabla 19 ofrece una prueba de ajuste global. Recuérdese que el estadístico chi-cua-drado
permite contrastar la hipótesis de que la mejora obtenida en el ajuste es nula. La tabla informa,
paso a paso, de las variaciones producidas en el ajuste como consecuencia de la incorporación (o
eliminación) de cada nueva variable. En cada paso se muestran tres tipo de información: la fila
Paso informa sobre la mejora en el ajuste debida a la variable recién incorporada (la mejora se
evalúa respecto al ajuste obtenido en el paso previo); la fila Bloque se refiere a la mejora en el
ajuste debida al bloque de variables recién incorporado(sólo útil si se utiliza un método de
selección de variables por bolques); la fila Modelo informa sobre la mejora en el ajuste debida al
total de variables incluidas (la mejora se evalúa respecto a la obtenida en el paso 0).
En el primer paso se incluye la variable educ (ver tabla 21); y la inclusión de esta variable supone
una mejora significativa del ajuste (Sig. = 0,000). En el segundo paso se incluye la variable edad
(ver tabla .21); su inclusión (Paso) supone una mejora significativa del ajuste respecto al paso
anterior, y el modelo resultante (Modelo), que en este segundo paso incluye el término constante
y la variable edad y educ, también ofrece una mejora significativa del ajuste. Etc. El modelo
consta de 4 pasos y es en el último donde se consigue el mejor ajuste.
178
Tabla 20
Resumen de los model os
Pas o
1
2
3
4
-2 log de la
R cuadrado
verosimilitud
de Cox y S nell
1052,320a
,064
b
996,899
,118
980,995b
,133
970,518b
,143
R cuadrado
de
Nagelkerke
,092
,169
,191
,205
a. La estimac ión ha finalizado en el número de
iteración 4 porque las est imaciones de los
parámetros han cambiado en menos de ,001.
b. La estimac ión ha finalizado en el número de
iteración 5 porque las est imaciones de los
parámetros han cambiado en menos de ,001.
En los estadísticos de ajuste global de la tabla 28.20 también se puede apreciar que el ajuste
global del modelo va mejorando en cada paso, mientras que el valor de la razón de verosimilitudes
(-2 log de la verosimilitud) va disminuyendo paulatinamente.
Tabla 21
Variables e n la ecuación
Pas
a o
1
Pas
b o
2
Pas
c o
3
Pas
d o
4
EDUC
Constante
EDA D
EDUC
Constante
EDA D
EDUC
INGFAM91
Constante
LEE
EDA D
EDUC
INGFAM91
Constante
B
-,190
1,474
-,036
-,262
E.T.
,025
,323
,005
,029
Wald
55,734
20,829
49,291
81,079
3,976
,497
-,035
-,211
-,062
4,171
,675
-,033
-,194
-,056
3,654
,005
,031
,016
,501
,207
,005
,032
,016
,524
gl
1
1
1
1
Sig.
,000
,000
,000
,000
Exp(B)
,827
4,365
,965
,769
64,098
1
,000
53,287
48,098
45,555
15,821
69,170
10,623
41,045
37,042
12,597
48,591
1
1
1
1
1
1
1
1
1
,000
,000
,000
,000
,001
,000
,000
,000
,000
,966
,809
,940
64,768
1,964
,968
,824
,946
38,618
a. Variable(s) introduc ida(s) en el pas o 1: EDUC.
b. Variable(s) introduc ida(s) en el pas o 2: EDAD.
c. Variable(s) introduc ida(s) en el pas o 3: INGFAM91.
d. Variable(s) introduc ida(s) en el pas o 4: LE E.
La tabla.21 informa sobre las variables incorporadas al modelo en cada uno de los pasos. También
informa sobre las estimaciones de los coeficientes y su significación. Generalmente, el paso que
interesa valorar es el último, pues es el que contiene el modelo final. De las cinco variables
independientes seleccionadas para el análisis, el método por pasos utilizado ha seleccionado
cuatro. En el ejemplo anterior, en el que el modelo construido incluía las cinco variables, la
variable hijos tenía asociado un coeficiente no significativo. Ahora, al proceder por pasos, la
variable hijos ha quedado fuera. El modelo final sólo incluye variables cuyos coeficientes son
significativamente distintos de cero.
179
Tabla 22
a
Modelo si se elim ina el término
Variable
Pas o 1 EDUC
Pas o 2 EDA D
EDUC
Pas o 3
Pas o 4
EDA D
EDUC
INGFAM91
LEE
EDA D
EDUC
INGFAM91
Log
verosimilitud
del modelo
-557,366
-526,576
Cambio en -2
log de la
verosimilitud
62,413
56,254
-547,402
-517,851
-516,008
-498,482
-490,503
-508,231
-505,730
-491,586
1
1
Sig. del
cambio
,000
,000
97,906
1
,000
54,708
51,021
15,969
10,488
45,944
40,943
12,654
1
1
1
1
1
1
1
,000
,000
,000
,001
,000
,000
,000
gl
a. Según las estimac iones condicionales de los parámetros
La tabla 22 ofrece, para cada paso, una evaluación de la pérdida de ajuste que se produciría en el
modelo si se eliminaran, una a una, las variables ya incluidas. Esto sirve para valorar la
pertinencia de excluir en un paso dado alguna de las variables previamente incluidas.
Recuérdese que los métodos de selección de variables por pasos hacia delante permiten la
exclusión de una variable previamente incluida si se aprecia una pérdida en su significación como
consecuencia de la incorporación de nuevas variables. Lo que ha ocurrido en el ejemplo es que no
se ha excluido ninguna de las variables previamente incluidas (cosa, por otra parte, bastante
habitual).
Tabla 23
Variables que no están e n la ecuación
Pas o 1
Variables
Pas o 2
Estadísticos globales
Variables
Pas o 3
Estadísticos globales
Variables
Pas o 4
Estadísticos globales
Variables
Estadísticos globales
LEE
EDA D
HIJOS
INGFAM91
LEE
HIJOS
INGFAM91
LEE
HIJOS
HIJOS
Puntuación
24,618
52,000
6,976
17,686
80,186
14,238
,035
16,116
26,902
10,780
,274
10,911
,126
,126
gl
1
1
1
1
4
1
1
1
3
1
1
2
1
1
Sig.
,000
,000
,008
,000
,000
,000
,851
,000
,000
,001
,601
,004
,723
,723
La tabla 23 muestra información sobre las variables todavía no incluidas en el modelo en cada
paso. El estadístico de puntuación de Rao permite apreciar qué variable será incluida en el
180
siguiente paso: aquella a la que corresponde el mayor estadístico de puntuación (siempre que
éste sea significativo).
En la tabla se puede ver que, de las variables no incluidas en el primer paso, la variable edad es la
que tiene un estadístico de puntuación más alto (52,013); como además es significativo ( Sig. =
0,000), esa será la variable incorporada al modelo en el siguiente paso. En el resto de los pasos
se aplica el mismo criterio.
La información de la tabla 23 puede resultar interesante para apreciar cómo, por efecto de la
presencia de colinealidad, algunas variables van perdiendo significación antes de poder ser
incluidas en el modelo. La variable hijos, por ejemplo, podría haber entrado en el paso 1, pero la
información que comparte con la variable edad impide que pueda entrar en pasos sucesivos.
Variables Categóricas
A diferencia de lo que ocurre con el análisis discriminante, el análisis de regresión logística
ofrece la posibilidad de utilizar variables independientes categóricas (nominales u ordinales). El
procedimiento permite identificar y definir las variables categóricas incluidas en la lista de
variables independientes y decidir qué tratamiento recibirán en el análisis.
Cuando una variable categórica está codificada como una variable indicador, es decir, con códigos
0 y 1 (uno de ellos indicando la ausencia de la característica y el otro indicando la presencia de la
característica), la variable puede introducirse directamente en el análisis sin necesidad de
ninguna aclaración adicional (de hecho, ya se ha utilizado una variable indicador en los ejemplos
previos). Pero si los códigos de una variable categórica no son 0 y 1, o ésta tiene más de
dos categorías, es necesario definir la variable como categórica e indicar el tratamiento que
debe recibir.
Para decidir qué variables deben ser tratadas como categóricas:

Pulsar el botón Categórica... del cuadro de diálogo Regresión logística para acceder al
subcuadro de diálogo Regresión logística: Definir variables categóricas que muestra la
figura
181

Seleccionar, en la lista Covariables, la(s) que debe(n) ser tratada(s) como categórica(s) y
trasladarla(s) a la lista Covariables categóricas.

Seleccionar, en la lista Covariables categóricas, la variable que se desea definir (o todas
las variables que se desea definir de la misma manera) y utilizar el menú desplegable
Contraste para seleccionar un tipo de contraste (en el caso de que se desee aplicar un
contraste distinto de contraste Indicador, que es el que se aplica por defecto).

Pulsar el botón Cambiar para hacer efectivos los cambios y el botón Continuar para volver
al cuadro de diálogo principal.
Ejemplo (Regresión Logística > Categórica)
Este ejemplo muestra cómo definir una variable categórica e interpretar los resultados
relacionados con ella. Se sigue utilizando la misma variable dependiente que en las ejemplos
anteriores (voto) y, como variable independiente, se utiliza la variable sitlab (situación laboral),
una variable categórica con 8 niveles o categorías.




En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al
cuadro Dependiente.
Seleccionar la variable sitlab y trasladarla a la lista Covariables.
Pulsar el botón Categórica... para acceder al subcuadro de diálogo Regresión logística:
Definir variables categóricas
Seleccionar la variable sitlab en la lista Covariables y trasladarla a la lista Covariables
categóricas. Dejar Indicador como opción del recuadro Contraste y pulsar el botón
Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las
tablas 24 y 25 (sólo se explican los resultados relacionados con la variable categórica incluida en
el análisis).
Tabla 24
Codificaciones de varia bles ca tegóricas
Situación
laboral
Frec uencia
A tiempo completo
724
A tiempo parcial
159
Temporalmete
28
desempleado
Des empleado
50
Retirado
224
Estudiante
38
Ama de cas a
195
Otro
34
Codificación de parámetros
(3)
(4)
(5)
,000
,000
,000
,000
,000
,000
(1)
1,000
,000
(2)
,000
1,000
,000
,000
1,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
1,000
,000
,000
,000
,000
(6)
,000
,000
(7)
,000
,000
,000
,000
,000
,000
1,000
,000
,000
,000
,000
,000
1,000
,000
,000
,000
,000
,000
1,000
,000
La tabla 24 muestra la codificación asignada a las categorías de la variable sitlab. La variable se
ha descompuesto en 7 variables indicador. A todas las categorías (excepto a la última) se les ha
asignado el valor 1 en la columna correspondiente al parámetro que la va a representar en la
estimaciones del modelo. El resto de valores en la misma fila y columna son cero.
Esta información sirve para saber que, más adelante, la categoría “A tiempo completo” va a estar
representada por el parámetro o coeficiente 1, la categoría “A tiempo parcial” por el parámetro o
coeficiente 2, etc.
Por supuesto, cambiando el esquema de codificación (contraste) en el correspondiente cuadro de
diálogo, cambiarán los códigos asignados a cada categoría.
182
Tabla 25
Variables e n la ecuación
B
Pas
a o
1
SITLAB
SITLAB(1)
SITLAB(2)
SITLAB(3)
SITLAB(4)
SITLAB(5)
SITLAB(6)
SITLAB(7)
Constante
-1,019
-1,193
-1,526
,323
-1,052
-,773
-,580
,000
E.T.
,353
,391
,601
,447
,375
,489
,374
,343
Wald
36,819
8,327
9,312
6,449
,522
7,847
2,497
2,403
,000
gl
7
1
1
1
1
1
1
1
1
Sig.
,000
,004
,002
,011
,470
,005
,114
,121
1,000
Exp(B)
,361
,303
,217
1,381
,349
,462
,560
1,000
a. Variable(s) introduc ida(s) en el pas o 1: SITLAB.
La tabla 25 ofrece las estimaciones de los coeficientes del modelo y su significación ( Sig). Estos
coeficientes corresponden a la variable sitlab, a los parámetros categóricos definidos al
codificar las categorías de la variable sitlab en la tabla 24 y a la constante del modelo.
La primera fila, encabezada con el nombre de la variable, ofrece un contraste de la variable sitlab
globalmente considerada. Si este contraste de la variable sitlab no fuera significativo, carecería
de sentido seguir inspeccionando los parámetros categóricos en los que se descompone la
variable.
A continuación se muestran las estimaciones de los parámetros y su significación.
La
interpretación que debe hacerse de esta información depende del tipo de codificación asignada
(es decir, del tipo de contraste elegido). En el ejemplo, dado que se ha asignado una codificación
tipo indicador, cada uno de los coeficientes B representa a una categoría de la variable sitlab.
Un coeficiente significativo (es decir, un coeficiente son Sig. < 0,05) indica que la categoría a la
que representa difiere significativamente de la categoría de referencia (en el ejemplo, la
última). Los coeficientes 4, 6 y 7 no son significativos, por lo que se puede afirmar que los
sujetos de las categorías “Desempleado”, “Estudiante” y “Ama de casa” no difieren
significativamente de los sujetos de la categoría “Otro”. Se puede considerar que la probabilidad
de abstención de estas tres categorías no difiere de la probabilidad de abstención de la
categoría de referencia.
Los coeficientes 1, 2, 3 y 5 son significativos (Sig. < 0,05) y con una razón de las ventajas o
Exp(B) menor que 1 en todos los casos. Se puede afirmar, por tanto, que en las categorías “A
tiempo completo”, “A tiempo parcial”, “Temporalmente desempleado” y
“Retirado”, l a
probabilidad de no votar (voto = 1) es menor que en la categoría de referencia “Otro”.
Guardar pronósticos y residuos
En ocasiones puede interesar llevar a cabo un estudio pormenorizado de los casos que componen
la muestra utilizada en el análisis, o utilizar en otros procedimientos los resultados de la
clasificación realizada por la regresión logística. El SPSS permite guardar en el archivo de datos
algunos de los resultados generados por el procedimiento Regresión logística. Para guardar como
variables estos resultados:

Pulsar el botón Guardar... del cuadro de diálogo Regresión logística para acceder al
subcuadro de diálogo Regresión logística: Guardar nuevas variables
183
Valores pronosticados. Las opciones de este recuadro permiten crear variables nuevas basadas
en los pronósticos del modelo:



Probabilidades. Crea una variable en la que, a cada caso del archivo de datos, se le
asigna la probabilidad pronosticada por el modelo (la probabilidad de pertenecer a la
categoría de la variable dependiente codificada con un 1).
Grupo de pertenencia. Crea una variable en la que, a cada caso del archivo de datos, se
le asigna el grupo (categoría de la variable dependiente) en el que ha sido clasificado por
el modelo a partir del punto de corte seleccionado en el cuadro de diálogo Opciones. El
punto de corte por defecto es 0,5.
Influencia. Las opciones de este recuadro permiten crear variables con información
relacionada con la influencia (peso, importancia) de cada caso en el modelo de regresión:
o De Cook. La distancia de Cook (1977) mide el cambio que se produce en las
estimaciones de los coeficientes de regresión al ir eliminando cada caso de la
ecuación de regresión. Una distancia de Cook grande indica que ese caso tiene un
peso considerable en la estimación de los coeficientes. Para evaluar estas
distancias puede utilizarse la distribución F con p + 1 y n – p – 1 grados de
libertad (p se refiere al número de variables independientes y n al tamaño de la
muestra). En general, un caso con una distancia de Cook superior a 1 debe ser
revisado.
o Valores de influencia. Representan la influencia potencial de cada caso en el
modelo de regresión. Un valor de influencia es una medida normalizada del grado
de distanciamiento de un punto respecto del centro de su distribución. Los
puntos muy alejados pueden influir de forma muy importante en la ecuación de
regresión, pero no necesariamente tienen por qué hacerlo. Los valores de
influencia se encuentran entre 0 y 1, y su valor promedio es p/n, donde p es el
número de parámetros estimados (incluida la constante) y n es el tamaño de la
muestra.
o BfBetas. (diferencia en las betas). Mide el cambio que se produce en los
coeficientes de regresión estandarizados (betas) como consecuencia de ir
eliminando cada caso de la ecuación de regresión. El SPSS crea en el Editor de
datos tantas variables nuevas como coeficientes beta tiene la ecuación de
regresión, incluida la constante.
Residuos. Las opciones de este recuadro permiten crear variables que contienen información
relacionada con los residuos:

No tipificados. A cada caso le corresponde un residuo no tipificado o bruto
R1 resultado de restar la probabilidad pronosticada por el modelo a la
probabilidad observada:
Ri
Pi
Pi ` (estas probabilidades se refieren al
evento de interés, es decir a la categoría de la variable dependiente codificada
internamente con un 1; así, Pi se refiere a la probabilidad observada de que el
caso i pertenezca a la categoría 1).

Logit. Residuos en cala logit RLi . El residuo logit es el residuo no tipificado
dividido por la varianza de su pronóstico RLi

´
Ri / Pi (1
´
Pi )
Método de Student. Guarda los residuos estudentizados, los cuales representan
el cambio observado en la desviación del modelo al excluir cada caso del modelo.
184


Tipificados. Los residuos tipificados se obtienen dividiendo los residuos no
tipificados por una estimación de su error típico. En el caso de la regresión
logística, un residuo se tipifica dividiéndolo por la raíz cuadrada de Pi 1 Pi .
Los residuos tipificados, también conocidos como residuos de Pearson o residuos
estandarizados, se distribuyen de forma aproximadamente normal con media 0 y
desviación típica 1.
Desvianza.
La desvianza se define como la raíz cuadrada de –2 ln
''
Pi , siendo Pi ' ' la probabilidad pronosticada para el grupo real (es decir, la
probabilidad pronosticada de que un caso pertenezca al grupo –categoría de la
variable dependiente- que realmente pertenece). El procedimiento calcula la
desvianza asignado la raíz cuadrada positiva si en caso pertenece a la categoría
codificada con un 1, y asignando la raíz cuadrada negativa si el caso no pertenece
a esa categoría. Con nuestra grandes, la desvianza se distribuye de forma
aproximadamente normal.
Ejemplo (Regresión logística > Guardar)
Este ejemplo muestra cómo crear y almacenar, en el Editor de datos, nuevas variables con
información relativa a algunos resultados del análisis de regresión logística.
Al igual que en los ejemplos anteriores, se va a utilizar la variable voto (¿Votó en 1992?) como
variable dependiente; y, como variables independientes, las variables leer (¿Lee el periódico?),
edad (Edad del encuestado), titestud (Título escolar), indsocec (índice socioeconómico del
encuestado) y telenov (Frecuencia de visualización de telenovelas):




En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al
cuadro Dependiente.
Seleccionar las variables leer, edad, titestud, indsocec y telenov, y trasladarlas a la lista
de Covariables.
Pulsar el botón Guardar... para acceder al subcuadro de diálogo Regresión logística:
Guardar nuevas variables y seleccionar las opciones Probabilidades y Grupo de
pertenencia del recuadro Valores pronosticados, y la opción Tipificados del recuadro
Residuos.
Pulsar el botón Continuar para volver al cuadro diálogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los recuadros que muestran las tablas
28.28 a la 28.30. Además, el Editor de datos genera estas tres nuevas variables:



Pre_1, con etiqueta “Predicted probability” (probabilidad pronosticada).
Pre_2, con etiqueta “Predicted group” (grupo pronosticado).
Zre_1, con etiqueta “Normalizad residual” (residuo tipificado).
La tabla 26 muestra el porcentaje de casos correctamente clasificados en cada uno de los
grupos. La tabla sugiere que el punto de corte utilizado por defecto (0,5) puede ser mejorado,
pues aunque el porcentaje global de casos correctamente clasificados es del 74,1%, en el grupo
de no votantes sólo se clasifica correctamente al 26,9% de los casos.
185
Tabla 26
a
Tabla de clasifica ción
Pronosticado
Pas o 1
Obs ervado
¿Votó en 1992?
¿Votó en 1992?
Sí votó
No votó
614
47
193
71
Sí votó
No votó
Porc entaje global
Porc entaje
correcto
92,9
26,9
74,1
a. El valor de c orte es ,500
La tabla 27 muestra las estimaciones de los coeficientes del modelo y su significación. Al igual
que en un modelo de regresión lineal, estos coeficientes pueden utilizarse para construir una
ecuación lineal y, de esta forma, obtener los pronósticos:
Pr = 1,415 + 0,894 leer - 0,030 edad - 0,576 titestud - 0,017 indsocec +
0,137 telenov
Tabla 27
Variables en la e cuación
Pas
a o
1
LEE
EDAD
TITESTUD
INDSOCEC
TELENOV
Constante
B
,894
-,030
-,576
-,017
,137
1,415
E.T.
,210
,005
,104
,006
,068
,352
Wald
18,125
37,196
30,461
8,698
4,115
16,134
gl
1
1
1
1
1
1
Sig.
,000
,000
,000
,003
,043
,000
Exp(B)
2,445
,970
,562
,983
1,147
4,117
a. Variable(s) introducida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV.
Transformando Pr a escala logística se obtienen las probabilidades pronosticadas por el modelo.
Es decir, las probabilidades que el modelo pronostica y que se acaban de almacenar en la variable
pre_1 se obtienen transformando Pr (la ecuación de regresión lineal) a escala logística:
PY
1
1
1 e
Pr
Una vez obtenidos los pronósticos, puede cambiarse el punto de corte ensayando valores que
ofrezcan un mejor equilibrio entre las proporciones de clasificación correcta en ambos grupos
(esto se hace desde el cuadro de diálogo Opciones; ver siguiente apartado).
La tabla 28 muestra algunos estadísticos descriptivos referidos a las tres nuevas variables
creadas por el procedimiento en el Editor de datos. Estos descriptivos se han obtenido con el
procedimiento Estadísticos descriptivos > Descriptivos del menú Analizar. Observando la tabla
se ve, por ejemplo, que las probabilidades pronosticadas oscilan entre 0,01 y 0,81 y que la
proporción de casos clasificados en el grupo o categoría 1, es decir, la media del grupo
pronosticado) vale 0,128: el procedimiento, utilizando el punto de corte establecido por defecto
(0,5), ha clasificado en el grupo de no votantes al 12,8% de los casos.
Tabla 28
186
Esta dísticos descriptivos
N
Probabilidad
pronosticada
Grupo pronosticado
Res iduo normalizado
N válido (según list a)
Mínimo
Máx imo
Media
Des v. típ.
953
,01504
,80736
,2852953
,17746283
953
925
925
0
-1,83720
1
6,01187
,13
,0054241
,334
1,017198
En relación con los residuos tipificados, se observa, en primer lugar, que su media vale
aproximadamente 0 y su desviación típica aproximadamente 1. Se aprecia que existe al menos un
caso con un valor pronosticado considerablemente alto ( Máximo = 6,012): al menos un caso
presenta un residuo que se aleja más de 6 desviaciones típicas por encima de la media de los
pronósticos. El significado de los residuos en un modelo de regresión logística no es muy distinto
del de los residuos en un modelo de regresión lineal: un residuo alto (generalmente, un residuo
situado a más de 3 desviaciones típicas por encima de la media) permite identificar a un sujeto
que se ha abstenido a pesar de que sus puntuaciones en el conjunto de las variables
independientes definen el perfil típico de los sujetos que votan en las elecciones; por el
contrario, un residuo bajo (generalmente, un residuo situado a más de 3 desviaciones típicas por
debajo de la media) permite identificar a un sujeto que sí ha votado a pesar de que sus
puntuaciones en el conjunto de la variables independientes definen el perfil típico de los sujetos
que se abstienen.
Opciones
El cuadro de diálogo Opciones permite obtener información adicional a la que el procedimiento
ofrece por defecto. También permite controlar las probabilidades de entrada y salida utilizadas
en los métodos de selección por pasos, establecer el número máximo de iteraciones en el
algoritmo de estimación, decidir si el modelo debe o no incluir el término constante y cambiar el
punto de corte que el procedimiento utiliza para clasificar los casos. Para utilizar estas opciones:

Pulsar el botón Opciones... del cuadro de diálogo Regresión logística para acceder al
subcuadro de diálogo Regresión logística:
Estadísticos y gráficos.
estadísticos y gráficos.



Las opciones de este recuadro permiten seleccionar algunos
Gráficos de clasificación.
Genera un histograma apilado de las probabilidades
pronosticadas por el modelo. En este histograma se distinguen los casos de cada uno de
los dos grupos utilizados en el análisis, el punto de corte utilizado en la clasificación y los
territorios de clasificación.
Bondad de ajuste de Hosmer- Lemeshow. Este índice es útil para evaluar el ajuste
global del modelo, particularmente cuando se dispone de muchas variables independientes
o cuando algunas de las variables independientes son continuas.
Listado de residuos por caso. Genera un listado de los residuos no tipificados, de las
probabilidades pronosticadas, del grupo observado y del grupo pronosticado:
o Valores atípicos a más de k desv. Típicas. Limita el listado a los casos cuyo residuo
tipificado se aleja de la media de los residuos más de k desviaciones típicas (en valor
absoluto).
o Todos los casos. Lista todos los casos incluidos en el análisis.
187



Correlaciones de estimaciones.
Ofrece la matriz de correlaciones entre las
estimaciones de los parámetros del modelo.
Historial de iteraciones. Genera un listado con los valores de los coeficientes estimados
y del logaritmo de la función de verosimilitud en cada iteración del proceso de estimación.
IC para Exp(B): _%. Incluye en la tabla de estimaciones de los coeficientes (variables
en el modelo) el intervalo de confianza para el valor exponencial de cada coeficiente
B
. Este intervalo se construye, por defecto, con una confianza del 95%, pero es
e
posible cambiar el nivel de confianza introduciendo un valor entre 1 y 99.
Mostrar. Las opciones de este recuadro permiten controlar el detalle con el que se generan los
resultados:


En cada paso. Se muestran los estadísticos, tablas y gráficos correspondientes a cada
paso de la estimación. No se muestra el resumen de los pasos.
En el último paso. Se muestran los estadísticos, tablas y gráficos correspondientes al
modelo final de cada bloque. En estos resultados se resumen los pasos intermedios.
Probabilidades para los casos. Las opciones de este cuadro permiten modificar los niveles de
significación utilizados en los métodos de selección por pasos. La probabilidad de Entrada (0,05
por defecto) se refiere al nivel de significación utilizando para considerar que el coeficiente
asociado a una variable todavía no incluida en el modelo es distinto de cero y, por tanto, que la
variable debe ser incluida en el modelo. Este valor es necesario para garantizar que el modelo
final solo incluya variables que contribuyan significativamente al ajuste global.
La probabilidad de Salida (0,10 por defecto) se refiere al nivel de significación utilizando para
considerar que el coeficiente asociado a una variable ya incluida en el modelo ha dejado de ser
significativo (como consecuencia de la incorporación de nuevas variables) y, por tanto, que la
variable debe ser excluida del modelo. Este valor es necesario para garantizar que el modelo
final no incluya variables que no contribuyan significativamente al ajuste global. La probabilidad
de salida debe ser mayor que la de entrada.
Punto de corte para la clasificación. Esta opción permite cambiar el valor del punto de corte
utilizando en la clasificación. Recuérdese que el punto de corte es el valor que se utiliza para
clasificar a los casos en uno u otro grupo o categoría de la variable dependiente: los casos cuya
probabilidad pronosticada es mayor que el punto de corte son clasificados en el grupo o categoría
codificada con un 1; los casos cuya probabilidad pronosticada es menor que el punto de corte son
clasificados en el otro grupo o categoría. El valor por defecto es 0,5.
Nº máximo de iteraciones. Esta opción permite establecer el número máximo de iteraciones
que el algoritmo de estimación puede llegar a recorrer en el proceso de estimación de los
coeficientes. El valor por defecto es 20, lo que suele ser suficiente en la mayoría de los casos
para encontrar un solución.

Incluir constante en el modelo. Esta opción permite determinar si el modelo estimado debe
o no incluir el término constante. Esta opción (que se encuentra activa por defecto) no debe
desactivarse hasta comprobar que la constante del modelo no es significativa.
188
Ejemplo (Regresión logística > Opciones)
Este ejemplo muestra cómo personalizar las opciones del procedimiento Regresión logística
(tales como el punto de corte para la clasificación) y cómo obtener e interpretar algunos
resultados adicionales a los que el procedimiento ofrece por defecto.
Al igual que en los ejemplos anteriores, se va a seguir utilizando la variable voto (¿Votó en 1992?)
como variable dependiente; y, como variables independientes, las variables leer (¿Lee el
periódico?), edad (Edad del encuestado), titestud
(Título escolar), indsocec (Índice
socioeconómico del encuestado) y telenov (Frecuencia de visualización de telenovelas):
En el cuadro de diálogo Regresión logística seleccionar la variable voto y trasladarla al
cuadro Dependiente.
 Seleccionar las variables leer, edad, titestud, indsosec y telenov, y trasladarlas a la lista
de Covariables.
 Pulsar el botón Opciones... para acceder al subcuadro de diálogo Regresión logística:
Opciones y marcar todas las opciones del recuadro Estadísticos y gráficos.
 Cambiar el Punto de corte para la clasificación introduciendo el valor 0,30.
 Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Tabla 29

Variables e n la e cuación
Pas
o
a
1
LEE
EDAD
TITESTUD
INDSOCEC
TELENOV
Constante
B
,894
-,030
-,576
-,017
,137
1,415
E.T.
,210
,005
,104
,006
,068
,352
Wald
18,125
37,196
30,461
8,698
4,115
16,134
gl
1
1
1
1
1
1
Sig.
,000
,000
,000
,003
,043
,000
Exp(B)
2,445
,970
,562
,983
1,147
4,117
I.C. 95,0% para EXP(B)
Inferior
Superior
1,620
3,691
,961
,980
,458
,690
,972
,994
1,005
1,310
a. Variable(s) introduc ida(s) en el paso 1: LEE, EDAD, TITESTUD, INDSOCEC, TELENOV.
La tabla 29 muestra las estimaciones de los coeficientes y su significación. En esta ocasión, la
tabla incluye, como novedad, los intervalos de confianza al 95% para cada valor Exp(B). Estos
intervalos permiten contrastar la hipótesis nula de que la razón de las ventajas vale 1 en la
población (lo cual es equivalente a contrastar con el estadístico de Wald la hipótesis de que un
coeficiente vale cero en la población): cuando el intervalo de confianza no incluye el valor 1, se
puede rechazar esa hipótesis y concluir que la correspondiente variable independiente posee un
efecto significativo.
Además, los intervalos de confianza informan sobre la importancia relativa de las variables
independientes: las variables a las que corresponden intervalos que se solapan son variables con
un efecto similar; las variables con intervalos que nos e solapan son variables con un efecto
significativamente distinto (aunque no debe olvidarse que la magnitud de la razón de las ventajas
depende de la métrica de las variables).
Observando los valores de la tabla se ve que las cinco variables independientes incluidas en el
análisis poseen un efecto significativo: todos los niveles críticos ( Sig.) son menores que 0,05 y
ningún intervalo de confianza incluye el valor 1. Por un lado, las variables leer y telenov tienen
valores tienen valores Exp(B) significativamente mayores que 1, por lo que puede afirmarse que
los sujetos que no leen el periódico y que no ven telenovelas (es decir, los sujetos a los que
corresponden los códigos más altos en esas variables) tienden a no votar, si bien el efecto de
variable leer es significativamente mayor que el de la variable telenov (pues los límites de sus
intervalos de confianza no se solapan y los de la variable leer son más altos que los de la variable
telenov). Por otro lado, la variables edad, titestud e indsocec tienen valores Exp(B)
189
significativamente menores que 1, por lo que puede afirmarse que los sujetos de menor edad,
menor título académico y menor índice socioeconómico tienden a no votar, si bien el efecto de la
variable titestud es significativamente mayor que el de las variables edad e indsocec, no
existiendo diferencias significativas entre los efectos de estas dos últimas variables.
La tabla 37 muestra las correlaciones entre las estimaciones de los coeficientes del modelo. Al
valorar esta correlaciones, lo que habitualmente se encuentra es que el término constante
correlaciona con las estimaciones correspondientes a las variables independientes (pues el
término constante no es más que un factor de escala que refleja la métrica de conjunto de
variables independientes). Sin embargo, las correlaciones entre las estimaciones de las variables
independientes deben ser pequeñas, pues una correlación elevada entre dos coeficientes debe
interpretarse como un indicio de colinealidad. Y cuando existe colinealidad, la estimación del
coeficiente relativo a una variable puede estar demasiado afectada (sesgada) por la presencia de
la(s) otra(s) variable(s). En el ejemplo, la matriz de correlaciones entre los coeficientes no
contiene correlaciones elevadas.
Tabla 30
Matriz de correla ciones
Pas o
1
Constante
LEE
EDAD
TITESTUD
INDSOCEC
TELENOV
Constante
1,000
-,143
-,617
-,134
-,514
-,342
LEE
-,143
1,000
,044
,145
-,074
,029
EDAD
-,617
,044
1,000
,240
-,008
-,164
TITESTUD
-,134
,145
,240
1,000
-,461
-,077
INDSOCEC
-,514
-,074
-,008
-,461
1,000
-,010
TELENOV
-,342
,029
-,164
-,077
-,010
1,000
El gráfico de la figura muestra un histograma de las probabilidades pronosticadas. Los casos se
encuentran identificados por una letra; la base del gráfico incluye una leyenda que informa de los
símbolos utilizados para diferenciar los casos (S = “Sí votó”, N = “No votó”), del número de
casos que representa cada símbolo (Each Symbol Represents 2,5 Cases) y del punto de corte
utilizado (The Cut Value is 0,30). Debajo del eje de abscisas se indica el territorio que
corresponde a cada pronóstico (la secuencia de símbolos del territorio cambia en el valor del
punto de corte). En una situación ideal (clasificación perfecta), todos los símbolos del interior
del gráfico estarían situados en la vertical de su propio territorio. Los casos no situados en la
vertical de su territorio son casos mal clasificados por el modelo.
Step number: 1
Observed Groups and Predicted Probabilities
40 



F
R
N
N
N
N N
N
 N NNN S S N N NN
30 


N

SNSSSNSNS N N NNN NN

E
 SSSSSSSNS NNS SNN NNN
Q
 SSSSSSSSSS SNSNSNNNSNNN

U
 SSSSSSSSSS SNSNSSSNSNNN NN N

E
20  SSSSSSSSSSNSSSNSSSSSSSNNNN N

N
 SSSSSSSSSSNSSSNSSSSSSSNNNN N
C
 SSSSSSSSSSSSSSSSSSSSSSNNNNNN
Y
 SSSSSSSSSSSSSSSSSSSSSSSNNSNS NN

N


N
10  SSSSSSSSSSSSSSSSSSSSSSSSNSNS NN
 SSSSSSSSSSSSSSSSSSSSSSSSSSSS NN


N N

SNNNN NN
 SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSN SNNSSNNNN

N
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNSSSSSSSSNN N
N

Predicted 
Prob:
0
,25
,5
,75
1
Group: SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
Predicted Probability is of Membership for No votó
The Cut Value is ,50
Symbols: S - Sí votó
N - No votó
Each Symbol Represents 2,5 Cases.
190
La tabla 31 muestra un listado con los casos cuyo valor pronosticado difiere en más de dos
desviaciones típicas del valor observado, es decir, los casos cuyo residuos típificado es mayor que
2 o menor que –2. La tabla ofrece, para cada uno de estos casos, el número de registro que ocupa
en el Editor de datos (Caso); si el caso ha sido seleccionado o no para estimar el modelo (Estado
de la selección); la categoría de la variable dependiente a la que pertenece ( Observado), con una
marca de dos asteriscos si ha sido mal clasificado; la probabilidad pronosticada por el modelo
(Pronosticado); el grupo en el que ha sido clasificado (Grupo pronosticado) y los residuos en bruto
(Resid.) y tipificados (Zresid.).
En general, siempre resulta interesante detenerse a estudiar con detalle los casos con residuos
grandes (en valor absoluto) pues, generalmente, corresponden a casos que pueden estar
influyendo desproporcionadamente en la estimación de los coeficientes del modelo. En ocasiones,
incluso, puede ser recomendable excluir estos casos de la muestra y volver a estimar el modelo
sin ellos para comprobar en qué grado varían las estimaciones de los coeficientes.
Tabla 31
Listado por casosb
Cas o
11
194
284
285
316
378
450
511
718
759
772
787
788
875
1091
1096
1167
1172
1186
1239
1408
Estado de
a
selección
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Obs ervado
¿Votó en
1992?
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
N**
Variable temporal
Pronosticado
,121
,137
,027
,039
,087
,107
,061
,083
,131
,066
,112
,090
,052
,096
,130
,114
,123
,068
,069
,096
,041
Grupo
pronosticado
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
Res id
,879
,863
,973
,961
,913
,893
,939
,917
,869
,934
,888
,910
,948
,904
,870
,886
,877
,932
,931
,904
,959
ZResid
2,701
2,507
6,012
4,988
3,248
2,887
3,934
3,321
2,579
3,760
2,809
3,189
4,277
3,061
2,589
2,794
2,664
3,713
3,677
3,062
4,858
a. S = Selecc ionados , N = Casos no selec cionados y ** = Casos mal c lasificados.
b. Se listan los casos con residuos estudentizados mayores que 2,000.
Seleccionar
El cuadro de diálogo Regresión logística incluye la posibilidad de utilizar una variable de selección,
es decir, una variable cuyos valores determinan qué casos van a ser incluidos en el análisis y qué
casos van a ser excluidos (una variable de selección produce un efecto similar al que produce una
variable de filtro impuesta con el procedimiento Seleccionar casos, aunque, según se verá
enseguida, existen diferencias). Para utilizar una variable de selección:
Los casos del archivo de datos que cumplan el criterio de selección serán incluidos en el análisis;
los que no cumplan el criterio de selección serán excluidos. Sin embargo, esta exclusión sólo
afecta al proceso de estimación del modelo, pues cuando el procedimiento crea nuevas variables
(pronósticos, residuos, etc.), cuando construye la tabla de clasificación (la matriz de confusión) y
cuando ofrece información particular sobre los casos (tal como el gráfico de clasificación o el
191
listado de valores atípicos), distingue entre los casos incluidos en el análisis (los utilizados en la
estimación del modelo) y los no incluidos.
Bibliografía:
SPSS 11 Guía para el análisis de datos Capítulo 28
Antonio Pardo Merino y Miguel ängel Ruiz Díaz
Mc Graw Hill
192
VII Análisis Factorial
El análisis factorial es una técnica que nos permite identificar un número relativamente pequeño
de factores que pueden ser utilizados para representar la relación existente entre un conjunto
de variables intercorrelacionadas. Analicemos, por ejemplo, la pregunta 17 del cuestionario cuyos
datos recoge el archivo trabajo.sav y referida a la evaluación por parte de los encuestados de la
importancia que según su opinión pueden tener cada una de las causas que se enumeran, en el alto
índice de paro en España. Son las siguientes:
b13: La crisis económica.
b14: La política de empleo del gobierno.
b15: La mala gestión de los empresarios.
b16: La comodidad de la gente, que sólo quiere buenos trabajos.
b17: La falta de preparación del trabajador.
b18: Las pocas ganas de trabajar de la gente.
b19: El no saber buscar trabajo.
b20: Que hay mucho pluriempleo.
b21: Que el trabajo que hay no se reparte bien socialmente.
El modelo matemático que subyace a esta técnica es similar al de la regresión simple y en él cada
variable aparece como combinación lineal de una serie de factores que no son en este momento
observables. Por ejemplo, b13 (la crisis económica) puede aparecer expresada como:
b13 = a(sujeto) + b(externos al sujeto) + c(entorno) + Ua
"
donde sujeto, externos al sujeto y entorno no son variables independientes sino grupos de
variables desconocidas por nosotros a priori, que pueden ser los factores subyacentes y que
hemos denominado «sujeto» como factor que puede englobar las variables referidas a causas del
paro inherentes al propio sujeto, «externas al sujeto», en donde estarían como causantes del
paro el gobierno y los empresarios, por ejemplo, y el «entorno» en donde bien podrían estar la
crisis económica y el reparto del trabajo.
Vamos a corroborarlo con la técnica del análisis factoriaI.
Es importante señalar que el análisis factorial nos puede permitir reflejar el conjunto de
variables con el menor número de factores posible y que a su vez éstos tienen una interpretación
clara y un sentido preciso.
Aunque en la práctica el análisis factorial (AF) y el método de componentes principales (PC) se
utilizan indistintamente y dan resultados similares, conviene señalar que así como en el análisis
de componentes principales el objetivo consiste en encontrar una serie de componentes que
expliquen el máximo de variancia total de las variables originales, el objetivo del análisis factorial
es encontrar una serie de factores que expliquen el máximo de variancia común de las variables
originales.
193
Descriptivos y matriz de correlaciones
Abrir archivo trabajo.sav.
Crear un conjunto que considere las variables b13 a b21.
Analizar/Reducción de datos/Análisis Factorial
Considerar las variables b13 a b21 y pulsar Descriptivos-Extracción-Rotación-Puntuaciones y
Opciones seleccionando las opciones que aparecen en las pantallas.
Esta dísticos descriptivos
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de t rabajar
Bús queda
Pluriempleo
Reparto
Media
3,93
3,91
3,53
3,02
2,92
2,85
2,77
3,57
3,87
Des viación
típic a
,882
,933
1,005
1,133
1,086
1,203
1,099
1,005
,877
N del anális is
1009
1009
1009
1009
1009
1009
1009
1009
1009
Fig 1
194
a
Matriz de correla ciones
Correlación
Sig. (Unilat eral)
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de t rabajar
Bús queda
Pluriempleo
Reparto
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de t rabajar
Bús queda
Pluriempleo
Reparto
Cris is
1,000
,397
,185
-,120
-,003
-,157
-,101
,019
,084
Política de
empleo
,397
1,000
,202
-,077
-,050
-,104
-,078
,054
,103
,000
,000
,000
,000
,457
,000
,001
,273
,004
,000
,007
,057
,000
,006
,044
,001
Empresarios
,185
,202
1,000
,028
-,010
-,024
,044
,101
,161
,000
,000
,185
,373
,221
,082
,001
,000
Comodidad
-,120
-,077
,028
1,000
,336
,559
,387
,214
,043
,000
,007
,185
Preparación
-,003
-,050
-,010
,336
1,000
,425
,345
,115
,045
,457
,057
,373
,000
,000
,000
,000
,000
,087
Ganas de
trabajar
-,157
-,104
-,024
,559
,425
1,000
,451
,195
,071
,000
,000
,221
,000
,000
,000
,000
,000
,077
Bús queda
-,101
-,078
,044
,387
,345
,451
1,000
,231
,134
,001
,006
,082
,000
,000
,000
,000
,000
,012
,000
,000
Pluriempleo
,019
,054
,101
,214
,115
,195
,231
1,000
,376
,273
,044
,001
,000
,000
,000
,000
Reparto
,084
,103
,161
,043
,045
,071
,134
,376
1,000
,004
,001
,000
,087
,077
,012
,000
,000
,000
a. Determinante = ,240
Fig 2
En la Figura 1 aparecen en primer lugar la media, desviación estándar y las etiquetas de cada una
de las nueve variables entradas en el análisis factorial y para los 1.009 sujetos de la muestra que
han respondido a las nueve preguntas del cuestionario a las que se refieren estas variables.
Aparece este resultado en el output si en el subcuadro de diálogo «Descriptivos» seleccionamos
la opción «Descriptivos univariados». Son 1.009 sujetos en todas las variables puesto que en el
subcuadro de diálogo «Opciones» seleccionamos
« Excluir casos según lista ». Si la opción seleccionada hubiese sido «Excluir casos según pareja»
aparecería en el output una columna con el número de respuestas válidas en cada variable (y no
necesariamente el mismo).
A continuación aparece la matriz de correlaciones entre variables y el determinante de la misma a
pie de tabla. Finalmente el grado de significación de estos coeficientes en un contraste unilateral.
Es importante que todas las variables tengan al menos un coeficiente de correlación significativo
en la matriz.
Inve rsa de la ma triz de correl acione s
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de t rabajar
Bús queda
Pluriempleo
Reparto
Fig 3
Cris is
1,239
-,441
-,134
,061
-,115
,138
,059
-,008
-,049
Política de
empleo
-,441
1,223
-,153
,014
,034
,024
,048
-,043
-,059
Empresarios
-,134
-,153
1,086
-,063
,032
,054
-,058
-,038
-,128
Comodidad
,061
,014
-,063
1,548
-,148
-,674
-,207
-,160
,080
Preparación
-,115
,034
,032
-,148
1,290
-,376
-,231
,005
,005
Ganas de
trabajar
,138
,024
,054
-,674
-,376
1,740
-,361
-,067
-,027
Bús queda
,059
,048
-,058
-,207
-,231
-,361
1,380
-,144
-,086
Pluriempleo
-,008
-,043
-,038
-,160
,005
-,067
-,144
1,247
-,427
Reparto
-,049
-,059
-,128
,080
,005
-,027
-,086
-,427
1,201
KMO y prueba de Bartl ett
Medida de adecuación muestral de
Kais er-Mey er-Olkin.
Prueba de esfericidad
de Bartlett
Fig 4
Chi-cuadrado
aproximado
gl
Sig.
,712
1434,418
36
,000
En la Figura 3 tenemos la inversa de la matriz de correlaciones, los «KMO» (Kaiser-Meyer-Olkin)
y el test de Bartlett. Este último, es decir, el test de Bartlett, se utiliza para verificar si la
195
matriz de correlaciones es una matriz de identidad, es decir, si todos los coeficientes de la
diagonal son iguales a la unidad y los externos a la diagonal iguales a 0. Este estadístico se
obtiene a partir de la transformación X2 del determinante de la matriz de correlaciones y
cuanto mayor sea y por tanto menor el grado de significación, más improbable que la matriz sea
una matriz de identidad. En el ejemplo, con un valor 1434,418 y un grado de significación p =
0,000 resulta evidente que no se trata de una matriz de identidad. En el supuesto de que no se
pudiese rechazar esta hipótesis, se desaconseja proceder a realizar un análisis factorial con los
datos.
El índice KMO nos compara los coeficientes de correlación de Pearson obtenidos en la Figura 2
con los coeficientes de correlación parcial entre variables.
Se obtiene:
rij2
i j
2
ij
KMO
aij2
r
i j
i j
donde:
rij es el coeficiente de correlación de Pearson entre las variables i y j
aij es el coeficiente de correlación parcial entre las variables i y j.
Si los coeficientes de correlación parcial entre las variables son muy pequeños, quiere esto decir
que la relación entre cada par de las mismas se debe o puede ser explicada por el resto y por
tanto llevar a cabo un análisis factorial de los datos no deja de ser una buena solución. En este
supuesto, si la suma de los coeficientes de correlación parcial al cuadrado es muy pequeña, KMO
será un índice muy próximo a la unidad y por tanto el análisis factorial un procedimiento
adecuado. En cambio, valores pequeños en este índice nos dan a entender todo lo contrario. De
hecho, y para Kaiser (1974):
1≥ KMO > 0,90 son considerados excelentes.
0,90 ≥ KMO > 0,80 son considerados buenos.
0,80 ≥ KMO > 0,70 son considerados aceptables.
0,70 ≥ KMO > 0,60 son considerados mediocres o regulares.
0,60 ≥ KMO > 0,50 son considerados malos.
KMO < 0,50 son considerados inaceptables o muy malos.
En el ejemplo este valor es de 0,712 y por tanto se puede considerar como aceptable y continuar
con el análisis factorial. Un último indicador de la magnitud de la relación lineal entre las
variables y que veremos más adelante es el coeficiente de correlación múltiple entre cada
variable y el resto y que coincidirá con la comunalidad inicial cuando el procedimiento no sea el de
componentes principales.
196
Matrices a nti-ima gen
Covarianza anti-imagen
Correlación anti-imagen
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
Cris is
,807
-,291
-,100
,032
-,072
,064
,034
-,005
-,033
,601 a
-,358
-,116
,044
-,091
,094
,045
-,006
-,040
Política de
empleo
-,291
,818
-,115
,007
,022
,011
,028
-,028
-,040
-,358
,609 a
-,132
,010
,027
,016
,037
-,034
-,048
Empresarios
-,100
-,115
,921
-,038
,023
,029
-,039
-,028
-,098
-,116
-,132
,690 a
-,049
,027
,039
-,047
-,033
-,112
Comodidad
Preparación
,032
-,072
,007
,022
-,038
,023
,646
-,074
-,074
,775
-,250
-,168
-,097
-,130
-,083
,003
,043
,003
,044
-,091
,010
,027
-,049
,027
,744 a
-,104
-,104
,791 a
-,411
-,251
-,142
-,173
-,115
,004
,058
,004
Ganas de
trabajar
,064
,011
,029
-,250
-,168
,575
-,151
-,031
-,013
,094
,016
,039
-,411
-,251
,721 a
-,233
-,046
-,019
Bús queda Pluriempleo
,034
-,005
,028
-,028
-,039
-,028
-,097
-,083
-,130
,003
-,151
-,031
,725
-,083
-,083
,802
-,052
-,285
,045
-,006
,037
-,034
-,047
-,033
-,142
-,115
-,173
,004
-,233
-,046
,816 a
-,109
-,109
,669 a
-,067
-,349
Reparto
-,033
-,040
-,098
,043
,003
-,013
-,052
-,285
,833
-,040
-,048
-,112
,058
,004
-,019
-,067
-,349
,591 a
a. Medida de adecuac ión muestral
Fig 5
En la Figura .5 tenemos las matrices «anti.imagem> de covariancias y correlaciones entre todas
las variables del ejemplo. Serán los negativos de los coeficientes de correlación parcial entre
cada par de variables neutralizando el efecto de todas las restantes. Interesan por tanto
coeficientes cuanto más pequeños, mejor.
En la diagonal de esta última tenemos los coeficientes MSA (Measures of Sampling Adequacy)
que vienen a ser los KMO pero en este caso para cada variable por separado.
n lugar de incluir los sumatorios de todos los pares de variables de la tabla (36 en el
ejemplo), solamente se incluyen en el sumatorio los pares de variables en las que la
variable para la que se calcula el coeficiente está implicada. Por lo demás, la
interpretación de sus valores es idéntica a la realizada para los KMO.
En resumen, y por lo que hace referencia al ejemplo que nos ocupa, tenemos:
·
.
.
.
.
Coeficientes de correlación de Pearson que en la mayoría de los casos son altamente
significativos.
El determinante de la matriz de correlaciones (0,240) relativamente bajo.
El indice KMO = 0,712 bastante aceptable.
El resultado del test de Bartlett con un X2 = 1434,418 Y P = 0,000.
Valores muy bajos en la matrices anti-imagen,
MSA bastante altos en la diagonal de la matriz de correlaciones anti-imagen.
Todo ello nos lleva a concluir que el análisis factorial que sigue a continuación resulta a priori
pertinente y puede proporcionamos conclusiones satisfactorias.
Extracción de factores
Componentes principales (PC)
En esencia, la finalidad del análisis factorial es poder llegar a interpretar una matriz de
correlaciones como la del ejemplo con nueve variables a partir del menor número posible de
factores. Para ello, existen diferentes procedimientos, y si volvemos al subcuadro de diálogo
«Extraction», y abrimos la lista desplegable de los diferentes métodos obtendremos los
siguientes:
197
El sistema coge por defecto el método de componentes principales que es el que hemos utilizado
en esta primera parte del ejemplo y cuyos resultados comentaremos a continuación.
Consiste básicamente en llevar a cabo una combinación lineal de todas las variables de modo que
el primer componente principal sea una combinación que explique la mayor proporción de variancia
de la muestra, el segundo la segunda mayor y que a su vez esté incorrelacionado con el primero, y
así sucesivamente hasta tantos componentes como variables. En esencia, por tanto: reducir un
número de variables intercorrelacionadas a un número inferior de factores no correlacionados.
Ver si las nueve variables de partida, entre algunas de las cuales hemos visto que existe una
correlación muy significativa, pueden ser reducidas a dos, tres o más factores que las agrupen y
que tengan un sentido y significado.
Com unalidades
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
Inicial
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
1,000
Extracción
,644
,620
,329
,592
,523
,684
,519
,646
,693
Mét odo de extracción: Análisis de Componentes principales.
Fig 6
En la Figura 6 tenemos las comunalidades iniciales de la solución de componentes principales.
Estos resultados se obticnen si en el subcuadro dc diálogo «Descriptives» y dentro de
«Statistics» seleccionamos «Initial Solution». Si utilizamos tantos componentes principales como
variablcs, cada variable puede ser explicada por ella misma y por tanto toda la variabilidad de
cada variable, que expresada en unidades de desviación estandarizadas es igual a la unidad,
explicada a su vez por los factores comunes. Esta es la razón por la que en la Figura 6 la
198
comunalidad inicial es igual a la unidad para todas las variables.
De entrada, la decisión respecto al número de factores que deseamos para representar los datos
puede adoptarse desde una doble vía que es la que aparece en el subcuadro de diálogo
«Extraction». Por defecto el sistema extraerá tantos factores como haya en la solución inicial
con valores propios (eigenvalues) superiores a la unidad.
Varianza total ex plicada
Componente
1
2
3
4
5
6
7
8
9
Sumas de las saturaciones al cuadrado
de la extrac ción
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
Autovalores iniciales
% de la
Total
varianza
% acumulado
2,449
27,211
27,211
1,684
18,714
45,925
1,116
12,395
58,320
,848
9,426
67,747
,705
7,834
75,580
,616
6,842
82,422
,597
6,629
89,051
,568
6,314
95,365
,417
4,635
100,000
Mét odo de extracc ión: Análisis de Componentes princ ipales.
Fig 7
En la Figura .7 vemos que hay tres factores con valores propios superiores a 1 y que en
definitiva será el número que extraerá el sistema. Evidentemente, podemos cambiar el valor por
defecto correspondiente al «eigenvalue ovcr». La segunda posibilidad corresponde al botón de
radio «Number of factors» y consiste sencillamente en fijar un número entero determinado de
factores, siempre inferior, lógicamente, al número de variables.
La Figura 7 recoge, en porcentajes individuales y acumulados, la proporción de variancia total
explicada por cada factor, tanto para la solución no rotada como para la rotada. En concreto, qué
porcentaje supone 2,449 sobre el total de variabilidad (nueve en el ejemplo) de toda la muestra.
Los tres factores incluidos en el modelo son capaces de explicar exactamente un 58,32 por 100
de la variabilidad total, lo que puede interpretarse como un porcentaje aceptable.
Gráfico de sedimentación
2,5
Autovalor
2,0
1,5
1,0
0,5
0,0
Fig 8
1
2
3
4
5
6
7
8
9
Número de componente
199
En la Figura .8 tenemos una representación gráfica de estos resultados, figurando en
abcisas el número total de factores y en ordenadas el valor propio de cada uno de ellos.
a
Matriz de componentes
a
Matriz de componentes
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
1
-,229
-,185
,020
,748
,629
,804
,718
,436
,236
Component e
2
,640
,668
,569
-,036
,002
-,085
,045
,437
,551
3
,426
,373
,070
,177
,357
,174
,040
-,515
-,577
Mét odo de extracc ión: Análisis de componentes principales.
a. 3 componentes ext raídos
Ganas de trabajar
Comodidad
Bús queda
Preparación
Política de empleo
Cris is
Empresarios
Reparto
Pluriempleo
1
,804
,748
,718
,629
-,185
-,229
,020
,236
,436
Component e
2
-,085
-,036
,045
,002
,668
,640
,569
,551
,437
3
,174
,177
,040
,357
,373
,426
,070
-,577
-,515
Mét odo de extracc ión: Análisis de componentes principales.
a. 3 componentes ext raídos
Fig 9
Fig10
En la Figura 9 tenemos los coeficientes utilizados para expresar cada variable estandarizada
en términos de los tres factores del modelo. Estos coeficientes se conocen también con el
nombre de pesos factoriales, cargas, ponderaciones factoriales o saturaciones factoriales ya que
nos indican la carga de cada variable en cada factor, de modo que los factores con unos pesos.
factoriales más elevados en términos absolutos nos indican una relación estrecha con las
variables. El ideal desde el punto de vista del análisis factorial es encontrar un modelo en el que
todas las variables saturen en algún factor, es decir, pesos factoriales altos en uno y bajos en el
resto. Por ejemplo la variable b18 (Ganas de trabajar como posible explicación del alto índice de
desempleo en el país) es una variable con una elevada carga factorial en el primero de los
factores y mucho más pequeña en los dos restantes. Podríamos expresar la variable b18 como
B18= 0,80408F1-0,08519F2+0,17407F3
Donde F1,F2 y F3 son los tres factores del modelo.
En la primera tabla de la Figura 9 aparecen ordenadas las variables tal y como están en la base de
datos. La figura 10 es la que corresponde a la opción que hemos seleccionado en el subcuadro de
diálogo Options .
En efecto, al seleccionar «Sorted by size» el sistema ordena las variables en la matriz de mayor
a menor peso o carga factorial y siempre comenzando por el primer factor, posteriormente el
segundo, y así sucesivamente. Finalmente la opción del mismo subcuadro de diálogo «Suppress
absolute values less than»
nos permite una lectura todavía más clara de la matriz puesto que permite eliminar de la misma
aquellos coeficientes con valores inferiores a uno dado (0,10 por defecto). La Figura 11
correspondería a esta opción.
200
a
Matriz de componentes
Ganas de trabajar
Comodidad
Bús queda
Preparación
Política de empleo
Cris is
Empresarios
Reparto
Pluriempleo
1
,804
,748
,718
,629
-,185
-,229
Component e
2
,236
,436
,668
,640
,569
,551
,437
3
,174
,177
,357
,373
,426
-,577
-,515
Mét odo de extracc ión: Análisis de componentes principales.
a. 3 componentes ext raídos
Fig11
Si los factores están incorrelacionados (son ortogonales) los valores de estos coeficientes no
dependen unos de otros. Representan por tanto la contribución única de cada factor en la
variable y en ese sentido no dejan de ser sino los coeficientes de correlación de cada factor con
la variable. Para determinar en qué medida los tres factores son capaces de explicar las variables
originales, podemos sumar la proporción de variancia de la variable explicada por cada uno de ellos
(es decir, los coeficientes al cuadrado) y de este modo obtener las comunalidades que aparecen
en la diagonal de la Figura 6.12. Consideremos de nuevo la variable b18 (Ganas de trabajar) y
calculemos esta sumatoria
b18=0,804082 +0,085192 + 0,174072 =0,68410
Correlaciones reproduci das
Correlación reproducida
Res idual a
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
Cris is
,644 b
,629
,389
-,119
,009
-,164
-,118
-,039
,053
-,232
-,204
-,001
-,013
,008
,017
,058
,031
Política de
empleo
,629
,620 b
,402
-,096
,018
-,141
-,088
,019
,109
-,232
-,201
,019
-,068
,036
,009
,035
-,006
Empresarios
,389
,402
,329 b
,007
,039
-,020
,043
,221
,277
-,204
-,201
,021
-,049
-,004
,001
-,120
-,116
Comodidad Preparación
-,119
,009
-,096
,018
,007
,039
,592 b
,534
,534
,523 b
,635
,568
,542
,219
,054
-,001
,019
,021
-,197
-,076
-,156
-,005
-,012
,466
,091
-,057
-,013
-,068
-,049
-,197
-,143
-,121
,024
,102
Ganas de
trabajar
-,164
-,141
-,020
,635
,568
Bús queda
-,118
-,088
,043
,542
,466
,580
,6841b
,580
,223
,042
,008
,036
-,004
-,076
-,143
-,129
-,029
,029
,519 b
,312
,171
,017
,009
,001
-,156
-,121
-,129
-,080
-,037
Pluriempleo
-,039
,019
,221
,219
,091
,223
Reparto
,053
,109
,277
,054
-,057
,042
,312
,646 b
,641
,058
,035
-,120
-,005
,024
-,029
-,080
-,265
Mét odo de extracc ión: Análisis de Componentes principales.
a. Los residuos se calculan entre las correlaciones observadas y reproduc idas. Hay 16 (44,0%) residuales no redundantes con valores absolutos mayores que 0,05.
b. Comunalidades reproducidas
Fig 12
Casi el 70 por 100 de la variabilidad de b18 es explicada por los tres factores del modelo, en
tanto que por ejemplo de la variable b15 (Empresarios) los mismos únicamente explican en torno
al 33 por 100. Reiteramos que esta proporción de la variabilidad de cada variable explicada por
los factores del modelo es lo que se conoce con el nombre de comunalidad de la variable.
Obviamente su valor oscila entre 0 y 1 y la parte de variancia no explicada por el modelo
factorial, es decir,
1- comunalidad, es lo que se conoce con el nombre de factor único o
unicidad.
201
,171
,641
,693 b
,031
-,006
-,116
-,012
,102
,029
-,037
-,265
La correlación obtenida entre los distintos factores y las variables puede ser utilizada para
estimar la correlación entre las variables, de modo que si los factores son ortogonales, el
coeficiente de correlación entre las variables i y j será:
k
rij
rfi rfj
rli rlj
r2i r2 j
... rki rkj
j 1
donde k es el número de factores comunes
rfi es el coeficiente de correlación entre el factor f y la variable i
De la figura 12 podemos obtener, por ejemplo, que la correlación estimada entre las variables
b18 y b16 será:
rb18b16
0,80408. 0,74803
0,08519
0,03568
0,17407.0,17722 0,6353642
Estos coeficientes de correlación así estimados son los que aparecen en la primera parte
de la figura 12. La diferencia entre estos coeficientes de correlación así estimados y los
coeficientes de correlación observados de la figura 3 es lo que se conoce como residuales y
son los valores que aparecen en la segunda parte de la tabla de la figura 12.
En el caso de las dos variables b18 y b16 este residual será exactamente:
Residual b18 b16. = 0,55914 - 0,6353642 = -0,0762242
En la parte inferior de la tabla aparece un mensaje donde nos indica el número de residuales
superiores a 0,05 en valores absolutos y el porcentaje sobre el total. En el ejemplo son
exactamente 16 que sobre un total de 36 representan el 44 por 100. En realidad la magnitud y
cuantía de los residuales con valores superiores a 0,05 son unos buenos indicadores del ajuste
del modelo a los datos. En la diagonal de la tabla y tal y como hemos comentado con anterioridad
aparecen las comunalidades.
Rotación
La finalidad de la rotación no es otra sino la de ayudamos a interpretar, en el supuesto de que no
quede claro en la matriz de pesos factoriales no rotada de la Figura 9, el sentido y significado de
los factores. Tal y como podemos ver en el subcuadro de diálogo «Rotación» existen varios
procedimientos. V ARIMAX, EQUAMAX y QUARTlMAX son procedimientos ortogonales que es
tanto como decir que los factores se mantienen incorrelacionados y los ejes formando ángulos
rectos. El PROMAX y el DlRECT OBLlMIN pertenecen al grupo de los denominados oblicuos o no
ortogonales. Señalar a su vez que la rotación no afecta a la comunalidad y al porcentaje de
variancia explicada por el modelo, aun que si puede cambiar la de cada factor.
Dentro de los procedimientos ortogonales, el más utilizado es el V ARIMAX, y trata de
minimizar el número de variables que hay con pesos o saturaciones elevadas en cada factor. El
QUARTIMAX trata de minimizar el número de factores necesarios para explicar un conjunto de
variables, mientras que el EQUAMAX es una combinación de los dos anteriores (trata de
simplificar factores y variables).
Dentro de los no ortogonales, que como ya hemos señalado son procedimientos de rotación
oblicua (no ortogonal y por tanto con correlaciones entre factores no necesariamente iguales a
202
O) el PROMAX es el mas rápido de calcular por parte del sistema y por tanto el más aconsejable
para grandes bases de datos.
En resumen, todos ellos tratan de obtener una matriz factorial que se aproxime al principio de
estructura simple. Según este principio, la matriz factorial debe reunir las siguientes
características:
Cada factor debe tener unos pocos pesos altos y el resto próximos
a 0.
Cada variable no debe estar saturada más que en un solo factor.
No deben existir factores con la misma distribución.
En la Figura 13 tenemos los resultados de la matriz de pesos factoriales no rotada, VARIMAX,
QUARTlMAX Y EQUAMAX como ortogonales y OBLlMIN y PROMAX con parámetros valores por
defecto como no ortogonales.
203
a
Matriz de componentes rotados
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
1
,818
,765
,712
,688
-,090
-,067
,027
,014
,226
Component e
2
-,111
-,058
,085
-,056
,795
,784
,512
,129
,033
a
Matriz de componentes rotados
3
,055
,062
-,095
,205
-,059
,010
,257
,822
,771
Mét odo de extracc ión: Análisis de componentes principales.
Mét odo de rotación: Normalización Quartimax con Kaiser.
a. La rotación ha convergido en 5 iteraciones .
Ganas de trabajar
Comodidad
Bús queda
Preparación
Política de empleo
Cris is
Empresarios
Reparto
Pluriempleo
1
,804
,748
,718
,629
-,185
-,229
,020
,236
,436
3
,174
,177
,040
,357
,373
,426
,070
-,577
-,515
Mét odo de extracc ión: Análisis de componentes principales.
a. 3 componentes ext raídos
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
Component e
2
-,085
-,035
,122
-,048
,806
,790
,496
,056
-,028
3
,088
,094
-,063
,233
-,051
,019
,265
,824
,780
Mét odo de extracc ión: Análisis de componentes principales.
Mét odo de rotación: Normalización Equamax con Kaiser.
a. La rotación ha convergido en 5 iteraciones .
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
1
,815
,762
,715
,682
-,081
-,061
,024
-,008
,205
Component e
2
-,118
-,065
,080
-,064
,796
,785
,509
,120
,023
3
,076
,083
-,074
,224
-,053
,017
,263
,823
,777
Mét odo de extracc ión: Análisis de componentes principales.
Mét odo de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 5 iteraciones .
Matriz de configuración.a
Matriz de configuración.a
1
,813
,762
,740
,664
-,026
-,013
,028
-,091
,124
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
Component e
2
-,122
-,069
,077
-,068
,797
,785
,508
,117
,019
a
Matriz de componentes rotados
a
Matriz de componentes
Component e
2
-,085
-,036
,045
,002
,668
,640
,569
,551
,437
1
,813
,761
,716
,678
-,077
-,057
,023
-,019
,194
3
-,014
-,021
,146
-,172
,106
,036
-,229
-,834
-,775
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
1
,815
,765
,751
,663
-,006
,005
,034
-,111
,105
Component e
2
-,068
-,019
,136
-,034
,804
,789
,497
,057
-,022
3
-,002
,009
-,154
,161
-,080
-,010
,246
,841
,776
Mét odo de extracc ión: Análisis de componentes principales.
Mét odo de extracc ión: Análisis de componentes principales.
Met odo de rotación: Normalización Oblimin con K aiser.
a. La rotación ha convergido en 5 iteraciones .
Mét odo de rotación: Normalización Promax con Kaiser.
a. La rotación ha convergido en 5 iteraciones .
204
El método utilizado en todos los casos ha sido el de componentes principales. Todos ellos
coinciden a grandes rasgos en la siguiente asignación:
Factor 1 Variables:
b18: Pocas ganas de trabajar de la gente.
b16: La comodidad de la gente, que sólo quiere buenos trabajos.
b19: El no saber buscar trabajo.
b17: La falta de preparación del trabajador.
Factor 2 Variables:
b4: a política de empleo del gobierno.
b3: a crisis económica.
b5: La mala gestión de los empresarios.
Factor 3 Variables:
b21: Que el trabajo que hay no se reparte bien socialmente.
b22: Que hay mucho pluriempleo.
Analizando someramente estos resultados, bien podría tratarse de tres factores claramente
diferenciados y referidos al propio trabajador el primero, gobierno y empresarios el segundo y
reparto o redistribución del trabajo el tercero.
Gráficamente podemos ver estos mismos resultados en la Figura 14 que corresponde al gráfico
tridimensional de la solución rotada V AR1MAX y componentes principales.
Gráfico de componentes en espacio rotado
b14
1,0
b21
b15
b20
nte 2
pone
m
o
C
b13
0,5
b17
0,0
b16
-0,5
b18
1,0
-1,0
,0
-1
0,5
,5
-0
te
en
n
o
0,0
0
0,
Co
mp
on
-0,5
5
0,
0
1,
en
te
1
-1,0
3
p
m
Co
Fig 14
205
Cuadro de texto
Gráfico de componentes en espacio rotado
-1,0
Componente 2
-0,5
b18
0,0
b21
b16
b20
b17
b15
0,5
b13
b14
1,0
0
1,
5
0,
0
0,
,5
-0
,0
-1
Componente 1
Nota al pie
Fig 15
Al igual que hemos representado las variables sobre un plano formado por los factores 1 y 2,
pueden intervenir los factores 1 y 3, 2 Y 3 o cualquier combinación binaria de los mismos si son
más de tres en la solución.
Los valores de cada variable en las coordenadas corresponden a los pesos factoriales de las
mismas en los ejes de cada factor. Pueden ser valores comprendidos entre -1 y 1, y obviamente
cuanto mayor sea esta coordenada, más contribuye a la formación del eje, a la inercia del mismo.
De hecho, de la posición de las variables respecto a los ejes es de donde podremos deducir el
sentido y significado de los factores.
En realidad los planos factoriales están situados en el interior de un círculo de radio la unidad, y
en ese sentido lo ideal es que los puntos «variables del estudio» no estén concentrados en torno
al origen del espacio bidimensional en este caso (0,0) sino próximos al borde del círculo o de los
ejes factoriales.
. B 16, B 17. B 18 Y B 19 están altamente correlacionadas entre si y a su vez correlacionadas
positivamente con el factor I (están situadas cercanas al extremo positivo del eje).
. B 13 Y B 14 lo mismo pero para el factor 2.
Siguiendo con la idea de identificar del mejor modo posible las variables que en cualquier caso
tienen pesos factoriales más elevados o saturan más en cada uno de los factores tal y como ya
comentamos anteriormente, el sistema nos posibilita eliminar de la matriz de pesos factoriales y
en las columnas de los diversos factores, los pesos de aquellas variables con un valor inferior a
uno determinado y que por defecto es 0,10.
206
a
Matriz de componentes rotados
Ganas de trabajar
Comodidad
Preparación
Bús queda
Cris is
Política de empleo
Empresarios
Reparto
Pluriempleo
1
,815
,762
,715
,682
Component e
2
-,118
,224
,796
,785
,509
,120
,205
3
,263
,823
,777
Mét odo de extracc ión: Análisis de componentes principales.
Mét odo de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 5 iteraciones .
Fig 16
Puntuaciones factoriales
Puesto que la finalidad última del análisis factorial es reducir un gran número de variables a un
pequeño número de factores, es a veces aconsejable estimar las puntuaciones factoriales de
cada sujeto.
Ya dijimos al iniciar este tema que un factor no es otra cosa sino una combinación lineal de las
variables originales:
p
Fj
W ji X i
W ji X 1 W j 2 X 2
... W jp X p
i 1
Donde Wi son los coeficientes de las puntuaciones factoriales
p es el número de variables
Esta misma expresión pero para un individuo k determinado nos dará:
p
F jk
W ji X ik
i 1
Donde Xik es el valor estandarizado de la variable i para el sujeto k.
Wji: es el coeficiente de las puntuacion factorial del factor j variable i
Puesto que excepto para componentes principales no se pueden obtener puntuaciones factoriales
exactas, se lleva a cabo una estimación de las mismas.
En el subcuadro de diálogo «Puntuaciones» aparecen las diversas técnicas que recoge el
programa para obtener los coeficientes de las puntuaciones factoriales. Si seleccionamos los
ítems de la pantalla
207
Matriz de coeficie ntes para el cálculo de las
puntuaciones en las com ponentes
Cris is
Política de empleo
Empresarios
Comodidad
Preparación
Ganas de trabajar
Bús queda
Pluriempleo
Reparto
1
-,093
-,076
,008
,305
,257
,328
,293
,178
,096
Component e
2
,380
,397
,338
-,021
,001
-,051
,027
,259
,327
3
,382
,335
,063
,159
,320
,156
,036
-,462
-,518
Mét odo de extracc ión: Análisis de componentes principales.
Puntuaciones de c omponentes.
Fig 17
con componentes principales y sin rotación obtendremos los coeficientes de la Figura 17.
A su vez, en la base de datos habremos generado tres nuevas columnas correspondientes a las
puntuaciones factoriales de cada sujeto en cada uno de los tres factores del modelo. En la Figura
18 aparecen estas puntuaciones factoriales para los 10 primeros sujetos de la muestra.
Sea cual sea el procedimiento utilizado, estas puntuaciones factoriales tendrán media igual a
cero y desviación estándar que en componentes principales será igual a la unidad en todos los
casos.
Resúmene s de ca sosa
Número
de c aso
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
Total
N
REGR factor
score 1 for
analysis 1
1,06279
-,70528
-2,13193
-1,30937
-2,08549
-1,50853
-1,45866
-1,66638
,22297
-,16443
10
REGR factor
score 2 for
analysis 1
1,54558
,18764
,87922
1,32218
,70519
,05484
,82965
,84921
,43546
-,43639
10
REGR factor
score 3 for
analysis 1
1,32489
-,26646
1,50009
-,06271
,31273
1,51359
-,61956
,74869
-,37878
-1,00114
10
a. Limitado a los primeros 10 casos.
En cuanto a sus valores concretos y para ver un ejemplo, cogemos el individuo número 1 de la base
de datos, sus puntuaciones directas en las variables del ejemplo y sus puntuaciones
estandarizadas. Si multiplicamos sus puntuaciones estandarizadas en cada una de las variables
por los coeficientes en cada factor de las mismas
(fig 17) obtendremos las puntuaciones factoriales de cada individuo en los tres factores y que
son las que aparecen en la base de datos (Figura 18). Más concretamente y para el primer sujeto:
B"
B"
1'. Directas
Variables
5
Bu
B,.
5
5
B"
B,.
4
B"
4
4
B..
B,.
4
4
4
1'. Eslándar.
1,24218
1,19047
1,4b942
0,85487
I,Olb91
0,94081
1,12151
O,437bO
O,1473b
Coef. Factor 1
0,03778
O,03b83
0.01869
0,34275
0,35493
0,36407
0,28509
-0,01011
-0,10864
("oef. Factor 2
0,53259
0,51885
0,31393
0,01275
0,12354
-0,01722
-0,00876
-0,05346
-0,01193
Cocf. Factor 3
-0,11774
-0,06662
0,13829
-0,03663
-0,16488
-0,04316
0,08067
0,55620
0,61014
208
La puntuación factorial del primer sujeto en el primer factor será
Factor 1 = (1,24218) (-0,09345) + (1,19047) (-0,07560) + (1,46942) (0,00814 + (0,85487)
(0,30544) +…+ + (0,14736) (0,09634) = 1,06279
Una vez obtenidas las puntuaciones factoriales de cada sujeto en los tres factores, el análisis
factorial acaba con una representación gráfica de la posición de cada sujeto en el hiperplano.
En el ejemplo el sistema ha extraído tres factores y generado por tanto tres columnas en la
base de datos con las puntuaciones factoriales de cada sujeto en cada uno de los tres factores.
Estas variables, ya lo hemos comentado anteriormente, fac1_1, fac2_1 y fac3_1.
Referencia: Capítulo 6. Análisis estadístico con SPSS para Windows
Autor : Visauta. Volumen II:Estadística Multivariante
209
Análisis factorial
El análisis factorial es una técnica de reducción de la dimensionalidad de los datos. Su propósito
último consiste en buscar el número mínimo de dimensiones capaces de explicar el máximo de
información contenida en los datos.
A diferencia de lo que ocurre en otras técnicas como el análisis de varianza o el de regresión, en
el análisis factorial no existe variable dependiente. Todas las variables del análisis tienen el
mismo rango: todas ellas son independientes en el sentido de que no existe a priori una
dependencia conceptual de unas variables sobre otras.
Para llevar a cabo un análisis factorial:
Seleccionar la opción Reducción de datos> Análisis factorial... del menú Analizar para
acceder al cuadro de diálogo Análisis factorial
La lista de variables del archivo de datos contiene un listado de todas las variables del archivo,
incluidas las variables de cadena (aunque éstas sólo pueden utilizarse como variables de
selección). Para llevar a cabo un análisis factorial:
Seleccionar el conjunto de variables que se desea analizar y trasladarlas a la lista
Variables.
Variable de selección. Este cuadro permite seleccionar una de las variables del archivo de datos
como variable de filtro para definir una sub-muestra de sujetos que cumplan una determinada
condición. Esta opción es especialmente útil cuando se ha reservado un porcentaje de los sujetos
de la muestra para llevar a cabo una validación cruzada del modelo final. Para utilizar una variable
de selección:
Trasladar la variable al cuadro Variable de selección y pulsar el botón Valor... para
acceder al subcuadro de diálogo Establecer valor
Introducir en el cuadro de texto el valor de la variable de selección que identifica a los casos
que se desea incluir en el análisis.
Ejemplo (Análisis factorial)
Este ejemplo muestra cómo ejecutar el procedimiento Análisis factorial con las especificaciones
que el programa tiene establecidas por defecto. Se desea comprobar si es posible resumir,
mediante un número reducido de dimensiones o factores, la información disponible sobre las
características laborales de un conjunto de empleados. (archivo de datos: Datos de
empleados.sav). Para ello:
o
En el cuadro de diálogo Análisis factorial, seleccionar las variables educ, catlab,
salario, salini, tiempemp, expprev y edad y trasladarlas a la lista Variables.
Nota. La variable edad se ha creado con la opción Calcular a partir de la variable
fechnac con la expresión
«edad = RND((CTIME.DAYS(DATE.DMY(31,12,1997) - fechnac)/365.25)»,
210
obteniendo así la edad en años a fecha 31/12/1997.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 1 a la 3.
Tabla 1
Comunalidades
Inicial
Extracción
Nivel educativo
1,000
,682
Categoría laboral
1,000
,782
Salario actual
1,000
,901
Salario inicial
1,000
,887
Meses desde el contrato
1,000
,997
Experiencia previa
(meses)
1,000
,893
EDAD
1,000
,889
Método de extracción: Análisis de Componentes principales.
La Tabla 1 contiene las comunalidades asignadas inicialmente a las variables (inicial) y las
comunalidades reproducidas por la solución factorial (extracción).
La comunalidad de una variable es la proporción de su varianza que puede ser explicada por
el modelo factorial obtenido.
Estudiando las comunalidades de la extracción puede valorarse qué variables son peor explicadas
por el modelo. En el ejemplo, la variable nivel educativo es la peor explicada: el modelo sólo es
capaz de reproducir el 68,2 % de su variabilidad original.
En una nota a pie de tabla se indica que, para llegar a esta solución factorial, se ha utilizado un
método de extracción denominado componentes principales. Dicho método de extracción, que
es el que actúa por defecto, asume que es posible explicar el 100% de la varianza
observada y, por ello, todas las comunalidades iniciales son iguales a la unidad (que es
justamente la varianza de una variable en puntuaciones típicas).
A partir de la información de esta tabla es posible empezar a plantearse si el número de
factores obtenidos (enseguida se verá cuáles son esos factores) es suficiente para explicar
todas y cada una de las variables incluidas en el análisis. También éste es el momento de empezar
a plantearse si, dando por bueno el número de factores extraído, alguna de las variables incluidas
podría quedar fuera del análisis.
211
Tabla 2
Varianza total ex plicada
Componente
1
2
3
4
5
6
7
Autovalores iniciales
% de la
Total
varianza
% acumulado
3,167
45,244
45,244
1,856
26,509
71,753
1,008
14,406
86,159
,428
6,121
92,280
,247
3,522
95,803
,196
2,796
98,598
,098
1,402
100,000
Sumas de las saturaciones al cuadrado
de la extrac ción
% de la
Total
varianza
% acumulado
3,167
45,244
45,244
1,856
26,509
71,753
1,008
14,406
86,159
Mét odo de extracc ión: Análisis de Componentes princ ipales.
En la tabla de porcentajes de varianza explicada (Tabla 2) se ofrece un listado de los autovalores de la matriz de varianzas-covarianzas y del porcentaje de varianza que representa cada
uno de ellos.
Los autovalores expresan la cantidad de la varianza total que está explicada por cada
factor; y los porcentajes de varianza explicada asociados a cada factor se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cual coincide con el
número de variables). Por defecto, se extraen tantos factores como autovalores mayores que I
tiene la matriz analizada. En el ejemplo hay 3 autovalores mayores que 1, por lo que el procedimiento extrae 3 factores que consiguen explicar un 86,16 % de la varianza de los datos originales. La tabla muestra también, para cada factor con autovalor mayor que 1, la suma de las saturaciones al cuadrado: las sumas de cuadrados de la columna Total (que coinciden con los autovalores cuando se utiliza el método componentes principales, pero no cuando se utilizan otros
métodos de extracción), pueden ayudar, según se verá, a determinar el número idóneo de factores.
La información de esta tabla puede utilizarse para tomar una decisión sobre el número idóneo de
factores que se debe extraer. Si se quisiera explicar, por ejemplo, un mínimo del 90% de la
variabilidad contenida en los datos, sería necesario extraer cuatro factores.
La matriz de varianzas-covarianzas analizada por defecto es la matriz de correlaciones entre las
7 variables incluidas en el análisis. Puesto que esta matriz es de dimensiones 7 x 7, es posible
extraer hasta 7 factores independientes. Tal como muestra la columna de porcentajes
acumulados (% acumulado), con los 7 factores que es posible extraer se consigue explicar el 100
% de la varianza total, pero con ello no se consigue el objetivo de reducir el número de dimensiones necesarias para explicar los datos.
Tabla 3
a
Matriz de componentes
Nivel educativo
Categoría laboral
Salario act ual
Salario inic ial
Mes es des de el c ontrato
Experiencia previa
(meses)
EDA D
1
,806
,843
,944
,910
,043
Componente
2
-,173
,260
,089
,232
,054
3
,047
-,061
,041
-,077
,996
-,179
,927
-,043
-,233
,913
,026
Mét odo de extracc ión: Análisis de componentes princ ipales.
a. 3 componentes ex traídos
212
En la Tabla 3 se encuentra la solución factorial propiamente dicha. Contiene las correlaciones
entre las variables originales (o saturaciones) y cada uno de los factores. Conviene señalar que
esta matriz cambia de denominación dependiendo del método de extracción elegido. En este caso
se denomina matriz de componentes porque en el ejemplo se ha utilizado el método de
componentes principales como método de extracción (es el método que actúa por defecto).
También recibe el nombre de matriz de estructura factorial.
Comparando las saturaciones relativas de cada variable en cada uno de los tres factores puede
apreciarse que el primer factor está constituido por las variables nivel educativo, categoría
laboral, salario actual y salario inicial. Todas estas variables saturan en un único factor porque
constituyen un grupo diferenciado de variables dentro de la matriz de correlaciones. Este factor
parece reflejar una dimensión de «promoción dentro de la empresa». El segundo factor recoge el
grupo de las variables experiencia previa y edad, por lo que podría representar algo así como la
«veteranía laboral». Por último, el tercer factor está formado por una única variable, meses
desde el contrato, o lo que es lo mismo, la «antigüedad en el puesto», que es independiente de la
«promoción dentro de la empresa» y de la «veteranía laboral» (puesto que los factores son
independientes entre sí y la variable no satura en los otros dos factores).
Descriptivos
La opción Descriptivos ofrece algunos estadísticos descriptivos, además de la matriz de correlaciones y otras matrices y estadísticos relacionados con ella. Para obtener estos estadísticos
descriptivos:
Pulsar el botón Descriptivos... del cuadro de diálogo Análisis facforial para acceder al
subcuadro de diálogo Análisis factorial: Descriptivos
Estadísticos. Este recuadro contiene varias opciones para seleccionar los estadísticos descriptivos del análisis:
Descriptivos univariados. ofrece, para cada variable, el número de casos válidos, la
media y la desviación típica.
Solución inicial. Permite obtener las comunalidades iniciales, los autovalores de la matriz
analizada y los porcentajes de varianza asociados a cada autovalor. Esta opción está activa
por defecto y la información que genera es la que aparece en las Tablas 1 y 2.
Matriz de correlaciones. En este recuadro se encuentran las opciones necesarias para obtener
información sobre la matriz de correlaciones y algunos estadísticos asociados a ella.
Coeficientes. Ofrece la matriz con los coeficientes de correlación entre las variables
utilizadas en el análisis.
Niveles de significación. Incluye en la matriz de correlaciones los niveles críticos unilaterales asociados a cada coeficiente.
Determinante. Determinante de la matriz de correlaciones. El valor del determinante
aparece en una nota a pie de tabla. Los determinantes próximos a cero están indicando que
las variables utilizadas están linealmente relacionadas, lo que significa que el análisis
factorial es una técnica pertinente para analizar esas variables.
Inversa. Inversa de la matriz de correlaciones. Esta matriz es la base para el cálculo de las
213
comunalidades iniciales en algunos métodos de extracción y para el cálculo de la matriz antiimagen (ver más abajo).
Reproducida. Matriz reproducida. La matriz reproducida es la matriz de correlaciones que se
obtiene a partir de la solución factorial hallada. Si el modelo es bueno y el número de
factores el adecuado, la estructura factorial debe ser capaz de reproducir la matriz de
correlaciones. En la diagonal de la matriz reproducida se encuentran las comunalidades
finales. Junto con la matriz de correlaciones reproducidas se ofrece la matriz de
correlaciones residuales, la cual contiene los residuos, es decir, las diferencias entre las
correlaciones observadas y las correlaciones reproducidas. Si el modelo es bueno, el número
de residuos con valores elevados debe ser mínimo.
Anti-imagen. Matriz de covarianzas anti-imagen y matriz de correlaciones anti-imagen. La
matriz de covarianzas anti-imagen contiene los negativos de las covarianzas parciales y la
matriz de correlaciones anti-imagen contiene los coeficientes de correlación parcial
cambiados de signo (la correlación entre dos variables se parcial iza teniendo en cuenta el
resto de variables incluidas en el análisis). En la diagonal de la matriz de correlaciones antiimagen se encuentran las medidas de adecuación muestral para cada variable. Si el modelo
factorial elegido es adecuado para explicar los datos, los elementos de la diagonal de la
matriz de correlaciones anti-imagen deben tener un valor próximo a 1 y el resto de
elementos deben ser pequeños.
KMO y prueba de esfericidad de Bartlett. La medida de adecuación muestral K MO
(Kaiser-Meyer-Olkin) contrasta si las correlaciones parciales entre las variables son
suficientemente pequeñas. Permite comparar la magnitud de los coeficientes de correlación
observados con la magnitud de los coeficientes de correlación parcial. El estadístico KMO
varía entre 0 y 1. Los valores pequeños indican que el análisis factorial puede no ser una
buena idea, dado que las correlaciones entre los pares de variables no pueden ser explicadas
por otras variables. Los menores que 0,5 indican que no debe utilizarse el análisis factorial
con los datos muestrales que se están analizando.
La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de
correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones significativas entre las variables y el modelo factorial no sería pertinente.
Ejemplo (Análisis factorial > Descriptivos)
Este ejemplo muestra cómo obtener e interpretar algunos estadísticos descriptivos adicionales a
la solución ofrecida por defecto. Además de los estadísticos descriptivos, también se verá que
es posible obtener estadísticos inferenciales para contrastar algunas hipótesis relevantes en el
contexto del análisis factorial. Se siguen utilizando las mismas siete variables que en el ejemplo
anterior. Para obtener estos estadísticos:
En el subcuadro de diálogo Análisis factorial: Descriptivos, seleccionar todas las opciones de
los distintos recuadros.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4 a 8. La
Tabla 4 ofrece, para cada una de las variables incluidas en el análisis, algunos estadísticos
descriptivos univariados: la media, la desviación típica insesgada y el número de casos válidos que
serán utilizados en el análisis (número éste que, lógicamente, puede diferir del número de casos
del archivo de datos).
Si se mantienen las especificaciones que el programa tiene establecidas por defecto y el análisis
se basa en la matriz de correlaciones, las diferencias de escala y de variabilidad entre las
214
variables carecen de relevancia. Sin embargo, si se decide que el análisis se base en la matriz de
varianzas-covarianzas, las variables con mayor variabilidad tendrán mayor importancia en la
solución final.
Tabla 4.
Esta dísticos descriptivos
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Mes es desde el contrato
Experiencia previa
(meses)
EDA D
Media
13,49
1,41
$34, 418.45
$17, 009.25
81,14
Des viación
típic a
2,886
,774
$17, 093.723
$7,877.562
10,048
N del anális is
473
473
473
473
473
95,95
104, 680
473
41,23
11,771
473
La Tabla 5 ofrece la matriz de correlaciones, es decir, los coeficientes de correlación de
Pearson entre cada par de variables. Si no se especifica lo contrario, ésta es, según se ha señalado ya, la matriz de la cual parte el análisis. Con el método de extracción componel1les principales
(método que actúa por defecto), la matriz de correlaciones se auto-descompone en sus autovalores y autovectores para alcanzada solución factorial. El resto de los métodos de extracción
se basan en una transformación de la matriz de correlaciones.
Tabla 5
Matriz de correla cionesa
Correlación
Sig. (Unilateral)
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Meses desde el contrato
Experiencia previa
(meses)
EDAD
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Meses desde el contrato
Experiencia previa
(meses)
EDAD
Salario inicial
,633
,755
,880
1,000
-,018
Meses desde
el contrato
,050
,004
,084
-,018
1,000
Experiencia
previa
(meses)
-,252
,062
-,097
,045
,002
-,097
,045
,002
1,000
,801
-,144
,000
,000
-,009
,000
,000
,000
,054
,137
,468
,033
,344
,801
,000
,088
,017
,162
,485
1,000
,000
,418
,001
,422
,120
Nivel
educativo
1,000
,515
,661
,633
,050
Categoría
laboral
,515
1,000
,780
,755
,004
Salario actual
,661
,780
1,000
,880
,084
-,252
,062
-,282
,010
,000
,000
,000
,000
,137
,000
,000
,468
,000
,033
,344
,000
,088
,017
,162
,485
,000
,418
,001
,422
,120
EDAD
-,282
,010
-,144
-,009
,054
,000
,000
a. Determinante = ,012
Para que el análisis sea fructífero es conveniente que la matriz contenga grupos de variables
que correlacionen fuertemente entre sí. Una matriz de correlaciones próxima a una matriz
identidad indica que el análisis factorial conducirá a una solución deficiente. Para formarse una
idea sobre el grado de relación existente entre las variables, la Tabla 4 ofrece, además de la
matriz de correlaciones, el nivel crítico unilateral (Sig. unilateral) asociado a cada codiciente
de correlación (el nivel crítico bilateral se obtiene multiplicando por dos el unilateral). Un nivel
crítico menor que 0,05 indica que la correlación poblacional entre el correspondiente par de
215
variables puede ser considerada significativamente distinta de cero. Lo deseable, por tanto, es
encontrar muchos niveles críticos pequeños.
Por último, en una nota a pie de tabla aparece el valor del determinante de la matriz de correlaciones. Cuando las variables de una matriz están linealmente relacionadas, el valor del determinante se aproxima a cero, lo cual es un buen dato desde el punto de vista de la idoneidad
del análisis.
La Tabla 6 recoge la inversa de la matriz de correlaciones. Esta matriz se encuentra estrechamente relacionada con la matriz anti-imagen que aparece más abajo (ver Tabla .8). Si el
determinante de la matriz de correlaciones vale exactamente cero, el programa emite una advertencia indicando que no es posible calcular la matriz inversa, en cuyo caso tampoco
seráposible utilizar algunos de los métodos de extracción (por ejemplo, ejes principales o
máxima verosimilitud).
Tabla 6
Inversa de la matriz de correlaciones
Nivel
educativo
Nivel educativo
2,030
Categoría laboral
-,058
Salario actual
-,533
Salario inicial
-,785
Meses desde el contrato
-,086
Experiencia previa
,288
(meses)
EDAD
,264
Categoría
Meses desde
laboral
Salario actual Salario inicial el contrato
-,058
-,533
-,785
-,086
2,799
-1,675
-,591
,129
-1,675
6,333
-3,998
-,600
-,591
-3,998
5,492
,500
,129
-,600
,500
1,075
Experiencia
previa
(meses)
,288
-,246
,424
-,521
,054
EDAD
,264
-,099
,432
-,350
-,209
-,246
,424
-,521
,054
2,908
-2,192
-,099
,432
-,350
-,209
-2,192
2,901
La Tabla 7 contiene dos estadísticos que permiten valorar la bondad de ajuste o adecuación de
los datos analizados a un modelo factorial: la medida de adecuación muestral KMO y la prueba de
esfericidad de Bartlett.
KMO y prue ba de Bartlett
Medida de adecuac ión muestral de
Kais er-Meyer-Olkin.
Prueba de esfericidad
de Bartlett
Chi-cuadrado
aproximado
gl
Sig.
,724
2072,714
21
,000
Tabla 7
La medida de adecuación muestra/ de Kaiser-Meyer-Olkin/ (KMO) es un índice que compara la
magnitud de los coeficientes de correlación observados con la magnitud de los coeficientes de
correlación parcial:
216
donde
rij representa el coeficiente de correlación simple entre las variables i y j y rij. m
representa la correlación parcial entre las variables i y j eliminado el efecto de las restantes m
variables incluidas en el análisis. Puesto que la correlación parcial entre dos variables debe ser
pequeña cuando el modelo factorial es adecuado (ver más adelante), el denominador debe
aumentar poco si los datos corresponden a una estructura factorial, en cuyo caso KMO tomará un
valor próximo a l. Si el valor de la medida de adecuación muestral es reducido (los valores por
debajo de 0,6 se consideran mediocres) puede que no sea pertinente utilizar el análisis factorial
con esos datos. La diagonal de la matriz de correlaciones anti-imagen incluye los coeficientes de
adecuación muestral para cada variable individualmente considerada.
La prueba de esfericidad de Bartlell contrasta la hipótesis nula de que la matriz de correlaciones
observada es en realidad una matriz identidad. Asumiendo que los datos provienen de una
distribución normal multivariante, el estadístico de Bartlett se distribuye aproximadamente
según el modelo de probabilidad chi-cuadrado y es una transformación del determinante de la
matriz de correlaciones. Si el nivel crítico (Sig.) es mayor que 0,05, no se podrá rechazar la hipótesis nula de esfericidad y, consecuentemente, no se podrá asegurar que el modelo factorial
sea adecuado para explicar los datos.
La Tabla 8 ofrece la matriz de varianzas-covarianzas anti-imagen y la matriz de correlaciones
anti-imagen. La matriz de correlaciones anti-imagen se encuentra relacionada con la matriz
analizada por el método de extracción Análisis Imagen y se utiliza como diagnóstico de la adecuación de los datos a un modelo factorial.
Tabla 8
Matrices a nti-ima gen
Covarianza anti-imagen
Correlación anti-imagen
Nivel educativo
Categoría laboral
Salario actual
Salario inic ial
Mes es des de el contrato
Experiencia previa
(meses)
EDAD
Nivel educativo
Categoría laboral
Salario actual
Salario inic ial
Mes es des de el contrato
Experiencia previa
(meses)
EDAD
Experiencia
previa
(meses)
,049
-,030
,023
-,033
,017
EDAD
,045
-,012
,023
-,022
-,067
,017
,344
-,260
-,067
-,058
,074
-,230
,206
,098 a
-,260
,118
-,086
,099
-,130
,031
,345
,109
-,035
,101
-,088
-,118
Nivel
educ ativo
,493
-,010
-,041
-,070
-,039
Categoría
laboral
-,010
,357
-,095
-,038
,043
Mes es des de
el contrato
-,039
,043
-,088
,085
,930
Salario actual
-,041
-,095
,158
-,115
-,088
Salario inic ial
-,070
-,038
-,115
,182
,085
,049
-,030
,023
-,033
,045
,921 a
-,024
-,149
-,235
-,058
-,012
-,024
,881 a
-,398
-,151
,074
,023
-,149
-,398
,723 a
-,678
-,230
-,022
-,235
-,151
-,678
,743 a
,206
,118
-,086
,099
-,130
,031
,538
,109
-,035
,101
-,088
-,118
-,755
a
-,755
,548 a
a. Medida de adecuac ión muestral
En este contexto, un coeficiente de correlación parcial expresa el grado de relación existente
entre dos variables tras eliminar el electo de las restantes variables incluidas en el análisis.
Cuando las variables incluidas en el análisis comparten gran cantidad de información debido a la
presencia de factores comunes, la correlación parcial entre cualquier par de variables debe ser
reducida. Por el contrario, cuando dos variables comparten gran cantidad de información entre
ellas, pero no la comparten con las restantes variables (ni, consecuentemente, con los factores
comunes), la correlación parcial entre ellas será elevada, siendo esto un mal síntoma de cara á la
idoneidad del análisis.
217
Por otro lado, las correlaciones parciales son también estimaciones de las correlaciones entre los
factores únicos (existe un factor único para cada variable del modelo). Y puesto que los factores
únicos son independientes entre sí, los valores de las correlaciones parciales deben estar
próximos a cero.
La correlación anti-imagen es el negativo de la correlación parcial entre dos variables. Si la
matriz de correlaciones anti-imagen contiene una gran proporción de coeficientes elevados, el
modelo factorial puede no ser adecuado para analizar los datos.
La diagonal de la matriz de correlaciones anti-imagen contiene una medida de adecuación
muestral para cada variable. Esta medida es similar a la medida KMO, pero para cada variable
individualmente considerada.
Los valores de la diagonal de la matriz de covarianza anti-imagen se obtienen restando a la
unidad la correlación múltiple al cuadrado entre cada variable y las restantes variables del
análisis. Por tanto, estos valores representan una estimación de la unicidad de cada variable o, lo
que es lo mismo, una estimación de lo que cada variable tiene de propio o de no compartido con
las demás.
Tabla 9
Correlaciones reproduci das
Correlación reproducida
Res idual a
Nivel educativo
Categoría laboral
Salario actual
Salario inic ial
Mes es des de el contrato
Experiencia previa
(meses)
EDA D
Nivel educativo
Categoría laboral
Salario actual
Salario inic ial
Mes es des de el contrato
Experiencia previa
(meses)
EDA D
Nivel
educ ativo
,682 b
,632
,748
,690
,073
Categoría
laboral
Salario actual Salario inic ial
,632
,748
,690
,782 b
,816
,832
,816
,901 b
,876
,832
,876
,887 b
-,010
,087
-,025
Mes es des de
el contrato
,073
-,010
,087
-,025
,997 b
Experiencia
previa
(meses)
-,306
,093
-,088
,056
,000
b
-,306
,093
-,088
,056
,000
,893
-,344
,040
-,116
-,137
-,087
-,036
-,001
-,057
-,076
,004
,066
-,022
,014
-,002
,006
,887
,055
-,031
-,010
-,011
,002
-,116
-,087
-,057
-,022
-,036
-,076
,014
,004
-,002
,006
,055
-,031
-,010
-,011
,002
,062
-,031
-,007
-,008
-,012
EDA D
-,344
,040
-,137
-,001
,066
,887
,889 b
,062
-,031
-,007
-,008
-,012
-,086
-,086
Mét odo de extracc ión: Análisis de Componentes principales.
a. Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (33,0%) residuales no redundantes con valores absolutos mayores
que 0,05.
b. Comunalidades reproducidas
Nota. Generalmente, los valores de estas dos matrices se muestran en notación científica (en
formato exponencial). Si se desea reformar la tabla para que los valores no se muestren en notación científica, sino en notación decimal, se puede ejecutar el proceso de SPSS Deshacer notación científica.sbs. Para ello:
Seleccionar la tabla en el Visor de resultados.
Seleccionar la opción Ejecutar proceso... del menú Utilidades.
En la carpeta Scripts (que cuelga de la carpeta en la que está instalado el SPSS), seleccionar
el archivo Deshacer notación científica.sbs.
La Tabla 9 muestra la matriz de correlaciones reproducidas. El Visor ofrece esta tabla al final
de los resultados de la extracción y no junto al resto de estadísticos descriptivos.
La matriz de correlaciones reproducidas contiene las correlaciones que es posible reproducir
utilizando tan sólo la información contenida en la solución factorial. Es decir, utilizando la matriz
de la Tabla 3. En concreto, la matriz reproducida se obtiene post-multiplicando la matriz
factorial por su traspuesta.
Además de la matriz de correlaciones reproducidas, la Tabla 9 también incluye la matriz
218
residual, la cual contiene los residuos del análisis factorial. Cada residuo expresa la diferencia
existente entre la correlación observada entre dos variables (ver Tabla 5) y la correlación
reproducida por la estructura factorial para esas dos variables. Si el análisis ha sido fructífero,
la mayoría de las correlaciones reproducidas se parecerán a las correlaciones observadas y los
residuos serán muy pequeños. De hecho, como orientación, la tabla incluye una nota a pie de tabla
que contabiliza el número de residuos mayores que 0,05 (un valor arbitrariamente pequeño) y el
porcentaje que ese número representa sobre el total de correlaciones no redundantes de la
matriz.
Existen varias razones por las que el análisis podría desembocar en una matriz residual con un
gran número de residuos altos (en valor absoluto). En primer lugar, podría ocurrir que se hubiera
extraído un número insuficiente de factores y que, consecuentemente, la estructura factorial no
fuera capaz de reproducir adecuadamente la matriz de correlaciones observada. En segundo
lugar, podría ocurrir que las correlaciones observadas estuvieran mal estimadas, bien por la
presencia de sesgos en la medida de las variables, bien porque el coeficiente de correlación de
Pearson no fuera el apropiado para cuantificar la relación por causa de la escala utilizada para
medir las variables. Por último, aunque no menos importante, podría ocurrir que el modelo
factorial no fuera pertinente para analizar los datos (porque las variables no estuvieran linealmente relacionadas, porque en los datos analizados no existiera ningún tipo de estructura
factorial, etc.).
Extracción
La opción Extracción permite controlar varios aspectos relacionados con la fase de extracción
de los factores. Entre otras cosas, permite decidir qué modelo factorial se desea utilizar, en qué
matriz de datos basar el análisis y cuántos factores deben extraerse. Para controlar los
aspectos relacionados con el proceso de extracción de factores:
Pulsar el botón Extracción... del cuadro de diálogo Análisis factorial para acceder al
subcuadro de diálogo Análisis factorial: Extracción que muestra la Figura 20.4.
Método. En esta lista desplegable se puede seleccionar el modelo factorial que será utilizado
para estimar las saturaciones de las variables en los factores. Los distintos métodos difieren
tanto en el algoritmo de cálculo como en la matriz que será analizada (se asume que la matriz
seleccionada es la matriz de correlaciones). Los distintos métodos disponibles son:
219
Componentes principales. Método de extracción en el que los factores obtenidos son
los autovectores de la matriz de correlaciones re-escalados.
Mínimos cuadrados no ponderados. Método de extracción que minimiza la suma
de los
cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida,
ignorando los elementos de la diagonal.
Mínimos cuadrados generalizados. Método de extracción que minimiza la suma de los
cuadrados de las diferencias entre las matrices de correlaciones observada y reproducida.
Las correlaciones se ponderan por el inverso de su unicidad, de manera que las variables cuya
unicidad es alta reciben un peso menor que aquellas cuya unicidad es baja. Este método
genera un estadístico de bondad de ajuste chi-cuadrado que permite contrastar la hipótesis
nula de que la matriz residual es una matriz nula.
Máxima verosimilitud. Método de extracción que proporciona las estimaciones de los
parámetros que con mayor probabilidad han producido la matriz de correlaciones observada,
asumiendo que la muestra procede de una distribución normal multivariada. Las correlaciones
se ponderan por el inverso de la unicidad de las variables y se emplea un algoritmo iterativo.
Este método genera un estadístico de bondad de ajuste chi-cuadrado que permite contrastar
la capacidad del modelo para explicar la matriz de correlaciones.
Ejes principales. Método de estimación iterativo en el que, como estimación inicial de la
comunalidad, la matriz de correlaciones original se reduce sustituyendo los unos de su
diagonal por las estimaciones de la correlación múltiple al cuadrado entre cada variable y
todas las demás. La matriz reducida se auto-descompone y se corrigen las estimaciones
iniciales de la comunalidad por las nuevas estimaciones resultantes. El proceso continua hasta
que no existe diferencia entre las estimaciones de las comunalidades entre dos pasos
sucesivos o se alcanza alguno de los criterios de parada.
Alfa. Método de extracción que considera las variables incluidas en el análisis como una
muestra del universo de las variables posibles. Este método maximiza la generalizabilidad de
los factores calculada como el alfa de Cronbach.
Imagen. Método de extracción en el que se auto-descompone la matriz. de correlaciones
imagen. Se asume que la comunalidad es igual al cuadrado de la correlación múltiple entre una
variable y todas las demás. Al solicitar este método de extracción, los resultados incluyen
una tabla con la matriz de covarianza imagen.
Analizar. Las opciones de este recuadro sólo están disponibles cuando se seleccionan los métodos
de componentes principales, ejes principales y análisis imagen. Estas opciones permiten
seleccionar el tipo de matriz que será analizada.
Matriz de correlaciones. El análisis se basa en la matriz de correlaciones, en la matriz de
correlaciones reducida, o en la matriz de correlaciones anti-imagen, según el método
seleccionado.
Matriz de covarianza. El análisis se basa en la matriz de varianzas-covarianzas, en la matriz
de varianzas-covarianzas reducida, o la matriz de covarianzas anti-imagen, según el método
seleccionado.
220
Extraer. Este recuadro contiene opciones que permiten determinar el número de factores que se
extraerán en la solución factorial, bien a partir de una regla heurística, bien especificando un
número concreto:
Autovalores mayores que. Si la matriz analizada es la de correlaciones, esta opción permite
utilizar el tamaño de los autovalores como criterio para decidir el número de factores que
estarán presentes en la solución factorial. Por defecto se extraen los factores cuyos
autovalores son mayores que 1 (a este criterio se le denomina regla K 1). Si la matriz
analizada es la de varianzas-covarianzas, la regla expresa el número de veces que un
autovalor debe ser mayor que el autovalor promedio de la matriz para que el correspondiente
factor sea retenido en la solución.
El valor que actúa por defecto es 1, pero este valor puede cambiarse introduciendo otro
distinto (entre cero y el número de variables) en el correspondiente cuadro de texto.
Número de factores. Permite especificar el número exacto de factores que se desea incluir
en la solución. Se debe introducir dicho número en el recuadro de texto.
Mostrar. Estas opciones permiten seleccionar los resultados de la extracción que aparecerán en
el visor de resultados.
Solución factorial sin rotar. Muestra las saturaciones factoriales sin rotar (la matriz de
componentes o factorial), las comunalidades y los autovalores de la solución factorial.
Gráfico de sedimentación (también llamado prueba de sedimentación de Cattell). Muestra
una representación gráfica de la magnitud de los autovalores. El corte en la tendencia
descendente sirve de regla para la determinación del número óptimo de factores que deben
estar presentes en la solución. Siempre se muestra la representación de los autovalores de la
matriz de correlaciones (o de covarianzas) originales, independientemente del método de
extracción seleccionado.
N° de iteraciones para convergencia. Este cuadro de texto permite establecer el número
máximo de iteraciones que los algoritmos pueden realizar para encontrar la solución factorial
final. El valor por defecto es 25 (que resulta habitualmente apropiado para obtener una
solución), pero este valor puede cambiarse introduciendo cualquier otro entero positivo.
221
Gráfico de sedimentación
3,5
3,0
2,5
2,0
1,5
Autovalor
1,0
,5
0,0
1
2
3
4
5
6
7
Número de componente
El gráfico de sedimentación sirve para determinar el número óptimo de factores.Consiste
simplemente en una representación gráfica del tamaño de los autovalores.
Según se ha señalado ya, los autovalores indican la cantidad de varianza que está explicada por
cada componente principal. Tanto la tabla de porcentajes de varianza explicada (ver Tabla 11)
como el gráfico de sedimentación (ver Figura ) muestran los autovalores ordenados de mayor a
menor: el primer autovalor es el mayor de los posibles, el segundo autovalor es el mayor de los
restantes, y así sucesivamente. Si un autovalor se aproxima a cero, esto significa que el factor
correspondiente a ese autovalor es incapaz de explicar una cantidad relevante de la varianza
total. Por tanto, un factor al que corresponde un autovalor próximo a cero se considera un factor
residual y carente de sentido en el análisis.
Al representar todos los autovalores ordenados por su tamaño es posible formarse muy rápidamente una idea sobre si la cantidad de varianza asociada a cada uno de ellos es relevante para
el análisis o si por el contrario se trata sólo de varianza residual. Los autovalores residuales se
encuentran en la parte derecha del gráfico, formando una planicie de poca inclinación, en
contraposición a la fuerte pendiente formada por los autovalores que explican la mayor parte de
la varianza disponible. Por este motivo, es conveniente inspeccionar el gráfico de sedimentación
de izquierda a derecha, buscando el punto de inflexión en el que los autovalores dejan de formar
una pendiente significativa, con mucha inclinación, y comienzan a describir una caída con poca o
ninguna inclinación.
En el ejemplo, la pendiente pierde inclinación a partir del cuarto autovalor (hacia su derecha). O
lo que es lo mismo, el cuarto autovalor no provoca pendiente respecto del quinto (es decir, el
cuarto valor se encuentra en la misma planicie sin pendiente que el quinto), por lo que puede
considerarse que sólo deben extraerse los tres primeros factores y desechar del cuarto en
adelante.
Es importante señalar que el aspecto del gráfico de sedimentación no cambia como consecuencia
del número de factores seleccionado. Por otra parte, el gráfico siempre muestra todos los
posibles autovalores de la matriz de correlaciones original, no los autovalores de la matriz
analizada, que puede ser distinta de la de correlaciones dependiendo del método de extracción
222
utilizado.
Rotación
La opción Rotación permite controlar la fase de rotación del análisis. Con esta opción es posible
definir el método de rotación que se desea utilizar (para facilitar la interpretación de la solución
factorial) y solicitar la representación gráfica de las saturaciones. Por defecto, no se encuentra
seleccionado ningún método de rotación. Para seleccionar el método de rotación:
Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial para acceder al
subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8.
pueden obtenerse factores relacionados entre si. Los métodos disponibles son:
Ninguno. No se aplica ningún método de rotación. Es la opción que actúa por defecto. Cuando
la solución consta de un único factor y no se ha se ha marcado esta opción, el Visor de
resultados muestra un mensaje advirtiendo que no es posible rotar la solución.
Varimax. Método de rotación ortogonal que minimiza el número de variables que tienen
saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la
solución por columna.
Quartimax. Método de rotación ortogonal que minimiza el número de factores necesarios
para explicar cada variable. Simplifica la interpretación de las variables observadas
optimizando la interpretación por filas.
Equamax. Método de rotación que es combinación del método Varimax, que simplifica los
factores, y del método Quartimax, que simplifica las variables. Se minimiza tanto el número
de variables que saturan alto en un factor como el número de factores necesarios para
explicar una variable.
Oblimin directo. Método para la rotación oblicua (no ortogonal). Cuando delta es igual a cero
(el valor por defecto), las soluciones son las más oblicuas. A medida que delta se va haciendo
más negativo, los factores son menos oblicuos. Para anular el valor por defecto de delta,
puede introducirse un número menor o igual que 0,8.
Delta. El valor de delta permite controlar el grado de oblicuidad que pueden llegar a alcanzar los
factores de la solución.
223
Promax. Rotación oblicua que permite que los factores estén correlacionados. Puede
calcularse más rápidamente que una rotación oblimin directa, por lo que es útil para grandes
conjuntos de datos.
Kappa. Parámetro que controla el cálculo de la rotación Promax. El valor por defecto es 4. Este
valor es adecuado para la mayoría de los análisis.
Mostrar. Las opciones de este recuadro permiten decidir qué resultados de la rotación mostrará
el Visor de resultados. Por defecto, cuando se selecciona alguno de los métodos de rotación, el
Visor muestra la solución rotada. Si se encuentra seleccionada la opción Ninguna del recuadro
Método no será posible seleccionar ninguna de las opciones de este recuadro.
Solución rotada. Permite obtener una o más tablas con los resultados del proceso de
rotación. Al seleccionar una rotación ortogonal, esta opción permite obtener la matriz de
estructura factorial rotada y la matriz de transformación necesaria para rotar los factores
a partir de la solución inicial. Además, en la tabla de porcentajes de V'arianza explicada
aparecen columnas adicionales que contienen la varianza total explicada por los factores
rotados. Al seleccionar una rotación oblicua, esta opción permite obtener la matriz de
configuración rotada, que contiene las saturaciones de las variables en los factores, y la
matriz de estructura, que contiene las correlaciones entre las variables observadas y los
factores (cuando la rotación es ortogonal, ambas matrices son idénticas). Además, ofrece la
matriz de correlaciones entre los factores y desecha la matriz de transformación para la
rotación. En la tabla de porcentajes de varianza explicada sólo se incluyen los autovalores de
los factores rotados (ya que no tiene sentido hablar de porcentajes de varianza
independientes).
Gráficos de saturaciones. Esta opción genera un gráfico de dispersión que refleja la
ubicación de las variables en el espacio definido por los factores. Se trata de un gráfico de
las saturaciones. El gráfico muestra, por detecto, los tres primeros factores de la solución
factorial en un gráfico tridimensional. Si se desea representar otros factores, es necesario
editar el gráfico y elegir esos otros factores. Los ejes factoriales se representan siempre en
formato ortogonal, aunque exista correlación entre los factores.
N° máximo de iteraciones para convergencia. Permite determinar el número máximo de iteraciones que puede recorrer el algoritmo de estimación para encontrar la solución rotada. Por
defecto se efectúan un máximo de 25 iteraciones, lo cual resulta suficiente en la mayoría de los
casos.
Ejemplo (Análisis factorial > Rotación ortogonal)
Este ejemplo muestra cómo rotar la estructura factorial original mediante un método ortogonal.
La estructura que se va a rotar es la obtenida en el ejemplo anterior (2 factores) con el método
de extracción ejes principales. Primero se representará gráficamente la solución no rotada y
posteriormente se comparará con la solución rotada.
Para representar gráficamente la solución factorial no rotada del ejemplo anterior (6 varia
bles, 2 factores, método de extracción ejes principales):
Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1)
para acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8.
224
En el recuadro Mostrar, seleccionar la opción Gráficos de saturaciones.
Aceptando estas selecciones se obtiene, además de los resultados del ejemplo anterior, el gráfico de las saturaciones factoriales que muestra la Figura 20.9.
Un gráfico de factores o de saturaciones factoriales representa el espacio factorial definido
por los factores contenidos en la solución factorial. Si la solución contiene un único factor, el
gráfico no se genera y aparece una advertencia indicando tal circunstancia; si la solución
contiene dos factores se genera un diagrama de dispersión simple; si la solución contiene tres o
más factores se genera un gráfico de dispersión tridimensional en el que sólo se representan los
tres primeros factores. Cuando la solución contiene más de tres factores, el gráfico tridimensional representa los tres primeros factores, pero almacena también la información correspondiente a los restantes factores. Para representar factores distintos de los tres primeros
pueden hacerse dos cosas, ambas desde el Editor de gráficos (al cual se accede pinchando dos
veces sobre un gráfico): (1) seleccionar en el menú Series los tres factores que se desea
representar, o (2) solicitar en el menú Galería un diagrama de dispersión matricial para
representar simultáneamente todos los factores dos a dos.
Un gráfico .de saturaciones factoriales es un diagrama de dispersión en el que los factores
definen los ejes del espacio y las variables constituyen los puntos del diagrama. Las coordenadas
de una variable en cada factor se corresponden con las saturaciones de la variable en dichos
factores, es decir, con los valores de la matriz factorial (ver Tabla 20.18).
La rotación de la solución original se realiza con el objetivo de mejorar la interpretación de la
estructura factorial. Las restricciones de la auto-descomposición de la matriz de correlaciones
imponen que el primer factor explique el máximo de la varianza común disponible en los datos,
que el segundo factor explique el máximo de la varianza común restante (e independiente de la
explicada por el primer factor), y así sucesivamente hasta el último de los factores.
Estas restricciones se imponen para deshacer la indeterminación intrínseca a la solución del sistema homogéneo de ecuaciones que da lugar a los autovectores. Un efecto indeseable de estas
restricciones es que los primeros factores tienden a capitalizar la información de covariación
contenida en la matriz de correlaciones, acumulando más información de la que posiblemente les
corresponda. Este hecho se aprecia en que las saturaciones de las variables en los primeros
factores (y en especial en el primer factor) suelen encontrase infladas, llevando esto a conceder
excesiva importancia a los primeros factores. Cuando la estructura factorial es clara y cada variable del análisis se encuentra inequívocamente asignada a un único factor, el electo contaminante de las restricciones no suele apreciarse. Sin embargo, cuando las variables saturan en
más de un factor o existe un factor general que domina la solución, la rotación puede ser de gran
utilidad para interpretar los resultados.
225
Otro de los motivos que justifican la rotación es que la solución factorial original es siempre
ortogonal (los factores no rotados son siempre independientes entre si). Sin embargo, existe un
gran número de situaciones (y en especial en las ciencias sociales) en las que los factores pueden
estar relacionados entre sí. En estos casos, si se desea estimar el grado de relación existente
entre los factores, debe recurrirse a una rotación oblicua.
En el gráfico de la Figura 20.9 pueden apreciarse dos grupos diferenciados de variables. El
primer grupo de se encuentra próximo al extremo positivo del factor 1, formado por las variables
salario (salario actual), salini (salario inicial), catlab (categoría laboral) y educ (nivel educativo).
El segundo grupo de variables se encuentra próximo al extremo positivo del factor 2 y está
formado por las variables expprev (experiencia previa) y edad.
Se aprecia un panorama similar si se estudia con detenimiento la matriz factorial de la Tabla
20.18. En ella se puede apreciar que el grupo de variables pertenecientes al segundo factor
también saturan, aunque poco, en el primer factor. Además, la variable nivel educativo, aunque se
encuentra relativamente distante del primer factor, satura bastante en él (tal vez de manera
excesiva). Si se efectúa una rotación ortogonal, es muy posible que se aclare algo más la estructura de las variables.
Para aplicar un método de rotación (manteniendo las mismas 6 variables utilizadas en los
ejemplos anteriores, forzando una solución de 2 factores y utilizando ejes principales como método de extracción):
Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para
acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8.
En el recuadro Método, seleccionar la opción Varimax y pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.19 a la
20.22 y la Figura 20.11.
La tabla de comunalidades no ha cambiado; es la misma que la ya obtenida en la extracción no
rotada (ver Tabla 20.16). Es importante resaltar este detalle pues obedece al hecho de que en el
proceso de rotación se busca clarificar la interpretación de la estructura factorial subyacente
sin alterar la situación relativa de unas variables respecto a las otras, y sin alterar tampoco el
porcentaje de la varianza de cada variable que es capaz de explicar cada factor. Para que las
comunalidades de las variables cambien, es necesario variar el número de factores de la solución.
Lo que sí cambia en el proceso de rotación es el porcentaje de varianza total explicada por cada
factor (y cambia tanto más cuanto más éxito tiene la rotación). Ahora, al haber solicitado la
aplicación de un método de rotación, la tabla de porcentajes de varianza explicada (ver Tabla
20.19) incorpora información adicional referida a la suma de las saturaciones tras la rotación de
los factores. En el ejemplo, puede comprobarse que las sumas de los cuadrados de las
saturaciones correspondientes a la solución rotada no coinciden con las de la extracción no
rotada. No obstante, difieren muy poco, por lo que se puede pensar que la rotación no mejora
demasiado la interpretación de la solución factorial y que la extracción inicial ofrece ya una
solución lo suficientemente clara.
226
La matriz de la estructura factorial no rotada (ver Tabla 20.20) contiene la solución factorial
antes de aplicar la rotación (es decir, contiene las saturaciones de las variables en los factores
no rotados). Esta matriz es idéntica a la obtenida en la solución no rotada (ver Tabla 20.18). El
Visor ofrece esta tabla (que es el punto de partida del proceso de rotación) justo antes de
presentar la matriz de la estructura factorial rotada.
La matriz de la estructura factorial rotada aparece en la tabla denominada matriz de factores
rotados (ver Tabla 20.21). Comparando los valores de esta tabla con los de la matriz no rotada de
la Tabla 20.20, puede comprobarse que las saturaciones de las dos variables agrupadas en el
segundo factor ha mejorado algo: se han incrementado ligeramente las de ese factor y han
disminuido las del primero (recuérdese que la comunalidad de una variable es igual a la suma de
los cuadrados de las saturaciones de esa variable y que esa suma no se altera con la rotación; por
tanto, si la saturación de una variable aumenta en un factor, su saturación en los restantes
factores debe disminuir).
La variable categoría laboral también se ha desplazado hacia su factor, el primero, disminuyendo
su saturación en el segundo factor.
Sin embargo, la variable nivel educativo, que antes saturaba fundamentalmente en el primer
factor, ha perdido parte de su correlación con él en beneficio del segundo factor, con el que
ahora comparte más información.
En definitiva, el proceso de rotación busca lo que Thurstone (1947) denominó una estructura
simple: variables que saturen, a ser posible, en un único factor, y factores que contengan un
número reducido de variables que saturen inequívoca y exclusivamente en ellos. Con todo, las
variables que compartan información con varios factores, si existen, entorpecerán el proceso de
rotación y, en lugar de una única saturación elevada en un único factor, tenderán a mostrar
saturaciones moderadas en varios factores (como ocurre en el ejemplo, en parte, con la variable
nivel educativo).
227
La Tabla 20.22 muestra la matriz de transformación de los factores, que es la matriz utilizada
para rotar la solución inicial. Esta matriz adopta la forma:
Donde A es la matriz de estructura factorial antes de la rotación, T es la matriz de transformación ya es la matriz de estructura factorial después de la rotación. Igualando los términos de la
matriz anterior con los de la Tabla 20.22 y despejando, se obtiene un ángulo de rotación de
aproximadamente 10° en el sentido contrario al de las agujas del reloj. Como el método de rotación utilizado es ortogonal, los ejes rotados seguirán siendo ortogonales o independientes entre
sí, es decir, seguirán formando un ángulo de 90°.
Para ayudar a percibir con claridad el efecto de la rotación, la Figura 20.10 muestra los ejes
rotados superpuestos sobre el gráfico de la solución no rotada de la Figura 20.9. No obstante, en
la rotación que ofrece el Visor (ver Figura 20.11), da la impresión de que son las variables las que
se desplazan hacia los ejes en lugar de ser los ejes los que se desplazan hacia las variables.
228
El gráfico muestra con claridad cómo las variables pertenecientes factor 2 se han aproximado
más a él, cómo el grupo de variables pertenecientes al factor 1 ahora se encuentran atravesadas
por el eje que representa dicho factor y cómo la variable nivel educativo se ha distanciado del
factor 1, llevando esto a pensar que esa variable comparte, de hecho, información con el factor
2. A la vista del gráfico y de la matriz de estructura rotada, puede interpretarse que la personas
de mayor edad y experiencia de la empresa tienden a presentar un menor nivel educativo y viceversa, las personas de menor edad y experiencia laboral tienden a presentar un mayor nivel
educativo.
Ejemplo (Análisis factorial > Rotación oblicua)
Este ejemplo muestra cómo rotar la solución factorial original mediante un método oblicuo y
compara los resultados de la rotación oblicua con los de la rotación ortogonal del ejemplo
anterior. La estructura rotada es la ya obtenida con el método de extracción ejes principales (6
variables, 2 factores). Para seleccionar un método de rotación oblicuo:
Pulsar el botón Rotación... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para
acceder al subcuadro de diálogo Análisis factorial: Rotación que muestra la Figura 20.8.
En el recuadro Método, seleccionar la opción Oblimin directo.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 20.23 a la
20.27.
La tabla de comunalidades es la misma que la ya obtenida en la extracción no rotada (ver Tabla
20.16). Recuérdese que el proceso de rotación busca clarificar la interpretación de la estructura
factorial sin alterar la situación relativa de las variables ni el porcentaje de la varianza de cada
variable que es capaz de explicar el conjunto de factores.
La tabla de porcentajes de varianza explicada (Tabla 20.23) muestra información parcial sobre
el resultado de la rotación: si bien la tabla recoge las sumas de cuadrados de las saturaciones de
las variables en cada factor (última columna de la tabla), no es posible sumar esas sumas de
cuadrados e interpretarlas como porcentajes de varianza explicada. Esto es debido a que los
factores ya no tienen por qué cumplir la restricción de ser ortogonales entre sí y, consecuentemente, la varianza de la suma de los factores ya no es igual a la suma de las varianzas de
los factores (el encabezamiento completo de la última columna de la tabla -Suma de sus saturaciones al cuadrado de la rotación-sólo puede verse ensanchando la columna).
229
La matriz de la estructura factorial no rotada (Tabla 20.24) se ofrece en una tabla denominada
matriz factorial y, al igual que ocurre con la tabla de comunalidades, también es idéntica
obtenida anteriormente (ver Tabla 20.18).
A diferencia de lo que ocurre en la rotación ortogonal, los resultados de la rotación oblicua
pueden representarse en una única matriz. Si los factores son ortogonales (independientes e sí),
la saturación de una variable en un factor, es decir, su proyección sobre el factor, es i¡ a la
correlación de esa variable con el factor. Pero si los factores son oblicuos (correlacionan entre
sí), la saturación y la correlación de una variable en un factor no coinciden. Por motivo, al solicitar
una rotación oblicua, el Visor muestra dos matrices para la estructura fa rial rotada: una con las
correlaciones (a la que llama matriz factorial) y otra con las saturaciones (a la que llama matriz
de configuración).
La matriz de configuración ofrece las saturaciones de las variables en los factores de la solución
rotada (Tabla 20.25). Esas saturaciones, que son las que se representan en el gráfico del espacio
factorial rotado, representan la contribución neta de cada variable en cada factor, por lo que
constituyen la manera más fácil de interpretar la solución factorial.
230
La matriz de estructura contiene las correlaciones entre las variables y los factores de la solución rotada (Tabla 20.26). Estas correlaciones representan la contribución bruta de cada variable
a cada factor. Cuando los factores están muy relacionados (se encuentran muy próximos en el
espacio), la matriz de estructura contiene correlaciones muy grandes entre todas las variables y
todos los factores, lo cual hace muy difícil la interpretación al no poder precisar a qué factor hay
asignar cada variable (si bien esto representa la situación real: las variables que correlacionan
con un factor también lo harán con los factores relacionados con él).
En la Figura 20.12 están representadas las proyecciones espaciales que dan lugar a las saturaciones factoriales de la matriz de configuración y a las correlaciones variables-factores de la
matriz de estructura. Todo ello dentro del espacio factorial definido por dos factorescorrelacionados entre sí (oblicuos). En la figura puede apreciarse que las saturaciones y las
correlaciones más altas en un factor (proyecciones más largas: by b') corresponden a las
variables que más cerca se encuentran de él. Sin embargo, justamente por tratarse de factores
oblicuos, mientras la saturación de una variable en el factor del que se encuentra más alejada es
muy reducida (proyección a), la correlación de esa misma variable con ese mismo factor
(proyección a') es más alta que la saturación.
La matriz de correlaciones entre los factores (Tabla 20.27) permite apreciar el grado de proximidad existente entre los factores: cuanto mayor sea la correlación entre los factores (en valor
absoluto), más próximos se encontrarán éstos en el espacio. Estas correlaciones están estrechamente relacionadas con el ángulo que forman los factores: equivalen al coseno del ángulo comprendido entre ellos. En nuestro ejemplo: correlación(factor l, factor 2) = -0, l 04 = cos(9) y
arcos(-0,104) = 9 == 96°. Los factores se encuentran abiertos un poco más de 90 grados; por
tanto, no son ortogonales (si los factores fueran ortogonales o independientes, la correlación
entre ambos valdría cero y el ángulo comprendido entre ellos sería exactamente de 90 grados).
231
Puede darse el caso de que, aun solicitando una rotación oblicua, los factores permanezcan ortogonales. El algoritmo de rotación oblicua busca rotar de manera autónoma cada uno de los
factores, pero eso no quiere decir que los factores deban aproximarse entre sí cuando la solución ortogonal es la mejor de las posibles. En el ejemplo, el ángulo entre factores ha permanecido
prácticamente en 90 grados (casi ortogonales), razón por la cual la matriz de configuración y la
matriz de estructura apenas difieren entre sí.
Cuando se realiza una rotación oblicua, el gráfico de las saturaciones en el espacio factorial
rotado (Figura 20.13) puede resultar engañoso. Aunque el gráfico representa la posición relativa
de las variables en los factores, el ángulo entre los factores se mantiene en 90 grados,
independientemente del ángulo real obtenido con la rotación. Para interpretar correctamente el
gráfico debe tenerse en cuenta cuál es la posición de las variables respecto del factor en el que
más saturan (que es el factor al que se encuentran más próximas). Sin embargo, la inclinación de
los ejes debe intuirse a partir de los valores de la matriz de correlaciones entre los factores.
Puntuaciones factoriales
Una vez alcanzada la solución factorial final, suele resultar interesante obtener una estimación
de las puntuaciones de los sujetos en cada uno de los factores resultantes de la extracción a fin
de valorar la situación relativa de cada sujeto en esas dimensiones ocultas capaces de resumir la
información contenida en las variables originales. El cuadro de diálogo Puntuaciones factoriales
contiene varias opciones que permiten solicitar las estimaciones de las puntuaciones factoriales y
seleccionar el método de estimación que se desea utilizar para obtener tales estimaciones.
Para acceder a estas opciones:
Pulsar el botón Puntuaciones... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para
acceder al subcuadro de diálogo Análisis factorial: Puntuaciones factoriales que muestra la
Figura 20.14.
Guardar como variables. Activando esta opción se guardan automáticamente en el Editor de
datos las puntuaciones factoriales estimadas para cada sujeto en cada uno de los factores
obtenidos en la solución factoría!. Para ello, el SPSS crea en el archivo de datos activo tantas
232
variables nuevas como factores contenga la solución factorial. Si no se selecciona esta opción no
.es posible acceder a los métodos de estimación de las puntuaciones factoriales.
Método. Este recuadro contiene varios métodos de estimación de las puntuaciones factoriales.
Por defecto se encuentra seleccionado el método de Regresión, que es el de uso más generalizado. Es importante señalar que las opciones de este recuadro no tienen electo alguno cuando
se ha seleccionado componentes principales como método de extracción, ya que en ese modelo
factorial las puntuaciones factoriales no son estimadas, sino calculadas directamente a partir de
las variables originales.
Regresión. Método de estimación de las puntuaciones factoriales en el que las estimaciones
resultantes tienen una media de cero y una varianza igual al cuadrado de la correlación
múltiple entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos.
Las puntuaciones factoriales estimadas con este método pueden estar correlacionadas
incluso cuando los factores son ortogonales.
Bartlett. Método de estimación de las puntuaciones factoriales en el que las estimaciones
resultantes tienen una media de cero. Este método minimiza la suma de cuadrados de los
factores únicos (es decir, minimiza la unicidad correspondiente a cada una de las variables
incluidas en el análisis).
Anderson-Rubin. Este método de estimación es una modificación del método de Bartlett que
asegura la ortogonalidad de las puntuaciones factoriales estimadas. Las estimaciones
resultantes tienen una media de cero, una desviación típica de uno y son independientes
entre sí (incluso en el caso de que se haya solicitado una solución rotada oblicua).
Mostrar matriz de coeficientes de las puntuaciones factoriales. Esta opción permite obtener
una tabla con los pesos o ponderaciones necesarios para calcular las puntuaciones factoriales
a partir de las variables originales. Esta opción se encuentra desactivada por defecto. Por
tanto, para obtener la matriz de coeficientes no basta con solicitar las puntuaciones factoriales.
Ejemplo (Análisis factorial > Puntuaciones)
Este ejemplo muestra cómo obtener e interpretar las estimaciones de las puntuaciones factoriales. Se comparan varios métodos de estimación de las puntuaciones factoriales. Las puntuaciones factoriales de los sujetos dependen del método de extracción utilizado, del método de
rotación elegido y del método de estimación de las puntuaciones factoriales seleccionado. Cada
combinación de estos tres aspectos del análisis da lugar a un conjunto de puntuaciones factoriales distintas para un sujeto dado. La elección de las puntuaciones factoriales más adecuadas
depende de los propósitos del investigador. Así, por ejemplo, si se desea realizar un análisis
factorial de segundo orden sobre las puntuaciones factoriales, no debe seleccionarse el método
de Anderson-Rubin, ya que este método impone la ortogonalidad de las puntuaciones factoríales
y el análisis factorial ulterior no tendría sentido. En ese caso sería recomendable utilizar el
método de regresión con una rotación oblicua para asegurar la posibilidad de explotar las relaciones existentes entre los factores.
Para solicitar las estimaciones de las puntuaciones factoriales:
En el cuadro de diálogo Análisis factorial (ver Figura 20.1), seleccionar las seis variables con
las que se viene trabajando en los últimos ejemplos (educ, catlab, salario, salini, exprev y
edad), y trasladarlas a la lista Variables.
Pulsar el botón Puntuaciones... para acceder al subcuadro de diálogo Análisis factorial:
Puntuaciones factoriales (ver la Figura 20.15).
233
Marcar la opción Guardar como variables (al marcar esta opción, aparece seleccionada, por
defecto, la opción Regresión del recuadro Método) y la opción Mostrar la matriz de
coeficientes de las puntuaciones factoriales. Pulsar el botón Continuar para volver al cuadro
de diálogo principal.
Pulsar el botón Extracción... para acceder al subcuadro de diálogo Análisis vectorial:
Extracción (ver Figura 20.4). Seleccionar la opción Componentes principales en el menú
emergente del cuadro Método e introducir un 2 en el cuadro de texto Número de factores.
Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Pulsar el botón Rotación... para acceder al subcuadro de diálogo Análisis factorial: Rotación
(ver Figura 20.8) y seleccionar la opción Ninguno del recuadro Método. Pulsar el botón
Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece, además de las tablas de resultados ya vistas en los
ejemplos anteriores (comunalidades, porcentajes de varianza explicada, matriz de componentes,
etc.), dos nuevas tablas con información referida a las puntuaciones factoriales solicitadas.
La Tabla 20.28 muestra la matriz de coeficientes para el cálculo de las puntuaciones factoriales,
la cual contiene las ponderaciones que recibe cada variable en el cálculo de las puntuaciones
factoriales. Puesto que se ha utilizado el método de extracción de componel1les principales, las
dimensiones obtenidas reciben el nombre de componentes (en lugar del nombre factores que
reciben con otros métodos de extracción).
Combinando cada variable con sus correspondientes coeficientes pueden construirse las dos
ecuaciones lineales en las que se basa el cálculo de las puntuaciones factoriales:
Y1
= 0,255 educ + 0,266 catlab + 0,298 salario + 0,288 salini - 0,057 expprev - 0,074 edad
Y2 = -0,093 educ + 0,141 catlab + 0,048 salario + 0,127 salini + 0,500 expprev + 0,492 x edad
Las dos puntuaciones factoriales de un sujeto se obtienen sustituyendo cada variable por sus
respectivos valores. La Tabla 20.29, obtenida con el procedimiento Informes> Resúmenes de
casos del menú Analizar muestra las puntuaciones factoriales de los 10 primeros sujetos.
Tabla 20.29. Listado de las puntuaciones factoriales de los 10 primeros sujetos.
REGR factor
REGR factor
score 1
score 2
for analysis 1 for analysis 1
1
1.38309
.88997
2
.28680
- .46629
3
-1.00661
2.35341
4
-1.09351
.85072
234
5
6
7
8
9
10
.28864
-.14950
.07017
-.64438
-.35485
-.72959
.23986
- .40335
.01337
-1.03708
.32729
1.03906
Las puntuaciones factoriales se encuentran en formato diferencial, por lo que una puntuación de
cero se corresponde con una puntuación factorial igual a la media, las puntuaciones positivas son
puntuaciones mayores que la media y las puntuaciones negativas son puntuaciones menores que la
media. Si se desea eliminar los signos negativos siempre es posible realizar una transformación
de las puntuaciones para cambiar la escala de las nuevas variables.
Las puntuaciones factoriales se almacenan de manera automática como nuevas variables en el
Editor de datos y reciben, también de forma automática, un nombre que identifica, por este
orden: el método de estimación de las puntuaciones (en el ejemplo, REGR), el número del factor
al que corresponden las puntuaciones (factor score 1) y el número de orden del análisis durante
la sesión (analisys 1). Este nombre es único y distintivo, de manera que si se solicitan nuevas
estimaciones de las puntuaciones, las nuevas puntuaciones se almacenarán al final del archivo de
datos con nuevos nombres.
Para interpretar mejor las puntuaciones factoriales de los sujetos es conveniente solicitar
algunos estadísticos descriptivos de las nuevas variables. La Tabla 20.30 muestra algunos descriptivos obtenidos con el procedimiento Estadísticos descriptivos> Descriptivos del menú
Analizar.
La media de las nuevas variables vale 0 y su desviación típica 1, lo que significa que pueden
interpretarse como si fueran puntuaciones típicas. Inspeccionando la Tabla 20.29 puede
apreciarse que el primer sujeto recibe una puntuación alta y por encima de la media en el primer
factor y también una puntuación moderadamente alta en el segundo. El tercer sujeto puntúa
bajo en el primer factor,(se encuentra a una desviación típica por debajo de la media) y muy alto
en el segundo (se encuentra a más de dos desviaciones típicas por encima de la media). El
séptimo sujeto se encuentra situado en tomo a la media en ambos factores.
Tabla 20.30. Estadísticos descriptivos de las puntuaciones factoriales.
Máxim
Desv.
N Mínimo
Media
o
tip.
REGR factor score 1 for
47
-1.529 4.950
.000 1.000
analysis 1
3
REGR factor secre 2 for
47
-1.212 3.083
.000 1.000
analysis 1
3
47
N válido (según lista)
3
Además de las puntuaciones factoriales, el procedimiento ofrece también la matriz de varianzascovarianzas de las puntuaciones factoriales (Tabla 20.31). Lógicamente, esta matriz contiene, en
la diagonal principal (es decir, en las casillas 1: I y 2:2), la varianza de las puntuaciones
factoriales de cada componente o factor (que ya se sabe que vale uno) y, fuera de la diagonal
principal (es decir, en las casillas 1:2 y 2: 1), las covarianzas existentes entre cada par de
componentes o factores (covarianza que en el ejemplo vale cero, indicando esto que las puntuaciones factoriales de ambos factores son completamente independientes entre sí: su correlación
235
es nula).
Esta circunstancia (la independencia completa entre las puntuaciones factoriales) es bastante
excepcional cuando las estimaciones se efectúan mediante el método de regresión. De hecho, se
trata de un caso muy particular. Pero obsérvese que la Tabla 20.31 no informa sobre el método
de estimación utilizado (a pesar de que en el cuadro de diálogo Análisis factorial: Puntuaciones se
ha seleccionado el método de estimación regresión), sino que se limita a señalar que las
puntuaciones factoriales analizadas son las puntuaciones en las componente. principales. Cuando
la extracción de los factores se realiza con el método componentes principales. las puntuaciones
factoriales no se obtienen mediante estimación, sino que son directamente calculadas a partir de
la solución factorial. Y puesto que la extracción con el método componentes principales siempre
ofrece una solución ortogonal, las puntuaciones factoriales basadas en esa solución también
serán ortogonales.
Sin embargo, cuando se utiliza un método de extracción distinto del de componentes principales no es posible obtener directamente las puntuaciones factoriales a partir de la matriz de
estructura, sino que deben ser estimadas mediante uno cualquiera de los métodos de estimación
disponibles.
La Tabla 20.32 ofrece la matriz de coeficientes obtenida con el método de extracción componentes principales, el método de rotación oblimin directo y el método regresión para la estimación de las puntuaciones factoriales.
Tabla 20.32. Matriz de coeficientes para el cálculo de las puntuaciones
factoriales.
Nivel educativo
Categoría laboral
Salario actual
Salario inicial
Experiencia
previa
Edad (años)
Componente
1
2
.240
-.148
.283
.077
.302
-.021
.302
.058
.012
.500
-.006
.496
Método de extracción: Análisis de componentes principales
Método de rotación: Oblimin con normalización de Kaiser.
Puntuaciones de componentes.
Puede observarse en la tabla que las nuevas ponderaciones son ligeramente distintas de las obtenidas con la solución no rotada. No tiene sentido detenerse en esta matriz de coeficientes
pues sólo sirve como instrumento de cálculo en el caso de que se desee estimar las puntuaciones
factoriales con alguna herramienta distinta del SPSS. Si se desea estudiar el cambio en la
estructura factorial es más adecuado referirse a las matrices de configuración y de estructura.
Donde se pueden apreciar con claridad las diferencias entre las soluciones rotada y no rotada es
en la matriz de varianzas-covarianzas (Tabla 20.33). Ahora, en la solución rotada, las varianzas
236
de las puntuaciones siguen valiendo aproximadamente uno, pero la covarianza entre las
puntuaciones ya no es nula, sino que existe una ligera relación negativa entre las puntuaciones de
ambas componentes.
Por último, veamos qué efecto tiene sobre las puntuaciones factoriales aplicar el método de extracción ejes principales, manteniendo el método de rotación oblimin directo y el método de
estimación regresión. La Tabla 20.34 muestra los coeficientes obtenidos. Ahora sí se menciona
en una nota a pie de tabla el método de estimación utilizado para obtener las puntuaciones factoriales (Método de puntuaciones factoriales: Regresión), pues al utilizar un método de extracción distinto de componentes principales, las puntuaciones factoriales no pueden calcularse directamente sino que necesitan ser estimadas. Tal vez sorprenda observar que las variables del
primer factor no reciben ponderaciones similares a las obtenidas con el método componentes
principales (ver Tabla 20.32). Esto es debido a que el método regresión es muy similar al análisis
de regresión múltiple y, cuando existe colinealidad estre las variables, no es necesario incorporar
la misma información de manera repetitiva.
En la matriz de varianzas-covarianzas de las puntuaciones factoriales (Tabla 20.35) puede apreciarse que las puntuaciones factoriales están más relacionadas que antes y que las varianzas de
las puntuaciones factoriales de ambos factores son distintas de uno y distintas entre sí.
Normalmente, cuando se utiliza el método de estimación regresión, las puntuaciones factoriales
correspondientes a factores con autovalores mas grandes suelen tener una varianza mayor.
Además, si se utiliza un método de extracción distinto del de componentes principales, las
puntuaciones factoriales tienden a mostrar cierta correlación incluso aunque no se haya
efectuado una rotación oblicua.
Opciones
El cuadro de diálogo Análisis factorial: Opciones permite controlar algunos aspectos relacionados con el tratamiento que se desea dar a los valores perdidos y con el formato de las tablas de
237
resultados que genera el Visor de resultados. Para controlar estos aspectos:
Pulsar el botón Opciones... del cuadro de diálogo Análisis factorial (ver Figura 20.1) para.
acceder al subcuadro de diálogo Análisis factorial: Opciones que muestra la Figura 20.15.
Valores perdidos. Este recuadro permite controlar el tratamiento que se desea dar a valores
perdidos.
Excluir casos según lista. Es la opción por defecto. Se excluyen del análisis los sujetos
que tengan valores perdidos en cualquiera de las variables trasladadas a la lista Variables del cuadro de diálogo Análisis factorial (ver Figura 20.1). Es el tratamiento más
consistente de todos: sólo se incluyen en el análisis los casos completos (es decir, los
casos con puntuación válida en todas las variables seleccionadas), pero conviene tener en
cuenta que esta forma de tratar los valores perdidos puede suponer la pérdida de un
gran número de casos y, con ello, la consiguiente reducción del tamaño efectivo de la
muestra.
Excluir casos según pareja. Los sujetos con valor perdido en una variable se excluyen del
análisis sólo para el cálculo de los estadísticos en los que está implicada esa variable.
Este método permite aprovechar más cantidad de información que el anterior, pero,
puesto que no todas las correlaciones se calculan sobre el mismo número de casos,
podrían obtenerse matrices de correlaciones inconsistentes imposibles de analizar
posteriormente.
Reemplazar por la media. Los valores perdidos en una variable se sustituyen por la media
de esa variable. Si en una variable existen muy pocos casos con valor perdido, reemplazar
el valor perdido por la media no constituye un problema importante. Pero en la medida en
que el número de valores perdidos aumenta, la sustitución por la media tiene el efecto de
centrar las variables disminuyendo su variabilidad.
Formato de visualización de los coeficientes. Las opciones de este recuadro permiten cambiar
algunos aspectos relacionados con el formato de presentación de las tablas.
Ordenados por tamaño. Esta opción sirve para ordenar las variables de las tablas de
resultados en función de la magnitud (en valor absoluto) de los coeficientes de esas
tablas (saturaciones, correlaciones, etc). La ordenación se realiza de forma ascendente:
primero las variables con coeficientes más altos. Si no se marca esta opción, las tablas
muestran las variables en el mismo orden en el que han sido trasladas a la lista de Variables del cuadro de diálogo Análisis factorial (ver Figura 20.1).
Suprimir valores absolutos menores que... Esta opción permite suprimir de las tablas de
resultados los coeficientes cuyo un valor absoluto sea menor que el valor establecido en el
cuadro de texto. El valor por defecto es 0,10, pero este valor puede cambiarse
introduciendo un valor distinto. Esta opción es de gran ayuda: al desaparecer de la tabla
238
los coeficientes excesivamente pequeños (en valor absoluto), se facilita notablemente la
interpretación de los resultados.
Ejemplo (Análisis factorial > Opciones)
Este ejemplo muestra cómo utilizar algunas de las opciones disponibles en el
procedimiento. En concreto, muestra cómo ordenar las variables en la matriz de
estructura y cómo suprimir las saturaciones pequeñas.
Se utilizarán las mismas seis variables que se han venido utilizando en los ejemplos anteriores, ejes principales como método de extracción (forzando una solución de 2 factores)
y varimax como método de rotación. Para acceder a las opciones del procedimiento:
En el cuadro de diálogo Análisis factorial: Opciones (ver Figura 20.15), seleccionar
las opciones Ordenar por tamaño y Suprimir valores absolutos menores que 0,10
del recuadro Formato de visualización de los coeficientes.
Aceptando estas selecciones, el Visor de resultados ofrece (además de las comunalidades,
porcentajes de varianza explicada, etc.), la matriz de la estructura factorial rotada que
muestra la Tabla 20.35.
Las opciones seleccionadas sólo tienen efecto sobre las matrices de configuración y de estructura. Lo primero que puede observarse en la Tabla 20.36 es que se han suprimido las saturaciones menores que 0,01 (en valor absoluto). Dado que las saturaciones muy pequeñas suden carecer
de valor interpretativo, suprimirlas de la tabla facilita que la atención pueda centrarse en las
saturaciones más relevantes. Esta opción cumple únicamente el propósito de ayudar a interpretar
la solución factorial; por tanto, no es aconsejable utilizarla si se tiene intención de publicar los
resultados.
.La Tabla 20.36 también muestra las variables ordenadas por el tamaño de sus saturaciones.
Primero se encuentran las variables que más saturan en el primer factor (empezando por las saturaciones más altas); después, las que más saturan en el segundo factor. De nuevo se trata de
una opción que facilita la lectura de los resultados y cuya única función es la de facilitar la interpretación de la matriz de saturaciones.
Bibliografía: Cap 20 de Guía para el análisis de datos SPSS 11.0. Antonio Pardo. Mc Graw Hill
239
Descargar