Tema 2 Análisis de regresión lineal

Anuncio
Tema 2 Análisis de regresión lineal
2.1. Los problemas de la causalidad en Ciencias sociales
2.2. El modelo de la regresión lineal múltiple
2.3 Supuestos del modelo de regresión
2.4 SPSS (regresión múltiple)
Análisis de regresión lineal
2.1. Los problemas de la causalidad en Ciencias sociales
Por el momento no existe técnica que sea capaz de probar los enunciados causales empíricamente.
Lo que se puede hacer es comprobar si las inferencias causales que formula un investigador son
consistentes con los datos disponibles.
Definiremos modelo como conjunto de relaciones que se usan para representar de forma sencilla una
porción de la realidad empírica.
Cuando un investigador elabora un modelo y posteriormente se comprueba que el modelo no se ajusta
a los datos, se pueden tomar dos decisiones: modificar el modelo o abandonarlo. Pero si el modelo es
consistente con los datos, esto nunca prueba los efectos causales. La consistencia entre los datos y el
modelo no implica la consistencia entre el modelo y la realidad. Lo único que se puede afirmar es que
los supuestos del investigador no son contradictorios y por lo tanto pueden ser válidos. Pero el "ser
válidos", no quiere decir que sean la única explicación del fenómeno objeto de estudio, ya que es
posible que otros modelos también se adapten a los mismos datos.
Asociación no implica causalidad: Que exista una fuerte asociación entre dos variables no es
suficiente para sacar conclusiones sobre las relaciones causa - efecto.
Ejemplo: existe fuerte correlación entre el número de bomberos que actúan en un incendio y la
importancia del daño ocasionado por el mismo.
2.2. El modelo de la regresión lineal múltiple
El objetivo del análisis de la regresión lineal es analizar un modelo que pretende explicar el
comportamiento de una variable (Variable endógena, explicada o dependiente), que denotaremos por
Y, utilizando la información proporcionada por los valores tomados por un conjunto de variables
(explicativas, exógenas o independientes), que denotaremos por X1 , X2 , ....., X n
Las variables del modelo de regresión deben ser cuantitativas. Pero dada la robustez1 de la regresión
es frecuente encontrar incluidas en el modelo como variables independientes a variables ordinales e
incluso nominales transformadas en variables ficticias. Pero la variable dependiente debe ser
cuantitativa. Para una variable dependiente binaria de emplea la regresión logística.
El modelo lineal viene dado por la ecuación lineal:
Y = b0 + b1 X1 + b2 X2 + ... b k X k + u
Los coeficientes (parámetros) b1 , b2 , ... , b k denotan la magnitud del efecto de las variables
explicativas (exógenas o independientes), esto es, representan los pesos de la regresión o de la
combinación lineal de las predictoras X1 , X2 , ... X k sobre la variable explicada (endógena o
dependiente) Y. El coeficiente b0 se denomina término constante (o independiente) del modelo. Y al
término u se le llama término de error del modelo o componente de Y no explicada por las variables
predictoras.
Si disponemos de T observaciones para cada variable, el modelo de expresa así:
Y t = b0 + b1 X1 t + b2 X2 t + ... b k X k t + u t
1
t = 1, 2 , 3 ,.... T
Un estadístico se dice que es robusto cuando sigue siendo válido a pesar de que uno o mas de sus supuestos
no se cumplan.
El problema fundamental que se aborda es el siguiente: suponiendo que la relación entre la variable Y
y el conjunto de variables X1 , X2 , ... X k es como se ha descrito en el modelo, y que se dispone de
un conjunto de T observaciones para cada una de las variables ¿cómo pueden asignarse valores
numéricos a los parámetros b0 , b1 , b2 , ... b k basándonos en la información muestral?.
Estos valores son la estimación de los parámetros llamados coeficientes de regresión. Representan
las unidades de cambio en la variable dependiente por unidad de cambio en la variable independiente
correspondiente. En el caso de que sólo haya una variable dependiente se llega a la ecuación de una
recta donde b0 es la ordenada en el origen y b1 la pendiente de la recta. Una vez encontradas las
estimaciones de los parámetros del modelo, podremos hacer predicciones sobre el comportamiento de
la variable Y en la población.
El análisis de regresión sirve tanto para EXPLORAR datos como para CONFIRMAR teorías.
Si el análisis de regresión se realiza con variables tipificadas los coeficientes b, pasan a denominarse
β (coeficientes de regresión estandarizados) β i =
b i ( Desv. Típica Xi /Desv. Típica Y )
Al coeficiente de correlación R elevado al cuadrado se le llama coeficiente de determinación y es una
medida de la bondad del ajuste del modelo ya que da la proporción de variación de Y explicada por el
modelo.
Se suele emplear R2 ajustado, que es una corrección de R2 para ajustar mejor el modelo a la
población objeto de estudio.
2.3 Supuestos del modelo de regresión
El modelo lineal se formula bajo los siguientes supuestos:
• Tamaño adecuado de la muestra: se recomienda n= 20 x nº de variables predictoras.
• Las variables X1 , X2 , ... X
vienen de la muestra tomada.
k
son deterministas (no son variables aleatorias) ya que sus valores
• Se supone que todas las variables X relevantes para la explicación de Y están incluidas en la
definición del modelo lineal.
• Las variables X1 , X2 , ... X k son linealmente independientes (no se puede poner a una de ellas
como combinación lineal de las otras). Esta es la hipótesis de independencia y cuando no se cumple
se dice que el modelo presenta multicolinealidad. O sea: Ninguna v. Independiente da un R2 = 1 con
las otras v.i.
• Linealidad de las relaciones: la v. Independiente presenta relación lineal con cada una de las
dependientes. Se comprueba con los gráficos de regresión parcial. Su incumplimiento se arregla
mediante transformaciones de los datos
• Los residuos siguen una distribución Normal N(0, σ 2) , no están correlacionados con ninguna de la
variables independientes, ni están autocorrelacionados. Hay homocedasticidad : la varianza del error
es constante para los distintos valores de las variables independientes.
El primer objetivo es el de obtener estimaciones, es decir, valores numéricos de los coeficientes b0 ,
b1 , b2 , ... b k (coeficientes de regresión parcial) en función de la información muestral. Las
estimaciones de los parámetros se suelen hacer por el método de los mínimos cuadrados que consiste
en minimizar la suma de los cuadrados de los residuos, también llamada suma residual
Análisis de la varianza: Introduciremos los siguientes conceptos
Suma total (ST) es la varianza muestral de la variable dependiente y es por lo tanto una medida del
tamaño de las fluctuaciones experimentadas por dicha variable alrededor de su valor medio.
Suma explicada (SE) es la fluctuación de estimador de la variable Y ( Ŷt ) alrededor de la media de Y .
Por tanto, la suma explicada es el nivel de fluctuación de la variable Yt que el modelo es capaz de
explicar.
Suma residual (SR) es un indicador del nivel de error del modelo.
Suma total = Suma explicada + Suma residual
También se define el coeficiente de determinación R2 como una medida descriptiva del ajuste
global del modelo cuyo valor es el cociente entre la suma explicada y la suma total. (da la proporción
de varianza explicada por el modelo) R2 = V. Explicada / V. Total
Se define el coeficiente de correlación múltiple R como la raíz cuadrada del coeficiente de
determinación y mide la correlación entre la variable dependiente y las independientes.
El Coeficiente de correlación parcial entre X i e Y mide la correlación entre estas variables cuando
se han eliminado los efectos lineales de las otras variables en X i e Y.
Coeficiente de correlación semiparcial entre X i e Y es la correlación entre estas variables cuando
se han eliminado los efectos lineales de las otras variables en Y.
• La variable u (término de error o residuo) es una variable aleatoria con media nula y matriz de
covarianzas constante y diagonal. O sea para todo t , la variable u t tiene una media igual a cero y una
varianza no dependiente de t ( hipótesis de homocedasticidad) y además
Cov ( ui , uj )= 0, pata todo i distinto de j (hipótesis de no autocorrelación) y tampoco están
correlacionados con las variables independientes.
2.4 SPSS (regresión múltiple)
Lo fundamental de la regresión consiste en encontrar una función lineal de las variables
independientes que permita predecir la variable dependiente
Y = b0 + b1 X1 + b2 X2 + ... b k X k + u
Con el fichero de datos del CIS que estamos usando, ya en sesiones anteriores hemos definido un
conjunto de variables relacionadas con el problema de la INMIGRACIÓN. Y de ese conjunto
usaremos las variables que cumplan los supuestos de la regresión (solo variables cuantitativas y si
son cualitativas definir las variables ficticias correspondientes (dummy)).
Siguiendo la idea del Libro de Mª Angeles Cea (Análisis multivariable. Ed. Síntesis) vamos a tomar
como variable dependiente "simpatía hacia los norteafricanos (p401)" y trataremos de ajustar un
modelo de regresión con variables independientes como: "simpatía latinoamericano(p410)" "casar con
marroquí (p506)", "vecino marroquí (p706)" "sexo , p32" "p33 edad" P29 izquierda-derecha, etc. etc.
Para las primeras pruebas se recomienda no usar muchas variables, para que los ficheros de
resultados no resulten demasiado grandes.
Analizar -> Regresión -> lineal
Llevar al rectángulo correspondiente la variable dependiente y las independientes del modelo.
En Método: Hay cuatro posibles: introducir, pasos sucesivos, eliminar, hacia atrás, hacia delante (leer
la explicación en la ayuda del SPSS). Si estamos en fase exploratoria y no tenemos una idea del
modelo justificada por alguna teoría que queramos comprobar, se recomienda usar el método de hacia
delante. Con él, el SPSS introducirá como primera v. Independiente la que satisfaga los criterios de
entrada y que presente mayor correlación con la v. dependiente, luego introducirá en el modelo otra v.
Independiente que será la siguiente en cuanto a mayor magnitud de la correlación con la v.
Independiente y así sucesivamente.
En opciones elegir el tratamiento que queramos dar a los casos perdidos (Se recomienda
encarecidamente repasar lo explicado en clases teóricas así como leer las ayudas del SPSS, que se
obtienen llevando el cursor al elemento que no entendemos y pulsando el botón derecho del ratón)
En estadísticos señalar aquellos que queramos conocer.
Guardar permite archivar como nuevas variables los resultados de los cálculos que se han ido
haciendo en el proceso de la regresión.
En los resultados de la matriz de correlaciones obtenemos para cada pareja de variables el coeficiente
de correlación de Pearson, su significación y el tamaño de la muestra con el que se ha calculado ese
coeficiente. Son tres tablas que aparecen una a continuación de la otra.
Los números de la segunda tabla son los p-valores asociados al estadístico R. Para poder contrastar
si el estadístico coeficiente de correlación es estadísticamente significativo. La Hipótesis nula es que
R=0, Si se obtiene un valor inferior a una significación prefijada (por ejemplo 0,05) indica que hay que
rechazar la Hipótesis nula de inexistencia de correlación y concluir que el R obtenido es
estadísticamente significativo.
Notar que la matriz de correlaciones es simétrica
Luego aparece una tabla con las variables que han ido entrando en el modelo. Y a continuación otra
tabla con información de los coeficientes R y R2 para cada modelo.
Otra tabla con los cambios en R2 y en F por la que podemos saber la proporción de varianza que
explica cada uno de los modelos. También aparece en esta tabla el estadístico de Durbin Watson que
ya se mencionó. Si es próximo a dos los residuos no están autocorrelacionados.
También obtenemos un análisis de la varianza en el que vemos los valores de la suma de cuadrados
total, explicado por la regresión y residual (repasar la teoría)
La tabla COEFICIENTES nos da la información para escribir las ecuaciones lineales de los modelos
de regresión, (con una v. Independiente, con dos, con tres, etc.).
A continuación tenemos una tabla con los coeficientes de correlación de orden cero, parcial y
semiparcial así como los estadísticos de colinealidad.
Por último aparece un estudio de las variables que se han excluido del modelo.
También da una tabla de diagnósticos por caso que nos informa de los casos que el modelo predice
peor (residuo tipificado mayor que 3) y que tal vez habría que estudiar en la matriz de datos.
Aparece una tabla de los estadísticos sobre los residuos.
Tolerancia
Estadístico utilizado para determinar la cuantía en que están relacionadas las variables independientes
unas con otras (para ver si son multicolineales). La tolerancia de una variable es la proporción de su
varianza no explicada por las otras variables independientes de la ecuación. Una variable con una
tolerancia muy baja contribuye con poca información a un modelo (es colineal), y puede causar
problemas de cálculo. Se calcula como 1 menos la R cuadrado para una variable independiente
cuando es pronosticada por las otras variables independientes ya incluidas en el análisis.
Gráficos incluidos en el procedimiento de la regresión.
Los gráficos pueden ayudar a validar los supuestos de normalidad, linealidad e igualdad de las
varianzas. También son útiles para detectar valores atípicos, observaciones poco usuales y casos de
influencia. Tras guardarlos como nuevas variables, dispondrá en el Editor de datos de los valores
pronosticados, los residuos y otros valores diagnósticos, con los cuales podrá poder crear gráficos
respecto a las variables independientes. Se encuentran disponibles los siguientes gráficos:
Diagramas de dispersión. Puede representar cualquier combinación por parejas de la lista siguiente:
la variable dependiente, los valores pronosticados tipificados, los residuos tipificados, los residuos
eliminados, los valores pronosticados corregidos, los residuos estudentizados o los residuos
eliminados estudentizados. Represente los residuos tipificados frente a los valores pronosticados
tipificados para contrastar la linealidad y la igualdad de las varianzas.
Generar todos los gráficos parciales. Muestra los diagramas de dispersión de los residuos de cada
variable independiente y los residuos de la variable dependiente cuando se regresan ambas variables
por separado sobre las restantes variables independientes. En la ecuación debe haber al menos dos
variables independientes para que se generen los gráficos parciales.
Gráficos de residuos tipificados. Puede obtener histogramas de los residuos tipificados y gráficos
de probabilidad normal que comparen la distribución de los residuos tipificados con una distribución
normal. Si se solicita cualquier gráfico, se muestran los estadísticos de resumen para los valores
pronosticados tipificados y los residuos tipificados (*ZPRED y *ZRESID).
También se recomienda revisar los gráficos del procedimiento gráficos así como comparar los
resultados en hombres y mujeres de las variables que intervienen en el modelo, e incluso aplicar la
regresión sólo a los hombres o solo a las mujeres, pera ello en datos seleccionar de la muestra antes
de hacer la regresión las submuestras correspondientes.
Estos apuntes se completan con el capítulo 18 del libro SPSS 11, que figura en la Bibliografía.
Descargar