Murillo

Anuncio
5
Correlaciones y
Análisis de
Regresión
𝑟𝑥𝑦
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
=
𝑛𝑠𝑥 𝑦𝑥
5. Correlaciones y Análisis de Regresión
5. Correlaciones y Análisis de Regresión
En el tema 1 estudiamos y estimamos el índice de correlación de Pearson con Excel. Si
recordáis, con este índice se estimaba la relación entre dos variables cuantitativas (de intervalo
o de razón). En este tema 5 profundizaremos en el conocimiento de este índice, así como
otros, y abordaremos una poderosa estrategia de análisis basada en la correlación: el Análisis
de Regresión.
5.1. Correlación Lineal Bivariada
El índice de correlación es una estimación del grado en el que dos variables varían
conjuntamente. Esta correlación (o relación) puede ser lineal, curvilínea, logística... En
investigación educativa, la gran mayoría de las correlaciones que se trabajan son lineales, por
lo que nos centraremos en estas. Si la correlación se da entre dos variables se denomina
correlación simple o bivariada.
Dentro de las correlaciones lineales bivariadas tenemos diferentes índices o coeficientes,
dependiendo del tipo de variables que tengamos. Los más habituales y que nos ofrece el SPSS
en el cuadro "Correlaciones bivariadas" son:
 Coeficiente de correlación de Pearson
 Rho de Spearman
 Tau-b de Kendall
El Coeficiente de Correlación de Pearson es el más utilizado para estudiar el grado de relación
lineal entre dos variables cuantitativas (de intervalo o de razón) y se obtiene mediante la
siguiente fórmula:
𝑟𝑥𝑦 =
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑛𝑠𝑥 𝑦𝑥
Como vimos en el tema 1, este coeficiente toma valores entre -1 y 1, con dos informaciones: el
sentido (positivo si es una relación directa y negativo si es inversa) y la intensidad (de 0 no
relación o independencia a 1 relación máxima o perfecta).
FIGURA 5.1. GRÁFICOS DE DISPERSIÓN CON TRES CORRELACIONES DIFERENTES
Correlación alta e inversa
Correlación alta y directa
Correlación nula (independencia)
1500,0
1000,0
500,0
0,0
0,000
F.J. Murillo y C. Martínez-Garrido
50,000 100,000
Página 66
5. Correlaciones y Análisis de Regresión
e.5.1. ¿Hay relación en las calificaciones en Lengua y en Matemáticas?,
e.5.2. ¿El Nivel Socio-económico de los estudiantes está relacionado con el Rendimiento en
Matemáticas?
En el tema 1 lo vimos para unos pocos datos y con Excel. El SPSS no sólo nos da una estimación
de ese índice, sino que nos dice si esa relación es estadísticamente significativa. Es decir si lo
encontrado para la muestra puede ser extrapolable a la población.
De esta forma, la hipótesis que está validando es:
Ho: ρxy=0
H1: ρxy≠0
Como se señaló en el tema 3, los estadísticos (referidos a la población) se denotan con una
letra griega, en este caso “ρ”, mientras que los parámetros (referidos a la muestra) lo hacen
con letras latinas (r).
Vamos con los ejercicios propuestos. Se trata, en definitiva, de estimar el coeficiente de
correlación de Pearson entre Rendimiento y Matemáticas y Rendimiento en Lengua y entre
Rendimiento en Matemáticas y Nivel Socio-económico de las familias. Y, a continuación, saber
si esa correlación es estadísticamente significativa.
Elije en los menús: Analizar -> Correlaciones -> Bivariadas
FIGURA 5.2. CUADRO DE DIÁLOGO CORRELACIONES BIVARIADAS
F.J. Murillo y C. Martínez-Garrido
Página 67
5. Correlaciones y Análisis de Regresión
1. Selecciona las tres variables que vamos a estudiar (Rdto_Matemáticas,
Rdto_Lengua y N_SocEc) e introdúcelas en "Variables".
2. Acepta, las opciones por defecto son las que nos interesan.
Lo que en realidad le hemos pedido es que nos calcule las correlaciones variadas de "todas con
todas", es decir la matriz de correlaciones donde nos aparecen las dos pedidas y una tercera
más.
TABLA 5.1. RESULTADOS DE LAS CORRELACIONES BIVARIADAS
Rendimiento en
Matemáticas
Rendimiento en Matemáticas
Correlación de Pearson
1
Sig. (bilateral)
Rendimiento en Lengua
,680**
,329**
,000
,000
N
6598
6598
6598
Correlación de Pearson
,680**
1
,338**
Sig. (bilateral)
Nivel socio-económico de la
familia
Nivel socioeconómico de la
familia
Rendimiento en
Lengua
,000
,000
N
6598
6598
6598
Correlación de Pearson
,329**
,338**
1
Sig. (bilateral)
,000
,000
N
6598
6598
6598
**. La correlación es significativa al nivel 0,01 (bilateral).
F.J. Murillo y C. Martínez-Garrido
Página 68
5. Correlaciones y Análisis de Regresión
Como resultado, nos aparece la llamada "matriz de correlaciones", es decir todas las
correlaciones posibles entre las tres variables (tabla 5.1). Como puede observarse es una
matriz simétrica con unos en la diagonal. La información que contiene cada celda es:
1. Correlación Pearson: El coeficiente de correlación entre las dos variables que
aparecen en el encabezamiento de fila y de columna.
2. Sig: El nivel crítico (la significación) que indica la probabilidad de aceptar la Hipótesis
nula, es decir que la correlación sea 0.
3. N: El número de estudiantes utilizado para hacer cada análisis.
Como ya es habitual, comparamos el nivel crítico con nuestro nivel de confianza (α). Así:
 Si Sig > α: aceptamos la Hipótesis Nula, luego no hay relación entre ambas variables.
 Si Sig < α: rechazamos, la Hipótesis Nula, luego aceptamos la Alterna. Ello implica que
la correlación es significativa (estadísticamente diferente de 0).
En este caso, las tres correlaciones son estadísticamente significativas.
Como hemos señalado, el índice de correlación de Pearson exige que las variables sean
cuantitativas, pero también que se distribuyan normalmente. Si no se cumplen alguna de las
dos condiciones, o las dos, tenemos dos alternativas:


Tau-b de Kendall. Estima la relación entre dos variables ordinales. Se interpreta igual
que el índice de Pearson.
Rho de Sperman, es igual que el coeficiente de correlación de Pearson, pero tras
transformar las puntuaciones originales en rangos.
En ambos casos, el procedimiento de cálculo, las tablas de resultado y su interpretación son
exactamente igual que en el caso del Coeficiente de Correlación de Pearson.
5.2. Correlación parcial
Con la Correlación parcial es posible analizar la correlación lineal entre dos variables
controlando el efecto de otra u otras extrañas. Los coeficientes de Correlación Parcial, por
tanto, estiman el grado de relación lineal entre dos variables tras quitar el efecto de una
tercera, cuarta o quinta variable.
e.5.3. ¿El Clima de aula influye en el Rendimiento en Matemáticas de los estudiantes?
e.5.4. Y si restamos el efecto del Nivel Socio-económico de las familias, ¿sigue influyendo?
El procedimiento es sencillo:
Analizar -> Correlaciones -> Parciales
F.J. Murillo y C. Martínez-Garrido
Página 69
5. Correlaciones y Análisis de Regresión
Se seleccionan las variables a correlacionar en "Variables" (Rend_Matematicas y Clima_aula), y
la variable a controlar en "Controlado para" (N_SocEc). El resultado es aparentemente igual
que el de la Correlación Lineal Bivariada, pero ya está descartada la influencia de la variable
controlada.
En este caso, si estimamos la Correlación Bivariada entre Clima de aula y Rendimiento en
Matemáticas, encontramos que la correlación es de la correlación es de 0,140
(estadísticamente significativo); y controlando por Nivel Socioeconómico de 0,100 (también
estadísticamente significativo). Es decir, el clima de aula incide en el rendimiento, incluso
controlando el efecto de nivel socio-económico.
5.3. Análisis de Regresión Simple
El análisis de regresión es una técnica que estudia la relación entre variables cuantitativas. Su
uso más habitual es la predicción (aunque, como luego veremos, tiene más utilidades), de tal
forma que a través del análisis de regresión es posible predecir una o varias variables a partir
del conocimiento de otra u otras relacionadas. La variables predictoras (o explicativas) son las
independientes y las pronosticadas (o explicadas) son las dependientes.
La situación más sencilla se da cuando sólo hay una variable independiente y otra
dependiente: entonces se llama Análisis de Regresión Simple; si son varias independientes es
el Análisis de Regresión Múltiple. Y si, como vimos en el apartado anterior, la relación es lineal,
tenemos una Análisis de regresión lineal (simple o múltiple).
Veamos un poco la lógica del Análisis de Regresión. Si tenemos dos variables cuantitativas
sobre una misma muestra, podemos representarlas gráficamente mediante un gráfico de
dispersión (ver figura 5.3). Si, como vimos en el apartado 5.1, estas variables están
relacionadas, la nube de puntos que se genera tendrá una forma alargada. La recta que mejor
se ajusta a esos puntos, que minimiza las distancias, es la llamada Recta de regresión.
Dicha recta, como cualquier recta en el plano, puede escribirse algebraicamente como:
𝑦 = 𝑎 + 𝑏𝑥
en donde: y es la variable dependiente,
a es el punto de corte con el eje y (o intercepto),
b es la pendiente, y
x es la variable independiente
FIGURA 5.3. RECTA DE REGRESIÓN
F.J. Murillo y C. Martínez-Garrido
Página 70
5. Correlaciones y Análisis de Regresión
De esta forma, si sabemos la ecuación de regresión que determina la relación de una variable
con otra, es posible predecir una variable en función de la otra. Así, si la ecuación es "y=3+2x"
y “x” es 3, “y” tomará el valor de 9.
Como los puntos no se ajustan completamente a la recta, en realidad habrá que considerar ese
elemento como el error. De esta forma, la ecuación de regresión se denota formalmente:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝜀𝑖
Con esta información, podemos hacer un trabajo práctico.
e.5.5. Determina la ecuación de regresión que ayude a predecir el Rendimiento en Matemáticas
de los estudiantes (variable dependiente) a partir de su rendimiento en Lengua.
e.5.6. Si un estudiante ha obtenido 50 puntos en Lengua, ¿qué rendimiento se predice que
tendrá en Matemáticas?
El procedimiento es análogo a lo visto:
Analizar -> Regresión -> Lineal
E incluimos Rendimiento en Matemáticas como variable dependiente, y Rendimiento en
Lengua como independiente (figura 5.4).
FIGURA 5.4. ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
F.J. Murillo y C. Martínez-Garrido
Página 71
5. Correlaciones y Análisis de Regresión
Los resultados aportan la siguiente información (tabla 5.2).
TABLA 5.2. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
Variables introducidas/eliminadasb
Variables
introducidas
Modelo
1
Variables
eliminadas
Rendimiento en
Lenguaa
Método
.
Introducir
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Rendimiento en Matemáticas
Resumen del modelo
Modelo
1
R
R cuadrado
corregida
R cuadrado
,680a
,462
Error típ. de la
estimación
,462
13,376099
a. Variables predictoras: (Constante), Rendimiento en Lengua
ANOVAb
Suma de
cuadrados
Modelo
1
gl
Media cuadrática
Regresión
1013537,328
1
1013537,328
Residual
1180156,464
6596
178,920
Total
2193693,791
6597
F
5664,751
Sig.
,000a
a. Variables predictoras: (Constante), Rendimiento en Lengua
b. Variable dependiente: Rendimiento en Matemáticas
Coeficientesa
F.J. Murillo y C. Martínez-Garrido
Página 72
5. Correlaciones y Análisis de Regresión
Coeficientes
tipificados
Coeficientes no estandarizados
Modelo
1
B
Error típ.
Beta
(Constante)
,583
,706
Rendimiento en Lengua
,769
,010
t
,680
Sig.
,825
,409
75,265
,000
a. Variable dependiente: Rendimiento en Matemáticas
Nos aparecen cuatro tablas:
1. La tabla Variables introducidas/eliminadas nos muestra las variables del modelo y el
método de incorporación de variables (que luego veremos)
2. La tabla Resumen del modelo aporta información de la bondad de ajuste, es decir, el
coeficiente de correlación múltiple y su cuadrado. En este caso como son sólo dos
variables es el coeficiente de correlación de Pearson que conocemos. La información
interesante es la R2, que es una estimación la proporción de varianza de la variable
dependiente explicada por la variable dependiente. Cuanta más alta sea esta cifra
mejor podremos predecir una variable en función de la otra. En nuestro caso 0,462; es
decir el 46,2% de las diferencias de las calificaciones en Matemáticas pueden ser
explicadas por les diferencias en Lengua.
3. La tabla ANOVA, nos aporta información sobre si existe o no relación significativa entre
la variable independiente y la dependiente. Como siempre, la información clave nos la
aporta el nivel crítico (Sig). Si es menor que nuestro α, concluimos que hay relación
significativa (diferente de 0) y por lo tanto que le ecuación de regresión tiene sentido.
4. La tabla Coeficientes nos aporta información sobre los coeficientes de la recta de
regresión. En dos formas:

Coeficientes no estandarizados, donde el coeficiente de la constante es el
intercepto o punto de corte y el coeficiente de la variable es la pendiente.

Coeficientes estandarizados, que son los obtenidos cuando la ecuación de
regresión se obtiene tras convertir las variables de origen en típicas. EN ese caso la
constante (o intercepto) es cero.
También se aporta información acerca de si los coeficientes de las variables hacen una
aportación significativa al modelo.
Es decir, con esta información, la ecuación de regresión solicitada es:
Ren_Mat = 0,583 + 0,769·Ren_Leng
De tal forma que un estudiante que obtenga 50 puntos en Lengua obtendrá 39,04 puntos en
Matemáticas.
Aunque hemos señalado que uno de los usos del Análisis de Regresión es la predicción, hay
más utilidades:
F.J. Murillo y C. Martínez-Garrido
Página 73
5. Correlaciones y Análisis de Regresión
1. Descripción: Permite describir la relación entre la variable dependiente y la o las
variables predictoras.
2. Control: Posibilita controlar el comportamiento o variación de la variable de respuesta
de acuerdo a los valores que asumen las variables predictoras.
3. Identificación: Para determinar qué factores inciden en una variables dependiente de
forma conjunta.
e.5.5. Determina la ecuación de regresión que describa la relación entre Rendimiento en
Matemáticas de los estudiantes a partir del nivel Socio-económico de sus familias, ¿qué
porcentaje de varianza explica la variable dependiente?
Más adelante veremos los supuestos que exige el uso del análisis de regresión.
5.4. Análisis de Regresión Múltiple
Una sola variable independiente hace una pobre predicción de la variable independiente, por
lo que lo habitual es utilizar varias de ellas, es esta forma tenemos el Análisis de Regresión
Múltiple.
La esencia es la misma, la única diferencia es que la ecuación de regresión no es de una recta,
sino de un hiperplano en un espacio de múltiples dimensiones. Matemáticamente se expresa
así:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝛽3 𝑥3𝑖 + ⋯ + 𝛽𝑛 𝑥𝑛𝑖 + 𝜀𝑖
Donde cada β es la pendiente de cada variable x.
Veámoslo con un ejemplo.
e.5.5. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes.
Figura 5.5. Análisis de regresión lineal múltiple
F.J. Murillo y C. Martínez-Garrido
Página 74
5. Correlaciones y Análisis de Regresión
Los resultados son análogos al análisis de regresión simple (tabla 5.3).
TABLA 5.3. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
Coeficientes
tipificados
Coeficientes no estandarizados
Modelo
1
B
(Constante)
Error típ.
Beta
50,555
,658
Nivel socio-económico de la
familia
5,623
,205
Actitud hacia las matemáticas
(en z)
3,809
Satisfacción del estudiante hacia
el centro
Género del estudiante
t
Sig.
76,795
,000
,308
27,405
,000
,210
,209
18,161
,000
1,796
,211
,098
8,524
,000
1,140
,412
,031
2,769
,006
a. Variable dependiente: Rendimiento en Matemáticas
La R2 o varianza explicada por el modelo es de 0,171, es decir estas tres variables explican el
17% de la variabilidad del Rendimiento en Matemáticas del estudiante.
La tabla Coeficientes indica, en primer término, que todos los coeficientes hacen una
aportación significativa (todos tiene un nivel crítico menor que nuestro α=0,05). También el
valor de esos coeficientes. Así, la ecuación de regresión pedida es:
Rend_Mat = 50,55 + 5,62·Niv_SEc + 3,8·Act_Mat + 1,79·Sac_Cen_Est + 1,14·Genero
Hemos incluido en el modelo la variable "Género" que obviamente no es cuantitativa sino
nominal dicotómica. Ello es posible, la única precaución es que tiene que estar codificada
como 0-1. De esta forma, toma el nombre de variable dummy y puede ser introducida en el
modelo.
F.J. Murillo y C. Martínez-Garrido
Página 75
5. Correlaciones y Análisis de Regresión
Veamos cómo se interpreta esta ecuación de regresión. Con este ejemplo, los datos indican:

Un estudiante "medio" obtiene 50,55 puntos de rendimiento en Matemáticas (medio y
varón, como luego se verá),

por cada unidad de Nivel Socio-económico aumente o disminuya, aumentará o
disminuirá 5,62puntos su rendimiento (como está tipificada esa unidad es la deviación
típica),

por cada unidad de Actitud hacia las matemáticas aumente o disminuya, aumentará o
disminuirá 3,8 puntos su rendimiento,

por cada unidad de "Satisfacción hacia la escuela" aumente o disminuya, aumentará o
disminuirá 1,79puntos su rendimiento (como está tipificada esa unidad es la deviación
típica), y

si el estudiante es mujer (por que la variable está codificada 0 niño y 1 niña) su
puntuación aumentará 1,14 puntos.
Una precaución: si en un modelo de regresión algún coeficiente sale no significativo no es
suficiente dejarlo así, es preciso quitarlo del modelo y volver a estimar el nuevo modelo.
Métodos de selección de variables
El SPSS permite utilizar diferentes métodos para seleccionar qué variable independientes
incluir en el modelo de regresión y en qué orden. Por defecto, utiliza el método Introducir,
pero hay más (figura 5.6).
FIGURA 5.6. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE CON LAS DIFERENTES ALTERNATIVAS DE MÉTODOS DE
SELECCIÓN DE VARIABLES
Son los siguientes:
F.J. Murillo y C. Martínez-Garrido
Página 76
5. Correlaciones y Análisis de Regresión
 Introducir. Conforma la ecuación utilizando todas las variables independientes y en el
orden en que se le ha indicado. Es el método utilizado por defecto.
 Pasos sucesivos. El SPSS selecciona qué variables formarán parte del modelo y en
qué orden. Así, selecciona en primer lugar la variable que más correlaciona con la
variable independiente y elabora el modelo 1. Con la varianza que queda por
explicar, selecciona la variable que más explica y la introduce en la ecuación
formando el modelo 2, y así sucesivamente hasta que ninguna variable hace una
aportación significativa. Es el procedimiento más cómodo y por ello el más popular.
 Eliminar: Elimina en un solo paso todas las variables independientes y ofrece los
coeficientes que se obtendrían en el caso de que se utilizaran independientemente.
 Atrás (eliminación hacia atrás). Por el mismo, se introducen todas las variables en la
ecuación y después se van excluyendo una tras otra. Aquella variable que tenga la
menor correlación parcial con la variable dependiente será la primera en ser
considerada para su exclusión. Si satisface el criterio de eliminación, será eliminada.
Tras haber excluido la primera variable, se pondrá a prueba aquella variable, de las
que queden en la ecuación, que presente una correlación parcial más pequeña. El
procedimiento termina cuando ya no quedan en la ecuación variables que satisfagan
el criterio de exclusión.
 Adelante (selección hacia adelante). Las variables independientes son introducidas
secuencialmente en el modelo. La primera variable que se considerará para ser
introducida en la ecuación será aquélla que tenga mayor correlación, positiva o
negativa, con la variable dependiente. Dicha variable será introducida en la ecuación
sólo si satisface el criterio de entrada. Si ha entrado la primera variable, se
considerará como próxima candidata la variable independiente que no esté en la
ecuación y cuya correlación parcial sea la mayor. Cuando no queden variables que
satisfagan este criterio el procedimiento termina.
e.5.6. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes, con el método Pasos
Sucesivos.
Supuestos del Análisis de Regresión Lineal
Esta técnica estadística, como todas, exige el cumplimiento de una serie de supuestos sin cuyo
cumplimiento los resultados pueden verse seriamente alterados. Aunque este texto no
pretende ser un libro de estadística, se señalarán por su importancia:
 Linealidad. Si la relación entre las variables no es una línea (un hiperplano) el
resultado puede ser erróneo: puede señalar no relación cuando la hay. La forma de
estudiarlo es mediante un gráfico de dispersión.
F.J. Murillo y C. Martínez-Garrido
Página 77
5. Correlaciones y Análisis de Regresión
 Independencia: Los residuos1 (es decir, la diferencia entre el valor esperado y el
pronosticado) deben ser independientes entre sí. Es decir, los residuos son una
variable aleatoria. Se verifica mediante el estadístico Durbin-Watson (recuadro de
diálogo Regresión ->Lineal-> Estadísticos)
 Normalidad. Los residuos de cada variable independiente se distribuyen como una
curva normal con media 0. Hay varios procedimientos, pero uno de ellos es estimar la
prueba de Kolmogorov-Smirnov (ya vista) para los residuos. Una comprobación visual
nos la ofrece este mismo menú: Regresión -> Lineal -> Gráficos.
 Homocedasticidad. La varianza de los residuos de las variables independientes (o de
la combinación de ellos) es constante. Se obtiene representando los valores
pronosticados (ZPRED) y los residuos (ZRESID): si no hay ninguna pauta es que son
homocedásticos.
 No-colinealidad. No existencia de una relación lineal entre ninguna ni las variables
independientes. Se estudia mediante la opción "Diagnóstico de colinealidad" en
Regresión -> Lineal -> Estadísticos.
5.6. Ejercicios
e.5.7. ¿Los alumnos más contentos con la escuela obtiene mejor rendimiento en Lengua? ¿Y si
contralamos el efecto del nivel socio-económico de las familias?
e.5.8. ¿Cuál es la variable que más varianza del rendimiento en Lengua de los estudiantes
explica? ¿Cuánto es?
e.5.9. Con las variables de la base de datos de trabajo, elabora el modelo de regresión lineal que
más varianza del rendimiento en Matemáticas de los estudiantes explique (sin incluir los
otros rendimientos).
e.5.10. Elabora el modelo "lógico" que explique la autoestima de los estudiantes con los datos
que se poseen.
e.5.11. Elabora el mejor modelo de regresión que explique Rendimiento en Ciencia Naturales
con tres variables independientes y verifica el cumplimiento de los supuestos.
1
Los residuos (o residuales) se pueden guardar mediante el cuadro de diálogo Regresión -> Lineal ->
Guardar
F.J. Murillo y C. Martínez-Garrido
Página 78
Descargar