variable independiente

Anuncio
Correlación
El coeficiente de correlación mide la fuerza o el
grado de asociación entre dos variables (r)
El coeficiente de correlación lineal de Pearson (r) permite medir
el grado de asociación entre dos variables y el sentido de su
relación (positivo o negativo).
Sus valores oscilan desde -1 hasta 1.
La hipótesis nula señala que r=0.
•Correlación lineal directa: el valor de r se aproxima a +1, es decir,
valores mayores de X se vinculan con valores mayores de Y.
•Correlación lineal inversa: el valor de r se aproxima a -1, es decir,
valores mayores de una variable se asocian con valores menores en la
otra variable.
1
Correlación
2
Conviene tener en cuenta dos cuestiones:
1. a través de los resultados de un coeficiente de
correlación no se puede hablar de relaciones de
causalidad.
2. un coeficiente de correlación de Pearson igual a cero
indica que no hay ningún tipo de relación lineal entre las
variables pero quizás podría haber relación no lineal.
Se puede realizar un contraste de hipótesis
para comprobar si la correlación entre las
variables va más allá del azar (con t de Student
y n-2 grados de libertad).
rxy n2
t
2
1 rxy
3
Regresión
El análisis de regresión se utiliza
principalmente para modelar relaciones
entre variables y para realizar pronósticos o
predicciones de respuestas a partir de
variables explicativas
El modelo de regresión predice el valor de una variable dependiente
(variable respuesta Y, predicha o explicada, variable criterio)
basándose en el valor de al menos una variable independiente
(variable explicativa X o variable predictora).
Se utiliza cuando la variable respuesta (dependiente) es de tipo numérico o
cuantitativa. Cuando la respuesta es de tipo dicotómico se utiliza el modelo de
regresión logística.
Las variables explicativas (independientes) pueden ser numéricas y no numéricas
(nominales tipo dicotómico como variables dummy 1 0).
4
Con la regresión lineal es posible modelar la
relación entre las variables predictoras y
predicha, de manera que se puede determinar
una expresión matemática que permita predecir
la variable dependiente a partir de la o las
variables independientes.
La regresión lineal estima los coeficientes de la
ecuación lineal que predice mejor el valor de la
variable dependiente.
5
Requisitos para poder aplicar el modelo de regresión:
1. Linealidad. Relación lineal entre las variables
2. Normalidad y equidistribución de los residuos. Si el
valor de Durbin Watson está próximo a 2 entonces los
residuos no están autocorrelacionados.
3. Colinealidad. Si dos variables independientes están
muy relacionadas entre sí y se incluyen en el modelo es
muy probable que ninguna de las dos resulte
estadísticamente significativa. En cambio, si se incluye una
sola de ellas sí podría resultar estadísticamente
significativa. El investigador debe examinar los
coeficientes para ver si se vuelven inestables al introducir
una nueva variable. Si eso sucede entonces existe
colinealidad entre la nueva variable y las anteriores.
6
Número de variables independientes. Como regla general
al menos tienen que existir 20 observaciones por cada
variable independiente que se considere a priori como
teóricamente
relevante.
Si
utilizamos
menos
observaciones por variable es muy probable que aumente
el error de Tipo II, es decir, disminuya la potencia
estadística del diseño de investigación.
7
Ecuación de regresión poblacional:
Y=b0+b1Xi
Variables Dependiente
Respuesta
Variable predicha
Constante
poblacional
Pendiente
poblacional
Variables Independiente
Explicativa
Variable predictora
Ecuación de regresión en términos de la muestra:
Y=b0+b1Xi
Estimación de la constante
Estimación de la pendiente
8
Coeficientes de la ecuación de regresión:
-El coeficiente b0, conocido como la “ordenada en el origen,”
o constante indica cuánto es Y cuando X = 0.
-El coeficiente b1, conocido como la “pendiente,” nos indica
cuánto aumenta Y por cada aumento en X.
El valor de la constante coincide con el punto en el que la recta de
regresión corta el eje de ordenadas. En la ecuación de predicción se
mantiene constante para todos los individuos. Cuando las variables
han sido estandarizadas (puntuaciones Z) o si se utilizan los
coeficientes Beta, la constante es igual a 0 por lo que no se incluye
en la ecuación de predicción.
El coeficiente b1 indica el número de unidades que
aumentará la variable dependiente o criterio por cada
unidad que aumente la variable independiente.
9
Puntuación predicha Y:
Y predicha =b0+b1Xi
La diferencia entre la Y obtenida y la Y predicha
por la ecuación es el término de error de la
ecuación.
Si rXY = 1: los valores predichos de Y a partir de X
según el modelo de regresión coincidirán
exactamente con los valores observados en Y, no
cometiéndose ningún error de predicción.
10
La puntuación en Y es igual a:
Y=b0+b1Xi+ei
Estimación de la constante
residuo
Estimación de la pendiente
El error es la diferencia entre la Y y la Y predicha por la
ecuación de regresión.
Gráficamente, el residual correspondiente a cualquier punto
del diagrama de dispersión viene representado por su
distancia vertical a la recta de regresión.
11
Para el cálculo de la recta de regresión se aplica el
método de mínimos cuadrados entre dos variables.
La línea obtenida es la que hace mínima la suma de los
cuadrados de los residuos, es decir, es aquella recta en la
que las diferencias elevadas al cuadrado entre los valores
calculados por la ecuación de la recta y los valores reales
de la serie, son las menores posibles.
12
Rectas se podrían representar muchas. El análisis de regresión
por mínimos cuadrado estima la recta de regresión que minimiza
los cuadrados de los errores.
Sin embargo, aún así podría suceder que la recta no tenga
suficiente capacidad para explicar el fenómeno que se está
estudiando. Se debe comprobar la bondad de ajuste en
13
términos de su valor predictivo.
Bondad de ajuste del modelo
¿Qué proporción representa la Suma de Cuadrados
explicada por la regresión respecto a la suma de
cuadrados total?
14
Bondad de ajuste del modelo
Mide la proporción de la variación de Y que es
explicada por la variable independiente X en el
modelo de regresión
15
ERROR TÍPICO DE LA ESTIMACIÓN
Es un concepto semejante al de la desviación típica
(mide la dispersión alrededor de la media) y mide la
dispersión de los datos alrededor de la recta de
regresión. Cuando aumenta R disminuye el error.
16
El coeficiente de determinación (R2) indica la proporción del ajuste
que se ha conseguido con el modelo lineal. Es decir, multiplicado
por 100 señala el porcentaje de la variación de Y que se explica a
través del modelo lineal que se ha estimado con las variables X
(independientes). A mayor porcentaje mejor es nuestro modelo
para predecir el comportamiento de la variable Y.
El coeficiente de determinación (R2) también se puede interpretar
como la proporción de varianza explicada por la recta de
regresión y su valor siempre estará entre 0 y 1. Cuanto más se
acerque a 1mayor es la proporción de varianza explicada.
A medida que se introducen más variables independientes mayor
será el valor de R2. Para evitar este posible sesgo, es mejor
interpretar ‘R2 corregida’ ya que su valor disminuye cuando se
introducen variables independientes innecesarias.
17
El coeficiente de determinación (R2) es el coeficiente de
correlación al cuadrado. Es decir, representa el valor del
tamaño del efecto y se corresponde con eta cuadrado
(h2) del ANOVA.
R2 indica la proporción de las variaciones explicadas por el modelo
de regresión. Se trata de la varianza explicada por las variables
explicativas o predictorasdel modelo lineal.
1-R2 indica la proporción de las variaciones no explicadas por el
modelo de regresión. Se trata de la varianza no explicada por las
variables explicativas o predictoras, es decir, se atribuye al error.
18
Una vez calculada la recta de regresión y el ajuste que se ha
conseguido el siguiente paso es analizar si la regresión es válida y se
puede utilizar para predecir.
Para ello hay que contrastar si la correlación entre las variables
predictoras y predicha es diferente de cero. Es decir, se trata de
comprobar si la estimación del modelo es estadísticamente
significativa de manera que las variables explicativas X son
relevantes para explicar la variable predicha Y.
La prueba consiste en contrastar si la pendiente de la recta de
regresión poblacional es diferente de cero de forma
estadísticamente significativa (hipótesis nula plantea que la
pendiente es cero). Si es así entonces se puede esperar que exista
una correlación lineal entre las variables.
19
Regresión:
Residual:
El modelo de regresión es
estadísticamente significativo:
la variabilidad observada en el
modelo no está provocada por azar.
Existe algún tipo de asociación entre
la variable dependientes y las
independientes
Total: SCR+SCE=
Coeficientes del modelo
Ecuación o recta de regresión
Y= -2.402+0.077ValoTotal+1.906Sexo+(-1.607)Grupo
20
Regresión:
Residual:
Grados de libertad:
-Regresión: número de
pendientes que se estima.
Una por cada variable
independiente (p=3)
-Error=N-p-1: 30-3-1=26
-Total= N-1: 30-1=29
Total: SCR+SCE=
Coeficientes del modelo
Ecuación o recta de regresión
Y= -2.402+0.077ValoTotal+1.906Sexo+(-1.607)Grupo
21
Situación de análisis ‘ideal’:
Tener
variables
independientes
altamente
correlacionadas con la variable dependiente pero con
poca correlación entre sí.
Cuando se tiene colinealidad o multicolinealidad (correlación
entre tres o más variables independientes) entonces las variables
están correlacionadas entre sí y se reduce el poder predictivo de las
variables independientes tomadas individualmente.
En otras palabras, cuanto mayor la colinealidad menor es la
varianza explicada por cada variable independiente
Existe colinealidad cuando:
•Valor de tolerancia (TOL) próximo a cero
•Factor de Inflación de la Varianza (FIV) superiores a 4.
22
Si el valor de la tolerancia de una de las variables independientes es
próximo a 0 se puede pensar que ésta es una combinación lineal del
resto de variables.
Sin embargo, si el valor de T se aproxima a 1, la variable en cuestión
puede reducir parte de la varianza no explicada por el resto de
variables.
Por lo tanto, se excluyen del modelo las variables que presentan
una tolerancia muy pequeña.
23
El criterio para obtener los coeficientes de regresión B0,
B1 es el de mínimos cuadrados.
Consiste en minimizar la suma de los cuadrados de los
residuos de tal manera que la recta de regresión que se
define es la que más se acerca ala nube de puntos
observados y, en consecuencia, la que mejor los
representa.
24
Descargar