Correlación El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r) El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre dos variables y el sentido de su relación (positivo o negativo). Sus valores oscilan desde -1 hasta 1. La hipótesis nula señala que r=0. •Correlación lineal directa: el valor de r se aproxima a +1, es decir, valores mayores de X se vinculan con valores mayores de Y. •Correlación lineal inversa: el valor de r se aproxima a -1, es decir, valores mayores de una variable se asocian con valores menores en la otra variable. 1 Correlación 2 Conviene tener en cuenta dos cuestiones: 1. a través de los resultados de un coeficiente de correlación no se puede hablar de relaciones de causalidad. 2. un coeficiente de correlación de Pearson igual a cero indica que no hay ningún tipo de relación lineal entre las variables pero quizás podría haber relación no lineal. Se puede realizar un contraste de hipótesis para comprobar si la correlación entre las variables va más allá del azar (con t de Student y n-2 grados de libertad). rxy n2 t 2 1 rxy 3 Regresión El análisis de regresión se utiliza principalmente para modelar relaciones entre variables y para realizar pronósticos o predicciones de respuestas a partir de variables explicativas El modelo de regresión predice el valor de una variable dependiente (variable respuesta Y, predicha o explicada, variable criterio) basándose en el valor de al menos una variable independiente (variable explicativa X o variable predictora). Se utiliza cuando la variable respuesta (dependiente) es de tipo numérico o cuantitativa. Cuando la respuesta es de tipo dicotómico se utiliza el modelo de regresión logística. Las variables explicativas (independientes) pueden ser numéricas y no numéricas (nominales tipo dicotómico como variables dummy 1 0). 4 Con la regresión lineal es posible modelar la relación entre las variables predictoras y predicha, de manera que se puede determinar una expresión matemática que permita predecir la variable dependiente a partir de la o las variables independientes. La regresión lineal estima los coeficientes de la ecuación lineal que predice mejor el valor de la variable dependiente. 5 Requisitos para poder aplicar el modelo de regresión: 1. Linealidad. Relación lineal entre las variables 2. Normalidad y equidistribución de los residuos. Si el valor de Durbin Watson está próximo a 2 entonces los residuos no están autocorrelacionados. 3. Colinealidad. Si dos variables independientes están muy relacionadas entre sí y se incluyen en el modelo es muy probable que ninguna de las dos resulte estadísticamente significativa. En cambio, si se incluye una sola de ellas sí podría resultar estadísticamente significativa. El investigador debe examinar los coeficientes para ver si se vuelven inestables al introducir una nueva variable. Si eso sucede entonces existe colinealidad entre la nueva variable y las anteriores. 6 Número de variables independientes. Como regla general al menos tienen que existir 20 observaciones por cada variable independiente que se considere a priori como teóricamente relevante. Si utilizamos menos observaciones por variable es muy probable que aumente el error de Tipo II, es decir, disminuya la potencia estadística del diseño de investigación. 7 Ecuación de regresión poblacional: Y=b0+b1Xi Variables Dependiente Respuesta Variable predicha Constante poblacional Pendiente poblacional Variables Independiente Explicativa Variable predictora Ecuación de regresión en términos de la muestra: Y=b0+b1Xi Estimación de la constante Estimación de la pendiente 8 Coeficientes de la ecuación de regresión: -El coeficiente b0, conocido como la “ordenada en el origen,” o constante indica cuánto es Y cuando X = 0. -El coeficiente b1, conocido como la “pendiente,” nos indica cuánto aumenta Y por cada aumento en X. El valor de la constante coincide con el punto en el que la recta de regresión corta el eje de ordenadas. En la ecuación de predicción se mantiene constante para todos los individuos. Cuando las variables han sido estandarizadas (puntuaciones Z) o si se utilizan los coeficientes Beta, la constante es igual a 0 por lo que no se incluye en la ecuación de predicción. El coeficiente b1 indica el número de unidades que aumentará la variable dependiente o criterio por cada unidad que aumente la variable independiente. 9 Puntuación predicha Y: Y predicha =b0+b1Xi La diferencia entre la Y obtenida y la Y predicha por la ecuación es el término de error de la ecuación. Si rXY = 1: los valores predichos de Y a partir de X según el modelo de regresión coincidirán exactamente con los valores observados en Y, no cometiéndose ningún error de predicción. 10 La puntuación en Y es igual a: Y=b0+b1Xi+ei Estimación de la constante residuo Estimación de la pendiente El error es la diferencia entre la Y y la Y predicha por la ecuación de regresión. Gráficamente, el residual correspondiente a cualquier punto del diagrama de dispersión viene representado por su distancia vertical a la recta de regresión. 11 Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. La línea obtenida es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles. 12 Rectas se podrían representar muchas. El análisis de regresión por mínimos cuadrado estima la recta de regresión que minimiza los cuadrados de los errores. Sin embargo, aún así podría suceder que la recta no tenga suficiente capacidad para explicar el fenómeno que se está estudiando. Se debe comprobar la bondad de ajuste en 13 términos de su valor predictivo. Bondad de ajuste del modelo ¿Qué proporción representa la Suma de Cuadrados explicada por la regresión respecto a la suma de cuadrados total? 14 Bondad de ajuste del modelo Mide la proporción de la variación de Y que es explicada por la variable independiente X en el modelo de regresión 15 ERROR TÍPICO DE LA ESTIMACIÓN Es un concepto semejante al de la desviación típica (mide la dispersión alrededor de la media) y mide la dispersión de los datos alrededor de la recta de regresión. Cuando aumenta R disminuye el error. 16 El coeficiente de determinación (R2) indica la proporción del ajuste que se ha conseguido con el modelo lineal. Es decir, multiplicado por 100 señala el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado con las variables X (independientes). A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y. El coeficiente de determinación (R2) también se puede interpretar como la proporción de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1. Cuanto más se acerque a 1mayor es la proporción de varianza explicada. A medida que se introducen más variables independientes mayor será el valor de R2. Para evitar este posible sesgo, es mejor interpretar ‘R2 corregida’ ya que su valor disminuye cuando se introducen variables independientes innecesarias. 17 El coeficiente de determinación (R2) es el coeficiente de correlación al cuadrado. Es decir, representa el valor del tamaño del efecto y se corresponde con eta cuadrado (h2) del ANOVA. R2 indica la proporción de las variaciones explicadas por el modelo de regresión. Se trata de la varianza explicada por las variables explicativas o predictorasdel modelo lineal. 1-R2 indica la proporción de las variaciones no explicadas por el modelo de regresión. Se trata de la varianza no explicada por las variables explicativas o predictoras, es decir, se atribuye al error. 18 Una vez calculada la recta de regresión y el ajuste que se ha conseguido el siguiente paso es analizar si la regresión es válida y se puede utilizar para predecir. Para ello hay que contrastar si la correlación entre las variables predictoras y predicha es diferente de cero. Es decir, se trata de comprobar si la estimación del modelo es estadísticamente significativa de manera que las variables explicativas X son relevantes para explicar la variable predicha Y. La prueba consiste en contrastar si la pendiente de la recta de regresión poblacional es diferente de cero de forma estadísticamente significativa (hipótesis nula plantea que la pendiente es cero). Si es así entonces se puede esperar que exista una correlación lineal entre las variables. 19 Regresión: Residual: El modelo de regresión es estadísticamente significativo: la variabilidad observada en el modelo no está provocada por azar. Existe algún tipo de asociación entre la variable dependientes y las independientes Total: SCR+SCE= Coeficientes del modelo Ecuación o recta de regresión Y= -2.402+0.077ValoTotal+1.906Sexo+(-1.607)Grupo 20 Regresión: Residual: Grados de libertad: -Regresión: número de pendientes que se estima. Una por cada variable independiente (p=3) -Error=N-p-1: 30-3-1=26 -Total= N-1: 30-1=29 Total: SCR+SCE= Coeficientes del modelo Ecuación o recta de regresión Y= -2.402+0.077ValoTotal+1.906Sexo+(-1.607)Grupo 21 Situación de análisis ‘ideal’: Tener variables independientes altamente correlacionadas con la variable dependiente pero con poca correlación entre sí. Cuando se tiene colinealidad o multicolinealidad (correlación entre tres o más variables independientes) entonces las variables están correlacionadas entre sí y se reduce el poder predictivo de las variables independientes tomadas individualmente. En otras palabras, cuanto mayor la colinealidad menor es la varianza explicada por cada variable independiente Existe colinealidad cuando: •Valor de tolerancia (TOL) próximo a cero •Factor de Inflación de la Varianza (FIV) superiores a 4. 22 Si el valor de la tolerancia de una de las variables independientes es próximo a 0 se puede pensar que ésta es una combinación lineal del resto de variables. Sin embargo, si el valor de T se aproxima a 1, la variable en cuestión puede reducir parte de la varianza no explicada por el resto de variables. Por lo tanto, se excluyen del modelo las variables que presentan una tolerancia muy pequeña. 23 El criterio para obtener los coeficientes de regresión B0, B1 es el de mínimos cuadrados. Consiste en minimizar la suma de los cuadrados de los residuos de tal manera que la recta de regresión que se define es la que más se acerca ala nube de puntos observados y, en consecuencia, la que mejor los representa. 24