REGRESION Y CORRELACION. Regresión La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra. Modelos de regresión Regresión lineal la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como: donde β0 es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y p es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal. El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformación de éstas, que generan un hiperplano de parámetros βk desconocidos: Donde es la perturbación aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo de dos variables explicativas, el hiperplano es una recta: El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se registra el comportamiento simultáneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables). Los valores escogidos como estimadores de los parámetros, , son los coeficientes de regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso generador. Por tanto, en Los valores son por su parte estimaciones de la perturbación aleatoria o errores. Supuestos del modelo de regresión lineal Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos. La relación entre las variables es lineal. Los errores son independientes. Los errores tienen varianza constante. Los errores tienen una esperanza matemática igual a cero. El error total es la suma de todos los errores. Tipos de modelos de regresión lineal Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros: Regresión lineal simple Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de la forma: Donde es el error asociado a la medición del valor Xi y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ). Análisis Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: Calculando y . Para esto se buscan dichos parámetros que minimicen Derivando respecto a y e igualando a cero, se obtiene: Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solución para ambos parámetros: La interpretación del parámetro beta 2 es que un incremento en Xi de una unidad, Yi incrementará en beta 2 Regresión lineal múltiple Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la forma: Donde es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que (media cero, varianza constante e igual a un σ y con ). Rectas de regresión Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste: La recta de regresión de Y sobre X: La recta de regresión de X sobre Y: La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno; si r es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de regresión se intersectan en un punto llamado centro de gravedad de la distribución. Regresión lineal simple Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + Bx a (ordenada en el origen, constante) b (pendiente de la recta) A la cantidad e=Y-Ŷ se le denomina residuo o error residual. Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por cada cm del padre. Correlación La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad Fuerza, sentido y forma de la correlación La relación entre dos súper variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma: La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil. El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la relación es negativa. La forma establece el tipo de línea que define el mejor ajuste: la línea rectal, la curva monotónica o la curva no monotónica. Coeficientes de correlación Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros coeficientes son: Coeficiente de correlación de Spearman Correlación canónica Interpretación geométrica Ambas series de valores e pueden estar consideradas como vectores en un espacio a n dimensiones. Reemplacémoslos por vectores centrados: e . El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente: Pues cos (α) es el coeficiente de correlación de Pearson. ¡El coeficiente de correlación es el coseno entre ambos vectores centrados! Si r = 1, el ángulo α = 0°, ambos vectores son colineales (paralelos). Si r = 0, el ángulo α = 90°, ambos vectores son ortogonales. Si r =-1, el ángulo α = 180°, ambos vectores son colineales de dirección opuesto. Más generalmente: α = arcCos(r). Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hyperesfera a n dimensiones. La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea. La coorrelacion lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.