Regresión lineal - Aprende en línea

Anuncio
REGRESION Y CORRELACION.
Regresión
La regresión estadística o regresión a la media es la tendencia de una medición extrema a
presentarse más cercana a la media en una segunda medición. La regresión se utiliza para
predecir una medida basándonos en el conocimiento de otra.
Modelos de regresión
Regresión lineal
la regresión lineal o ajuste lineal es un método matemático que modeliza la relación entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo
puede ser expresado como:
donde β0 es la intersección o término "constante", las
son los parámetros
respectivos a cada variable independiente, y p es el número de parámetros independientes a
tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no
lineal.
El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o
cualquier transformación de éstas, que generan un hiperplano de parámetros βk desconocidos:
Donde
es la perturbación aleatoria que recoge todos aquellos factores de la realidad no
controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carácter estocástico. En el caso más sencillo de dos variables explicativas, el
hiperplano es una recta:
El problema de la regresión consiste en elegir unos valores determinados para los parámetros
desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se
necesita un conjunto de observaciones. En una observación cualquiera i-ésima (i= 1,... I) se
registra el comportamiento simultáneo de la variable dependiente y las variables explicativas
(las perturbaciones aleatorias se suponen no observables).
Los valores escogidos como estimadores de los parámetros,
, son los coeficientes de
regresión, sin que se pueda garantizar que coinciden con parámetros reales del proceso
generador. Por tanto, en
Los valores
son por su parte estimaciones de la perturbación aleatoria o errores.
Supuestos del modelo de regresión lineal
Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los
siguientes supuestos.
La relación entre las variables es lineal.
Los errores son independientes.
Los errores tienen varianza constante.
Los errores tienen una esperanza matemática igual a cero.
El error total es la suma de todos los errores.
Tipos de modelos de regresión lineal
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Regresión lineal simple
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son de
la forma:
Donde
es el error asociado a la medición del valor Xi y siguen los supuestos de modo que
(media cero, varianza constante e igual a un σ y
con
).
Análisis
Dado el modelo de regresión simple, si se calcula la esperanza (valor esperado) del valor Y, se
obtiene:
Calculando
y
. Para esto se buscan dichos parámetros que minimicen
Derivando respecto a
y
e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente
solución para ambos parámetros:
La interpretación del parámetro beta 2 es que un incremento en Xi de una unidad, Yi
incrementará en beta 2
Regresión lineal múltiple
Maneja varias variables independientes. Cuenta con varios parámetros. Se expresan de la
forma:
Donde
es el error asociado a la medición i del valor Xip y siguen los supuestos de modo que
(media cero, varianza constante e igual a un σ y
con
).
Rectas de regresión
Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también
llamado diagrama de dispersión) generada por una distribución binomial. Matemáticamente,
son posibles dos rectas de máximo ajuste:

La recta de regresión de Y sobre X:

La recta de regresión de X sobre Y:
La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el
ajuste será bueno; si r es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de
regresión se intersectan en un punto llamado centro de gravedad de la distribución.

Regresión lineal simple
Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una
función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = a + Bx
a (ordenada en el origen, constante)
b (pendiente de la recta)
A la cantidad e=Y-Ŷ se le denomina residuo o error residual.
Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0,5X
Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm por
cada cm del padre.
Correlación
La correlación indica la fuerza y la dirección de una relación lineal entre dos variables
aleatorias. Se considera que dos variables cuantitativas están correlacionadas cuando los
valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la
otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen
también los de B y viceversa. La correlación entre dos variables no implica, por sí misma,
ninguna relación de causalidad
Fuerza, sentido y forma de la correlación
La relación entre dos súper variables cuantitativas queda representada mediante la línea de
mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales
de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:
La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos:
si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la
relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es
débil.
El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo
hacen los de B, la relación es positiva; si al crecer los valores de A disminuyen los de B, la
relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea rectal, la curva
monotónica o la curva no monotónica.
Coeficientes de correlación
Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de
los datos. El más conocido es el coeficiente de correlación de Pearson que se obtiene
dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. Otros
coeficientes son:
Coeficiente de correlación de Spearman
Correlación canónica
Interpretación geométrica
Ambas series de valores
e
pueden estar consideradas
como vectores en un espacio a n dimensiones. Reemplacémoslos por vectores centrados:
e
.
El coseno del ángulo alfa entre estos vectores es dada por la fórmula siguiente:
Pues cos (α) es el coeficiente de correlación de Pearson.
¡El coeficiente de correlación es el coseno entre ambos vectores centrados!
Si r = 1, el ángulo α = 0°, ambos vectores son colineales (paralelos).
Si r = 0, el ángulo α = 90°, ambos vectores son ortogonales.
Si r =-1, el ángulo α = 180°, ambos vectores son colineales de dirección opuesto.
Más generalmente: α = arcCos(r).
Por supuesto, del punto vista geométrica, no hablamos de correlación lineal: el coeficiente de
correlación tiene siempre un sentido, cualquiera que sea su valor entre -1 y 1. Nos informa de
modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su
distancia angular en la hyperesfera a n dimensiones.
La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en
esta idea.
La coorrelacion lineal se da cuando en una nube de puntos estos se encuentran o se
distribuyen alrededor de una recta.
Descargar