Análisis de datos y Estadística Avanzada Máster Interuniversitario de Astrofísica UCM+UAM Tema 4: Regresión lineal simple Javier Gorgas y Nicolás Cardiel Departamento de Astrofísica y Ciencias de la Atmósfera Facultad de Ciencias Físicas Universidad Complutense de Madrid Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada C 1 urso 2010/2011 1 / 29 C 2 urso 2010/2011 2 / 29 Esquema 1 Introducción Análisis de regresión Tipos de regresión 2 Regresión lineal simple Tratamiento clásico Tratamiento avanzado 6 métodos de ajuste por mínimos cuadrados Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Introducción Análisis de regresión ¿Qué es la regresión? El término regresión fue acuñado por Francis Galton en el siglo XIX para referirse a fenómenos biológicos: los descendientes de progenitores excepcionales son, en promedio, menos excepcionales que los progenitores, y más parecidos a sus ancestros más distantes (Galton utilizó el término reversion al hablar de guisantes en 1877, y regression al referirse a la altura de humanos en 1885). Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Introducción C 3 urso 2010/2011 4 / 29 Análisis de regresión Análisis de regresión El análisis de regresión es un intento de examinar la relación que existe entre una variable dependiente (variable respuesta) y un conjunto de variables independientes (predictores). El modelo matemático que establece dicha relación es la ecuación de regresión. La variable dependiente se modela como una variable aleatoria. La ecuación de regresión contiene una serie de parámetros de regresión (“constantes”) que establecen la relación cuantitativa entre las variables independientes y la dependiente. Estos parámetros se estiman a partir de datos. Los parámetros de un modelo de regresión pueden estimarse de varias maneras, por ejemplo utilizando el método de mínimos cuadrados (OLS, del inglés ordinary least squares) el método de máxima verosimilitud técnicas bayesianas ... Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada C 4 urso 2010/2011 5 / 29 Introducción Tipos de regresión Regresión lineal y no lineal Regresión lineal: la relación entre la respuesta Y (variable dependiente) y las variables independientes Xi es lineal Y = β0 + β1 X 1 + β2 X 2 + . . . + βn X n . En este sentido, una relación del tipo Y = β0 + β1 X + β2 X 2 también es lineal (lineal en X y X 2 ), aunque la representación gráfica no sea una línea recta. Algunos problemas no lineales pueden linealizarse realizando una transformación adecuada. Por ejemplo Y = abX se linealiza tomando logaritmos a ambos lados, es decir ln(Y) = ln(a) + ln(b)X . Regresión no lineal: aquella en la que la relación entre la respuesta y las variables independientes no es una función lineal o linealizable. En este tema vamos a concentrarnos en la regresión lineal simple: Y = α + βX . ¿Simple? ¡En absoluto! Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple C 5 urso 2010/2011 7 / 29 Tratamiento clásico Ejemplo de diagrama de dispersión. Los datos corresponden a las medidas de dispersión de velocidades y luminosidad en una muestra de 40 galaxias elípticas realizadas por Schechter P.L. (1980). Cuando en un diagrama de dispersión los datos se distribuyen aproximadamente a lo largo de una línea reacta ajustaremos una recta de regresión. La regresión de y sobre x vendrá dada entonces por y = a + bx, con a y b dos parámetros a determinar. Gráficamente, a será la ordenada en el origen y b la pendiente de la recta. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada C 6 urso 2010/2011 9 / 29 Regresión lineal simple Tratamiento clásico ¿Cómo se determina la recta de regresión? (Método de mínimos cuadrados) Se minimiza la suma de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: ∗ yi = a + bxi ∗ di = yi − yi M= (≡residuo) N N X X 2 ∗ 2 di = (yi − yi ) i=1 M= i=1 N X 2 (a + bxi − yi ) i=1 8 < : ⇒ ⇒ ∂M ∂a = ∂M ∂b = P P 2(a + bxi − yi ) = 0 2(a + bxi − yi )xi = 0 8 P (a + bxi − yi ) = 0 < : P (axi + bxi2 − xi yi ) = 0 8 P P xi = yi < aN + b : ˛ ˛ N ˛ ∆ = ˛˛ P ˛ xi a P xi + b ˛ P ˛ yi 1 ˛ ˛ a= ˛ ∆ ˛ Px y i i ˛ ˛ N 1 ˛ ˛ b= ˛ P ∆ ˛ xi x= P 2 P xi = xi yi Tema 4: Regresión lineal simple (♣) P xi xi N y = a + bx Análisis de datos y Estadística Avanzada Regresión lineal simple y y= P yi N 1 Px y − x y i i b = N1 P 2 2 x i −x N ˛ xi ˛˛ “X ”2 X 2 ˛=N x − xi i ˛ P 2 ˛ xi P ˛ P 2P P P ˛ ˛ xi yi − xi xi yi ˛= P P 2 P 2 ˛˛ 2 N xi − ( xi ) xi ˛ P P P P yi ˛˛ N xi yi − xi yi ˛= P 2 P 2 ˛ P N x − ( x ) ˛ i xi yi i P y a = y − bx Curso 7 2010/2011 10 / 29 Tratamiento clásico Covarianza y coeficientes de regresión Las expresiones para los parámetros de la recta de regresión se pueden simplificar más introduciendo una importante definición. Se define la covarianza de una muestra bidimensional a PN 2 i=1 (xi − x)(yi − y) Cov ≡ sxy = (1) N−1 Desarrollando esta expresión se puede llegar a una fórmula simplificada para calcularla P P (xi − x)(yi − y) (xi yi − xyi − xi y + x y) 2 sxy = = = N−1 N−1 P P P xi yi − x yi − y xi + Nx y = = N−1 P P xi yi − xNy − yNx + Nx y xi yi − Nx y = = . N−1 N−1 De la misma forma se puede desarrollar la expresión para la varianza de x e y P P 2 P 2 P P 2 P 2 (xi − x)2 (xi − 2xi x + x2 ) xi − 2x xi + Nx2 xi − 2Nx2 + Nx2 xi − Nx2 2 sx = = = = = . N−1 N−1 N−1 N−1 N−1 P P 2 P 2 P P 2 P 2 (yi − y)2 (yi − 2yi y + y2 ) yi − 2y yi + Ny2 yi − 2Ny2 + Ny2 yi − Ny2 2 sy = = = = = . N−1 N−1 N−1 N−1 N−1 Usando estas definiciones, podemos reescribir la expresión para la determinación de la pendiente de la recta de regresión y = a + bx como s2xy Cov byx = = , s2x s2x donde escribimos byx para subrayar que es la recta de regresión de y sobre x. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 8 2010/2011 11 / 29 Regresión lineal simple Tratamiento clásico ¿Regresión de y sobre x o de x sobre y? De igual manera se puede obtener la recta de regresión de x sobre y (x = a + by), minimizando en este caso las distancias horizontales (xi∗ − xi ) a la recta. El resultado es que el coeficiente de regresión de x sobre y (denotado por bxy ) y la recta resultante se pueden escribir Cov bxy = s2y Nótese que ambas rectas de regresión no coinciden en general y que ambas se cortan en el punto (x, y). y−y= Cov s2x (x − x) x−x= ; Cov s2y (y − y) Ambos coeficientes de regresión tienen el mismo signo (el signo de la covarianza, ya que las varianzas siempre son positivas). Esto implica que las dos rectas de regresión serán a la vez ascendentes o descendentes. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 9 2010/2011 12 / 29 Tratamiento clásico Coeficiente de correlación lineal La correlación estudia el grado de asociación o dependencia entre las dos variables. Estudiar la correlación significa analizar hasta qué punto es significativa la dependencia de una variable con la otra. Aunque la covarianza nos informa del grado (y signo) de la correlación, su utilización está limitada por el hecho de que depende de las unidades de medida en que se trabaje. Para construir una medida adimensional hay que dividir la covarianza por un término con sus mismas dimensiones. De esta manera se define el coeficiente de correlación lineal s2xy r= sx sy = Cov sx sy . Es fácil mostrar que el coeficiente de correlación se relaciona con los coeficientes de regresión mediante byx = r y, de hecho, sy sx y bxy = r sx sy v u q u Cov Cov r= =t = byx bxy . sx sy s2x s2y Cov No es difícil demostrar que P ∗ (y − y)2 VE Variaci« on explicada r = P i = = . (yi − y)2 VT Variaci« on total 2 donde r2 se define como el coeficiente de determinación. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 10 2010/2011 13 / 29 Regresión lineal simple Tratamiento clásico Varianza residual Un concepto relacionado con el coeficiente de correlación es el de varianza residual, la cual permite estimar la variación de los datos originales respecto a la recta de regresión que se ha ajustado, Pn Pn ∗ 2 2 2 i=1 (yi − yi ) i=1 (yi − a − bxi ) sr = = . n−2 n−2 La relación entre la varianza residual y el coeficiente de determinación es 2 sr = n−1 2 2 sy (1 − r ). n−2 Interpretación del coeficiente de correlación 1 r = 0. En este caso, por las relaciones vistas en el apartado anterior, es claro que se cumple r=0 ⇒ Cov = 0 byx = bxy = 0 ; ; 2 2 sr � sy . Es decir, en este caso, al ser la covarianza nula no existirá correlación. Además las pendientes de la rectas de regresión de y sobre x y de x sobre y serán nulas, es decir sus orientaciones serán horizontal y vertical respectivamente. Por otra parte, al ser la varianza residual aproximadamente igual a la varianza de y, la dispersión de la variable y no se verá reducida al ajustar la recta de regresión. 2 r = 1. Es claro que en este caso se cumple que la varianza residual es nula (s2r = 0), por lo que no habrá dispersión de los puntos respecto a la recta y todos se situaran sobre ella. En este caso tendremos una dependencia funcional entre ambas variables y una correlación positiva, o directa, perfecta. Además las dos rectas de regresión (de y sobre x y de x sobre y) coincidirán. 3 r = −1. Al igual que en el caso anterior todos los puntos se situarán sobre la recta y la correlación será negativa, o inversa, perfecta. 4 0 < r < 1. En este caso, la correlación será positiva pero no perfecta. Evidentemente la correlación (y la covarianza) será mejor cuanto más se acerque r a 1. 5 −1 < r < 0. De la misma manera tendremos una correlación negativa tanto mejor cuanto más próximo esté r a −1. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 11 2010/2011 14 / 29 Tratamiento clásico Inferencia sobre la regresión lineal clásica Hemos partido de la hipótesis básica Y = α + βX Pero nosotros contamos con unas “observaciones” que tan solo nos proporcionan la ecuación de regresión lineal ajustada o de la muestra ∗ yi = a + bxi por lo que a es una estimación de α y b es una estimación de β. Diferentes muestras nos proporcionará distintas estimaciones de los parámetros α y β. En la aproximación clásica (ver apuntes de primero) se muestra que, bajo la hipótesis de que los errores en las medidas no dependen del valor de la variable independiente x, las incertidumbres asociadas a los coeficientes de la regresión son ! PN 2 1 x2 2 2 2 i=1 xi σa = σ + =σ P 2 N (N − 1)s2x N N i=1 (xi − x) (suma de dos términos: error en la ordenada media y el incremento del error al alejarnos del origen x = 0) 2 σb = σ2 (N − 1)s2x (inversamente proporcional al rango en x y proporcional al error intrínseco de las medidas; lógicamente disminuye con N) σ 2 es la varianza de Y, cuyo estimador insesgado viene dado por la varianza residual PN 2 2 i=1 (yi − a − bxi ) sr = N−2 Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 12 2010/2011 15 / 29 Regresión lineal simple Tratamiento clásico Debilidades de la regresión lineal Tanto la recta de regresión como el coeficiente de correlación no son robustos, en el sentido de que resultan muy afectados por medidas particulares que se alejen mucho de la tendencia general. No hay que olvidar que el coeficiente de correlación no es más que una medida resumen. En ningún caso puede substituir al diagrama de dispersión, que siempre habrá que construir para extraer más información. Formas muy diferentes de la nube de puntos pueden conducir al mismo coeficiente de correlación. El que en un caso se obtenga un coeficiente de correlación bajo no significa que no pueda existir correlación entre las variables. De lo único que nos informa es de que la correlación no es lineal (no se ajusta a una recta), pero es posible que pueda existir una buena correlación de otro tipo. Un coeficiente de correlación alto no significa que exista una dependencia directa entre las variables. Es decir, no se puede extraer una conclusión de causa y efecto basándose únicamente en el coeficiente de correlación. En general hay que tener en cuenta que puede existir una tercera variable escondida que puede producir una correlación que, en muchos casos, puede no tener sentido. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 13 2010/2011 16 / 29 Tratamiento clásico Recta de regresión cuando hay incertidumbres (Método de mínimos cuadrados) Si además de los datos (xi , yi ) se tiene una estimación de las incertidumbres en yi , que llamaremos σi , se puede realizar un proceso similar, minimizando ahora la suma pesada de los cuadrados de las distancias entre los valores yi y los valores dados por la recta: ∗ yi = a + bxi ∗ di = yi − yi M= N X di2 σi2 i=1 M= 8 > > < > > : ∂M ∂a = ∂M ∂b = ⇒ ⇒ = N 2 X (y∗ i − yi ) σi2 i=1 « N „ X a + bxi − yi 2 σi i=1 P h “ a+bxi −yi ” “ 1 ”i 2 =0 σ σ i i P h “ a+bxi −yi ” “ xi ”i 2 =0 σ σ i i 8 P (a + bxi − yi )/σi2 = 0 < : P (axi + bxi2 − xi yi )/σi2 = 0 8 P P P 1/σi2 + b xi /σi2 = yi /σi2 < a : a P xi /σi2 + b P 2 2 P xi /σi = xi yi /σi2 Tema 4: Regresión lineal simple (♣) ˛ P ˛ 1/σi2 ˛ ∆ = ˛˛ ˛ P x /σ 2 i i ˛ P ˛ yi /σi2 1 ˛ ˛ a= ˛ ∆ ˛ P x y /σ 2 i i i ˛ P ˛ 1/σi2 1 ˛ ˛ b= ˛ ∆ ˛ P x /σ 2 i i ˛ ˛ X 1 X xi2 ˛ ˛= − P 2 2 ˛˛ σi2 σi2 xi /σi P xi /σi2 X xi σi2 !2 P xi P xi yi P xi2 P yi ˛ − ˛ ˛ σi2 σi2 σi2 σi2 ˛= P 2 2 ˛˛ ∆ x /σ P xi /σi2 i i P xi P yi P 1 P xi yi ˛ − ˛ ˛ σi2 σi2 σi2 σi2 ˛= ˛ P ∆ xi yi /σi2 ˛ P yi /σi2 Análisis de datos y Estadística Avanzada Curso 14 2010/2011 17 / 29 Regresión lineal simple Tratamiento clásico ¿Incertidumbre en la predicción? No es posible hacer una estimación inmediata de la incertidumbre en y = a + bx sin tener en cuenta las covarianzas (a y b se determinan a partir de los mismos datos, por lo que están correlacionados). Sin embargo, considerando que y0 = a(xi , yi , σi ) + b(xi , yi , σi )x0 , a la hora de estimar incertidumbres en la predicción podemos considerar que y0 = f (yi ), por lo que !2 N X ∂y 2 2 (∆y0 ) = σj , ∂y j j=1 donde ∂y ∂yj = xi2 i=1 σ 2 i PN ! siendo 1 σj2 − ∆ PN xi i=1 σ 2 i ! xj σj2 + PN 1 i=1 σ 2 i ! xj σj2 − ∆ PN xi i=1 σ 2 i ! 1 σj2 x0 , 0 12 N X xi A . ∆= −@ σi2 i=1 σi2 σi2 i=1 i=1 N N X 1 X xi2 Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 15 2010/2011 18 / 29 Tratamiento avanzado La importancia de las incertidumbres El método de regresión lineal clásico es una aproximación demasiado simplista. En la práctica uno tiene que enfrentarse inevitablemente con incertidumbres en las medidas y con la posibilidad de que la hipótesis básica Y = α + βX se vea afectada por factores adicionales. Conviene distinguir diferentes situaciones: 1 Problemas en los que la dispersión de los datos dominan sobre cualquier incertidumbre de medida (¡la dispersión es real!): ver Isobe et al. (1990), y Babu y Feigelson (1992). 2 Problemas en los que dominan las incertidumbres en las medidas: ver Feigelson y Babu (1992; tratan ajustes pesados, y modelos de regresión truncados —faltan datos por encima/debajo de unos límites— y con datos censurados —cotas—). 3 Problemas en los que importan tanto las incertidumbres en las medidas como la dispersión intrínseca: ver Akritas y Bershady (1996; incluyen un método que permite tratar errores en ambas variables y que dicho error esté correlacionado). En este tema vamos a revisar únicamente el primer caso. Consultar las referencias para las otras dos situaciones. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 16 2010/2011 20 / 29 Regresión lineal simple 6 métodos de ajuste por mínimos cuadrados Alternativas cuando la dispersión intrínseca de los datos domina Podemos emplear diferentes métodos cuando lo único que conocemos son (xi , yi ) (asumimos que la dispersión intrínseca domina sobre las incertidumbres de las medidas). Ver descripción detallada en Isobe et al. (1990) y Babu y Feigelson (1992). Tratamiento asimétrico de X e Y OLS(Y|X): método clásico en el que se minimiza la distancia en Y (caso a en la figura). OLS(X|Y): similar al anterior, pero se minimiza la distancia en X (caso b en la figura). Tratamiento simétrico de X e Y OLS-bisector: ajuste que bisecciona OLS(Y|X) y OLS(X|Y). Orthogonal regression: minimiza la distancia perpendicular a la recta (caso c en la figura). Reduced major axis: minimiza la suma de las distancias en X e Y (caso d en la figura). OLS-mean: media de OLS(Y|X) y OLS(X|Y). Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Tema 4: Regresión lineal simple (♣) Curso 17 2010/2011 22 / 29 6 métodos de ajuste por mínimos cuadrados Análisis de datos y Estadística Avanzada Curso 18 2010/2011 23 / 29 Regresión lineal simple Tema 4: Regresión lineal simple (♣) 6 métodos de ajuste por mínimos cuadrados Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 19 2010/2011 24 / 29 6 métodos de ajuste por mínimos cuadrados Guía para el astrónomo (I) Los diferentes métodos proporcionan coeficientes de regresión que son, desde un punto de vista teórico, distintos, por lo que no proporcionan estimaciones diferentes de una misma cantidad. Salvo que tengamos un conocimiento a priori sobre los datos (e.g. no existen residuos en la dirección X) o la pregunta científica a responder (e.g. predicción de Y a partir de medidas de X), en cuyo caso puede ser preferible emplear OLS(Y|X), en general no hay una base matemática para preferir un método frente a otro. Las incertidumbres en OLS(Y|X) que proporcionan las estimaciones clásicas (Bevington 1969) no son realmente correctas (requieren demasiadas restricciones que normalmente no se dan: e.g. residuos en Y independientes de X). Mejor las fórmulas derivadas en Isobe et al. (1990). Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 20 2010/2011 25 / 29 Regresión lineal simple 6 métodos de ajuste por mínimos cuadrados Babu y Feigelson (1992) Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 21 2010/2011 26 / 29 6 métodos de ajuste por mínimos cuadrados Guía para el astrónomo (II) Las simulaciones de Monte Carlo (ver Babu y Feigelson 1990) muestran El método estándar OLS(Y|X) funciona muy bien y debería favorecerse cuando hay una clara distinción entre las variables dependiente e independiente. A la hora de tratar de forma simétrica las variables, el OLS-bisector y el reduced major axis tienen menores varianzas que la orthogonal regression y que el OLS-mean. Un problema con el reduced major axis es que la pendiente que se determina no depende de la correlación de la población (es invariante de escala) ⇒ el OLS-bisector parece la mejor alternativa. Las fórmulas para estimar las incertidumbres en los 6 métodos descritos funcionan bien cuando N es grande. Para N ≤ 50 las estimaciones no convergen adecuadamente. ¿Solución? Jackknife o bootstrap. Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 22 2010/2011 27 / 29 Regresión lineal simple 6 métodos de ajuste por mínimos cuadrados Jackknife1 Este método consiste en generar, a partir de muestras de N elementos, N submuestras de N − 1 elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo en la segunda muestras, y así sucesivamente. Bootstrap2 Es una generalización del método anterior, en el cual se generan muestras secundarias de N elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero permitiendo repetir valores. De esta forma, una fracción aleatoria de los valores iniciales aparecerán duplicados (∼ 1/e � 37%). ⇒ Estos métodos no dan información a partir de la nada. Nos dan información que desconocíamos previamente (ver Press et al. 2002). 1 Podemos traducirlo como pequeña navaja o navaja de bolsillo. 2 El nombre se debe a la aparente capacidad del método de conseguir algo aparentemente imposible (sacar de donde no hay). En Las increíbles aventuras del Barón Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasión el Barón logró escapar de una muerte segura al salir volando tirando de los cordones de sus propias botas (en inglés “[. . . ] he thought to pull himself up by his own bootstraps”). Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Regresión lineal simple Curso 23 2010/2011 28 / 29 6 métodos de ajuste por mínimos cuadrados Referencias (orden cronológico) Bevington P.R., Data reduction and error analysis for the physical sciences, 1969, McGraw-Hill Isobe T. et al., Linear regression in Astronomy. I., 1990, ApJ, 364, 104 Babu G.J., Feigelson E.D., Analytical and Monte Carlo comparisons of six different linear squares fits, 1992, Comm. Statit. Comput. Simul., 21(2), 533 Feigelson E.D., Babu G.J., Linear regression in Astronomy. II, ApJ, 397, 55 Arkitas M.G., Bershady M.A., Linear regression for astronomical data with measurement errors and intrinsic scatter, 1996, ApJ, 470, 706 Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press Tema 4: Regresión lineal simple (♣) Análisis de datos y Estadística Avanzada Curso 24 2010/2011 29 / 29