CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN Edgar Acuña Fernández Departamento de Matemáticas Universidad de Puerto Rico Recinto Universitario de Mayagüez Edgar Acuña Analisis de Regresion 1 3.1 “Outliers”, puntos de leverage alto y valores influenciales Una observación (y*,x*1,……..x*p) es considerado un “outlier” si está bastante alejado de la mayoría de los datos sea en la dirección vertical o en la horizontal. Sin embargo, la mayoría de los textos llaman “outlier” a un valor alejado solamente en la dirección vertical y Punto de leverage alto a una observación alejada en la dirección horizontal. Edgar Acuña Analisis de Regresion 2 Valor Influencial Una observación (y*,x*1,……..x*p) es considerado un valor influencial si su presencia afecta tremendamente el comportamiento del modelo. Por ejemplo, en el caso de regresión simple remover un valor influencial podría cambiar dramáticamente el valor de la pendiente. Edgar Acuña Analisis de Regresion 3 Ejemplo de una observación que es “outlier” y punto leverage alto pero que no es influencial. Edgar Acuña Analisis de Regresion 4 Ejemplo de una observación que es punto de leverage alto y que también es influencial. Este punto tendrá un gran efecto sobre el R2 y el cambio drástico en la pendiente. Edgar Acuña Analisis de Regresion 5 3.2 Residuales y detección de “outliers”. • Consideremos el modelo Y=XB+e , donde E(e)=0 y Var(e)=σ2I ) ) ) Luego Y = Xβ,donde β = (X'X) X'Y ) la matriz HAT (sombrero) H de Y = X(X' X))X' Y = HY actúa como una transformación de Y a Y . n ) - En particular yi = ∑ hij y j j =1 h es el elemento de la matríz H que está en la i-ésima fila y j-ésima columna. Así ) ) ) e = Y − Y = Y − HY = (I − H)Y donde e = y − ∑ h y −1 −1 ij n i Edgar Acuña Analisis de Regresion i j =1 ij j 6 3.2.1 Media y Varianza del vector de residuales i ) E (e ) = (I − H) E ( Y ) = 0 ii ) Var (e) = Var[(I − H)Y] = σ 2 (I − H) , I-H es simétrica e idempotente. En particular ) Var (ei ) = σ 2 (1 − hii ) ) ) Cov(ei , e j ) = −hij σ 2 se estima por s2(1-hii). Notar que : a) Tanto los errores ei como los residuales tienen media 0. b) La varianza de los errores es constante, pero la de los residuales no lo es. c) Los errores no están correlacionados, pero los residuales si. Edgar Acuña Analisis de Regresion 7 3.2.2 Residuales Estudentizados internamente • Se define por ri∗ = ) ei σ 1 − hii También son llamados residuales estandarizados. • La covarianza de los residuales estudentizados es igual a ) ) ) ) − hij e Cov ( e e j i,ej ) i = Cov (ri∗ , rj∗ ) = Cov ( , )= 2 σ 1 − hii σ 1 − h jj σ (1 − hii )(1 − h jj ) (1 − hii )(1 − h jj ) Edgar Acuña Analisis de Regresion 8 3.2.4 Residuales estudentizados externamente • Supongamos que la i-ésima observación es eliminada del conjunto de datos y que se ajusta el modelo lineal con las n-1 observaciones restantes. Luego, usando la identidad de Gauss (X'X)−1 xi x'i (X'X)−1 (X'(i) X(i) ) = (X'X) + 1− hii −1 −1 • Se obtienen las siguientes relaciones entre β̂ y ) β (i) y 2 entre s2 y s (i ) −1 ˆβ = βˆ − ( X' X) x i eˆi (i) 1 − hii eˆi2 n − p −1 2 2 s (i ) = s − n− p−2 (n − p − 2)(1 − hii ) Edgar Acuña Analisis de Regresion 9 La identidad de Gauss • Es un caso particular de la Identidad de ShermanMorrison-Woodburry (1950) (A ± uv') −1 A −1 uv' A −1 =A m 1 ± v' A −1 u −1 Donde: A es una matríz cuadrada nosingular n x n, y u y v son dos vectores de dimensión n. En nuestro caso, A=X’X y u = v = xi y X'(i)X(i) = X'X− xi x'i Donde x’i es la i-ésima fila de X Edgar Acuña Analisis de Regresion 10 Varianza del Residual yi -~yi Si ~yi representa el valor estimado de la variable de respuesta para la i-ésima observación ) ~ y i = x'i β (i) yi son independientes, (la i-ésima observación no yi y ~ fue usada en la estimación del modelo ) Var ( yi − ~ yi ) = Var ( yi ) + Var ( ~ yi ) = σ 2 + σ 2 x'i (X' ( i ) X ( i ) ) −1 x i Edgar Acuña Analisis de Regresion 11 Residual Estudentizado Externamente σ2 2 s por (iy) • Estimando considerando que si yi no es un outlier entonces E(yi - ~yi ) = 0 se obtiene ti = yi − ~ yi s (i ) 1 + x'i (X ' ( i ) X ( i ) ) −1 x i ti es llamado un residual estudentizado externamente y tiene n-p-2 grados de libertad. Edgar Acuña Analisis de Regresion 12 Propiedad: • Relación entre el residual usual y el residual usando un modelo eliminando la i-ésima observación êi ~ y i - yi = 1 - hii • Relación entre los distintos tipos de residuales 1/ 2 ) ei ⎛ n− p−2 ⎞ ∗⎜ ⎟ ti = = ri ⎜ n − p − 1 − r *2 ⎟ s(i ) 1 − hii i ⎠ ⎝ Edgar Acuña Analisis de Regresion 13 3.2 Diagnósticos para detectar “outliers” y puntos de leverage alto • Los diagnósticos más básicos son: • Si |hii|>2p/n (algunos usan 3p/n. Aquí p es el número de parámetros) entonces la i-ésima observación es considerado un “punto de leverage alto” y pudiera ser influencial • Si |ti|>2 ( o si |ri|>2) entonces la i-ésima observación es considerada un “outlier” y también puede ser influencial. Edgar Acuña Analisis de Regresion 14 Otros Diagnósticos i) La Distancia Cook (Cook, 1977) Mide el cambio que ocurriría en el vector de coeficientes estimados de regresión si la i-ésima observación fuera omitida. Se calcula por: CDi2 = (βˆ − βˆ (i) )' X' X(βˆ − βˆ (i) ) ps 2 = ) ) ) ) (y − y (i) )' (y − y (i) ) ps 2 = r *i2 hii p (1 − hii ) Un CD > 1 indica que la i-ésima observación es potencialmente influencial. Una observación con CD <0.1 no merece ninguna discusión si CD <.0.5 merece un poco de atención. En particular, una observación con CDi2> F(0.50,p,n-p) es considerado como un valor influencial. 2 i 2 i 2 i Edgar Acuña Analisis de Regresion 15 Otros Diagnósticos ii) DFFITS (Belsley, Kuh, y Welsch, 1980). DFFITS i2 = | DFFITS i |> 2 Un Notar que: p n ) ) ) ) ( y − y (i) )' (y − y (i) ) s(2i ) = ti2 hii (1 − hii ) indica un posible valor influencial. ri2 2 CDi = DFFITS i2 2 pt i Edgar Acuña Analisis de Regresion 16 Otros Diagnósticos iii) DFBETAS (Belsley, Kuh, y Welsch, 1980). Mide la influencia de la i-ésima observación en cada uno de los coeficientes de regresión. Se calcula por β j − β j ,( i ) i=1,..,n, j=0,…,p ( DFBETAS ) = ji s ( i ) c jj Donde cjj es el j-ésimo elemento de la diagonal de (X’X)-1. • Si |DFBETAS|ji > 2n para algun j entonces la i-esima observacion es posiblemente un valor influencial. Edgar Acuña Analisis de Regresion 17 Otros Diagnósticos iv) COVRATIO (Belsley, Kuh, y Welsch, 1980) Mide el efecto en la variabilidad de los coeficientes de regresión al remover la i-ésima observación. COVRATIOi = det[s(2i ) ( X ' (i ) X (i ) ) −1 ] det[s 2 ( X ' X ) −1 ] i =1,…,n. Usando propiedades de determinantes se tiene p ⎛ s2 ⎞ 1 ⎜ (i ) ⎟ (COVRATIO) i = ⎜ ⎟ ⎜ s 2 ⎟ (1 − hii ) ⎝ ⎠ Si (COVRATIO)i >1+3p/n o si (COVRATIO)i<1-3p/n entonces la i-ésima observación tiene un valor influencial grande. Edgar Acuña Analisis de Regresion 18 3.3 Plot de Residuales para detectar casos influenciales • Se usan para estudiar el efecto de añadir una nueva variable predictora en un modelo. • Permiten detectar la presencia de casos influenciales. • Para ver la importancia de la variable predictora xj Consideremos el modelo Y=X-jB-j+βjxj +e Donde X-j es la matriz X sin incluir la columna j Edgar Acuña Analisis de Regresion 19 Residuales Definamos los siguientes residuales i ) eY / X − j = ( I − H − j )Y ii ) eY / x , X − j = ( I − H )Y iii ) ex j / X − j = (I − H − j ) X j Edgar Acuña se han considerado en el modelo todas las predictoras excepto xj están consideradas todas las variables predictoras son los residuales de la regresión de xj versus las otras variables predictoras. Analisis de Regresion 20 Plot de residuales versus la variables predictoras. ) • eY / x , X j −j versus xj Si el modelo es adecuado los puntos se deberían alinear a lo largo de una franja horizontal. Si se observa algún patrón no lineal entonces la variable predictora debería ser transformada. Este plot no sirve para cuantificar la importancia de xj en el modelo. Edgar Acuña Plot de residuales versus las predictora HP de Millaje. Analisis de Regresion 21 Plots de regresión parciales (plot de variable añadida) ) ) eY / X − j versus e x j / X − j Se plotea los residuales de la regresión de y considerando todas las variables predictoras excepto xj versus los residuales de la regresión de xj contra todas las variables predictoras distintas a ella. Edgar Acuña Analisis de Regresion 22 Plots de regresión parciales (plot de variable añadida) Plot de regresión parcial considerando la variable HP asumiendo que el modelo solo contiene a VOL. La variable VOL puede entrar al modelo en forma lineal Edgar Acuña Analisis de Regresion 23 Plot de residuales parciales o de residuales más componente ) eY / x , X + x jβversus x j j −j j Es más efectivo para detectar nolinealidad que el plot de regresión parcial No es muy adecuado para detectar casos influenciales. Plot de residuales parciales aumentados ) ey / X 2 − j ,x j + x j β j + x 2j β jj versus xj Este plot fue propuesto por Mallows (1986) y es el más adecuado para cotejar si la variable xj debe entrar en forma cuadrática al modelo. Edgar Acuña Analisis de Regresion 24 3.4 Plot de residuales para detectar Normalidad • La suposición de la normalidad de los errores es bién importante para el proceso de hacer inferencia en regresión lineal múltiple. • Puede ser cotejado haciendo un plot de normalidad para los errores estudentizados internamente. • El plot de normalidad consiste en un plot de los scores normales (estadísticos de orden normales) versus los residuales estandarizados ordenados. Edgar Acuña Analisis de Regresion 25 Score Normal • El i-ésimo score normal es aproximado en forma bastante precisa por: z (i ) = Φ −1 i − 3/8 ) ( n + 1/ 4 • donde Φ representa la función de distribución acumulada de una normal estándar y n (n>5) es el número de observaciones en la muestra. Edgar Acuña Analisis de Regresion 26 Plot de normalidad acompañado de pruebas noparamétricas para detectar normalidad. 1 0 -2 -1 Sam pleQuantiles 2 3 Normal Q-Q Plot -2 -1 0 1 2 Theoretical Quantiles El “p-value” de la prueba de Kolmogrov-Smirnov es mayor que 0.05 por lo tanto se acepta la hipótesis de que hay normalidad de los residuales. Edgar Acuña Analisis de Regresion 27 3.5 Detectando varianza no constante La suposición de que en el modelo de regresión lineal múltiple, los errores tienen varianza constante es importante para que los estimadores mínimos cuadráticos sean óptimos. • La varianza no constante viene acompañado del hecho que no hay normalidad. • Para detectar si la varianza es constante o no se hace un plot de residuales estudentizados versus los valores ajustados ŷi‘s. Edgar Acuña Analisis de Regresion 28 La varianza de los errores no es constante Este plot muestra que la varianza de los errores no es constante y que varia En forma proporcional a la media de la variable de respuesta Este plot es típico cuando los errores siguen una distribución Poisson o log-normal. Edgar Acuña Analisis de Regresion 29 Remedios cuando la varianza poblacional σ2 no es constante • Usar mínimos cuadrados ponderados donde los pesos que se usan son hallados en base a los datos tomados. • Transformar la variable de respuesta Y usando tranfomación que estabiliza la varianza Edgar Acuña Analisis de Regresion 30 3.6 Errores correlacionados en Regresión • Una de las suposiciones que se hace en regresión lineal es que los errores no se correlacionan entre si • Cov( ei , e j )=E( ei e j)=0 para i ≠ j . Edgar Acuña Analisis de Regresion 31 Autocorrelación • Cuando la variable predictora es tiempo, pudiera ocurrir que E (ei , ei +k ) ≠ 0 para un cierto k en este caso se dice que los errores tiene una correlación serial y estan autocorrelacionados . • Gráficamente, cuando los residuales cambian frecuentemente de signo hay autocorrelación negativa y si hay un conglomerado de residuales de un mismo signo antes de cambiar a otro entonces la autocrrelación es positiva. Edgar Acuña Analisis de Regresion 32 Gráfica de las 3 series de tiempo • En los dos primeros plots la autocorrelación es negativa y en la última es positiva Edgar Acuña Analisis de Regresion 33 Plot de los residuales en el tiempo t versus los residuales en el tiempo t-1. Edgar Acuña Analisis de Regresion 34 La prueba de Durbin-Watson • Se usa para detectar si hay una positiva correlación serial de orden uno. • Ho: ρ = 0 vs Ha: ρ > 0. n 2 ( − ) e e t t −1 • La prueba está dada porD = ∑ t =2 n 2 e ∑t t =1 • Se rechaza Ho si D<DL • Se acepta Ho si D>DU • La prueba no lleva a ninguna conclusión si DL<D<DU. Los valores límites DL y DU son leidos de tabla de Edgar Acuña Analisis de Regresion 35 Durbin-Watson. Prueba de dos lados Se tienen las hipótesis: Ho: ρ = 0, versus Ha:ρ ≠ 0 entonces • Se rechaza Ho: si D<DL ó 4-D<DL, al nivel de significación de 2α. • No se rechaza Ho: si D>DU y 4-D>DU • Para cualquier otro valor de D la prueba no llega a ninguna conclusión. Edgar Acuña Analisis de Regresion 36