Subido por 2019 Mat VILLICAÑA AVILA DANIEL

Regresión lineal

Anuncio
Estadística II
Unidad 4. Análisis de regresión
Objetivo. El alumno aplicará modelos de comportamiento multivariado y matricial para la
obtención de la recta de mejor ajuste, obtendrá sus intervalos de confianza e identificará
diferentes esquemas de análisis de regresión no lineal.
4.1 Conceptos
Se iniciará esta unidad con un breve repaso del modelo de regresión lineal simple.
Modelo de regresión lineal simple
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 − − − (𝑎)
𝑌̂ = 𝑏0 + 𝑏1 𝑋
La suma de los cuadrados de los errores es
𝑆 = ∑𝑛𝑖=1 𝜀𝑖2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )2
Modelo matricial de regresión lineal simple
Sean 𝑌 el vector de observaciones 𝑌𝑖 , 𝑋 la
matriz de variables predictoras, 𝛽 el vector de
parámetros a estimar, 𝜀 el vector de errores y 1
un vector de unos.
𝑌1
Minimizando la suma de los cuadrados de los
𝑌2
errores:
𝑌=[ ]
⋮
𝜕𝑆
𝑌
𝑛
𝑛
= −2 ∑𝑖=1(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )
𝜕𝛽
1
1
𝑋=[
⋮
1
𝜀1
𝜀2
𝜀=[⋮]
𝜀𝑛
1
1 = [ 1]
1
1
0
𝜕𝑆
= −2 ∑𝑛𝑖=1 𝑋𝑖 (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )
𝜕𝛽1
Los estimadores 𝑏0 y 𝑏1 se obtienen al resolver el
siguiente sistema de ecuaciones:
∑𝑛𝑖=1(𝑌𝑖 − 𝑏0 − 𝑏1 𝑋𝑖 ) = 0
∑𝑛𝑖=1 𝑋𝑖 (𝑌𝑖 − 𝑏0 − 𝑏1 𝑋𝑖 ) = 0
𝛽0 + 𝛽1 𝑋1
𝛽0 + 𝛽1 𝑋2
𝑋𝛽 = [
]
⋮
𝛽0 + 𝛽1 𝑋𝑛
𝑋1
𝛽
𝑋2
] 𝛽 = [ 0]
⋮
𝛽1
𝑋𝑛
𝛽0 + 𝛽1 𝑋1 + 𝜀1
𝛽0 + 𝛽1 𝑋2 + 𝜀2
𝑋𝛽 + 𝜀 = [
]
⋮
𝛽0 + 𝛽1 𝑋𝑛 + 𝜀𝑛
En su forma normal, las ecuaciones toman la De este modo, (𝑎) puede expresarse como 𝑌 =
forma
𝑋𝛽 + 𝜀. Aplicando el procedimiento de mínimos
cuadrados, se tendría que encontrar una
𝑏0 𝑛 + 𝑏1 ∑𝑛𝑖=1 𝑋𝑖 = ∑𝑛𝑖=1 𝑌𝑖
expresión matricial equivalente a (𝑏):
(𝑏) − − − {
𝑏0 ∑𝑛𝑖=1 𝑋𝑖 + 𝑏1 ∑𝑛𝑖=1 𝑋𝑖2 = ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
1 1
… 1
𝑋 ′ = [𝑋 𝑋 … 𝑋 ]
Por conveniencia de cálculo, se usan las
1
2
𝑛
∑𝑛𝑖=1 𝑋𝑖
𝑛
siguientes expresiones:
′
𝑋𝑋=[ 𝑛
]
∑𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑋𝑖2
𝑆𝑋𝑌 = ∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) = ∑ 𝑋𝑖 𝑌𝑖 − 𝑛𝑋̅𝑌̅
∑𝑛𝑖=1 𝑌𝑖
′
𝑋
𝑌
=
[
]
2
2
2
̅
̅
𝑆𝑋𝑋 = ∑(𝑋𝑖 − 𝑋) = ∑ 𝑋𝑖 − 𝑛𝑋
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
2
2
2
𝑆𝑌𝑌 = ∑(𝑌𝑖 − 𝑌̅) = ∑ 𝑌𝑖 − 𝑛𝑌̅
𝑏1 = 𝑆𝑋𝑌 ⁄𝑆𝑋𝑋
Con esto, (𝑏) se puede escribir como 𝑋 ′ 𝑋𝑏 = 𝑋′𝑌.
Entonces 𝑏 = (𝑋′𝑋)−1 𝑋′𝑌, siempre que exista
𝑏0 = 𝑌̅ − 𝑏1 𝑋̅
∑ 𝑋𝑖2 − ∑ 𝑋𝑖
1
−1
(𝑋′𝑋)
=
[
].
2
2 ⁄
𝑛 ∑(𝑋𝑖 −𝑋̅)2 − ∑ 𝑋
∑(𝑌̂𝑖 − 𝑌̅) = 𝑆𝑋𝑌
𝑆𝑋𝑋
𝑛
𝑖
61
Estadística II
ANOVA del modelo de regresión lineal simple. Considérese la siguiente identidad:
𝑌𝑖 − 𝑌̂𝑖 = (𝑌𝑖 − 𝑌̅) − (𝑌̂𝑖 − 𝑌̅)
Al seguir el procedimiento de análisis de varianza visto en la unidad anterior se tiene:
∑(𝑌𝑖 − 𝑌̅)2 =
2
∑(𝑌̂𝑖 − 𝑌̅) +
2
∑(𝑌𝑖 − 𝑌̂𝑖 )
Suma de
cuadrados
alrededor
de la media
Suma de
cuadrados
debidos a la
regresión
Suma de
cuadrados
debidos
al error
Con esto, se llega a la tabla ANOVA del modelo de regresión lineal simple:
Fuente
Debido a la
regresión
Sobre la regresión
(residuales)
Total
df
SS
1
𝑆𝑆(𝑏1 |𝑏0 ) = ∑
𝑛
𝑛−2
∑
∑
MS
2
(𝑌̂𝑖 − 𝑌̅)
𝑖=1
2
(𝑌𝑖 − 𝑌̂𝑖 )
𝑖=1
𝑛
𝑛−1
𝑛
𝑀𝑆𝑟𝑒𝑔
𝑆𝑆⁄(𝑛 − 2) = 𝑆 2
(𝑌𝑖 − 𝑌̅)2
𝑖=1
Tarea. Estudiar la definición de los grados de libertad del ANOVA del modelo de regresión
lineal en el libro de Draper (página 30).
62
Estadística II
Estadístico 𝑹𝟐 . Mide el ajuste del modelo como una proporción de la variación total
̅ 2
̂
𝑆𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
∑(𝑌 −𝑌)
alrededor de la media (𝑌̅) explicada por la regresión: 𝑅 2 = 𝑆𝑆
= ∑(𝑌𝑖−𝑌̅)2 .
𝑡𝑜𝑡𝑎𝑙
𝑖
63
Estadística II
Significancia de la regresión. Bajo los supuestos conocidos del análisis de varianza
para los residuales del modelo (comportamiento de 𝜀𝑖 como ruido blanco gaussiano), se
puede construir un test 𝐹 para medir la significancia de la regresión. La hipótesis nula
sería 𝐻0 : 𝛽1 = 0 contra 𝐻𝑎 : 𝛽1 ≠ 0. El estadístico de prueba estaría definido por 𝐹 =
𝑀𝑆𝑟𝑒𝑔
𝑆2
y
se compararía con los valores de la distribución 𝐹1,𝑛−2 .
Intervalos de confianza para los parámetros del modelo. Bajo el supuesto de que los
residuales del modelo se comportan como ruido blanco gaussiano, se pueden establecer
límites de confianza para 𝛽0 y 𝛽1 , respectivamente:
1⁄2
∑ 𝑋2
𝑏0 ± 𝑡(𝑛 − 2, 1 − 𝛼 ⁄2) { ∑(𝑋 𝑖 ̅ )2 }
𝑛
Tarea.
Demostrar
que
𝑡(𝑛−2,1−𝛼⁄2)𝑆
̅ )2 }1⁄2
𝑖 −𝑋
𝑆
𝑖 −𝑋
𝑏1 ± {∑(𝑋
𝜎2
𝜎2
=
, 𝐸(𝑏1 ) = 𝛽1 , 𝐸(𝑏0 ) = 𝛽0 , 𝑉𝑎𝑟(𝑏0 ) =
̅ )2
𝑆𝑋𝑋
𝑖 −𝑋
𝑉𝑎𝑟(𝑏1 ) = ∑(𝑋
∑ 𝑋𝑖2
𝜎2.
𝑛 ∑(𝑋𝑖 −𝑋̅)2
Correlación entre 𝑿 e 𝒀. Cuando la correlación 𝑟𝑥𝑦 no es cero, existe una asociación
lineal entre los valores específicos 𝑋𝑖 y 𝑌𝑖 . En el modelo de regresión lineal simple
⁄
∑(𝑌 −𝑌̅)2 1 2
𝑏1 = {∑(𝑋𝑖−𝑋̅)2 }
𝑖
𝑟𝑥𝑦
𝑆
𝑏1 = 𝑆𝑌 𝑟𝑥𝑦
𝑋
Como puede apreciarse, 𝑏1 y 𝑟𝑥𝑦 están relacionados, pero conducen a diferentes
interpretaciones. 𝑟𝑥𝑦 mide la asociación lineal entre 𝑋 e 𝑌, libre de escalas y medidas; en
tanto, 𝑏1 mide el tamaño del cambio que se da en 𝑌 cada vez que 𝑋 sufre cambio en una
unidad. 𝑅, llamado coeficiente de correlación múltiple, resulta ser la correlación entre 𝑌 y
𝑌̂, es decir, 𝑟𝑌𝑌̂ .
̂ . Se puede demostrar que 𝐶𝑜𝑣 (𝑌̅, 𝑏1 ) = 0, es decir, 𝑌̅ y 𝑏1 son
Error estándar de 𝒀
variables aleatorias no correlacionadas. Con 𝑏0 = 𝑌̅ − 𝑏1 𝑋̅, el modelo 𝑌̂ = 𝑏0 + 𝑏1 𝑋 se
puede escribir como 𝑌̂ = 𝑌̅ + 𝑏1 (𝑋 − 𝑋̅). Dado un valor específico de 𝑋, dígase 𝑋0 , es
posible predecir la respuesta media 𝜇𝑌|𝑋0 en 𝑋 = 𝑋0 : 𝑌̂ − 𝑌̅ = 𝑏1 (𝑋0 − 𝑋̅). Dado que 𝑋0 y 𝑋̅
2
̅ 2 2
(𝑋0 −𝑋) 𝜎
𝜎
son fijos y 𝐶𝑜𝑣 (𝑌̅, 𝑏1 ) = 0 ⇒ 𝑉𝑎𝑟(𝑌̂0 ) = 𝑉𝑎𝑟(𝑌̅) + (𝑋0 − 𝑋̅)2 𝑉𝑎𝑟(𝑏1 ) = 𝑛 + ∑(𝑋
. Como
−𝑋̅)2
𝑖
⁄
(𝑋 −𝑋̅)2 1 2
1
consecuencia, el error estándar de 𝑌̂0 es 𝑆 { + ∑(𝑋0 ̅ )2 } .
𝑛
𝑖 −𝑋
Con base en lo anterior, el intervalo de confianza para la respuesta media 𝜇𝑌|𝑋0 es 𝑌̂0 ±
1
⁄
(𝑋 −𝑋̅)2 1 2
𝑡(𝑛 − 2, 1 − 𝛼 ⁄2) {𝑛 + ∑(𝑋0 −𝑋̅)2 }
𝑖
𝑆.
Es más común interesarse en la predicción de una observación individual y no tanto de la
respuesta media. En este caso se desea conocer el error estándar de 𝑌̂0 − 𝑌 para
encontrar su correspondiente intervalo de confianza. Por una parte, 𝐸(𝑌̂0 − 𝑌) =
𝐸[𝛽0 + 𝛽1 𝑋0 − (𝑏0 + 𝑏1 𝑋0 + 𝜀0 )] = 0. Por otro lado, dado que 𝑌 es independiente de 𝑌̂,
64
Estadística II
2
̅ 2 2
̅ 2
(𝑋0 −𝑋) 𝜎
(𝑋 −𝑋)
𝜎
1
𝑉𝑎𝑟(𝑌̂0 − 𝑌) = 𝑉𝑎𝑟(𝑌̂0 ) + 𝑉𝑎𝑟(𝑌) = 𝑛 + ∑(𝑋
+ 𝜎 2 = 𝜎 2 (1 + 𝑛 + ∑(𝑋0 −𝑋̅)2 ).
−𝑋̅)2
𝑖
𝑖
De
este
modo, el intervalo de confianza para la predicción de una observación individual es:
̅ 2 1⁄2
(𝑋 −𝑋)
1
𝑌̂0 ± 𝑡(𝑛 − 2, 1 − 𝛼 ⁄2) {1 + 𝑛 + ∑(𝑋0 −𝑋̅)2 }
𝑖
𝑆
Los coeficientes de regresión estandarizados definen la ecuación de regresión cuando
ésta se obtiene después de estandarizar las variables originales. En este caso, 𝛽1 =
𝑏1 (𝑆𝑥 ⁄𝑆𝑦 ) y entonces 𝛽1 coincide con el coeficiente de correlación de Pearson.
Tarea. Realizar los siguientes ejercicios del texto de Draper, con apoyo de R: A (1 a 7), B
(1, 2, 3, 4), C, E (1 a 6), F (1 a 3), G (1 y 2), H y K (1 a 8). En todos los casos donde se
genere un modelo, se deben comprobar los supuestos teóricos.
65
Estadística II
66
Estadística II
67
Estadística II
68
Estadística II
69
Estadística II
4.2 La situación general de regresión
En esta sección se generaliza el modelo de regresión lineal para el caso en el que existen
dos o más variables independientes. Supóngase que se tiene bajo consideración el
modelo 𝑌 = 𝑋𝛽 + 𝜀, en donde




𝑌 es un vector de observaciones (𝑛 𝑥 1)
𝑋 es una matriz (𝑛 𝑥 𝑝)
𝛽 es un vector de parámetros (𝑝 𝑥 1)
𝜀 es el vector de errores (𝑛 𝑥 1)
Se establecen también las siguientes suposiciones: 𝐸(𝜀) = 0, 𝑉𝑎𝑟(𝜀) = 𝐼𝜎 2 y los
elementos de 𝜀 son no correlacionados (es decir, se trata de ruido blanco). Dado que
𝐸(𝜀) = 0, 𝐸(𝑌) = 𝑋𝛽.
Como en el caso del modelo de regresión lineal simple, se utilizará el método de mínimos
cuadrados para estimar los parámetros. Dado que la aplicación de dicho método se
aplicará sobre vectores y matrices, será necesario repasar algunos resultados de álgebra
y cálculo matriciales.
Transposición de matrices. La transpuesta de una matriz 𝐴 de dimensión 𝑚 𝑥 𝑛 es la
matriz 𝐴′ de dimensión 𝑛 𝑥 𝑚 obtenida al intercambiar las filas y las columnas de 𝐴. Esta
operación posee algunas propiedades interesantes:




(𝐴′ )′ = 𝐴
Si 𝐴 y 𝐵 son matrices de la misma dimensión, (𝐴 + 𝐵)′ = 𝐴′ + 𝐵′
Si 𝑐 es una constante, (𝑐𝐴)′ = 𝑐𝐴′
Si 𝐴 y 𝐵 son matrices cuyas dimensiones permiten el producto 𝐴𝐵, (𝐴𝐵)′ = 𝐵′ 𝐴′
Definición (derivada de un vector). Dada 𝑓 una función de 𝑛 variables que se pueden
𝜕𝑓
identificar con un vector 𝑥 de ℛ 𝑛 , se define la derivada de 𝑓 respecto a 𝑥, 𝜕𝑥 , como un
𝜕𝑓
vector cuyas componentes son (𝜕𝑥 ) .
𝑖
𝑖
Definición (derivada de una matriz). Dada 𝑓 una función de 𝑛𝑝 variables que se pueden
𝜕𝑓
identificar con una matriz 𝑥𝑛,𝑝 , se define la derivada de 𝑓 respecto a 𝑥, 𝜕𝑥 , como una
𝜕𝑓
)
𝜕𝑥𝑖𝑗
matriz cuyos componentes son (
.
𝑖𝑗
Método de mínimos cuadrados para estimar los parámetros del modelo de
regresión. La suma de los cuadrados de los errores se escribe como
𝜀 ′ 𝜀 = (𝑌 − 𝑋𝛽)′ (𝑌 − 𝑋𝛽)
= 𝑌 ′ 𝑌 − 𝑌 ′ 𝑋𝛽 − 𝛽 ′ 𝑋 ′ 𝑌 + 𝛽 ′ 𝑋 ′ 𝑋𝛽
= 𝑌 ′ 𝑌 − 2𝑌 ′ 𝑋𝛽 + 𝛽′𝑋′𝑋𝛽
70
Estadística II
El estimador de mínimos cuadrados de 𝛽 es el valor 𝑏, el cual, sustituido en la ecuación
anterior, minimiza 𝜀 ′ 𝜀. Diferenciando 𝜀 ′ 𝜀 con respecto a 𝛽:
𝑌 ′ 𝑋𝛽 = ∑𝑛𝑖=1 𝑌𝑖 𝛽0 + ∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖1 𝛽1 + … + ∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖,𝑝−1 𝛽𝑝−1
𝜕(𝑌 ′ 𝑋𝛽)
= ∑𝑛𝑖=1 𝑌𝑖 , ∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖1 , … , ∑𝑛𝑖=1 𝑌𝑖 𝑋𝑖,𝑝−1 (vector transpuesto)
𝜕𝛽
𝜕(𝑌 ′ 𝑋𝛽)
=[
𝜕𝛽
Tarea. Comprobar que
1
1
𝑋11 𝑋21
⋮ ⋮
𝑋1,𝑝−1 𝑋2,𝑝−1
𝑌1
… 1
… 𝑋𝑛1
𝑌2
⋱ ⋮ ] [ ⋮ ] = 𝑋′𝑌
… 𝑋𝑛,𝑝−1 𝑌𝑛
𝜕(𝛽 ′ 𝑋 ′ 𝑋𝛽)
= 2𝑋′𝑋𝛽.
𝜕𝛽
Igualando a cero y sustituyendo a 𝛽 por 𝑏, se llega nuevamente a las ecuaciones
normales
(𝑋 ′ 𝑋)𝑏 = 𝑋 ′ 𝑌 − − − (𝑎)
Si las 𝑝 ecuaciones de (𝑎) son independientes, entonces 𝑋 ′ 𝑋 es no singular y existe
(𝑋′𝑋)−1 , de tal suerte que 𝑏 = (𝑋′𝑋)−1 𝑋 ′ 𝑌. La solución obtenida, 𝑏, tiene las siguientes
propiedades:
i.
ii.
iii.
Es un estimador insesgado y de mínima varianza de 𝛽.
Minimiza la suma de los cuadrados de los errores, 𝜀 ′ 𝜀, independientemente de las
propiedades de dichos errores (es decir, el supuesto de normalidad de los
residuales no se requiere para calcular 𝑏, pero sí para hacer tests del tipo 𝑡 o 𝐹, o
para obtener intervalos de confianza).
Si los errores se distribuyen como ruido blanco gaussiano, entonces 𝑏 resulta ser
también el estimador de máxima verosimilitud de 𝛽.
Asumiendo que 𝐸(𝜀) = 0, 𝑉𝑎𝑟(𝜀) = 𝐼𝜎 2 , siendo 𝜀𝑖 normalmente distribuido o no:
1. Los valores ajustados de 𝑌 se obtienen por 𝑌̂ = 𝑋𝑏
2. El vector de residuales es 𝜀 = 𝑌 − 𝑌̂
3. Los residuos no se correlacionan con las variables explicativas:
𝑋 ′ 𝑌 = 𝑋′𝑋𝛽
𝑋 ′ 𝑌 − 𝑋 ′ 𝑋𝛽 = 0
𝑋 ′ (𝑌 − 𝑋𝛽) = 0 ⇒ 𝑋 ′ 𝜀 = 0 (porque 𝑌 = 𝑋𝛽 + 𝜀)
4. 𝑉𝑎𝑟(𝑏) = (𝑋′𝑋)−1 𝜎 2 es una matriz cuya diagonal principal indica las varianzas de
los estimadores 𝑏; los demás elementos de la matriz son las covarianzas de 𝑏.
5. Sea 𝑋0′ tal que 𝑌̂0 = 𝑋0′ 𝑏 = 𝑏′𝑋0 es el valor ajustado sobre una posición definida por
𝑋0 . Entonces 𝑉𝑎𝑟(𝑌̂0 ) = 𝑋0′ 𝑉𝑎𝑟(𝑏)𝑋0 = 𝑋0′ (𝑋′𝑋)−1 𝑋0 𝜎 2 .
6. La tabla ANOVA básica del modelo queda como (obsérvese que no hay
corrección):
71
Estadística II
Fuente
Regresión
Residual
Total
df
𝑝
𝑛−𝑝
𝑛
SS
𝑏′𝑋′𝑌
𝑌 ′ 𝑌 − 𝑏′𝑋′𝑌
𝑌′𝑌
MS
𝑀𝑆𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
Estadístico 𝑹𝟐 . Es el cuadrado del coeficiente de correlación múltiple 𝑅, y se define por
̅ 2
̂
∑(𝑌 −𝑌)
𝑅 2 = ∑(𝑌𝑖−𝑌̅)2 . 𝑅 2 es el cuadrado de la correlación entre 𝑌 y 𝑌̂ y toma valores en el
𝑖
intervalo [0, 1].
𝑹𝟐 ajustada. Supóngase que 𝑝 es el número total de parámetros en el modelo ajustado,
incluyendo 𝛽0 . Se define el estadístico 𝑅 2 ajustada como una medida del monto de la
𝑛−1
variación alrededor de la media explicada por la ecuación: 𝑅𝑎2 = 1 − (1 − 𝑅 2 ) (𝑛−𝑝). El
ajuste está en la incorporación en la ecuación anterior de los grados de libertad de las
sumas de cuadrados totales y residuales, según la tabla ANOVA.
Contrastes 𝒕 y 𝑭. Si los residuos se comportan como ruido blanco gaussiano, se puede
utilizar el habitual contraste 𝐹 para probar la hipótesis de regresión:
𝐻0 : todas las 𝛽′s (excepto 𝛽0 ) son cero
𝐻𝑎 : al menos una de las 𝛽′s (sin considerar 𝛽0 ) es diferente de cero
Por otro lado, el contraste 𝑡 se emplea para evaluar la significancia de cada 𝛽 en forma
independiente.
Límites de confianza. Con 𝜀~𝑁(0, 𝜎 2 ), se pueden establecer los siguientes límites de
confianza para el verdadero valor medio de 𝑌 en 𝑋0 (𝑆𝑣2 es el estimador de 𝜎 2 ):
𝑌̂0 ± 𝑡(𝑛 − 𝑝, 1 − 𝛼 ⁄2)𝑆𝑣 √𝑋0′ (𝑋′𝑋)−1 𝑋0
Por otro lado, bajo la hipótesis de ruido blanco gaussiano para los residuos,
𝑏~𝑁(𝛽, (𝑋 ′ 𝑋)−1 𝜎 2 ) y se establece el siguiente límite de confianza para cada coeficiente
de regresión:
2
𝑏𝑖 ± 𝑡(𝑛 − 𝑝, 1 − 𝛼 ⁄2)√(𝑋 ′ 𝑋)−1
𝑖𝑖 𝜎
72
Estadística II
4.3 Métodos de selección de variables (práctica)
En equipos de tres a cinco personas utilice un paquete estadístico para realizar las
siguientes actividades:
1. Resuelva los problemas A y B contenidos en la página 170 del libro de Draper.
Compruebe en cada caso los supuestos del modelo de regresión.
2. Indague los métodos de selección de variables para un modelo de regresión lineal
múltiple y la forma como se implementan en R.
3. La tabla proporciona información sobre la resistencia a la ruptura de un fusible (𝑦),
la altura del dado (𝑥1 ), la altura del poste (𝑥2 ), la altura del rizo (𝑥3 ), la longitud del
alambre (𝑥4 ), el ancho de la unión con el dado (𝑥5 ) y el ancho de la unión con el
poste (𝑥6 ).
73
Estadística II
𝒚
8.0
8.3
8.5
8.8
9.0
9.3
9.3
9.5
9.8
10.0
10.3
10.5
10.8
11.0
11.3
11.5
11.8
12.3
12.5
𝒙𝟏
5.2
5.2
5.8
6.4
5.8
5.2
5.6
6.0
5.2
5.8
6.4
6.0
6.2
6.2
6.2
5.6
6.0
5.8
5.6
𝒙𝟐
19.6
19.8
19.6
19.4
18.6
18.8
20.4
19.0
20.8
19.9
18.0
20.6
20.2
20.2
19.2
17.0
19.8
18.8
18.6
𝒙𝟑
29.6
32.4
31.0
32.4
28.6
30.6
32.4
32.6
32.2
31.8
32.6
33.4
31.8
34.2
31.4
33.2
35.4
34.0
34.2
𝒙𝟒
94.9
89.7
96.2
95.6
86.5
84.5
88.8
85.7
93.6
86.0
87.1
93.1
83.4
94.5
83.4
85.2
84.1
86.9
83.0
𝒙𝟓
2.1
2.1
2.0
2.2
2.0
2.1
2.2
2.1
2.3
2.1
2.0
2.1
2.2
2.1
1.9
2.1
2.0
2.1
1.9
𝒙𝟔
2.3
1.8
2.0
2.1
1.8
2.1
1.9
1.9
2.1
1.8
1.6
2.1
2.1
1.9
1.8
2.1
1.8
1.8
2.0
a. Ajuste un modelo de regresión utilizando todas las variables
independientes.
b. Utilice la regresión por pasos con un nivel de significancia de ingreso 0.025
y un nivel de significancia de eliminación de 0.05.
c. Utilice todos los modelos de regresión posibles y compare sus respectivos
valores de 𝑅 2 , 𝑅 2 ajustada y Durbin Watson.
d. Compruebe los supuestos teóricos de regresión para el modelo definitivo.
e. Argumente sus resultados.
4.4 Comprobación de los supuestos del modelo de regresión lineal
A partir de las secciones anteriores, se pueden listar las siguientes premisas del análisis
de regresión:
1.
2.
3.
4.
5.
La relación entre la respuesta y los regresores es aproximadamente lineal
El error 𝜖 tiene media cero
El error 𝜖 tiene varianza 𝜎 2 constante
Los errores no están correlacionados
Los errores se distribuyen normalmente (este supuesto es necesario para probar
hipótesis y estimar intervalos de confianza).
El análisis de regresión no termina con la estimación de los parámetros del modelo y el
análisis de significancia de los mismos individualmente y en conjunto. Es necesario
analizar la validez de los cinco supuestos anteriormente planteados.
Como se recordará, el vector de residuales está definido por 𝜀 = 𝑌 − 𝑌̂ y su varianza se
estima con 𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 . Los valores 𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 se llaman residuales no tipificados. El
74
Estadística II
modelo es 𝑌 = 𝑋𝛽 + 𝜀 y las ecuaciones normales son 𝑋 ′ 𝑋𝑏 = 𝑋′𝑌 con solución 𝑏 =
(𝑋 ′ 𝑋)−1 𝑋′𝑌 (siempre que 𝑋 ′ 𝑋 sea no singular). Los valores ajustados son 𝑌̂ = 𝑋𝑏 =
𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑌 = 𝐻𝑌 y entonces 𝑒 = 𝑌 − 𝑌̂ = 𝑌 − 𝐻𝑌 = (𝐼 − 𝐻)𝑌.
Tarea. La matriz 𝐻 = 𝑋(𝑋 ′ 𝑋)−1 𝑋 ′ es llamada “matriz sombrero” y resulta de utilidad para
el trabajo de análisis de residuales. Compruebe que tanto 𝐻 como (𝐼 − 𝐻) son simétricas
e idempotentes.
Dado que 𝐸(𝑌) = 𝑋𝛽 y que (𝐼 − 𝐻)𝑋 = 0, 𝑒 − 𝐸(𝑒) = (𝐼 − 𝐻)(𝑌 − 𝑋𝐵) = (𝐼 − 𝐻)𝜀. De este
modo, la matriz de varianzas y covarianzas de 𝑒 queda definida por
𝑉𝑎𝑟(𝑒) = 𝐸{[𝑒 − 𝐸(𝑒)][𝑒 − 𝐸(𝑒)]′} = (𝐼 − 𝐻)𝐸(𝜀𝜀 ′ )(𝐼 − 𝐻)′
Bajo el supuesto de que 𝐸(𝜀) = 0, 𝐸(𝜀𝜀 ′ ) = 𝑉𝑎𝑟(𝜀) = 𝐼𝜎 2 , y con las condiciones de
simetría e idempotencia para (𝐼 − 𝐻), 𝑉𝑎𝑟(𝑒) = (𝐼 − 𝐻)𝜎 2 . Así, 𝑉𝑎𝑟(𝑒𝑖 ) es el 𝑖-ésimo
elemento de la diagonal principal de (𝐼 − 𝐻)𝜎 2 , es decir, (1 − ℎ𝑖𝑖 )𝜎 2 , en tanto 𝐶𝑜𝑣(𝑒𝑖 , 𝑒𝑗 ) =
−𝜎 2 ℎ𝑖𝑗 ; con esto, la correlación entre 𝑒𝑖 𝑦 𝑒𝑗 se calcula como 𝜌𝑖𝑗 =
−ℎ𝑖𝑗
[(1−ℎ𝑖𝑖 )(1−ℎ𝑗𝑗 )]
1⁄2
𝐶𝑜𝑣(𝑒𝑖 ,𝑒𝑗 )
[𝑉𝑎𝑟(𝑒𝑖 )𝑉𝑎𝑟(𝑒𝑗 )]
1⁄2
=
. Es de destacar que los residuales tienen distintas varianzas y además
están correlacionados (esto debido a que en la regresión sólo hay 𝑛 − 𝑝 grados de
libertad). Aunque esto parece echar por tierra a priori los supuestos del modelo de
regresión, más adelante se verá bajo qué condiciones el comportamiento de los
residuales se considera “satisfactorio”.
En general, trabajar con algunas transformaciones de los residuales es de utilidad, por
ejemplo, para identificar valores atípicos cuyo análisis ayude a mejorar el ajuste del
modelo.
Los residuales estandarizados (tipificados), 𝑑𝑖 , se calculan dividiendo a cada residual
entre la raíz de sus cuadrados medios: 𝑑𝑖 = 𝑒𝑖 ⁄√𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 , 𝑖 = 1, 2, … , 𝑛. Los residuales
estandarizados tienen media cero y varianza aproximadamente unitaria. Bajo el supuesto
de normalidad, se esperaría que aproximadamente el 95% de los residuos se concentrara
en el intervalo [−1.96, 1.96] y el 99% en [−3, 3]. Un residual estandarizado mayor que 3,
indicaría un potencial valor atípico.
Es de suponer que si se utiliza la desviación estándar exacta del 𝑖-ésimo residual en lugar
de sólo dividirlo entre la raíz de 𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 , se obtendrá mayor precisión en la
transformación. De este modo, los residuales estudentizados, 𝑟𝑖 , se calculan como 𝑟𝑖 =
𝑒𝑖
, 𝑖 = 1, 2, … , 𝑛. Cuando el modelo está lo suficientemente ajustado, estos
√(𝑀𝑆𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 )(1−ℎ𝑖𝑖 )
residuales tienen varianza constante igual a 1.
Tarea. Averiguar los conceptos residuales PRESS y R de Student, así como su aplicación
a la detección y al tratamiento de datos atípicos.
75
Estadística II
Existen diferentes gráficas de los residuales del modelo que ayudan a su análisis. En el
histograma se aprecia si la distribución de los residuales se ajusta a la forma de una
normal.
La gráfica de probabilidad normal está diseñada para que la distribución normal
acumulada parezca una línea recta. El énfasis del análisis se dirige hacia los puntos
centrales más que a los extremos. La siguiente figura muestra diferentes formas de esta
gráfica.
a) Forma ideal. b) Curvas que van
bruscamente hacia arriba y hacia
abajo, indicando colas de
distribución gruesas (no normales).
c) Aplanamiento en los extremos,
característico de distribuciones más
delgadas que la normal. d) Patrón
de asimetría positiva. e) Patrón de
asimetría negativa.
La gráfica de los residuales 𝑒𝑖 en función de los valores ajustados correspondientes 𝑦̂𝑖 es
útil para detectar ciertos tipos de inadecuaciones del modelo. La razón por la que se
grafica 𝑒𝑖 contra 𝑦̂𝑖 y no contra los valores observados 𝑦𝑖 es que los residuales se
correlacionan con la variable dependiente, no así con los valores ajustados.
a) Los residuales se pueden encerrar en
una banda horizontal, por lo que no hay
defectos obvios en el modelo. b)
Residuales en forma de embudo indican
varianza creciente. c) Distribución de los
residuales en forma de doble arco se
presenta cuando 𝑦 es una proporción entre
0 y 1; en este caso, la varianza de la
proporción más cercana a 0.5 es mayor
que una cercana a 0 ó a 1. d) Residuales
en forma curva suponen un defecto por no
linealidad.
Las gráficas de regresión parcial consideran el papel marginal del regresor 𝑥𝑗 respecto a
los demás regresores que ya están en el modelo. En esta gráfica se determina la
regresión de la variable de respuesta 𝑦 y el regresor 𝑥𝑗 respecto a los demás regresores
en el modelo, y de los residuales obtenidos para cada regresión. Estas gráficas sólo
sugieren posibles candidatos regresores a incluirse en el modelo, pero podrían dar
información inadecuada en presencia de variables mal especificadas o multicolinealidad.
76
Estadística II
Para corroborar el supuesto de no correlación de los errores se utiliza el test de DurbinWatson. Dicho test proporciona una medida de la correlación serial entre los errores, es
decir, a partir de una secuencia de residuales, ordenada en el tiempo, se verifica si la
correlación entre los errores es la misma cada 𝑠 pasos, 𝑠 = 1, 2, …
A partir de un modelo de regresión, se establece la hipótesis nula 𝐻0 : 𝜌𝑠 = 0, ∀𝑠 = 1, 2, …
contra la hipótesis alternativa 𝐻1 : 𝜌𝑠 = 𝜌 𝑠 , 𝜌 ≠ 0, |𝜌| < 1. El estadístico de Durbin-Watson
es 𝑑 = ∑𝑛𝑢=2(𝑒𝑢 − 𝑒𝑢−1 )2⁄∑𝑛𝑢=1 𝑒𝑢2 . La distribución de 𝑑 toma valores entre 0 y 4 y es
simétrica alrededor de 2. De este modo, si 𝑑 es muy próximo a 2 no se rechaza la
hipótesis nula de no correlación.
Tarea. Leer el capítulo 7 de Draper para profundizar en el test de Durbin-Watson.
Como es sabido, el análisis gráfico es útil en estadística, pero no tan contundente como
una prueba de hipótesis. Por ello, se presentan aquí dos test ampliamente utilizados para
comprobar la homogeneidad de la varianza de los errores, el de Bartlett y el de Levene.
2
Test de Bartlett. Sean 𝑆12 , 𝑆22 , … , 𝑆𝑚
estimaciones de 𝜎 2 a partir de 𝑚 grupos con
2
𝑛
𝜈1 , 𝜈2 , … , 𝜈𝑚 grados de libertad, respectivamente, con 𝑆𝑗2 = ∑ 𝑗 (𝑌𝑗𝑢 − 𝑌̅𝑗 ) ⁄(𝑛𝑗 − 1). Sea
𝑢=1
2
2
2
2 )⁄
(𝜈
𝑆𝑒 = 1 𝑆1 + 𝜈2 𝑆2 + ⋯ + 𝜈𝑚 𝑆𝑚 𝜈, con 𝜈 = 𝜈1 + 𝜈2 + ⋯ + 𝜈𝑚 . Se define la constante 𝐶 =
−1
1 + (𝜈1−1 + 𝜈2−1 + ⋯ + 𝜈𝑚
− 𝜈 −1 )⁄{3(𝑚 − 1)}. El estadístico de prueba es
𝐵=
𝑚
2
2
{𝜈𝑙𝑛𝑆𝑒 − ∑𝑗=1 𝜈𝑗 𝑙𝑛𝑆𝑗 }⁄𝐶 , el cual, bajo la hipótesis nula de igualdad de varianzas, se
2
distribuye aproximadamente como una 𝜒𝑚−1
.
Test de Levene. Considere en el 𝑗-ésimo grupo las desviaciones absolutas de las 𝑌′s
respecto a las medias de los grupos: 𝑧𝑗𝑢 = |𝑌𝑗𝑢 − 𝑌̅𝑗 |, 𝑢 = 1, 2, … , 𝑛𝑗 . Compare los
cuadrados medios “entre grupos” con los cuadrados medios “dentro de grupos” a través
2
de un test cuyo estadístico estaría dado por 𝐹 =
𝑛
∑𝑚
𝑗=1 𝑛𝑗 (𝑧̅ 𝑗 −𝑧̅ ) ⁄(𝑚−1)
𝑛𝑗
2
, en donde 𝑧̅𝑗 =
𝑚
∑𝑚
𝑗=1 ∑𝑢=1(𝑧𝑗𝑢 −𝑧̅ 𝑗 ) ⁄∑𝑗=1(𝑛𝑗 −1)
𝑛
𝑗
𝑗
𝑚
∑𝑢=1
𝑧𝑗𝑢 ⁄𝑛𝑗 , 𝑧̅ = ∑𝑚
𝑗=1 ∑𝑢=1 𝑧𝑗𝑢 ⁄∑𝑗=1 𝑛𝑗 . Este estadístico se compara con el valor en tablas
(cola superior) de 𝐹{𝑚 − 1, ∑𝑚
𝑗=1(𝑛𝑗 − 1)}.
Mientras que el test de Bartlett es muy sensible al problema de no normalidad, el de
Levene no tiene este problema, sin embargo, posee menos potencia.
Tarea. Profundice en los test de Bartlett y Levene. Estudiar con profundidad el capítulo
sobre corrección de inadecuaciones del modelo en el texto de Montgomey.
Créditos
El material aquí presentado es un extracto de:


Draper, N. R. & Smith. (1998). Applied regression análisis. USA: Wiley.
Montgomery, D. C., Peck, E. A. y Vining, G. G. (2006). Introducción al análisis de
regresión lineal. México: CECSA.
77
Descargar