El Modelo Lineal Clase 2 El Modelo Lineal Clase 2 Asuntos de la clase 2 EL MODELO LINEAL Clase 2 Propiedades estadísticas del modelo lineal El modelo linear centrado Inferencia del modelo lineal La falta de ajuste del modelo lineal La predicción Ejemplo Sergio Camiz LIMA - Abril-Mayo 2015 Lima, 16/05/2015 "Clase 2".tex Clase 2 II-1 Propiedades estadísticas Propiedades estadísticas Lima, 16/05/2015 "Clase 2".tex Clase 2 Propiedades estadísticas asimismo indicaremos la sumas de manera compactada: En seguida se utilizaran las relaciones siguientes. Para su prueba, verse por ejemplo Mood et al. (1974): Sx = � i Sxx = E(ax + b) = aE(x) + b V (ax + b) = a2V (x) E(x ± y) = E(x) ± E(y) V (x ± y) = V (x) + V (y) ± 2cov(x, y) E(xy) = E(x)E(y) + cov(x, y) V (xy) = V (x)V (y) + E(x)E(y) E(x)2) = (E(x))2 + V (x) V (x2) = (V (x))2 + (E(x))2 "Clase 2".tex II-3 Sẋ = xi � i x2i Sẋẋ = � i � i (xi − x̄) (xi − x̄)2 y analogamente para y, luego Sxy = � i xi yi Sẋẏ = � i (xi − x̄)(yi − ȳ) se observa también que Sẋẏ = = Lima, 16/05/2015 II-2 i(xi − x̄)(yi − ȳ) = i xiyi − nx̄ȳ = � � � i xiyi − i xiȳ = i xi(yi − ȳ) = Sxẏ = Sẋy � Lima, 16/05/2015 � "Clase 2".tex II-4 Clase 2 Clase 2 Propiedades estadísticas Propiedades de los estimadores de los mínimos cuadrados El β̂ puede expresarse como combinación lineal de los yi, mas precisamente Dada la estimación de mínimos cuadrados de los parámetros β̂ = α̂ = ȳ − β̂ x̄ � i − ȳ)(xi − x̄) β̂ = i (y � 2 i (xi − x̄) (1) Lima, 16/05/2015 Sẋẏ Sẋẋ "Clase 2".tex Clase 2 II-5 x̄ Desde que ci = xiS− resulta ẋẋ � � i ci = 0 1 2 i ci = Sẋẋ (2) i ci xi = 1 Lima, 16/05/2015 � � � � yi 1 n� − i� ciyi = i n − x̄ci yi � � 1 i� n − x̄ci yi + �i ciyix = � 1 i n + (x − x̄)ci yi � i "Clase 2".tex Sẋẋ = i ciyi , con ci = � i (xi − x̄) � yi = ci yi i Sẋẋ xi − x̄ Sẋẋ Lima, 16/05/2015 "Clase 2".tex II-6 Propiedades estadísticas Este resultado nos permite calcular las esperanzas de α̂, β̂ y η̂x y su varianzas. Para β̂ la esperanza vale α̂ y η̂x también se pueden expresar como combinación lineal de los yi : α̂ = ȳ − β̂ x̄ = η̂x = α̂ + β̂x = = � i(xi − x̄)yi Clase 2 Propiedades estadísticas � o sea β̂ = � Los ci son constantes porque los xi son valores preseleccionados. Entonces, la regresión solo depende de las yi. se puede entonces escribir β̂ compactamente como β̂ = Propiedades estadísticas II-7 E(β̂|x1, ..., xn) = �i ciE(yi|x1, ..., xn) = �i ciE(yi|xi) = �i ciηi = �i ci(α + βxi) = α �i ci + β �i cixi = 0 + β1 = β y, por la condición de homoscedasticidad, su varianza vale V (β̂|x1, ..., xn) = = = Lima, 16/05/2015 2 i ci V (yi|x1, ..., xn) � 2 i ci V (yi|xi) � σ2 2 2 2� 2 i ci σ = σ i ci = Sẋẋ � "Clase 2".tex II-8 Clase 2 Clase 2 Propiedades estadísticas Para α̂, su esperanza y su varianza valen respectivamente � Pues la esperanza y la varianza de η̂x valen � 1 i � n − x̄ci � E(yi |x1 , ..., xn ) � 1 i � n − x̄ci � E(yi |xi ) � 1 + βxi) � i n �− x̄ci (α � � � α � i n1 − x̄ci + β �i �n1 − x̄ci xi � � � � 1 � xi α i n − x̄ i ci + β i n − x̄ �i cixi E(α̂|x1, ..., xn) = = = = = = α(1 − 0) + β(x̄ − x̄) = α � V (α̂|x1, ..., xn) = �i = σ2 = σ2 = σ2 Lima, 16/05/2015 � 1 n � E(η̂x) = E(α̂ + β̂x) = E(α̂) + E(β̂)x = α + βx = ηx V (η̂x) = V (�α̂ �+ β̂x) � � = V �i n1 + (x − x̄)ci yi � � 2 = �i n1 + (x − x̄)ci V (yi) = σ 2 �i n12 + (x − x̄)2 �i c2i 2 − x̄ci V (yi|xi) � � 2 � 1 i n − x̄ci � � 1 2x̄ � 2 i n2 − �n i ci + x̄ � 2 1 x̄ n + Sẋẋ � "Clase 2".tex Clase 2 i ci 2 2 = σ 2 n1 + (x S−ẋẋx̄) � II-9 Lima, 16/05/2015 Nótese que en el caso x = 0, se encuentra que � i ci(yi − ηi) 1 − x̄cj (yj − ηj ) j n (α̂ − α) = � y por tanto E((α̂ − α)(β̂ − β)) = cov(α̂, β̂). "Clase 2".tex (β̂ − β) = y por lo que será útil calcular también II-10 Propiedades estadísticas Resultan E(η̂x=0) = α 2 V (η̂x=0) = σ 2 n1 + Sx̄ẋẋ = V (α̂) "Clase 2".tex Clase 2 Propiedades estadísticas Lima, 16/05/2015 Propiedades estadísticas (α̂ − α)(β̂ − β)= �j � n1 − x̄cj� (yj − ηj ) �i ci(yi − ηi) 2 = �i n1 −� x̄ci ci(y i − ηi ) � � � + i ji�=j n1 − x̄ci cj (yi − ηi)(yj − ηj ) � II-11 Lima, 16/05/2015 � "Clase 2".tex II-12 Clase 2 Clase 2 Propiedades estadísticas Tomando las esperanzas, el primer cuadrado vale (E(ei))2 + V (ei) = σ 2, mientras el último término vale cero, considerando la independencia de los yi. Por tanto cov(α̂, β̂) = E(( α̂ �− α)(β̂ − β)) = � � � = E �i n1 − x̄ci ci(yi − ηi)2 � � 2 = σ 2 �i cni − x̄ci2 + 0 = − σSẋx̄ẋ (3) La covarianza existe pues β̂ se usa para la estimación de α̂(1). ¿Tiene sentido hacer una estimación considerando que existe esta covarianza? Efectivamente, como σ 2 es parte del problema, esta covarianza se puede reducir elijendo los x oportunamente. Lima, 16/05/2015 Clase 2 "Clase 2".tex II-13 Propiedades estadísticas Propiedades estadísticas Teorema de Gauss - Markov Dados n pares de observaciones (xi, yi), i = 1, 2, ..., n, cuyos xi son valores elegidos previamente y los yi son medidas correspondientes e independientes para los cuales E(yi | xi) = α + βyi, V (yi | xi) = σ 2 por cada i; sea (α̂, β̂) la estimación de mínimos cuadrados de (α, β) ya definida. Entre todas las estimaciones lineales en los yi de una estadística τ = a1α + a2β, la estimación de los mínimos cuadrados τ̂ = a1α̂ + a2β̂ es la de varianza mínima. Lima, 16/05/2015 Clase 2 Estimación de σ 2 Entonces tiene sentido hacer la estimación de mínimos cuadrados, además porque α̂ y β̂ son también estimadores de máxima verosimilitud y por esto son esos de varianza mínima. i "Clase 2".tex II-15 II-14 Propiedades estadísticas Corolario 1. (a1 = 0, a2 = 1). El estimador de los mínimos cuadrados de β es, entre todos los estimadores lineales en yi, el de varianza mínima. Corolario 2. (a1 = 1, a2 = 0). El estimador de los mínimos cuadrados de α es, entre todos los estimadores lineales en yi, el de varianza mínima. Corolario 3. (a1 = 1, a2 = x). El estimador de los mínimos cuadrados de ηx es, entre todos los estimadores lineales en yi, el de varianza mínima. Lima, 16/05/2015 "Clase 2".tex Si el modelo es correcto, o sea si E(y | x) = ηx es lineal en x, entonces se espera que los residuos ei = yi − η̂xi nos informen solo sobre los errores,o sea sobre σ 2. Resulta SSe = = = � i � i (yi − η̂xi )2 = � i (yi − α̂ − β̂xi)(yi − α̂ − β̂xi) (yi − α̂ − β̂xi)yi − α̂ (yi − α̂ − β̂xi) − β̂ (yi − α̂ − β̂xi)xi � (4) i � i � (yi − α̂ − β̂xi)yi = Syy − (α̂Sy + β̂Sxy ) = SSt − SSr pues α̂ y β̂ resuelven las ecuaciones normales. Lima, 16/05/2015 "Clase 2".tex II-16 Clase 2 Propiedades estadísticas Bajo el resultado de (4) Clase 2 De las ecuaciones normales resulta SSe = Syy − (α̂Sy + β̂Sxy ) = SSt − SSr a la suma Syy de los cuadrados de los yi se la llama SSt, suma de cuadrados total, mientras que a la suma SSr de las estimaciones se la llama suma de cuadrados de la regresión. SSr = α̂Sy + β̂Sxy = nα̂2 + 2Sxα̂β̂ + Sxxβ̂ 2 = = �i(α̂ + β̂xi)2 = �i η̂x2 i = Sη̂ η̂ lo que justifica el nombre de suma de cuadrados de la regresión. Su esperanza vale E(SSr ) = n σ 2 n1 + Sx̄ẋ2ẋ + α̂2 + La descomposición dice que se puede calcular la suma de los cuadrados de los residuos empezando con las observaciones, de las estimaciones de los parámetros y de los términos de derecha de las ecuaciones normales. Esto permite calcular la esperanza y la varianza de SSe : E(SSe) y V (SSe). Lima, 16/05/2015 Clase 2 "Clase 2".tex II-17 Propiedades estadísticas Por tanto la esperanza de SSe: 2 2 +2nx̄ − σSẋx̄ẋ + α̂β̂ + Sxx Sσẋẋ + β̂ 2 = 2σ 2 + (nα2 + 2Sxαβ + Sxxβ 2) Lima, 16/05/2015 "Clase 2".tex Clase 2 II-18 Propiedades estadísticas Introducimos el error cuadrado promedio E(SSe) = �i E(yi2) − SSr = �i(σ 2 + (α + βxi)2) − E(SSr ) = nσ 2 + (nα2 + 2Sxαβ + Sxxβ 2) −(2σ 2 + (nα2 + 2Sxαβ + Sxxβ 2)) = (n − 2)σ 2. M Se = su esperanza vale Al factor n − 2 se lo conoce como los grados de libertad del error. Lima, 16/05/2015 Propiedades estadísticas "Clase 2".tex II-19 SSe = n−2 � i(yi − η̂i) n−2 2 , E(M Se) = σ 2 así que M Se es un estimador insesgado de σ 2, bajo la hipótesis que el modelo es correcto, o sea que la regresión se lo es. Lima, 16/05/2015 "Clase 2".tex II-20 Clase 2 Propiedades estadísticas Análisis de varianza del modelo Resulta que la suma de cuadrados total se comparte en dos, SSt = SSr + SSe una de las cuales informa sobre los parámetros de la funcion de regresión y la otra sobre los errores. Los elementos de esta partición se suelen representar en una tabla de análisis de varianza como Lima, 16/05/2015 Clase 2 2 x "Clase 2".tex xx 2 II-21 El modelo lineal centrado El modelo lineal centrado sobre x yi E(εi) V (εi) ε y ε i j = α + β x̄ + (βxi − β x̄) + εi = ϕ + βwi + εi = 0 = σ2 independientes por cada i �= j Lima, 16/05/2015 "Clase 2".tex Se puede comprender los grados de libertad como sigue: antes de ver los datos, n yi son libres en el espacio Rn. La solución de los mínimos cuadrados a las ecuaciones normales son dos restricciones para calcular α̂ y β̂, que se encuentran en un sub-espacio de Rn de dimensión 2. Por esto, las cantidades ei = yi − ηi se encuentran en el sub-espacio complemento de dimensión n − 2, solución de las ecuaciones normales. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-22 El modelo lineal centrado La solución des los mínimos cuadrados A menudo, el interés solo se centra en el parámetro β, y en este caso se vuelve a una versión centrada del modelo lineal que consiste en centrar los xi alrededor de su promedio. Una vez introducida la variable centrada wi = xi − x̄, con �i wi = 0, se puede rescribir el modelo como sigue: Propiedades estadísticas La tabla de análisis de varianza nos muestra que las esperanzas de los cuadrados medios de la regresión y de los errores coinciden si α = β = 0. Por tanto se pueden utilizar para saber como contestar la pregunta � ¿ serían α = β = 0? � . Grados de Sumas de Cuadrados Esperanza de los cuadrados medios libertad cuadrados medios F uente E(M S) (DF ) (SS) (M S) Regresión 2 SSr SSr / 2 σ + (nα + 2S αβ + S β )/2 Error n−2 SSe SSe/(n − 2) σ2 T otal n SSt 2 Clase 2 II-23 Se obtiene minimizando SSE (ϕ, β). ∂SSe (ϕ, β) ∂ϕ ∂SSe (ϕ, β) ∂β = − 2 �i(yi − ϕ − βwi) = 0 = − 2 �i(yi − ϕ − βwi)wi = 0 que, teniendo en cuenta el centrado de los wi deja las ecuaciones nϕ̂ = Sy normales en ϕ, β, esta vez simplificadas, deja cu S ww β̂ = Swy S ϕ̂ = ny = ȳ α̂ = ȳ − β̂ x̄ ya solución es igual a la solución Sẋẏ S wy β̂ = Sww β̂ = Sẋẋ no centrada. Lima, 16/05/2015 "Clase 2".tex II-24 Clase 2 El modelo lineal centrado Las estadísticas de los estimadores y por tanto � η̂w = ϕ̂ �+ β̂w =� �i yni + �i ciyiw = �i � n1 + wci yi � = �i n1 + (x − x̄)ci yi = η̂x E(β̂) = β y V (β̂) = Lima, 16/05/2015 Clase 2 E(ϕ̂) = E(ȳ|xi) = � i(ϕ + β̂wi) n = � iϕ n + β̂ � w = ϕ ni i y que su varianza vale V (ϕ̂) = V (ȳ) = σ2 . n σ2 σ2 = . Sww Sẋẋ "Clase 2".tex II-25 El modelo lineal centrado Finalmente, Lima, 16/05/2015 "Clase 2".tex Clase 2 II-26 El modelo lineal centrado Si ahora se calcula la covarianza entre ϕ̂ y β̂, de E(η̂w ) = E(ϕ̂ + β̂x) = E(ϕ̂) + E(β̂)w = ϕ + βw = ηw y su varianza es (β̂ − β) = � i ci(yi − ηi) y (ϕ̂ − ϕ) = � j (yj − ηj ) n resulta V (η̂w ) = V (ϕ̂ + β̂w) = V i n1 +wci � � 2 = �i n1 + wci V (yi) = σ 2 n1 + 2 = σ 2 n1 + (x S−ẋẋx̄) � Lima, 16/05/2015 El modelo lineal centrado Luego, resulta que la esperanza de ϕ̂ vale: Para definir las esperanzas y las varianzas de los estimadores ϕ̂, β̂ y η̂x , se expresa β̂ como combinación lineal de los yi, β̂ = �i ciyi, i = xi−x̄ , así que resulta donde ci = Swww Sẋẋ � Clase 2 � � "Clase 2".tex � yi � (ϕ̂ − ϕ)(β̂ − β) = n1 �(yj − ηj ) �i ci(yi − ηi) = n1 �i ci(yi − ηi)2 + + n1 �i �ji�=j cj (yi − ηi)(yj − ηj ) w2 Sww Tomando las esperanzas, el primero cuadrado vale (E(ei))2 + V (ei) = σ 2 y el último término vale cero, por el tema de la independencia de los yi; II-27 Lima, 16/05/2015 "Clase 2".tex II-28 Clase 2 El modelo lineal centrado E((ϕ̂ − ϕ)(β̂ − β))� � � � 1 E � c (y − η )2 = 1 � c E (y − η )2 i i i i i i n n i i σ2 � c = 0 n i i Entonces, al contrario de α̂ y β̂, los estimadores ϕ̂ y β̂ son no correlacionados. Claro que hay una la relación entre α̂ y ϕ̂ yá que solo se hice una traslación de la origen al promedio de los x. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-29 El modelo lineal centrado 2 2 i(yi − η̂xi ) y se SSe = SSt − SSr = Syy − (ϕ̂Sy + β̂Swy ) donde la suma de los cuadrados de la regresión resulta compartida en dos, una parte dependiendo solo de ϕ̂ y la otra solo de β̂. Acordamos aquí que estas dos partes pueden escribirse de manera diferente, o sea ϕ̂Sy = nϕ̄2 = nȳ 2 y β̂Swy = β̂Sẋẏ = β̂ 2Sẋẋ. Lima, 16/05/2015 Clase 2 "Clase 2".tex II-30 El modelo lineal centrado Si la afirmación � β = 0 � es verdadera, resulta 2 = 2σ 2 + nα2 + 2Sxαβ + Snx β 2 + β 2Sẋẋ = 2σ 2 + nα2 + 2Sxαβ + Sxxβ 2 "Clase 2".tex � Grados de Sumas de Cuadrados Esperanza de los cuadrados medios libertad cuadrados medios F uente E(M S) (DF ) (SS) (M S) ϕ̂ ϕ̂Sy ϕ̂Sy 1 ϕSy + σ 2 1 βSwy + σ 2 β̂ β̂Swy β̂Swy Error n−2 SSe SSe/(n − 2) σ2 T otal n SSt = 2σ 2 + n α + β Snx + β 2Sẋẋ Para calcular E(SSe), se desarrolla SSe = encuentra Análisis de varianza del modelo centrado Se pueden calcular también las esperanzas, que resultan E(ϕ̂Sy ) = E(nȳ 2) = n(E ȳ)2 + V (ȳ)) = 2 = nȳ 2 + n σn = ϕ̂Sy + σ 2 E(β̂Swy ) = E(β̂ 2Sww ) = Sww (E(β̂)2 + V (β̂)) 2 = Sww β 2 + Sσww = β 2Sww + σ 2 = = βSwy + σ 2 y por tanto E(SSr ) = E(ϕ̂Sy + β̂Swy ) = 2σ 2 + ϕSy + βSwy Lima, 16/05/2015 El modelo lineal centrado La análisis de los residuos por tanto resulta cov(ϕ̂, β̂) = = = Clase 2 E(β̂Swy ) = E(M Se) = σ 2. II-31 Lima, 16/05/2015 "Clase 2".tex II-32 Clase 2 El modelo lineal centrado A menudo, cuando no interesa ϕ, centrando los yi resulta que SSe = SSt − SSr = Syy − ϕ̂Sy − β̂Swy = = Syy − nSy 2 − β̂Swy = Sẏẏ − β̂Swy y empleando la suma de los cuadrados centrados Clase 2 El modelo lineal centrado Sumas de Cuadrados Esperanza de los cuadrados medios Grados de cuadrados medios E(M S) F uente libertad(DF ) (SS) (M S) β̂ β̂Swy 1 SSr (β) = β̂Swy βSwy + σ 2 Error n−2 SSe SSe/(n − 2) σ2 T otal n−1 SSṫ SSṫ = Sẏẏ y SSr (β) = β̂Swy se consigue finalmente SSṫ = SSr (β) + SSe En la tabla siguiente, se sintetizan estos resultados. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-33 El modelo lineal centrado Lima, 16/05/2015 Clase 2 Como Se puede definir SSr (β) = β̂Swy como la suma de los cuadrados de la regresión adjunta debido a β, porque, escribiendo SSe = SSe(α, β) se encuentra se puede escribir Aquí suponemos que los yi son independientes, tales que E(yi) = ηi = α, y que V (yi) = σ 2. Buscando α con la estimación de los mínimos cuadrados, su solución α̂ = ȳ se encuentra minimizando SSe(α) = SSṫ = (yi − ȳ)2 = mı́n (y − α)2 α i i i � "Clase 2".tex SSr (β) = SSe(α) − SSe(α, β), E(α̂) = E(ȳ) = α y V (α̂) = E( (yi − ȳ)2) = (n − 1)σ 2 � i SSr (β) = SSṫ − SSe(α, β) Lima, 16/05/2015 II-34 El modelo lineal centrado Comparación de modelos � "Clase 2".tex que muestra que la suma de los cuadrados debido a β es en efecto la parte de la suma de cuadrados de la regresión que resulta incluyendo β en el modelo solo con α. Es evidente que, si β �= 0, con su inclusión en el modelo, la suma de los cuadrados del modelo se reduce, pues resulta que SSe(α, β) = SSe(α) − SSr (β) II-35 Lima, 16/05/2015 "Clase 2".tex II-36 Clase 2 El modelo lineal centrado Clase 2 El modelo lineal centrado La calidad del modelo Notese que Como claramente SSṫ > SSe, resulta SSr (β̂) β̂Swy Sẋẏ 2 = = SSṫ Sẏẏ SẋẋSẏẏ donde su raíz cuadrada r2 = SSe SSr (β̂) = 1 − = 1 − r2 SSṫ SSṫ A r2 se lo llama coeficiente de determinación, con : 0 ≤ r 2 ≤ 1. 1. r2 = 0 : como SSe = (1 − r 2)SSṫ , resulta SSe = SSṫ y no 2. 3. interesa β, porque el error no disminuye de ηx = ϕ = ȳ. r2 → 1 : SSe se reduce y el modelo sigue siendo más eficaz. r2 = 1 : SSe = 0 : todas las observaciones están sobre la recta de regresión: así la relación entre x y y es funcional. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-37 El modelo lineal centrado α̂ = ȳ�− β̂ x̄ � � � � S β̂ = r Sẋẏẏẋ pues α̂� = x̄�− β̂ �ȳ � � β̂ � = r�� SSẋẏẏẋ Desde el punto de vista del cálculo, α̂ y β̂ solo dependen de los promedios de las variables y de su coeficiente de correlación. Por tanto se calcula igualmente la regresión de x sobre y. Lamentablemente, ningún modelo de regresión es suficiente para afirmar la existencia de relaciones causales entre las variables, ni tampoco el sentido de dichas relaciones. Lima, 16/05/2015 "Clase 2".tex Sẋẋ = Sẏẏ Sẋẏ SẋẋSẏẏ � A r se lo llama coeficiente de correlación y varia entre -1 y 1. r es negativo cuando los xi y los yi tienen una variación opuesta. Lima, 16/05/2015 Clase 2 "Clase 2".tex II-38 Inferencia del modelo lineal Inferencia del modelo lineal Conociendo previamente r, resulta que r = β̂ � � � � � � � � � II-39 ¿Como se pueden utilizar las estadísticas que resultan de la estimación de mínimos cuadrados del modelo? Se necesita una hipótesis adicional, más precisamente la distribución D. Se impondrá que la distribución de y dado x sea normal y independiente, solo así pudiendose efectuar los test admitidos bajo esta hipótesis. También tiene que imponerse que los y sean no correlacionados. Dado x, y = DN I(α + βx, σ 2) Lima, 16/05/2015 "Clase 2".tex II-40 Clase 2 Inferencia del modelo lineal Teorema. Dado un conjunto de variables aleatorias yi, i = 1, . . . , n con distribución normal e independientes para x i dato, la distribución conjunta del estimador de mínimos cuadrados (α̂, β̂) de (α, β) es la distribución normal bivariada, cuya función de densidad vale √ nSẋẋ −T (α,β) F (α, β) = e 2σ2 2πσ 2 donde T (α, β) = n(α̂ − α)2 + 2Sx(α̂ − α)(β̂ − β) + Sxx(β̂ − β)2 Lima, 16/05/2015 Clase 2 "Clase 2".tex II-41 Inferencia del modelo lineal Corolario. La variable aleatoria T (α, β) tiene una distribución T = σ 2 χ2 2 E(α̂) = α, E(β̂) = β, 2 V (α̂) = σ 2 n1 + Sx̄ẋẋ 2 V (β̂) = Sσẋẋ y que (α̂, β̂) tenga una distribución independiente de SSe, cuya distribución es SSe = σ 2χ2n−2 y por tanto también M Se = SSe/(n − 2). Lima, 16/05/2015 "Clase 2".tex Clase 2 II-42 Inferencia del modelo lineal Definimos ahora τ̂ = a1α̂ + a2β̂. Corolario. La variable aleatoria τ̂ tiene una distribución normal (a − a1x̄)2 a 2 τ̂ = N τ, σ 2 1 + 2 n Sẋẋ T (α, β)/2 = F2,n−2 SSe/(n − 2) "Clase 2".tex Esto implica que independiente de SSe y M Se. Por tanto, introduciendo el desvío standard de τ̂ (en inglés standard deviation, SD), tiene una distribución de Fisher-Snedecor con 2 y n − 2 grados de libertad. Lima, 16/05/2015 Inferencia del modelo lineal y es independiente de SSe y M Se. Por tanto F = Clase 2 II-43 � SD(τ̂ ) = V (τ̂ ) = Lima, 16/05/2015 √ M Se � � � � � � � � � (a − a1x̄)2 a1 2 + 2 n Sẋẋ "Clase 2".tex II-44 Clase 2 Inferencia del modelo lineal y considerando que M Se es un estimador de σ 2, se encuentra que τ̂ − τ = tn−2 SD(τ̂ ) sigue una ley t de student con n − 2 grados de libertad. Fijado un nivel de probabilidad π se puede rechazar la hipótesis Clase 2 Esto teorema y su dos corolarios nos permiten utilizar las estadísticas que se construyeron en el capítulo precedente para testar la calidad de los resultados. En primero lugar, se define el intervalo de confianza para σ 2: H0 : τ = τ 0 si resulta que τ̂ − τ0 > tn−2;π/2 SD(τ̂ ) y definir el intervalo de confianza de τ a nivel de 1 - π como Inferencia del modelo lineal � � � � � σ 2 �� � � � � SSe χ2n−2;π/2 SSe ≤ σ2 ≤ χ2n−2;1−π/2 ≤ τ ≤ τ̂ + SD(τ̂ )tn−2;π/2 τ |τ̂ − SD(τ̂ )tn−2;π/2 Lima, 16/05/2015 "Clase 2".tex Clase 2 II-45 Inferencia del modelo lineal Testar la hipótesis falta de regresión Lima, 16/05/2015 Clase 2 La región de confianza para (α, β) es � o sea que el promedio de la distribución en el punto x = xi es ηi = α 0 + β 0 x i . Si H0 es verdadera, se puede emplear el test T (α0, β0)/2 ≥ F2,n−2,π (5) M Se ya que en este caso resulta F = F2,n−2. Por tanto se rechaza H0 a nivel de significatividad π si F ≥ F2,n−2,π . F = "Clase 2".tex II-46 Inferencia del modelo lineal H0 : α = α 0 y β = β 0 Lima, 16/05/2015 "Clase 2".tex II-47 (α, β)|T (α, β) ≤ 2M SeF2,n−2;π � es una elipse centrada en (α̂, β̂). En particular, para testar la hipótesis H0 : α = 0 y β = 0 se usa el test F = Lima, 16/05/2015 M Sr T (0, 0)/2 = ≥ F2,n−2,π M Se M Se "Clase 2".tex II-48 Clase 2 Inferencia del modelo lineal Se usa anchar la tabla de análisis de varianza incluyendo a las columnas del valor F encuentrado y su probabilidad asociata: F uente DF SS MS Regresión 2 SSr M Sr Error n − 2 SSe SSe/(n − 2) T otal n SSt E(M S) σ 2 + (nα2 + 2Sx αβ + Sxx β 2 )/2 σ2 pvalue F M Sr /M Se p Clase 2 Inferencia del modelo lineal Para testar la hipótesis H0 : β = β 0 , como resulta SD(β̂) = se consigue el teste � � � � � � � � M Se Sẋẋ β̂ − β0 > tn−2;π/2 SD(β̂) y el interval de confianza ≤ β ≤ β̂ + SD(β̂)tn−2;π/2 β|β̂ − SD(β̂)tn−2;π/2 Lima, 16/05/2015 "Clase 2".tex Clase 2 II-49 Inferencia del modelo lineal Para testar la hipótesis se consigue el teste � � � � � � � � � M Se SD(η̂) = x̄2 1 + n Sẋẋ se consigue el teste � � � � � � � � � como resulta 1 (x − x̄)2 M Se + 0 n Sẋẋ y el intervalo de confianza es y su interval de confianza α|α̂ − SD(α̂)tn−2;π/2 ≤ α ≤ α̂ + SD(α̂)tn−2;π/2 . "Clase 2".tex η̂ = η0 η̂ − η0 > tn−2;π/2 SD(η̂) α̂ − α0 SD(α̂) > tn−2;π/2 Lima, 16/05/2015 II-50 Inferencia del modelo lineal Para testar la hipótesis SD(α̂) = "Clase 2".tex Clase 2 H0 : α = α 0 como resulta Lima, 16/05/2015 II-51 η|η̂ − SD(η̂)tn−2;π/2 ≤ η ≤ η̂ + SD(η̂)tn−2;π/2 Se puede observar que el ancho del intervalo de confianza crece si x se aleja del promedio y aumenta con V (x). Lima, 16/05/2015 "Clase 2".tex II-52 Clase 2 Inferencia del modelo lineal Necesitamos observar que puede ser que ambos α y β se encuentran cada uno en su intervalo de confianza pero que el par no se encuentra en el elipse de la región de confianza. En esto caso tiene que pedirse cual es el objetivo del estudio: si se va a buscar β, entonces solo interesa esto y por tanto su intervalo de confianza; si al contrario nos interesa α y β, será necesario limitarse dentro de la región de confianza. Clase 2 La falta de ajuste La falta de ajuste del modelo lineal En todo lo que precede, se hizo la hipótesis que la relación entre x y y era conocida como lineal o esta era una buena aproximación lineal. En realidad es importante de comprobar que la relación entre entre x y y sea lineal y se necesita por tanto averiguar lo que se llama la falta de ajuste del modelo lineal. Por cada xi, la recta de regresión pasa por el punto ηxi = E(yi|xi) que corresponde al promedio de los yi que se encuentran en correspondencia del valor xi. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-53 La falta de ajuste Si la relación que se trata como lineal no es tal, ninguna recta va pasar para todos los promedios. En consecuencia M Se, el estimador de la varianza disponible para σ 2, que depende del modelo empleado mediando los desvíos por respecto de puntos diferentes del promedio, va sobreestimar la varianza. Entonces se trata de estimar la varianza de los yi de una otra manera y comparar las dos. Para una medida de la varianza de los yi se necesitan po a lo menos uno de los xi correspondientes por lo menos a dos medidas yi1 y yi2, aunque para una buena estimación claro que seria preferible conocer diversos valores yij por cada xi. Lima, 16/05/2015 "Clase 2".tex II-55 Lima, 16/05/2015 "Clase 2".tex Clase 2 II-54 La falta de ajuste Supongamos por tanto haber elegido m > 3 valores xi, i = 1, 2, ..., m y por cada uno haber medido ni valores yij , j = 1, 2, ..., ni con la menos uno ni > 1. Los estimadores de mínimos cuadrados se pueden calcular como siempre, mientras las fórmulas se pueden escribir de manera diferente. De hecho, si �m i=1 ni = n se tiene Lima, 16/05/2015 x̄ = � ȳ = � m nx i=1 i i n m �n i y i=1 j=1 ij n �m = = i=1nniȳi. � �n i m n j1 yij i=1 i ni "Clase 2".tex n II-56 Clase 2 La falta de ajuste y la solución de mínimos cuadrados resulta α̂ = ȳ − β̂ x̄ S β̂ = sẋẋẋẏ = = � ni �n i j=1 (yij −ȳi.)+ j=1 (ȳi.−ȳ) sẋẋ �m i=1 ni(xi−x̄)(ȳi.−ȳ) sẋẋ � m (x −x̄) i=1 i � � = Igualmente, la suma de los cuadrados de los residuos vale SSe = n�i m � i=1 j=1 (yij − η̂i)2 Si la regresión no es lineal, entonces los yij informan sobre los valores verdaderos y η̂ solo informa sobre la linealidad. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-57 La falta de ajuste En dicho análisis de varianza el término de error es la suma de los cuadrados intra SSW . Grados de Sumas de cuadrados Cuadrados Fuente libertad (DF) (SS) medios (MS) E(MS) 2 Inter m−1 SSB = �m SSB /(m − 1) i=1 ni (ȳi . − ȳ) � �m �ni Intra n − m = (nj − 1) SSW = i=1 j=1(yij − ȳi.)2 SSW /(n − m) σ2 � �m �ni 2 Total n − 1 = nj − 1 SST = i=1 j=1(yij − ȳ) Se observa que la relación SST = SSB + SSW resulta pues ni m � � i=1 j=1 (yij − ȳ)2 = = = ni m � � i=1 j=1 ni m � � i=1 j=1 ni m � � i=1 j=1 Lima, 16/05/2015 ((yij − ȳi.) + (ȳi. − ȳ))2 = (yij − ȳi.)2 + 2 ni m � � i=1 j=1 m � (yij − ȳi.) + i=1 (ȳi. − ȳ)2 + 2 ni(ȳi. − ȳ) m � i=1 (ȳi. − ȳ) ni � j=1 (yij − ȳi.) = 2 "Clase 2".tex II-59 Clase 2 La falta de ajuste por esto SSe además que informar sobre σ 2 tiene que informar también sobre el desvío a la linealidad de la función verdadera y sera mas grande que σ 2. Como se repitieron algunas medidas para los mismos xi se está en condición de medir σ 2 y por tanto de comprobar su diferencia con SSe. Para esto se hace una análisis de varianza sobre los datos, compuestos de m grupos de ni observaciones bajo la asunción que las esperanzas de los y en cada grupo resultan de la recta de regresión E(yij |xi) = α̂ + β̂xi , i = 1, 2, ..., m si bien que se duda que esas sean diferentes. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-58 La falta de ajuste SSW , suma de cuadrados intra solo informa sobre σ 2, pues es formada de sumas de desvíos al promedio en cada grupo. Como en cada grupo los y tienen una distribución independiente e idéntica, con promedio ηxi = E(yi|xi) y varianza V (yij ) = σ 2, resulta m n�i m � E(SSW ) = E (yij − ȳi.)2 = σ 2 (ni−1) = σ 2(n−m) i=1 j=1 i=1 � Por tanto M SW = SSW /(n−m) es un estimador insesgado de σ 2, que no depende del modelo de regresión. Lima, 16/05/2015 "Clase 2".tex II-60 Clase 2 La falta de ajuste Ahora, como ya se hizo una regresión lineal, se puede compartir SSB , con m − 1 grados de libertad, en dos partes: una SSR(β) que resulta de la regresión, y una otra, que se va indicar con SSM con m − 2 grados de libertad, así que SSM = SSB − SSr (β) con E(SSM ) = (m − 2)σ 2 + Λ2 la esperanza de SSM vale Λ2 = 0 si la hipótesis de linealidad es correcta. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-61 La falta de ajuste Por tanto se puede no aceptar la hipótesis de linealidad a nivel de significatividad π si FM = M SM > Fm−2,n−m;π M SW y aceptarla en caso contrario. Integrando el test a la tabla: pFuente DF SS MS E(M S) F value Inter 1 SSr (β) SSr (β) σ + β S + g(Λ) Regresión Λ2 Inter falta (m − 2) SSM M SM σ 2 + (m−2) M SM /M SW p 2 Intra n − m SSW M SW σ Total n−1 SST 2 Lima, 16/05/2015 2 ẋẋ α "Clase 2".tex II-63 Clase 2 La falta de ajuste Por tanto se reconstruye la tabla de análisis de varianza como: Gr. lib. Sumas de Cuadr. med. Esperanza c.m. (DF) cuadrados (SS) (MS) Fuente E(MS) Inter 1 SSr (β) SSr (β) σ 2 + β 2Sẋẋ + g(Λ)α Regresión Λ2 Inter falta (m − 2) SSM = SSB − SSr (β) M SM σ 2 + (m−2) � Intra n − m SSW = ij (yij − ȳi.)2 M SW σ2 Total n−1 SST = �ij (yij − ȳ)2 Para testar el ajuste del modelo, bajo la hipótesis de normalidad de la distribución de los yij , si el modelo es lineal, la proporción entre M SM y M SW tiene una distribución F con m − 2 y n − m grados de libertad. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-62 La falta de ajuste Se puede dejar la tabla de análisis de varianza de la regresión considerando compartido SSe en lugar de SSB , porque resulta SST = SSr (β) + SSe SSe = SSM + SSW Si la hipótesis de linealidad no es aceptada, cualquier relación no lineal puede ser comprobada. Sin observaciones repetidas, es necesario observar la distribución de los residuos sobre gráficos de dispersión en respecto a x y η̂: si se distribuyen regularmente en una cinta alrededor de la recta horizontal e = 0, se pueden aceptar las hipótesis hechas, en particular homocedasticidad y linealidad. Lima, 16/05/2015 "Clase 2".tex II-64 Clase 2 La predicción La predicción Un modelo de regresión se puede emplear para estimar datos y correspondientes a valores x que pero no se midieron. Claro que se supone que los parámetros del modelo ya fueron estimados y las hipótesis necesarias ya fueron testadas, inclusivo del ajuste. Por tanto se piensa a un modelo lineal E(y | x) = ηx = α + βx η̂x = α̂ + β̂x. "Clase 2".tex Clase 2 Ahora se quiere pronosticar y, o sea se quiere estimar un nuevo valor de y cuando x = x0, donde y será medido independientemente de los datos utilizados en la regresión. Por esto se va buscando un predictor adecuado ỹx0 de una respuesta Y observada en correspondencia del valorx = x0, sobre la base de la información contenida en la muestra {(xi, yi)}, i = 1, ..., n. Parece razonable utilizar como predictor ỹx0 = α̂ + β̂x0 E(ỹx0 | (xi, yi), i = 1, 2, ...n) = E(y | x0) = ηx0 = α + βx0. II-65 La predicción La elección de ỹx0 se basa en el hecho que su desvío entre el valor pronosticado y observado es mínimo, en fórmulas E((ỹx0 − y)2 | (xi, yi), i = 1, 2, ...n) = 2 2 = E((ỹ x0 − ηx0 ) |(xi, yi), i = 1, 2, ...n) + E((y − ηx0 ) |x0) = 2 = σ 2 1 + n1 + (x0S−x̄) ẋẋ dado que el producto cruzado es cero por la independencia de y de ỹx0 . Por el teorema de Gauss el primer término es mínimo entre todos los predictores de V (ηx0 ), lineal en los yi, y el segundo claramente que vale σ 2. Lima, 16/05/2015 "Clase 2".tex II-67 "Clase 2".tex Clase 2 II-66 La predicción El desvío estandar del predictor es SD(ỹx0 ) = � � � � � � � � � (x − x̄)2 1 , M Se 1 + + 0 n Sẋẋ y se puede testar la hipótesis nula H0 : ỹx0 = y0 a través de ỹx0 − y0 > tn−2;π/2 SD(ỹx0 ) y el intervalo de confianza es Lima, 16/05/2015 La predicción en tanto que su esperanza, como y es independiente de la muestra, es cuyos parámetros ya fueron estimados, así que resulta Lima, 16/05/2015 Clase 2 y|ỹx0 − SD(ỹx0 )tn−2;π/2 ≤ y ≤ ỹx0 + SD(ỹx0 )tn−2;π/2 Lima, 16/05/2015 "Clase 2".tex II-68 Clase 2 Ejemplo Clase 2 Ejemplo Paí s Tajo urbano x IDH y Argentina 86 0.833 Bolivia 51 0.394 Brasil 75 0.739 Chile 86 0.863 Colombia 70 0.758 Ecuador 56 0.641 Guyana 35 0.539 Panamá 54 0.731 Paraguay 48 0.637 Perú 70 0,600 Suriname 48 0,749 Uruguay 86 0.880 Venezuela 84 0,824 Suma 849 9.188 Promedio 65.308 0.707 Lima, 16/05/2015 "Clase 2".tex II-69 Clase 2 Ejemplo Para las variables estan las estadísticas siguientes: Estadística Mínimo Máximo Moyenne Total Suma de cuadrados Cuadrados centrados Varianza Desvío estándar Lima, 16/05/2015 Ejemplo x 35 86 65.308 849 59155 3708.767 285.2898 16.89052 y 0.394 0.88 0.70615 9.188 6.730488 0.2366924 0.0182071 0.1349337 "Clase 2".tex Lima, 16/05/2015 "Clase 2".tex Clase 2 II-70 Ejemplo donde se construye la tabla de análisis de varianza del modelo siguiente: xy Gr. lib. Fuente (DF) Regresión 2 Error 11 Total 13 622.094 22.0469 1.6959 0.74412 Sumas de cuadrados Cuadrados F Probabilidad medios (MS) (SS) 6.6248540 3.3124270 344.9337049 0.0000000 0.1056339 0.0096031 6.7304880 El valor de F obtenido tiene que compararse con el valor de referéncia F2,11;,05 = 3, 9822: en este caso por tanto, la regresión tiene sentido. II-71 Lima, 16/05/2015 "Clase 2".tex II-72 Clase 2 Ejemplo La estimación de α y β es la siguiente: Los valores t encontrados deben ser comparados a los valores de la función t de student con 11 grados de libertad, correspondiendo a la probabilidad de 0,025, que vale 2,201. Entonces, ambas estimaciones son significativas a nivel de 5 %. La covarianza entre α y β vale −.0001691. "Clase 2".tex Clase 2 II-73 Ejemplo Como hay repeticiones de valores de y con respecto al mismo valor de x, se puede comprobar si ay falta de ajuste lineal. Precisamente, hay - tres observaciones para x = 86, con SS = 0,00113267, - dos para x = 70, con SS = 0,012482 y - dos para x = 48, con SS = 0,006272. Entonces, resulta SSw = 0, 01988667, donde la tabla de análisis de varianza por la falta de ajuste es: Lima, 16/05/2015 "Clase 2".tex Ejemplo La tabla de análisis de varianza con interés sobre β es la siguente: Estimación Desvío estándar t p-value beta 0.005945 0.00160912 3.69426936 0.001768371 alpha 0.31854511 0.10854596 2.934656 0.006788444 Lima, 16/05/2015 Clase 2 II-75 Grados de libertad Fuente (DF) β 1 Error 11 Total 13 Sumas de cuadrados Cuadrados F Probabilidad medios (MS) (SS) 0.1310587 0.1310587 13.6475641 0.0035366 0.1056339 0.0096031 0.2366924 Se observa que F1,11;,05 = 4, 8442. El coeficiente de determinación R2 vale .5537090, así que la correlación entre x y y es .7441162. Lima, 16/05/2015 "Clase 2".tex Clase 2 Grados de libertad Fuente (DF) SSb 8 SSr(β) 1 SSm 7 SSw 4 SSt 12 II-74 Ejemplo Sumas de cuadrados Cuadrados F Probabilidad (SS) medios (MS) 0.21681 0.02710071 5.4510302 0.0595 0.13105879 0.13105879 0.08574685 0.01224955 2.4638719 0.2006 0.01989 0.00497167 0.23669 El segundo valor de F es lo que nos interesa (el primero no tiene interés en este caso) y tiene que ser comparado conF7,4;0,5 = 6, 09. Se puede concluir aceptando la hipótesis nula que hay ajuste lineal. Lima, 16/05/2015 "Clase 2".tex II-76 Clase 2 Ejemplo Nótese que programar la falta de linearidad no es fácil en R. Por tanto se sugiere de emplear la misma función del modelo lineal lm una vez normalmente y una otra tratando x como factor. En este caso el resíduo es efectivamente la estimación de la varianza σ 2 que se va buscando. Para el teste se usa la función anova fm <- lm(y~x) # lfm<-lm(y~factor(x)) # anova(fm,lfm) Analysis of Variance Table # Model 1: y ~ x Model 2: y ~ factor(x) Res.Df RSS Df Sum of Sq F 1 11 0.107634 2 4 0.020117 7 0.087517 2.486 modelo lineal modelo factorial Ejemplo SudAmerica (solo 2 decimales) Pr(>F) 0.1982 En este caso, se acepta la linearidad, pues F no es significativo: F = (M Sq/df )/(RSS/df ) = (0,087517/7)/(0,020117/4) = 2,486. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-77 Ejemplo Gráfico de los datos con los valores estimados Lima, 16/05/2015 "Clase 2".tex Clase 2 Paí s Argentina Bolivia Brasil Chile Colombia Ecuador Guyana Panamá Paraguay Perú Suriname Uruguay Venezuela Sumas xx 7396 2601 5625 7396 4900 3136 1225 2916 2304 4900 2304 7396 7056 59155 Ejemplo xy 71.638 20.094 55.425 74.218 53.060 35.896 18.865 39.474 30.576 42.000 35.952 75.680 69.216 622.094 yy 0.69389 0.15524 0.54612 0.74477 0.57456 0.41088 0.29052 0.53436 0.40577 0.36000 0.56100 0.77440 0.67898 6.73049 η 0.830 0.622 0.764 0.830 0.735 0.651 0.527 0.640 0.604 0.735 0.604 0.830 0.818 9.188 η2 0.68853 0.38653 0.58429 0.68853 0.53973 0.42437 0.27731 0.40902 0.36467 0.53973 0.36467 0.68853 0.66894 6.62485 SDη 0.04298 0.03562 0.03134 0.04298 0.02821 0.03103 0.05583 0.03271 0.03891 0.02821 0.03891 0.04298 0.04054 SD prev 0.10701 0.10427 0.10288 0.10701 0.10197 0.10279 0.11278 0.10331 0.10544 0.10197 0.10544 0.10701 0.10605 e 0.00322 −0.22772 −0.02539 0.03322 0.02334 -0.01044 0.0124 0.09145 0.03312 −0.13466 0.14512 0.05022 0.00611 0.00000 e2 0 0.05185 0.0006 0.0011 0.0005 0.0001 0.0002 0.00836 0.0011 0.01813 0.02106 0.00252 0 0.10563 DCook 0.000058 0.48193 0.00350 0.01540 0.00346 0.00081 00556 0.05898 0.01455 0.09010 0.24141 0.04069 0.00018 Para estimar los outliers se utiliza la distancia de Cook � ) j (η̂j −η̂ Di = kM SEj(i) con η̂j(i) la estimación hecha sin la observación i y k el número de parametros. Como en este caso es más grande de 4/n = 0,30769, la Bolívia si resulta ser un outlier pero no Suriname. Lima, 16/05/2015 "Clase 2".tex Clase 2 II-78 Ejemplo Gráfico de valores predictos y estimados II-79 Lima, 16/05/2015 "Clase 2".tex II-80 Clase 2 Ejemplo Gráfico de resíduos contra Tajo de urbanización Lima, 16/05/2015 "Clase 2".tex Clase 2 Ejemplo Gráfico de resíduos contra IDH II-81 Lima, 16/05/2015 "Clase 2".tex II-82