Regresión Múltiple (SW Capítulo 5) Estimación MCO de la relación entre las notas y el número de estudiantes por profesor: ! = 698.9 – 2.28¥STR, R2 = .05, SER = 18.6 Notas (10.4) (0.52) ¿es ésta una estimación creíble del efecto causal de un cambio en el número de estudiantes por profesor sobre las notas? No: existen factores omitidos (como la renta familiar o si los estudiantes hablan un inglés nativo) que sesgan el estimador MCO: STR podría “recoger” el efecto de dichos factores. 5-1 Sesgo de Variables Omitidas (SW Sección 5.1) El sesgo en el estimador MCO que ocurre como consecuencia de un factor omitido se denomina sesgo de variables omitidas. Para que ocurra el sesgo de variables omitidas, el factor omitido “Z” debe ser: 1. un determinante de Y; y 2. correlacionado con el regresor X. Ambas condiciones deben cumplirse para que la omisión de Z produzca un sesgo de variables omitidas. 5-2 En el ejemplo anterior: 1. La habilidad para hablar en inglés (si el inglés es la segunda lengua del estudiante) plausiblemente afectará a las notas: Z es un determinante de Y. 2. Las comunidades de inmigrantes tienden a tener menores presupuestos escolares – y mayor STR: Z está correlacionada con X. • Por tanto, βˆ1 será sesgado • ¿Cuál es la dirección del sesgo? • ¿qué sugiere el sentido común? • Si el sentido común se equivoca, existe una fórmula... 5-3 Fórmula del sesgo de variables omitidas: 1 n vi ( X i − X )u i ∑ ∑ n i =1 i =1 ˆ β1 – β1 = n = n −1 2 2 (Xi − X ) ∑ sX n i =1 n donde vi = (Xi – X )ui ≅ (Xi – µX)ui. La hipótesis #1 de MCO, E[(Xi – µX)ui] = cov(Xi,ui) = 0. Pero ¿qué ocurre si E[(Xi – µX)ui] = cov(Xi,ui) = σXu ≠ 0? 5-4 Entonces 1 n vi ( X i − X )u i ∑ ∑ n i =1 i =1 ˆ β1 – β1 = n = n −1 2 2 (Xi − X ) ∑ sX n i =1 n por tanto n ∑ ( X i − X )u i σ Xu σ u σ Xu i =1 ˆ E( β1 ) – β1 = E n × ≅ 2 = σ σ σ σ ( X − X )2 X X X u ∑ i i =1 donde ≅ es = cuando n es grande; en concreto, σu ˆ β1 → β1 + σX p ρ Xu , donde ρXu = corr(X,u) 5-5 Fórmula del sesgo de variables omitidas: σu ˆ β1 → β1 + ρ Xu . σX p Si un factor omitido Z es simultáneamente: (1) un determinante de Y (contenido en u); y (2) correlacionado con X, entonces ρXu ≠ 0 y el estimador MCO βˆ1 será sesgado. Aquellos distritos con un menor número de estudiantes de inglés (EL), (1) obtienen mejores notas y (2) tienen mayor presupuesto escolar; por tanto, ignorar el factor EL sesga hacia arriba el efecto del STR. ¿Es esto cierto en los datos CA? 5-6 • Distritos con menor EL obtienen mejores notas • Con menor porcentaje de EL (PctEL), hay menor STR. • En distritos con PctEL comparable, el efecto de STR es pequeño 5-7 Tres formas de evitar el sesgo de variables omitidas 1. Llevar a cabo un experimento controlado aleatorio en el que STR esté asignado aleatoriamente: entonces PctEL sería todavía un determinante de las notas, pero estaría incorrelacionada con STR. (Esta situación no es realista en la práctica.) 2. “Tabulación cruzada”, con mayor graduación de STR y PctEL ( pronto nos quedaremos sin datos y ¿qué ocurre con otros determinantes como la renta familiar y la educación de los padres?) 3. Incluir PctEL como un regresor adicional en una regresión múltiple. 5-8 El Modelo de Regresión Poblacional Múltiple (SW Section 5.2) Considerar la situación con dos regresores: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • X1, X2 son las variables independientes (regresores) • (Yi, X1i, X2i) es la i-ésima observación en Y, X1, y X2. • β0 = ordenada en el origen • β1 = efecto en Y de un cambio en X1, manteniendo X2 constante • β2 = efecto en Y de un cambio en X2, manteniendo X1 constante • ui = “término de error” (factores omitidos) 5-9 Interpretación de los coeficientes Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Cambiemos X1 en ∆X1 manteniendo X2 constante: Recta de regresión poblacional antes del cambio: Y = β0 + β1X1 + β2X2 Recta de regresión poblacional, después del cambio: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 5-10 Antes: Y = β0 + β1X1 + β2X2 Después: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 Diferencia: Entonces, ∆Y = β1∆X1 ∆Y β1 = , manteniendo X2 constante ∆X 1 también, ∆Y , manteniendo X1 constante β2 = ∆X 2 y β0 = predicción de Y cuando X1 = X2 = 0. 5-11 El Estimador MCO en una Regresión Múltiple (SW Section 5.3) Con dos regresores, el estimador MCO resuelve: n min b0 ,b1 ,b2 ∑ [Yi − (b0 + b1 X 1i + b2 X 2i )]2 i =1 • El estimador MCO minimiza la media de las diferencias al cuadrado entre los valores de Yi y sus predicciones a partir de la recta de regresión estimada. • El problema de minimización se resuelve empleando cálculo matemático • El resultado son los estimadores MCO de β0 y β1. 5-12 Ejemplo: Datos de CA ! = 698.9 – 2.28¥STR Notas Ahora, incluimos PctEL: ! = 696.0 – 1.10¥STR – 0.65PctEL Notas • ¿Qué ocurre con el coeficiente de STR? • ¿Por qué? (Pista: corr(STR, PctEL) = 0.19) 5-13 Regresión múltiple en STATA reg testscr str pctel, robust; Regression with robust standard errors Number of obs F( 2, 417) Prob > F R-squared Root MSE = = = = = 420 223.82 0.0000 0.4264 14.464 -----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616 pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786 _cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189 ------------------------------------------------------------------------------ ! = 696.0 – 1.10¥STR – 0.65PctEL Notas ¿Cuáles son las distribuciones muestrales de βˆ1 y βˆ2 ? 5-14 Hipótesis del MCO en la Regresión Múltiple (SW Section 5.4) Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n 1. La distribución condicional de u dadas las X’s posee media cero, es decir, E(u|X1 = x1,…, Xk = xk) = 0. 2. (X1i,…,Xki,Yi), i =1,…,n, son i.i.d. 3. X1,…, Xk, y u poseen momentos de cuarto orden: E( X 1i4 ) < ∞,…, E( X ki4 ) < ∞, E( ui4 ) < ∞. 4. No existe multicolinealidad perfecta. 5-15 Hipótesis #1: la media condicional de u dadas la X’s incluidas es cero. • Posee la misma interpretación que en la regresión con un único regresor. • Si una variable omitida (1) pertenece a la ecuación (por tanto está en u) y (2) está correlacionada con una variable incluida X, entonces esta condición no se cumple • Incumplimiento de esta condición lleva al sesgo de variables omitidas • La solución – si es posible – es incluir la variable omitida en la regresión. 5-16 Hipótesis #2: (X1i,…,Xki,Yi), i =1,…,n, son i.i.d. Se cumple automáticamente con el muestreo aleatorio simple. Hipótesis #3: momentos de cuarto orden finitos Esta es una hipótesis técnica que se satisface automáticamente para variables con un dominio acotado (notas, PctEL, etc.) Hipótesis #4: No existe de multicolinealidad perfecta Multicolinealidad Perfecta se produce cuando uno de los regresores es una función lineal exacta de otros regresores. 5-17 Ejemplo: Suponer que accidentalmente se incluye dos veces STR: regress testscr str str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 str | (dropped) _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 ------------------------------------------------------------------------- β1 es el efecto sobre Notas de un cambio unitario en STR, manteniendo STR constante (???) 5-18 Segundo ejemplo: Llevar a cabo la regresión de Notas sobre una constante, D, y B, donde: Di = 1 si STR ≤ 20, = 0 caso contrario; Bi = 1 si STR >20, = 0 caso contrario; por tanto, Bi = 1 – Di y existe multicolinealidad perfecta • ¿Existiría multicolinealidad perfecta si la ordenada en el origen se eliminara de la regresión? • Multicolinealidad Perfecta generalmente refleja un error en las definiciones de los regresores, o un problema en los datos 5-19 La Distribución Muestral del Estimador MCO (SW Section 5.5) Considerando las cuatro Hipótesis del MCO, • βˆ1 posee media β1 y var( βˆ1 ) inversamente proporcional a n. • La distribución exacta es muy complicada p • βˆ1 es consistente: βˆ1 → β1 (LLN) βˆ1 − E ( βˆ1 ) • se distribuye aproximadamente como var( βˆ ) 1 N(0,1) (CLT) • Igualmente para βˆ2 ,…, βˆk 5-20 Contrastes de Hipótesis e Intervalos de Confianza para un Coeficiente de la Regresión Múltiple (SW Section 5.6) βˆ1 − E ( βˆ1 ) • se distribuye aproximadamente N(0,1) var( βˆ ) 1 • Por tanto, es posible contrastar hipótesis sobre β1 mediante el estadístico habitual t, y los intervalos de confianza mediante { βˆ1 ± 1.96×SE( βˆ1 )}. • Igual para β2,…, βk. • βˆ1 y βˆ2 , en general, no se distribuyen independientemente– tampoco lo están sus estadísticos t. 5-21 Ejemplo: Datos de CA (1) ! = 698.9 – 2.28¥STR Notas (10.4) (0.52) (2) ! = 696.0 – 1.10¥STR – 0.650PctEL Notas (8.7) (0.43) (0.031) • El coeficiente de STR en (2) representa el efecto sobre Notas de un cambio unitario en STR, manteniendo constante PctEL. • El coeficiente de STR disminuye a la mitad • 95% intervalo de confianza para el coeficiente de STR en (2) es {–1.10 ± 1.96×0.43} = (–1.95, –0.26) 5-22 Contrastes de Hipótesis Conjuntas (SW Section 5.7) Expn = gastos por estudiante. Considerar el modelo de regresión poblacional: Notasi = β0 + β1STRi + β2Expni + β3PctELi + ui Hipótesis nula: “los recursos escolares no importan,” H0: β1 = 0 y β2 = 0 vs. H1: bien β1 ≠ 0 ó β2 ≠ 0 ó ambas 5-23 Notasi = β0 + β1STRi + β2Expni + β3PctELi + ui H0: β1 = 0 y β2 = 0 vs. H1: bien β1 ≠ 0 ó β2 ≠ 0 ó ambas Una hipótesis conjunta especifica un valor para dos o más coeficientes; es decir, impone una restricción en dos o más coeficientes. • Un contraste de “sentido común” consistiría en rechazar cuando cualesquiera de los estadísticos individuales t excediera de 1.96 en valor absoluto. • ¡Pero el “sentido común” no funciona! El contraste resultante no posee el nivel de significación adecuado! 5-24 Explicación: Cálculo de la probabilidad de rechazar incorrectamente la hipótesis nula empleando el contraste de “sentido común” a partir de dos estadísticos t individuales. Para simplificar los cálculos, suponer que βˆ1 y βˆ2 están independientemente distribuidos. Sean t1 y t2 los estadísticos t: βˆ1 − 0 βˆ2 − 0 y t2 = t1 = ˆ SE ( β1 ) SE ( βˆ2 ) El contraste de “sentido común” es: rechazar H0: β1 = β2 = 0 si |t1| > 1.96 y/o |t2| > 1.96 ¿Cuál es la probabilidad de que este contraste de “sentido común” rechace H0, cuando H0 es en realidad verdadera? (Debería ser 5%.) 5-25 Probabilidad de rechazar incorrectamente la nula = PrH [|t1| > 1.96 y/o |t2| > 1.96] 0 = PrH [|t1| > 1.96, |t2| > 1.96] 0 + PrH [|t1| > 1.96, |t2| ≤ 1.96] 0 + PrH [|t1| ≤ 1.96, |t2| > 1.96] 0 (eventos disjuntos) = PrH [|t1| > 1.96] × PrH [|t2| > 1.96] 0 0 + PrH [|t1| > 1.96] × PrH [|t2| ≤ 1.96] 0 0 + PrH [|t1| ≤ 1.96] × PrH [|t2| > 1.96] 0 0 (t1, t2 son independientes por hipótesis) = .05×.05 + .05×.95 + .95×.05 = .0975 = 9.75% – que no es el deseado 5%!! 5-26 El tamaño de un contraste es la tasa de rechazo bajo la hipótesis nula. • ¡El tamaño del contraste de “sentido común” no es 5%! • Su tamaño en realidad depende de la correlación entre t1 y t2 (y por tanto, de la correlación entre βˆ1 y βˆ2 ). Dos Soluciones: • Emplear un valor crítico diferente en este procedimiento, – no 1.96 (este es el método de “Bonferroni” – ver App. 5.3) • Emplear un contraste estadístico diferente, que contraste ambos β1 y β2 a la vez: el estadístico F. 5-27 El estadístico F El estadístico F contrasta todos los elementos de una hipótesis conjunta a la vez. Fórmula para el caso especial de la hipótesis conjunta β1 = β1,0 y β2 = β2,0 en una regresión con dos regresores: 2 2 1 t1 + t2 − 2 ρˆ t1 ,t2 t1t2 F= 2 2 1 − ρˆ t1 ,t2 donde ρˆ t ,t estima la correlación entre t1 y t2. 1 2 Rechazar cuando F es “grande” 5-28 El estadístico F, 2 2 + t t 1 1 2 − 2 ρˆ t1 ,t2 t1t2 F= 2 2 1 − ρˆ t1 ,t2 • El estadístico F es grande cuando t1 y/o t2 es grande • El estadístico F corrige (de forma adecuada) la correlación entre t1 y t2. • La formula para más de dos β’s es complicada a menos que se emplee álgebra matricial. • Proporciona al estadístico F una distribución aproximada en muestras-grandes, que es… 5-29 Distribución de muestras grandes del estadístico F Considerar el caso especial en el que t1 y t2 son p independientes, por tanto ρˆ t ,t → 0; en muestras grandes 1 2 la fórmula se convierte en 2 2 + t t 1 2 2 1 1 2 − 2 ρˆ t1 ,t2 t1t2 ≅ (t1 + t2 ) F= 2 2 2 1 − ρˆ t1 ,t2 • Bajo la hipótesis nula, t1 y t2 poseen distribuciones normales estándar; en este caso especial, serían independientes • La distribución de muestras grandes del estadístico F es la distribución de la media de dos variables aleatorias normales independientes al cuadrado. 5-30 La distribución chi-cuadrado con q grados de libertad ( χ q2 ) se define como la distribución de la suma de q variables aleatorias independientes normales al cuadrado. En grandes muestras, F se distribuye como χ q2 /q. Selección de valores críticos de χ q2 /q q 1 2 3 4 5 5% valor crítico 3.84 (¿por qué?) 3.00 (el caso q=2 anterior) 2.60 2.37 2.21 5-31 p-valor empleando el estadístico F: p-valor = probabilidad de la cola derecha de χ q2 /q a partir del valor calculado del estadístico F. Implementación en STATA Emplear el comando “test” después de la regresión Ejemplo: Contrastar la hipótesis conjunta de que los coeficientes poblacionales de STR y gastos por estudiante (expn_stu) son ambos cero contra la alternativa de que al menos uno de ellos es distinto de cero. 5-32 Ejemplo de Contraste F, Datos de CA: reg testscr str expn_stu pctel, r; Regression with robust standard errors Number of obs F( 3, 416) Prob > F R-squared Root MSE = = = = = 420 147.20 0.0000 0.4366 14.353 -----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203 expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751 pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446 _cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641 -----------------------------------------------------------------------------NOTE test str expn_stu; ( 1) ( 2) The test command follows the regression str = 0.0 expn_stu = 0.0 F( 2, 416) = Prob > F = There are q=2 restrictions being tested 5.43 0.0047 The 5% critical value for q=2 is 3.00 Stata computes the p-value for you 5-33 Dos cuestiones (relacionadas) no consideradas: 1. Sólo versiones homoscedásticas del estadístico F 2. La distribución “F” F con homoscedasticidad (“regla rápida”) Para calcular el estadístico F con homoscedasticidad: • Emplear la formulas anteriores, pero empleando únicamente errores estándar homoscedásticos; o • Realizar dos regresiones, una bajo la hipótesis nula (regresión “restringida”) y otra bajo la hipótesis alternativa (regresión “sin restringir”). • El segundo método posee una fórmula sencilla 5-34 Regresiones “restringidas” y “sin restringir” Ejemplo: ¿son los coeficientes de STR y Expn cero? Regresión poblacional restringida (es decir, bajo H0): Notasi = β0 + β3PctELi + ui (¿por qué?) Regresión poblacional sin restringir (bajo H1): Notasi = β0 + β1STRi + β2Expni + β3PctELi + ui • El número de restricciones bajo H0 = q = 2. • El ajuste será mayor (R2 mayor) en la regresión sin restricciones (¿ por qué?) 5-35 ¿Cuánto deberá incrementar el R2 para que los coeficientes en Expn y PctEL se consideren estadísticamente significativos? Fórmula sencilla para el estadístico F con homoscedasticidad: F= 2 ( Rno2 restringido − Rrestringido )/q (1 − Rno2 restringido ) /( n − kno restringido − 1) donde: 2 Rrestringido = R2 en la regresión restringida Rno2 restringido = R2 en la regresión sin restringir q = número de restricciones bajo la hipótesis nula kno restringido = número de regresores en la regresión sin restringir. 5-36 Ejemplo: Regresión restringida: ! = 644.7 –0.671PctEL, R 2 Notas restringido = 0.4149 (1.0) (0.032) Regresión sin restringir: ! = 649.6 – 0.29STR + 3.87Expn – 0.656PctEL Notas (15.5) (0.48) (1.59) (0.032) Rno2 restringido = 0.4366, kno restringido = 3, q = 2 por tanto: F= 2 ( Rno2 restringido − Rrestringido )/q (1 − Rno2 restringido ) /( n − kno restringido − 1) (.4366 − .4149) / 2 = 8.01 = (1 − .4366) /(420 − 3 − 1) 5-37 El estadístico F con homoscedasticidad F= 2 ( Rno2 restringido − Rrestringido )/q (1 − Rno2 restringido ) /( n − kno restringido − 1) • Rechaza cuando al añadir las dos variables se incrementa el R2 lo “suficiente” – es decir, cuando al añadir las dos variables se incrementa el ajuste de la regresión “suficientemente” • Si los errores son homoscedásticos, entonces el estadístico F con homoscedasticidad posee una distribución χ q2 /q en grandes muestras. • Si los errores son heteroscedásticos, la distribución en grandes muestras es complicada y no una χ q2 /q 5-38 La distribución F Si: 1. u1,…,un se distribuyen Normal; y 2. Xi se distribuye independientemente de ui (en particular ui es homoscedástico) entonces el estadístico F con homoscedasticidad posee una distribución “Fq,n-k–1”, donde q = número de restricciones y k = número de regresores bajo la alternativa (modelo sin restringir). 5-39 La distribución Fq,n–k–1: • La distribución F está tabulada • Cuando n se hace grande, la distribución Fq,n-k–1 tiende asintóticamente a la distribución χ q2 /q: Fq,∞ es otro nombre para χ q2 /q • Para q no muy elevado y n≥100, la distribución Fq,n–k–1 y la distribución χ q2 /q son prácticamente idénticas. • Muchos programas de regresión calculan los p-valores del estadístico F empleando la distribución F (lo cual es correcto si el tamaño muestral es ≥100) • Encontraremos la distribución “F” en los trabajos empíricos publicados. 5-40 Digresión: Un poco de historia en estadística… • La teoría del estadístico F con homoscedasticidad y las distribuciones de Fq,n–k–1 descansa en hipótesis muy fuertes no verosímiles (¿están los ingresos normalmente distribuidos?) • Estos estadísticos datan de principios del Siglo XX, cuando “calcular” era un trabajo descriptivo y el número de observaciones escasas. • El estadístico F y la distribución Fq,n–k–1 constituyeron dos avances significativos: una fórmula sencilla de calcular; un conjunto sencillo de tablas que se podían publicar de una vez, aplicarlas en múltiples ocasiones; y una justificación matemática precisa y elegante. 5-41 Un poco de historia de estadística, continuación… • Las hipótesis tan fuertes parecían un precio menor comparado con la gran aportación. • Pero con los ordenadores actuales y muestras grandes podemos emplear estadísticos F robustos a la heteroscedasticidad y la distribución Fq,∞, que sólo requiere las cuatro hipótesis de MCO. • Este legado histórico persiste en los programas de ordenador, en los que los errores estándar con homoscedasticidad (y estadísticos F) constituyen la opción por defecto, y en los que los p-valores se calculan empleando la distribución Fq,n–k–1. 5-42 Resumen: Distribución de F con homoscedasticidad • Se justifican únicamente en situaciones muy estrictas – más estrictas que realistas en la práctica habitual. • Con todo, son ampliamente empleadas. • Debería emplearse el F robusto, con valores críticos χ q2 /q (es decir, Fq,∞). • Para n ≥ 100, la distribución F es esencialmente la distribución χ q2 /q. • Para pequeños n, la distribución F no tiene por qué ser una aproximación “mejor” a la distribución muestral del estadístico F – sólo si la condiciones fuertes son ciertas. 5-43 Resumen: contrastando hipótesis conjuntas • La aproximación de “sentido común” de rechazar si el estadístico t excede 1.96 rechaza más del 5% de las veces bajo la hipótesis nula (el tamaño excede el nivel de significación deseado) • El estadístico robusto F se encuentra construido en STATA (comando“test”); contrasta todas las restricciones a la vez. • Para n grande, F se distribuye como χ q2 /q (= Fq,∞) • El estadístico homoscedástico F es importante históricamente y es intuitivamente llamativo, pero inválido cuando existe heteroscedasticidad 5-44 Contraste de Restricciones Simples en los Coeficientes (SW Section 5.8) Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Considerar las hipótesis nula y alternativa, H0: β1 = β2 vs. H1: β1 ≠ β2 Esta nula impone una restricción simple (q = 1) sobre múltiples coeficientes – no es una hipótesis conjunta con múltiples restricciones (comparar con β1 = 0 y β2 = 0). 5-45 Dos métodos para contrastar restricciones simples con múltiples coeficientes: 1. transformar la regresión Reagrupar los regresores de forma que la restricción se convierta en una restricción sobre un coeficiente individual en una regresión equivalente 2. Realizar el contraste directamente Algunos programas (software), incluyendo STATA, permiten contrastar restricciones empleando múltiples coeficientes directamente 5-46 Metodo 1: Transformar la regresión Yi = β0 + β1X1i + β2X2i + ui H0: β1 = β2 vs. H1: β1 ≠ β2 Sumar y restar β2X1i: Yi = β0 + (β1 – β2) X1i + β2(X1i + X2i) + ui ó Yi = β0 + γ1 X1i + β2Wi + ui donde γ1 = β1 – β2 Wi = X1i + X2i 5-47 (a) Sistema original: Yi = β0 + β1X1i + β2X2i + ui H0: β1 = β2 vs. H1: β1 ≠ β2 (b) Sistema transformado: Yi = β0 + γ1 X1i + β2Wi + ui donde γ1 = β1 – β2 y Wi = X1i + X2i por tanto H0: γ1 = 0 vs. H1: γ1 ≠ 0 El problema de contrastar es ahora una cuestión simple: Contrastar si γ1 = 0 en la especificación (b). 5-48 Método 2: Realizar el contraste directamente Yi = β0 + β1X1i + β2X2i + ui H0: β1 = β2 vs. H1: β1 ≠ β2 Ejemplo: Notasi = β0 + β1STRi + β2Expni + β3PctELi + ui Para contrastar con STATA si β1 = β2: regress testscore str expn pctel, r test str=expn 5-49 Regiones de Confianza con Múltiples Coeficientes (SW Section 5.9) Yi = β0 + β1X1i + β2X2i + … + βkXki + ui, i = 1,…,n ¿Cómo es una región de confianza conjunta de β1 y β2? Una región de confianza del 95% es: • Una función conjunto de los datos que contiene el verdadero parámetro(s) en el 95% de hipotéticas muestras repetidas. • El conjunto de valores de los parámetros que no pueden rechazarse para un nivel de significación del 5% cuando se consideran como la hipótesis nula. 5-50 La tasa de cobertura de una región de confianza es la probabilidad de que la región de confianza contenga los verdaderos valores de los parámetros Una región de confianza de “sentido común” es la unión de los intervalos de confianza del 95% de β1 y β2, es decir, el rectángulo: { βˆ1 ± 1.96×SE( βˆ1 ), βˆ2 ± 1.96 ×SE( βˆ2 )} • ¿Cuál es la tasa de cobertura de esta región de confianza? • ¿Es la tasa de cobertura igual al nivel de confianza deseado del 95%? 5-51 Tasa de Cobertura de “sentido común”: Pr[(β1, β2) ∈ { βˆ1 ± 1.96×SE( βˆ1 ), βˆ2 1.96 ± ×SE( βˆ2 )}] = Pr[ βˆ1 – 1.96SE( βˆ1 ) ≤ β1 ≤ βˆ1 + 1.96SE( βˆ1 ), βˆ2 – 1.96SE( βˆ2 ) ≤ β2 ≤ βˆ2 + 1.96SE( βˆ2 )] βˆ1 − β1 βˆ2 − β 2 = Pr[–1.96≤ ≤1.96, –1.96≤ ≤1.96] SE ( βˆ1 ) SE ( βˆ2 ) = Pr[|t1| ≤ 1.96 y |t2| ≤ 1.96] = 1 – Pr[|t1| > 1.96 y/o |t2| > 1.96] ≠ 95% ! ¿Por qué? ¡El tamaño no iguala el nivel de significación! 5-52 La probabilidad de rechazar incorrectamente la nula = PrH [|t1| > 1.96 y/o |t2| > 1.96] 0 = PrH [|t1| > 1.96, |t2| > 1.96] 0 + PrH [|t1| > 1.96, |t2| ≤ 1.96] 0 + PrH [|t1| ≤ 1.96, |t2| > 1.96] 0 (eventos disjuntos) = PrH [|t1| > 1.96] × PrH [|t2| > 1.96] 0 0 + PrH [|t1| > 1.96] × PrH [|t2| ≤ 1.96] 0 0 + PrH [|t1| ≤ 1.96] × PrH [|t2| > 1.96] 0 0 (si t1, t2 son independientes) = .05×.05 + .05×.95 + .95×.05 = .0975 = 9.75% – no es el deseado 5%!! 5-53 Por el contrario, use un contraste cuyo tamaño sea igual al nivel de significación: Sea F(β1,0,β2,0) el estadístico robusto F para contrastar la hipótesis de que β1 = β1,0 y β2 = β2,0: 95% región de confianza = {β1,0, β2,0: F(β1,0, β2,0) < 3.00} • 3.00 es el valor crítico al 5% de la distribución F2,∞ • Esta región posee una tasa de cobertura del 95% porque el contaste sobre el que se realiza posee tamaño 5%. 5-54 La región de confianza del estadístico F es una elipse 2 2 1 t1 + t2 − 2 ρˆ t1 ,t2 t1t2 ≤ 3.00} {β1, β2: F = 2 2 1 − ρˆ t1 ,t2 Por tanto, 1 2 2 ˆ t t × + F= 1 2 − 2 ρ t1 ,t2 t1t2 2 2(1 − ρˆ t1 ,t2 ) = 1 × 2 2(1 − ρˆ t1 ,t2 ) βˆ − β 2 βˆ − β 2 ˆ − β βˆ − β β 2,0 1 1,0 1 1,0 2 2,0 2 ˆ 2 ρ + + t1 ,t2 SE ( βˆ ) SE ( βˆ ) SE ( βˆ2 ) SE ( βˆ1 ) 1 2 Esta es una forma cuadrática en β1,0 y β2,0 – la frontera del conjunto F = 3.00 es una elipse. 5-55 Región de confianza basado en F 5-56 El R2, SER, y R 2 en la Regresión Múltiple (SW Section 5.10) Real = predicción + residuo: Yi = Yˆi + uˆi Al igual que en la regresión con un único regresor, el SER (y el RMSE) es una medida de la dispersión de las Y’s alrededor de la recta de regresión: SER = n 1 2 ˆ u ∑ i n − k − 1 i =1 5-57 El R2 es la fracción de la varianza explicada: SSR ESS R = = 1− , TSS TSS 2 donde ESS = n 2 ˆ ˆ − Y Y , SSR = ( ) ∑ i i =1 n 2 ˆ u ∑ i , y TSS = i =1 n 2 − ( Y Y ) – en una regresión con un regresor. ∑ i i =1 • El R2 aumenta cuando se añade otro regresor • El R 2 corrige este problema “penalizando” la inclusión de otro regresor: n − 1 SSR 2 2 R = 1− R so < R − − n k 1 TSS 2 5-58 ¿Cómo interpretar el R2 y R 2 ? • Un elevado R2 (o R 2 ) significa que los regresores explican la variación en Y. • Un elevado R2 (o R 2 ) no significa que se haya eliminado el sesgo de variables omitidas. • Un elevado R2 (o R 2 ) no significa que tengamos un estimador insesgado del efecto causal (β1). • Un elevado R2 (o R 2 ) no significa que las variable incluidas sean estadísticamente significativas – esto debe determinarse empleando contrastes de hipótesis. 5-59 Ejemplo: Estudio más detallado de los datos de CA (SW Section 5.11, 5.12) Un enfoque general para seleccionar variables y especificación de modelos: • Especificar un modelo de “base” • Especificar un rango plausible de modelos alternativos, que incluyan variables alternativas candidatas. • ¿Cambian estas variables el β1 de interés? • ¿Es la candidata estadísticamente significativa? • Emplear juicio razonado, no una “receta” mecánica … 5-60 Variables que nos gustaría ver en los datos de CA: Características escolares: • Cociente estudiantes-profesor • Calidad del profesorado • ordenadores por estudiante • diseño curricular… Características de los Estudiantes: • Nivel de inglés • Disponibilidad de actividades extracurriculares • Ambiente de aprendizaje en casa • nivel de educación de los padres … 5-61 Variables encontradas en los datos de CA: • cociente estudiantes-profesor (STR) • porcentaje de estudiantes que tienen el inglés como segunda lengua (PctEL) • porcentaje de personas elegibles para el subsidio de comida • porcentaje de ayudas públicas de renta • renta promedio del distrito 5-62 5-63 Digresión: presentación de los resultados en una tabla • Hacer un listado de todas las ecuaciones de regresión puede resultar confuso cuando hay muchos regresores y muchas ecuaciones. • Tablas con los resultados de forma compacta. • Información a incluir: ! Variables (dependiente e independientes) ! coeficientes estimados ! errores estándar ! resultados de los contrastes F pertinentes ! alguna medida de ajuste ! número de observaciones 5-64 5-65 Resumen: Regresión Múltiple • La regresión múltiple nos permite estimar el efecto en Y de un cambio en X1, manteniendo X2 constante. • Si una variable es observable, evitaremos el sesgo de variables omitidas incluyéndola en la regresión. • No hay una receta sencilla para decidir qué variables incluir en una regresión – emplear sentido común. • Una aproximación consiste en especificar un modelo de base – fundado en razonamientos a-priori – posteriormente explorar la sensibilidad de las estimaciones con especificaciones alternativas. 5-66