Valoración de estudios basados en el Análisis de Regresión Múltiple (SW Cap. 7) El Análisis de Regresión múltiple tiene las siguientes ventajas: • Brinda una estimación del efecto que sobre Y tiene un cambio arbitrario de ∆X. • Resuelve el problema de sesgo por variable omitida, si una variable omitida puede ser medida e incluida en el análisis. • Puede tratar relaciones no lineales (efectos que varían con las X’s) No obstante, OLS podría proporcionar un estimador sesgado del verdadero efecto causal. 7-1 Esquema para la valoración de estudios estadísticos Validez interna y externa • Validez interna: la inferencia estadística acerca de los efectos causales se validan por el estudio poblacional. • Validez externa: la inferencia estadística puede generalizarse a partir de la población e inferirse a otras poblaciones y escenarios, donde “escenario” se refiere a aspectos legales, políticos y entorno físico relacionados con las características más sobresalientes. 7-2 Problemas relacionados con la Validez externa ¿Hasta dónde podemos generalizar los resultados de tamaño de clase a partir de las escuelas en los distritos de California? • Diferencias en poblaciones o California en 2005? o Massachusetts en 2005? o México en 2005? • Diferencias en los escenarios o Diferentes requerimientos legales vinculados a la educación especial o Diferente tratamiento de la educación bilingüe o Diferencias en las características de profesores 7-3 Problemas relacionados con la Validez interna Análisis de regresión múltiple (SW Sección 7.2) Validez interna: la inferencia estadística acerca de los efectos causales se validan a partir de la población que está siendo estudiada. Cinco problemas para la validez interna en los estudios de regresión: 1. Sesgo por variable omitida 2. Error en la forma funcional 3. Sesgo por errores en las variables 4. Sesgo por selección de muestra 5. Sesgo por causalidad simultánea Todos implican que E(ui|X1i,…,Xki) ≠0. 7-4 1. Sesgo por variable omitida Surge cuando una variable omitida simultáneamente (i) es un determinante de Y y (ii) está correlacionada con al menos uno de los regresores incluidos. Posibles soluciones al Sesgo por variable omitida • Si la variable puede ser medida, incluirla como un regresor en la regresión múltiple; • Si es posible, utilizar datos de panel en los cuales cada entidad (individual) se observa más de una vez; • Si la variable no puede ser medida, utilizar regresión con variables instrumentales; • Generar un experimento aleatorio controlado. 7-5 2. Error en la forma funcional Surge cuando la forma funcional es incorrecta – por ejemplo, cuando se omite un término de interacción incorrectamente; luego la inferencia sobre los efectos causales estará sesgada. Posibles soluciones al error de especificación forma funcional • Variable dependiente continua: utilizar la especificación no lineal en X “apropiada” (logaritmos, interacciones, etc.) • Variable dependiente discreta (ejemplo: binaria): se necesita una extensión de los métodos de regresión múltiple (análisis “probit” o “logit” para variables dependientes binarias). 7-6 3. Sesgo por errores en las variables Hasta ahora se ha supuesto que X está medida sin error. Pero en realidad, frecuentemente los datos económicos tienen errores de medida • Errores al cargar los datos • Errores de recolección en encuestas (¿cuándo comenzó su actual trabajo?) • Problemas de preguntas ambiguas (¿cuál fue su renta en el último año?) • Problemas con las respuestas falsas intencionales en las encuestas (¿Cuál es el valor actual de sus activos financieros? ¿Con qué frecuencia bebe y conduce?) 7-7 En general, el error de medida en un regresor conduce a un “Sesgo por error en las variables”. Ejemplo: suponiendo que Yi = β0 + β1Xi + ui es “correcto” en el sentido de que permanecen los tres supuestos de mínimos cuadrados (en particular E(ui|Xi) = 0). Digamos que Xi = no medida y es el verdadero valor de X X% i = versión medida imprecisamente de X 7-8 Luego Yi = β0 + β1Xi + ui = β0 + β1 X% i + [β1(Xi – X% i ) + ui] o Yi = β0 + β1 X% i + u%i , donde u%i = β1(Xi – X% i ) + ui Si X% i está correlacionado con u%i entonces βˆ1 estará sesgado: cov( X% i , u%i ) = cov( X% i ,β1(Xi – X% i ) + ui) = β1cov( X% i ,Xi – X% i ) + cov( X% i ,ui) = β1[cov( X% i ,Xi) – var( X% i )] + 0 ≠ 0 Porque en general cov( X% i ,Xi) ≠ var( X% i ). 7-9 Yi = β0 + β1 X% i + u%i , donde u%i = β1(Xi – X% i ) + ui • Si Xi está medida con error, X% i está en general correlacionado con u%i , entonces βˆ1 es sesgado e inconsistente. • Es posible derivar fórmulas para este sesgo, pero requiere hacer supuestos matemáticos específicos acerca del proceso del error de medida (por ejemplo, que u%i y Xi están incorrelacionados). Estas fórmulas son especiales y particulares pero, en general se observa que el error de medida en X conduce a un sesgo. 7-10 Posibles soluciones al sesgo por errores en las variables • Obtener datos correctos. • Desarrollar un modelo específico del proceso del error de medida. • Esto sólo es posible si se conoce mucho acerca de la naturaleza del error de medida – por ejemplo cruzando una colección de datos grabados con una submuestra y analizando las discrepancias para luego modelizarlas. (Muy especializado para este contexto.) • Regresión con variables instrumentales. 7-11 4. Sesgo por selección de muestra Hasta ahora hemos supuesto una muestra aleatoria simple de la población. En algunos casos, la muestra aleatoria simple es una contrariedad porque la muestra, en efecto, “se selecciona a sí misma” El sesgo por selección de muestra ocurre cuando un proceso de selección (i) influye en la disponibilidad de los datos y (ii) este proceso está relacionado con la variable dependiente. 7-12 Ejemplo #1: Fondos de inversión • Tiene el fondo de inversión administrado un comportamiento activo “permanece el mercado de fondos”? • Estrategia empírica: o Esquema de muestra: muestra aleatoria simple de fondos de inversión disponible para el público en un tiempo dado. o Datos: rendimiento de últimos 10 años. o Estimador: promedio de 10 años del rendimiento de la muestra de fondos de inversión, menos el rendimiento de 10 años del S&P500 o ¿Existe sesgo de selección de muestra? 7-13 El sesgo por selección de muestra genera correlación entre un regresor y el término de error. Ejemplo de Fondos de inversión: rendimientoi = β0 + β1fondoi + ui Si en la muestra tenemos un fondo (fondoi = 1) significa que su rendimiento fue mejor que un fondo fallido que no está en la muestra – de manera que corr(fondoi,ui) = 0. 7-14 Ejemplo #2: rentabilidad de la educación • ¿Cuál es la rentabilidad de un año adicional de educación? • Estrategia empírica: o Esquema de muestra: muestra aleatoria simple de trabajadores o Datos: ingresos y años de educación o Estimador: ln(ingresos) sobre los años de educación o Ignorar consecuencias de sesgo por variable omitida y error de medida – ¿existe sesgo por selección de la muestra? 7-15 Posibles soluciones al sesgo por selección de muestra • Recoger la muestra de manera que se evite la selección de muestra. o Ejemplo de Fondos de inversión: cambiar la muestra, en lugar de los datos disponibles al final del período 10, a los disponibles al comienzo del período (incluyendo los fondos fallidos) o Ejemplo de rentabilidad de la educación: recoger la muestra de graduados, no de trabajadores (incluyendo los desempleados) • Generar un experimento aleatorio controlado. • Construir un modelo del problema de la selección de muestra y estimar ese modelo. 7-16 5. Sesgo por causalidad simultánea Hasta ahora hemos supuesto que X causa Y. ¿Qué ocurre si Y también causa X,? Ejemplo: Efecto del tamaño de clase • Bajos resultados STR comparados con mejores test scores • Suponiendo distritos que tienen recursos extras con bajos test scores: como resultado del proceso político estos también tienen bajos STR • ¿Qué significa en una regresión de TestScore sobre STR? 7-17 Sesgo por causalidad simultánea en ecuaciones (a) Efecto causal de X sobre Y: Yi = β0 + β1Xi + ui (b) Efecto causal de Y sobre X: Xi = γ0 + γ1Yi + vi • Grandes ui significan grandes Yi, los cuales implican grandes Xi (si γ1>0) • Entonces corr(Xi,ui) ≠ 0 • Así βˆ1 es sesgado e inconsistente. • Ej: Un distrito con un test scores particularmente malo dado el STR (ui negativo) recibe recursos extras, con lo cual baja su STR; luego STRi y ui están correlacionados 7-18 Posibles soluciones al sesgo por causalidad simultánea • Experimento aleatorio controlado. Debido a que Xi se elige aleatoriamente por el experimentador, no hay retroalimentación desde la variable resultado a Yi (suponiendo obediencia perfecta). • Desarrollar y estimar un modelo completo en ambas direcciones de causalidad. Esta es la idea que está detrás de muchos macro-modelos (ej. Federal Reserve Bank-US). Esto es extremadamente difícil en la prática. • Utilizar regresión con variables instrumentales para estimar el efecto causal de interés (efecto de X sobre Y, ignorando el efecto de Y sobre X). 7-19 Aplicar este esquema: Test Scores y Tamaño de Clase (SW Capítulo 7.3) Objetivo: Valorar las amenazas a la validez interna y externa del análisis empírico del test score de California. • Validez externa o Comparar los resultados para California y Massachusetts o Razonar… • Validez interna o Ir a la lista de los cinco posibles problemas de validez interna y razonar… 7-20 A) Verificar la validez externa comparar el estudio de California utilizando los datos de Massachusetts Datos de Massachusetts • 220 distritos de educación primaria • Test: 1998 MCAS test – total de cuarto grado (Math + English + Science) • Variables: STR, TestScore, PctEL, LunchPct, Income 7-21 Los datos de Massachusetts: resumen de estadísticos 7-22 7-23 7-24 7-25 • ¿Logarítmica v. function cúbica para Income? • Evidencia de no linealidad en la relación TestScore-STR? • Existe interacción significativa HiEL×STR? 7-26 Predicción de efectos para una reducción de 2 en el tamaño de clase Especificación lineal para Massachusetts: " = 744.0 – 0.64STR – 0.437PctEL – 0.582LunchPct TestScore (21.3) (0.27) (0.303) (0.097) – 3.07Income + 0.164Income2 – 0.0022Income3 (2.35) (0.085) (0.0010) Efecto estimado = -0.64× (-2) = 1.28 Error estándar = 2×0.27 = 0.54 NOTA: var(aY) = a2var(Y); SE(a βˆ1 ) = |a|SE( βˆ1 ) 95% CI = (1.28 ± 1.96×0.54) = (0.22, 2.34) Calcular los efectos predichos en modelos no lineales 7-27 Utilizar el método “antes” y “después”: " TestScore = 655.5 + 12.4STR – 0.680STR2 + 0.0115STR3 – 0.434PctEL – 0.587LunchPct – 3.48Income + 0.174Income2 – 0.0023Income3 Reducción estimada de 20 a 18 estudiantes: " = [12.4×20 – 0.680×202 + 0.0115×203] ∆TestScore – [12.4×18 – 0.680×182 + 0.0115×183] = 1.98 • Comparar con la estimación del modelo lineal de 1.28 • SE de este efecto estimado: usar el método “reordenar la regresión” (“transformar los regresores”) 7-28 Resumen de resultados para Massachussets 1. El coeficiente de STR cae desde –1.72 a –0.69 cuando se incluyen las variables de control para las características estudiante y distrito – un indicio de que la estimación original contiene sesgo por variable omitida. 2. El efecto de tamaño de clase es estadísticamente significativo al 1%, después de controlar por las características estudiante y distrito 3. No hay evidencia estadística sobre no linealidades en la relación TestScore – STR 4. No hay evidencia estadística de interacción STR – PctEL 7-29 Comparación de efectos de tamaño de clase estimados: CA vs. MA 7-30 Resumen: Comparación de los análisis de regresión de California y Massachusetts • El efecto de tamaño de clase cae tanto en los datos de CA como en los de MA cuando se añaden las variables de control para las características estudiante y distrito. • El efecto del tamaño de clase es estadísticamente significativo en ambos conjuntos de datos (CA y MA) • El efecto estimado de una reducción de 2 estudiantes en STR es cuantitativamente similar para CA, MA. • Ningún conjunto de datos muestra evidencia de interacción STR – PctEL. • Existe alguna evidencia de no linealidad STR en los datos de CA, pero no en los de MA. 7-31 B) Amenazas a la validez interna ¿Qué muestra y qué no muestra la comparación CA vs. MA? 1. Sesgo por variable omitida Estos análisis controlan o tienen en cuenta: • distritos demográficos (ingresos) • algunas características de los estudiantes (% que aprende inglés) ¿Qué falta? • características adicionales de los estudiantes, ej. aptitudes naturales (pero ¿está esto correlacionado con STR?) • Acceso a oportunidades de estudiar en el extranjero • Calidad del profesor (posiblemente los mejores profesores son atraídos por las escuelas con menores STR) 7-32 Sesgo por variable omitida • Hemos controlado muchos factores relevantes omitidos; • La naturaleza de este Sesgo por variable omitida necesitaría ser similar en California y Massachusetts para ser consistente con estos resultados; • En esta aplicación estaremos en condiciones de comparar estas estimaciones basadas en datos observados con estimaciones basadas en datos experimentales – una verificación de este método de regresión múltiple. 7-33 2. Error en la forma funcional • Hemos tratado bastantes formas funcionales diferentes, en los datos de California y Mass. • Los efectos no lineales son modestos • Esto no es un gran problema. 3. Sesgo por errores en las variables • STR es una medida algo grosera del tamaño de clase • Presumiblemente existe algún error de medida – estudiantes que hacen el examen y se desplazan a otros distritos • En el mejor de los casos, nos gustaría tener datos individualizados de los estudiantes, por nivel de grado. 7-34 4. Sesgo por selección de muestra • La muestra se refiere a todos los distritos con enseñanza pública elemental (en California; en Mass.) • no hay razón para que la selección sea un problema. 5. Causalidad simultánea • Si los resultados de los tests afectan al tamaño de clase -> causalidad simultánea. Ej.: si los distritos con peores resultados reciben dinero para contratar más profesores. • Esto no tuvo lugar en California ni Mass. durante estas muestras, por ello el sesgo de causalidad simultánea no es un argumento importante. 7-35 Resumen • Esquema para evaluar los estudios de regresión: o Validez interna o Validez externa • Cinco problemas para la validez interna: 1. 2. 3. 4. 5. Sesgo por variable omitida Error en la forma funcional Sesgo por errores en las variables Sesgo por selección de muestra Sesgo por causalidad simultánea 7-36