Inferencia causal Francisco Gallego PUC Chile y J-PAL Santiago, 9 de abril de 2013 1 Mapa I. II. III. IV. Motivación Evaluación de Impacto y Contrafactual Análisis causal Análisis causal y Efectos Tratamiento 2 1. Motivación • Las preguntas empíricas más difíciles en ciencias sociales y en políticas públicas involucran relaciones causa-efecto del tipo: – ¿Mejora la descentralización de las escuelas la calidad de la educación? – ¿Un año de capacitación causa mayores ingresos? Y, más importante quizás, ¿qué tipo de capacitación causa mayores aumentos de ingresos? – ¿Mejoran las transferencias condicionadas los resultados de salud y educación de los niños? O, ¿lo hacen porque condicionan o porque entregan dinero adicional? 3 1. Motivación • Responder estas preguntas es importante porque: – Ayudan a responder preocupaciones de política • ¿Logran los programas reducir la pobreza? ¿Podrían reducirla más rápido con los mismos recursos? – Problemas que enfrentan los tomadores de decisiones – Consideraciones teóricas de estudio en ciencias sociales 4 Mapa I. Motivación II. Evaluación de Impacto y Contrafactual 5 2. ¿Cómo responder las preguntas?: Evaluación de Impacto El impacto de un programa es la diferencia entre: 1. Los resultados que los participantes del programa obtienen un tiempo después de participar en el programa y 2. Los resultados que esos mismos participantes hubieran obtenido en ese mismo momento si no hubiesen participado en el programa. 2.1. Evaluación de impacto • Tomamos la diferencia entre Qué ocurrió (con el programa) y - Qué habría ocurrido (sin el programa) = IMPACTO del programa • Este último escenario se denomina el contrafactual 7 2.1.2. Impacto: ¿Qué es? Resultado primario Intervención Impacto Tiempo 2.1.3. ¿Cómo Evaluar Impacto? Intervención Resultado primario Impacto Tiempo 2.1.3. ¿Cómo Evaluar Impacto? Resultado primario Intervención Impacto Tiempo 2.2. Contrafactual • El contrafactual representa el estado del mundo que participantes del programa habrían experimentado en la ausencia del programa • Problema: No se puede observar el contrafactual • Solución: Tenemos que “replicar” o “construir” el contrafactual Mapa I. Motivación II. Evaluación de Impacto y Contrafactual III. Análisis causal 12 3.1. Análisis estadístico estándar • Herramientas: probabilidad y otras técnicas de estimación • Objetivo: inferir parámetros de una distribución a partir de muestras de esta distribución • Uso: Con la ayuda de los parámetros, uno puede: – Inferir asociación entre variables, – Estimar probabilidad de ocurrencia de eventos pasados o futuros – Actualizar pro; • Condición: las condiciones experimentales no pueden cambiarse 13 3.2. Análisis causal • Va un paso más allá que el análisis estadístico estándar • Objetivo: inferir aspectos del proceso de generación de datos • Uso: Con la ayuda de tales aspectos, se puede: – Deducir la probabilidad de ocurrencia si el contexto no cambia (análisis “estático”) – Predecir como cambian las variables si cambia el contexto (análisis “dinámico”) 14 3.2. Análisis causal • La idea de dinámica de los eventos cuando cambian las condiciones incluye: – Predecir los efectos de intervenciones – Predecir los efectos de cambios espontáneos – Identificar las causas de los eventos • Distinción entre causalidad y correlación – Nuevo lenguaje – Causalidad es la clave para decisiones de políticas • ¿Si hacemos XXX, lograremos YYYY? No basta con saber que XXX está asociado con YYY… 15 3.2.1. Modelo Causal de Neyman (1923), Rubin (1974) • Modelo de resultados potenciales • Definamos a la población por la letra U. – Cada unidad en U se denota u. • Para cada u ϵ U: – Y(u): variable de respuesta – A: atributo de las unidades en U. • Idea: exponer a cada unidad a la acción de una causa • Rubin asume que las causas son acciones que, hipotéticamente, podrían ser tratamientos 16 3.2.2. Modelo Causal y tratamientos • Supongamos, por simplicidad que hay sólo 2 causas o niveles de tratamiento. • Sea D una variable que indica la causa a la que cada unidad en U es expuesta: 1 si la unidad u es expuesta al tratamiento D= 0 si la unidad u es expuesta al control • En un estudio controlado, D es construido por el experimentador/evaluador • En un estudio no controlado, D es determinado por factores que van más allá del experimentador/evaluador 17 Mapa I. Motivación II. Evaluación de Impacto y Contrafactual III. Análisis causal IV. Análisis causal y Efectos Tratamiento 18 4.1. Modelo Causal y tratamientos • Y son afectados potencialmente por t o c. • O sea puede haber 2 variables de respuesta para el mismo u: – Y1(u): valor de la respuesta si la unidad u fuera expuesta al tratamiento. – Y0(u) : valor de la respuesta si la unidad u fuera expuesta al control. • Entonces, el resultado de cada individuo puede ser escrito como (si es que no hay externalidades): Y (u ) = DY1 (u ) + (1 − D )Y0 (u ) 19 4.2. Evaluación de Impacto y modelo causal • Tomamos la diferencia entre Qué ocurrió (con el programa) y - Qué habría ocurrido (sin el programa) = IMPACTO del programa • Este último escenario se denomina el contrafactual • ¿Cómo se traduce esto al lenguaje del modelo causal de Rubin? 20 4.3. Modelo Causal y evaluación de impacto • Para cada unidad u, el tratamiento causa: δ u = Y1 (u ) − Y0 (u ) • Problema Fundamental de Inferencia Causal: – Para el mismo u, no se puede observar Y1(u) y Y0(u) • O sea no tenemos el contrafactual para cada u – Un individuo no puede estar al mismo tiempo recibiendo y no recibiendo el tratamiento… • ¿Qué hacemos? 21 4.3. Modelo Causal y evaluación de impacto • ¿Y el efecto causal en promedio? • El efecto tratamiento promedio (ATE) sobre U (o una subpoblación de U es): ATEU = EU [Y1 (u ) − Y0 (u )] = EU [Y1 (u )] − EU [Y0 (u )] = Y1 −Y 0 =δ • O sea la solución estadística reemplaza el efecto causal a nivel de cada unidad por el efecto causal promedio en una población de U unidades. 22 4.3. Modelo Causal y evaluación de impacto • Obviamente las esperanzas de Y1(u) y Y0(u) no pueden ser calculadas pero sí estimadas… • Los métodos econométricos de evaluación de impacto intentan construir (bajo diferentes supuestos) estimaciones con consistentes de: EU [Y1 (u )] = Y 1 y EU [Y0 (u )] = Y 0 • La “bondad” de estos estimadores se define justamente por la razonabilidad/plausibilidad de los supuestos utilizados. 23 4.3. Modelo Causal y evaluación de impacto • Obviamente las esperanzas de Y1(u) y Y0(u) no pueden ser calculadas pero sí estimadas… • Los métodos econométricos de evaluación de impacto intentan construir (bajo diferentes supuestos) estimaciones con consistentes de: EU [Y1 (u )] = Y 1 y EU [Y0 (u )] = Y 0 • La “bondad” de estos estimadores se define justamente por la razonabilidad/plausibilidad de los supuestos utilizados. 24 4.3. Modelo Causal y evaluación de impacto • Entonces consideremos estimar: ATEU = EU [Y1 (u ) − Y0 (u )] = Y1 −Y 0 (1) δˆ • Usando el siguiente estimador: [ ][ ˆ ˆ ˆ δ = Y1 | D = 1 − Y0 | D = 0 ] (2) • (1) está definida para la población • (2) se estima usando una muestra de la población 25 4.3. Modelo Causal y evaluación de impacto • Sea π la proporción de la población asignada al grupo tratamiento • Entonces ATE se puede descomponer como: δ = π δ {D =1} + (1 − π )δ {D =0} [ ] [ = {π [Y | D = 1]+ (1 − π )[Y | D = 0]}− {π [Y | D = 1]+ (1 − π )[Y | D = 0]} = π Y 1 − Y 0 | D = 1 + (1 − π ) Y 1 − Y 0 | D = 0 1 0 ] 1 0 26 4.3. Modelo Causal y evaluación de impacto [ ] [ ] [ Y | D = 1] = [Y | D = 0] Entonces: δ = {π [Y | D = 1]+ (1 − π )[Y | D = 0]}− {π [Y | D = 1]+ (1 − π )[Y | D = 0]} = [Y | D = 1]− [Y | D = 0] • Supongamos que: Y | D = 1 = Y | D = 0 y 1 1 • 0 0 1 1 0 0 1 0 • Lo que se puede estimar de modo consistente por: [ ][ ] ˆ ˆ ˆ δ = Y1 | D = 1 − Y0 | D = 1 (2) 27 4.3. Modelo Causal y evaluación de impacto • ¿Tienen sentido • O sea: [Y [Y ] [ | D = 1] = [Y ] | D = 0] 1 | D =1 = Y1 | D = 0 y 0 0 – El resultado promedio: • Bajo el tratamiento no difiere en entre los grupos de tratamiento y control • Bajo el control no difiere en entre los grupos de tratamiento y control • Para satisfacer estas condiciones es suficiente que la asignación del tratamiento D no esté correlacionada con los resultados potenciales de Y1(u) y Y0(u) • La forma principal de lograr esta no-correlación es a través de la asignación aleatoria del tratamiento. – En la siguiente clase hablaremos de esto con más detalle. 28 4.3. Modelo Causal y evaluación de impacto • En muchos casos simplemente no hay información disponible sobre como las unidades del grupo control hubieran reaccionado si hubiesen recibido el tratamiento – …y viceversa, como los del grupo tratamiento hubieran reaccionado si hubiesen recibido el control… • Ésta es la base para comprender los sesgos del estimador (2). • De hecho usando un poco de álgebra, se puede demostrar que: {[ ][ ]} ˆ Y0 | D =1 − Y0 | D = 0 δ =δ + + (1 − π ) Diferencia sin tratamiento [ δ{ } − δ{ }] D =1 D =0 Heterogeneidad de efecto tratamiento 29 4.3. Modelo Causal y evaluación de impacto {[ ][ ]} δˆ = δ + Y 0 | D = 1 − Y 0 | D = 0 + (1 − π ) Diferencia sin tratamiento [ δ{ } − δ{ }] D =1 D =0 Heterogeneidad de efecto tratamiento • Dos grandes fuentes de sesgo de selección: 1. Sesgo de selección 2. Heterogeneidad en los efectos del tratamiento • La mayoría de los métodos disponibles se enfocan en 1., asumiendo que los efectos tratamiento son homogéneos en la población (o redefiniendo los parámetros de interés en la población) 4.4. Otros parámetros de interés • ATE no siempre es el parámetro de interés de política pública. • En ocasiones, por ejemplo, interesa más el efecto tratamiento promedio para la persona bajo intervención, o sea: TOT = E [Y1 (u ) − Y0 (u ) | D = 1] = E [Y1 (u ) | D = 1] − E [Y0 (u ) | D = 1] • Notar que la diferencia entre ATE y TOT sólo tiene sentido si hay heterogeneidad en los efectos tratamiento en la población U (si no, todos son iguales…) 31 4.4. Otros parámetros de interés • ¿Cuándo nuestro estimador (2) estima consistentemente TOT? [ ][ ˆ ˆ ˆ δ = Y1 | D = 1 − Y0 | D = 0 ] (2) • Como es evidente, este estimador lo hace bien si: [Y 0 | D = 1] = [Y0 | D = 0] 32 4.4. Otros parámetros de interés • En algunas situaciones de políticas pública interesa conocer el efecto promedio de ofrecer el programa (ITT) – ¿“Qué le ocurrió al niño promedio que está en una escuela tratada en esta población?” – “¿Qué le ocurrió a la persona promedio que recibió una oferta del tratamiento?” • Suponga que la intención de tratar ¿Es este el número adecuado a buscar?, ¿Es el efecto del tratamiento? • La lógica es exactamente la misma que en los estimadores previos pero en este caso D=1 refleja la oferta del tratamiento y no que las personas hayan sido efectivamente tratadas. 33