Tamaño Muestral y Cálculos de Poder Enrique Seira ITAM & J-PAL [email protected] Contexto del Curso 1. 2. 3. 4. 5. 6. Introducción a las Evaluaciones de Impacto Teoría de Cambio e Indicadores Por qué y Cómo Aleatorizar Tamaño de Muestra y Cálculos de Poder Inferencia Causal Evaluaciones Experimentales y Políticas Públicas 7. Evidencia de Evaluaciones Experimentales 8. Evaluación Experimental de Principio a Fin Resumen de la exposición • • • • • • • Introducción al método científico Estimación Prueba de hipótesis Significancia estadística Magnitud del efecto Poder Factores que influyen en el poder Pruebas de hipótesis • En derecho penal, la mayoría de las instituciones siguen la regla: “inocente hasta que se pruebe lo contrario” • La presunción es que el acusado es inocente y es responsabilidad del fiscal demostrar que es culpable – El juez comienza con “la hipótesis nula” de que el acusado es inocente – El fiscal tiene una hipótesis de que el acusado es culpable 4 Pruebas de hipótesis • En la evaluación del programa, en lugar de la “presunción de inocente,” la regla es: “presunción de insignificancia” • La “hipótesis nula” (H0) es que no hubo (cero) impacto del programa • El evaluador debe demostrar un efecto significativo del programa Distancia entre poblaciones • Hipótesis nula y alternativa – Nula: no hay efecto, Alternativa: el efecto es positivo. • La idea es ver si los datos que recolectamos vienen de la nula o de la alternativa • Si la diferencia entre las poblaciónes de tratamiento y control es “grande”, entonces rechazamos la hipótesis nula. El problema es que podemos cometer error de dos tipos USTED CONCLUYE Programa tuvo efecto Sí tuvo efecto No rechazo Ho: nula No tuvo efecto Rechazo Ho en favor de H1 Error tipo II (bajo poder) Dije que no tuvo efecto cuando en verdad sí (muestra muy chica para detectar efectos?) LA VERDAD Error tipo I Programa no tuvo efecto Dije que Sí hay efecto cuando en verdad no Baja confianza 7 Bajo poder ¿Qué es el nivel de significancia? • Error tipo I: rechazar la hipótesis nula, aún cuando sea verdadera (positivo falso) • Nivel de significancia: La probabilidad de que rechacemos la hipótesis nula aún cuando sea verdadera ¿Qué es Poder Estadístico? • Error Tipo II: No rechazar la hipótesis nula (concluir que no hay diferencia), cuando en realidad la hipótesis nula es falsa. • Poder: Si hay un efecto medible de nuestra intervención (la hipótesis nula es falsa), la probabilidad que detectemos un efecto (rechazar la hipótesis nula) Problemas de las muestras chicas • En muestras arbitrariamente grandes ambos tipos de errores tienden a cero. Pero en muestras chicas hay los siguientes problemas: • Sesgo: Puedes tener mala suerte y que la muestra no represente a la población: e.g. si tiras una moneda 2 veces puede caer sol en ambas. • Imprecisión: Puede haber mucho “ruido”/ imprecisión, aunque no haya sesgo. • Se complica usar estadística porque en muestras chicas la distribución de estimadores es complicada. Precisión (Tamaño Muestra) Exactitud vs. Precisión estimates truth No sesgo (Aleatorización) Haciendo rodar 2 dados: Puntaje promedio de los dados y probabilidad 1/4 Likelihood 1/6 0 0 Frequency Frecuencia 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 Haciendo rodar 30 dados: Se distribuye Normal, con media 3.5 3,5% 3,0% 2,5% 2,0% 1,5% 1,0% 0,5% 0,0% 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 >99% de todas las rodaduras darán un promedio entre 3 y 4 Exactitud versus Precisión Distribución de calificaciones de control y tratamiento Vamos a necesitar una medida de distancia para “decir” si hay efecto o no 160 140 120 100 control Control 80 treatment Tratamiento 60 40 20 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 PUNTAJES Significancia: probabilidad de correctamente decir que sí hay efecto 0,5 0,45 0,4 Verdad bajo H1 Verdad bajo Ho 0,35 Sin programa control 0,3 Con Programa 0,25 treatment 0,2 significance 0,15 t= valor critico 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 a =Significancia o error tipo 1: decir que hay efecto cuando no es verdad Poder: probabilidad de detectar el efecto cuando este existe Verdad bajo H1 Verdad bajo Ho Sin programa Con Programa error tipo 2 t= valor critico Poder: Probabilidad de detectar el efecto cuando SÍ es cierto Trade-off: si subes t-crítico reduces error tipo 1 pero subes error tipo 2 (i.e. bajas poder) • Una forma de reducir ambos tipos de errores es “haciendo” las distribuciones más delgadas. Esto se logra subiendo el tamaño de muestra. • Por lo tanto, la práctica común es fijar un nivel de significancia y escoger el tamaño de muestra para aumentar el poder, típicamente 80% o 90% de poder es aceptable en economía. Teorema del límite central • Para calcular aéreas de curvas necesito saber cual es la curva. ¿Pero cómo sé cual es la distribución de las calificaciones en la población? • En general no sabemos, sin embargo sí sabemos como se distribuye el promedio. • No importa cual es la población de la que estemos hablando (calificaciones de alumnos, días de estancia en el hospital, etc) el promedio de la variable se distribuye normal N(mu, var/n). • Noten que el promedio está centrado en la media y la varianza de la media muestral (llamado o error estándar) disminuye con el tamaño muestra. Cómo pasamos desde aquí… 500 400 300 200 100 0 Esta es la distribución de la población (Distribución Poblacional) 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Puntajes Hasta aquí… Esta es la distribución de los Promedios de todas las muestras aleatorias (Distribución Muestral) Pruebas de hipótesis: conclusiones • Es altamente improbable (probabilidad inferior al 5%) que la diferencia se deba solamente a la casualidad: – Nosotros “rechazamos nuestra hipótesis nula” • Ahora podemos decir: – “nuestro programa tiene un impacto estadísticamente significativo” Detectando Impacto Antes del Programa 0,5 0,45 0,4 0,35 0,3 Control control 0,25 H0 Hβ 0,2 Tratamiento treatment 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Asuma que hay dos efectos: efecto nulo y efecto β 6 ¿Qué afecta el poder? ¿Cuáles son los factores que cambian la proporción de la hipótesis de investigación que está sombreada; es decir, la proporción que está a la derecha (o izquierda) de la curva de la hipótesis nula? Comprender esto nos ayuda a diseñar experimentos más potentes 24 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Magnitud del Efecto: 1*Error Est. 0,5 1 • Hypothesized effect size determines distance between means 0,45 Desviación Estándar 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Magnitud del Efecto = 1*Error Est. 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 26% Si el impacto verdadero fuese 1*Error Est. 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 La hipótesis nula sería rechazada el 26% de las veces Magnitud del Efecto: 3*Error Est. 0,5 0,45 3*SE 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Mayor magnitud del efecto hipotetizado las distribuciones se apartan Magnitud del Efecto 3*Error Est: Poder= 91% 0,5 0,45 0,4 0,35 0,3 control Control Hβ 0,25 0,2 H0 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Efecto más grande Más poder 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Poder: Magnitud del efecto = 1SD, Tamaño de la muestra = N 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Tamaño de la muestra = 4N 0,5 0,45 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 Significancia significance 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 64% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Tamaño de la muestra = 9 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Varianza • En ocasiones, podemos hacer muy poco para reducir el ruido • Podemos tratar de “absorber” la varianza: – usando una línea base – controlando otras variables • Podemos tratar de hacer mediciones más precisas Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) División de la muestra: 50% C, 50% T 0,5 0,45 0,4 0,35 0,3 control Hβ 0,25 H0 Control treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 ¿Y si no tenemos una división 50-50? ¿Qué pasa con el “grosor” relativo si la división no es 50-50 y es 25-75? División de la muestra: 25% C, 75% T 0,5 0,45 0,4 0,35 0,3 control Hβ 0,25 H0 Control treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 83% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 Poder power 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Fórmula sencilla Fórmula sencilla con asignación de individuos a tratamiento y control TAMAÑO DE MUESTRA 7.7284 t's al cuadrado 4 proporciones al cuadrado 40 varianza N 1237 Efecto=1 309 Efecto=2 137 Efecto=3 • “k” = error tipo 2, alfa=error tipo 1. • t(1-k) con 80% de poder es aproximadamente = 0.80 • t(alpha) con 5% de significancia es aproximadamente 1.96 Hay varios programas en el internet que les calculan el tamaño de muestra, e.g. “Optimal Design”. En Stata “sampsi”. Diseño agrupado: intuición • Usted desea saber cuán estrechas serán las próximas elecciones nacionales • Método 1: Seleccione aleatoriamente a 50 personas de toda la población en Perú • Método 2: Seleccione aleatoriamente a 5 familias, y pregúnteles la opinión a diez miembros de cada familia Baja correlación intra-cluster (Rho) Alta correlación intra-cluster (rho) ¡Gracias! Magnitud del efecto y aceptación • Digamos que creemos que el impacto en nuestros participantes es “3” • ¿Qué sucede si la tasa de participación en el programa es de 1/3? Mostremos esto gráficamente Magnitud del Efecto: 3*SE 0,5 0,45 3*SE 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Digamos que creemos que el impacto en nuestros participantes es de “3” La aceptación es 33%. La magnitud del efecto es un tercio 0,5 1 • Hypothesized effect size determines distance between means 0,45 Desviación Estándar 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 De vuelta al Poder = 26% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 La tasa de aceptación se refleja en la magnitud del efecto