Tamaño Muestral y Cálculos de Poder

Tamaño Muestral y Cálculos de Poder Enrique Seira ITAM & J-PAL [email protected] Contexto del Curso 1. 2. 3. 4. 5. 6. Introducción a las Evaluaciones de Impacto Teoría de Cambio e Indicadores Por qué y Cómo Aleatorizar Tamaño de Muestra y Cálculos de Poder Inferencia Causal Evaluaciones Experimentales y Políticas Públicas 7. Evidencia de Evaluaciones Experimentales 8. Evaluación Experimental de Principio a Fin Resumen de la exposición • • • • • • • Introducción al método científico Estimación Prueba de hipótesis Significancia estadística Magnitud del efecto Poder Factores que influyen en el poder Pruebas de hipótesis • En derecho penal, la mayoría de las instituciones siguen la regla: “inocente hasta que se pruebe lo contrario” • La presunción es que el acusado es inocente y es responsabilidad del fiscal demostrar que es culpable – El juez comienza con “la hipótesis nula” de que el acusado es inocente – El fiscal tiene una hipótesis de que el acusado es culpable 4 Pruebas de hipótesis • En la evaluación del programa, en lugar de la “presunción de inocente,” la regla es: “presunción de insignificancia” • La “hipótesis nula” (H0) es que no hubo (cero) impacto del programa • El evaluador debe demostrar un efecto significativo del programa Distancia entre poblaciones • Hipótesis nula y alternativa – Nula: no hay efecto, Alternativa: el efecto es positivo. • La idea es ver si los datos que recolectamos vienen de la nula o de la alternativa • Si la diferencia entre las poblaciónes de tratamiento y control es “grande”, entonces rechazamos la hipótesis nula. El problema es que podemos cometer error de dos tipos USTED CONCLUYE Programa tuvo efecto Sí tuvo efecto No rechazo Ho: nula No tuvo efecto Rechazo Ho en favor de H1  Error tipo II (bajo poder)  Dije que no tuvo efecto cuando en verdad sí (muestra muy chica para detectar efectos?) LA VERDAD Error tipo I Programa no tuvo efecto  Dije que Sí hay efecto cuando en verdad no Baja confianza 7  Bajo poder ¿Qué es el nivel de significancia? • Error tipo I: rechazar la hipótesis nula, aún cuando sea verdadera (positivo falso) • Nivel de significancia: La probabilidad de que rechacemos la hipótesis nula aún cuando sea verdadera ¿Qué es Poder Estadístico? • Error Tipo II: No rechazar la hipótesis nula (concluir que no hay diferencia), cuando en realidad la hipótesis nula es falsa. • Poder: Si hay un efecto medible de nuestra intervención (la hipótesis nula es falsa), la probabilidad que detectemos un efecto (rechazar la hipótesis nula) Problemas de las muestras chicas • En muestras arbitrariamente grandes ambos tipos de errores tienden a cero. Pero en muestras chicas hay los siguientes problemas: • Sesgo: Puedes tener mala suerte y que la muestra no represente a la población: e.g. si tiras una moneda 2 veces puede caer sol en ambas. • Imprecisión: Puede haber mucho “ruido”/ imprecisión, aunque no haya sesgo. • Se complica usar estadística porque en muestras chicas la distribución de estimadores es complicada. Precisión (Tamaño Muestra) Exactitud vs. Precisión estimates truth No sesgo (Aleatorización) Haciendo rodar 2 dados: Puntaje promedio de los dados y probabilidad 1/4 Likelihood 1/6 0 0 Frequency Frecuencia 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 Haciendo rodar 30 dados: Se distribuye Normal, con media 3.5 3,5% 3,0% 2,5% 2,0% 1,5% 1,0% 0,5% 0,0% 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 >99% de todas las rodaduras darán un promedio entre 3 y 4 Exactitud versus Precisión Distribución de calificaciones de control y tratamiento Vamos a necesitar una medida de distancia para “decir” si hay efecto o no 160 140 120 100 control Control 80 treatment Tratamiento 60 40 20 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 PUNTAJES Significancia: probabilidad de correctamente decir que sí hay efecto 0,5 0,45 0,4 Verdad bajo H1 Verdad bajo Ho 0,35 Sin programa control 0,3 Con Programa 0,25 treatment 0,2 significance 0,15 t= valor critico 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 a =Significancia o error tipo 1: decir que hay efecto cuando no es verdad Poder: probabilidad de detectar el efecto cuando este existe Verdad bajo H1 Verdad bajo Ho Sin programa Con Programa error tipo 2 t= valor critico Poder: Probabilidad de detectar el efecto cuando SÍ es cierto Trade-off: si subes t-crítico reduces error tipo 1 pero subes error tipo 2 (i.e. bajas poder) • Una forma de reducir ambos tipos de errores es “haciendo” las distribuciones más delgadas. Esto se logra subiendo el tamaño de muestra. • Por lo tanto, la práctica común es fijar un nivel de significancia y escoger el tamaño de muestra para aumentar el poder, típicamente 80% o 90% de poder es aceptable en economía. Teorema del límite central • Para calcular aéreas de curvas necesito saber cual es la curva. ¿Pero cómo sé cual es la distribución de las calificaciones en la población? • En general no sabemos, sin embargo sí sabemos como se distribuye el promedio. • No importa cual es la población de la que estemos hablando (calificaciones de alumnos, días de estancia en el hospital, etc) el promedio de la variable se distribuye normal N(mu, var/n). • Noten que el promedio está centrado en la media y la varianza de la media muestral (llamado o error estándar) disminuye con el tamaño muestra. Cómo pasamos desde aquí… 500 400 300 200 100 0 Esta es la distribución de la población (Distribución Poblacional) 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Puntajes Hasta aquí… Esta es la distribución de los Promedios de todas las muestras aleatorias (Distribución Muestral) Pruebas de hipótesis: conclusiones • Es altamente improbable (probabilidad inferior al 5%) que la diferencia se deba solamente a la casualidad: – Nosotros “rechazamos nuestra hipótesis nula” • Ahora podemos decir: – “nuestro programa tiene un impacto estadísticamente significativo” Detectando Impacto Antes del Programa 0,5 0,45 0,4 0,35 0,3 Control control 0,25 H0 Hβ 0,2 Tratamiento treatment 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Asuma que hay dos efectos: efecto nulo y efecto β 6 ¿Qué afecta el poder? ¿Cuáles son los factores que cambian la proporción de la hipótesis de investigación que está sombreada; es decir, la proporción que está a la derecha (o izquierda) de la curva de la hipótesis nula? Comprender esto nos ayuda a diseñar experimentos más potentes 24 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Magnitud del Efecto: 1*Error Est. 0,5 1 • Hypothesized effect size determines distance between means 0,45 Desviación Estándar 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Magnitud del Efecto = 1*Error Est. 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 26% Si el impacto verdadero fuese 1*Error Est. 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 La hipótesis nula sería rechazada el 26% de las veces Magnitud del Efecto: 3*Error Est. 0,5 0,45 3*SE 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Mayor magnitud del efecto hipotetizado las distribuciones se apartan Magnitud del Efecto 3*Error Est: Poder= 91% 0,5 0,45 0,4 0,35 0,3 control Control Hβ 0,25 0,2 H0 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Efecto más grande  Más poder 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Poder: Magnitud del efecto = 1SD, Tamaño de la muestra = N 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Tamaño de la muestra = 4N 0,5 0,45 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 Significancia significance 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 64% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Tamaño de la muestra = 9 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Varianza • En ocasiones, podemos hacer muy poco para reducir el ruido • Podemos tratar de “absorber” la varianza: – usando una línea base – controlando otras variables • Podemos tratar de hacer mediciones más precisas Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) División de la muestra: 50% C, 50% T 0,5 0,45 0,4 0,35 0,3 control Hβ 0,25 H0 Control treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 ¿Y si no tenemos una división 50-50? ¿Qué pasa con el “grosor” relativo si la división no es 50-50 y es 25-75? División de la muestra: 25% C, 75% T 0,5 0,45 0,4 0,35 0,3 control Hβ 0,25 H0 Control treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: 83% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 Poder power 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Poder: Ingredientes Principales 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) Fórmula sencilla Fórmula sencilla con asignación de individuos a tratamiento y control TAMAÑO DE MUESTRA 7.7284 t's al cuadrado 4 proporciones al cuadrado 40 varianza N 1237 Efecto=1 309 Efecto=2 137 Efecto=3 • “k” = error tipo 2, alfa=error tipo 1. • t(1-k) con 80% de poder es aproximadamente = 0.80 • t(alpha) con 5% de significancia es aproximadamente 1.96 Hay varios programas en el internet que les calculan el tamaño de muestra, e.g. “Optimal Design”. En Stata “sampsi”. Diseño agrupado: intuición • Usted desea saber cuán estrechas serán las próximas elecciones nacionales • Método 1: Seleccione aleatoriamente a 50 personas de toda la población en Perú • Método 2: Seleccione aleatoriamente a 5 familias, y pregúnteles la opinión a diez miembros de cada familia Baja correlación intra-cluster (Rho) Alta correlación intra-cluster (rho) ¡Gracias! Magnitud del efecto y aceptación • Digamos que creemos que el impacto en nuestros participantes es “3” • ¿Qué sucede si la tasa de participación en el programa es de 1/3? Mostremos esto gráficamente Magnitud del Efecto: 3*SE 0,5 0,45 3*SE 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Digamos que creemos que el impacto en nuestros participantes es de “3” La aceptación es 33%. La magnitud del efecto es un tercio 0,5 1 • Hypothesized effect size determines distance between means 0,45 Desviación Estándar 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 De vuelta al Poder = 26% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 La tasa de aceptación se refleja en la magnitud del efecto

Tamaño Muestral y Cálculos de Poder

Documentos relacionados

Productos

Apoyo

Tamaño Muestral y Cálculos de Poder

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib