Introducción Hipótesis Poder Resumen Introducción Hipótesis Poder Resumen Clase 5 Muestreo y tamaño de muestra Francisco Gallego Profesor Asociado Pontificia Universidad Católica de Chile [email protected] Introducción Horario Hipótesis Poder Resumen Introducción Hipótesis Poder Resumen Objetivos Después de esta sesión, los participantes serán capaces de: Identificar los elementos que pueden afectar la precisión y exactitud de los resultados de una evaluación de impacto. Entender lo que es un test de hipótesis y los errores tipo 1 y 2. Diferenciar entre los conceptos de exactitud y precisión. Entender el concepto de poder estadístico y su importancia para una evaluación de impacto. Introducción Hipótesis Poder Resumen Esquema de la presentación 1. 2. 3. 4. Introducción y conceptos básicos Hipótesis y tipos de errores ¿Qué determina el poder? Resumen Introducción Hipótesis Poder Resumen 1. Introducción y conceptos básicos Introducción Hipótesis Poder Resumen Evaluación y muestreo Una evaluación de impacto tiene como objetivo determinar el tamaño del impacto para una población. Casi siempre no se puede evaluar a toda la población. Es muy costoso. No es factible. Tomar una muestra y aproximar el impacto. Estimamos el impacto en la población a través de la muestra. 7 Introducción Hipótesis Poder Resumen Recapitulando: Muestreo y validez Validez externa “Muestro aleatorio no es condición necesaría ni suficiente.” Población Relevante Muestra Representativa 8 Introducción Hipótesis Poder Resumen Recapitulando: Muestreo y validez Muestreo aleatorio Validez externa Asignación aleatoria (tratamiento & control) Validez interna Tratamiento Control 9 Introducción Hipótesis Poder Resumen Evaluación y muestreo La asignación aleatoria elimina el sesgo. Genera grupos que tienen características iguales en promedio, si la muestra es suficientemente grande. • ¿Pero qué pasa si asigno sólo una persona a tratamiento y sólo una a control? Dichas características van a tender a ser iguales a las características de la población, si la muestra es (representativa y) suficientemente grande. 10 Introducción Hipótesis Poder Resumen Precisión (Tamaño Muestra) Exactitud vs. Precisión Estimación Verdad Sesgo No Sesgo Exactitud (Aleatorización) 11 Introducción Hipótesis Poder Resumen Precisión y muestreo Se compara los resultados de la muestra para grupo de tratamiento contra los resultados para grupo de control. Como no se observa a toda la población, se estima el impacto para la población utilizando una muestra. No tenemos certeza sobre el impacto para la población total. Si la muestra es pequeña, las estimaciones van a ser poco precisas. Si no tenemos mucha confianza en las estimaciones, ¿cuál es el margen de error aceptable? ¿Cuánta confianza podemos tener en las estimaciones? 12 Introducción Hipótesis Poder Resumen Supongamos que tomamos una muestra representativa de la población uruguaya y la asignamos aleatoriamente a tratamiento y control. Los resultados son: Tratamiento 60 Control 50 13 Introducción Hipótesis Poder Resumen ¿De acuerdo al ejemplo anterior, qué podemos concluir? 1. 2. 3. 4. 5. El programa tuvo impacto de 10 puntos. La muestra es demasiada grande para detectar impacto. La muestra es demasiada pequeña para detectar impacto. El programa no tuvo impacto. No tengo suficiente información para concluir sobre el impacto. 14 Precisión y distribuciones Introducción Hipótesis Poder Resumen Ejemplo: Programa de Profesor Adicional Imagínense un programa donde los alumnos de cuarto grado de varios distritos de Uruguay reciben ayuda de profesores adicionales. Queremos medir el impacto sobre las notas de los alumnos . 15 Introducción Hipótesis Poder Resumen Precisión alta: Diferencia en notas de alumnos con Tratamiento y Control 16 Introducción Hipótesis Poder Resumen Precisión baja: Diferencia en notas de alumnos con Tratamiento y Control 17 Introducción Hipótesis Poder Resumen De acuerdo a los dos gráficos anteriores, ¿qué podemos concluir? 1. 2. 3. 4. 5. La precisión es impactada por la distribución de las notas. La facilidad con la cual se puede detectar impacto depende de la distribución de las notas. El promedio es información insuficiente para medir un impacto. Todas las respuestas correctos. Solamente 1 y 2 son correctos. 18 Introducción Hipótesis Poder Precisión y confianza en la estimación Resumen ¿Cuánta confianza podemos tener en las estimaciones? La confianza en las estimaciones depende de: Variabilidad de la muestra (desviación estándar). Tamaño de la muestra. Esto lo podemos resumir en el Error Estándar (SE). Podemos construir un intervalo de confianza. 19 Introducción Hipótesis Poder Resumen Intervalo de confianza Recordemos que el efecto estimado depende de la muestra que se utiliza. Si utilizamos distintas muestras para representar una misma población, la estimación del efecto puede ser distinta. Un intervalo de confianza de 95% nos dice que si estimamos un impacto para 100 distintas muestras de la misma población de interés, en el 95% de los casos el impacto estimado para la muestra es el impacto real para toda la población. Regla de dedo: El impacto promedio estimado más o menos 2 veces el Error Estándar (±2 SE) da un intervalo de confianza de 95% (aprox). 20 Introducción Hipótesis Poder Resumen 2. Hipótesis y tipos de errores Introducción Hipótesis Poder Resumen Pruebas de hipótesis En derecho penal, la mayoría de las instituciones siguen la regla: “inocente hasta que se pruebe lo contrario”. El juez comienza con la “hipótesis nula” que el acusado es inocente. La “hipótesis alterna” del juez es que el acusado es culpable. Bajo la presunción de inocencia, la carga de la prueba que el acusado es culpable cae en el fiscal. Tiene que proveer “suficiente evidencia” para rechazar la hipótesis nula (inocente) en favor de la alterna (culpable). 22 Introducción Hipótesis Poder Resumen Pruebas de hipótesis En una evaluación de impacto: en lugar de “presunción de inocencia,” la regla es: “presunción de insignificancia”. La “hipótesis nula” (H0) es que no hubo impacto del programa (cero). Es decir, no hay diferencia entre grupos de Tratamiento y Control. La carga de la prueba recae en el evaluador. Debe demostrar un efecto significativo del programa. Si la diferencia entre grupos de Tratamiento y Control es “grande”, entonces rechazamos la hipótesis nula (el impacto fue cero) en favor de la hipótesis alterna (hubo impacto). 23 Introducción Hipótesis Poder Resumen Pruebas de hipótesis: Ejemplo de programa escolar Hipótesis Nula (H0) No hay impacto del programa sobre las notas: Impacto = 0 Impacto ≤0 Impacto ≥ 0 Hipótesis Alterna (Ha) Sí hay impacto del programa sobre las notas: Impacto ≠ 0 Impacto positivo, Efecto > 0 Impacto negativo, Efecto < 0 Impacto = Resultado Tratamiento – Resultado Control En una prueba de hipótesis, el evaluador se pregunta: ¿Puedo rechazar H0 (en favor de Ha)? ¿Son los datos que recolectamos consistentes con H0 o no? 24 Introducción Hipótesis Poder Resumen Para poder afirmar que « El Programa de Profesor Adicional tuvo un impacto significativo sobre las notas de los niños », el evaluador: 1. Aceptó la hipótesis nula. 2. Rechazó la hipótesis nula. 3. Aceptó la hipótesis alterna. 4. Rechazó la hipotesis alterna. 5. Depende. 6. No sé. 25 Introducción Hipótesis Poder Resumen Dos tipos de errores en pruebas de hipótesis USTED CONCLUYE Sí tuvo efecto rechazo H0 Programa SI tuvo efecto LA VERDAD Error tipo I Programa NO tuvo efecto Creo que SI hay efecto cuando en verdad NO Baja confianza No tuvo efecto no rechazo H0 en favor de Ha Error tipo II (bajo poder) Creo que NO tuvo efecto cuando en verdad SI (muestra muy chica para detectar efectos?) Bajo poder 26 Introducción Hipótesis Poder Resumen Confianza: Error tipo I Error tipo I: rechazar la hipótesis nula, cuando en realidad es verdadera. Falso positivo. Creer que si hay impacto cuando en realidad nolo hay. Nivel de significancia (α): La probabilidad que rechacemos la H0 cuando sea verdadera. Investigador elige y maneja directamente α . • Típicamente, niveles de α: 0.05, 0.01, 0.1. Con un nivel de 5% de significancia (α=0.05), tengo 95% de confianza en la validez de mi conclusión. 27 Introducción Hipótesis Poder Resumen Significancia: Probabilidad de determinar que sí hay efecto 0,5 0,45 0,4 Verdad bajo H1 Verdad bajo Ho 0,35 0,3 control 0,25 treatment 0,2 significance 0,15 t = valor critico 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Región crítica: determinamos nivel de significancia α 28 Introducción Hipótesis Poder Resumen ¿Qué es poder estadístico? Error Tipo II: No rechazar la hipótesis nula, cuando en realidad es falsa. Concluir que no hay diferencia, cuando sí la hay. Creer que NO hay impacto cuando en realidad SÍ lo hay. Poder: La probabilidad que rechacemos H0, si H0 es falsa. Probabilidad que detectemos un efecto cuando SÍ existe un efecto medible de nuestra intervención. • Si replico el mismo experimento 100 veces, ¿cuántas veces voy a rechazar H0 a cierto nivel de significancia? 29 Introducción Hipótesis Poder Resumen Poder: probabilidad de detectar el efecto cuando este existe Poder: Probabilidad de detectar el efecto cuando SÍ es cierto Verdad bajo H1 Verdad bajo Ho Sin programa Con Programa Error tipo 2 Introducción Hipótesis Poder ¿Importa el tamaño de la muestra? Resumen Muestras chicas presentan desventajas: Podemos tener mala suerte y que la muestra no represente a la población. Imprecisión: Mucho “ruido” o poca precisión, aunque no haya sesgo. • Dificulta las pruebas de hipótesis: bajo poder. La distribución de estimadores se pueden comportar de manera distinta con muestras chicas. Muestras grandes son costosas. El desafío del evaluador es buscar el tamaño óptimo (i.e. la muestra con mayor poder DADA una restricción presupuestaria). 31 Introducción Hipótesis Poder Resumen Error tipo I vs Error tipo II Con un nivel de significancia más alto, se aumenta la probabilidad de error tipo I. …pero aumenta el poder de la prueba (se reduce la probabilidad de cometer error tipo II). En general, existe un trade-off: Si bajas el nivel de significancia, reduces la probabilidad de tener un error tipo 1 pero aumentas la probabilidad de error tipo 2 (i.e. bajas poder). 32 Introducción Hipótesis Poder Resumen Error tipo I vs Error tipo II Una forma de reducir ambos tipos de errores es haciendo las distribuciones “más delgadas”. Esto se logra subiendo el tamaño de muestra. La práctica común es: Primero fijar un nivel de significancia (p. ej. α=0.05) Y luego escoger el tamaño de muestra para aumentar el poder. Típicamente 80% o 90% de poder es aceptable en economía. 33 Introducción 3. Poder Hipótesis Poder Resumen Introducción Hipótesis Poder Resumen Antes del programa 0,5 0,45 0,4 0,35 0,3 Control control 0,25 H0 Hβ 0,2 Tratamiento treatment 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Asuma que hay dos efectos: efecto nulo y efecto β Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? ¿Cuáles son los factores que cambian la probabilidad de detectar el impacto cuando este existe? Comprender esto nos ayuda a diseñar experimentos más potentes. 39 Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza / Desviación Estándar Proporción de la muestra en T vs. C Grupos (clusters) 40 Introducción Hipótesis Poder Resumen Magnitud del efecto: 1*Error Estándar (SE) 0,5 1 Error Estándar • Hypothesized effect size determines distance between means 0,45 0,4 0,35 0,3 control Control 0,25 H0 Hβ 0,2 treatment Tratamiento 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 41 Introducción Hipótesis Poder Resumen Poder: 26% Si el impacto verdadero fuese 1*Error Estándar 0,5 0,45 0,4 0,35 0,3 H0 control Control 0,25 Hβ 0,2 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 La hipótesis nula sería rechazada el 26% de las veces. Introducción Hipótesis Poder Resumen Magnitud del efecto: 3*Error Estándar 0,5 0,45 3*SE 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Mayor magnitud del efecto hipotetizado las distribuciones se apartan. 6 Introducción Hipótesis Poder Magnitud del efecto 3*Error Est: Poder= 91% Resumen 0,5 0,45 0,4 0,35 0,3 control Control Hβ 0,25 0,2 H0 treatment Tratamiento power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 Efecto más grande Más poder. 6 Introducción Hipótesis Poder Resumen Magnitud del efecto La magnitud del efecto real esta fuera de nuestro control. Pero podemos elegir cual es el efecto mínimo que queremos detectar (con cierta probabilidad). Mientras más pequeño sea el efecto mínimo que queremos detectar, más grande es la muestra que necesitamos para alcanzar cierto poder. 45 Introducción Hipótesis Poder Resumen ¿Cuales factores cree Ud. que deberíamos considerar cuando decidimos el efecto mínimo que queremos detectar? 1. Costo de oportunidad del programa. 2. Valor de los beneficios. 3. Representatividad de la muestra. 4. Todos. 5. Solamente 1 y 2. 46 Introducción Hipótesis Poder Resumen Magnitud del efecto mínimo a detectar ¿Cual es el tamaño mínimo de efecto que justifica el programa que estoy evaluando? Costo del programa. Valor de los beneficios. Costo de oportunidad del programa. El efecto típicamente se mide estandarizado. El efecto estandarizado es el tamaño del efecto dividido por la desviación estándar del resultado. • d = tamaño del efecto / Desviación Estándar • d =0.2 se considera tamaño pequeño, d=0.5 se considera grande. 47 Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza / Desviación Estándar Proporción de la muestra en T vs. C Grupos (clusters) 48 Introducción Hipótesis Poder Resumen Haciendo rodar 2 dados: Puntaje promedio de los dados y probabilidad 1/4 1/6 0 0 Frequency Frecuencia 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 49 Introducción Hipótesis Poder Resumen Haciendo rodar 30 dados: Se distribuye Normal, con media 3.5 3,5% 3,0% 2,5% 2,0% 1,5% 1,0% 0,5% 0,0% 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 >99% de todas las veces darán un promedio entre 3 y 4 Introducción Hipótesis Poder Resumen Poder con magnitud del efecto = 1SD y Tamaño de la muestra = N 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 51 Introducción Hipótesis Poder Resumen ¿Cuál es el Poder si el tamaño de la muestra = 4N? 0,5 0,45 0,4 0,35 0,3 control Control 0,25 Tratamiento treatment 0,2 Significancia significance 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 52 Introducción Hipótesis Poder Resumen Poder: 64% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 53 Introducción Hipótesis Poder Resumen ¿Cuál es el Poder si el tamaño de la muestra = 9N? 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 54 Introducción Hipótesis Poder Resumen Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 55 Introducción Hipótesis Poder Resumen Tamaño de la muestra Una de las variables sobre las que tenemos mayor control. Pero tiene limitaciones. Calcular el poder consiste en buscar el tamaño de la muestra mínima. Para un nivel de significancia dado (ej. 0.05). Para un tamaño de efecto específico. Para alcanzar cierto nivel de poder (ej. 80%). 56 Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza / Desviación Estándar Proporción de la muestra en T vs. C Grupos (clusters) 57 Introducción Hipótesis Poder Resumen Varianza No podemos hacer mucho para reducir la varianza. Podemos tratar de hacer mediciones más precisas. Podemos tratar de “absorber” la varianza, es decir capturar la variación que se debe a otros factores distintos a tratamiento: Usando una línea base. Controlando otras variables. 58 Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clusters) 59 Introducción Hipótesis Poder Resumen División de la muestra: 50% C, 50% T 0,5 0,45 0,4 H0 0,35 Hβ 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 60 Introducción Hipótesis Poder Resumen Poder: 91% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 power Poder 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 61 Introducción Hipótesis Poder Resumen ¿Qué pasaría si la división no fuera 50-50 sino 25% en Control y 75% en Tratamiento? 1. Se disminuye el poder. 2. Se disminuye el error estandár. 3. Se aumenta el poder. 4. La distribución ya no es normal. 62 Introducción Hipótesis Poder Resumen División de la muestra: 25% C, 75% T 0,5 0,45 0,4 H0 Hβ 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 significance Significancia 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Introducción Hipótesis Poder Resumen Poder: 83% 0,5 0,45 0,4 0,35 0,3 control Control 0,25 treatment Tratamiento 0,2 Poder power 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 64 Introducción Hipótesis Poder Resumen ¿Qué afecta el poder? 1. 2. 3. 4. 5. Magnitud del efecto Tamaño de la muestra Varianza Proporción de la muestra en T vs. C Grupos (clústers) 65 Introducción Hipótesis Poder Resumen Diseño agrupado (clústers) Muchas veces, el diseño nos exige que la unidad de aleatorización no sean los individuos, sino grupos. Debido a posibilidad de externalidades/contaminación, viabilidad política, naturaleza de la intervención. Ej: Progresa municipio Profesor Adicional escuela 66 Introducción Hipótesis Poder Resumen ¿Cómo afecta un diseño agrupado el poder y el tamaño de la muestra que necesito? 1. Aumenta el poder y reduce el tamaño de la muestra. 2. Disminuye el poder y aumenta el tamaño de la muestra. 3. Aumenta el poder y aumenta el tamaño de la muestra. 4. Disminuye el poder y reduce el tamaño de la muestra. 67 Introducción Hipótesis Poder Resumen Diseño agrupado: intuición Usted desea saber cuál fue el impacto de dar profesores adicionales a alumnos de cuarto grado. Método 1: Seleccione aleatoriamente a 50 alumnos de cuarto grado de toda las escuelas en México. Método 2: Seleccione aleatoriamente a 5 escuelas, y pregúnteles la opinión a diez alumnos de cuarto grado de la escuela. 68 Introducción Hipótesis Poder Resumen Baja correlación intra-cluster (Rho) 69 Introducción Hipótesis Poder Resumen Alta correlación intra-cluster (Rho) 70 Introducción Hipótesis Poder Resumen Diseño agrupado (clusters) Correlación en los resultados para los individuos dentro de un grupo. Todos los que viven en un municipio están sujetos al mismo clima, mismas autoridades, interactúan entre sí… Todos los estudiantes de una escuela están sujetos al mismo director, interactúan entre sí, comparten normas... Cálculo de poder (y el tamaño de la muestra) debe tomar en cuenta la correlación intra-grupal. Entre mayor sea la correlación entre los miembros del grupo, más deberemos ajustar los errores estándar. 71 Introducción Hipótesis 4. Resumen Poder Resumen Introducción Hipótesis Poder Resumen Muestreo y tamaño de muestra No observamos directamente el impacto, lo estimamos. Nuestra estimación de impacto es eso… una estimación. La confianza que tenemos en nuestras estimaciones dependen: del tamaño de la muestra y de la varianza de los resultados. Debemos tomar en cuenta estos factores, así como los factores que afectan el poder en el diseño de la evaluación experimental. 73 Introducción Hipótesis Poder Resumen Muestreo y tamaño de muestra El Poder (la probabilidad de detectar un efecto, cuando este existe), depende de: Magnitud del efecto; Tamaño de la muestra; Varianza; Proporción de la muestra en T vs. C; Grupos (clusters). Cálculos de poder son inciertos e involucran especulación, pero son importantes para racionalizar el uso de los recursos. Evitar despilfarrar dinero en evaluaciones en las que es imposible detectar impacto. 74 Introducción Hipótesis Poder Resumen Fórmula sencilla TAMAÑO DE MUESTRA 7.7284 t's al cuadrado 4 proporciones al cuadrado 40 varianza N 1237 Efecto=1 309 Efecto=2 137 Efecto=3 MDE = Efecto Mínimo Detectable k = Poder (error tipo 2); 𝛼 = nivel de significancia (error tipo 1). P = Proporción de la muestra asignada a Tratamiento. N = Tamaño muestral 𝜎 2 = Varianza t(1-k) con 80% de poder es aproximadamente = 0.80. tα con 5% de significancia es aproximadamente 1.96. Hay varios programas en el internet que les calculan el tamaño de muestra, por ej. “Optimal Design” o Stata (comando sampsi). 75 Introducción Hipótesis Francisco Gallego Profesor Asociado [email protected] Pontificia twitter Universidad Católica de Chile [email protected] Poder Resumen