Tamaño Muestral y Cálculos de Poder

Anuncio
Tamaño Muestral y Cálculos de Poder
Enrique Seira
ITAM & J-PAL
[email protected]
Contexto del Curso
1.
2.
3.
4.
5.
6.
Introducción a las Evaluaciones de Impacto
Teoría de Cambio e Indicadores
Por qué y Cómo Aleatorizar
Tamaño de Muestra y Cálculos de Poder
Inferencia Causal
Evaluaciones Experimentales y Políticas
Públicas
7. Evidencia de Evaluaciones Experimentales
8. Evaluación Experimental de Principio a Fin
Resumen de la exposición
•
•
•
•
•
•
•
Introducción al método científico
Estimación
Prueba de hipótesis
Significancia estadística
Magnitud del efecto
Poder
Factores que influyen en el poder
Pruebas de hipótesis
• En derecho penal, la mayoría de las
instituciones siguen la regla: “inocente hasta
que se pruebe lo contrario”
• La presunción es que el acusado es inocente y
es responsabilidad del fiscal demostrar que es
culpable
– El juez comienza con “la hipótesis nula” de que el
acusado es inocente
– El fiscal tiene una hipótesis de que el acusado es
culpable
4
Pruebas de hipótesis
• En la evaluación del programa, en lugar de la
“presunción de inocente,” la regla es:
“presunción de insignificancia”
• La “hipótesis nula” (H0) es que no hubo (cero)
impacto del programa
• El evaluador debe demostrar un efecto
significativo del programa
Distancia entre poblaciones
• Hipótesis nula y alternativa
– Nula: no hay efecto, Alternativa: el efecto es
positivo.
• La idea es ver si los datos que recolectamos vienen
de la nula o de la alternativa
• Si la diferencia entre las poblaciónes de tratamiento
y control es “grande”, entonces rechazamos la
hipótesis nula.
El problema es que podemos cometer
error de dos tipos
USTED CONCLUYE
Programa tuvo
efecto
Sí tuvo efecto
No rechazo Ho: nula
No tuvo efecto
Rechazo Ho en favor de H1

Error tipo II
(bajo poder)

Dije que no tuvo efecto cuando en
verdad sí (muestra muy chica para
detectar efectos?)
LA
VERDAD
Error tipo I
Programa no
tuvo efecto

Dije que Sí hay efecto
cuando en verdad no
Baja confianza
7

Bajo poder
¿Qué es el nivel de significancia?
• Error tipo I: rechazar la hipótesis nula,
aún cuando sea verdadera (positivo falso)
• Nivel de significancia: La probabilidad
de que rechacemos la hipótesis nula aún
cuando sea verdadera
¿Qué es Poder Estadístico?
• Error Tipo II: No rechazar la hipótesis
nula (concluir que no hay diferencia),
cuando en realidad la hipótesis nula es
falsa.
• Poder: Si hay un efecto medible de
nuestra intervención (la hipótesis nula es
falsa), la probabilidad que detectemos un
efecto (rechazar la hipótesis nula)
Problemas de las muestras chicas
• En muestras arbitrariamente grandes ambos tipos de errores
tienden a cero. Pero en muestras chicas hay los siguientes
problemas:
• Sesgo: Puedes tener mala suerte y que la muestra no
represente a la población: e.g. si tiras una moneda 2 veces
puede caer sol en ambas.
• Imprecisión: Puede haber mucho “ruido”/ imprecisión,
aunque no haya sesgo.
• Se complica usar estadística porque en muestras chicas la
distribución de estimadores es complicada.
Precisión (Tamaño Muestra)
Exactitud vs. Precisión
estimates
truth
No sesgo (Aleatorización)
Haciendo rodar 2 dados:
Puntaje promedio de los dados y probabilidad
1/4
Likelihood
1/6
0
0
Frequency
Frecuencia
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
6
1/36
1/18
1/12
1/9
5/36
1/6
5/36
1/9
1/12
1/18
1/36
Haciendo rodar 30 dados:
Se distribuye Normal, con media 3.5
3,5%
3,0%
2,5%
2,0%
1,5%
1,0%
0,5%
0,0%
1
1,5
2
2,5
3
3,5
4
4,5
5
5,5
>99% de todas las rodaduras darán un promedio entre 3 y 4
Exactitud versus Precisión
Distribución de calificaciones de control y tratamiento
Vamos a necesitar una medida de distancia para “decir” si hay efecto o no
160
140
120
100
control
Control
80
treatment
Tratamiento
60
40
20
0
0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
PUNTAJES
Significancia: probabilidad de correctamente
decir que sí hay efecto
0,5
0,45
0,4
Verdad bajo H1
Verdad bajo Ho
0,35
Sin
programa
control
0,3
Con
Programa
0,25
treatment
0,2
significance
0,15
t= valor
critico
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
a =Significancia o error tipo 1: decir que hay efecto cuando
no es verdad
Poder: probabilidad de detectar el efecto
cuando este existe
Verdad bajo H1
Verdad bajo Ho
Sin
programa
Con
Programa
error tipo 2
t= valor
critico
Poder: Probabilidad de detectar el efecto cuando SÍ es cierto
Trade-off: si subes t-crítico reduces error tipo 1
pero subes error tipo 2 (i.e. bajas poder)
• Una forma de reducir ambos tipos de errores es
“haciendo” las distribuciones más delgadas. Esto se
logra subiendo el tamaño de muestra.
• Por lo tanto, la práctica común es fijar un nivel de
significancia y escoger el tamaño de muestra para
aumentar el poder, típicamente 80% o 90% de poder es
aceptable en economía.
Teorema del límite central
• Para calcular aéreas de curvas necesito saber cual es la
curva. ¿Pero cómo sé cual es la distribución de las
calificaciones en la población?
• En general no sabemos, sin embargo sí sabemos como se
distribuye el promedio.
• No importa cual es la población de la que estemos hablando
(calificaciones de alumnos, días de estancia en el hospital,
etc) el promedio de la variable se distribuye normal
N(mu, var/n).
• Noten que el promedio está centrado en la media y la
varianza de la media muestral (llamado o error estándar)
disminuye con el tamaño muestra.
Cómo pasamos desde aquí…
500
400
300
200
100
0
Esta es la distribución de la población
(Distribución Poblacional)
0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Puntajes
Hasta aquí…
Esta es la distribución de los Promedios de todas las muestras
aleatorias
(Distribución Muestral)
Pruebas de hipótesis: conclusiones
• Es altamente improbable (probabilidad
inferior al 5%) que la diferencia se deba
solamente a la casualidad:
– Nosotros “rechazamos nuestra hipótesis nula”
• Ahora podemos decir:
– “nuestro programa tiene un impacto
estadísticamente significativo”
Detectando Impacto
Antes del Programa
0,5
0,45
0,4
0,35
0,3
Control
control
0,25
H0
Hβ
0,2
Tratamiento
treatment
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
Asuma que hay dos efectos: efecto nulo y efecto β
6
¿Qué afecta el poder?
¿Cuáles son los factores que cambian la
proporción de la hipótesis de investigación
que está sombreada; es decir, la proporción
que está a la derecha (o izquierda) de la
curva de la hipótesis nula?
Comprender esto nos ayuda a diseñar
experimentos más potentes
24
Poder: Ingredientes Principales
1.
2.
3.
4.
5.
Magnitud del efecto
Tamaño de la muestra
Varianza
Proporción de la muestra en T vs. C
Grupos (clusters)
Magnitud del Efecto: 1*Error Est.
0,5
1
• Hypothesized effect size determines distance
between means
0,45
Desviación
Estándar
0,4
0,35
0,3
control
Control
0,25
H0
Hβ
0,2
treatment
Tratamiento
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Magnitud del Efecto = 1*Error Est.
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
H0
Hβ
0,2
treatment
Tratamiento
significance
Significancia
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: 26%
Si el impacto verdadero fuese 1*Error Est.
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
H0
Hβ
0,2
treatment
Tratamiento
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
La hipótesis nula sería rechazada el 26% de las veces
Magnitud del Efecto: 3*Error Est.
0,5
0,45
3*SE
0,4
0,35
0,3
control
Control
0,25
Tratamiento
treatment
0,2
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Mayor magnitud del efecto hipotetizado las distribuciones se
apartan
Magnitud del Efecto 3*Error Est: Poder= 91%
0,5
0,45
0,4
0,35
0,3
control
Control
Hβ
0,25
0,2
H0
treatment
Tratamiento
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
Efecto más grande  Más poder
6
Poder: Ingredientes Principales
1.
2.
3.
4.
5.
Magnitud del efecto
Tamaño de la muestra
Varianza
Proporción de la muestra en T vs. C
Grupos (clusters)
Poder: Magnitud del efecto = 1SD,
Tamaño de la muestra = N
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
significance
Significancia
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: Tamaño de la muestra = 4N
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
Tratamiento
treatment
0,2
Significancia
significance
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: 64%
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: Tamaño de la muestra = 9
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
significance
Significancia
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: 91%
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: Ingredientes Principales
1.
2.
3.
4.
5.
Magnitud del efecto
Tamaño de la muestra
Varianza
Proporción de la muestra en T vs. C
Grupos (clusters)
Varianza
• En ocasiones, podemos hacer muy poco para
reducir el ruido
• Podemos tratar de “absorber” la varianza:
– usando una línea base
– controlando otras variables
• Podemos tratar de hacer mediciones más
precisas
Poder: Ingredientes Principales
1.
2.
3.
4.
5.
Magnitud del efecto
Tamaño de la muestra
Varianza
Proporción de la muestra en T vs. C
Grupos (clusters)
División de la muestra: 50% C, 50% T
0,5
0,45
0,4
0,35
0,3
control
Hβ
0,25
H0
Control
treatment
Tratamiento
0,2
significance
Significancia
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: 91%
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
¿Y si no tenemos una división 50-50?
¿Qué pasa con el “grosor” relativo si la
división no es 50-50 y es 25-75?
División de la muestra: 25% C, 75% T
0,5
0,45
0,4
0,35
0,3
control
Hβ
0,25
H0
Control
treatment
Tratamiento
0,2
significance
Significancia
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: 83%
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
Poder
power
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Poder: Ingredientes Principales
1.
2.
3.
4.
5.
Magnitud del efecto
Tamaño de la muestra
Varianza
Proporción de la muestra en T vs. C
Grupos (clusters)
Fórmula sencilla
Fórmula sencilla con asignación de individuos a
tratamiento y control
TAMAÑO DE MUESTRA
7.7284 t's al cuadrado
4 proporciones al cuadrado
40 varianza
N
1237
Efecto=1
309
Efecto=2
137
Efecto=3
• “k” = error tipo 2, alfa=error tipo 1.
• t(1-k) con 80% de poder es aproximadamente = 0.80
• t(alpha) con 5% de significancia es aproximadamente 1.96
Hay varios programas en el internet que les calculan el tamaño de
muestra, e.g. “Optimal Design”. En Stata “sampsi”.
Diseño agrupado: intuición
• Usted desea saber cuán estrechas serán las
próximas elecciones nacionales
• Método 1: Seleccione aleatoriamente a 50
personas de toda la población en Perú
• Método 2: Seleccione aleatoriamente a 5
familias, y pregúnteles la opinión a diez
miembros de cada familia
Baja correlación intra-cluster (Rho)
Alta correlación intra-cluster (rho)
¡Gracias!
Magnitud del efecto y aceptación
• Digamos que creemos que el impacto
en nuestros participantes es “3”
• ¿Qué sucede si la tasa de participación
en el programa es de 1/3?
Mostremos esto gráficamente
Magnitud del Efecto: 3*SE
0,5
0,45
3*SE
0,4
0,35
0,3
control
Control
0,25
treatment
Tratamiento
0,2
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
Digamos que creemos que el impacto en nuestros participantes
es de “3”
La aceptación es 33%. La magnitud del
efecto es un tercio
0,5
1
• Hypothesized effect size determines distance
between means
0,45
Desviación
Estándar
0,4
0,35
0,3
control
Control
0,25
H0
Hβ
0,2
treatment
Tratamiento
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
De vuelta al Poder = 26%
0,5
0,45
0,4
0,35
0,3
control
Control
0,25
H0
Hβ
0,2
treatment
Tratamiento
power
Poder
0,15
0,1
0,05
0
-4
-3
-2
-1
0
1
2
3
4
5
6
La tasa de aceptación se refleja en la magnitud del efecto
Descargar