Inferencia estadística: es el proceso de sacar conclusiones de la

Anuncio
Inferencia estadística: es el proceso de
sacar conclusiones de la población basados
en la información de una muestra de esa
población.
Objetivos de la inferencia:
- estimación de parámetros,
- intervalos de confianza y
- docimasia, test de hipótesis o pruebas de
significación estadística.
Intervalos de Confianza para una
proporción
Cuando hacemos un test de hipótesis
decidimos sobre un valor hipotético del
parámetro.
• ¿Qué proporción de mujeres espera
compartir las tareas de la casa con su
pareja?
• ¿Qué proporción de la población sufre de
cáncer?
Cada una de estas preguntas es sobre “el
valor de la proporción P ”. Es decir,
queremos estimar P .
Una proporción muestral p̂ es un
estimador puntual de la proporción en la
población P .
Un estimador de intervalo de confianza de
la proporción en la población P , es un
intervalo, calculado a partir de los datos de
la muestra, en el cual nosotros “confiamos”
se encuentra la proporción de la población
P.
El nivel de confianza es la probabilidad de
que el método de estimación nos dé un
intervalo que contiene al parámetro ( P en
este caso).
El nivel de confianza se denota por 1− α .
Nivel de significación Nivel de confianza
α
1− α
0,10 o 10%
0,05 o 5%
0,01 o 1%
90%
95%
99%
Para construir intervalos de confianza recordemos la
distribución muestral de p$ :
P(1 − P)
pˆ ~& N ( P,
)
n
entonces aproximadamente 95% de los valores de p$
estarán entre dos desviaciones estándar de P :
N ( P,
P(1 − P)
)
n
95%
4
p-2
p
p (1 -p)
n
p +2
p (1 - p )
n
p
P(1 − P)
pˆ ± 1,96
Hacemos un intervalo:
n
Esperamos que 95% de esos intervalos contengan a
P y 5% no.
El problema es que no podemos conocer la
desviación estándar porque contiene al parámetro
desconocido.
Solución: Estimar la desviación estándar, con el
error estándar de p$ :
S ( pˆ ) =
pˆ (1 − pˆ )
n
Un intervalo de 95% de confianza para P esta
dado por:
 p̂(1 - p̂) 

p̂ ± 1,96 

n


En teoría esta aproximación funciona bien si
se cumple que: nP ≥ 5 y n(1 − P ) ≥ 5 .
En la práctica la comprobamos con:
npˆ ≥ 5 y n(1 − pˆ ) ≥ 5
Estudio: Síndrome de fatiga crónica o
encefalopatía miálgica
Se realiza un estudio para conocer la proporción de adultos
que sufren del síndrome de fatiga crónica (SFC).
Para este estudio, se eligen al azar 4000 miembros de una
Isapre, a los que se les envía un cuestionario por correo.
En el cuestionario se les pregunta por cualquier fatiga
inusual que haya interferido sus responsabilidades en el
trabajo o en la casa en los últimos 6 meses.
De las 3066 personas que respondieron (posible sesgo por
no respuesta), 590 afirmaron haber sufrido de fatiga
crónica.
Se quiere estimar la proporción de adultos que piensan
que sufren de síndrome de fatiga crónica.
De las 3066 respuestas, 590 dicen sufrir fatiga
crónica, un estimador puntual será:
pˆ = 590
≈ 0,192
3066
o 19,2%
Un intervalo de confianza 95% para la
verdadera proporción de adultos que piensan
que sufren de SFC está dado por:
(590 / 3066)(1 − 590 / 3066)
590
± 1,96
3066
3066
0,1924 ± 0,013954
[0,179 ; 0,206]
o una tasa de 179 a 206 por 1.000 adultos.
Este intervalo nos da valores posibles de la
proporción en la población de personas que
piensan que sufren del SFC basado en una
muestra de tamaño n = 3066.
Pensemos:
¿Sabemos si el intervalo de 95% de
confianza contiene a la verdadera
proporción en la población que piensan que
sufren de SFC?
¿Este nivel de 95% confianza significa que
hay una probabilidad de 95% de que la
verdadera proporción P está en el intervalo
[0,179 ; 0,206]?
¿Podemos extender estos resultados al resto
de la población general de adultos?
Interpretación!
El intervalo que construimos o contiene P
o no lo contiene.
No es correcto decir que la probabilidad de
que el intervalo [0,178 ; 0,206] contenga a
P es 0,95.
El valor del parámetro P es fijo. No varía.
La interpretación del nivel de 95% de
confianza tiene que ver con la proporción
de veces que intervalos como el que
construimos contiene a P si lo hiciéramos
muchas veces.
p
m.a.s #1
m.a.s. #2
m.a.s. #3
m.a.s. #4
Si repetimos este procedimiento muchas
veces, calculando muchos intervalos de
confianza de 95% para P , podemos
esperar que aproximadamente 95% de
P
(y
estos intervalos contenga
aproximadamente 5% no).
Revisemos los percentiles de la Tabla
N(0,1):
Nivel de
Confianza
1− α
1−
0,90
0,95
0,98
0,99
α
z
1−
α
2
2
0,95
0,975
0,99
0,995
1,645
1,96
2,33
2,575
N(0,1)
α
2
α
2
1−α
-z
1− α
2
Z
+z 1− α
2
Un intervalo de confianza (1 − α ) *100%
para P está dado por:
p$ ± z
1−
α
2
 p(1$
$ 
p)


n 

donde:
z α
es un percentil de la distribución
1−
2
N(0,1)
Este intervalo da valores posibles para la
proporción en la población P basado en
sólo una proporción muestral p$ .
Esta aproximación esta basada en el
supuesto de que los datos provienen de una
muestra aleatoria de la población y
funciona bien si nP ≥ 5 y n(1 − P) ≥ 5 .
Esta condición se puede corroborar con
npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 .
Forma general de los Intervalos de
Confianza:
 estimador

 puntual
 error estándar
  percentil

 ± 
  distribuci ón muestral  del estimador



PES revisitado
Recordemos el experimento diseñado para
probar si un sujeto tiene PES (poderes
extrasensoriales). De un mazo corriente bien
barajado, se eligen 96 cartas, una por una, con
reemplazo. A la persona en cuestión se le pide
que adivine la pinta de la carta.
Sea P la proporción de respuestas correctas si
el sujeto no tiene PES.
La persona tiene 35 correctas de las 96 cartas,
entonces la proporción muestral de respuestas
correctas es:
p$
Construya un intervalo de 95% confianza para
P basado en los resultados observados.
¿Este intervalo de confianza contiene a 0,25? Si
es así, ¿qué implica? Si no lo contiene, ¿qué
podemos inferir?
Pensemos:
Si el nivel de confianza aumenta de 95% a
99%, el intervalo de confianza será:
¿más ancho, más angosto, o el mismo?
Si el tamaño muestral aumenta (pero la
proporción muestral es la misma), el
intervalo de confianza será:
¿más ancho, más angosto, o el mismo?
Si el tamaño de la población aumenta, el
intervalo de confianza será:
¿más ancho, más angosto, o el mismo?
FUMADORES
Tabaquismo
Total
(n=1007)
Total
n (%)
Hombres
n (%)
Mujeres
n (%)
368 (36,5) 134 (39,5) 234 (35,0)
La tabla presenta la prevalencia de fumadores
en una encuesta realizada en residentes de la
ciudad de Talca, adultos de 18 a 74 años, el año
2005 (http://pifrecv.utalca.cl/)
a) ¿Cuál es la población bajo estudio?
b) Basado en los resultados del estudio,
construya un intervalo de 90% de confianza
para la proporción de sujetos que fuman.
c) Interprete el intervalo.
d) Construya un intervalo de 95% de confianza
para la proporción de sujetos que fuman. ¿Es
este intervalo más ancho o más angosto del
calculado en (b)?
e) ¿Cuál es la mitad del ancho del intervalo?
Definición:
El margen de error para una proporción es
la mitad del ancho del intervalo de
confianza, y está dado por:
E= z
1−
α
2
 p(1$
$ 
p)


n 

___________________________
E = Margen de Error
---------(------------------------------|------------------------------)-------p$ (1 − p$ )
p$ (1 − p$ )
p$
p$ + z α
p$ − z α
1−
n
n
1−
2
2
_______________________________________________________
Ancho
Se calcula un intervalo de 99%
confianza para P que resulta: (0,27 , 0,42)
(a) ¿Cuál es el valor de la proporción
muestral p$ ?
(b) ¿Cuál es el margen de error?
(c) Dé dos sugerencias para reducir el
margen de error.
¿Cuál es el tamaño de la muestra?
A partir del margen de error podemos
resolver ahora cuanto puede ser un tamaño
muestral mínimo n.
Tamaño de la muestra:
n=
( z1− α ) 2 pˆ (1 − pˆ )
2
E
2
Pero esta fórmula contiene a la proporción
muestral p$ y todavía no tenemos la
muestra!
Encontremos el máximo.
Dibuje p$ versus p$ (1- p$ )
P P(1-P)
0,0 0,0
0,1 0,09
0,2 0,16
0,3 0,21
0,4 0,24
0,5 0,25
0,6 0,24
0,7 0,21
0,8 0,16
0,9 0,09
1,0 0,0
P(1-P)
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
P
1
Definición:
Si desconocemos la variabilidad en la
población, el tamaño muestral requerido
para estimar la proporción de una población
con nivel de confianza (1 − α ) y margen de
error E esta dado por:
 1  1 
( z α )  1 − 
1−
 2  2 
2
n=
E2
2
z α
 1− 2
n=
 2E






2
La Cruz Roja quiere venir a sacar
sangre a la Universidad de Talca y nos pide
que estimemos la proporción de estudiantes
y funcionarios que estarían dispuestos a
donar sangre. Con confianza 99% y un 4%
de margen de error ¿a cuantas personas
debemos entrevistar?
Una estimación conservadora sería:
z α
 1− 2
n=
 2E

2

2
  2,576 
 = 1036,84
 = 
  2(0,04) 

Por lo tanto necesitamos entrevistar al
menos 1037 estudiantes y funcionarios.
En la oficina de admisión de la UTal
quieren estimar la proporción de alumnos
que abandona la Universidad después del
primer año de estudio. ¿A cuantos
estudiantes debe entrevistar para construir
un intervalo de confianza para P del 90%
con un margen de error de 2 puntos
porcentuales?
Corrección para población finita (cpf)
(Opcional)
La fórmula para calcular el tamaño muestral
supone que el tamaño de la población es
grande o es un muestreo con reemplazo.
Cuando queremos sacar una muestra de una
población “pequeña” en conveniente usar la
cpf
n
nc =
1− n N
Ejemplo: Crédito universitario.
Supongamos que queremos conocer la
proporción que tiene crédito universitario
entre los alumnos de Psicología de la UTal.
Con un nivel de confianza de 95% y un
margen de error del 5% ¿a cuantos
estudiantes debe encuestar?
z α
 1− 2
n=
 2E

2

2
  1,96 
 = 384,16
 = 
  2(0,05) 

Pero en el año 2001 había sólo 71 alumnos
en la carrera!
384
nc =
= 59,9
1 + 384 71
Tienen que encuestar a 60 personas.
Descargar