Apuntes Cap 8 Intervalos de confianza para

Anuncio
Página 1 de 11
CAPÍTULO 8: INTERVALOS DE CONFIANZA PARA PROPORCIONES
Y MEDIAS
Intervalos de Confianza para una proporción
Cuando hacemos un test de hipótesis decidimos sobre un valor hipotético del parámetro.
•
•
•
¿Qué proporción de mujeres espera compartir las tareas de la casa con su pareja?
¿Qué proporción de la población sufre de fatiga crónica?
¿Qué proporción de la población sufre de Cáncer?
Cada una de estas preguntas es sobre “el valor de la proporción P ”. Es decir, queremos
estimar P .
Una proporción muestral
p$ es un estimador puntual (un número) de la proporción en la
población P .
Un estimador de intervalo de confianza de la proporción en la población P , es un
intervalo, calculado a partir de los datos de la muestra, en el cual nosotros “confiamos” se
encuentra la proporción de la población P .
El nivel de confianza es la probabilidad de que el método de estimación nos dé un
intervalo que contiene al parámetro ( P en este caso). El nivel de confianza se denota por
1− α , donde valores comunes de son 0,10; 0,05; y 0,01, para una confianza de 90%,
95%, y 99%.
α
Para construir intervalos de confianza recordemos la distribución muestral de la proporción
muestral
p$ :
pˆ ~& N ( P,
P(1 − P)
) , entonces aproximadamente 95% de los valores de
n
estarán entre dos desviaciones estándar de P .
N ( P,
P(1 − P)
)
n
95%
4
p -2
p
p(1 -p)
n
p
p +2
p(1 - p)
n
p$
Página 2 de 11
P(1 − P)
. Esperamos que el 95% de los intervalos de
n
P(1 − P)
confianza formados por pˆ ± 1,96
van a contener al parámetro P y 5% no lo van a
n
Hacemos un intervalo:
contener.
pˆ ± 1,96
El problema es que si no conocemos el parámetro no conocemos la desviación
estándar. Solución: Estimar la desviación estándar, con el error estándar de
S ( pˆ ) =
p$ :
pˆ (1 − pˆ )
n
Un intervalo de 95% de confianza para P esta dado por:
 p̂(1 - p̂) 

p̂ ± 1,96 
n 

En teoría esta aproximación funciona bien si se cumple que:
práctica la comprobamos con:
nP ≥ 5 y n(1 − P ) ≥ 5 . En la
npˆ ≥ 5 y n(1 − pˆ ) ≥ 5
FUMADORES
Se realiza un estudio para conocer la prevalencia (proporción) de los factores de riesgo
cardiovasculares en residentes de la ciudad de Talca, adultos de 18 a 74 años, el año 2005
(http://pifrecv.utalca.cl/)
Tabaquismo
Total
n (%)
Hombres
n (%)
Mujeres
n (%)
Total
368 (36,5)
134 (39,5)
234 (35,0)
La tabla presenta la prevalencia de fumadores en la muestra de 1007 personas. Se quiere
estimar la proporción de adultos que fuman.
Obtenga el estimador puntual de la proporción buscada.
¿Un intervalo de confianza 95% para la verdadera proporción de adultos que fuman,
está dado por?
Pensemos:
¿Sabemos si el intervalo de 95% de confianza contiene a la verdadera proporción en la
población que fuman?
¿Este nivel de 95% confianza significa que hay una probabilidad de 95% de que la
verdadera proporción P está en el intervalo [33,6 ; 39,5]?
¿Podemos extender estos resultados al resto de la población general de adultos?
Página 3 de 11
Interpretación!
El intervalo que construimos o contiene P o no lo contiene. No es correcto decir que la
probabilidad de que el intervalo [33,6; 39,5] contenga a P es 0,95. El valor del parámetro
P es fijo. No varía.
La interpretación del nivel de 95% de confianza tiene que ver con la proporción de veces
que intervalos como el que construimos contiene a P si lo hiciéramos muchas veces.
p
m.a.s #1
m.a.s. #2
m.a.s. #3
m.a.s. #4
Si repetimos este procedimiento muchas veces, calculando muchos intervalos de
confianza de 95% para P , podemos esperar que aproximadamente 95% de estos
intervalos contenga P (y aproximadamente 5% no).
Revisemos los percentiles de la tabla N(0,1):
Nivel de Confianza
1− α
0,80
0,90
0,95
0,98
0,99
0,999
z
1−
N(0,1)
α
2
α
2
α
2
1−α
-z
1− α
2
Z
+z 1− α
2
Página 4 de 11
Un intervalo de confianza ( 1 − α )*100% para P está dado por:
p$ ± z
1−
donde
z
α
2
 p(1
$ - p)
$ 


n 

α
es un percentil de la distribución N(0,1)
2
Este intervalo da valores posibles para la proporción en la población
1−
proporción muestral
P basada en sólo una
p$ .
Esta aproximación esta basada en el supuesto de que los datos provienen de una muestra
aleatoria de la población y funciona bien si
puede corroborar con
nP ≥ 5 y n(1 − P) ≥ 5 .
Esta condición se
npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 .
Forma general de los Intervalos de Confianza:
 estimador

 puntual
 error estándar
  percentil

 ± 
  distribución muestral  del estimador



Pensemos:
Si el nivel de confianza aumenta de 95% a 99%, el intervalo de confianza será:
¿más ancho,
más angosto,
o el mismo?
Si el tamaño muestral aumenta (pero la proporción muestral es la misma), el intervalo
de confianza será:
¿más ancho,
más angosto,
o el mismo?
Si el tamaño de la población aumenta, el intervalo de confianza será:
¿más ancho,
más angosto,
o el mismo?
Página 5 de 11
FUMADORES revisitado
Tabaquismo
Total
n (%)
Hombres
n (%)
Mujeres
n (%)
Total
(n=1007)
368 (36,5)
134 (39,5)
234 (35,0)
La tabla presenta la prevalencia de fumadores en una encuesta realizada en residentes de la
ciudad de Talca, adultos de 18 a 74 años, el año 2005 (http://pifrecv.utalca.cl/).
a)
¿Cuál es la población bajo estudio?
b)
Basado en los resultados del estudio, construya un intervalo de 90% de confianza
para la proporción de sujetos que fuman.
c)
Interprete el intervalo.
d)
Construya un intervalo de 95% de confianza para la proporción de sujetos que
fuman. ¿Es este intervalo más ancho o más angosto del calculado en (b)?
e)
En la Encuesta Nacional de Salud del 2003 se encontró una prevalencia del 42%.
Comente.
f)
¿Cuál es la mitad del ancho del intervalo?
Definición:
El margen de error para una proporción es la mitad del ancho del intervalo de confianza, y
está dado por:
E= z
1−
α
2
 p(1$
$ 
p)


n 

____________________
E = Margen de Error
---------(------------------------------|------------------------------)--------
p$ − z
1−
α
2
p$ (1 − p$ )
n
p$
p$ + z
1−
α
2
p$ (1 − p$ )
n
__________________________________________
Ancho
Se calcula un intervalo de 99% confianza para
P que resulta: (0,27 , 0,42)
a) ¿Cuál es el valor de la proporción muestral
p$ ?
b) ¿Cuál es el margen de error?
c) Dé dos sugerencias para reducir el margen de error.
Página 6 de 11
¿Cuál es el tamaño de la muestra?
Con la fórmula del margen de error podemos conocer cuanto puede ser un tamaño muestral
mínimo n.
2
Tamaño de la muestra:


$( $)
z1− α2  p 1 − p
n=
E2
p̂
Pero esta fórmula contiene a la proporción muestral
y todavía no tenemos la muestra!
Encontremos el máximo.
Dibuje
p̂
versus
p̂
(1-
Por ejemplo, grafique
p̂
p(1 - p )
p̂ )
p̂
= 0,5 vs
(1-
p̂ ) = 0,25.
0
0.5
1
p
Definición:
Si desconocemos la variabilidad en la población, el tamaño muestral requerido para
estimar la proporción de una población con nivel de confianza 1 − α y margen de error E
esta dado por:
2

 1  1
⋅ 1 − 
 z1− α 
 2  2  2
n=
=
E2
2

  1 2
z
z α
 1− α   
 1− 2
 2  2
=

E2
 2E






2
La Cruz Roja quiere venir a sacar sangre a la Universidad de Talca y nos pide que
estimemos la proporción de estudiantes y funcionarios que estarían dispuestos a donar
sangre. Con confianza 99% y un 4% de margen de error ¿a cuantas personas debemos
entrevistar?
En la oficina de admisión de la UTal quieren estimar la proporción de alumnos que
abandona la Universidad después del primer año de estudio. ¿A cuantos estudiantes debe
entrevistar para construir un intervalo de confianza para P del 90% con un margen de
error de 2 puntos porcentuales?
Página 7 de 11
Corrección para población finita (cpf) (Opcional)
La fórmula para calcular el tamaño muestral supone que el tamaño de la población es
grande o es un muestreo con reemplazo. Cuando queremos sacar una muestra de una
población “pequeña” en conveniente usar la cpf
nc =
n
1+ n N
Ejemplo: Crédito universitario.
En el año 2001 un grupo de alumnos de la recién creada carrera de Psicología en la UTal,
hizo un trabajo sobre el crédito universitario. Ellos querían conocer la proporción que tiene
crédito universitario entre los alumnos de Psicología de la UTal. Con un nivel de confianza
de 95% y un margen de error del 5% ¿a cuantos estudiantes debieron encuestar?
z α
 1−
n= 2
 2E

2

2
  1,96 
 = 384,16
 = 
  2(0,05) 

Pero en el año 2001 había 71 alumnos inscritos!
nc =
384
= 59,9
1 + 384 71
Finalmente, tuvieron que encuestar a 60 personas.
Página 8 de 11
Intervalos de Confianza para la media de una población
Como hemos mencionado la media muestral x basada en una muestra aleatoria, es un
buen estimador puntual de la media poblacional µ. La pregunta es ¿qué tan buen estimador
es? ¿Será el valor observado de la media muestral igual a la media poblacional?
Probablemente no. ¿Será entonces cercano a µ? ¿Pero qué tan cercano?
Definiciones:
La media muestral
x
es un estimador puntual de la media de poblacional
µ.
Un estimador de intervalo de confianza para la media poblacional µ es un intervalo de
valores, calculados a partir de los datos de la muestra, entre los cuales podemos confiar que
se encuentra la media poblacional µ.
El nivel de confianza es la probabilidad de que el método de estimación nos dé un
intervalo de confianza que contiene al parámetro (µ en este caso).
Para construir un intervalo de confianza para µ usamos la distribución muestral de la media
x ~& N ( µ ,
muestral
σ
n
) , entonces aproximadamente 95% de los valores de estarán a 1,96
desviaciones estándar de µ.

N  µ , σ

n

95%
µ− 2 σ
(
µ
n
µ+2σ n
X
)
x
Un intervalo de confianza ( 1 − α )*100% para
x±z
1−
donde
z
α
α
2
µ
está dado por:
 σ 


 n
es un percentil de la distribución N(0,1)
2
Este intervalo será exacto si los datos provienen de una muestra aleatoria de una
población Normal. Será aproximado para cualquier otra población y tamaños de muestra
n > 30
1−
(Teorema de Límite Central).
Página 9 de 11
Bebidas
Suponga que una máquina de bebidas esta calibrada de tal manera que la cantidad de
líquido entregado es aproximadamente normal con desviación estándar 0,15 decilitros
(nota: 1 decilitro es 0,1 litro).
a) Calcule un intervalo de 95% de confianza para la media de la cantidad de líquido
entregado basado en una muestra aleatoria de 36 vasos con promedio de 2,25
decilitros.
b) ¿Un intervalo de 90% de confianza será más ancho o más angosto que el calculado
en la parte (a)?
c) ¿Qué tamaño de muestra necesitaría si quisiera obtener un margen de error para un
intervalo de 95% de confianza sea 0,02?
Una vez más nos encontramos con el problema de que en general no conocemos la
desviación estándar de la población (σ), por lo tanto estimamos σ con la desviación estándar
de la muestra seleccionada (s), y tenemos que usar la distribución t de Student en vez de la
Normal.
Un intervalo de confianza ( 1 − α )*100% para
µ
está dado por:

x ± t1(-nα−1)  s

n
2 
donde
t1(-nα−1)
es el percentil apropiado de la distribución t con (n-1) grado de libertad.
2
Este intervalo nos da valores posibles para la media de la población
µ
basados en la media
muestral x . Se basa en el supuesto de que los datos provienen de una muestra aleatoria de
una población con distribución normal con desviación estándar σ desconocida. Si el
tamaño de la muestra es grande, el supuesto de normalidad no es crucial, sin embargo
debemos preocuparnos si la distribución de los datos es sesgada o tiene valores extremos.
El margen de error de la media poblacional es:

E = t1(-nα−1)  s
.
n
2 
Colesterol
Un médico interesado en conocer la media del colesterol en la población toma una muestra
de tamaño 225. Calcule los límites de confianza de 99% para el promedio de colesterol
sanguíneo si en la muestra se encontró un promedio de 190 y una desviación estándar 15.
Interprete el intervalo de confianza encontrado.
Página 10 de 11
Intervalos de confianza y Test de Hipótesis
Se puede docimar la hipótesis
α
H 0 : µ = µ0
versus
H1 : µ ≠ µ 0
con un nivel de significación
usando la siguiente regla de decisión:
Rechazar H0 si el correspondiente intervalo de confianza (1− α )x100% para la media de la
población
µ
no contiene al valor hipotético en
H0 .
Nota: El test tiene que ser de dos colas y el nivel de confianza más el nivel de significación
tienen que sumar 100%.
Patrones de sueño en niños
Un estudio de los patrones de sueño de niños de seis meses en Estados Unidos afirma que
un intervalo de 95% de confianza para el promedio de tiempo que los niños duermen (en un
periodo de 24 horas) es (11,5 - 15,2) horas. Suponga que queremos docimar
H : µ = 15 versus H : µ ≠ 15 .
0
1
a) ¿Qué decisión tomamos si
α = 0,05 ?
b) ¿Qué decisión tomamos si
α = 0,01 ?
Tabla resumen:
Situación
Parámetro
Muestra aleatoria
de una población
normal con
conocida
Media
Muestra aleatoria
de una población
normal con
desconocida
Media
Muestra aleatoria
de una población
Proporción
σ
σ
µ
µ
P
Test Estadístico
z=
x − µ0
σ
Intervalo de Confianza

x ± z1−α  σ

n
2 
n
t=
z=
x − µ0
s
n
pˆ − p 0
p 0 (1 − p 0 )
n
x ± t1(-nα−1)  S 
n
2 
 p(1$
$ 
p)

p$ ± z1−α 
n 
2 
Página 11 de 11
En resumen, los pasos básicos para docimar cualquier hipótesis y la forma general de los
intervalos de confianza, para lo que necesitaremos un estimador puntual para el parámetro
y su correspondiente error estándar, son:
Pasos básicos para docimar una hipótesis acerca de un parámetro:
1. Definir cual es la población y el o los correspondientes parámetros de interés.
2. Establecer las hipótesis (nula y alternativa).
3. Establecer el nivel de significación α.
4. Recoger los datos y verificar los supuestos.
5. Calcular el test estadístico usando los datos. La forma general del test estadístico es:
Test Estadístico =
estimador puntual − valor nulo
error estándar
6. Calcular el valor p.
7. Tomar una decisión e informar la conclusión en términos del problema establecido por
el investigador.
Forma general de los Intervalos de Confianza:
 estimador

 puntual
  percentil
 error estándar
 ± 

  distribuci ón muestral  del estimador



Descargar