Página 1 de 11 CAPÍTULO 8: INTERVALOS DE CONFIANZA PARA PROPORCIONES Y MEDIAS Intervalos de Confianza para una proporción Cuando hacemos un test de hipótesis decidimos sobre un valor hipotético del parámetro. • • • ¿Qué proporción de mujeres espera compartir las tareas de la casa con su pareja? ¿Qué proporción de la población sufre de fatiga crónica? ¿Qué proporción de la población sufre de Cáncer? Cada una de estas preguntas es sobre “el valor de la proporción P ”. Es decir, queremos estimar P . Una proporción muestral p$ es un estimador puntual (un número) de la proporción en la población P . Un estimador de intervalo de confianza de la proporción en la población P , es un intervalo, calculado a partir de los datos de la muestra, en el cual nosotros “confiamos” se encuentra la proporción de la población P . El nivel de confianza es la probabilidad de que el método de estimación nos dé un intervalo que contiene al parámetro ( P en este caso). El nivel de confianza se denota por 1− α , donde valores comunes de son 0,10; 0,05; y 0,01, para una confianza de 90%, 95%, y 99%. α Para construir intervalos de confianza recordemos la distribución muestral de la proporción muestral p$ : pˆ ~& N ( P, P(1 − P) ) , entonces aproximadamente 95% de los valores de n estarán entre dos desviaciones estándar de P . N ( P, P(1 − P) ) n 95% 4 p -2 p p(1 -p) n p p +2 p(1 - p) n p$ Página 2 de 11 P(1 − P) . Esperamos que el 95% de los intervalos de n P(1 − P) confianza formados por pˆ ± 1,96 van a contener al parámetro P y 5% no lo van a n Hacemos un intervalo: contener. pˆ ± 1,96 El problema es que si no conocemos el parámetro no conocemos la desviación estándar. Solución: Estimar la desviación estándar, con el error estándar de S ( pˆ ) = p$ : pˆ (1 − pˆ ) n Un intervalo de 95% de confianza para P esta dado por: p̂(1 - p̂) p̂ ± 1,96 n En teoría esta aproximación funciona bien si se cumple que: práctica la comprobamos con: nP ≥ 5 y n(1 − P ) ≥ 5 . En la npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 FUMADORES Se realiza un estudio para conocer la prevalencia (proporción) de los factores de riesgo cardiovasculares en residentes de la ciudad de Talca, adultos de 18 a 74 años, el año 2005 (http://pifrecv.utalca.cl/) Tabaquismo Total n (%) Hombres n (%) Mujeres n (%) Total 368 (36,5) 134 (39,5) 234 (35,0) La tabla presenta la prevalencia de fumadores en la muestra de 1007 personas. Se quiere estimar la proporción de adultos que fuman. Obtenga el estimador puntual de la proporción buscada. ¿Un intervalo de confianza 95% para la verdadera proporción de adultos que fuman, está dado por? Pensemos: ¿Sabemos si el intervalo de 95% de confianza contiene a la verdadera proporción en la población que fuman? ¿Este nivel de 95% confianza significa que hay una probabilidad de 95% de que la verdadera proporción P está en el intervalo [33,6 ; 39,5]? ¿Podemos extender estos resultados al resto de la población general de adultos? Página 3 de 11 Interpretación! El intervalo que construimos o contiene P o no lo contiene. No es correcto decir que la probabilidad de que el intervalo [33,6; 39,5] contenga a P es 0,95. El valor del parámetro P es fijo. No varía. La interpretación del nivel de 95% de confianza tiene que ver con la proporción de veces que intervalos como el que construimos contiene a P si lo hiciéramos muchas veces. p m.a.s #1 m.a.s. #2 m.a.s. #3 m.a.s. #4 Si repetimos este procedimiento muchas veces, calculando muchos intervalos de confianza de 95% para P , podemos esperar que aproximadamente 95% de estos intervalos contenga P (y aproximadamente 5% no). Revisemos los percentiles de la tabla N(0,1): Nivel de Confianza 1− α 0,80 0,90 0,95 0,98 0,99 0,999 z 1− N(0,1) α 2 α 2 α 2 1−α -z 1− α 2 Z +z 1− α 2 Página 4 de 11 Un intervalo de confianza ( 1 − α )*100% para P está dado por: p$ ± z 1− donde z α 2 p(1 $ - p) $ n α es un percentil de la distribución N(0,1) 2 Este intervalo da valores posibles para la proporción en la población 1− proporción muestral P basada en sólo una p$ . Esta aproximación esta basada en el supuesto de que los datos provienen de una muestra aleatoria de la población y funciona bien si puede corroborar con nP ≥ 5 y n(1 − P) ≥ 5 . Esta condición se npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 . Forma general de los Intervalos de Confianza: estimador puntual error estándar percentil ± distribución muestral del estimador Pensemos: Si el nivel de confianza aumenta de 95% a 99%, el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? Si el tamaño muestral aumenta (pero la proporción muestral es la misma), el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? Si el tamaño de la población aumenta, el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? Página 5 de 11 FUMADORES revisitado Tabaquismo Total n (%) Hombres n (%) Mujeres n (%) Total (n=1007) 368 (36,5) 134 (39,5) 234 (35,0) La tabla presenta la prevalencia de fumadores en una encuesta realizada en residentes de la ciudad de Talca, adultos de 18 a 74 años, el año 2005 (http://pifrecv.utalca.cl/). a) ¿Cuál es la población bajo estudio? b) Basado en los resultados del estudio, construya un intervalo de 90% de confianza para la proporción de sujetos que fuman. c) Interprete el intervalo. d) Construya un intervalo de 95% de confianza para la proporción de sujetos que fuman. ¿Es este intervalo más ancho o más angosto del calculado en (b)? e) En la Encuesta Nacional de Salud del 2003 se encontró una prevalencia del 42%. Comente. f) ¿Cuál es la mitad del ancho del intervalo? Definición: El margen de error para una proporción es la mitad del ancho del intervalo de confianza, y está dado por: E= z 1− α 2 p(1$ $ p) n ____________________ E = Margen de Error ---------(------------------------------|------------------------------)-------- p$ − z 1− α 2 p$ (1 − p$ ) n p$ p$ + z 1− α 2 p$ (1 − p$ ) n __________________________________________ Ancho Se calcula un intervalo de 99% confianza para P que resulta: (0,27 , 0,42) a) ¿Cuál es el valor de la proporción muestral p$ ? b) ¿Cuál es el margen de error? c) Dé dos sugerencias para reducir el margen de error. Página 6 de 11 ¿Cuál es el tamaño de la muestra? Con la fórmula del margen de error podemos conocer cuanto puede ser un tamaño muestral mínimo n. 2 Tamaño de la muestra: $( $) z1− α2 p 1 − p n= E2 p̂ Pero esta fórmula contiene a la proporción muestral y todavía no tenemos la muestra! Encontremos el máximo. Dibuje p̂ versus p̂ (1- Por ejemplo, grafique p̂ p(1 - p ) p̂ ) p̂ = 0,5 vs (1- p̂ ) = 0,25. 0 0.5 1 p Definición: Si desconocemos la variabilidad en la población, el tamaño muestral requerido para estimar la proporción de una población con nivel de confianza 1 − α y margen de error E esta dado por: 2 1 1 ⋅ 1 − z1− α 2 2 2 n= = E2 2 1 2 z z α 1− α 1− 2 2 2 = E2 2E 2 La Cruz Roja quiere venir a sacar sangre a la Universidad de Talca y nos pide que estimemos la proporción de estudiantes y funcionarios que estarían dispuestos a donar sangre. Con confianza 99% y un 4% de margen de error ¿a cuantas personas debemos entrevistar? En la oficina de admisión de la UTal quieren estimar la proporción de alumnos que abandona la Universidad después del primer año de estudio. ¿A cuantos estudiantes debe entrevistar para construir un intervalo de confianza para P del 90% con un margen de error de 2 puntos porcentuales? Página 7 de 11 Corrección para población finita (cpf) (Opcional) La fórmula para calcular el tamaño muestral supone que el tamaño de la población es grande o es un muestreo con reemplazo. Cuando queremos sacar una muestra de una población “pequeña” en conveniente usar la cpf nc = n 1+ n N Ejemplo: Crédito universitario. En el año 2001 un grupo de alumnos de la recién creada carrera de Psicología en la UTal, hizo un trabajo sobre el crédito universitario. Ellos querían conocer la proporción que tiene crédito universitario entre los alumnos de Psicología de la UTal. Con un nivel de confianza de 95% y un margen de error del 5% ¿a cuantos estudiantes debieron encuestar? z α 1− n= 2 2E 2 2 1,96 = 384,16 = 2(0,05) Pero en el año 2001 había 71 alumnos inscritos! nc = 384 = 59,9 1 + 384 71 Finalmente, tuvieron que encuestar a 60 personas. Página 8 de 11 Intervalos de Confianza para la media de una población Como hemos mencionado la media muestral x basada en una muestra aleatoria, es un buen estimador puntual de la media poblacional µ. La pregunta es ¿qué tan buen estimador es? ¿Será el valor observado de la media muestral igual a la media poblacional? Probablemente no. ¿Será entonces cercano a µ? ¿Pero qué tan cercano? Definiciones: La media muestral x es un estimador puntual de la media de poblacional µ. Un estimador de intervalo de confianza para la media poblacional µ es un intervalo de valores, calculados a partir de los datos de la muestra, entre los cuales podemos confiar que se encuentra la media poblacional µ. El nivel de confianza es la probabilidad de que el método de estimación nos dé un intervalo de confianza que contiene al parámetro (µ en este caso). Para construir un intervalo de confianza para µ usamos la distribución muestral de la media x ~& N ( µ , muestral σ n ) , entonces aproximadamente 95% de los valores de estarán a 1,96 desviaciones estándar de µ. N µ , σ n 95% µ− 2 σ ( µ n µ+2σ n X ) x Un intervalo de confianza ( 1 − α )*100% para x±z 1− donde z α α 2 µ está dado por: σ n es un percentil de la distribución N(0,1) 2 Este intervalo será exacto si los datos provienen de una muestra aleatoria de una población Normal. Será aproximado para cualquier otra población y tamaños de muestra n > 30 1− (Teorema de Límite Central). Página 9 de 11 Bebidas Suponga que una máquina de bebidas esta calibrada de tal manera que la cantidad de líquido entregado es aproximadamente normal con desviación estándar 0,15 decilitros (nota: 1 decilitro es 0,1 litro). a) Calcule un intervalo de 95% de confianza para la media de la cantidad de líquido entregado basado en una muestra aleatoria de 36 vasos con promedio de 2,25 decilitros. b) ¿Un intervalo de 90% de confianza será más ancho o más angosto que el calculado en la parte (a)? c) ¿Qué tamaño de muestra necesitaría si quisiera obtener un margen de error para un intervalo de 95% de confianza sea 0,02? Una vez más nos encontramos con el problema de que en general no conocemos la desviación estándar de la población (σ), por lo tanto estimamos σ con la desviación estándar de la muestra seleccionada (s), y tenemos que usar la distribución t de Student en vez de la Normal. Un intervalo de confianza ( 1 − α )*100% para µ está dado por: x ± t1(-nα−1) s n 2 donde t1(-nα−1) es el percentil apropiado de la distribución t con (n-1) grado de libertad. 2 Este intervalo nos da valores posibles para la media de la población µ basados en la media muestral x . Se basa en el supuesto de que los datos provienen de una muestra aleatoria de una población con distribución normal con desviación estándar σ desconocida. Si el tamaño de la muestra es grande, el supuesto de normalidad no es crucial, sin embargo debemos preocuparnos si la distribución de los datos es sesgada o tiene valores extremos. El margen de error de la media poblacional es: E = t1(-nα−1) s . n 2 Colesterol Un médico interesado en conocer la media del colesterol en la población toma una muestra de tamaño 225. Calcule los límites de confianza de 99% para el promedio de colesterol sanguíneo si en la muestra se encontró un promedio de 190 y una desviación estándar 15. Interprete el intervalo de confianza encontrado. Página 10 de 11 Intervalos de confianza y Test de Hipótesis Se puede docimar la hipótesis α H 0 : µ = µ0 versus H1 : µ ≠ µ 0 con un nivel de significación usando la siguiente regla de decisión: Rechazar H0 si el correspondiente intervalo de confianza (1− α )x100% para la media de la población µ no contiene al valor hipotético en H0 . Nota: El test tiene que ser de dos colas y el nivel de confianza más el nivel de significación tienen que sumar 100%. Patrones de sueño en niños Un estudio de los patrones de sueño de niños de seis meses en Estados Unidos afirma que un intervalo de 95% de confianza para el promedio de tiempo que los niños duermen (en un periodo de 24 horas) es (11,5 - 15,2) horas. Suponga que queremos docimar H : µ = 15 versus H : µ ≠ 15 . 0 1 a) ¿Qué decisión tomamos si α = 0,05 ? b) ¿Qué decisión tomamos si α = 0,01 ? Tabla resumen: Situación Parámetro Muestra aleatoria de una población normal con conocida Media Muestra aleatoria de una población normal con desconocida Media Muestra aleatoria de una población Proporción σ σ µ µ P Test Estadístico z= x − µ0 σ Intervalo de Confianza x ± z1−α σ n 2 n t= z= x − µ0 s n pˆ − p 0 p 0 (1 − p 0 ) n x ± t1(-nα−1) S n 2 p(1$ $ p) p$ ± z1−α n 2 Página 11 de 11 En resumen, los pasos básicos para docimar cualquier hipótesis y la forma general de los intervalos de confianza, para lo que necesitaremos un estimador puntual para el parámetro y su correspondiente error estándar, son: Pasos básicos para docimar una hipótesis acerca de un parámetro: 1. Definir cual es la población y el o los correspondientes parámetros de interés. 2. Establecer las hipótesis (nula y alternativa). 3. Establecer el nivel de significación α. 4. Recoger los datos y verificar los supuestos. 5. Calcular el test estadístico usando los datos. La forma general del test estadístico es: Test Estadístico = estimador puntual − valor nulo error estándar 6. Calcular el valor p. 7. Tomar una decisión e informar la conclusión en términos del problema establecido por el investigador. Forma general de los Intervalos de Confianza: estimador puntual percentil error estándar ± distribuci ón muestral del estimador