Inferencia estadística: es el proceso de sacar conclusiones de la población basados en la información de una muestra de esa población. Objetivos de la inferencia: - estimación de parámetros, - intervalos de confianza y - docimasia, test de hipótesis o pruebas de significación estadística. Intervalos de Confianza para una proporción Cuando hacemos un test de hipótesis decidimos sobre un valor hipotético del parámetro. • ¿Qué proporción de mujeres espera compartir las tareas de la casa con su pareja? • ¿Qué proporción de la población sufre de cáncer? Cada una de estas preguntas es sobre “el valor de la proporción P ”. Es decir, queremos estimar P . Una proporción muestral p̂ es un estimador puntual de la proporción en la población P . Un estimador de intervalo de confianza de la proporción en la población P , es un intervalo, calculado a partir de los datos de la muestra, en el cual nosotros “confiamos” se encuentra la proporción de la población P. El nivel de confianza es la probabilidad de que el método de estimación nos dé un intervalo que contiene al parámetro ( P en este caso). El nivel de confianza se denota por 1− α . Nivel de significación Nivel de confianza α 1− α 0,10 o 10% 0,05 o 5% 0,01 o 1% 90% 95% 99% Para construir intervalos de confianza recordemos la distribución muestral de p$ : P(1 − P) pˆ ~& N ( P, ) n entonces aproximadamente 95% de los valores de p$ estarán entre dos desviaciones estándar de P : N ( P, P(1 − P) ) n 95% 4 p-2 p p (1 -p) n p +2 p (1 - p ) n p P(1 − P) pˆ ± 1,96 Hacemos un intervalo: n Esperamos que 95% de esos intervalos contengan a P y 5% no. El problema es que no podemos conocer la desviación estándar porque contiene al parámetro desconocido. Solución: Estimar la desviación estándar, con el error estándar de p$ : S ( pˆ ) = pˆ (1 − pˆ ) n Un intervalo de 95% de confianza para P esta dado por: p̂(1 - p̂) p̂ ± 1,96 n En teoría esta aproximación funciona bien si se cumple que: nP ≥ 5 y n(1 − P ) ≥ 5 . En la práctica la comprobamos con: npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 Estudio: Síndrome de fatiga crónica o encefalopatía miálgica Se realiza un estudio para conocer la proporción de adultos que sufren del síndrome de fatiga crónica (SFC). Para este estudio, se eligen al azar 4000 miembros de una Isapre, a los que se les envía un cuestionario por correo. En el cuestionario se les pregunta por cualquier fatiga inusual que haya interferido sus responsabilidades en el trabajo o en la casa en los últimos 6 meses. De las 3066 personas que respondieron (posible sesgo por no respuesta), 590 afirmaron haber sufrido de fatiga crónica. Se quiere estimar la proporción de adultos que piensan que sufren de síndrome de fatiga crónica. De las 3066 respuestas, 590 dicen sufrir fatiga crónica, un estimador puntual será: pˆ = 590 ≈ 0,192 3066 o 19,2% Un intervalo de confianza 95% para la verdadera proporción de adultos que piensan que sufren de SFC está dado por: (590 / 3066)(1 − 590 / 3066) 590 ± 1,96 3066 3066 0,1924 ± 0,013954 [0,179 ; 0,206] o una tasa de 179 a 206 por 1.000 adultos. Este intervalo nos da valores posibles de la proporción en la población de personas que piensan que sufren del SFC basado en una muestra de tamaño n = 3066. Pensemos: ¿Sabemos si el intervalo de 95% de confianza contiene a la verdadera proporción en la población que piensan que sufren de SFC? ¿Este nivel de 95% confianza significa que hay una probabilidad de 95% de que la verdadera proporción P está en el intervalo [0,179 ; 0,206]? ¿Podemos extender estos resultados al resto de la población general de adultos? Interpretación! El intervalo que construimos o contiene P o no lo contiene. No es correcto decir que la probabilidad de que el intervalo [0,178 ; 0,206] contenga a P es 0,95. El valor del parámetro P es fijo. No varía. La interpretación del nivel de 95% de confianza tiene que ver con la proporción de veces que intervalos como el que construimos contiene a P si lo hiciéramos muchas veces. p m.a.s #1 m.a.s. #2 m.a.s. #3 m.a.s. #4 Si repetimos este procedimiento muchas veces, calculando muchos intervalos de confianza de 95% para P , podemos esperar que aproximadamente 95% de P (y estos intervalos contenga aproximadamente 5% no). Revisemos los percentiles de la Tabla N(0,1): Nivel de Confianza 1− α 1− 0,90 0,95 0,98 0,99 α z 1− α 2 2 0,95 0,975 0,99 0,995 1,645 1,96 2,33 2,575 N(0,1) α 2 α 2 1−α -z 1− α 2 Z +z 1− α 2 Un intervalo de confianza (1 − α ) *100% para P está dado por: p$ ± z 1− α 2 p(1$ $ p) n donde: z α es un percentil de la distribución 1− 2 N(0,1) Este intervalo da valores posibles para la proporción en la población P basado en sólo una proporción muestral p$ . Esta aproximación esta basada en el supuesto de que los datos provienen de una muestra aleatoria de la población y funciona bien si nP ≥ 5 y n(1 − P) ≥ 5 . Esta condición se puede corroborar con npˆ ≥ 5 y n(1 − pˆ ) ≥ 5 . Forma general de los Intervalos de Confianza: estimador puntual error estándar percentil ± distribuci ón muestral del estimador PES revisitado Recordemos el experimento diseñado para probar si un sujeto tiene PES (poderes extrasensoriales). De un mazo corriente bien barajado, se eligen 96 cartas, una por una, con reemplazo. A la persona en cuestión se le pide que adivine la pinta de la carta. Sea P la proporción de respuestas correctas si el sujeto no tiene PES. La persona tiene 35 correctas de las 96 cartas, entonces la proporción muestral de respuestas correctas es: p$ Construya un intervalo de 95% confianza para P basado en los resultados observados. ¿Este intervalo de confianza contiene a 0,25? Si es así, ¿qué implica? Si no lo contiene, ¿qué podemos inferir? Pensemos: Si el nivel de confianza aumenta de 95% a 99%, el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? Si el tamaño muestral aumenta (pero la proporción muestral es la misma), el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? Si el tamaño de la población aumenta, el intervalo de confianza será: ¿más ancho, más angosto, o el mismo? FUMADORES Tabaquismo Total (n=1007) Total n (%) Hombres n (%) Mujeres n (%) 368 (36,5) 134 (39,5) 234 (35,0) La tabla presenta la prevalencia de fumadores en una encuesta realizada en residentes de la ciudad de Talca, adultos de 18 a 74 años, el año 2005 (http://pifrecv.utalca.cl/) a) ¿Cuál es la población bajo estudio? b) Basado en los resultados del estudio, construya un intervalo de 90% de confianza para la proporción de sujetos que fuman. c) Interprete el intervalo. d) Construya un intervalo de 95% de confianza para la proporción de sujetos que fuman. ¿Es este intervalo más ancho o más angosto del calculado en (b)? e) ¿Cuál es la mitad del ancho del intervalo? Definición: El margen de error para una proporción es la mitad del ancho del intervalo de confianza, y está dado por: E= z 1− α 2 p(1$ $ p) n ___________________________ E = Margen de Error ---------(------------------------------|------------------------------)-------p$ (1 − p$ ) p$ (1 − p$ ) p$ p$ + z α p$ − z α 1− n n 1− 2 2 _______________________________________________________ Ancho Se calcula un intervalo de 99% confianza para P que resulta: (0,27 , 0,42) (a) ¿Cuál es el valor de la proporción muestral p$ ? (b) ¿Cuál es el margen de error? (c) Dé dos sugerencias para reducir el margen de error. ¿Cuál es el tamaño de la muestra? A partir del margen de error podemos resolver ahora cuanto puede ser un tamaño muestral mínimo n. Tamaño de la muestra: n= ( z1− α ) 2 pˆ (1 − pˆ ) 2 E 2 Pero esta fórmula contiene a la proporción muestral p$ y todavía no tenemos la muestra! Encontremos el máximo. Dibuje p$ versus p$ (1- p$ ) P P(1-P) 0,0 0,0 0,1 0,09 0,2 0,16 0,3 0,21 0,4 0,24 0,5 0,25 0,6 0,24 0,7 0,21 0,8 0,16 0,9 0,09 1,0 0,0 P(1-P) 0.3 0.25 0.2 0.15 0.1 0.05 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 P 1 Definición: Si desconocemos la variabilidad en la población, el tamaño muestral requerido para estimar la proporción de una población con nivel de confianza (1 − α ) y margen de error E esta dado por: 1 1 ( z α ) 1 − 1− 2 2 2 n= E2 2 z α 1− 2 n= 2E 2 La Cruz Roja quiere venir a sacar sangre a la Universidad de Talca y nos pide que estimemos la proporción de estudiantes y funcionarios que estarían dispuestos a donar sangre. Con confianza 99% y un 4% de margen de error ¿a cuantas personas debemos entrevistar? Una estimación conservadora sería: z α 1− 2 n= 2E 2 2 2,576 = 1036,84 = 2(0,04) Por lo tanto necesitamos entrevistar al menos 1037 estudiantes y funcionarios. En la oficina de admisión de la UTal quieren estimar la proporción de alumnos que abandona la Universidad después del primer año de estudio. ¿A cuantos estudiantes debe entrevistar para construir un intervalo de confianza para P del 90% con un margen de error de 2 puntos porcentuales? Corrección para población finita (cpf) (Opcional) La fórmula para calcular el tamaño muestral supone que el tamaño de la población es grande o es un muestreo con reemplazo. Cuando queremos sacar una muestra de una población “pequeña” en conveniente usar la cpf n nc = 1− n N Ejemplo: Crédito universitario. Supongamos que queremos conocer la proporción que tiene crédito universitario entre los alumnos de Psicología de la UTal. Con un nivel de confianza de 95% y un margen de error del 5% ¿a cuantos estudiantes debe encuestar? z α 1− 2 n= 2E 2 2 1,96 = 384,16 = 2(0,05) Pero en el año 2001 había sólo 71 alumnos en la carrera! 384 nc = = 59,9 1 + 384 71 Tienen que encuestar a 60 personas.