Unidad 13: INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE UNA PROPORCIÓN INTRODUCCIÓN En la unidad anterior aprendimos a estimar la media de una población a partir de la media muestral, con la ayuda de la distribución normal. Cabe señalar que esto sólo es posible cuando la muestra de que se dispone es lo suficientemente grande. Para muestras pequeñas, la curva normal falla y hay que recurrir a otra distribución que no estudiaremos este curso, llamada t de Student (Student era el seudónimo que utilizaba su inventor, Gosset, un químico que trabajaba en la fábrica de cerveza Guinness. Recurrió a un seudónimo porque en su empresa no le permitían publicar resultados de investigaciones científicas utilizando su propio nombre). Pues bien, hay otros parámetros que, ocasionalmente, deben ser estimados mediante muestras. En esta unidad nos dedicaremos a uno de ellos: la proporción de individuos de un colectivo que posee una cierta cualidad (o, lo que es equivalente, la probabilidad de que ocurra un cierto suceso). La distribución de las probabilidades de los distintos valores de una proporción se realiza con la ayuda de la distribución binomial y ésta, a su vez, puede ser sustituida en ciertos casos por la normal. De modo que, también en esta unidad, volveremos a hacer uso de la distribución normal para realizar estimaciones. 1 13.1.- DISTRIBUCIÓN BINOMIAL. REPASO TÉCNICAS BÁSICAS PARA EL MUESTREO DE Si en una experiencia aleatoria destacamos un suceso A y prestamos atención, exclusivamente, a si ocurre A o su contrario, A , se trata de un experiencia dicotómica. Al suceso A se le suele llamar éxito, y a su probabilidad, p. La probabilidad de su contrario es q. () Es decir, p ( A) = p , p A = 1 − p = q . Ejemplo: Si el 3% de las personas son daltónicas y llamamos A al suceso “una persona es daltónica”, se tiene p ( A) = 0, 03 () y p A = 1 − 0, 03 = 0, 97 . Distribución binomial Se repite n veces una experiencia dicotómica. Nos preguntamos por el número, x, de éxitos. La variable X es una variable discreta y puede tomar los valores 0, 1, 2, 3,…, n La distribución de probabilidad de la variable X se llama distribución binomial B(n,p). La probabilidad de que x tome el valor k es: n p ( X = k ) = pk qn −k k p es la probabilidad de éxito en cada una de las experiencias. n es el número de veces que se realiza la experiencia. Los parámetros de esta distribución son µ = np , σ = npq 2 Si en el ejemplo anterior tomamos al azar 7 personas y nos preguntamos por el número de ellas que son daltónicas, entonces se trata de una distribución binomial con n = 7 y p = 0, 03 . Es decir, X es B(7, 0,03). 7 p (2 daltónicas ) = p ( X = 2 ) = 0, 032 ⋅ 0, 97 5 = 0, 01623 2 Los parámetros de esta distribución son: µ = np = 7 ⋅ 0, 03 = 0,21 σ = npq = 7 ⋅ 0, 03 ⋅ 0, 97 = 0, 4513 La distribución binomial se aproxima a la normal Una distribución binomial se parece a una normal tanto más cuanto mayor es el producto np (o nq si q < p ). Cuando np y nq son ambos mayores que 3, la aproximación es bastante buena. Y si superan a 5, la aproximación es casi perfecta. 3 Naturalmente, la curva normal a la cual se aproxima la binomial B(n, p) tiene la misma media µ = np y la misma desviación típica σ = npq : ( B(n, p) ≈ N np, npq ) En la aproximación de ambas distribuciones hay que tener en cuenta que la binomial es discreta y la normal, continua. Cálculo de probabilidades en una binomial mediante la aproximación a la normal La variable X se distribuye B(n, p), µ = np , σ = npq . ( ) La variable X’ se distribuye N np, npq . Si np ≥ 5 y nq ≥ 5 , estas dos distribuciones son casi idénticas salvo que X es discreta (toma valores 0, 1, 2, …, n) mientras que X’ es continua. Esta diferencia se aprecia cuando calculamos probabilidades, que hemos de averiguarlas del siguiente modo: p ( X = k ) p (k − 0, 5 < X' < k + 0, 5 ) El área de la parte gris, de base 1, es aproximadamente igual a la longitud de la barra roja 4 Como X es discreta y toma valores puntuales: 0, 1, 2, …, k, …, al pasar a X’ continua, se le asocia un intervalo unidad centrado en el punto correspondiente: p ( a ≤ X < b ) = p ( a − 0, 5 < X' < b − 0, 5 ) k → k − 0, 5 , k + 0, 5 p ( a < X ≤ b ) = p ( a + 0, 5 < X' < b + 0, 5 ) Ejercicio resuelto 1 (pág. 301) Una máquina fabrica tornillos. El 5% de ellos son defectuosos. Se empaquetan en cajas de 400. Calcular la probabilidad de que en una caja haya más de 30 defectuosos. X: número de tornillos defectuosos en una caja de 400. X es binomial con n = 400 y p = 0,05 B(400, 0,05) Sus parámetros son: µ = np = 400 ⋅ 0, 05 = 20 σ = npq = 400 ⋅ 0, 05 ⋅ 0, 95 = 4,36 La distribución X es muy parecida a una normal X’. X’ es N(20, 4,36) X'− 20 30, 5 − 20 p ( X > 30 ) p ( X' ≥ 30, 5 ) = p ≥ = 4,36 4,36 Z es N(0,1) = p(Z ≥ 2, 41) = 1 − F(2, 41) = 1 − 0, 9920 = 0, 008 5 Ejercicio 2 (pág. 301) Si tenemos un dado correcto y lo lanzamos 50 veces: a) ¿Cuál es la probabilidad de que “el 1” salga más de 10 veces? b) ¿Cuál es la probabilidad de que salga “múltiplo de 3” al menos 20 veces? 13.2.- DISTRIBUCIÓN MUESTRALES DE LAS PROPORCIONES Supongamos que tenemos una población en la que vamos a estudiar una determinada característica C. Llamaremos p a la proporción de individuos que posee esa característica. Si consideramos todas las posibles muestras de tamaño n que se pueden extraer de esa población, en cada una de ellas habrá una proporción, p , de individuos con esa característica. Con estas p tenemos una nueva distribución, la distribución de las proporciones muestrales. La media y la desviación típica de esta distribución son: µp = p σp = pq n Dem: X = número de individuos de la muestra que tienen la característica C. 6 X es B(n,p) ( Si np ≥ 5 y nq ≥ 5 , entonces X ∼ N np, npq ) número de individuos de la muestra con la característica C x p = = número de individuos de la muestra n La distribución de p será como la de X, pero con los parámetros media y desviación típica divididos por n. Por tanto: p ∼ N np , n npq pq = N p, n n Ejemplo Se sabe que el 40% de los estudiantes de segundo de Bachillerato de una determinada provincia son aficionados al fútbol. Si se elige una muestra de 200 estudiantes, ¿cuál es la probabilidad de que el porcentaje de aficionados de dicha muestra oscile entre el 35 y el 45%? n = 200 p = 0,4 (proporción de estudiantes de 2º de Bach. de una determinada provincia que son aficionados al fútbol) p ∼ N µ = p, σ = pq n σ= 0, 4 ⋅ 0, 6 = 0, 035 200 p ∼ N ( 0, 4 , 0, 035 ) 7 0,35 − 0, 4 p − 0, 4 0, 45 − 0, 4 < < p 0,35 < p < 0, 45 = p = 0, 035 0, 035 0, 035 ( ) Z ∼ N(0,1) = p ( −1, 43 < Z < 1, 43) = F(1, 43) − F( −1, 43) = F(1, 43) − [1 − F(1, 43) ] = = 2F(1, 43) − 1 = 2 ⋅ 0, 9236 − 1 = 0, 8472 El porcentaje de aficionados al fútbol se encontrará entre el 35 y el 45% en aproximadamente el 84,72% de las muestras de 200 estudiantes de segundo de Bachillerato de dicha provincia. Ejercicio 1 En una fábrica se sabe que el 70% de los trabajadores son hombres. En una muestra aleatoria de 60 trabajadores, ¿qué media y qué desviación típica tiene la distribución muestral de la proporción de hombres seleccionados? Ejercicio 2 Según los datos que maneja la asociación de empresarios de una ciudad, el 20% de las personas realiza sus compras de alimentación de forma habitual en pequeños comercios o galerías comerciales de barrio, mientras que el 80% restante lo hace en grandes superficies. En una muestra elegida al azar de 50 personas, ¿cuál es la probabilidad de que la proporción de personas que realicen sus compras en el pequeño comercio sea: 8 a) superior al 25%; b) inferior al 22%; c) que esté comprendido entre el 17 y el 23%. 13.3.- INTERVALO DE CONFIANZA PROPORCIÓN O UNA PROBABILIDAD PARA UNA Considerada una población binomial con parámetro p y una muestra aleatoria de tamaño n, se desea estimar mediante un intervalo de confianza el parámetro poblacional p mediante la información facilitada por la proporción muestral p . Sabemos que si n es grande: p ∼ N p, pq n Como p es desconocido, se utiliza p como estimación puntual de p, y así p − p p − p z= ∼ N(0,1) pq pq n n Se demuestra que el intervalo de confianza para la proporción poblacional p a un nivel de confianza 1 - α es: pq pq p − zα ⋅ , p + zα ⋅ n n 2 2 9 Ejercicio 1 En una región se seleccionó aleatoriamente una muestra de 150 personas. A todas ellas se les preguntó si eran fumadoras y 90 contestaron negativamente. Determina un intervalo de confianza del porcentaje de fumadores de dicha región con un nivel de confianza del 95 %. Ejercicio 2 Para estudiar la proporción de estudiantes que practican deporte, se pregunta a 300 de ellos, dando respuesta positiva 189. Halla el intervalo de confianza del 98% para la proporción. 13.4.- TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN p DE UNA POBLACIÓN El intervalo de confianza para la proporción p de una población con muestras grandes es: pq pq p − zα ⋅ , p + zα ⋅ n n 2 2 10 Como p − p < zα ⋅ 2 pq , tendremos que el máximo error de la n estimación viene dado por: pq n E = zα ⋅ 2 zα 2 ⋅ pq n= 2 E2 Ahora bien, esta expresión requiere un valor de p que, a 1 falta de otra información, se supondrá igual a . 2 Ejercicio 1 Se desea conocer el tamaño de una muestra para realizar un sondeo para estimar la proporción de votantes del partido político TOJU (TOdosJUntos), de tal forma que el máximo error de la estimación sea de 0,05, y con una confianza del 95%. 11 E = 0, 05 n = ¿? Nivel de confianza: 1 − α = 0, 95 ⇒ zα = 1, 96 2 1 (Como no hay información, suponemos que p = q = ) 2 zα 2 ⋅ pq n= 2 E2 1, 962 ⋅ 0, 5 ⋅ 0, 5 = = 384,16 0, 052 Por tanto, la muestra deberá contener al menos 385 personas. Ejercicio 2 En una universidad se toma al azar una muestra de 100 alumnos y se encuentra que han aprobado todas las asignaturas 62. Se pide: a) Con un nivel de confianza del 95%, un intervalo para estimar el porcentaje de alumnos que aprueban todas las asignaturas. b) A la vista del resultado anterior se pretende repetir la experiencia para conseguir una cota de error de 0,03, con el mismo nivel de confianza. ¿Cuántos individuos ha de tener la muestra? 12