Unidad 12: INFERENCIA ESTADÍSTICA. ESTIMACIÓN DE LA MEDIA INTRODUCCIÓN Uno de los problemas más sencillos de la estadística inductiva es el de estimar el valor de la media de una población a partir de una muestra. La estimación se realiza de forma aproximada (mediante un intervalo) y con una cierta inseguridad (asignando un “nivel de confianza” al resultado). El tamaño de la muestra influye en la finura de la estimación. Para realizar este proceso, se echa mano de la curva normal. La distribución normal, como sabes, fue descrita por primera vez por De Moivre (en 1733) y redescubierta por Gauss más de medio siglo después. El propio Gauss justificó su omnipresencia mediante unos razonamientos que son el antecedente del teorema central del límite que estudiaremos en esta unidad. 1 REFLEXIONA Y RESUELVE Lanzamiento de varios dados La distribución de probabilidad lanzamiento de un dado correcto es: correspondiente al Si lanzamos dos dados y promediamos sus resultados (por ejemplo, un 3 y un 5 promedian un 4), la distribución de probabilidad es: 2 El promedio de los resultados de tres dados se distribuye así: Y el de cuatro dados, así: Vamos a comparar la media y la desviación típica de estas cuatro distribuciones: 3 MEDIA DESVIACIÓN TÍPICA 3,5 3,5 3,5 3,5 1,71 1,21 0,98 0,86 UN DADO DOS DADOS (promedio) TRES DADOS (promedio) CUATRO DADOS (promedio) Es evidente, a la vista de la tabla anterior que las cuatro medias son iguales mientras que la desviación típica es tanto menor cuanto más dados participan. Comprueba en la tabla anterior que: DESV. TÍPICA PARA n DADOS = (n = 2, DESV. TÍPICA PARA UN DADO n n =3 A continuación, comparamos representándolas juntas: ó n = 4) las cuatro gráficas 4 Mirando las gráficas, justifica estas afirmaciones: - Cuantos más dados intervienen, más se parece la distribución de sus promedios a la curva normal. - Todas las distribuciones tienen la misma media. - Cuantos más dados intervienen, menor desviación típica tiene la distribución. 12.1.DISTRIBUCIÓN TÉCNICAS BÁSICAS. NORMAL. REPASO DE Como vimos al inicio de esta unidad y como se ratificará en los apartados siguientes, al tratar con las medias muestrales aparece con mucha frecuencia la distribución normal. Vamos a realizar un escueto repaso del cálculo de probabilidades en distribuciones normales. Utilización de la tabla de la normal N(0,1) En la distribución N(0,1), a la variable se la suele representar por la letra Z. La tabla que aparece a continuación nos da las probabilidades p(Z ≤ k) para valores de k de 0 a 4, de centésima en centésima. A estas probabilidades se las llama F(k): F(k) = p(Z ≤ k) 5 El valor de k se busca así: Unidades y décimas en la columna de la izquierda. Centésimas en la fila de arriba. El número que nos da la tabla es el valor de: F(k) = p(Z ≤ k) 6 Ejemplos: p(Z ≤ 0, 83) = F(0, 83) = 0, 7967 p(Z ≤ 2,3) = F(2,30) = 0, 9893 p(Z ≤ 1) = F(1, 00) = 0, 8413 Recíprocamente, si conocemos el valor de la probabilidad F(k), se puede saber el valor de k. Ejemplos: p(Z ≤ k) = F(k) = 0, 7190 → k = 0, 58 p(Z ≤ k) = F(k) = 0, 8643 → k = 1,1 p(Z ≤ k) = F(k) = 0, 5560 → k = 0,14 Recordemos que en una distribución de variable continua las probabilidades puntuales son nulas: p(X = k) = 0 . Por tanto, p(X ≤ k) = p(X < k) Cálculo de probabilidades en una N(0,1) • Si k ≥ 0 , las probabilidades p(Z ≤ k) = p(Z < k) = F(k) se encuentran directamente en las tablas. • p(Z ≥ k) = 1 − p(Z < k) = 1 − F(k) • Para abscisas negativas, p(Z ≤ −k) = p(Z ≥ k) = 1 − F(k) 7 Las restantes probabilidades se pueden obtener a partir de las anteriores como se ve en los siguientes ejemplos: 1. p(Z ≥ 1, 86) = 1 − p(Z < 1, 86) = 1 − F(1, 86) = 1 − 0, 9686 = = 0, 0314 2. p(0,18 ≤ Z ≤ 1,29) = F(1,29) − F(0,18) = 0, 9015 − 0, 5714 = = 0,3301 3. p( −0, 56 ≤ Z ≤ 1, 9) = F(1, 90) − F( −0, 56) = 0, 9713 − 1 − F(0, 56) = = 0, 9713 − 1 − 0, 7123 = 0, 9713 − 0,2877 = 0, 6836 8 4. p( −1, 83 < Z < −1) = p(1 < Z < 1, 83) = F(1, 83) − F(1, 00) = = 0, 9664 − 0, 8413 = 0,1251 Ejercicio 1 (pág. 277) Halla las siguientes probabilidades en una distribución N(0,1): a) p(Z > 2, 8) b) p(Z ≤ −1, 8) c) p(Z > −1, 8) d) p(1, 62 ≤ Z ≤ 2,3) e) p(1 ≤ Z ≤ 2) f) p( −0, 61 ≤ Z ≤ 1, 4) g) p( −1 ≤ Z ≤ 2) h) p( −2,3 ≤ Z ≤ −1, 7) i) p( −2 ≤ Z ≤ −1) Ejercicio 2 (pág. 277) Calcula el valor de k (exacta o aproximadamente) en cada uno de los siguientes casos: a) p(Z ≤ k) = 0, 5 b) p(Z ≤ k) = 0, 8729 c) p(Z ≤ k) = 0, 9 d) p(Z ≤ k) = 0,33 e) p(Z ≤ k) = 0,2 f) p(Z > k) = 0,12 g) p(Z ≥ k) = 0, 9971 h) p(Z ≥ k) = 0, 6 9 Cálculo de probabilidades en una N( µ , σ ) Se puede demostrar que si una variable X sigue una distribución normal con media µ y desviación típica σ , X−µ entonces la variable Z = sigue una distribución normal σ con media 0 y desviación típica 1. Es decir: Si X es N(µ , σ) ⇒ Z = X−µ es N(0,1) σ Al proceso de pasar de una variable X que es N(µ , σ) a una X−µ variable Z = que es N(0,1) se le llama tipificación de la σ variable. Las probabilidades de la variable tipificada se pueden calcular mirando en las tablas. Ejercicio resuelto 1 (pág. 278) En una distribución N(66,8), calcular: a) p(X < 70) b) p(X > 80) Si X es N(66, 8) ⇒ Z = c) p(70 < X < 80) X − 66 es N(0,1) 8 a) p ( X < 70 ) X − 66 70 − 66 p ( X < 70 ) = p < = p ( Z < 0, 5 ) = F(0, 5) = 8 8 = 0, 6915 10 b) p ( X > 80 ) X − 66 80 − 66 p ( X > 80 ) = p > = p ( Z > 1, 75 ) = 1 − F(1, 75) = 8 8 = 1 − 0, 9599 = 0, 0401 c) p(70 < X < 80) 70 − 66 X − 66 80 − 66 p ( 70 < X < 80 ) = p < < = 8 8 8 = p ( 0, 5 < Z < 1, 75 ) = F(1, 75) − F(0, 5) = = 0, 9599 − 0, 6915 = 0,2684 Ejercicio 3 (pág. 278) En una distribución probabilidades: a) p(X ≤ 20) N(18,4), halla b) p(X ≥ 16, 5) d) p(19 ≤ X ≤ 23) las siguientes c) p(X ≤ 11) e) p(11 ≤ X < 25) Ejercicio 4 (pág. 278) En una distribución N(6 , 0,9), calcula k para que se den las siguientes igualdades: a) p(X ≤ k) = 0, 9772 b) p(X ≤ k) = 0, 8 c) p(X ≤ k) = 0,3 d) p(X ≥ k) = 0, 6331 11 12.2.LA MUESTRALES DISTRIBUCIÓN DE LAS MEDIAS Recordemos los resultados que obtuvimos al inicio de la unidad, en donde nos interesábamos por las medias de las puntuaciones obtenidas al lanzar dos, tres o cuatro dados. El resultado del lanzamiento de un dado puede considerarse un individuo de una población infinita: lanzar un dado indefinidamente. Lanzar un dado cuatro veces (o lanzar cuatro dados) puede ser considerado como una muestra de tamaño cuatro de esa población. Según ese punto de vista, la experiencia que hemos descrito al inicio de esta unidad puede resumirse así: Si de la distribución “resultado obtenido al lanzar un dado” extraemos muestras de tamaños n = 2, n = 3, n = 4, …, la distribución de sus correspondientes medias se parece a una distribución normal tanto más cuanto mayor sea n. Además, al aumentar n (el número de dados): - La media se mantiene constante. - La desviación típica va disminuyendo. 12 Veamos ahora otro ejemplo: Supongamos que tenemos la siguiente variable aleatoria: X: años que lleva funcionando cada una de las empresas de un grupo de 5. Los valores de X son: X = {4, 6, 8, 10, 12} µ= 4 + 6 + 8 + 10 + 12 40 = = 8 años 5 5 Tomemos en ese grupo de 5 empresas muestras de tamaño 2. Las muestras de tamaño 2 posibles y sus correspondientes medias serían: Muestras de tamaño 2 Medias muestrales Muestras de tamaño 2 Medias muestrales 4,4 4,6 4,8 4,10 4,12 6,4 6,6 6,8 6,10 6,12 8,4 8,6 8,8 4 5 6 7 8 5 6 7 8 9 6 7 8 8,10 8,12 10,4 10,6 10,8 10,10 10,12 12,4 12,6 12,8 12,10 12,12 9 10 7 8 9 10 11 8 9 10 11 12 13 Las medias muestrales obtenidas constituyen una nueva variable aleatoria a la que llamaremos X . X = {4, 5, 6, 7 , 8, 9, ..., 8, 9, 10, 11, 12} La distribución de las medias muestrales viene dada por las medias muestrales y sus probabilidades respectivas. Las podemos ver en la tabla y gráfica siguientes: De esta nueva variable X podremos obtener su media y su desviación típica. A la media la llamaremos desviación típica la llamaremos µX = µX y a la σX . 4 + 5 + 6 + 7 + ... + 12 200 = = 8 años 25 25 Se puede concluir que la media de las medias muestrales, µX , coincide con la media de la población, µ: µX = µ 14 Si obtenemos quién es σ y quién es σX se verá que: σ n σX = Como vemos, la desviación típica de la distribución correspondiente a las medias muestrales, se reduce al aumentar el tamaño de las muestras. Por ello, cuanto mayor sea el tamaño de la muestra, mejor será la inferencia realizada acerca de la media poblacional. Esto es, cuanta mayor información se extraiga de la población, más probable será acertar sobre sus características. Los resultados de los ejemplos anteriores se generalizan para cualquier distribución según el siguiente teorema. Teorema Central del Límite Dada una población de media µ y desviación típica σ, no necesariamente normal, la distribución de las medias de las muestras de tamaño n: • Tiene la misma media, µ , que la población. • Su desviación típica es σ n y, por consiguiente, disminuye al aumentar n. • Cuando n ≥ 30 σ X ∼ N µ, n es prácticamente normal. Esto es: 15 Es importante señalar que este teorema es válido cualquiera que sea la distribución de la población de partida, tanto si es discreta como continua. El grado de aproximación de la distribución de las medias muestrales a la correspondiente normal depende del tipo de partida y del valor de n. - Si la población de partida es normal, también lo será la distribución de las medias muestrales, cualquiera que sea el valor de n. Es decir: Si σ X es N ( µ , σ ) ⇒ X es N µ , n - Aunque la población de partida no sea normal, la distribución de las medias muestrales puede ser muy parecida a la normal, incluso para valores pequeños de n (como hemos visto en los ejemplos anteriores), pero para n > 30 es seguro que se consigue una gran aproximación a la normal cualquiera que sea la distribución de partida. 16 Ejemplo 1 El tiempo que tardan los clientes en ser atendidos en un cajero automático de un banco sigue una distribución normal de media 3 minutos y desviación típica de 1,2 minutos. Se observa una muestra aleatoria de 50 clientes. ¿Cuál es la probabilidad de que el tiempo medio que estén en el cajero no supere los tres minutos y medio? X: tiempo que tardan los clientes en ser atendidos en un cajero automático. X es N (3, 1,2 ) µ = 3 minutos σ = 1,2 minutos Tenemos una muestra aleatoria de tamaño n = 50 X : tiempo medio de permanencia en un cajero ( X es N µ X , σ X ) µX = µ = 3 σX = σ n = 1, 2 50 = 0,17 X − 3 3, 5 − 3 p X < 3, 5 = p < = p ( Z < 2, 94 ) = 0,17 0,17 Z es N(0,1) ( ) = F(2, 94) = 0, 9984 17 Ejemplo 2 Una máquina se encarga de llenar cajas de cereales. La cantidad de cereales depositada en cada caja sigue una distribución normal de desviación típica 25 g. ¿Cuál debe de ser el peso medio del contenido de las cajas si, en una muestra aleatoria de 100 cajas, la probabilidad de que el peso medio sea superior a 505 g es de 0,023? X: peso de las cajas de cereales. X es N ( µ , 25 ) µ es desconocida σ = 25 gramos Tenemos una muestra aleatoria de tamaño n = 100 X : peso medio muestral ( X es N µ X , σ X ) µX = µ σX = σ n = 25 100 = 2,5 Tenemos que encontrar el valor de µ sabiendo que: ( ) p X > 505 = 0, 023 X − µ 505 − µ 505 − µ 0, 023 = p X > 505 = p > = pZ > = 2, 5 2, 5 2, 5 ( ) Z es N(0,1) 505 − µ = 1 −F 2, 5 18 505 − µ F = 1 − 0, 023 = 0, 977 2, 5 k F (k ) = 0, 977 ⇒ ¿k ? 505 − µ =2 2, 5 (Buscar en las tablas) ⇒ µ = 500 g Ejemplo 3 La duración en minutos de las llamadas recibidas en un despacho profesional tiene una duración media de µ = 3, 5 minutos y una desviación típica de σ = 1, 4 minutos. Un día determinado se elige una muestra de 49 llamadas, ¿cuál es la probabilidad de que la duración media oscile entre 3 y 4 minutos? X: duración en minutos de las llamadas recibidas en un despacho profesional. X es una v. a. con µ = 3, 5 minutos y σ = 1, 4 minutos Tenemos una muestra de tamaño n = 49 X : duración media muestral de las llamadas ( Hemos de calcular p 3 < X < 4 ) Como n >30, podemos aplicar el Teorema central del límite, y así tendremos que: 19 σ 1, 4 X ∼ N µ, = N (3, 5 , 0,2 ) = N 3, 5 , n 49 3 − 3, 5 X − 3, 5 4 − 3, 5 p 3 < X < 4 = p < < = p ( −2, 5 < Z < 2, 5 ) = 0,2 0,2 0,2 Z ∼ N(0,1) ( ) = F(2, 5) − F( −2, 5) = F(2, 5) − 1 − F(2, 5) = 2F(2, 5) − 1 = = 2 ⋅ 0, 9938 − 1 = 0, 9876 Ejercicios: 5,6 y 10 pág. 294, 11 pág. 295 12.3.- EN QUÉ INFERENCIAL CONSISTE LA ESTADÍSTICA Vamos a analizar tres situaciones: PROBLEMA 1. Las estaturas de los soldados de un regimiento tienen una media µ = 175 y una desviación típica σ = 5 . ¿Cuál es la probabilidad de que la estatura media de los 32 soldados que deben hacer guardia esa noche esté comprendida entre 174,4 y 175,6 cm? CONOCEMOS La media µ de la población. En el regimiento: µ = 175 NOS PREGUNTAMOS La media x de una muestra. En una guardia: ¿ p 174, 4 ≤ x ≤ 175, 6 ? ( ) 20 PROBLEMA 2. La estatura media de los 32 soldados que han sido seleccionados para hacer guardia es x = 175 cm. ¿Cuál es la probabilidad de que la media, µ , de todos los soldados del regimiento esté en el intervalo (174,4 , 175,6)? CONOCEMOS La media x de una muestra. En una guardia: x = 175 NOS PREGUNTAMOS La media µ de la población. En el regimiento: ¿ p (174, 4 ≤ µ ≤ 175, 6 ) ? PROBLEMA 3. Afirman que la media de las estaturas de los soldados de un regimiento es µ = 175 . Para comprobarlo, extraemos una muestra de 32 soldados y calculamos su media, x = 175, 8 . Es razonable admitir la hipótesis de que µ = 175 ? CONOCEMOS La media x de una muestra: x = 175, 8 NOS PREGUNTAMOS ¿Es admisible la afirmación de que µ = 175 ? En el PROBLEMA 1, conocemos la población. A partir de ahí pretendemos deducir el comportamiento de las muestras. Esto lo hemos aprendido a hacer en el apartado anterior, basándonos en el teorema central del límite. En el PROBLEMA 2, conocemos una muestra y, a partir de ella, pretendemos deducir aspectos de la población. En concreto, pretendemos inferir el valor de la media 21 de la población a partir del conocimiento de la media de una muestra. Este es el típico problema de estadística inferencial: estimar el valor de un parámetro de la población a partir de una muestra. Nos dedicaremos a él en el resto de esta unidad. En el PROBLEMA 3, tenemos una afirmación, una hipótesis: la media de la población es µ = 175 . Pero no tenemos garantías de que sea cierto. Para contrastarlo, extraemos una muestra y, a partir de su resultado, x = 175, 8 , debemos decidir si la hipótesis es o no admisible. Este problema es otra situación de estadística inferencial: la teoría de la decisión (contrastes de hipótesis) que trataremos en la unidad 14. Estimación puntual Desconocemos los cocientes intelectuales de los alumnos de una universidad, pero disponemos de los datos de una muestra de 200 de estos individuos. Calculamos x = 108 (media del cociente intelectual de los individuos de la muestra). Parece razonable estimar que la media µ de la población será, aproximadamente, igual que la media de la muestra, 108. Pero, ¿cómo de aproximadamente? Los parámetros de la población se pueden estimar a partir de los de la muestra. Así: 22 • La media muestral, x , sirve para estimar la media poblacional, µ . • La desviación típica muestral, s, es un estimador de la desviación típica poblacional, σ . La estimación puntual (el valor de µ es aproximadamente x ), sirve de poco mientras desconozcamos cuál es el grado de aproximación de x a µ . Por ese motivo se procede a la estimación mediante un intervalo. Estimación por intervalos A partir de una muestra aleatoria de tamaño n, podemos estimar el valor de un parámetro de la población del siguiente modo: • Dando un intervalo dentro del cual confiamos que esté el parámetro. Se llama intervalo de confianza. • Hallando la probabilidad de que tal cosa ocurra. A dicha probabilidad se la llama nivel de confianza. En este curso sólo haremos estimaciones referentes a la media (en lo que queda de esta unidad) y a la proporción (en la unidad 13), de modo que haremos aseveraciones del siguiente tipo: - Estimamos, con un nivel de confianza del 95%, que los ingresos medios mensuales de esta población están comprendidos entre 956 € y 1040 €. - El intervalo de confianza de la proporción de daltónicos de esta población es (0,023 , 0,031), y esto lo sabemos con un nivel de confianza del 99%. 23 Cuanto mayor sea el tamaño de la muestra, mayor eficacia tendremos en nuestra estimación. Esta eficacia se manifiesta de dos formas: - En el tamaño del intervalo (cuanto más pequeño, más precisos estamos siendo). - En el nivel de confianza (más nivel de confianza significa más seguridad en la estimación). Tamaño de la muestra, longitud del intervalo y nivel de confianza son tres variables estrechamente relacionadas que manejaremos continuamente a lo largo de la unidad. En cada caso deberemos obtener una de ellas después de haber fijado las otras dos. En el siguiente apartado estudiaremos con más detalle los conceptos de intervalo de confianza y nivel de confianza. 12.4.- INTERVALO CONFIANZA DE CONFIANZA, NIVEL DE La estimación por intervalo de un parámetro poblacional consiste en determinar, basándose en la información de la muestra, un intervalo en el cual probablemente se encuentre dicho parámetro. Este intervalo suele ir acompañado de una medida que refleja la confianza que se tiene acerca de que el verdadero valor del parámetro se encuentra en dicho intervalo, y se llama nivel de confianza. Por ejemplo, si la dueña de una tienda estima que el gasto medio diario de sus clientes se encuentra entre 5 y 7 €, 24 entonces la estimación realizada es mediante el intervalo (5,7). Si este intervalo está dado con un nivel de confianza, por ejemplo, del 90%, se está expresando que la dueña de la tienda confía en un 90% en que el gasto medio de sus clientes se encuentra entre 5 y 7 €. El nivel de confianza, expresado en tanto por uno, se designa por 1 − α , e indica la confianza que se tiene acerca de que el verdadero valor del parámetro se encuentra en dicho intervalo. Un nivel de confianza de 0,90 o del 90% indica que, si se construyen todos los intervalos de confianza posibles, el 90% de ellos contendrán el verdadero valor del parámetro que se desea estimar, y, por tanto, un 10% de los intervalos no lo contendrán. Ahora bien, si se toman 100 muestras aleatorias de tamaño n de una misma población y se calculan los límites de confianza para cada muestra, se espera que el 90% de los intervalos así construidos contengan el verdadero valor del parámetro, y el 10% restante no lo contengan. Pero en la práctica sólo se dispondrá de un intervalo de confianza y no se sabe si está dentro de los del 90% o de los del 10%. Por eso se habla de un nivel de confianza del 90%. 25 Ejercicio: Supóngase que los intervalos (3,2, 6,5) y (2,9, 6,8) son intervalos de confianza del 95 y del 99% de un parámetro de la población. ¿Qué interpretación se puede dar a cada uno de ellos? Llamamos intervalo de confianza al intervalo que, con una cierta probabilidad contenga el parámetro que se está estimando. Llamamos nivel de confianza a la probabilidad de que el intervalo de confianza contenga al verdadero valor del parámetro. Se le denota por 1 − α . 26 A cada nivel de confianza le corresponde un zα llamado valor 2 crítico correspondiente a la distribución normal N(0,1) y que cumple: p −zα ≤ z ≤ zα = 1 − α 2 2 Ejemplo Calculemos el valor crítico correspondiente a un nivel de confianza del 99%. 1 − α = 0, 99 ⇒ α = 0, 01 ⇒ α 0, 01 = = 0, 005 2 2 p −zα ≤ z ≤ zα = 1 − α = 0, 99 2 2 p Z ≤ zα = 0, 995 2 ⇒ zα = 2, 575 2 27 Ejercicio a) Calcular el valor crítico correspondiente a un nivel de confianza del 95%. b) Completar la siguiente tabla: Niveles de confianza Valores críticos: zα 2 99,73% 99% 98% 96% 95,45% 95% 90% 80% 68,27% 50% 12.5.- INTERVALO DE CONFIANZA PARA LA MEDIA µ DE UNA POBLACIÓN CON DESVIACIÓN TÍPICA σ CONOCIDA: Población normal: Consideremos una población que sigue una distribución normal N(µ , σ) con desviación típica conocida. Se toma una muestra aleatoria de tamaño n y se obtienen una media muestral x . Se desea encontrar un intervalo que tenga un nivel de confianza 1 − α de contener a la media µ de la población. 28 Vimos anteriormente que a cada nivel de confianza 1 − α le corresponde un zα llamado valor crítico correspondiente a la 2 distribución normal N(0,1) que cumple: p −zα ≤ z ≤ zα = 1 − α 2 2 σ X es N µ , n ⇒ Z= X−µ es N(0,1) σ n x−µ p −zα ≤ ≤ zα = 1 − α σ 2 2 n σ σ p −zα ⋅ ≤ x − µ ≤ zα ⋅ =1−α n n 2 2 σ σ p −x − zα ⋅ ≤ −µ ≤ −x + zα ⋅ =1−α n n 2 2 σ σ p x + zα ⋅ ≥ µ ≥ x − zα ⋅ =1−α n n 2 2 σ σ p x − zα ⋅ ≤ µ ≤ x + zα ⋅ =1−α n n 2 2 29 Por tanto, el intervalo para la media poblacional µ a un nivel de confianza 1 − α es: σ x − zα ⋅ n 2 , σ x + zα ⋅ n 2 Ejemplo Una máquina se encarga de llenar cajas de cereales de 500 g. El peso de estas cajas sigue una distribución normal con desviación típica de 4 g. En una muestra aleatoria simple de 50 cajas se obtuvo un peso medio de 498 g. Hallar un intervalo de confianza del 95% para el peso medio de todas las cajas llenadas por esa máquina. La población sigue una distribución N ( µ , 4 ) , y la muestra de tamaño n = 50 tiene una media muestral x = 498 g . Si el nivel de confianza es 0,95, entonces: 1 − α = 0, 95 ⇒ α = 0, 05 ⇒ α 0, 05 = = 0, 025 2 2 30 α p Z ≤ zα = 1 − = 1 − 0, 025 = 0, 975 2 2 El intervalo para la media poblacional confianza del 95 % es el siguiente: ⇒ zα = 1, 96 2 µ con un nivel de 4 4 σ σ x − z ⋅ , x + z ⋅ , 498 + 1,96 ⋅ α α = 498 − 1,96 ⋅ = n n 50 50 2 2 = ( 498 − 1,11 , 498 + 1,11 ) = ( 496,89 , 499,11 ) Se tiene el 95% de confianza de que el peso medio de las cajas de cereales se encuentre entre 496,89 y 499,11 gramos. Además, se sabe que el 95% de todos los intervalos de confianza construidos contendrán el verdadero valor de µ. Ejercicio El salario, en miles de euros, de los empleados de una multinacional, es una variable normal de media µ y desviación típica 0,3. Se toma una muestra aleatoria simple de 36 empleados para los que se obtiene un sueldo medio de 2230 €. Se pide: 31 a) Determina un intervalo de confianza para µ a un nivel de confianza igual a 0,90. b) Halla la amplitud del intervalo de confianza si el nivel de confianza es igual a 0,99. Población no normal (n>30): Como n>30, sabemos que por el Teorema central del límite σ X−µ que X ∼ N µ , . Por tanto, Z = σ ∼ N(0,1) . n n El intervalo aproximado para la media poblacional µ a un nivel de confianza 1 − α es el mismo que para una población normal. Esto es: σ x − z ⋅ α n 2 , x + zα ⋅ 2 σ n Ejemplo Una muestra de 49 automóviles de una empresa de alquiler dio como resultado que por término medio recorren 140 km a la semana. Por experiencias de otras ocasiones se sabe que el número de kilómetros semanales recorridos por toda la flota de automóviles tiene una desviación típica de 30 km. Construir un intervalo con un nivel de confianza de 0,95 para la media poblacional, es decir, para el número medio de kilómetros semanales recorridos por toda la flota de automóviles. 32 Se tienen los siguientes datos: Muestra Población n = 49 automóviles µ? x = 149 km σ = 30 km 1 − α = 0, 95 Nivel de confianza: α 0, 05 ⇒ α = 0, 05 ⇒ = = 0, 025 2 2 α p Z ≤ zα = 1 − = 1 − 0, 025 = 0, 975 2 2 ⇒ zα = 1, 96 2 El intervalo para la media poblacional µ con un nivel de confianza del 95% es el siguiente: σ σ 30 30 x − z ⋅ , x + z ⋅ = 140 − 1, 96 ⋅ , 140 + 1, 96 ⋅ α α = n n 49 49 2 2 = (140 − 8, 4 , 140 + 8, 4 ) = (131,6 , 148, 4 ) Se tiene el 95% de confianza de que el número medio de kilómetros recorridos a la semana por toda la flota estará comprendido entre 131,6 y 148,4. 33 Ejercicio 1 Una empresa que se dedica al transporte de viajeros por carretera entre Madrid y Alicante, sabe que la duración del trayecto se distribuye según una distribución de desviación típica 15 minutos. Sabiendo que el tiempo medio que tardan en realizar ese trayecto 64 autobuses es de 3 horas y 45 minutos, obtener un intervalo de confianza del 90% para el tiempo medio del trayecto. Ejercicio 2 Una población σ = 3 . En una media x . Si poblacional es utilizó? sigue una distribución con desviación típica muestra de tamaño n = 100 se obtuvo una el intervalo de confianza para la media (14,30 , 15,70), ¿qué nivel de confianza se 12.6.- INTERVALO DE CONFIANZA PARA LA MEDIA µ DE UNA POBLACIÓN CON DESVIACIÓN TÍPICA DESCONOCIDA (muestras grandes n>30): Cuando σ no es conocida, para poder obtener el intervalo de confianza para la µ , utilizaremos la desviación típica de la muestra. La llamaremos s. 2 s= ∑ ( xi − x ) n −1 Así, el intervalo aproximado para la media poblacional µ con un nivel de confianza 1 − α será: 34 s x − z ⋅ α n 2 , x + zα ⋅ 2 s n Ejercicio La vida media de una muestra de 121 bombillas es de 3000 horas y la desviación típica es de 220 horas. Calcula un intervalo de confianza para la media poblacional con un nivel de confianza del 99%. 12.7.- RELACIÓN ENTRE NIVEL DE CONFIANZA, ERROR ADMISIBLE Y TAMAÑO DE LA MUESTRA El tamaño de la muestra influye en la precisión del intervalo y en la probabilidad de error que se cometa en la estimación. En determinadas circunstancias, para un nivel de confianza dado, interesa fijar la amplitud del intervalo de confianza o bien fijar el máximo error que se está dispuesto a cometer. Pues bien, estas cuestiones se pueden controlar determinando el tamaño muestral necesario. Tamaño de la muestra para estimar la media µ de una población con σ conocida: El intervalo de confianza para la media µ en una población con σ conocida es: σ x − z ⋅ α n 2 , σ x + zα ⋅ n 2 35 σ , tendremos que el máximo error de la n 2 estimación viene dado por: Como x − µ < zα ⋅ E = zα ⋅ 2 σ n Despejando n de esta última igualdad, se obtiene el tamaño muestral para cometer un error prefijado en la estimación: n ⋅ E = zα ⋅ σ ⇒ n ⋅ E2 = zα 2 ⋅ σ2 2 2 zα 2 ⋅ σ2 n= 2 E2 36 Ejemplo El cociente intelectual, CI, de una determinada población se distribuye según una ley normal de media µ desconocida y desviación típica σ = 10 . Encontrar el tamaño muestral necesario para obtener un intervalo, con un nivel de confianza del 98%, para el cociente intelectual medio µ de la población considerada, de tal forma que el máximo error cometido en la estimación sea 3. E =3 σ = 10 Coeficiente de confianza: 1 − α = 0, 98 1 − α = 0, 98 ⇒ α = 0, 02 α p Z ≤ zα = 1 − = 0, 99 2 2 zα 2 ⋅ σ2 n= 2 E2 ⇒ ⇒ α 0, 02 = = 0, 01 2 2 zα = 2,33 2 2,332 ⋅ 102 = = 60,32 32 Aproximadamente se necesita seleccionar una muestra de tamaño n = 61. 37 Tamaño de la muestra para estimar la media µ de una población con σ desconocida (n>30): El intervalo de confianza para la media µ era en este caso: s x − zα ⋅ n 2 , x + zα ⋅ 2 s n Razonando como antes, el error máximo al hacer la estimación será: E = zα ⋅ 2 s n z α 2 ⋅ s2 n= 2 E2 Ejercicio Un sociólogo está estudiando la duración del noviazgo en un área rural. Para ello seleccionó una muestra aleatoria formada por 56 familias y obtuvo que la duración media de su noviazgo fue de 3,4 años, con una desviación típica de 1,2 años. a) Halla un intervalo de confianza para la duración media del noviazgo de la población de familias del área rural considerado al nivel de confianza del 95%. b) ¿Cuál debería ser el tamaño de la muestra para estar seguro, al nivel de confianza del 90%, de que el error máximo cometido es 0,05? Ejercicios: 23, 28 y 30 pág. 296, 31 pág. 297. 38