INFERENCIA ESTADÍSTICA Y ESTIMACIÓN La estadística inferencial se ocupa de extender o extrapolar a toda una población, informaciones obtenidas a partir de una muestra, así como de tomar de decisiones. El muestreo es el proceso seguido para la extracción de una muestra. - Muestreo Aleatorio: Es aquel en que todos los miembros de la muestra han sido elegidos al azar, de forma que cada miembro de la población tuvo igual oportunidad de salir en la muestra. Y puede ser: Simple: Elegido el tamaño de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los N de la población. Sistemático: Se ordenan previamente los individuos de la población; después se elige uno de ellos al azar, a continuación, a intervalos constantes, se eligen todos los demás hasta completar la muestra. Los intervalos vienen definidos por el salto (h). Que es el cociente entre el tamaño de la población y el tamaño de la muestra. Estratificado Se divide la población total en clases homogéneas, llamadas estratos; por ejemplo, por grupos de edades, por sexo. Hecho esto la muestra se escoge aleatoriamente en número proporcional al de los componentes de cada clase o estrato. - Muestreo No aleatorio: En ocasiones no queda más remedio que trabajar con muestras que no son elegidas aleatoriamente. Pueden ser: Erráticas o casuales. Por ejemplo las que se realizan boca a boca a pie de urna en las elecciones. Intencionadas o racionales: Son seleccionadas por un experto. Son más rápidas pero pueden no ser representativas. Por cuotas. Al entrevistador se le dan los criterios de selección. Por Bola de nieve: Un problema importante de la inferencia estadística es la estimación de parámetros de la población (media, desviación típica …), a partir de los correspondientes estadísticos de la muestra (media, desviación típica..). Si consideremos todas las posibles muestras de tamaño n en una población, para cada muestra podemos calcular un estadístico (media, desviación típica,...) que variará de una a otra. Así obtenemos una distribución de los estadísticos que se llama distribución muestral. Una estimación de un parámetro de la población dada por un solo número se dice que es una Estimación de PUNTO (por ejemplo x =5,26m). Mientras que una estimación dada por dos números entre los cuales se puede considerar encajado el parámetro, se dice que es una Estimación por INTERVALO (por ejemplo x =5,26m ±0,03m) ─ Nivel de confianza: Es la probabilidad de que el parámetro estimado se encuentre en el intervalo citado. De suele representar mediante 1-α. ─ Nivel de significación: Es la diferencia entre la certeza y el nivel de confianza. se representa por α ─ Valor crítico es el valor de la variable que deja a su derecha una superficie igual a α 2 . Se suele representar por: z α 2 ─ Margen de error: Es la diferencia entre los extremos superior e inferior del intervalo. ─ Error máximo admisible: Es la mitad del margen de error. Sea X una variable aleatoria que sigue una distribución N(0,1). Un intervalo característico es un intervalo simétrico entorno a la media (-k, +k) en el que la probabilidad de que un valor de la variable esté en ese intervalo es 1- α , es decir: • P(-k < x <+k)= 1- α → Intervalo: (-k,k) ⇔ (- z α/2 , Siendo k el valor de la variable que deja una superficie Si la distribución es N( µ , σ ) entonces correspondiente a una probabilidad 1 - α es: • el α 2 z α/2 ) a su derecha intervalo característico P − z α ≤ z ≤ z α = 1 − α → Intervalo µ − z α ⋅ σ , µ + z α ⋅ σ 2 2 2 2 Teorema Central del Límite: Dada una población de media µ y desviación típica σ , no necesariamente normal, y dado un conjunto de muestras extraídas de dicha población, la distribución de muestras de tamaño n verifica que: i) La media de la población será la media de las medias de las muestras ii) Su desviación típica es iii) Si n ≥ 30, se comporta como una distribución normal σ n Esto nos permite Inferir la media de la población a partir de una muestra y establecer un intervalo donde podemos localizar la media con un nivel de confianza previamente establecido (1- α ) EJEMPLOS: 1º) Si el contenido en gr. de un determinado medicamento X sigue una distribución N(7.5,0.3), calcular la probabilidad de que para una muestra de tamaño n=5, se obtenga un contenido medio menor que 7, Pr ( X < 7). Sol: Como la población sigue una distribución normal N(7´5 ,0´3), la media muestral 0,3 ) por lo que: 5 p ( x < 7) = p ( z < −3,7269) = p ( z > 3,7269) = 1 − p ( z < 3,7269) = 0,0001 seguirá una N(7´5 , Donde si x x< 7 z< x − 7,5 1,342 2º) En el último año, el peso en gramos de los recién nacidos en una maternidad se ha distribuido según una distribución: N (3100, 150). ¿Cuál será la probabilidad de que la media de una muestra de 100 recién nacidos sea superior a 3130 gr? µ=3100; σ=150; n=100 Dado que n>30, la media muestral será la poblacional: x =µ=3100 La desviación típica de la muestra será: σ= 150 =15 100 Por tanto la media muestral seguirá una distribución: N(3100, 15) Nos piden P( x >3130)=P(z> 3130 − 3100 )=P(z>2)=1-P(z≤2)=1-0,9772=0,0228 15 3º) Supongamos que la media de estatura de las alumnas de un instituto es de 165 cm, con una desviación típica de 8 cm. ¿Cuál es la probabilidad de que una muestra de 36 alumnas tenga una media de 167 cm o más? 8 4 4 = → x sigue una N (165, ) 3 36 3 167 − 165 )=P(z≥1,50)=1-P(z<1,50)=1-0,9332=0,0668 Nos piden P( x >167)=P(z> 4 3 x = 165; σ= 4º) En un test de Matemáticas que se pasó a 1000 alumnos de 2º de bachillerato, se encontró que las puntuaciones obtenidas seguían una normal N(67,20). Si consideramos muestras de 15 alumnos que hicieron el test: a) ¿Qué porcentaje de las muestras tienen una puntuación media superior a 75? b) Halla un intervalo dónde se encuentren el 93,73% de las puntuaciones medias de los alumnos de cada muestra. Sol: Por el teorema central del límite, sabemos que las medias muestrales se distribuyen según una normal N(67, a) p( x > 75) = p ( z > 20 ) 15 75 − 67 ) = p( z > 1,55) = 1 − p( ≤ 1,55) = 1 − 0,9394 = 0,0606 20 15 En el 6,06% de las muestras, la puntuación media es superior a 75 α B )1-α=0,9373 2 = 0,00135 2 p( z ≤ z α ) = 1 − 0,00135 = 0,99865 2 El intervalo será: 67 − 2,995 p( z > z α ) = 0,00135 α 2 = 2,99 + 3 = 2,995 2 20 20 ,67 + 2,995 es decir: (51´53 ,82´47) 15 15 Por tanto, en el 93,73% de las muestras, la puntuación media está comprendida entre 51,53 y 82,47 puntos INTERVALOS DE CONFIANZA La estimación por intervalos de confianza tiene por objeto proporcionar, a partir de la información recogida en la muestra, un intervalo que contenga con alto nivel de confianza (probabilidad), al parámetro objeto de nuestro interés, por ejemplo, la media. Supongamos desconocida la media poblacional de una cierta variable que deseamos estudiar, sacamos una muestra y se trata de obtener un intervalo (L1,L2) de forma que tengamos una probabilidad alta de que la media poblacional esté en ese intervalo. El nivel de confianza del intervalo lo fijamos nosotros., se suele trabajar con 95% y a veces con 90% o el 99% es decir, con nivel de significación: 0.05; 0.1; o 0.01. El intervalo de confianza para la media poblacional es: σ σ µ − zα ⋅ µ , + z ⋅ α n n 2 2 • Donde z α es el valor que en la distribución N(0,1) deja a su derecha un área de 2 α 2 . µ es el valor supuesto de la media de la población y σ , la desviación típica. Si no conocemos la media poblacional, tendremos que utilizar la media muestral: x . A partir de dicho intervalo obtendremos el error máximo cometido al aproximar puntualmente el parámetro, este error vendrá dado por el radio del intervalo de confianza es decir: • E = zα ⋅ 2 σ n Es deseable para un intervalo de confianza, que tenga la menor amplitud posible. Esta amplitud dependerá de: • • El tamaño de la muestra. Mientras mayor sea el tamaño mejor será la estimación, aunque se incurre en un aumento de costes Nivel de confianza. Si se pide mayor nivel de confianza, el intervalo será mayor. EJEMPLOS: 1º) Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de nicotina de estos cigarrillos sigue una distribución normal con una desviación estándar de 1 miligramo. a. Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido promedio de nicotina en estos cigarrillos. b. El fabricante garantiza que el contenido promedio de nicotina es de 2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado? Sol: a) 3 − 1,96 1 1 ,3 − 1,96 = (2,67; 3,33) 36 36 Tenemos una certeza con un nivel de confianza del 95%, de que el verdadero contenido promedio de nicotina se halla entre 2´67 y 3´33 miligramos b) Como 2´9 se encuentra en el intervalo hallado, podemos aceptar la hipótesis de que el contenido promedio de nicotina es de 2,9 2º) Se ha tomado una muestra de los precios de un mismo producto alimenticio en 16 comercios, elegidos al azar en un barrio de una ciudad, y se han encontrado los siguientes precios: 95, 108, 97, 112, 99, 106, 105, 100, 99, 98, 104, 110, 107, 111, 103, 110. Suponiendo que los precios de este producto se distribuyen según una ley normal de varianza 25 y media desconocida: a) ¿Cuál es la distribución de la media muestral? b) Determine el intervalo de confianza, al 95%, para la media poblacional. 95 + 108 + 97 + 112 + 99 + 106 + 105 + 100 + 99 + 98 + 104 + 110 + 107 + 111 + 103 + 110 16 x = 104 5 Por lo tanto la distribución de la media muestral será: N (104, ) 16 a) x = b) que α 2 Como nos piden al 95%, quiere decir con una probabilidad P= 0,95=1-α por lo = 0,025, es decir: P ( z ≤ α 2 ) = 1 − 0,025 = 0,975 → z α = 1,96 2 El intervalo de confianza será: (104 − 1,96 ⋅1.25 , 104 + 1,96 ⋅1.25) =(101´55 , 106´45) 3º) La media de las estaturas de una muestra aleatoria de 400 personas de una ciudad es 1,75 m. Se sabe que la estatura de las personas de esa ciudad es una variable aleatoria que sigue una distribución normal con varianza σ2 = 0,16 m2. Construye un intervalo, de un 95% de confianza, para la media de las estaturas de la población. N=400; x =1,74; σ=0,4; 1- α =0,95; α 2 =1,96 (1.75 - 1.96 · 0.4/20 , 1.75 + 1.96 · 0.4/20 ) → (1.7108, 1.7892) 4º) El peso en kg. de un determinado colectivo se distribuye según una normal de desviación típica 5 kg. ¿Cuántos individuos debemos escoger en la muestra si queremos que la media de ésta no difiera en más de 1 kg. De la media de la población con un nivel de confianza del 95%. El error viene dado por: E = zα ⋅ σ 2 n ; y debe ser: como 1- α =0,95 zα ⋅ 2 σ n <1 z α = 1,96 por tanto: 1,96 ⋅ 2 5 <1 n n>96,4 Hay que tomar una muestra de, al menos 97 individuos n > 1,96 ⋅ 5 n > (9,8) 2