MUESTREO E INFERENCIA ESTADISTICA 1.- INTRODUCCIÓN Llamaremos población a cualquier conjunto de elementos, sean personas o cosas, del que se quiere estudiar alguna característica. Normalmente no es posible estudiar una característica en toda la población, y hay que recurrir a una parte o subconjunto de la población que se le llama muestra. La Inferencia es la parte de la estadística encargada de estudiar métodos para a partir de la información que nos suministra una muestra obtener conclusiones generales del comportamiento de la población o poblaciones objeto de investigación. Es una parte muy amplia de la Estadística, por tanto solamente podremos dar unas nociones básicas. 2.- MUESTREO El muestreo se encarga de cómo hay que elegir la muestra para que los resultados sean extrapolables a toda la población, de forma que cometamos el menos error posible. TIPOS DE MUESTREO Podemos distinguir varios tipos de muestreo. Los más destacados son los siguientes: Atendiendo a la manera de elegir los elementos de la muestra podemos distinguir: Muestro aleatorio o probabilistico: Si cada individuo de la población tiene la misma posibilidad de ser elegido para formar parte de la muestra. Muestreo no aleatorio: Puede depender de la subjetividad del que elige la muestra (intencional u opinático) o ya sea porque se elige la muestra por razones de comodidad (sin norma). El muestreo puede ser además con o sin reemplazamiento según que un mismo individuo pueda formar parte en la muestra más de una vez. El mas utilizado es el muestreo aleatorio, dentro del cual podemos distinguir los siguientes tipos: Muestreo Aleatorio Simple: Se realiza tomando los n elementos de la muestra al azar con reemplazamiento. Es el más importante y utilizado. Muestreo Sistemático: Consiste en elegir un elemento al azar y los siguientes n – 1 N elementos se eligen de k en k sumando la fracción (fracción de muestreo). n Por ejemplo: Queremos elegir 5 elementos de 100, como f 100 5 20 es la fracción de muestreo, números los individuos del 1 al 100 y sorteamos un número entre los 20 primeros, si sale 7 los elegidos serán 7, 27, 47, 67, y 87. Muestreo estratificado: Se divide a la población en estratos o subgrupos homogéneos. Se llama afijación al reparto del tamaño de la muestra entre los diferentes estratos, pudiendo ser uniforme (todos los estratos tienen el mismo número de elementos en la muestra) o proporcional (cada estrato tiene un número de elementos en la muestra proporcional a su tamaño). Por ejemplo: Si decidiéramos hacer un estudio sobre la incidencia del tabaco en nuestro centro, podríamos razonar de la siguiente forma: Nuestro centro tiene 2000 alumnos, y los podemos dividir en cuatro estratos, 720 en 3º de ESO, 700 en 4º de ESO, 340 en 1º de Bachillerato, y 240 en 2º de Bachillerato. Si deseamos tomar una muestra de 100 alumnos, bastaría tomar un número igual de alumnos de cada estrato, es decir 25, si utilizamos afijación uniforme. Sin embargo, es más representativo elegir de cada estrato, y en número proporcional a su tamaño, los elementos que compondrán la muestra, mediante una afijación proporcional. Si 3º de ESO representa al 36% del alumnado, el 36% de la muestra (es decir 36 alumnos) se elegirán de este estrato por muestreo aleatorio simple, 35 para 4º de ESO, y así hasta completar los 100 elementos de la muestra. Ejercicio: En un instituto de enseñanza secundaria en que se ofertan los siguientes tipos de enseñanza: Ciclos de grado superior: 110 alumnos. Bachillerato: 162 alumnos. Ciclos de grado medio: 210 alumnos 2º ciclo de enseñanza secundaria obligatoria: 338 alumnos. Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante una prueba-dictado de un texto. La prueba se pasará a una muestra de 50 alumnos, para minimizar el costo en tiempo y medios. Decide, mediante el muestreo estratificado con afijación proporcional, el tamaño de la muestra que debemos tomar de cada estrato. Dividimos la población en cuatro estratos: ciclos de grado superior, ciclos de grado medio, bachillerato y 2º ciclo de enseñanza secundaria obligatoria. Como el número total de alumnos son 820 y la muestra debe estar formada por 50 alumnos, el cálculo del número de alumnos que se han de tomar de cada estrato es: 110 7 Ciclos de grado superior: 50· 820 210 13 Ciclos de grado medio: 50· 820 162 10 Bachillerato: 50· 820 2º ciclo de Enseñanza Secundaria 338 20 Obligatoria: 50· 820 3.- ESTIMACION PUNTUAL Y POR INTERVALOS DE CONFIANZA Hay que tener en cuenta que los datos que obtenemos a partir de una muestra no son los de la población y que por lo tanto los parámetros obtenidos son estimaciones de los reales. Existen dos formas de estimar los valores de los parámetros poblacionales: mediante la estimación puntual se dan valores aproximados de los parámetros de la población mientras que la estimación por intervalos de confianza proporciona, a partir de la información recogida en la muestra, un intervalo que contenga con una determinada probabilidad al parámetro objeto de nuestro interés. A la hora de la notación, hay que distinguir entre los parámetros de la población (o reales) y los de la muestra (estimaciones), aunque normalmente se llaman parámetros solamente a los de la población y estadísticos a los de la muestra. Se utilizan las letras griegas μ para la media y para la desviación típica de la población, mientras que para la media de la muestra utilizamos x y para la desviación típica x . 3.1.- ESTIMACIÓN PUNTUAL DISTRIBUCIÓN MUESTRAL DE MEDIAS Notaremos por X a la variable aleatoria que asigna a cada muestra su media muestral. Si tomamos una muestra aleatoria simple de una población el valor esperado para la media muestral (media de las medias) es la media de la población μ y la desviación típica de la media muestral es n . Por ejemplo: Consideremos una población formada por cuatro estudiantes y las notas que obtuvieron en el ultimo examen: 8, 9, 5 y 6. La media de esta distribución es: 8956 7 4 y la desviación típica (8 7)2 (9 7) 2 (5 7) 2 (6 7) 2 10 5 . 4 4 2 Si ahora consideramos todas las muestras de tamaño dos y las medias de estas muestras, obtenemos una nueva variable X , que viene expresada en la tabla: Muestra 8-8 8-9 8-5 8-6 9-8 9-9 9-5 9-6 5-8 5-9 5-5 5-6 6-8 6-9 6-5 6-6 Media 8 8.5 6.5 7 8.5 9 7 7.5 6.5 7 5 5.5 7 7.5 5.5 6 Su media seria igual a la media poblacional: x 8 8.5 6.5 7 8.5 9 7 7.5 6.5 7 5 5.5 7 7.5 5.5 6 7 16 Su desviación típica es igual a la desviación típica poblaciones dividida entre x n: 52 (8 7)2 (8.5 7)2 ... (6 7)2 20 5 . 16 16 4 2 n Además, se puede afirmar que si la población de partida sigue una distribución normal N ( , ) la distribución de las medias sigue también una N ( , tipificada Z n ) y por tanto la variable X tiene una distribución normal estándar. n A partir del Teorema Central del Límite podemos deducir que cuando tomamos una muestra de tamaño suficientemente “grande” podemos considerar que la media muestral sigue una distribución normal N ( , ) . Lo más importante de este resultado es que no n depende de que la distribución de la población sea normal o no. En la práctica se admite que cualquier muestra en la que n 30 puede considerarse “grande” y se utiliza la normal. Ejercicios: Los estudiantes de un instituto dedican una media de 250 minutos al día de estudio, con una desviación típica de 50. Tomamos una muestra de 49 alumnos. Calcula la probabilidad de que la media del tiempo que dedican los alumnos al estudio se encuentre entre 249 y 251 minutos. Calcula la misma probabilidad si la muestra que tomamos es de tamaño 400. Sabemos que la distribución muestral de medias, para tamaños “grandes” de la muestra sigue 50 ) N (250, ) . La probabilidad que nos piden es: una distribución normal N ( , 7 n P(249 X 251) P(0,14 Z 0,14) 2P(Z 0,14) 1 0,1114 . Si ahora la muestra es de tamaño 400, la variable aleatoria X se distribuye según N (250, 2´5) ; y la probabilidad que nos piden es: P(249 X 251) P(0, 4 Z 0, 4) 2P(Z 0, 4) 1 0,3108 . La distribución de las calificaciones de los alumnos de 2° de bachillerato tiene una media de 5’5 puntos y una desviación típica de 3 ¿Cuál es la probabilidad de que la media de una muestra de 40 alumnos sea menor que 5? Sabemos que como n = 40 la variable aleatoria de las medias sigue una normal 3 X N (5´5, ) N (5´5, 0´47) , por lo tanto 40 5 5´5 P( X 5) P( Z ) P( Z 1´06) 1 P( Z 1´06) 1 0´8554 0´1445 . 0´47 DISTRIBUCIÓN MUESTRAL DE PROPORCIONES Supongamos que queremos estudiar en una determinada población una variable aleatoria discreta que solo puede tomar dos valores éxito y fracaso con una probabilidad de éxito p. Lo que tratamos de estimar es qué proporción de esta población tiene uno de estos dos valores. Notaremos por P̂ a la variable aleatoria que nos mide la proporción de individuos que toman uno de esos valores. Podemos deducir entonces que si el tamaño de la muestra es suficientemente grande la distribución muestral de la proporción sigue una normal p(1 p) N ( p, ). n Esta aproximación es tanto mejor cuanto mayor sea n y más próximo sea p a 0,5. Por ejemplo: El porcentaje de familias españolas con un solo hijo es del 20 %. Si consideramos una muestra de 1000 familias, calcula la probabilidad de que el menos el 21 % de estas familias tenga un solo hijo. En este caso, n = 1000 y p = 0,2; por tanto la variable aleatoria que mide las proporciones P̂ 0´2·0´8 sigue una distribución normal N (0´2, ) N (0´2, 0´0126) . 1000 0´21 0´2 ) 1 P( Z 0´79) 0, 2148. Luego P( Pˆ 0´21) 1 P( Z 0´0126 3.2.- ESTIMACIÓN POR INTERVALOS DE CONFIANZA Ya dijimos que un intervalo de confianza es un intervalo en el que sabemos que se encuentra un parámetro con un nivel de confianza (probabilidad de que el parámetro a estimar se encuentre en el intervalo de confianza) especifico. El nivel de confianza lo notaremos por 1 . Llamaremos error de estimación ( e ) al radio de anchura del intervalo de confianza. Este valor nos dice en qué margen de la media muestral se encuentra la media poblacional al nivel de confianza asignado. INTERVALO DE CONFIANZA PARA LA MEDIA Para calcular el intervalo de confianza para la media de la población en el caso de una población con media desconocida y desviación típica conocida, a partir de un nivel de confianza determinado 1 , llamaremos z 2 al valor de la distribución normal estándar N (0,1) tal que P( z 2 Z z 2 ) 1 . Por ejemplo: Si 1 0´95 , entonces 0, 025 . Luego si z 2 deja a su derecha un 2 área igual a 0,025, a su izquierda dejará un área igual a 1 - 0,025 = 0,975, y buscando en las tablas de la N (0,1) , tenemos que z 2 1,96 . En este caso, n = 1000 y p = 0,2; por tanto la variable aleatoria que mide las proporciones P̂ 0´2·0´8 sigue una distribución normal N (0´2, ) N (0´2, 0´0126) . 1000 El intervalo de confianza para la media de la población μ es: x z 2 , x z 2 . n n El error máximo que cometemos por tanto con esta estimación sería e z 2 . A partir n de esta expresión podemos determinar el tamaño de la muestra mínimo para cada nivel de 2 z 2 confianza: n . e Por ejemplo: Para estimar el número medio de hijos de las familias españolas, consideramos una muestra de 1000 personas y encontramos que esta muestra tiene una media de 2,1 hijos y una desviación típica de 0,5. Calcula un intervalo de confianza al 99% para la media de hijos de las familias españolas. Si 1 0´99 , entonces 0, 005 . Luego si z 2 deja a su derecha un área igual a 0,005, a 2 su izquierda dejará un área igual a 1 - 0,005 = 0,995, y buscando en las tablas de la N (0,1) , tenemos que z 2 2,575 . 0´5 0´5 Por lo tanto el intervalo buscado es 2´1 2´575 , 2´1 2´575 (2´0592, 2´1408) 1000 1000 INTERVALO DE CONFIANZA PARA LA PROPORCIÓN De igual forma, podemos construir un intervalo de confianza para la proporción a un p(1 p) p(1 p) , p z 2 nivel de confianza 1 de la siguiente forma: p z 2 . n n El error máximo que cometemos con esta estimación sería e z 2 p(1 p) . n Ejercicios: 1.- Sabemos que el tiempo medio de espera en las colas de un banco es de 15 min. Con una desviación típica de 5 minutos. Si tomamos al azar un grupo de 35 clientes: a) ¿Cuál es la probabilidad de que el tiempo medio de espera del grupo fuera menos de 17 minutos? ¿Cuál es la probabilidad de que estuviera entre 12 y 16 minutos? b) ¿Entre qué valores se encontraría el tiempo medio con una seguridad del 95%? ¿Y del 99%? Sabemos que la distribución muestral de medias sigue una distribución normal 5 N (15, ) N (15, 0´845) . Por lo tanto: 35 P( X 17) P( Z 17 15 ) P( Z 2´36) 0.9909 . 0´845 P(12 X 16) P(3,55 Z 1,18) P(Z 1,18) (1 P(Z 3,55)) 0,8810 1 0,9998 0,8808 Los intervalos de confianza pedidos son: 5 5 Al 95%: 15 1´96 ,15 1´96 (13´35,16´65) . 35 35 5 5 Al 99%: 15 2´575 ,15 2´575 (12´82,17´17) . 35 35 2.- En la tabla siguiente se muestran los pesos en gramos de 16 cajas de cereal seleccionadas en un proceso de llenado con el propósito de verificar el contenido medio: 506 514 508 505 499 493 503 496 504 506 510 502 497 509 512 496 Si el peso de cada caja es una variable aleatoria normal con una desviación estándar =5 gramos, obtener para la media μ los intervalos de confianza estimados para los niveles de confianza 90%, 95% y 99%. Los intervalos para cada uno de los niveles de confianza son: Confianza 90% 95% 99% Valor de z 2 1,645 1,96 2,575 Límite inferior 501,69 501,30 500,53 Límite superior 505,81 506,20 506,97 3.- El Ayuntamiento de Granada, para planificar su política social, ha hecho en un barrio una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los ingresos medios mensuales, obteniéndose 438 € de media y una desviación típica de 72 €. Estimar el valor medio de los ingresos en dicho barrio con un intervalo de confianza del 95% y del 99% y calcular el error que se comete. Los intervalos de confianza que nos piden son: 72 72 Al 95%: 438 1´96 , 438 1´96 (414´18, 461´52) . 36 36 72 72 Al 99%: 438 2´575 , 438 2´575 (407´1, 468´9) . 36 36 4.- “El Corte Inglés” desea conocer cuanto gastan de media los poseedores de una de sus tarjetas, a lo largo de un mes. Ha diseñado un muestra de 1000 clientes, y sabe por experiencia que la desviación típica poblacional es de 150 €. Si desea tener una confianza del 99% en la estimación, ¿cuál será el error máximo que cometerá? El error que cometemos viene dado por e z 2 n 2´575 150 12´21 1000 5.- Se desea establecer, con un nivel de confianza del 95%, el peso medio de las naranjas de un barco que acaba de atracar, de forma que el error no sobrepase los 15 gramos. Si la desviación típica (conocida por numerosos casos anteriores) es de 60 gr., ¿cuántas naranjas deberán ser escogidas al azar para poder establecer dicha media? Tenemos que: e z 2 2 60 60 15 1´96 n 1´96 61´46 n 62 15 n n 6.-En una muestra aleatoria de 1000 personas, están a favor del divorcio el 65%. Halla con un 99% de confianza el intervalo para la proporción real en la población. En una encuesta realizada un año antes nos había salido un 69% de favorables al divorcio. ¿Cae este valor dentro del intervalo de la actual encuesta? El intervalo de confianza para la proporción es: 0´65·0´35 0´65·0´35 , 0´65 2´575 0´65 2´575 0´612, 0´688 . El valor 0´69 no entra 1000 1000 dentro del intervalo de confianza. 7.- En un colegio hay 2000 alumnos distribuidos en 5 cursos así: 400 en primero, 380 en segundo, 520 en tercero, 360 en cuarto y 340 en quinto. Se quiere seleccionar una muestra de 100 alumnos usando la técnica de muestreo aleatorio estratificado, con afijación proporcional y considerando cada curso como estrato. ¿Como se seleccionaría esa muestra? 100 20 De primero: 400· 2000 100 19 De segundo: 380· 2000 100 26 De tercero: 520· 2000 100 18 De cuarto: 360· 2000 100 17 De quinto: 340· 2000 8.- La altura de los individuos de una ciudad sigue una distribución normal de media 170 cm y desviación típica 10 cm. Si tomamos una muestra de 25 individuos. a) Halla la probabilidad la muestra tenga una altura media entre 158 cm. y 170 cm. b) Halla la probabilidad de que la muestra tenga una altura media superior a 172 cm. c) Halla un intervalo para las alturas, centrado en la media, que contenga al 90% de los individuos. Sabemos que la distribución muestral de medias sigue una distribución normal 10 N (170, ) N (170, 2) . Por lo tanto: 25 P(158 X 170) P(6 Z 0) P(Z 0) (1 P(Z 6)) 0,5 1 1 0,5 P( X 172) 1 P( Z 172 170 ) 1 P( Z 2) 1 0´9772 0´0228 . 2 10 10 El intervalo de confianza pedido es: 170 1´645 ,170 1´645 (166´71,173´29) . 25 25 9.- Si las notas de Historia en las pruebas de acceso a la Universidad siguen una distribución normal N(5, 2) y elegimos al azar una muestra de 100 estudiantes: a) ¿Qué probabilidad hay de que la nota media en Historia de estos 100 alumnos esté entre 4´5 y 5? b) Si la muestra hubiera sido de 1000 estudiantes, ¿qué probabilidad tendríamos de que la nota media estuviera entre 4´5 y 5? c) ¿Por qué es mayor el segundo resultado? Sabemos que la distribución de medias sigue una distribución N (5, 2 ) N (5, 0´2) . Por lo 100 tanto: P(4´5 X 5) P(2´5 Z 0) P(Z 0) (1 P(Z 2´5)) 0,5 1 0´9938 0, 4938 2 ) N (5, 0´0632) , 1000 entonces P(4´5 X 5) P(7´9 Z 0) 0,5 . El segundo valor es más grande ya que cuanto más grande es el tamaño de la muestra es más probable que la media de la muestra esté más cerca de la media de la población de era 5. Si cambiamos el tamaño de la muestra tendríamos una N (5, 10.- Un fabricante de bombillas sabe que la desviación típica de la duración de las bombillas es de 90 horas. Tomada una muestra de tamaño 100, se encontró que la media era 1200 horas. Halla un intervalo, con el 95% de confianza, para la duración media de las bombillas. El intervalo de confianza 90 90 ,1200 1´96 1200 1´96 (1182´36,1217´64) . 100 100 pedido es: 11.- Se ha tomado una muestra aleatoria de 100 individuos a los que se les ha medido el nivel de glucosa en sangre, obteniéndose una media muestral de 110 mg/cc. Se sabe que la desviación típica de la población es de 20 mg/cc. a) Obtener un intervalo de confianza al 90% para el nivel de glucosa en sangre en la población. b) ¿Qué error máximo se comete en la estimación anterior? 20 20 El intervalo de confianza pedido es: 110 1´645 ,110 1´645 (106´7,113´3) , y 100 100 20 el error que cometemos es: e 1´645 3´3 . 100 12.- La media de las estaturas de una muestra aleatoria de 400 personas es de 1,75 m. Se sabe que las estaturas de las personas de esa ciudad es una variable aleatoria que sigue una distribución normal con varianza = 0´16 m2. a) Construye un intervalo del 95% de confianza, para la media de las estaturas de la población. b) ¿Cual seria el mínimo tamaño muestral necesario para que pueda decirse que la verdadera media de las estaturas está a menos de 2 cm de la media muestral con una confianza del 90%? 0´4 0´4 El intervalo de confianza pedido es: 1´75 1´96 ,1´75 1´96 (1´71,1´79) , y el 400 400 2 0´4 0´4 tamaño muestral necesario es: 0´02 1´645 n 1´645 1082´41 n 1083 0´02 n 13.- La media de la edad de los alumnos que se presentan a selectividad es de 18´1 años y la desviación típica de 0´6 años. a) De los alumnos anteriores se elige una muestra al azar una muestra de 100. ¿Cual es la probabilidad de que la media de edad de la muestra esté comprendida entre 17.9 y 18.2 años? b) ¿Qué tamaño ha de tener la muestra de esa población para que su media esté comprendida entre 17´9 y 18´3 años con una confianza del 99,5 %? 0´6 ) N (18´1, 0´06) . 100 P(17´9 X 18´2) 0,951. El tamaño de la muestra necesario es: Sabemos que la distribución de medias sigue una distribución N (18´1, Por lo tanto: e z 2 n 2 18´1 17´9 2´81 0´6 0´6 n 2´81 71´06 n 72 0´2 n 14.- Se sabe que el tiempo de reacción a un determinado estímulo se distribuye según una ley normal de media desconocida y desviación típica de 0.15 s. Observada una muestra de tamaño 9, se ha obtenido una media muestral de 0.85 s. a) Halla un intervalo de confianza para la media de la población con un nivel de confianza del 99%. b) Con qué nivel de confianza se debería construir un intervalo para la media de manera que los límites de dicho intervalo fuesen 0´768 y 0´932? 0´15 0´15 Al 99% de confianza el intervalo es: 0´85 2´575 ,0´85 2´575 (0´721,0´979) y 9 9 0´15 el nivel de confianza 0´768 0´85 z 2 z 2 1´64 1 90% . 9 15.- Las ventas mensuales de electrodomésticos de una tienda se distribuyen según una ley normal de = 550 euros. En un estudio de ventas de 9 meses se ha encontrado un intervalo de confianza para la media mensual de ventas cuyos extremos son 2800 y 3520 euros. a) ¿Cual ha sido la media de las ventas en estos nueve meses? b) ¿Cual es el nivel de confianza de este intervalo? La media es: 2800 3160 z 2 x 2800 3520 3160 2 y el nivel de confianza 550 z 2 1´96 1 95% . 9 16.- El tiempo de vida de un tipo de insecto sigue una distribución normal con media desconocida y desviación típica de 25 días. Para estimar la vida media se hace un seguimiento a la duración de la vida de una muestra de n insectos. Calcula el valor de n para que el intervalo de confianza de esta media, con mi nivel de confianza del 95 %, tenga una amplitud como máximo de 5 días. La amplitud del intervalo viene dada por 25 A 2e 2 z 2 5 2·1´96 n 384´16 n 385 n n