TEMA 1: TEORÍA DE MUESTRAS. DISTRIBUCIONES EN EL MUESTREO 0. INTRODUCCIÓN En el curso anterior hemos estudiado conceptos fundamentales, como era el concepto de variable aleatoria y su distribución de probabilidades, estudiamos diferentes modelos de distribuciones tanto de tipo discreto como de tipo continuo y analizábamos sus características básicas (media, varianza, etc.). A partir de ahora estaremos interesados en saber qué modelo sigue la población, y para ello nos basaremos en la información que se obtenga de un subconjunto o parte de esa población que llamaremos muestra. Cuando realizamos una introducción general de la estadística decimos que uno de los objetivos fundamentales es obtener conclusiones basándonos en datos que se han observado, proceso que se conoce con el nombre de inferencia estadística, es decir utilizando la información que nos proporciona una muestra de la población se obtienen conclusiones o se infieren valores sobre características poblacionales. En este capítulo daremos una serie de conceptos básicos que serán fundamentales para el desarrollo posterior de la inferencia estadística. 1. POBLACIÓN Y MUESTRA. CONDICIONES DE REPRESENTATIVIDAD DE UNA MUESTRA. a) Población. Cuando una investigación estadística va referida a un conjunto, colección o colectivo de elementos, este colectivo se llama población. El tamaño de la población es el número de elementos o unidades estadísticas que la componen. La población, por su tamaño, puede ser finita o infinita. b) Muestra. En ciertos estudios, cuando la población es muy grande, no se suele hacer una observación exhaustiva, se estudia una parte de la misma llamada muestra. Para poder obtener conclusiones acerca de la población, es imprescindible que la muestra sea representativa. Muestra es una parte de la población, debidamente elegida, que se somete a la observación científica en representación de la misma, con el propósito de obtener resultados válidos para toda la población. El número de elementos de una muestra se denomina tamaño de la muestra. Para que una muestra se considere válida debe cumplir que: 1 - Su tamaño sea proporcional al tamaño de la población. 2 - No haya distorsión en la elección de los elementos de la muestra. 3 - Sea representativa. Los principales motivos que inducen a tomar muestras son: 1 - El coste económico y de tiempo. 2 - Que la población sea homogénea, pudiendo obtener buenos resultados a partir de cualquier muestra. 3 - La falta de personal preparado para llevar a cabo un buen estudio general. 4 - La necesidad de obtener unos datos de forma rápida. El uso del muestreo presenta limitaciones, entre ellas: 1 - El riesgo que supone la toma de una muestra que puede no ser representativa. 2 - Cuando se necesita información de todos los elementos de la población. 1 3 - Cuando no se domina bien la técnica del muestreo. 4 - Cuando la población está formada por un número muy pequeño de elementos, ya que una ligera equivocación en la toma de la muestra puede originar grandes errores. La forma de obtener conclusiones válidas para la población a partir de los datos de una muestra es el objetivo principal de la inferencia estadística. 2. MUESTREO. TIPOS DE MUESTREO. En un estudio estadístico de una población debemos decidir la forma en que seleccionamos las muestras (muestreo) de tal manera que resulten representativas del total de la población. Los errores en que podemos incurrir en la elección de muestras pueden sesgar las conclusiones. Ejemplos típicos son: Muestreo de conveniencia. Cuando tomamos las muestras que cuestan menos esfuerzo. Voluntarısmo. Cuando se obtienen datos solo de aquellos individuos que deciden espontáneamente dar su opinión, su propia actitud los selecciona como una muestra selecta. Veamos cuáles son los tipos de muestras más comunes: a) Muestreo aleatorio simple. La muestra se puede elegir por distintos procedimientos. El principio que debe presidir la elección de una muestra es el principio aleatorio, mediante el cuál todos y cada uno de los elementos de la población tengan la misma probabilidad de ser elegidos y formar parte de la muestra. Se puede llevar a cabo mediante un sorteo riguroso, obteniendo una serie de unidades estadísticas (con o sin reemplazamiento) hasta completar la muestra fijada. El muestreo aleatorio simple consiste en seleccionar n elementos sin reemplazamiento de entre los N que componen la población, de tal modo que todas las muestras de tamaño n que se pueden formar tengan la misma probabilidad de ser elegidos. En la práctica, la muestra se obtiene unidad a unidad. Para ello, se enumeran los elementos de la población desde el 1 hasta N y se extraen a continuación n elementos al azar o bien se introducen en un bombo tantas bolas numeradas como elementos de la población. Removiendo el bombo se van sacando bolas y anotando los números de los elementos de la muestra. Este procedimiento, aunque simple, requiere tener unos medios materiales: bombo, bolas suficientes, etc., por lo que a veces se utilizan en su lugar otras alternativas como las tablas de números aleatorios. Las tablas de números aleatorios están formadas por grupos de dígitos obtenidos al azar y ordenados por filas y columnas. b) Muestreo aleatorio sistemático. Se empiezan numerando todos los elementos de la población desde 1 a N. Para seleccionar los n elementos que constituyen la muestra, es preciso obtener el coeficiente de elevación: h=(N/n). Después se elige al azar un número i, llamado origen, comprendido entre 1 y h (1≤i≤h), que nos indica el punto de arranque de la selección. La muestra está formada por los elementos: i , i+h , i+2h ,...., i + (n-1)h. Este procedimiento exige, para que se pueda aplicar correctamente, que la población no presente ninguna ordenación por la variable objeto de estudio y, si la hay, previamente habrá que desordenarla. c) Muestreo aleatorio estratificado 2 En este caso, la población de N elementos está dividida en subpoblaciones o estratos de elementos N1 N2 ... Nk y, para elegir la muestra efectuamos un muestreo aleatorio estratificado. I1 I2 I3 … Ik Total Subpoblación N1 N2 N3 … Nk N Muestra n1 n2 n3 … nk n Se llama muestreo aleatorio estratificado al procedimiento completo de seleccionar, en cada estrato o subpoblación, la muestra por muestreo aleatorio. La elección, en cada subpoblación, la podemos hacer bien por muestreo aleatorio simple o bien sistemático. Este tipo de muestreo se utiliza para obtener muestras en poblaciones no homogéneas, consiguiéndose así una mayor precisión y menor error. La muestra total está formada por la suma de las muestras correspondientes a cada estrato. Cuando todas las muestras tienen un mismo tamaño en cada estrato, se dice que es un muestreo aleatorio estratificado constante (o de afijación igual ). Así, si hemos dividido la población en L subpoblaciones y la muestra es de tamaño n, en cada estrato tomamos el mismo número de unidades estadísticas o elementos: n1 n2 ... nL n L Cuando el número de elementos seleccionados en cada estrato o subpoblación es proporcional a su tamaño, se trata de un muestreo aleatorio estratificado proporcional (o de afijación proporcional). n1 n n n 2 ... L N1 N 2 NL N La muestra ni en cada estrato se toma de forma proporcional a su tamaño Ni d) Muestreo por conglomerados Es otro procedimiento de muestreo aleatorio en el que la unidad muestral, denominada conglomerado, está formada por un grupo de unidades elementales, como bloques de viviendas, familias, colegios, etc. Este tipo de muestreo tiene la ventaja de que la muestra está más concentrada y, por tanto, es mucho más fácil obtener las respuestas o los datos de las unidades últimas (individuos, alumnos, etc.) Cuando los conglomerados se corresponden con zonas geográficas y se define el conglomerado como área o parte bien definida del terreno, se habla de muestreo por áreas en lugar de hablar de muestras por conglomerados. El muestreo por conglomerado puede realizarse: a) En una etapa: Si en los conglomerados que han pasado a formar parte de la muestra se toman todas las unidades. b) En dos o más etapas: Tenemos N individuos en una población, dividido en K grupos que podemos tomar como conglomerados. Si queremos elegir n individuos de la muestra en K de estos conglomerados, hemos de tomar una muestra a su vez en cada conglomerado seleccionado. 3 3. DISTRIBUCIONES EN EL MUESTREO En este apartado estudiaremos las distribuciones de algunas variables aleatorias para muestras procedentes de poblaciones normales, cuyos parámetros pueden, o no, ser conocidos. Sabemos que muchos fenómenos que se observan en la realidad tienen distribuciones de frecuencias relativas que al representarlas tienen una forma parecida a la distribución normal, por ello podemos suponer que la mayoría de las poblaciones con las que nos encontraremos serán normales y las variables aleatorias observadas en una muestra aleatoria ( X1 , X 2 ,... X n ) serán independientes y tienen la misma distribución. a) Distribución en el muestreo de una proporción. Las chinchetas de una determinada marca no salen todas buenas y algunas resultan defectuosas. Sea p la proporción de chinchetas buenas. No sabemos el valor de p, pero podemos aproximarnos de alguna manera. Para ello, tomamos una muestra aleatoria de 100 chinchetas y observamos que 86 de ellas están bien. Al valor 86/100 lo llamamos p̂ , ya que no es el valor de p, pero sí da la proporción de chinchetas buenas en la muestra elegida. Si elegimos otras muestras de tamaño 100, evidentemente el valor de p̂ varía. Los distintos valores de p dan lugar a una variable aleatoria que representaremos por p̂ y que llamaremos estadístico. La distribución de los valores de p̂ se llama distribución muestral o distribución en el muestreo de una proporción. Se demuestra que: La variable aleatoria p̂ tiene las siguientes características: 1. Media: μ=p 2. Desviación típica: σ= p 1 p n 3. A medida que n crece, la distribución de p̂ se aproxima a la normal, siempre que p no se acerque ni a 0 ni a 1. b) Distribución en el muestreo de la media Supongamos que se desea saber la altura media de los niños de 11 años de una ciudad. La altura media poblacional la representaremos por μ, y por σ la desviación típica poblacional. Con el fin de hacernos una idea de cómo puede ser μ, elegimos una muestra aleatoria formada por 40 niños, y se obtiene que: * La altura media muestral es: x1 =140 cms. * La desviación típica muestral es: s1 =16,5 cms. Si elegimos otras muestras de tamaño 40 y calculamos sus medias y sus desviaciones típicas, obtendremos: x2 , x3 ,…, xn y s 2 , s3 ,…, s n . Los distintos valores de dan lugar a una variable aleatoria que representamos por X . La distribución de los valores de X se llama distribución de las medias muestrales por depender de las muestras o distribución en el muestreo de la media, y se demuestra que: La variable aleatoria X tiene las siguientes características: 1. Media: μ 2. Desviación típica: n 4 3. A medida que n crece, la distribución de X se aproxima a una normal. Así X N , n * Si σ es desconocida y n ≥30, la sustituiremos por s x x i n 1 2 (desviación típica muestral) * Si σ es desconocida y n<30 los valores de s² varían considerablemente de muestra en muestra, pues s² disminuye a medida que n aumenta, y la distribución de X ya no sería normal. "Si ( X1 , X 2 ,... X n ) es una muestra aleatoria simple de tamaño n, procedente de una población N(μ,σ) con σ desconocida, entonces: X t-Student con n-1 grados de libertad" c) Distribución de las sumas muestrales El encargado del registro civil de una ciudad quiere saber cuánto suman las tallas de las parejas que van allí a inscribirse. Supongamos que la suma de las tallas de la población tiene por media μ y desviación típica σ. Con el fin de hacernos una idea de cómo puede ser μ, elegimos una muestra aleatoria formada por 35 parejas, y se obtiene que: * la talla suma media es: t1 = 2,35 m. * la desviación típica de la muestra es: s1 = 0,15 m. Si elegimos otras muestras de tamaño 35 y calculamos sus medias y sus desviaciones típicas, obtendremos: t2 , t3 ,..., tn y s2 , s3 ,..., sn . Los distintos valores de ti dan lugar a una variable aleatoria que representamos por T. La distribución de los valores de T se llama distribución de las sumas muestrales, por depender de las muestras, o distribución en el muestreo de las sumas, y se demuestra que: La variable aleatoria T tiene las siguientes características: 1. Media: nμ 2. Desviación típica: σ n 3. A medida que n crece, la distribución de T se aproxima a la normal. d) Distribución en el muestreo de la diferencia de medias. Supongamos que la medida de los espárragos de La Rioja tienen de media 1 y desviación tipica 1 y que los espárragos de Aranjuez tienen de media 2 y desviación típica 2 . Supongamos también que ambas poblaciones se distribuyen normalmente y de forma independiente. Tomamos una muestra de tamaño n1 de espárragos de La Rioja y una muestra de tamaño n2 de espárragos de Aranjuez. Sean x1 y x2 sus longitudes medias respectivas. Si elegimos otras muestras de tamaños n1 y n2 , respectivamente, y calculamos sus medias y las diferencias de medias, se obtiene: x1 ' x2' ;x1 " x2 " ;x1 '" x2 '",... Estos distintos valores dan lugar a una variable aleatoria que representamos por X1 X 2 . La distribución de X1 X 2 se llama distribución en el muestreo de la diferencia de medias, y se demuestra que: La variable aleatoria X1 X 2 tiene las siguientes características: 5 1. Media: 1 2 2 1 2. Desviación típica: 1 2 n1 n2 3. A medida que n1 y n2 crecen, la distribución de X1 X 2 se aproxima a la normal. Si las desviaciones típicas son desconocidas y las muestras son grandes, sustituiremos 1 y 2 por s1 y s2 , respectivamente. 6 EJERCICIOS TEMA 1 1. Supongamos que el 30% de la población de viviendas de un país tienen más de un cuarto de aseo. Con el fin de obtener una información más precisa se toma una muestra aleatoria de tamaño 400 viviendas. Obtener la probabilidad de que la proporción de viviendas de la muestra con más de un aseo esté comprendida entre 0’25 y 0’32. 2. El 3% de las piezas producidas por una máquina son defectuosas. Se toma una muestra aleatoria de 100 piezas. a) ¿Cuál es la distribución que sigue la proporción de piezas defectuosas en la muestra? b) ¿Hallar la probabilidad de que en la muestra existan menos de 28 piezas defectuosas. 3. Después de unas elecciones se sabe que el candidato que ha sido elegido presidente obtuvo el 42% de los votos. Hallar la probabilidad de que de 1.000 individuos elegidos al azar de entre los votantes hubiese obtenido el candidato más de 450 votos. 4. Las notas de un grupo de alumnos es aproximadamente normal con media μ=5,5 y desviación típica σ=0,8. a) Hallar la media y la desviación típica de las medias muestrales y de las sumas para muestras de tamaño 4. b) Calcular la probabilidad de que la media muestral de 4 alumnos elegidos al azar sea mayor que 5,2. c) Hallar la probabilidad de que la suma de las calificaciones obtenidas por los 4 alumnos sea inferior a 21. 5. Se sabe que los niños españoles de enseñanza primaria ante una prueba de discriminación visual se distribuyen según una N(4,2). Extraemos una muestra aleatoria formada por 39 niños y les pasamos la prueba. Hallar la probabilidad de que la media muestral: a) Sea menor que 3,5. b) Sea mayor que 3,9. c) Esté comprendida entre 3,8 y 4,1. 6. En una universidad se sabe que las tallas de los alumnos se distribuyen normalmente con media 172 cms. y desviación típica 17,5 cms. Se toman muchas muestras de 35 estudiantes. a) ¿Cuál es la media y la desviación típica de la distribución de las medias muestrales? b) Hallar la probabilidad de que la media muestral sea inferior a 171 cms. 7. El peso de los toros de una determinada ganadería se distribuye según una normal de media 500 kgs. y 45 kgs. de desviación típica. Se toman muestras de 35 toros y se calcula el peso medio. Hallar la probabilidad de que la media muestral: a) Sea mayor que 540 kgs. b) Sea menor que 480 kgs. c) Esté entre los 480 y 495 kgs. 8. El peso de las truchas de una piscifactoría sigue una ley N(200,50). Se toman muestras de 60 truchas y se calcula su peso medio. Hallar las probabilidades de que la media muestral: a) Sea mayor que 210 kgs. b) Sea menor que 185 kgs. c) Esté entre 210 y 225 kgs. 7 9. Se sabe que la talla media de los niños recién nacidos en la Comunidad Autónoma A se distribuyen según una N(66,6), mientras que los de la Comunidad Autónoma B se distribuyen según una N(62,4). Si se toman muestras al azar de 50 niños recién nacidos de cada Comunidad Autónoma: a) ¿Cuáles son los parámetros media y desviación típica de la diferencia de medias muestrales? b) Hallar la probabilidad de que la diferencia de medias de las tallas de los niños recién nacidos de una de las muestras sea inferior a 3 cms. 10. En las pruebas de acceso a la Universidad A se ha obtenido una calificación media de 5,8 con una desviación típica de 1,25; mientras que en las pruebas de acceso a la Universidad B se ha obtenido una calificación media de 5,6 con una desviación típica de 1,5. Si se toman al azar 100 alumnos de cada universidad, ¿cuál es la probabilidad de que los alumnos de A tengan una calificación media de al menos 3 décimas superior a los alumnos de la Universidad B? 11. La compañía aérea A sabe que el tiempo de retraso de sus aviones se distribuye normalmente con una retraso medio de 10 minutos y desviación típica 2 minutos, mientras que en otra compañía B su retraso medio es de 15 minutos y desviación típica 4 minutos. Si se toman muestras al azar de 100 vuelos, hallar la probabilidad de que la diferencia en los tiempos medios de retraso sea menor que 1,5 minutos. EJERCICIOS DE AMPLIACIÓN 1. Analizando los salarios de los trabajadores de dos comunidades autónomas se deduce que en la comunidad A el salario medio es de 775€ con una varianza de 15€, y en la comunidad B el salario medio es de 773€ con una varianza de 18€. Si tomamos una muestra aleatoria de 36 personas en A y de 49 en B, determinar la probabilidad de que la muestra procedente de A tenga un salario medio que sea al menos 1€ superior al salario medio de la comunidad B. 2. Las lámparas de un fabricante A tienen vida media de 1400 horas con una desviación típica de 200 horas, mientras que las de otro fabricante B tienen vida media de 1200 horas con una desviación típica de 100 horas. Si se toma una muestra de 125 lámparas de cada clase. a) ¿Cuál es la probabilidad de que las de A tengan una vida media que sea al menos de 160 horas más que las de B? b) ¿Cuál es la probabilidad de que las de A tengan una vida media que sea al menos de 250 horas más que las de B? 3. Las bolas de rodamiento de cierto fabricante pesan 0,5 g. de media, con una desviación típica 0,02 g. ¿Cuál es la probabilidad de que dos lotes de 1000 bolas cada una difieran en peso en más de 2g.? 4. Un cierto tipo de lámparas tiene una vida media de 1500 h y una desviación típica de 150 h. Se conectan tres de ellas de manera que en cuanto una falle es encenderán otra. Suponiendo que las vidas medias están normalmente distribuidas: a) ¿Cuál es la probabilidad de que den luz durante al menos 500 horas?. b) ¿Cuál es la probabilidad de que den luz durante a lo sumo 4200 horas?. 8