DIPLOMATURA DE ESTADÍSTICA ASIGNATURA: MUESTREO EN POBLACIONES FINITAS RELACIÓN DE PROBLEMAS CURSO 2005 1.- Consideremos una población con 5 elementos, U u1 , u2 , u3 , u4 , u5 y el siguiente procedimiento de extracción de muestra de tamaño n=3. Se extraen al azar y sin reposición dos unidades de las tres primeras; a continuación se extrae una tercera unidad eligiendo entre la cuarta y la quinta unidad de la población. a) Determinar el diseño muestral. b) Proponer un estimador del parámetro poblacional “ suma de los subíndices de los elementos de la población” , comprobar si es insesgado, calcular su varianza y su error cuadrático medio. Solución: X N n n X i 1 i ; Sesgo=-0,83; Varianza=2,54; ECM= 3,25 2.- Sea i la probabilidad de seleccionar una unidad de la población en la primera extracción. Supongamos que en el resto de extracciones hasta completar las n unidades de la muestra se aplica muestreo aleatorio simple sin reposición. Probar que la probabilidad de cada muestra es proporcional a la suma de las probabilidades de que las unidades sean seleccionadas en la primera extracción. 3.- Consideremos el siguiente procedimiento de muestreo sobre una población con tres unidades: U u1 , u2 , v : en una primera extracción se asignan probabilidades iguales a las tres unidades; si se extrae una unidad u no se repone y se realiza una segunda extracción con probabilidades iguales para las otras dos; si la unidad extraída en la primera ocasión es v se repone asignándole doble probabilidad en la segunda extracción. a) Determinar el espacio muestral b) Se define la variable aleatoria X que toma el valor 1 sobre las unidades u y 0 sobre v . Para estimar el número de unidades de tipo u se dispone del estimador 2 T K X i . Calcular el i 1 sesgo, el valor de K para que sea insesgado y la varianza. Solución: K=12/14; Varianza=3,9 4.- Dada la población U u1 , u2 , u3 con probabilidades de ser seleccionadas en cada extracción respectivamente 1/6, 2/6 y 3/6. Se pide, suponiendo que tenemos muestreo sin reposición y n=2: a) Determinar el espacio muestral. b) Calcular las probabilidades de cada unidad de pertenecer a la muestra. Solución: La primera, 0,44; la segunda, 0,75 y la tercera, 0,84 5.- Dada la población U u1 , u2 , u3 y la variable aleatoria X que toma los valores 1, 2,3 respectivamente, se selecciona mediante un MAS(3,2) . Se da la norma de que cuando no se pueda conseguir información de la primera unidad se sustituya por la siguiente no seleccionada. a) Determinar el espacio muestral suponiendo que u 1 no contesta. b) Calcular el sesgo que esta situación causa en el estimador del total. Solución: Sesgo=1,5 6.- De una población se ha extraído una muestra MAS(100, 8) con los siguientes valores de una variable aleatoria sobre los elementos de la muestra: 25,32,28,35,26,34,30,28. a) Calcular una estimación del total y de su error de muestreo. Solución: Estimación=2.975, error de muestreo=123,8 b) Determinar el tamaño de muestra necesario para que el error de muestreo sea 50. Solución: 35 7.- Determinar el tamaño de muestra en función de N y de P, para estimar el promedio de individuos de una población con un error de muestreo del 0,05. Aplicarlo al caso P=0,26 y N=2000.( Suponer que N-1 N y muestreo sin reposición). Solución: 75 8.- Determinar el tamaño de muestra necesario para estimar el total X con un error relativo del 5% para muestreos con y sin reposición, sabiendo que N=500 y c(X)=0,60. Solución: Con reposición 144, sin reposición 112. 9.- Se sabe que la varianza de una variable aleatoria X B(1, P) es P(1-P). Si estimador insesgado de P, probar que P es un P (1- P ) es un estimador sesgado de dicha varianza. 10.- Determinar el tamaño de muestra necesario para estimar el total X con un error máximo admisible del 1% para un coeficiente de confianza del 95%, sabiendo que N=1800, S 2 16; X 42 . Solución: 19 11.- En un área geográfica existen N=10000 viviendas. Los datos de un censo anterior nos dice que 2/3 de ellas corresponden a régimen de alquiler. Determinar el tamaño de muestra necesario para estimar la proporción con un error de muestreo igual a 0,04 para muestreo con y sin reemplazamiento. Solución: Con reemplazamiento 137, sin reemplazamiento 135. 12.- En un municipio existen 5200 viviendas. Calcular el tamaño de muestra necesario para estimar el número de viviendas desocupadas con un error de muestreo igual a 10, sabiendo que una encuesta piloto ha obtenido que la proporción de viviendas desocupadas era de 0,12. ¿Cual sería el tamaño de muestra si el error de muestreo fuese igual a 30? a) Si se supone muestreo aleatorio simple sin reemplazamiento. b) Si se supone muestreo aleatorio simple con reemplazamiento. Solución: a) V ( A) N 2 1 f p(1 p) ; n=4400 para error de muestreo 10 y n=1972 para n 1 n=30. b) V ( A) N 2 1 p (1 p ) ; n=28.556 para error de muestreo 10 y n=3174 para n=30. n 1 13.- En una zona con 1000 viviendas, determinar el tamaño de muestra necesario para que, con un nivel de confianza del 95%, la estimación de la proporción de viviendas sin agua corriente no difiera en más de 0,10 del valor verdadero, suponiendo muestreo aleatorio simple sin reemplazamiento. Solución: 91 14.- Usualmente, se inspeccionan grandes mamíferos en un espacio abierto desde aeroplanos. Cuando el aeroplano vuela sobre una franja de terreno, se cuentan todos los animales de las especies dentro de una distancia predeterminada del aeroplano. Debido a irregularidades en la forma del área de estudio, las franjas de terreno sobre las que se vuela pueden tener distintas longitudes. Podrían seleccionarse franjas de terreno (unidades) con probabilidades proporcionales a sus longitudes. Para ello pueden seleccionarse aleatoriamente n puntos sobre un mapa del área bajo estudio, e incluir en la muestra cualquier franja de terreno que contenga uno de los puntos seleccionados. Mediante este procedimiento, la probabilidad de selección de una franja es proporcional a su longitud. Una franja es seleccionada más de una vez si contiene más de un punto. Supongamos que el terreno bajo estudio tiene un área de 100 km2, y que es dividida en franjas con una anchura de 1 km y de longitud variable. Siguiendo el procedimiento anterior, una muestra de n =4 franjas ha sido seleccionada. Una de ellas, con yi = 60 animales, fue seleccionada dos veces; sus longitud era de 5 km, y por tanto su probabilidad de inclusión es pi = 0,05. Las observaciones se recogen en la siguiente tabla, incluyendo las repeticiones, yi longitud pi 60 60 14 1 5 5 2 1 0,05 0,05 0,02 0,01 Calcular un estimador del total y del error de muestreo cometido. 15.- Se utilizaron dos procedimientos para investigar el estado de 200 cuestionarios. a)- Se seleccionó una muestra aleatoria simple con reemplazamiento de 20 cuestionarios y se contó en cada uno de ellos el número de errores que contenía, obteneniéndose los siguientes resultados: Número de errores: 0 1 2 3 4 5 6 7 8 9 10 Número de cuestionarios: 8 4 2 2 1 1 0 0 0 1 1 b)- Se examinaron los 200 cuestionarios localizando únicamente aquellos que no tenían ningún error, encontrando 60 cuestionarios sin error. Estimar el número total de errores y el error de muestreo utilizando cada uno de los dos métodos ( en el b) considerar dos estratos, uno con los cuestionarios sin error y otro con los cuestionarios con algún error). Solución: a) 420 errores; 131,3 el error de muestreo. b) 490 errores; 124,9 error de muestreo. 16.- Una población se divide en dos estratos de igual tamaño, de los que se obtienen muestras aleatorias simples sin reemplazamiento. Se realiza una afijación proporcional con una fracción de muestreo global del 5%. ¿Qué tamaño de muestra es necesario para obtener un error de muestreo para la media igual a 0,5? Se conoce por una encuesta anterior que S12 25 y S22 15 . Solución: n=76. 17.- Determinar el tamaño de muestra n que con afijación óptima sin costes proporciona la misma precisión que una muestra aleatoria simple de tamaño n´, para estimar la proporción P de una cierta característica. Suponer en ambos casos muestreo con reposición y aplicar el resultado a los siguientes datos con n´=1000: Estratos II III I Wj Pj 0,2 0,5 0,3 0,5 0,6 0,4 Solución: n=970 18.- Una muestra aleatoria simple sin reposición de 35 unidades, procedente de una población con tres estratos, uno de los cuales está formado por N 3 4 unidades que entran con certeza en la muestra, presenta los siguientes datos: 18 Estrato 1 : X X i2 X 2 i2 7978 X i3 X 2 i3 28866 n3 4 y N 3 4 i 1 13 Estrato 2 : i 1 4 Estrato 3 : 18 X i1 119 i 1 278 336 i 1 13 2 i1 i 1 4 837 n1 18 y N 1 400 n2 13 y N 2 200 i 1 Se pide estimar la media de la población y su error de muestreo. Solución: n=579 19.- Determinar el tamaño de muestra que en un muestreo aleatorio estratificado con afijación proporcional aporta la misma precisión que un muestreo aleatorio simple (con reemplazamiento en ambos casos), para estimar la proporción P de una cierta característica. Se sabe que W1 0,5 , W2 0,3 , W3 0,2 , P1 0,5 , P2 0,6 , P3 0,4 y tamaño de la muestra aleatoria simple de 600. Solución: R 0,4436 ; V ( R) 0,0236 20.- En una población con N=40 unidades se obtiene una muestra aleatoria simple sin reemplazamiento de 4 unidades, que proporciona los siguientes valores: Yi Xi _______ 125 135 70 158 ______ 250 300 200 350 Estimar el cociente X/Y y su error de muestreo sabiendo que Y 275 . 21.- Una muestra aleatoria simple de tamaño n=4 obtenida con reemplazamiento proporciona los siguientes valores: Yi Xi _______ 1 2 3 4 ______ 1 3 4 5 Estimar el sesgo del estimador de la razón y su relación con el error de muestreo sabiendo que Y 3,25 . 22.- En una localidad con 500 viviendas se desea hacer un estudio sobre el hábito de fumar entre las personas mayores de 16 años. Para ello se estratifica la población en dos estratos, en el estrato 1 se clasifican 200 viviendas y en el estrato 2 las restantes 300. De cada uno de los estratos se selecciona una muestra aleatoria simple de 5 viviendas con los siguientes resultados: Estrato 1: Viviendas en la muestra Personas mayores de 16 años Fumadores mayores de 16 años 4 1 2 3 4 5 3 1 2 1 1 0 2 1 1 1 2 3 4 5 6 3 4 3 4 1 3 2 2 Estrato 2: Viviendas en la muestra Personas mayores de 16 años Fumadores mayores de 16 años 5 Estimar la proporción total de fumadores entre las personas mayores de 16 años y calcular el error de muestreo. 23.- En una población con N=8 unidades se dispone de los siguientes datos: Estrato 1 Estrato 2 X Y X Y 2 0 10 7 5 3 18 15 9 7 21 10 15 10 25 16 Para una muestra estratificada con n1 n2 2 , comparar los errores muestrales de los estimadores del total de X separados y combinados para todas las muestra posibles (sin reposición). 24.- Una población se ha estratificado en dos estratos con N 1 N 2 3 unidades. Los pares de valores para cada unidad son los siguientes: Estrato 1 X Y 2 1 4 2 5 3 Estrato 2 X Y 5 4 7 5 12 6 a) Calcular para cada estrato los coeficientes de regresión bj . b) Calcular las varianzas mínimas de los estimadores de regresión separado y combinado de la media poblacional para n1 n2 2 y muestreo aleatorio simple sin reemplazamiento en cada estrato. 25.- En una población se han establecido M conglomerados, de los que se seleccionan m según el siguiente procedimiento de selección: - La primera selección se hace con probabilidades desiguales Pi , i=1,...,M - El resto de los m-1 conglomerados de la muestra se realiza con probabilidades iguales. - Todo se realiza sin reposición. a) Calcular la probabilidad de pertenecer a la muestra que tiene cada conglomerado y comprobar que la suma de dichas probabilidades es igual a m b) Calcular una estimación insesgada del total poblacional con M=50, m=4 y sabiendo que en los conglomerados de la muestra P1 =0,026, P2 =0,017, P3 =0,022 y P4 =0,013; X 1 100, X 2 80, X 3 120 y X 4 60 . Solución: 4.487 26- En una población de 400 unidades se forman 100 conglomerados y se extrae una muestra de 10. El número total de unidades últimas seleccionadas en cada uno de estos 10 conglomerados y el de las unidades que poseen cierta característica es: (4,2) ,4 unidades en total en el primer conglomerado de la muestra y 2 de ellas tienen la característica, (2,1), (6,4), (1,1) , (5,2) , (3,1) , (3,2) , (8,5) , (1,0) y (4,3). a) Estimar la proporción de individuos que poseen la característica y su error de muestreo. b) Estimar el coeficiente de homogeneidad. 27.- En una población con 100 conglomerados de 40 unidades cada uno se obtiene una muestra de 6 conglomerados. Dentro de cada uno de estos últimos se extrae una muestra de un 10% de unidades, que proporciona los siguientes valores de una variable aleatoria: Primer conglomerado: 4,3,2,3 Segundo conglomerado: 3,4,5,4 Tercer conglomerado: 2,3,3,4 Cuarto conglomerado: 5,4,5,5 Quinto conglomerado: 6,3,2,1 Sexto conglomerado: 2,4,3,3 Calcular el estimador de la media y su error de muestreo suponiendo muestreo sin reposición en ambas etapas. 28.- En una población de 3000 unidades con 30 conglomerados de igual tamaño se extrae con reposición una muestra de 5 conglomerados. En cada uno de estos conglomerados se obtienen unos totales de 20,25,30,35 y 40. Se supone muestreo con reposición. Calcular el estimador del total y su error de muestreo. TRABAJO OPTATIVO SOBRE LA ASIGNATURA El objetivo del trabajo es comprobar en la práctica cómo funcionan los diferentes procedimientos de muestreo estudiados durante el cuatrimestre, analizando la mejora en la precisión de los estimadores que se obtienen con los diferentes esquemas. Para ello cada grupo de alumnos deberá proponer un estudio (determinando población, variables objeto de estudio y auxiliares) a los que deberá aplicar muestreo aleatorio simple, muestreo con probabilidades desiguales y muestreo estratificado, incluyendo el uso de estimadores de razón y regresión. Estudiarán y analizarán las diferentes ganancias de precisión en relación al muestreo aleatorio simple y su justificación.