Muestreo Estratificado. 1.- Introducción: Para aplicar este diseño, se precisa que la población esté dividida en subpoblaciones, estratos, que no se solapen. Se selecciona una muestra probabilística en cada estrato y se trabaja de manera independiente entre estratos. Razones de la popularidad de este método: Permite realizar estimaciones de precisión expecifica en cada estrato; En un experimento, los aspectos prácticos relacionados con la respuesta, la medida o la información auxiliar pueden diferir considerablemente de una subpoblación a otra. Existirán razones administrativas, división territorial, ... . Cuestiones técnicas que plantea este muestreo: i) Construcción de Estratos: Los objetivos del estudio y los recursos disponibles contestarán las siguientes cuestiones ¿Qué características utilizar para dividir la población en estratos?; ¿Cómo se identificarán los estratos?; ¿Cuántos estratos debe haber?. En particular, los estratos deben estar constituidos por unidades lo más homogeneas posibles; En el caso límite de estricta homogeneidad bastaría seleccionar una sola unidad en cada estrato ii) Elección de una muestra y métodos de estimación en cada estrato; El proceso de muestreo se realizará de manera independiente en cada estrato Ventajas de este diseño: i) Si las mediciones dentro de cada estrato son homogénes, la estratificación producirá un límite más pequeño para el error de estimación que el m.a. ii) Se puede reducir el costo por observación al estratificar la población en grupos convenientes. iii) Permite obtener estimaciones de parámetros poblacionales para subgrupos de la población. Ejemplos: Ciudades i) El I.P.C. se obtiene a partir de encuestas a: Familias urbanas Empresas de bienes y sevicios Bienes y servicios específicos ii) Una empresa de publicidad desea determinar cuánto debe emplear en publicidad televisiva en un municipio, para lo que decide realizar una encuesta por muestreo para estimar el número medio de horas semanales que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos, A y B, y un área rural. El pueblo A circunda una fábrica y los hogares son de trabajadores con niños en edad escolar. El B es un suburbio de una ciudad vecina con muchos jubilados y pocos niños. El A tiene 155 hogares, el B tiene 62 y el área rural 93. 2.- Notación y Definiciones: Definición: Dada una población U y 1 , . . . , y N , se entiende por estratificación una partición de U en L subpoblaciones llamadas estratos, U 1 y 11 , . . . , y 1N 1 y k / k ∈ U 1 , . . . , U L y 11 , . . . , y 1N L y k / k ∈ U L , verificándose que N 1 . . . N L N. 1 Notación: Muestra total s s 1 . . . s L / s i muestra en el estrato i-ésimo. L L L Parámetros: ∑ y k ∑ ∑ y k ∑ N h y U h ∑ h ∑ N h1k∈U h k∈U L h1 L y U h ∑ W h y U h / W h Nh N h1 h1 Nh N h1 tamaño relativo del estrato. Tamaño relativo de la muestra en el estrato h: f h nh Nh 3.- Estimadores. -estimador: L ∑ h ; Puesto que la selección en los distintos estratos se realiza de manera h1 independiente 1 , . . . , L son independientes. L ∑ Var h Var h1 L ∑ Var h Var h1 Nota: Este método teien gran aplicación ya que no precisa que el diseño muestral sea el mismo en cada estrato, 3.1 Muestreo Aleatorio Simple en los L estratos: L i) st ∑ ∑ h1 L yk nh Nh ; k∈s h Var st ∑ h1 L Var st ∑ N 2h 1−f h nh ∗2 h ; N 2h 1−f h nh S ∗2 h . h1 L ii) P st ∑ W h P h ; h1 L VarP st ∑ W 2h h1 L VarP st ∑ W 2h 1−f h nh 1−f h nh N h P1−P N h −1 ; P h 1−P h n h n h −1 . h1 3.2 Muestreo Aleatorio Simple con reemplazamiento en los L estratos: L st ∑ ∑ h1k∈s h yk nh L Var st ∑ h1 L Var st ∑ h1 2 Nh; N 2h nh 2h ; N 2h nh S ∗2 h 4.- Afijaciones: La obtención del tamaño muestral n se realiza en base a las condiciones del experimento o a la fijación de la precisión deseada. La afijación trata de repartir el tamaño muestral n entre los estratos. Factores generales a tener en cuenta: Tamaño del estrato; Variabilidad entre estratos; Costo que tiene medir una observación en cada estrato. 4.1 Afijación Uniforme: i) Conocido n : Se asigna el mismo número de unidades muestrales a cada estrato, n h ≃ Ln , por tanto favorece la representación de los estratos pequeños y perjudica la de los grandes. ii) Consideración de costes: L Fijado C C 0 ∑ C h n h n h1 C−C 0 L L ∑C h h1 4.2 Afijación Proporcional. Se precisa conocer N h h1,...,L ; i) Conocido n : nh Nh n N n h nW h . Por tanto, todos los elementos de la población tienen la misma probabilidad de aparecer en la muestra. Nota: Esta afijación es óptima siempre que la variabilidad de la respuesta en los estratos sea casi la misma. ii) Consideración de costes: L Fijado C C 0 ∑ C h n h Ejercicio n h1 C−C 0 L ∑C h W h h1 iii) Proporcional al total: ∑y k Si la variable Y es positiva n h Uh ∑y k ; Esta afijación es óptima si CV U h es U constante en todos los estratos. 4.3 Afijación de Mínima Varianza, suponiendo m.a.s. en todos los estratos: i) Conocido n : Consiste en determinar los n h h1,...,L de forma que para un tamaño de muestra fijo la L varianza del estimador sea mínima min Var ∑ n h − n ; nh h1 N ∗ Si n h n L h h ; ∑N h ∗h h1 Observaciones: 1- Los valores de n h son proporcionales a los productos N h ∗h y cuando ∗h ∀h n h nW h . Por esto se dice que es la afijación de mínima varianza, si todos los estratos tienen la misma variabilidad respecto de la característica en estudio. 3 2- Esta afijación tiene el inconveniente de que precisa estimar mayor número de características poblacionales: ∗h h1,...,L . 3- La utilidad de esta afijación reside en los casos en los que hay gran diferencia en la variabilidad de la respuesta entre estratos ii) Consideración de costes: L Fijado C C 0 ∑ C h n h : h1 min nh L Var C 0 ∑ C h n h − C ; h1 Si st n h Wh ∗ h C−C 0 Ch L ∑W h ∗ h Ch h1 No fijado C : L min Var C 0 ∑ C h n h nh h1 W ∗ Si st n h h h ; Ch Fijado B y K, el error de estimación para una confianza dada), y no fijado C : L min nh ∑ C h n h Var − V o h1 Si st n h ; V o Bk L Wh ∗ h ∑W h Ch ∗ h Ch h1 L B2 K2 2 1 N ∑ .¿Cuánto valdrá n?. ¿Qué pasa si C h cte. W h ∗2 h h1 ∀h?. 4.4 Afijación óptima correlada. Sea X una v.a. altamente correlada con Y, la variable de interés. Supongamos que se conoce ∗X U h . Se toma: ∗ nh n Nh X U h L ∑ Ejercicio: Justificar por qué es razonable esta solución N h ∗X U h h1 5.- Determinación de n fijados B y K : h w h nnh , NNh −1 ≃1 Supongamos m.a.s. en los L estratoṡ : 4 L st : n 2 ∑ Wwhh ∗2h h1 L B2 K2 2 ∑ ∗2h WNhh h1 L Si Afijación Proporcional: w h W h 2 ∑ Nwhh ∗2h st : n h1 B2 K2 ∑ ∗2h N h wh Si Mínima Varianza: ; L h1 L ∑ P st : n N h ∗h L ∑N h ∗h h1 W2 h wh Nh N h −1 P h 1−P h h1 l B2 K2 ∑P h 1−P h WNh Nh N h −1 h1 Ejercicio: Una empresa de publicidad desea determinar cuánto debe emplear en publicidad televisiva en un municipio, para lo que decide realizar una encuesta por muestreo para estimar el número medio de horas semanales que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos, A y B, y un área rural. El pueblo A circunda una fábrica y los hogares son de trabajadores con niños en edad escolar. El B es un suburbio de una ciudad vecina con muchos jubilados y pocos niños. El A tiene 155 hogares, el B tiene 62 y el área rural 93. Una encuesta previa sugiere que las varianzas de los estratos son ∗2 ∗2 ∗2 1 ≈ 25, 2 ≈ 225, 3 ≈ 100. Estimar la media poblacional seleccionando el tamaño de muestra en cada estrato para cometer un error de estimación inferior a 2 horas con una confianza del 95% y unas fracciones de tamaños muestrales w i 13 ; i 1, 2, 3. Si ademas se sabe que el coste por observación en cada pueblo es de 9 euros y en el área rural de 16 euros, encontrar los tamaños de muestra que permitan estimar a la empresa, con un coste mínimo, el tiempo medio que se ve la televisión. 6.- Comparaciones en la precisión de los estimadores. i) Consideremos muestreo aleatorio con reemplazamiento en cada estrato: L 2 Afijación Proporcional Var stcon ∑ Whn h Var con 2 n h1 L Afijación Proporcional ∑ W h 2h n h1 L ∑ W h y h −y 2 n . h1 ii) Consideremos m.a.s. en cada estrato: L Afijación Proporcional 1−f Var st ∑ W h ∗2 h n h1 ∗2 Var 1 − f n Afijación Proporcional Var st 1−f nN−1 L ∑ N h y h −y h1 2 − L 1 N ∑ N h1 Conclusiones: a) Si las medias de los estratos son iguales o casi iguales, puede ocurrir que el diseño estratificado con afijación proporcional de resultados menos precisos que m.a.s. ¿Qué pasa si y h y ∀h?. b) La afijación de mínima varianza siempre proporciona un estimador más preciso que la afijación proporcional; si h ∀h, coinciden los errores de muestreo. 5 7.- Ejercicios. 7.1 El servicio cultural de la Junta de Castilla y León desea conocer qué servicio prestan las bibliotecas existentes en la Comunidad y la utilización que de ellas hacen los ciudadanos. Por ello, de las N217 bibliotecas existentes (N 1 131 públicas y N 2 86 privadas) se elige en cada estrato, cada semana y de forma aleatoria, a una de ellas y se anota el número de libros prestados en dicha semana. Se observa que al final del año se prestaron un total de 11.360 libros en las 52 bibliotecas públicas seleccionadas y 14.413 libros en las respectivas bibliotecas privadas. Las respectivas variabilidades muestrales fueron, en las bibliotecas 2 públicas, s 2 1 1.415,2 y en las privadas s 2 12.978,5 a) ¿Es el muestreo en cada estrato con o sin reposición?. b) Determinar el número promedio estimado de libros que presta una biblioteca Castellano-Leonesa en una semana. Hallar un intervalo de confianza del 95%. ( ). c) La Junta desea también conocer cuál es la proporción de bibliotecas que prestan en promedio más de 300 libros por semana. En las públicas, sólo 8 de las 52 bibliotecas prestaron en la semana observada más de 300 libros, mientras que 29 bibliotecas privadas sobrepasaron esta cifra. Dar una estimación del porcentaje de bibliotecas que en promedio prestan más de 300 libros por semana y hallar la varianza estimada correspondiente. Solución: a) El muestreo debe ser con reposición. 2 11360 86 14413 217 241. 7; b) st ∑ W h y h 131 217 52 52 h1 2 Var st ∑ W 2h nh S ∗2 h 49. 12 h1 Intervalo de confianza del 95% 241. 7 1. 96 49. 12 . 2 P st ∑ W h P h c) 131 8 217 52 86 24 217 52 0. 314; h1 2 VarP st ∑ W 2h n h −1 Ph 1 −P h 0. 0017. h1 Intervalo de confianza del 95% 0. 314 1. 96 0017 . 7.2 Una escuela desea estimar la calificación promedio que puede ser obtenida en un examen de comprensión de lectura por estudiantes de 6º de E.G.B. Los alumnos de la escuela son agrupados en 3 estratos, los que aprenden rápido en el estrato I, los que aprenden lento en el estrato III y el resto en el estrato II. La escuela decide esta estratificación porque de esta manera se reduce la variabilidad en las calificaciones del examen. El 6º curso de E.G.B. contiene 55 alumnos en el estrato I, 80 en el estrato II y 65 en el estrato III. El examen se aplica a la muestra de 50 alumnos utilizando afijación proporcional, y se obtienen los siguientes resultados: Estrato I Estrato II Estrato III yi : 79.71 64.75 37.44 s ∗2 105.14 158.2 186.13 i : a) Estimar la calificación promedio para este curso. b) ¿Habría sido conveniente utilizar afijación de mínima varianza?. c) Encontrar el tamaño de muestra requerido para estimar la calificación promedio, con un límite de 3.92 puntos para el error de estimación (con una confianza del 95%). Usar 6 asignación proporcional. d) Repetir el apartado c) usando ahora la asignación de mínima varianza. Comparar los resultados con los del apartado c). Solución: n 1 13. 75 14 Ni Afijación proporcional n i 50 ∗ N n 2 20 20 n 3 16. 25 16 3 3 h1 3 h1 a) Estimadores: st ∑ W h h ; Var st ∑ W 2h 1−f h nh S ∗2 h / Wh Nh N Estimaciones: st ∑ W h y h 59. 98; Var st 2. 28; B 1. 96 ∗ 2. 28 2. 96 h1 Intervalo de confianza del 95% 59. 98 2. 96 b) Para resolver esta cuestión lo que se debería hacer es un contraste de homogeneidad de las varianzas entre estratos. Si no la respuesta se basa en la comparación visual de s ∗2 i :105.14, 158.2, 186.13. c) Afijación proporcional w h nnh NNh W h / h 1, 2, 3; L L 2 ∑ Wwhh ∗2h Como el parámetro de interés es n h1 L B2 K2 ∑ W2 h ∗2 h N h ∑Wh ∗2h L B2 K2 h1 n 1 33 ∗ 55 200 estimación h1 ∑ W2 h ∗2 h N h 32. 05 33 h1 9 n 2 13 n 3 11 d) Afijación de mínima varianza implica estimar w h nh n ∑ parámetro de interés es w 2 0. 41 N h ∗h L ∑ el L h1 Como w 1 0. 23 N h ∗h n W2 h wh w 3 0. 36 ∗2 h h1 L B2 K2 2 ∑ ∗2h WNhh 31. 7 32 h1 n 1 33 ∗ w 1 7 n 2 13 ∗ w 2 13 n 3 11 ∗ w 3 12 7.3 Una empresa de publicidad desea determinar cuánto debe emplear en publicidad televisiva en un municipio, para lo que decide realizar una encuesta para estimar el número medio de horas semanales que se ve la televisión en los hogares del municipio. Éste comprende dos pueblos, A y B, y un área rural. El pueblo A circunda una fábrica y los hogares son de trabajadores con niños en edad escolar. El B es un suburbio de una ciudad vecina con muchos jubilados y pocos niños. El A tiene 155 hogares, B 62 y el área rural 93. Una encuesta previa sugiere que las varianzas de los estratos son ∗2 ∗2 ∗2 1 ≈ 25, 2 ≈ 225, 3 ≈ 100. Estimar la media poblacional seleccionando el tamaño de muestra en cada estrato para cometer un error de estimación inferior a 2 horas con una confianza del 95% y unas fracciones de tamaños muestrales w i 13 ; i 1, 2, 3. 7 Solución: L 2 ∑ Nwhh ∗2h Fórmula general n h1 L 3; w i 13 N 3 93 n ; L B2 K2 ∑ En este caso ∗2 h Nh h1 ; ∗2 ∗2 ∗2 N 1 155, 1 ≈ 25, 2 ≈ 225, 3 ≈ 100, i1,2,3 6991.275 56. 7, es decir n57n i n ∗ w i 19; i 1, 2, 3 123.225 . N 2 62, 8.- Programas. Obtención del tamaño de muestra fijado un error de estimación B y una confianza k: Programa estranp.m: Permite obtener el tamaño de muestra n fijado el error de estimación, por ejemplo B 0. 05 y la confianza, por ejemplo k 1. 96. El diseño considerado es muestreo estratificado con L estratos y m.a.s. en cada estrato. Se supone que la afijación es proporcional. El objetivo es estimar una proporción poblacional P. function [n, nh]estranp(B,k,Ni) Lmax(size(Ni)) Ni2Ni-1 Ni3Ni./Ni2 Nsum(Ni) WiNi/N aux1Wi.*Ni3*0.25 n0.25*sum(aux1)/((B^2/k^2)0.25*(sum(aux1)/N)) nhn*Wi Resolución con MATLAB del ejercico 7.1: Programa estra71.m: %Datos: %Tamaños de los estratos [Bibliotecas Públicas, Privadas] Ni[131 86] %Tamaños de muestra [Bibliotecas Públicas, Privadas] ni[52 52] %Total de libros prestados [Bibliotecas Públicas, Privadas] ti[11360 14413] %Cuasiarianzas muestrales si2[1415.2 12978.5] %Solucion apartado b) %Número medio de libros prestado por semana muiti./ni %Pesos relativos de los estratos Nsum(Ni) WiNi/N %Estimación de la media muestsum(Wi.*mui) %Estimación del error de muestreo Wi2Wi.^2 varmusum((Wi2.*si2)./ni) 8 errormusqrt(varmu) %Intervalo de confianza del 95% icmu[muest-1.96*errormu, muest1.96*errormu] %Solucion apartado c) %Numero de semanas que prestan mas de 300 libros [Bibliotecas Públicas, Privadas] Ai[8 29] PiAi./ni %Estimación de la proporcion Pestsum(Wi.*Pi) %Estimacion del error de muestreo sp2Pi.*(1-Pi) varpsum((Wi2.*sp2)./(ni-1)) errorpsqrt(varp) %Intervalo de confianza del 95% icp[Pest-1.96*errorp, Pest1.96*errorp] 9