Tema 3. Muestreo Aleatorio Estratificado Contenido 1) Definición, ventajas, como formar los estratos, selección y notación. 2) Estimadores de la media y el total. 3) Varianza. Límites de confianza. 4) Asignación de la muestra (tamaño de la muestra) 5) Muestreo Estratificado para proporciones 6) Tamaño de la muestra para la proporción. 7) Comparación de la precisión. Muestreo I 69 Muestreo Aleatorio Estratificado Definición: El muestreo estratificado consiste en los siguientes pasos: a) La población de N elementos se divide en L subpoblaciones distintas llamadas estratos de tamaños N1, N2, ... , NL L (donde ∑ i=1 N i = N ) b) Dentro de cada estrato se selecciona una muestra aleatoria L simple de tamaño nh (donde ∑ h =1 nh = n ) c) De la muestra de cada estrato se calcula un estimador, que se ponderan para formar un estimador combinado de la población. d) De igual modo, en cada muestra por estrato se calcula la varianza, que se ponderan para obtener una estimación combinada de la dispersión en la población. Muestreo I 70 Muestreo Aleatorio Estratificado Ventajas sobre el muestreo simple 1. Permite considerar los estratos como Dominios de Estudio, obtener estimaciones de los parámetros y precisión conocida por estrato. 2. La Estratificación se utiliza para disminuir las varianzas de la estimación en comparación con el muestreo aleatorio simple. Esto es particularmente cierto si las mediciones dentro de los estratos son homogéneas y heterogéneas entre los estratos. 3. El costo por observación puede reducirse por una conveniente estratificación. 4. Se puede estratificar para utilizar diferentes métodos de observación o medida dentro de ellos. Muestreo I 71 Muestreo Aleatorio Estratificado ¿Cómo formar los estratos? ¿Cómo seleccionar la muestra estratificada? Notación. El subíndice h indica el estrato, h=1,2,...,L El subíndice i denota la unidad dentro del estrato Nh número de elementos en el estrato h de la población nh número de elementos del estrato h en la muestra N tamaño de la población ∑ N h = N n tamaño de la muestra ∑ n h = n yhi valor obtenido en la i-ésima unidad del h-ésimo estrato. W h=Nh/N peso del estrato h-ésimo fh=nh/Nh fracción de muestreo en el estrato h-ésimo Muestreo I 72 Muestreo Aleatorio Estratificado Estimación de la media. En el muestreo estratificado el estimador usual de Y ∑ = y st L Nh yh N ( ) ∑ V y st = Si nh Nh L donde y h es la media muestral del h-ésimo estrato. = ∑ Wh y h L ( ) ∑ W V yh = 2 h es: y st es insesgada de Y L W S h2 (1 − f h ) nh 2 h ( ) Nh = n n V y st es despreciable y si h N proporcionales, determine Estimación del total ∧ Y st = N y st ⎛∧ ⎞ V ⎜ Y st ⎟ == ⎠ ⎝ ∑ L S h2 N h (N h − n h ) nh Muestreo I 73 Muestreo Aleatorio Estratificado Varianza estimada Bajo el supuesto de selección aleatoria independiente en los estratos una estimación insesgada de V (y st ) es: ∧ ( ) V y st 1 = N2 ∑ L s h2 N h (N h − n h ) = nh ∑ L s h2 Wh − nh ∑ L s h2 Wh N El último término representa la reducción debida al f.c.p.f. es la varianza estimada (insesgada) 2 1 n h 2 en el estrato h-ésimo sh = yhi − yh Esta estimación requiere al menos nh −1 dos observaciones por estrato. ∑( ) Límites de confianza ( ) Media y st m tα s y st Total Ny st ( ) m tα Ns y st t α es la abscisa en la normal(0,1) Muestreo I 74 Asignación de la muestra. Se denomina asignación o afijación de la muestra al reparto del tamaño de la muestra, n, entre los L estratos (esto es la determinación de los valores n 1, n 2, ..., n L). • El objetivo de la asignación es incrementar la precisión de los estimadores y minimizar costos. • En la asignación debe tomarse en cuenta los siguientes factores: a) Tamaño de los estratos (Nh ) b) Dispersión dentro de los estratos (s h ) c) Costos por observación en cada estrato. 2 Tipos de asignación: 1. Asignación optima 2. Asignación de Neyman 3. Asignación proporcional Muestreo I 75 Asignación optima. En el muestreo estratificado con una función de costos lineal (C = Co + ∑C h n h ) la varianza de la media estimada y st es un mínimo para un costo especifíco . Y el costo es un mínimo para una varianza especifíca V (y st ) cuando nh es proprocional a W h sh / C h Minimizando V (y st ) sujeto a la restrimción C − C o = usando multiplicadores de Lagrange se obtiene: ⎛ nh = n⎜ ⎜ ⎝ N h sh / ∑ N h sh / ∑C h nh ⎞ ⎛ ⎞ ⎟ = n⎜ W h sh / C h ⎟ ⎜∑W s / C ⎟ C h ⎟⎠ h h h ⎠ ⎝ Ch Luego el tamaño de la muestra en el estrato h será grande si: 1. El tamaño del estrato Nh es grande 2. La dispersión en el estrato, sh , es grande 3. Si el costo en el estrato, ch , es bajo Muestreo I 76 Asignación optima (continuación) Para completar la asignación se requiere conocer el valor de n. La solución depende de que valor se específica: el costo o la varianza. 1. Si se específica el costo n = (C − C o )∑ N h s h / ∑N h sh Ch Ch 2. Si la varianza V (y ) es fija st n = ∑W h s h2 ∑W s / N )∑ W s Ch V + (1 Muestreo I h h h Ch 2 h 77 Asignación de Neyman Si el costo por unidad es el mismo en cada estrato (C h ≡ C ) la función de costos es C = C o + Cn y la asignación optima para un costo fijo se convierte en asignación optima para un n fijo. Este tipo de asignación se conoce como asignación de Neyman. Y V (y st ) se minimiza para un tamaño de muestra n fijo si: nh = n N h sh ∑ N h sh La varianza mínima con n fija se obtiene con el anterior valor de nh en V (y st ) (y ) = (∑ Wn s ) 2 V min h st h − ∑W N h s h2 (el último término es f.c.p.f.) Muestreo I 78 Tamaño de la muestra (sin función de costos) Suponemos que se ha especificado la varianza V, si lo que se especifica es el error e entonces (e/t)2=V, donde t es el desvío correspondiente a la probabilidad (1 − α / 2 ) n = ∑ W h2 s h2 wh 1 V + N ∑W h s 2 h 1 no = V si se ignora f.c.p.f. Si no no es despreciable ∑ W h2 s h2 wh no n= 1+ 1 VN ∑W h s h2 En casos particulares las siguientes formulas pueden ser convenientes para el calculo Muestreo I 79 Asignación optima supuesta (n fijo) w h ∝ W h s h (∑ W s ) 1 + W s ∑ N 2 n= h V h h Tamaño de la muestra para el total Y ⎛∧ Sea ahora V = V ⎜⎝ Y 2 h Asignación proporcional wh = W h = N h / N En general st ⎞ ⎟ ⎠ N h2 s h2 ∑ w h n = V + ∑ N h s h2 Optimo supuesto (n fijo) ( N s ) ∑ n= V +∑ N s 2 no = n= ∑W h V no n 1+ o N s h 2 h h h 2 h Proporcional N no = V Muestreo I ∑ N h s h2 n= no n 1+ o N 80 Muestreo estratificado para proporciones La estratificación ideal al estimar la proporción en un estrato es todas las u i ∈ C y en el otro todas las u j ∉ C . Si no es posible los estratos deben ser tales que ph varie tanto como sea posible de estrato a estrato. Sea Ph = Ah Nh ph = ah nh proporción por estrato La estimación apropiada de P es: p st = ∑N h ph (caso particular de y st ) N La varianza 1 V ( p st ) = N2 ∧ ya que ∑ N h2 ( N h − n h ) Ph Q h Nh −1 nh ( ) V y st 1 = N2 ∑ L s h2 N h (N h − n h ) nh Muestreo I y s h2 = Ph Q h Nh −1 81 Muestreo estratificado para proporciones Si en V ( p st ) : 1. Los términos 1/Nhson despreciables 1 V ( p st ) = N2 ∑ N h ( N h − n h )Ph Q h W h2 Ph Q h (1 − f h ) =∑ nh nh 2. Puede ignorarse el f.c.p.f. V ( p st ) = 3. Asignación proporcional (1 − f ) V ( p st ) = ∑ n ∑ W h2 Ph Q h nh n h = n (N h / N ) (1 − f N h2 Ph Q h =≈ N (N h − 1) n ) ∑W h Ph Q h Estimación de V ( p st ) . Se sustituye p h q h / (n h − 1) por Ph Q h / n h Muestreo I 82 Muestreo estratificado para proporciones La mejor elección de nh - asignación optima para minimizar V ( p st ) se desprende de la teoría ya vista. Varianza mínima para un tamaño de muestra total fijo n h ∝ N h s h N h / ( N h − 1 ) Ph Q h ≅ N h nh ∝ N h por lo que nh ≅ nN ∑ h Nh Ph Q h Ph Q h Ph Q h Varianza mínima para un costo total fijo C = C o + ∑ C h n h nh ≅ nN ∑ h Nh Ph Q h / C h Ph Q h / C h Muestreo I 83 Tamaño de muestras para proporciones Las formulas dadas a continuación son casos particulares de las vistas para datos continuos Sea V la varianza de p deseada Asignación proporcional n o = ∑W h phqh n = V no n 1+ o N Asignación optimo supuesto no = (∑ W phqh h ) 2 no n = 1+ V no N ∑W h phqh Se ha considerado N h / ( N h − 1 ) ≅ 1 En la extensión a porcentaje ph, q h y V se expresan en porcentajes Para el total A las varianzas se multiplican por N 2 Muestreo I 84 Comparación de la precisión en el muestreo estratificado y el simple Si la estratificación está bien diseñada la varianza del estimador es menor que la del aleatorio simple. Cumpliéndose la siguiente relación: V opt ≤ V prop ≤ V mas (probar) donde ignoramos los términos 1/Nh y la asignación optima es para n fijo, es decir, nh ∝ N h sh Ayuda: identifique Vmas , V prop y Vopt Vmas ≥ V prop del desarrollo (N-1)S2 V prop ≥ Vopt de V prop − Vopt ≥ 0 Muestreo I ( ) (de Vmin y st ) 1/N y 1/Nh --> 0 85 Cuándo la estratificación beneficia la precisión? Lo ideal es utilizar como variable de estratificación la variable de la encuesta. 1. La población consta de unidades que varian en tamaño 2. Las principales variables se relacionan con los tamaños 3. Se cuenta con una buena medida de tamaño para establecer los estratos. La información de censos sobre tamaño es buena para estratificar Dos casos donde la estratificación optima mejora la proporcional 2 S 1. La estratificación se hace en función del tamaño de ui y h es mayor en las grandes que en las pequeñas 2. Cuando el costo de muestrear es mayor en unos que en otros. Muestreo I 86