Tema: Muestreo por etapas. 1.- Introducción: En el tema dedicado a muestreo por conglomerados, la forma de actuar consistía en investigar (encuestar) a todos los individuos de los clusters o conglomerados seleccionados: Se hizo notar que aunque el muestreo por conglomerados es económico también es, habitualmente, menos eficiente que muestrear el mismo número de individuos directamente de la población. Conclusión, para mejorar el muestreo por conglomerados, se ganará en precisión si, fijado un número de unidades que conformen la muestra: i) Las unidades están localizadas sobre un gran número de conglomerados. ii) En lugar de tomar todos los individuos del conglomerado, tomar sólo una muestra. A esta forma de proceder se la denomina actuar por submuestreo y conduce a la siguiente definición; Definición: El muestreo consistente en tomar en una primera etapa conglomerados (unidades primarias, psu) y a continuación tomar un número específico de unidades de cada conglomerado seleccionado (unidades secundarias, ssu), se denomomina muestreo bietápico o en dos etapas. Conceptos propios de este diseño: i) Conglomerado último, introducido por Hansen, Hurwitz y Madow (1953), corresponde al conjunto de individuos de la muestra que pertenecen a una misma unidad primaria. Este concepto permite obtener un posible estimador de la varianza del estimador del parámero de interés considerando el muestreo Multietápico o Polietápico como un caso especial de muestreo por conglomerados con una sola etapa. Bietápico: Unidades primarias y secundarias ii) Muestreo Multietápico o Polietápico: Unidades primarias, secundarias, ......... Ejemplo Multietápico: ”Producción de un cierto cereal”; Unidades Primarias: Provincias; Unidades secundarias: Pueblos; Unidades terciarias: Campos de los pueblos dedicados al cultivo de ese cereal; Unidades de cuarto orden: Pequeñas parcelas del mismo tamaño dentro de esos campos. Evolución Histórica; Los pioneros en esta técnica de muestreo fueron Cochran (1939), Mahalanobis (1940) y Lahiri (1954). Notación: (Caso bietápico) psu: Unidades primarias ssu: Unidades secundarias; N I : Número de unidades primarias (psu) que conforman la población; n I : Número de unidades primarias (psu) seleccionadas en la muestra; N i : Número de unidades secundarias (ssu) de la i-ésima psu. (Alternativa polietápica N IIi ) n i : Número de unidades secundarias (ssu) de la i-ésima psu tomadas en la muestra. (Alternativa polietápica n IIi ); NI N ∑ N i : Número total de unidades secundarias (ssu) en la población; (Alternativa i1 polietápica N II ); M 1 N NI : Número medio de ssu por psu; y ij : Valor de la variable de interés medida en la j-ésima ssu de la i-ésima psu y ij i1,...,N I j1,...,N i Ni i ∑ y ij : Total de la variable de interés en la i-ésima psu. j1 NI NI Ni i1 i1 j1 ∑ i ∑∑ y ij : Total de la variable de interés en la población. Ni ∑y ij i j1 1 N ni Ni NI i Ni : Media de la variable de interés en la i-ésima psu. ∑ N i i : Media poblacional de la variable de interés. i1 y i ∑ y ij : Total muestral de la i-ésima psu. j1 nI y ∑ y i : Total muestral. i1 y y i nii : Media muestral de la i-ésima psu. Ii y Iij : probabilidades de inclusión de las unidades psu con diseño p I ; Δ Iij Iij − Ii Ij . k/i y kl/i : probabilidades de inclusión de las unidades ssu con diseño p i Δ kl/i kl/i − k/i l/i Conclusión: La población U 1, . . . , N es particionada en subpoblaciones, unidades psu, NI U 1 , . . . , U N I , U U i ; Cada conglomerado U i está compuesto por N i unidades ssu / NI i1 N ∑ N i ; Por tanto, la población de psu se denomina U I 1, . . . , N I . i1 2.- Caso Bietápico General. Situación: 1ª Etapa: Se toma una muestra s I de psu de acuerdo a un diseño p I ; s I n I 2ª Etapa: Para cada i ∈ s I se toma una muestra de s i elementos utilizando un diseño p i /s I ; s i n i La muestra final de individuos está compuesta por s s i ; s n. i∈s I Observaciones: i) La formulación del diseño permite utilizar cualquier diseño en la 1ª etapa y cualquier diseño de submuestreo en la 2ª etapa ∀i ∈ s I . ii) El submuestreo en cada U i i∈s I podría depender de la muestra s I obtenida en la primera etapa. iii) El submuestreo en U i no es necesariamente independiente del submuestreo en U j i ≠ j. Los apartados ii) y iii) van a conducir a la necesidad de exigir de ahora en adelante dos propiedades en nuestro diseño, invarianza e independencia. Conceptos: i) Invarianza: p i /s I p i ∀s I y ∀i ∈ s I Siempre que la i-ésima psu se incluya en s I se debe usar el mismo diseño p i . Ejemplo: Prerequerir que siempre que se incluya la i-ésima psu en s I , se tome una m.a.s. de 2 n i unidades de U i sin atender que otras psu conforman s I . ii) Independencia: s i /s I pi ⊓ p i s i /s I ; i∈s I s i ∩ U 1 . . . s i . . . U N I ; s j ∅ si j ∉ s I , es i∈s I i∈s I i∈U I decir, submuestrear en una psu dada es independiente de submuestrear en otra cualquiera psu. 2.1 Caso General: Muestreo bietápico sin reemplazamiento El problema que se plantea es obtener, ante las múltiples posibilidades de opción de diseño en las distintas etapas, las probabilidades de inclusión; k Ii k/i si k ∈ U i Ii k/i si k l ∈ U i kl Ii kl/i si k y l ∈ U i Iij k/i l/j si k ∈ U i y l ∈ U j i ≠ j -Estimador y Varianza: (Särndal) Con cada una de las muestras s i , i 1, . . . , n I , se estima i para cada i-ésima PSU seleccionada en primera etapa (unidad primaria) con el -estimador insesgado: y yk ∨ i ∑ s i k/ik ∑ s i ∨y k/i ; i 1, . . . , n I y k/i k/i , V i Var i ∑ ∑ U i Δ kl/i V i Var i ∑ ∑ si Δ kl/i kl/i ∨ Δ kl/i kl/i − k/i l /i kl/i ∨ ∨ y k/i y l/i , ∨ ∨ ∨ Δ kl/i y k/i y l/i i 1, . . . , n I estimador insesgado de Var i / para i 1, . . . , n I El -estimador insesgado de ∑ i será: UI ∑ i Ii ; 1 sI V 2 Var V psu V ssu ∑ ∑ U I Δ Iij V 2 Var V psu V ssu ∑ ∑ s I i j Ii Ij ∨ i j Δ Iij Ii Ij ∑ UI Vi Ii − ∑ sI 1 Ii 1 − 1 Ii V i ∑ s I Vi 2Ii ∑ ∑ s I Δ∨Iij iIi jIj ∑ s I VIii permite estudiar la contribución a la variación en cada etapa; Existe una expresión computacional alternativa de la estimación de la variación que es ∗2 V ∑ ∑ sI ∨ i j Δ Iij Ii Ij que comete un sesgo − ∑ U I V i , es decir, subestima la varianza de . Esta subestimación en muchos casos es poco importante. 2.2 Caso: Muestreo Aleatorio Simple en las dos etapas: i) Estimador del total con tamaño poblacional conocido: Supongamos N conocido, que las unidades de la primera etapa son de tamaño desigual y las unidades se seleccionan usando probabilidades iguales y m.a.s. en ambas etapas; m.a.s.en la 1ª y 2ª etapa nI k Ii k/i Nn ii NI Utilizando la definición básica de -estimador: y 1 ∑ ∑ kk Nn II ∑ ∑ y k Nn ii Nn II ∑ N i y i i∈s I k∈s i 3 i∈s I k∈s i sI Utilizando el estimador 1 : 1 ∑ i Ii sI i ∑ Teniendo en cuenta que: ∑ yk k/i si ∑ N i y i NI nI ni Ni si ∑ nI NI Ii yk ∑ NI nI sI yk ni Ni si NI nI ∑∑ sI si que observamos que coincide con el obtenido a partir de la sI experesión básica del -estimador del total. Con respecto al estimador de la media poblacional: 1 Var 1 1−f I nI S ∗2 1b nI ∑ 1 NI nI i1 1 N S ∗2 1b N 2i N NI 2 1−f i ni sI nI ∑ 1 n I −1 S ∗2 i ; S ∗2 i ∑ y i N i 1 NI N nI − 1 N i y i N NI i1 ni 2 ∑ y ij −y i 1 n i −1 2 j1 ii) Supongamos N desconocido: Para estimar el total no se precisa conocer N 2 1 ∑ N i y i NI nI sI Para estimar la media poblacional se precisa estimar previamente N : ∑ N i Nº total de individuos en la muestra s I i∈s I ∑N i Nº medio de individuos por conglomerado en la muestra s I . i∈s I nI NI ∑N i i∈s I estimador del nº total de individuos en la poblaciónN nI Por tanto 2 2 N NI nI ∑ sI NI N i y i ∑N i i∈s I nI ∑ N i y i . 1 ∑N i i∈s I i∈s I Sesgo de 2 : NI S ∗2 m 1−f I nI 1 N NI 2 1 N I −1 ∑ Ni − N NI 2 N NI 2 i1 NI ∗ S ∗2 m − S my ; S ∗my 1 N I −1 ∑ Ni − N i y i − NNI i1 Estimador sesgado de la varianza (ECM): AVar 2 1−f I nI S ∗2 2b nI 1 N NI 2 nI S ∗2 2b 1 n I −1 ∑ N 2i 1−fn S ∗2 i ; i1 ni i nI NI i S ∗2 i i1 ∑ 1 n i −1 N 2i 2 N NI y i − 2 ∑ y ij −y i 2 j1 ∑ Ni Se observa que también es preciso estimar N NI 1 NI NI i∈s I nI ∑N i∈s I nI i . iii) Conglomerados últimos: Se entiende por conglomerado último las unidades muestrales de última etapa que pertenecen a una misma unidad primaria (psu); La teoría del tema de conglomerados resuelve el problema de estimación. 4 2 Suponiendo n i ≃ n j ∀ i ≠ j, i, j ∈ s I , el diseño pasa a consistir en tomar una m.a. de n I conglomerados de los N I (Utilizando las fórmulas vistas para, conglomerados del mismo tamaño n i ) ∑ i 3 ∑y ij Para : Dado que i y i ; ó P. i∈s I nI ni 3 j1 ni ∑ y i 1 nI i∈s I Si n I se toma sin reposición: 1−f Var 3 n I I 1 n I −1 ∑ y i − 3 2 i∈s I Si n I se toma con reposición: Var 3 1 NI nI ∑ 1−f i ni S ∗2 i i∈s I ∑ i − 3 2 i∈s I n I n I −1 Notas: a) Siempre que n I sea grande y Corr N i y i , N i 0, el 2 es más eficiente que 3 . b) Para utilizar 3 tampoco se precisa conocer N. iv) Obtención del tamaño de muestra n I fijados B y k : 2 1−f 1−f 1 B2 Var 3 n I I y − N 1n I ∑ n i i S ∗2 ∑ i k2 i 1 n I −1 I i∈s I Habitualmente se tendrá que suponer f I ≃ 0 y f i ≃ 0; Con la V ∗2 ∑ muestra 1 ni piloto se i∈s I V ∗1 estimarán 1 n I −1 ∑ y i − 1 2 y i∈s I S ∗2 i ; i∈s I 1 nI Ecuación: V ∗1 1 NI nI V ∗2 B2 k2 V ∗1 1 nI 1 NI V ∗2 B2 k2 nI V ∗1 N1 V ∗2 I B2 k2 2.3 Caso: Diseños con pesos. Se caracterizan por disponer de una información auxiliar medida por una v. X en cada psu x i i∈U I . i) Muestreo pps con reemplazamiento en 1ª etapa y ma.s. en 2ª etapa: Se dispone de la información de una v. auxiliar, x 1 , . . . , x N I para las unidades psu; p i x ix , ∀i ∈ U I . 1ª Etapa: Se toma una m.a. pps de n I unidades primarias con reemplazamiento; cong 1 nI ∑ k pk sI 2ª Etapa: Se estiman k k∈s I tomando en cada conglomerado una m.a.s. de n k unidades de las N k ; nk k ∑ j1 Por tanto 1pm insesgado de . 5 1 nI ∑ k∈s I 1 pk nk ∑ j1 y kj nk Nk y kj nk Nk 1 nI ∑ k∈s I Nk pk y k estimador lineal 2 ∑ Var 1pm N k y k pk − pm k∈s I 1 nI n I −1 ii) Conglomerados últimos: En general, si en 1ª etapa tomamos una m.a. pps de n I unidades primarias con reemplazamiento y si i es un estimador insesgado del parámetro i en el conglomerado último de la i-ésima unidad psu, se puede utilizar: k 1 2pm n I ∑ p k ; estimador insesgado de , A k∈s I k pk ∑ 2 2 − n I 2pm k∈s I Var 2pm n1I n I −1 Nota: Si una unidad psu se selecciona más de una vez, se submuestreará, de manera independiente, tantas veces como salga. 3.- Muestreo Polietápico. 3.1 Muestreo sin reemplazamiento: Supongamos r etapas con r≥ 2, los estimadores propuestos serán: mp ∑ k Ik k∈s I Var mp ∑ ∑ U I Δ Iij i j Ii Ij ∑ UI Vi Ii donde el primer término representa la contribución a la varianza en la primera etapa y el segundo combina la contribución a la varianza en las siguientes etapas del muestreo. Var mp V psu V ssu ∑ ∑ s I ∨ i j Δ Iij Ii Ij ∑ sI Vi Ii ∗ Una simplificación de la estimación de la varianza será V ∑ ∑ s I menudo conducirá a una importante subestimación. ∗∗ Otra alternativa será (1) V 1 1 n I n I −1 ∑ sI i p Ii − mp ∨ i j Δ Iij Ii Ij que, a 2 donde p Ik se determina considerando Ik n I p Ik ; Este estimador puede sub o sobre estimar dependiendo del ∗∗ sobreestima la selección de n I conglomerados sin diseño muestral. V reemplazamiento es más eficiente para estimar el total que tomar n I con reemplazamiento. 3.2 Muestreo Trietápico: Notación: i. Los N elementos de U se particionan en N I unidades psu, U 1 , . . . , U N I representados por U I Sea N i el tamaño de U i , N ∑ U I N i ii. Los N i elementos de U i i 1, . . . , N I se particionan en N IIi unidades secundarias (ssu) U i1 ,U i2 , . . . , U iN IIi El conjunto de N IIi unidades secundarias que particionan U i se representa simbólicamente por U IIi 1, . . . , q, . . . , N IIi Considerando N iq el tamaño de U iq N i ∑ U IIi N iq iii. Las unidades muestrales terciarias son los elementos de la población. Procedimiento: Etapa 1: Se toma una muestra s I de psu con un diseño p I . 6 Etapa 2: Para cada i ∈ s I se toma una muestra de s IIi unidades de entre U IIi según un diseño p IIi Etapa 3: Para q ∈ s IIi se toma una muestra de entre U iq según un diseño p iq. Por tanto s s iq i∈s I q∈s IIi Probabilidades de inclusión: (Notación) Iij ; Δ Iij Iij − Ii Ij ; Iii Ii Ii ; IIq/i ; IIqr/i ; Δ IIqr/i IIqr/i − IIq/i IIr/i ; IIqq/i IIq/i k/iq kl/iq ; Δ kl/iq kl/iq − k/iq l/iq ; kk/iq k/iq ∨ ∨ Δ IIqr/i ∨ Δ kl/iq Δ Δ Iij IijIij ; Δ IIqr/i IIqr/i ; Δ kl/iq kl/iq iq ∑ U iq y k ; i ∑ U IIi iq ; ∑ U I i Estimaciones: yk iq ∑ s iq k/iq iq IIq/i i ∑ s IIi i Ii ∑ sI V 3st V PSU V SSU V TSU V 3st ∑ ∑ s I Δ Iij ∨ ∨ V i ∑ ∑ s IIi Δ IIqr/i ∨ i j Ii Ij iq ir IIq/i IIr/i V iq ∑ ∑ s iq Δ kl/iq ∑ sI ∑ s IIi Vi Ii donde: V iq IIq/i yk yl k/iq l/iq 3.3 Conglomerados últimos: i) Si en 1ª etapa tomamos una muestra pps de n I unidades primarias con reemplazamiento y si i es un estimador insesgado del parámetro i en el conglomerado último de la i-ésima unidad psu: 2pm 1 nI ∑ k pk ; estimador insesgado de k∈s I ∑ Var 2pm k pk 2 2 − n I 2pm k∈s I 1 nI n I −1 Nota: Si una unidad psu se selecciona más de una vez, se submuestreará, de manera independiente, tantas veces como salga. ii) Si en 1ª etapa tomamos una m.a.s de n I unidades primarias y si i es el estimador insesgado del parámetro i de la i-ésima unidad psu, entonces c ∑ k Ik k∈s I ∑ ∗∗ V Var c N 2I ∑ k k − sI nI k∈s I 1 nI 2 n I −1 (1) sobrestima ó ∗ V 1− nI NI ∗∗ V subestima Nota: Se puede mejorar la eficiencia en diseño polietápico del siguiente modo; 7 Estratificar los conglomerados por alguna medida de tamaño para que los conglomerados de tamaño comparable se agrupen juntos. Utilizar m.a.s. en las dos etapas en cada uno de los estratos. Obtención del tamaño de muestra n I fijado B y k : ∑ Var c N 2I k − k ∑ s I 2 nI k∈s I 1 nI B2 k2 n I −1 ∑ k − k ∑ s I 2 nI k∈s I Con la muestra piloto se estimará y se despeja n I n I −1 4.- Estimadores de Regresión en Muestreo Bietápico. Las posibilidades de diseño son amplísimas en función de: i) La clase y la extensión de la información de la v. auxiliar. ii) El diseño utilizado para tomar las unidades psu y ssu. iii) La forma de la población. Del análisis del punto i) surgen, al menos, las siguientes alternativas: A.- Se dispone de información auxiliar ∀i ∈ U I (todas las psu). B.- Se dispone de información auxiliar x i ∀i ∈ U (todos los individuos de la población). C.- Se dispone de información auxiliar x i tan sólo para los individuos de las psu seleccionadas en 1ª etapa. Ejemplos: Supongamos un experimento a nivel nacional sobre hospitales: Unidades psu: las provincias; Desde un punto de vista administrativo tenemos mucha información de tipo A.-, caract. demográficas, censo, población trabajadora, .... Seleccionar una primera muestra de provincias y listar todos los listados de las provincias; será fácil disponer de información tipo C.- de estos hospitales tomados en la muestra. También resulta factible información tipo B.- conocer datos de todos los hospitales nacionales. Consideremos un experimento en una gran ciudad consitente en evaluar el espacio habitable de los edificios; unidades psu las manzanas y unidades ssu los edificios: Inf. tipo B.-: El ayuntamiento proporcionará información auxiliar de todos los edificos de la ciudad. Inf. tipo A.-: Información del número de habitantes por manzana o área o número de edificios,.... 4.1 Caso A.-: Se dispone de información auxiliar de cada uno de los cluster, C i i1, ..., N I . El objetivo es estimar y ∑ y k estimando los totales de una muestra de psu yi i1, ..., n I . k∈U 4.1.1 8 Si se puede suponer teóricamente que el modelo para los puntos yi , C i i1, ..., N I es yi I C i i con las siguientes propiedades: E yi I C i ; Var yi 2I C i , se utilizará el modelo común de razón, Ar I I ∑ Ci ; yi Ii ∑ i∈s I ∑ ; Ci Ii i∈s I UI yi ∑ yk k/i k∈s i En la práctica esta situación se manifiesta cuando el total del conglomerado es proporcional a la medida auxiliar tomada. Esto sucede habitualmente al tomar como información auxiliar una medida del tamaño del conglomerado, como por ejemplo area del conglomerado, número de lementos en el conglomerado, ... 4.1.2 Supongamos que, teóricamente, el modelo para los puntos yi , C i es i1, ..., N I yi I C i i con las siguientes propiedades: E yi I C i ; Var yi 2Ii . Lo primero será estimar yi en cada conglomerado, yi ∑ yk k/i ; si I ∑ C i yi 2 Ii Ii ∑ C2 i 2 Ii Ii sI sI Tema de estimadores indirectos Ar ∑ yip ∑ ; yip I C i yi − yip Ii sI UI yi , C i 4.1.3 Supongamos que, teóricamente, el modelo para los puntos yi I C i i con las siguientes propiedades: i1, ..., N I es E yi I C i ; Var yi 2Ii . En este caso Ar ∑ yip . UI 4.2 Caso yk, xk B.-: Supongamos que el modelo que describe , x k k∈U , verifica: k∈s EY k X k ; VarY k 2k Br ∑ y k ∑ yk− y k k y k xk ; s U k∈U ∑ , s ∑ s 4.3 Caso yk, xk C.-: Supongamos que , x k k∈U i , verifica: k∈s i∈s I Cr ∑ sI yir Ii el modelo que las observaciones ykxk 2 k k xk 2 k k describe las observaciones EY k X k ; VarY k 2k yir ∑ y k ∑ Ui si yk− y k k/i , ∀i ∈ s I ∑ sI ∑y k Ui Ii ∑ yk− y k k s Nota: Desde un punto de vista experimental existen multitud de posibles variaciones de modelos, algunos de los cuales pueden consultarse en el Tema 8 del texto de Särndal. 9 5.- Ejemplo. Con objeto de estimar la producción total de trigo de una región, se seleccionan 5 de los 110 pueblos que la constituyen. La selección se realiza con diseño pps con reemplazamiento utilizando como información auxiliar el área, en hectáreas, dedicado a la agricultura, v.a. X. El área total dedicado a agricultura es de x 140576 hectáreas. Los pueblos a su vez están divididos en campos y se toma una m.a.s. de aproximadamente el 10% de éstos. Por último de cada campo seleccionado se toma una m.a.s. de aproximadamente el 10% de las parcelas que componen cada uno de estos campos. Atendiendo a la siguiente notación, X i : Area del pueblo dedicado a la agricultura N II : Nº de campos en el pueblo n II : Nº de campos en el pueblo tomados en la muestra N ij : Nº de parcelas en el campo j del pueblo i n ij : Nº de parcelas en el campo j del pueblo i tomados en la muestra. Y k : Area dedicada al trigo en la parcela seleccionada. Los resultados observados fueron los siguientes: Pueblo 1 Xi 1410 2 935 3 601 4 1905 5 904 N II n II 31 18 23 36 22 3 2 2 4 2 N ij n ij Yk 27 3 138, 166, 190 32 3 142, 185, 215 18 2 110, 133 25 3 160, 164, 210 37 4 100, 162, 85, 124 33 4 107, 140, 163, 116 22 2 105, 98 55 6 200, 140, 173, 160, 101, 128 19 2 120, 135 43 4 149, 113, 161, 131 37 3 110, 124, 90 26 3 190, 105, 166 48 5 136, 170, 100, 156, 140 Solución: Estimación del número de parcelas total de los 110 pueblos: N 1 5 N1 p1 . . . Np 55 Opción 1: Puesto que el diseño es trietápico, se resolverá utilizando conglomerados últimos buscando un estimador insegado del parámetro total del área dedicada al trigo en cada pueblo. Parámetros que se precisa estimar: Número de parcelas que tiene cada uno de los pueblos seleccionados: N1 10 273218 3 ∗ 31 ........ Estimación insesgada de la producción total en cada uno de los pueblos: 138166190 3 1 27 142185215 3 32 110133 2 18 3 ∗ 31 ............. Producciónntotal de trigo en los 110 pueblos, estimación puntual y por I.C.: I 1 nI ∑ k pk 1410 904 p 1 140576 ,...,p 5 140576 k1 ∑ Var 1 nI nI 1 5 1 p1 . . . p 55 2 k pk −n I 2 k1 n I −1 Opción 2: Estimación de la producción total en cada uno de los pueblos: 1 138166190142185215110133 8 ∗ N1 ............. Producciónntotal de trigo en los 110 pueblos, estimación puntual y por I.C.: I 1 nI ∑ k pi 1410 904 p 1 140576 ,...,p 5 140576 k1 ∑ Var 1 ni ni 1 5 1 p1 . . . p 55 2 k pi −n i 2 k1 n i −1 Ejercicio: Comprobar con que opción se comete menor error 11