Teoría de Muestreo Yves Tillé Groupe de Statistique, Université de Neuchâtel Espace de l’Europe 4, Case postale 1825, 2002 Neuchâtel , Suisse email : [email protected] 18 de enero de 2005 Índice general 1. Población, diseño muestral, y estimación 1.1. Población finita . . . . . . . . . . . . . . . . . . . . . 1.2. Plan de muestreo . . . . . . . . . . . . . . . . . . . . 1.3. El estimador de Horvitz-Thompson . . . . . . . . . . 1.4. Estimación de N . . . . . . . . . . . . . . . . . . . . 1.5. Mala propiedad del estimador de Horvitz-Thompson 1.6. El problema de los elefantes de Basu (1971) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 5 6 6 6 2. Muestreo simple 2.1. Muestreo simple sin reemplazamiento (o muestro aleatorio 2.2. La varianza del plan simple sin reemplazamiento . . . . . 2.3. Algoritmo de selección-rechazo . . . . . . . . . . . . . . . 2.4. Planes simples con reemplazamiento . . . . . . . . . . . . 2.5. Comparación de los planes simples . . . . . . . . . . . . . simple . . . . . . . . . . . . . . . . m.a.s.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 8 8 8 10 3. Estratificación 3.1. Población y estratos . . . . . . . . . . . . . . . 3.2. Muestra, probabilidad de inclusión , estimación 3.3. Probabilidad de inclusión . . . . . . . . . . . . 3.4. Plan estratificado con afijación proporcional . . 3.5. Plan estratificado óptimo para el total . . . . . 3.6. Nota sobre la optimalidad en estratificación . . 3.7. Optimalidad y coste . . . . . . . . . . . . . . . 3.8. Tamaño de muestra mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 13 14 14 15 16 16 4. Planes con conglomerados, multi-etápicos, y multi-fases 4.1. Planes con conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1. Notación y definición . . . . . . . . . . . . . . . . . . . . . . . 4.1.2. Selección de los conglomerados con probabilidades iguales . . . 4.1.3. El plan sistemático . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Plan bietápico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Población, unidades primarias y secundarias . . . . . . . . . . . 4.2.2. El estimador de Horvitz-Thompson . . . . . . . . . . . . . . . . 4.2.3. Selección de las unidades primarias con probabilidades iguales . 4.2.4. Plan bietápico autoponderado . . . . . . . . . . . . . . . . . . . 4.3. Planes multi-etápicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Muestreo en dos fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 18 20 21 21 21 23 25 26 26 27 5. Muestreo con probabilidades desiguales 5.1. Información auxiliar y probabilidades de inclusión . . . . . . 5.2. Cálculo de las probabilidades de inclusión . . . . . . . . . . . 5.3. Muestreo con probabilidades desiguales con reemplazamiento 5.4. Plan de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Muestreo de entropía máxima con tamaño fijo . . . . . . . . . 5.6. El diseño muestral sistemático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 29 30 31 31 31 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7. El método de escisión . . . . . . . . . . . . . . . 5.7.1. Escisión en dos partes . . . . . . . . . . . 5.7.2. Escisión en M partes . . . . . . . . . . . . 5.7.3. Plan con un soporte mínimo . . . . . . . . 5.7.4. Escisión en planes simples . . . . . . . . 5.7.5. El método del pivote . . . . . . . . . . . . 5.7.6. Método de Brewer . . . . . . . . . . . . . 5.8. Varianza en planes con probabilidades desiguales 6. Muestreo equilibrado 6.1. Introducción . . . . . . . . . . . . . . . . 6.2. Representación por un cubo . . . . . . . 6.3. Muestras equilibradas . . . . . . . . . . 6.4. La martingala equilibrada . . . . . . . . 6.5. Implementación de la fase de vuelo . . . 6.6. Método simple. . . . . . . . . . . . . . . 6.7. Implementación de la fase de aterrizaje 6.8. Varianza en un plan equilibrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 33 33 35 35 36 36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 38 40 40 41 41 41 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 42 42 43 43 45 45 46 47 48 48 48 49 49 50 50 51 52 52 52 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 54 54 55 56 56 56 57 57 58 59 60 62 63 7. Estimación con informaciones auxiliares y planes simples 7.1. Postestratificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1. El problema y la notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2. El estimador postestratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.3. Propiedad del estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Estimación de calibración sobre márgenes . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2. Calibración sobre márgenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3. Estimación de calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. La variable auxiliar es cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2. Notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3. Estimación de diferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.4. Estimación de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.5. Precisión del estimador de razón . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.6. Estimación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.7. Discusión de los tres métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.8. Comparación del estimador de diferencia y del estimador de Horvitz-Thompson 7.3.9. Comparación del estimador de razón y del estimador de Horvitz-Thompson . . 7.3.10. Comparación del estimador de razón y del estimador de diferencia . . . . . . . 7.3.11. Comparación del estimador de regresión con los otros estimadores . . . . . . . 8. Estimación con informaciones auxiliares y planes complejos 8.1. El problema y la notación . . . . . . . . . . . . . . . . . . . . . 8.2. El estimador de regresión . . . . . . . . . . . . . . . . . . . . . 8.2.1. Otra presentación del estimador de regresión . . . . . . 8.2.2. Calibración del estimador de regresión . . . . . . . . . . 8.2.3. Estimación de razón . . . . . . . . . . . . . . . . . . . . 8.2.4. Plan simple y estimación de regresión . . . . . . . . . . 8.3. Estimación de calibración . . . . . . . . . . . . . . . . . . . . . 8.3.1. El método . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.2. Elección de la pseudo-distancia . . . . . . . . . . . . . . 8.3.3. El método lineal . . . . . . . . . . . . . . . . . . . . . . 8.3.4. El método del “raking ratio” . . . . . . . . . . . . . . . . 8.3.5. El método logit . . . . . . . . . . . . . . . . . . . . . . . 8.3.6. El método lineal truncado . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Estimación de la varianza por linealización 9.1. Orden de magnitud en probabilidad . . . . . 9.2. Aproximación de la varianza por linealización 9.2.1. Linealisación de una función de totales 9.3. Estimación de la varianza . . . . . . . . . . . 9.4. Linealización por etapas . . . . . . . . . . . . 9.5. Descomposición en etapas de la linealización . 9.6. Linealización del estimador de regresión . . . 10.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 69 69 71 72 72 73 74 3 Capítulo 1 Población, diseño muestral, y estimación 1.1. Población finita El objetivo es estudiar una población finita U = {1, . . . , N } de tamaño N . La variable de interés y toma el valor yk , k ∈ U. Vamos a estudiar una función de interés de los yk , θ = f (y1 , . . . , yk , . . . , yN ). El total y la media Y = X yk , e Y = k∈U k∈U La varianza σy2 = 1 X yk . N 1 X (yk − Y )2 . N k∈U La cuasivarianza Sy2 = 1 X (yk − Y )2 . N −1 k∈U 1.2. Plan de muestreo Una muestra s es un subconjunto de la población s ⊂ U. Un diseno muestral p(s) es una distribución de probabilidad sobre todas las muestras posibles X p(s) = 1. s⊂U La muestra aleatoria S toma el valor s con la probabilidad P r(S = s) = p(s). Las variables indicadoras son definidas por : ½ 1 Ik = 0 si la unidad k ∈ S si la unidad k ∈ /S 4 La probabilidad de inclusión πk = E(Ik ) = P r(k ∈ S) = X p(s). s3k La probabilidad de inclusión de segundo orden: πk` = E(Ik I` ) = P r(k y ` ∈ S) = X p(s). s3k,` Además ½ ∆k` = Cov(Ik , I` ) πk (1 − πk ) πk` − πk π` si k = ` si k = 6 ` Si el diseño muestral es de tamaño fijo, entonces X πk = n k∈U X πk` = nπk (con )πkk = πk . `∈U 1.3. El estimador de Horvitz-Thompson El estimador de Horvitz-Thompson viene dado por X yk Ybπ = , πk k∈S e 1 X yk Yb π = . N πk k∈S El estimador de Horvitz-Thompson es insesgado, si πk > 0, k ∈ U, à ! ³ ´ X yk b E Yπ = E πk k∈S à ! X yk = E Ik πk k∈U X yk = E (Ik ) πk k∈U X yk = πk πk k∈U X = yk k∈U = Y. La varianza del estimador de Horvitz-Thompson es ³ ´ X y2 X X yk y` k V ar Ŷπ = ∆k` . πk (1 − πk ) + 2 πk πk π` k∈U (1.1) k∈U `∈U `6=k Se puede demostrar que con un tamaño fijo de muestra ¶2 ³ ´ −1 X X µ y y` k V ar Ŷπ = − ∆k` . 2 πk π` k∈U `∈U `6=k 5 (1.2) La varianza puede estimarse por ³ ´ X y2 X X yk y` ∆k` k (1 − πk ) + Vd ar Ŷπ = . 2 πk πk π` πkl (1.3) ¶2 ³ ´ −1 X X µ y y` ∆k` k Vd ar Ŷπ = − . 2 πk π` πk` (1.4) k∈S k∈S `∈S `6=k Si el plan es de tamaño fijo, k∈S `∈S `6=k 1.4. Estimación de N Como N es un total X N= 1, k∈U podemos estimar N por el estimador de Horvitz-Thompson bπ = N X 1 . πk k∈S 1.5. Mala propiedad del estimador de Horvitz-Thompson El estimador de Horvitz-Thompson tiene una mala propiedad, cuando la variable es constante, yk = C bπ 1 X yk 1 X C 1 X 1 N Yb π = = =C =C N πk N πk N πk N k∈S 1.6. k∈S k∈S El problema de los elefantes de Basu (1971) The circus owner is planning to ship his 50 adult elephants and so he needs a rough estimate of the total weight of the elephants. As weighing an elephant is a cumbersome process, the owner wants to estimate the total weight by weighing just one elephant. Which elephant should he weigh ? So the owner looks back on his records and discovers a list of the elephants’ weights taken 3 years ago. He finds that 3 years ago Sambo the middle-sized elephant was the average (in weight) elephant in his herd. He checks with the elephant trainer who reassures him (the owner) that Sambo may still be considered to be the average elephant in the herd. Therefore, the owner plans to weigh Sambo and take 50 y (where y is the present weight of Sambo) as an estimate of the total weight Y = Y1 + Y2 + . . . + Y50 of the 50 elephants. But the circus statistician is horrified when he learns of the owner’s purposive samplings plan. “How can you get an unbiased estimate of Y this way ?” protests the statistician. So, together they work out a compromise sampling plan. With the help of a table of random numbers they devise a plan that allots a selection probability of 99/100 to Sambo and equal selection probabilities 1/4900 to each of the other 49 elephants. Naturally, Sambo is selected and the owner is happy. “How are you going to estimate Y?”, asks the statistician. “Why ? The estimate ought to be 50y of course,” says the owner. Oh! No! That cannot possibly be right,” says the statistician, “I recently read an article in the Annals of Mathematical Statistics where it is proved that the Horvitz-Thompson estimator is the unique hyperadmissible estimator in the class of all generalized polynomial unbiased estimators.” “What is the Horvitz-Thompson estimate in this case?” asks the owner, duly impressed. “Since the selection probability for Sambo in our plan was 99/100,” says the statistician, “the proper estimate of Y is 100y/99 and not 50y.” “And, how would you have estimated Y,” inquires the incredulous owner, “if our sampling plan made us select, say, the big elephant Jumbo?” “According what I understand of the Horvitz-Thompson estimation method,” says the unhappy statistician, “the proper estimate of Y would then have been 4900y, where y is Jumbo’s weight.” That is how the statistician lost his circus job (and perhaps became teacher of statistics!). 6 Capítulo 2 Muestreo simple 2.1. Muestreo simple sin reemplazamiento (o muestro aleatorio simple m.a.s.) Definición 1 Un diseño muestral es aleatorio simple si todas las muestras de mismo tamaño tienen la misma probabilidad de ser seleccionadas. Existe solamente un solo plan simple de tamaño fijo. µ ¶−1 N si #s = n p(s) = n 0 en caso contrario , donde µ πk = X X µ N ¶−1 p(s) = s3k s3k n N n ¶ N! . n!(N − n)! µ ¶ µ ¶−1 N −1 N n = = , para todo k ∈ U. N n−1 n = Probabilidades de inclusión del segundo orden : πk` = X p(s) = s3k,` X µ N ¶−1 µ N − 2 ¶ µ N ¶−1 n(n − 1) = = , n n−2 n N (N − 1) s3k,` para todos k 6= ` ∈ U . Luego tenemos, n(n − 1) n2 n(N − n) πk` − πk π` = − 2 =− 2 N (N − 1) N N (N − 1) ∆k` = ³ ´ π (1 − π ) = n 1 − n = n(N − n) k k N N N2 1 X N 1X 1 X yk = Yb π = yk = yk . N πk N n n k∈S k∈S k∈S X N X yk N X = yk = Ybπ = yk = N Yb π . πk n n k∈S k∈S k∈S 7 si k 6= ` si k = `. (2.1) 2.2. La varianza del plan simple sin reemplazamiento h i V ar Ybπ = µ ¶2 −1 X X yk y` − ∆k` 2 πk π` (2.2) µ ¶2 y` N 1 X X yk N n(N − n) − 2 n n N 2 (N − 1) (2.3) XX N (N − n) 1 2 (yk − y` ) n 2N (N − 1) (2.4) k∈U `∈U `6=k = k∈U `∈U `6=k = k∈U `∈U `6=k = N2 N − n Sy2 . N n (2.5) Teorema 1 En un m.a.s., la cuesivarianza de la población es Sy2 = 1 X (yk − Y )2 , N −1 k∈U y puede estimarse por s2y = 1 X (yk − Yb π )2 n−1 k∈S Demostración ( E(s2y ) = E = E 1 X (yk − Yb π )2 n−1 ) k∈S XX 1 (yk − y` )2 2n(n − 1) k∈S `∈S `6=k = XX 1 (yk − y` )2 E (Ik I` ) 2n(n − 1) k∈U `∈U `6=k = XX 1 n(n − 1) (yk − y` )2 2n(n − 1) N (N − 1) k∈U `∈U `6=k = XX 1 (yk − y` )2 2N (N − 1) k∈U `∈U `6=k = Sy2 . 2 2.3. Algoritmo de selección-rechazo Fan, Muller y Rezucha (1962)y Bebbington (1975) 2.4. Planes simples con reemplazamiento Selección con reemplazamiento de manera independiente Se las unidades de la muestra son ye1 , ..., yei , ..., yem 8 Algorítmo 1 Cuadro 2.1: Método de selección-rechazo ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Definición k, j : entero; u : real; k = 0; j = 0; = variable aleatoria uniforme a[0, 1[; u ¯ ¯ ¯ ¯ seleccionar la unidad k + 1; n−j ¯ ¯ Si u < N − k ¯ j = j + 1; Repetir mientras j < n ¯¯ ¯ sino pasar la unidad k + 1; k = k + 1. Los yei son m variables aleatorias de varianza σy2 = 1 X (yk − Y )2 . N k∈U Se puede estimar Y sin sesgo por m 1 X 1 X yk . Yb CR = yei = m i=1 m e k∈S La varianza de Yb CR es m m σy2 1 X 2 1 X V ar(e yi ) = 2 σy = V ar(Yb CR ) = 2 . m i=1 m i=1 m y puede estimarse por m se2y = 1 X (e yi − Yb CR )2 . m − 1 i=1 La varianza del estimador de la media puede estimarse por se2y Vd ar(Yb CR ) = . m 9 (2.6) 2.5. Comparación de los planes simples Plan simple Cuadro 2.2: Planes simples Sin reemplazamiento Con reemplazamiento Tamaño de la muestra n m Estimador de la media 1X Yb SR = yk n 1 X Yb CR = yk m k∈S ³ Varianza del estimador Esperanza de la varianza Estimador de la varianza ´ e k∈S ³ ´ (N − n) 2 V ar Yb SR = Sy nN ¡ ¢ E s2y = Sy2 σy2 V ar Yb CR = m ¡ 2¢ E sey = σy2 ³ ´ (N − n) s2y Vd ar Yb SR = nN ³ ´ se2 y Vd ar Yb CR = m Ejercicio 1 Seleccione una muestra de tamaño 4 en una población de tamaño 10 según un plan simple sin reemplazamiento con el método de selección-rechazo. Use las realizaciones siguientes de una variable aleatoria uniforme [0, 1] : 0, 375489 0, 624004 0, 517951 0, 0454450 0, 632912 0, 246090 0, 927398 0, 32595 0, 645951 0, 178048. 10 Capítulo 3 Estratificación 3.1. Población y estratos Población U = {1, ..., k, ..., N } dividida en H subconjuntos, Uh , h = 1, .., H, llamados estratos H [ Uh = U y Uh \ Ui = ∅, h 6= i. h=1 Siendo Nh el tamaño del estrato Uh . H X Nh = N. h=1 El objetivo es estimar Y = X H X X yk = k∈U yk = h=1 k∈Uh donde Yh = X H X Yh , h=1 yk . k∈Uh Y = H H 1 X X 1 X 1 X yk = Nh Y h , yk = N N N k∈U h=1 k∈Uh h=1 donde Y h es la media calculada en el estrato h Yh = 1 X yk . Nh k∈Uh 2 Además, σyh representa la varianza del estrato h 2 σyh = ¢2 1 X ¡ yk − Y h Nh k∈Uh y 2 Syh la cuasivarianza 2 Syh = Nh σ2 . Nh − 1 yh La varianza total σy2 se logra por σy2 = H H 1 X 1 X 1 X 2 (yk − Y )2 = Nh σyh + Nh (Y h − Y )2 . N N N k∈U h=1 h=1 Esta igualdad es la descomposición clásica de la varianza, que se escribe 2 2 σy2 = σy(intra) + σy(inter) 11 (3.1) 2 donde σy(intra) es la varianza intra-estratos H 1 X 2 = Nh σyh N 2 σy(intra) h=1 y 2 σy(inter) es la varianza inter-estratos 2 σy(inter) = H 1 X Nh (Y h − Y )2 . N h=1 3.2. Muestra, probabilidad de inclusión , estimación Un diseño muestral es estratificado si, - en cada estrato, se selecciona una muestra simple aleatoria de tamaño fijo nh - la selección de una muestra en un estrato es independiente de selección de las muestras de los otros estratos. Sh representa la muestra aleatoria seleccionada en el estrato h con el plan ph (.), donde ph (sh ) = P r(Sh = sh ). La muestra aleatoria total es H [ S= Sh . h=1 Además, de manera general s representa un valor posible de S donde H [ s= sh . h=1 Figura 3.1: Plan estratificado U1 Uh U s s s1 H h H El diseño muestral global es p(.) donde p(s) = P r(S = s). Por la independencia de las selecciones en cada estrato, tenemos p(s) = H Y ph (sh ), s = h=1 H [ h=1 nh representa el tamaño de la muestra en el estrato h, tenemos H X nh = n, h=1 donde n es el tamaño de la muestra. 12 sh . 3.3. Probabilidad de inclusión Si la unidad k está en el estrato h, nh , k ∈ Uh . Nh πk = Para calcular las probabilidades de inclusión de segundo orden, tenemos que separar dos casos : En el caso donde las unidades k y ` están en el mismo estrato πk` = nh (nh − 1) , k y ` ∈ Uh . Nh (Nh − 1) Si dos individuos k y ` están en dos estratos distintos, πk` = Se logra ∆k` nh ni , k ∈ Uh y ` ∈ Ui . Nh Ni n N −n h h h Nh Nh nh (Nh − nh ) = − 2 Nh (Nh − 1) 0 El π-estimador si ` = k, k ∈ Uh si k y ` ∈ Uh , k 6= ` (3.2) si k ∈ Uh y ` ∈ Ui , h 6= i. H H X yk X X Nh X = yk = Ybh , πk nh Ybestrat = k∈S h=1 k∈Sh h=1 y H H 1 X yk 1 X 1 X Nh X Yb strat = yk = = Nh Yb h . N πk N nh N k∈S k∈Sh h=1 h=1 donde Ybh es el estimador del total del estrato h Nh X yk . Ybh = nh k∈Sh e Yb h es la media de la muestra en el estrato h 1 X Yb h = yk . nh k∈Sh Como la selecciones son independientes entre los estratos y que los planes son simples en los estratos : ÃH ! H H ³ ´ ³ ´ X X X N h − nh 2 V ar Ybstrat = V ar Syh . (3.3) Ybh = V ar Ybh = Nh nh h=1 h=1 h=1 La varianza de este estimador puede estimarse sin sesgo por H ³ ´ X Nh − nh 2 Vd ar Ybstrat = Nh syh , nh h=1 donde s2yh = X 1 (yk − Yb h )2 , h = 1, ..., H. nh − 1 k∈Sh 13 (3.4) 3.4. Plan estratificado con afijación proporcional Un plan estratificado tiene una afijación proporcional, si nh n = , h = 1, ..., N. Nh N Suponemos que nh = nNh /N son enteros. El estimador del total es Ybprop = H X h=1 N X Ybh = yk , n k∈S y el estimador de la media H 1 X 1X Nh Yb h = yk , Yb prop = N n h=1 k∈S donde Yb h es la media de la muestra en el estrato h e Ybh es el estimador del total en el estrato h 1 X Yb h = yk . nh k∈Sh La varianza del estimador del total se simplifica H N −n X 2 V ar(Ybprop ) = Nh Syh , n (3.5) h=1 y la varianza del estimador de la media viene dada por : H N −n X 2 Nh Syh . V ar(Yb prop ) = nN 2 (3.6) H 2 N − n σy(intra) N −n X 2 = V ar(Yb prop ) ≈ N σ . h yh nN 2 N n (3.7) h=1 2 2 Si N es grande, Syh ≈ σyh . h=1 Comparación del plan estratificado con el muestro aleatorio simple. N − n σy2 V ar(Yb srs ) ≈ . N n (3.8) La varianza del estimador de la media puede estimarse por : H N −n X Vd ar(Yb prop ) = Nh s2yh , nN 2 (3.9) h=1 donde s2yh = X 1 (yk − Yb h )2 , h = 1, ..., H. nh − 1 k∈Sh 3.5. Plan estratificado óptimo para el total Neyman (1934) Se busca la afijación para los tamaños en la muestra n1 , ..., nh , ..., nH que maximiza la varianza del estimador de Horvitz-Thompson para un tamaño de muestreo fijo. Tenemos que minimizar H X Nh − nh 2 Syh , (3.10) V ar(Ybstrat ) = Nh nh h=1 14 en n1 , ..., nh , ..., nH sujeta a que H X nh = n. (3.11) h=1 Podemos escribir la ecuación de Lagrange H X L(n1 , ..., nH , λ) = h=1 ÃH ! X Nh − nh 2 nh − n . Nh Syh + λ nh h=1 Anulamos las derivadas parciales respecto a los nh e a λ, se logra N2 2 ∂L = − 2h Syh + λ = 0, h = 1, ..., H, ∂nh nh (3.12) y H ∂L X = nh − n = 0. ∂λ (3.13) Nh nh = √ Syh , h = 1, ..., H. λ (3.14) h=1 Luego y H X PH h=1 Obtenemos √ y finalmente PH λ= Nh Syh √ . λ h=1 nh = n = Nh Syh . n h=1 nNh Syh , h = 1, ..., H. nh = P H h=1 Nh Syh (3.15) (3.16) Nota Hay un problema de redondeo, Se puede obtener nh > Nh . 3.6. Nota sobre la optimalidad en estratificación Sea una población dividida en dos estratos H = 2 donde queremos estimar la diferencia D = Y 1 − Y 2 . El estimador b = Yb 1 − Yb 2 . D Como las selecciones de las muestras son independientes entre los estratos ³ ´ ³ ´ ³ ´ N2 − n2 2 2 b = V ar Yb 1 + V ar Yb 2 = N1 − n1 Sy1 + S . V ar D n1 N1 n2 N2 y2 Se minimiza (3.17) sujeta a que n1 + n2 = n y se logra Syh nh = √ , h = 1, 2, λ donde λ es el multiplicador de Lagrange. Como n1 + n2 = n, se logra nh = nSyh , h = 1, 2. Sy1 + Sy2 15 (3.17) 3.7. Optimalidad y coste El problema es estimar un total Y para un coste fijado C. Minimizamos la expresión (3.10) sujeta a que H X nh Ch = C, h=1 donde Ch es el coste de la entrevista en el estrato h. Obtenemos N S nh = √h yh , h = 1, ..., H, λCh H X nh Ch = C, h=1 donde λ es el multiplicador de Lagrange, y nh = √ 3.8. CNh Syh √ . PH Ch `=1 N` Sy` C` Tamaño de muestra mínimo Otra manera de abordar el problema es buscar la afijación que da el tamaño de muestra mínimo para una varianza fijada. Sea ah = nh /n, h = 1, ..., H, entonces H X ah = 1. h=1 De (3.10), V ar(Ybstrat ) = H X Nh h=1 Nh − nah 2 Syh . nah (3.18) Buscamos entonces un valor mínimo de (3.18) en a1 , ..., aH , para un valor fijado V ar(Ybstrat ) representado por V . Sustituyendo (3.18) en V ar(Ybstrat ) por V , se logra V = H H 1 X Nh2 2 X Sh − Nh Sh2 , n ah h=1 lo que se puede escribir PH n= Entonces minimizamos V + V + H X 2 Nh 2 h=1 ah Sh . PH 2 h=1 Nh Sh PH n= en a1 , ..., aH , sujeta a que h=1 (3.19) 2 Nh 2 h=1 ah Sh . PH 2 h=1 Nh Sh (3.20) ah = 1, h=1 y después de algunos cálculos, tenemos Nh Syh ah = PH . `=1 N` Sy` 16 (3.21) Se logra el mismo tipo de afijación . Finalmente se puede fijar el tamaño de la muestra ³P n∗ = H h=1 V + Nh Syh PH h=1 ´2 2 Nh Syh . Ejercicio 2 Queremos estimar medias para las empresas de un departamento. Las empresas son clasificadas según el volumen de negocios y son clasificadas en tres clases. Los datos de un censo son los siguientes : Volumen de negocios de 0 a 1 de 1 a 10 de 10 a 100 Número de empresas 1000 100 10 Se quiere seleccionar una muestra de 111 empresas. Si se supone que la distribución es uniforme en cada estrato, calcule la varianza del estimador de la media del volumen de negocios para un plan con representación proporcional y para un plan estratificado óptimo. 17 Capítulo 4 Planes con conglomerados, multi-etápicos, y multi-fases 4.1. 4.1.1. Planes con conglomerados Notación y definición La población U = {1, ..., k, ..., N } se divide en M subconjuntos, Ui , i = 1, .., M, llamados conglomerados M [ Ui = U y Ui ∩ Uj = ∅, i 6= j. i=1 El número Ni de unidades del conglomerado i se llama el tamaño del conglomerado : M X Ni = N, i=1 donde N es el tamaño de la población U . El total puede escribirse X Y = yk = M X X yk = i=1 k∈Ui k∈U M X Yi i=1 y la media Y = M M 1 XX 1 X 1 X yk = yk = Ni Y i , N N i=1 N i=1 k∈U k∈Ui e Yi es el total del conglomerado i e Y i la media del conglomerado i : X Yi = yk , i = 1, ..., M, k∈Ui Yi = 1 X yk , i = 1, ..., M. Ni k∈Ui Además, 2 σyi representa la varianza del conglomerado i 2 σyi = ¢2 1 X¡ yk − Y i Ni k∈Ui 2 y Syi la varianza corregida 2 Syi = Ni σ2 . Ni − 1 yi Un plan es por conglomerados si 18 se selecciona una muestra de conglomerados sI con un plan pI (sI ), SI representa la muestra aleatoria tal que P r(SI = sI ) = pI (sI ) y m = #SI , el número de conglomerados seleccionados. Todas las unidades de los conglomerados seleccionados son observadas : Figura 4.1: Plan con conglomerados U1 U2 U i-1 Ui U3 U 4 U 5 Ui+1 UM-2 UM-1 UM La muestra aleatoria completa viene dada por S= [ Ui . i∈SI El tamaño de S es n= X Ni . i∈SI El tamaño de la muestra es generalmente aleatorio. La probabilidad de seleccionar un conglomerado es X πIi = pI (sI ), i = 1, ..., M, sI 3i La probabilidad de seleccionar dos conglomerados distintos es X pI (sI ), i = 1, ..., M, j = 1, ..., M, i 6= j. πIij = sI 3i,j Si la unidad k está en el conglomerado i, tenemos πk = πIi , k ∈ Ui . Para las probabilidades de inclusión del segundo orden hay que separar dos casos : Si k y ` están en el mismo conglomerado i, πk` = πIi , k y ` ∈ Ui . Si k y ` no están en el mismo conglomerado respectivamente i y j, πk` = πIij , k ∈ Ui y ` ∈ Uj , i 6= j. Las condiciones de Sen-Yates-Grundy no se verifican. En efecto, si k y ` ∈ Ui , entonces 2 πk π` − πk` = πIi − πIi = −πIi (1 − πIi ). El estimador de Horvitz-Thompson del total y de la media son Ybπ = X Yi , πIi i∈SI 19 y 1 X Ni Y i Yb π = . N πIi i∈SI La varianza V ar(Ybπ ) = M M X M X X Yi2 Yi Yj (1 − πIi ) + (πIij − πIi πIj ). π π π i=1 Ii i=1 j=1 Ii Ij (4.1) j6=i Si el número de conglomerados es fijo, M M 1XX V ar(Ybπ ) = 2 i=1 j=1 µ Yj Yi − πIi πIj ¶2 (πIi πIj − πIij ). (4.2) j6=i Estimación de la varianza Vd ar(Ybπ )1 = X Y2 X X Yi Yj πIij − πIi πIj i (1 − πIi ) + . 2 πIi πIi πIj πIij i∈SI (4.3) i∈SI j∈SI j6=i Cuando el número de conglomerados seleccionados es fijo, se puede construir otro estimador de esta varianza mediante (4.2) µ ¶2 Yi 1 X X Yj πIi πIj − πIij Vd ar(Ybπ )2 = − . 2 πIi πIj πIij i∈SI j∈SI j6=i Una aproximación practica (pero sesgada) es ´2 X cIi ³ c∗ , Y − Y i i 2 πIi Vd ar(Ybπ )3 = i∈SI donde P ∗ Yc i = πIi j∈S cIj Yj /πIj P j∈S cIj , y donde m . m−1 En los planes por conglomerados, el estimador de Horvitz-Thompson tiene una mala propiedad. Si la variable es constante (yk = C, para todos k ∈ U ), se logra cIi = (1 − πIi ) 1 X Ni Yb π = C . N πIi i∈SI En este caso, es preferible usar el razón de Hájek : à Yb R = X Ni πIi !−1 à i∈SI 4.1.2. X Yi πIi ! . i∈SI Selección de los conglomerados con probabilidades iguales Un plan clásico es seleccionar los conglomerados por un m.a.s. de tamaño m. πIi = y πIij = m , i = 1, ..., M, M m(m − 1) , i = 1, ..., M. M (M − 1) 20 (4.4) El tamaño de la muestra es aleatorio. Su esperanza es à ! X X m Nm E (nS ) = E Ni = Ni = , M M i∈SI i∈UI lo que permite construir el estimador de Horvitz-Thompson del total : M X Yb = Yi m i∈SI y de la media M X Yb π = Ni Y i . Nm i∈SI La varianza es V ar(Yb ) = ¶2 M µ M −mM X Y Yi − , M − 1 m i=1 M (4.5) y puede estimarse sin sesgo por M −mM X Vd ar(Yb ) = m−1 m i∈SI 4.1.3. à Yb Yi − M !2 . (4.6) El plan sistemático El plan sistemático puede verse como un plan con conglomerados donde se selecciona un solo conglomerado. 4.2. Plan bietápico 4.2.1. Población, unidades primarias y secundarias Sea la población U = {1, ..., k, ..., N } compuesta de M subpoblaciones, Ui , i = 1, ..., M, llamadas unidades primarias. Cada unidad Ui se compone de Ni unidades secundarias , tenemos M X Ni = N, i=1 donde N es el tamaño de la población U . De manera general, un plan bietápico se define de la manera siguiente : Una muestra de unidades primarias es seleccionada con un plan pI (sI ). SI representa la muestra aleatoria tal que P r(SI = sI ) = pI (sI ) y m = #SI ; Si una unidad primaria Ui se selecciona en la primera etapa Ui , se selecciona una muestra si de unidades secundarias con el plan pi (si ). Si representa la muestra aleatoria de unidades primarias seleccionadas de manera que P r(Si = si ) = pi (si ) y ni = #Si . Los planes bietápicos tienen que tener las dos propiedades de invarianza y de independencia. La invarianza significa que los planes pi (si ) de la segunda etapa no dependen de lo que pasó en la primera etapa, entonces P r(Si = si ) = P r(Si = si |SI ). La independencia significa que las selecciones de la segunda etapa son independientes las unas de las otras (como en estratificación). La muestra aleatoria viene dada por S= [ Si . i∈SI Para la variable y, el total se escribe Y = X k∈U yk = M X X i=1 k∈Ui 21 yk = M X i=1 Yi , Figura 4.2: Plan bietápico U1 U2 Ui-1 Ui U3 U 4 U 5 Ui+1 UM-2 U U M-1 M donde Yi es el total calculado en la unidad primaria i X Yi = yk , i = 1, ..., M. k∈Ui Del mismo modo, la media calculada en la población se escribe Y = M M 1 X 1 XX 1 X Ni Y i , yk = yk = N N i=1 N i=1 k∈U k∈Ui donde Y i es la media calculada en la unidad primaria i 1 X yk , i = 1, ..., M. Yi = Ni k∈Ui 2 σyi es la varianza en Ui 2 σyi = ¢2 1 X¡ yk − Y i , Ni k∈Ui 2 la varianza corregida y Syi 2 Syi = Ni σ2 . Ni − 1 yi La muestra aleatoria total està formada par : S= [ Si . i∈SI El tamaño de S es n= X ni . i∈SI El tamaño de S es generalmente aleatorio. Podemos definir - πIi : La probabilidad de seleccionar la unidad primaria Ui . - πIij , La probabilidad de inclusión del segundo orden para dos unidades primarias Ui y Uj . Estas probabilidades vienen del plan pI (sI ). Al final, tenemos ½ πIij − πIi πIj si i 6= j ∆Iij = πIi (1 − πIi ) si j = i. - πk|i , la probabilidad de seleccionar la unidad k dado que i ha sido seleccionada - πk`|i la probabilidad de seleccionar conjuntamente k y ` dado que i ha sido seleccionada. ½ πk`|i − πk|i π`|i si k 6= ` ∆k`|i = , i = 1, ..., M. πk|i (1 − πk|i ) si k = ` La probabilidad de inclusión de la unidad es πk = πIi πk|i , k ∈ Ui . Para las probabilidades de inclusión del segundo orden, hay que separar dos casos : 22 (4.7) (4.8) Si dos unidades k y ` están en la misma unidad primaria Ui , πk` = πIi πk`|i . Si dos unidades k y ` están en dos unidades primarias distintas , Ui y Uj , πk` = πIij πk|i π`|j . 4.2.2. El estimador de Horvitz-Thompson El estimador de Horvitz-Thompson del total es Ybπ = X X i∈SI k∈Si X Ybi yk = , πIi πk|i πIi i∈SI donde Ybi es el estimador de Horvitz-Thompson de Yi X yk Ybi = , πk|i k∈Si y el estimador de Horvitz-Thompson de la media por 1 X X yk Yb π = . N πIi πk|i i∈SI k∈Si Teorema 2 En un plan bietápico V ar(Ybπ ) = VU P + VU S , donde VU P es la parte que se refiere a las unidades primarias VU P = M X M X Yi Yj ∆Iij , π π i=1 j=1 Ii Ij VU S es la parte que se refiere a las unidades secundarias VU S = M X V ar(Ybi ) i=1 y X X V ar(Ybi ) = k∈Ui `∈Ui πIi , yk y` ∆k`|i , i = 1, ..., M. πk|i π`|i Demostración La varianza se divide en dos partes : h i h i h i V ar Ybπ = V arE Ybπ |SI + EV ar Ybπ |SI . La varianza de la esperanza condicional es h i V arE Ybπ |SI = V arE " X i∈SI ¯ # ¯ ¯ b Y i ¯ SI . ¯ Por la propiedad de invarianza ¯ # " X ¯¯ X h ¯¯ i X h i X Yi . E Ybi ¯ SI = E Ybi ¯ SI = E Ybi = ¯ πIi i∈SI Luego i∈SI i∈SI i∈SI # " M X M h i X X Yi Yi Yj = ∆Iij . V arE Ybπ |SI = V ar πIi π π i=1 j=1 Ii Ij i∈SI 23 (4.9) La esperanza de la varianza condicional es h i EV ar Ybπ |SI = EV ar " ¯ # X Ybi ¯¯ ¯ SI . πIi ¯ i∈SI Por las propiedades de invarianza y de independencia " V ar h i ¯ # ¯ # " ¯ V ar Ybi X Ybi ¯¯ X X b Yi ¯ V ar . ¯ SI = ¯ SI = 2 πIi ¯ πIi ¯ πIi i∈SI Luego, i∈SI i∈SI h i h i bi M V ar Y i h X V ar Ybi X = , EV ar Ybπ |SI = E 2 πIi πIi i=1 i∈SI h i donde V ar Ybi es dado en (4.9). 2 Teorema 3 En un plan bietápico Vd ar1 (Ybπ ) = V̂U P + V̂U S es un estimador insesgado de V ar(Ybπ ), donde V̂U P es la parte de la varianza que se refiere a las unidades primarias X X Ybi Ybj ∆Iij V̂U P = , πIi πIj πIij i∈SI j∈SI (con πIii = πIi ,) V̂U S es la parte de la varianza que se refiere a las unidades secundarias V̂U S = X Vd ar(Ybi ) , πIi i∈SI y Vd ar(Ybi ) = X X k∈Si `∈Si yk y` ∆k`|i , πk|i π`|i πk`|i con πkk|i = πk|i . Demostración Como h i ½ V ar(Ybi ) + Yi2 E Ybi Ybj |SI = Yi Yj si i = j si i = 6 j, ¯ X X Ybi Ybj ∆Iij ¯¯ ¯ SI EE πIi πIj πIij ¯¯ i∈SI j∈SI X X Yi Yj ∆Iij X V ar(Ybi ) E + (1 − πIij ) 2 πIi πIj πIij πIi E[V̂U P ] = = i∈SI j∈SI = M X M X i=1 j=1 i∈SI M X Yi Yj ∆Iij + V ar(Ybi ) πIi πIj i=1 24 µ 1 πIij ¶ −1 . De otra parte ¯ # X Vd ar(Ybi ) ¯¯ = EE ¯ SI πIi ¯ i∈SI " # X V ar(Ybi ) = E πIi " E[V̂U S ] i∈SI M X = V ar(Ybi ) i=1 M X V ar(Ybi ) = i=1 Entonces tenemos πIi ¶ µ 1 b + . V ar(Yi ) 1 − πIi i=1 M X E[V̂U P ] + E[V̂U S ] = V ar[Ybπ ]. 2 Es importante ver que V̂U P es un estimador sesgado de VU P y que V̂U S es un estimador sesgado de VU S . El estimador V̂U P sobrestima VU P y prácticamente V̂U P es a veces más grande V̂U S . De nuevo, hay un estimador más práctico, pero sesgado ¶2 X ´2 X cIi µ 1 X ck|i ³ bi − Yc c∗ + Vd ar2 (Ybπ ) = Y yk − ybk∗ , (4.10) i 2 2 πIi πIi πk|i i∈SI i∈SI donde c∗ Yc i = πIi P k∈Si b j∈S cIj Yj /πIj P j∈S cIj , m cIi = (1 − πIi ) , m−1 P ck|i yk /πk|i Pi ybk∗ = πk|i k∈S , k∈Si ck|i ck|i = (1 − πk|i ) 4.2.3. ni . ni − 1 Selección de las unidades primarias con probabilidades iguales En las dos etapas se usa un plan simple. Las probabilidades de inclusión para la primera etapa πIi = y πIij = m , i = 1, ..., M M m(m − 1) , i = 1, ..., M, j = 1, ..., M, i 6= j. M (M − 1) Para la segunda etapa ni , La probabilidad de inclusión para todo el diseño muestral πk = mni . M Ni El estimador de Horvitz-Thompson es M X X Ni yk Ybπ = , m ni i∈SI k∈Si y su estimador de varianza se simplifica M − m 2 M X 2 Ni − ni 2 Vd ar(Ybπ ) = M 2 s + s , Ni Mm I m ni Ni i i∈SI 25 donde s2I à 1 X = m−1 Ybπ Ybi − M i∈SI y s2i à X 1 = ni − 1 k∈Si Ybi yk − Ni !2 , !2 . Se puede coger tamaños de muestras de unidades secundarios proporcionales a los tamaños de la población ni = n0 Ni , N Se logra n0 , k ∈ Ui . N Al final, la probabilidad de inclusión para todo el diseño muestral πk|i = πk = n0 mNi . MN Este plan tiene problemas importantes. El tamaño de la muestra nS es aleatorio, y es de media à ! à ! X X X Ni Ni m mn0 Ni E (nS ) = E ni = E n0 = n0 = . N N M N k∈SI 4.2.4. k∈SI k∈UI Plan bietápico autoponderado En la primera etapa, se selecciona las unidades primarias con probabilidades de inclusión proporcionales al tamaño de las unidades primarias Ni πIi = m, N Se supone πIi < 1. En la segunda etapa se selecciona unidades secundarias según un plan aleatorio simple sin reemplazamiento con un tamaño de muestra ni = n0 constante (en cada unidad primaria). n0 . Ni πk|i = La probabilidad de inclusión es πk = πIi πk|i = Ni mn0 mn0 = , k ∈ Ui . N Ni N Las probabilidades de inclusión son constantes para todas las unidades primarias de la población. El plan es de tamaño fijo. El estimador de Horvitz-Thompson del total es : N X Ybπ = yk . n k∈S 4.3. Planes multi-etápicos Suponemos que tenemos M unidades primarias y que el primer diseño muestral consiste en seleccionar m unidades primarias con probabilidades de inclusión πIi para i = 1, ..., M. También SI representa la muestra aleatoria de unidades primarias seleccionadas. Suponemos que en cada unidad primaria, se puede calcular el estimador de Horvitz-Thompson Ybi del total Yi para las m unidades primarias seleccionadas. El estimador de Horvitz-Thompson del total viene dado por Ybπ = X Ybi . πIi k∈SI 26 Usando exactamente el mismo desarrollo que por los planes bietápicos, la varianza del estimador de HorvitzThompson es M X M M X X Yi Yj V ar(Ybi ) ∆Iij , + , V ar(Ybπ ) = π π πIi i=1 j=1 Ii Ij i=1 y puede estimarse sin sesgo por Vd ar1 (Ybπ )2 = X X Ybi Ybj ∆Iij X Vd ar(Ybi ) + πIi πIj πIij πIi i∈SI j∈SI o por Vd ar2 (Ybπ )2 = i∈SI ¶2 X d b X cIi µ V ar(Yi ) bi − Yc c∗ + Y , i 2 πIi πIi i∈SI donde i∈SI P ∗ Yc i = πIi j∈S cIj Yj /πIj P j∈S cIj y donde cIi = (1 − πIi ) , m . m−1 Conclusión : la expresión es recursiva El estimador de Horvitz-Thompson y su estimador de varianza se escribe como una función del estimador del total y del estimador de la varianza calculada al nivel inferior. ³ ´ Ybπ = T Ybi , πIi , i ∈ SI , y ³ ´ Vd ar(Ybπ ) = Q Ybi , Vd ar(Ybi ), πIi , i ∈ SI . El estimador Vd ar(Ybi ) puede igualmente escribirse como una función de las etapas inferiores. 4.4. Muestreo en dos fases - En la primera fase, se selecciona una muestra con cualquier plan pI (Sa ) de tamaño n (eventualmente con un plan multi-etápico). - En la segunda fase, se selecciona una muestra Sb según otro diseño muestral en Sa con un plan p(sb |Sa ) = P r(Sb = sb |Sa ). El plan de segundo etapa puede depender de lo que pasó en la primera etapa. Tenemos πak = P r (k ∈ Sa ) , πak` = P r (k y ∈ Sa ) , k 6= `, con πakk = πak , ½ πak` − πak πa` , k 6= ` ∆ak` = πak (1 − πak ), k = ` además πbk = P r (k ∈ Sb |Sa ) , πbk` = P r (k y ∈ Sb |Sa ) , k 6= `, con πbkk = πbk , ½ πbk` − πbk πb` , k 6= ` ∆bk` = πbk (1 − πbk ), k = ` Los πbk , πbk` y ∆bk` son variables aleatorias que dependen de Sa . La probabilidad de inclusión de la unidad k es πk = πak E(πbk ). 27 Pero esta probabilidad no puede ser calculada. Se estima el total por X yk YbE = , πak πbk k∈Sb que no es el estimador de Horvitz-Thompson, en efecto no se divide los yk por las probabilidades de inclusión. Este estimador se llama : estimador por expansión. Es insesgado. En efecto, ¯ ! ! à à ³ ´ X yk X yk ¯¯ . E YbE = EE ¯ Sa = E πak πbk ¯ πak k∈Sb k∈Sb La varianza del estimador por expansión Särndal y Wretman (1987). Teorema 4 ³ V ar YbE ´ X X yk y` = ∆ak` + E πak πa` k∈U `∈U à X X k∈Sa `∈Sa yk y` ∆bk` πak πbk πa` πb` ! , Esta varianza puede estimarse por ³ ´ X X yk y` X X yk y` ∆ak` ∆bk` Vd ara YbE = + . πak πa` πak` πbk` πak πbk πa` πb` πbk` k∈Sb `∈Sb k∈Sb `∈Sb 28 (4.11) Capítulo 5 Muestreo con probabilidades desiguales Brewer y Hanif, 1983, Gabler, 1990 5.1. Información auxiliar y probabilidades de inclusión Variable auxiliar x conocida sobre U . x es aproximadamente proporcional a y. Selección de las unidades con probabilidades de inclusión proporcional a x. Varianza ¶2 ³ ´ 1 X X µy y` k V ar Ŷπ = − (πk π` − πk` ). 2 πk π` (5.1) k∈U `∈U `6=k 5.2. Cálculo de las probabilidades de inclusión Calculamos xk n πk = X , para todo k ∈ U. x` `∈U Algunos de los πk pueden tener πk > 1. Estas unidades son incluidas en la muestra con una probabilidad 1. Se vuelve a empezar el cálculo sobre las unidades que quedan. Al final, tenemos dos grupos : - un primer grupo de unidades con probabilidades de inclusión iguales a 1 - un segundo grupo con probabilidades de inclusión 0 < πk < 1 y proporcional a xk . El problema es seleccionar n unidades con probabilidades de inclusión fijadas con X πk = n. 0 < πk < 1, para todo k ∈ U, tal que (5.2) k∈U Ejemplo 1. Si N = 6, n = 3, x1 = 1, x2 = 9, x3 = 10, x4 = 70, x5 = 90, x6 = 120, tenemos X= X xk = 300, k∈U y entonces 1 nx2 9 nx3 1 nx4 7 nx5 9 nx6 6 nx1 = , = , = , = , = , = > 1. X 100 X 100 X 10 X 10 X 10 X 5 La unidad 6 es seleccionada (con una probabilidad 1). Luego, volvemos a calcular las probabilidades de inclusión X xk = 180, k∈U \{6} 29 y entonces (n − 1)x1 1 (n − 1)x2 1 (n − 1)x3 1 P = ,P = ,P = , x 90 x 10 x 9 `∈U \{6} ` `∈U \{6} ` `∈U \{6} ` (n − 1)x4 7 (n − 1)x5 P = ,P = 1. 9 x `∈U \{6} ` `∈U \{6} x` Las probabilidades de inclusión son π1 = 1 1 1 7 , π2 = , π3 = , π4 = , π5 = 1, π6 = 1. 90 10 9 9 Dos unidades son seleccionadas con una probabilidad 1. El problema es reducido a la selección de una unidad en una subpoblación de tamaño 4. 5.3. Muestreo con probabilidades desiguales con reemplazamiento Hansen y Hurwitz (1943). Sea pk = P xk `∈U x` , k ∈ U, y vk = k X p` , con v0 = 0. `=1 - u es una variable continua, uniforme en [0, 1[ - se selecciona la unidad k tal que vk−1 ≤ u < vk . - esta operación es repetida m veces de manera independiente. ỹi es la iésima unidad seleccionada en la muestra Y es estimado por el estimador de Hansen-Hurwitz m 1 X ỹi YbHH = . m i=1 pi Como · ¸ X ỹi yk E = pk = Y, pi pk k∈U YbHH es un estimador insesgado Y . En efecto, µ ¶ m m ´ 1 X ỹi 1 X b = E YHH = E Y = Y. m i=1 pi m i=1 ³ Varianza : 1 V ar[YbHH ] = m à X y2 k − t2y pk ! k∈U y puede estimarse por ¶2 µ 1 X yk = −Y pk , m pk k∈U m Vd ar[YbHH ] = X 1 m(m − 1) i=1 30 µ ỹi − YbyHH pi ¶2 . (5.3) 5.4. Plan de Poisson Cada unidad de U es seleccionada de manera independiente con una probabilidad de inclusión πk . πk` = πk π` , ∆k` = πk` − πk π` = 0, para todos k 6= `. El diseño muestral viene dado por ( p(s) = Y ) πk × k∈s Y k∈U \s (1 − πk ) , para todos s ⊂ U. (5.4) En un plan de Poisson, ∆k` = 0 cuando k 6= `, la varianza del estimador puede ser calculada simplemente h i X π (1 − π )y 2 k k k V ar Ybπ = , 2 πk (5.5) h i X (1 − πk )y 2 k Vd ar Ybπ = . πk2 (5.6) k∈U y puede estimarse por k∈Se 5.5. Muestreo de entropía máxima con tamaño fijo Buscamos un diseño muestral con la entropía máxima sobre el conjunto de todas las muestras de U de tamaño fijo n. Sn = {s|#s = n}. El problema es maximizar I(p) = − X p(s) log p(s), s∈Sn sujeta a que X p(s) = πk , y X p(s) = 1. (5.7) s∈Sn s3k s∈Sn Existe una solución pero es complicada. p(s) = P exp P λk P k∈s s∈Sn exp k∈s λk Un algoritmo (ver Chen y Dempster, y Deville) permite calcular los πk a partir de los λk . 5.6. El diseño muestral sistemático Madow (1949) Método con tamaño fijo. Tenemos 0 < πk < 1, k ∈ U con X πk = n. k∈U Sea Vk = k X π` , para todos k ∈ U, con Vo = 0. `=1 Una variable uniforme es generada en [0, 1]. - la primera unidad seleccionada k1 es tal que Vk1 −1 ≤ u < Vk1 , 31 (5.8) - la segunda unidad seleccionada es tal que Vk2 −1 ≤ u + 1 < Vk2 y - la jésima unidad seleccionada es tal que Vkj −1 ≤ u + j − 1 < Vkj . Ejemplo 2. N = 6 y n = 3 π1 = 0, 2, π2 = 0, 7, π3 = 0, 8, π4 = 0, 5, π5 = π6 = 0, 4, V1 = 0, 2, V2 = 0, 9, V3 = 1, 7, V4 = 2, 2, V5 = 2, 6, V6 = 3. u = 0, 3658, Las unidades 2, 3 y 5 son seleccionadas. Figura 5.1: Muestreo sistemático 0,9 0.2 0 1.7 2.2 2.6 2 1 u 3 u +2 u +1 El algoritmo puede también ser presentado de la manera siguiente : Primero, se selecciona la unidad k tal que los intervalos [Vk−1 − u, Vk − u[ contienen un número entero. Algoritmo de muestreo sistemático ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ Definición a, b, u real; k entero; u = un número aleatorio uniforme en [0,1]; a = −u; ¯ ¯ b = a; ¯ Repetir para k = 1, .., N ¯¯ a = a + πk ; ¯ si bac 6= bbc seleccionar k. El problema es que la mayoría des las probabilidades de inclusión son La matriz de probabilidades de inclusión viene dada por : − 0 0, 2 0, 2 0 0 0 − 0, 5 0, 2 0, 4 0, 3 0, 2 0, 5 − 0, 3 0, 4 0, 2 0, 2 0, 2 0, 3 − 0 0, 3 0 0, 4 0, 4 0 − 0 0 0, 3 0, 2 0, 3 0 − 5.7. 5.7.1. iguales a cero. El método de escisión Escisión en dos partes (1) La técnica básica es muy simple : cada πk se separa en dos partes πk (1) (2) πk = λπk + (1 − λ)πk ; (1) (2) 0 ≤ πk ≤ 1 y 0 ≤ πk ≤ 1, X (1) X (2) πk = πk = n, k∈U (2) y πk que verifican : (5.9) (5.10) (5.11) k∈U donde λ puede elegirse libremente con 0 < λ < 1. El método consiste en seleccionar n unidades con probabilidades desiguales ( (1) πk , k ∈ U, con una probabilidad λ (2) πk , k ∈ U, con una probabilidad 1 − λ. 32 π1 .. . πk . .. πN © © HH HH λ ©© ©© © ¼© © (1) π1 . .. (1) πk .. . (1) πN 1−λ HH HH H j (2) π1 . .. (2) πk .. . (2) πN Figura 5.2: Escisión en dos partes El problema es reducido a otro problema de muestreo con probabilidades desiguales. Si la escisión es tal (1) (2) que uno o algunos de los πk y de los πk son iguales a 0 o 1, el problema de muestreo será más simple en la próxima etapa porque la escisión es aplicada a una población más pequeña. 5.7.2. Escisión en M partes El método puede ser generalizado a una técnica de escisión en M vectores de probabilidades de inclusión. (j) Primero, construimos los πk y los λj de manera que M X λj = 1, j=1 0 ≤ λj ≤ 1 (j = 1, ..., M ), M X (j) λj πk = πk , j=1 (j) πk 0≤ ≤ 1 (k ∈ U, j = 1, ..., M ), X (j) πk = n (j = 1, ..., M ). k∈U (j) El método consiste en seleccionar uno de los vectores πk con probabilidades λj (j = 1, ..., M ). De nuevo, (j) los πk son tales que el problema de muestreo será más simple en la próxima etapa. 5.7.3. Plan con un soporte mínimo (π(1) , ..., π(k) , ..., π(N ) ) representa el vector de probabilidades de inclusión. Luego, definimos λ (1) π(k) = mı́n{1 − π(N −n) , π(N −n+1) }, ½ 0 si k ≤ N − n = 1 si k > N − n, 33 λ1 © © © ¼© © (1) π1 . .. (1) πk .. . (1) πN π1 .. . πk . .. πN © © HHH © λj H © ... ? (i) π1 . .. (i) πk .. . (i) πN λ HH M HH H j (M ) π1 . .. (M ) ... πk .. . (M ) πN Figura 5.3: Escisión en M partes (2) π(k) π(k) 1−λ = π(k) − λ 1−λ if k ≤ N − n if k > N − n. Ejemplo 1. Suponemos que N = 6, n = 3, π1 = 0,07, π2 = 0,17, π3 = 0,41, π4 = 0,61, π5 = 0,83, π6 = 0,91. En este caso, la solución se encuentra en 4 etapas. El vector de probabilidades de inclusión se separa en dos partes dadaos en las columnas 2 y 3 de la Tabla 1. Con la probabilidad λ = 0,59, la muestra {4, 5, 6} es seleccionada y con probabilidad 1 − λ = 0,41, otro diseño muestral se aplica con probabilidades de inclusión dadas por (0.171, 0.415, 1, 0.049, 0.585, 0.780). En la etapa 2, la escisión se aplica al vector y, en 4 etapas la muestra es seleccionada. El diseño muestral es el siguiente p({4, 5, 6}) = 0, 59; p({3, 5, 6}) = Cuadro 5.1: Plan con soporte mínima πk 0, 07 0, 17 0, 41 0, 61 0, 83 0, 91 Etapa 1 λ = 0, 59 0 0, 171 0 0, 415 0 1 1 0, 049 1 0, 585 1 0, 780 Etapa 2 λ = 0, 585 0 0, 412 0 1 1 1 0 0, 118 1 0 1 0, 471 Etapa 3 λ = 0, 471 0 0, 778 1 1 1 1 0 0, 222 0 0 1 0 Etapa 4 λ = 0, 778 1 0 1 1 1 1 0 1 0 0 0 0 (1 − 0, 59) × 0, 585 = 0, 24; p({2, 3, 6}) = (1 − 0, 59 − 0, 24) × 0, 471 = 0, 08; p({1, 2, 3}) = (1 − 0, 59 − 0, 24 − 0, 08) × 0, 778 = 0, 07; p({2, 3, 4}) = 1 − 0, 59 − 0, 24 − 0, 08 − 0, 7 = 0, 02. El diseño muestral viene dado por p({4, 5, 6}) = 0,59, p({3, 5, 6}) = (1−0,59)×0,585 = 0,24, p({2, 3, 6}) = (1 − 0,59 − 0,24) × 0,471 = 0,08, p({1, 2, 3}) = (1 − 0,59 − 0,24 − 0,08) × 0,778 = 0,07, p({2, 3, 4}) = (1 − 0,59 − 0,24 − 0,08 − 0,7) = 0,02. 34 5.7.4. Escisión en planes simples Este método permite separar el vector de probabilidades de inclusiones en dos partes. Definimos ½ ¾ N N λ = mı́n π(1) , (1 − π(N ) ) , (5.12) n N −n y calculamos, para k ∈ U, (1) π(k) = n πk − λ N n (2) , π(k) = . N 1−λ (2) (2) Si λ = π(1) N/n, entonces π(1) = 0; si λ = (1 − π(N ) )N/(N − n), entonces π(N ) = 1. En la próxima etapa, el problema se reduce en la selección de una muestra de tamaño n − 1 o n en una población de tamaño N − 1. En N − 1 etapas, el problema es reducido. Ejemplo 2 Con los mismos πk que en el ejemplo 1, el resultado del método viene dado en la Tabla 2. El Cuadro 5.2: Descomposición en planes simples πk 0, 07 0, 17 0, 41 0, 61 0, 83 0, 91 Etapa 1 λ = 0, 14 0, 5 0 0, 5 0, 116 0, 5 0, 395 0, 5 0, 628 0, 5 0, 884 0, 5 0, 977 Etapa 2 λ = 0, 058 0 0 0, 600 0, 086 0, 600 0, 383 0, 600 0, 630 0, 600 0, 901 0, 600 1 Etapa 3 λ = 0, 173 0 0 0, 5 0 0, 5 0, 358 0, 5 0, 657 0, 5 0, 985 1 1 Etapa 4 Etapa 5 λ = 0, 045 λ = 0, 688 0 0 0 0 0 0 0 0 0, 667 0, 344 0, 5 0 0, 667 0, 656 0, 5 1 0, 667 1 1 1 1 1 1 1 problema consiste finalmente en seleccionar uno de los 6 planes simples definidos en las columnas de la Tabla 3. λ1 = 0,14, λ2 = (1 − 0,14) × 0,058 = 0,050, λ3 = (1 − 0,14) × (1 − 0,058) × 0,173 = 0,14, λ4 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × 0,045 = 0,03, λ5 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × 0,688 = 0,44, λ6 = (1 − 0,14) × (1 − 0,058) × (1 − 0,173) × (1 − 0,045) × (1 − 0,688) = 0,200. Cuadro 5.3: Escisión en N planes simples k 1 2 3 4 5 6 5.7.5. λ1 = 0, 14 0, 5 0, 5 0, 5 0, 5 0, 5 0, 5 λ2 = 0, 050 0 0, 6 0, 6 0, 6 0, 6 0, 6 λ3 = 0, 14 0 0, 5 0, 5 0, 5 0, 5 1 λ4 = 0, 03 λ5 = 0, 44 0 0 0 0 0, 667 0, 5 0, 667 0, 5 0, 667 1 1 1 El método del pivote Solamente dos probabilidades de inclusión son modificadas : i y j. Si πi + πj > 1, entonces 1 − πj λ= , 2 − πi − πj k ∈ U \{i, j} πk (1) 1 k=i πk = πi + πj − 1 k = j, k ∈ U \{i, j} πk (2) πi + πj − 1 k = i πk = 1 k = j. 35 λ6 = 0, 200 0 0 0 1 1 1 Por otra parte, si πi + πj < 1, entonces λ= (1) πk (2) πk 5.7.6. πi , πi + πj πk πi + πj = 0 πk 0 = πi + πj k ∈ U \{i, j} k=i k = j, k ∈ U \{i, j} k=i k = j. Método de Brewer Brewer y Hanif, 1983, método 8, p. 26. Brewer, 1975. draw by draw procedure λj = Luego, calculamos (j) πk (N )−1 X πz (n − πz ) πj (n − πj ) . 1 − πz 1 − πj z=1 πk (n − 1) = n − πj 1 si k 6= j si k = j. La validez del método se deriva del resultado siguiente : Teorema 5 N X (j) λj πk = πk , j=1 para todo k = 1, . . . , N, 5.8. Varianza en planes con probabilidades desiguales Aproximación de la varianza X bk 2 (yk − yk∗ ) . πk2 V ar(Ybπ ) = k∈U con P bk = b` y` /π` `∈U b` `∈U yk∗ = πk P N πk (1 − πk ) . (N − 1) Estimación de la aproximación de la varianza Vd ar(Ybπ ) = X ck 2 (yk − ŷk∗ ) . πk2 k∈S con P yk∗ = πk ck = `∈S c` y` /π` P `∈S b` nπk (1 − πk ) . (n − 1) 36 Capítulo 6 Muestreo equilibrado 6.1. Introducción Thionet (1953) Royall y Herson (1973) Deville, Grosbras y Roth (1988), Ardilly (1991), Hedayat y Majumdar (1995) Brewer (1999) Definición 2 Un diseño muestral p(s) es equilibrado sobre las variables x1 , ..., xp , si verifica las ecuaciones de equilibrio dadas por b π = X, X (6.1) lo que se puede también escribir X xkj k∈s πk = X xkj , k∈U para toda s ∈ S tal que p(s) > 0, y para todos j = 1, ..., p, o con otras palabras ³ ´ b π = 0. V ar X Ejemplo 3. Un muestreo de tamaño fijo es equilibrado sobre la variable xk = πk , k ∈ U. En efecto, X X X xk 1= πk = n. = πk k∈S k∈S k∈U Ejemplo 4. Un plan estratificado es equilibrado sobre las variables ½ 1 si k ∈ Uh δkh = 0 si k ∈ / Uh . Ejemplo 5. N = 10, n = 7, πk = 7/10, k ∈ U, xk = k, k ∈ U . X X k = k, πk k∈S lo que da que X k∈U k = 55 × 7/10 = 38,5, k∈S ES IMPOSIBLE: Problema de redondeo. 37 6.2. Representación por un cubo Representación geométrica de un diseño muestral. s = (I[1 ∈ s] ... I[k ∈ s] ... I[N ∈ s])0 , donde I[k ∈ s] toma el valor 1 si k ∈ s y 0 sino. Geométricamente, cada vector s es un vértice de un N -cubo. X E(s) = p(s)s = π, s∈S donde π = [πk ] es el vector de probabilidad de inclusión. (111) (011) (010) (110) π (101) (000) (100) Figura 6.1: Muestras posibles en una población de tamaño N = 3 6.3. Muestras equilibradas Método del cubo 1. fase de vuelo, 2. fase de aterrizaje. Las ecuaciones de equilibrio (6.1) pueden también ser escritas X X ak ck = ak πk k∈U (6.2) k∈U ck ∈ {0, 1}, k ∈ U, donde ak = xk /πk , k ∈ U. (6.2) define un subespacio en RN de dimensión N − p. El problema Se elige un vértice del N -cubo (una muestra) que queda en el subespacio Q. Si C representa el N -cubo en RN . Los vértices del N -cubo son las muestras de U , la intersección entre C y Q es no-vacio, porque π es en el interior de C y pertenecen a Q. La intersección entre el N -cubo està un subespacio lineal define un poliedro convexo K que es definido por © ª K = C ∩ Q = [0, 1]N ∩ (π + Ker A) y tiene la dimensión N − p. 38 Ejemplo 6. π1 + π2 + π3 = 2. P xk = πk , k ∈ U y k∈S ck = 2. (111) (011) (010) (110) (101) (000) (100) Figura 6.2: Plan de tamaño fijo Ejemplo 7. 6 × π2 + 4 × π3 = 5. x1 = 0, x2 = 6 × π2 y x3 = 4 × π3 . 6c2 + 4c3 = 5. (111) (011) (010) (110) (101) (000) (100) Figura 6.3: Los vértices de K no son vértices del cubo Ejemplo 8. π1 + 3 × π2 + π3 = 4. 39 (111) (011) (010) (110) (101) (000) (100) Figura 6.4: Algunos vértices de K son vértices del cubo y otros no le son x1 = π1 , x2 = 3 × π2 y x3 = π3 . c1 + 3c2 + c3 = 4. 6.4. La martingala equilibrada Definición 3 Un proceso aleatorio discreto π(t) = [πk (t)], t = 0, 1, ... en RN se llama una martingala equilibrada para un vector de probabilidades de inclusión π y para las variables auxiliares x1 , ..., xp , si 1. π(0) = π, 2. E [π(t)|π(t − 1), ...., π(0)] = π(t − 1), t = 1, 2, ... © ª 3. π(t) ∈ K = [0, 1]N ∩ (π + Ker A) , donde A es una matriz p×N dada por A = (x1 /π1 . . . xk /πk . . . xN /πN ) . 6.5. Implementación de la fase de vuelo Primero, inicializamos por π(0) = π. Luego, En la etapa t = 1, ...., T, 1. Definimos un vector u(t) = [uk (t)] 6= 0 tal que (i) u(t) es en el núcleo (kernel)de la matriz A, (ii) uk (t) = 0 si πk (t) es entero. 2. Calculamos λ∗1 (t) y λ∗2 (t), el valor más grande tal que 0 ≤ π(t) + λ1 (t)u(t) ≤ 1, 0 ≤ π(t) − λ2 (t)u(t) ≤ 1. 3. Elegimos ½ π(t) = π(t − 1) + λ∗1 (t)u(t) π(t − 1) − λ∗2 (t)u(t) donde q1 (t) = λ∗2 (t)/{λ∗1 (t) + λ∗2 (t)} q2 (t) = λ∗1 (t)/{λ∗1 (t) + λ∗2 (t)}. 40 con una probabilidad q1 (t) con una probabilidad q2 (t), 6.6. Método simple. Definimos un vector v(t) = [vk (t)]. − X X vk (t) − a0k a` a0` a` v` (t) k ∈ Ut−1 uk (t) = `∈Ut−1 `∈Ut−1 0 k∈ / Ut−1 , donde Ut = {k ∈ U |0 < πk (t) < 1} y 6.7. ³P `∈Ut−1 a` a0` ´− es una generalización de P `∈Ut−1 a` a0` . Implementación de la fase de aterrizaje Sea T la ultima etapa de la fase 1, y notamos por π∗ = [πk∗ ] = π(T ). Sea también U ∗ = {k ∈ U |0 < πk∗ < 1} , El problema es buscar un plan de muestreo que da una muestra s ⊂ U tal que X X X ak ≈ ak πk∗ = ak πk , k∈s k∈U k∈U lo que es equivalente a buscar un diseño muestral que da una muestra s∗ ⊂ U ∗ tal que X X ak ≈ ak πk∗ , k∈s∗ k∈U ∗ donde s∗ = U ∗ ∩ s. Como q = #U ∗ es inferior o igual a p, Solución Aplicación del algoritmo del símplex sobre el programa lineal, X C(s∗ )p(s∗ ), mı́n p(.) sujeto a que s∗ ⊂U ∗ X p(s∗ ) = 1, s∗ ⊂U X p(s∗ ) = πk , k ∈ U, s∗ 3k 0 ≤ p(s∗ ) ≤ 1, s∗ ⊂ U, donde C(s∗ ) es el coste asociado a la muestra s∗ . Este coste aumenta si las ecuaciones de equilibrio (6.1) no se verifican. 6.8. Varianza en un plan equilibrado ³ ´ ³ ´ bpoiss = V ar Ybbal = V ar E N X Ek2 πk (1 − πk ) , N −p πk2 k∈U donde Ek = yk − x0k B. 41 Capítulo 7 Estimación con informaciones auxiliares y planes simples Un estimador de La clase de los estimadores lineales es de la forma X Ybw = w0 (S) + wk (S)yk , (7.1) k∈S donde los pesos wk (S) pueden depender de la información auxiliar disponible y de los datos observados. 7.1. 7.1.1. Postestratificación El problema y la notación Holt y Smith (1979), Jagers (1986); Jagers, Oden y Trulsson (1985). La variable auxiliar es cualitativa y puede coger H valores distintos. Partición de la población U = {1, ..., k, ..., N } en H subconjuntos, Uh , h = 1, .., H, llamados postestratos, tal que H [ \ Uh = U y Uh Ui = ∅, h 6= i. h=1 El número de elementos del postestrato es Nh . H X Nh = N. h=1 El total en la población puede escribirse : Y = X yk = k∈U H X X yk = h=1 k∈Uh H X Nh Y h , h=1 y la media : Y = H H 1 X 1 X X 1 X yk = yk = Nh Y h , N N N k∈U h=1 k∈Uh h=1 donde Y h representa la media del postestrato h Yh = 1 X yk , h = 1, .., H. Nh k∈Uh Además, 2 σyh representa la varianza del postestrato h 2 σyh = ¢2 1 X ¡ yk − Y h , Nh k∈Uh 42 2 y Syh la varianza corregida Nh σ2 . Nh − 1 yh 2 Syh = La varianza total σy2 se obtiene a partir de la formula clásica de descomposición de varianza. σy2 = H H 1 X 1 X 1 X 2 (yk − Y )2 = Nh σyh + Nh (Y h − Y )2 . N N N k∈U 7.1.2. h=1 (7.2) h=1 El estimador postestratificado Se selecciona en la población una muestra aleatoria S con un muestreo aleatorio simple . Las frecuencias de los postestratos nh son variables aleatorias que tienen una distribución geométrica. Como πk = n/N, k ∈ U, el estimador de Horvitz-Thompson de Y viene dado por H N X N X Ybπ = yk = nh Yb h ; n n k∈S h=1 nh >0 donde Yb h es la media de la muestra en el postestrato h 1 X Yb h = yk . nh k∈Sh El estimador postestratificado se define por : H X Ybpost = Nh Yb h . h=1 nh >0 Es necesario el conocimiento de las frecuencias de la población Nh para calcular este estimador . Los postestratos tienen que ser bastante grandes n Nh ≥ 30, N lo que hace que sea muy improbable tener nh nulos. 7.1.3. Propiedad del estimador E(Ybpost |nh , h = 1, ..., H) = H X Nh E(Yb h |nh , h = 1, ..., H) h=1 nh >0 = H X Nh Y h h=1 nh >0 = Y − H X Nh Y h . (7.3) h=1 nh =0 El sesgo se escribe EE(Ybpost |nh , h = 1, ..., H) = E Y − H X Nh Y h h=1 nh =0 = Y − H X h=1 43 Nh Y h P r[nh = 0]. Como los nh tienen una distribución geométrica, µ ¶µ ¶ Nh N − Nh r n−r µ ¶ P r[nh = r] = , r = 0, ..., n, N n se obtiene P r[nh = 0] = donde N [n] = (N − Nh )[n] , N [n] N! = N × (N − 1) × ... × (N − n + 2) × (N − n + 1), (N − n)! lo que da finalmente E(Ybpost ) = Y − H X Nh Y h h=1 (N − Nh )[n] ≈ Y. N [n] La varianza V ar(Ybpost ) = V arE(Ybpost |nh , h = 1, ..., H) + EV ar(Ybpost |nh , h = 1, ..., H). Por (7.3), V arE(Ybpost |nh , h = 1, ..., H) ≈ 0, y entonces V ar(Ybpost ) ≈ EV ar(Ybpost |nh , h = 1, ..., H). (7.4) Condicionalmente a los nh , el plan es m.a.s. en cada postestrato. La varianza condicional es entonces la misma que para un plan estratificado V ar(Ybpost |nh , h = 1, ..., H) = H X Nh h=1 nh >0 La varianza no-condicional es V ar(Ybpost ) = E H X H X ≈ h=1 Nh − nh 2 Syh . nh Nh h=1 nh >0 N h − nh 2 Syh nh ½ µ ¶ ¾ 1 2 Nh Nh E − 1 Syh . nh Tenemos que calcular la esperanza de n−1 h . Si ²=1− tenemos µ E 1 nh nh N nh =1− , E(nh ) nNh ¶ = 1 E E(nh ) µ 1 1−² ¶ . Cuando n es grande, podemos considerar que ² está cerca de cero y usar un desarrollo en serie. µ ¶ 1 1 E ≈ E(1 + ² + ²2 ). nh E(nh ) Como E(nh ) = n Nh Nh N − Nh N − n y V ar(nh ) = n , N N N N −1 44 (7.5) (7.6) se obtiene µ E 1 nh ( µ ¶ µ ¶2 ) 1 nh N nh N E 1+ 1− + 1− E(nh ) nNh nNh ½ ¾ 2 N N V ar(nh ) 1+0+ Nh n n2 Nh2 N (N − Nh )N N − n + . Nh n Nh2 n2 (N − 1) ¶ ≈ = = (7.7) Usando el resultado (7.7) en la expresión (7.6), H H N −n X (N − n)N 2 X N − Nh 2 2 Syh . V ar(Ybpost ) ≈ Nh Syh + 2 n n (N − 1) N h=1 (7.8) h=1 Esta varianza se compone de dos partes. La primera es igual a la varianza del estimador de Horvitz-Thompson para el plan estratificado con afijación proporcional. V ar(Ybpost ) V ar(Ybprop ) ( )−1 H N −n X 2 = Nh Syh n h=1 ) ( H H (N − n)N 2 X N − Nh 2 N −n X 2 × Nh Syh + 2 Syh n n (N − 1) N h=1 h=1 ÃH !−1 H X Nh X N − Nh N 2 2 = 1+ Syh Syh n(N − 1) N N h=1 = 1 + O(n 7.2. 7.2.1. −1 h=1 ). Estimación de calibración sobre márgenes El problema Sean dos variables auxiliares cualitativas. La primera variable permite dividir la población en H subconjuntos U1. , ..., Uh. , ..., UH. , y la segunda en I subconjuntos U,1 , ..., U.i , ..., U.I . U11 .. . ... U1i .. . ... U1I .. . U1. .. . Uh1 .. . ... Uhi .. . ... UhI .. . Uh. .. . UH1 U,1 . . . UHi . . . U.i . . . UHI . . . U.I UH. U Nhi = #Uhi , h = 1, ..., H, i = 1, ..., I, (desconocidos) Nh. = #Uh. , h = 1, .., H, (conocidos) N.i = #U.i , i = 1, ..., I, (conocidos) Sea una muestra aleatoria simple de tamaño fijo. El objetivo es entonces estimar el total X yk . Y = (7.9) k∈U El estimador lineal es Ybw = X wk (S)yk , k∈S donde los pesos wk (S) dependen de los nhi y de los totales marginales de la población Nh. y Nh. . 45 (7.10) Cuadro 7.1: Frecuencias según dos variables n11 .. . ... n1i .. . ... n1I .. . n1. .. . nh1 .. . ... nhi .. . ... nhI .. . nh. .. . nH1 n,1 . . . nHi . . . n.i . . . nHI . . . n.I nH. n Estimador “calado” sobre los márgenes. Idea de calibración Nh. = X zk , k∈U donde zk es igual a 1 si k ∈ Uh. y 0 sino. bh. Se dice que es de calibración sobre Nh. si El estimador N X bh. = N wk (S)zk = Nh. . k∈S 7.2.2. Calibración sobre márgenes Deming y Stephan (1940) y Stephan (1942). Frielander, (1961), Ireland y Kullback, (1968), Fienberg, (1970), Thionet, (1959 et 1976), Froment y Lenclud, (1976) y Durieux y Payen, (1976). “método iterativo del cociente” Iterative Proportional Fitting Procedure (IPFP). “calibración sobre márgenes” Calibración, tabla de partida a11 .. . ... a1i .. . ... a1I .. . a1. .. . ah1 .. . ... ahi .. . ... ahI .. . ah. .. . aH1 a,1 . . . aHi . . . a.i . . . aHI . . . a.I aH. a.. Buscamos una tabla que està próxima a la tabla de los ahi Con las márgenes bh. , h = 1, ..., H, y b.i , i = 1, ..., I. Inicialización (0) bhi = ahi , h = 1, ..., H, i = 1, ..., I. Luego se repite los dos afijaciones siguientes para j = 1, 2, 3, .... (2j−1) bhi (2j−2) = bhi (2j) (2j−1) bhi = bhi b.i ,h (2j−1) b.i donde (2j−2) bh. bh. ,h (2j−2) bh. = I X = 1, ..., H, i = 1, ..., I, = 1, ..., H, i = 1, ..., I, (2j−2) , h = 1, ..., H, (2j−1) , h = 1, ..., H. bhi i=1 y (2j−1) b.i = H X bhi h=1 46 El algoritmo puede verse como un problema de optimización donde se minimiza la entropía. Se busca la tabla de los bhi que minimiza H X I X bhi log h=1 i=1 bhi , ahi sujeta a que I X bhi = bh. , h = 1, ..., H, (7.11) i=1 y H X bhi = b.i , i = 1, ..., H. (7.12) h=1 Tenemos la ecuación de Lagrange L(bhi , λh , µi ) = H X I X H bhi X bhi log + λh ahi h=1 i=1 h=1 ÃH ! I X X + µi bhi − b.i . i=1 à I X ! bhi − bh. i=1 h=1 Anulando las derivadas de L con respecto a los bhi , tenemos : log bhi + 1 + λh + µi = 0, ahi (7.13) Si αh = exp (−1/2 − λh ) y βi = exp (−1/2 − µi ), de (7.13), podemos escribir bhi = ahi αh βi , h = 1, ..., H, i = 1, ..., I. 7.2.3. Estimación de calibración Estimador de calibración YbC = H X I X bChi Yˆ hi , N h=1 i=1 donde 1 X Yˆ hi = yk nhi k∈Shi T y Shi = Uhi S. El estimador es entonces linear y puede escribirse Yb = X wk (S)yk , k∈S donde wk (S) = bChi N , k ∈ Uhi . nhi Los pesos wk (S) son funciones no-lineales de los nhi y de los márgenes conocidos. 47 (7.14) 7.3. 7.3.1. La variable auxiliar es cuantitativa El problema Supongamos que el total X de la variable auxiliar x es conocido, X X= xk , k∈U donde x1 , ..., xk , ..., xN son los N valores tomados por la variable x sobre las unidades de U . Queremos estimar X Y = yk , k∈U 7.3.2. Notación X = N −1 X y Y = N −1 Y representan las medias de las variables x y y en la población. Las varianzas corregidas son 1 X Sy2 = (yk − Y )2 N −1 k∈U y Sx2 = 1 X (xk − X)2 . N −1 k∈U y 1 X (xk − X)(yk − Y ), N −1 Sxy = k∈U la covarianza entre las dos variables. En un plan simple, los estimadores de Horvitz-Thompson s de los totales son N X yk = N Yb , Ybπ = n k∈S y X b bπ = N X xk = N X, n k∈S donde 1X yk Yb = n k∈S y b = 1 Xx . X k n k∈S Tenemos igualmente s2y = 1 X (yk − Yb )2 , n−1 k∈S s2x = 1 X b 2 (xk − X) n−1 k∈S y sxy = 1 X b b (xk − X)(y k − Y ). n−1 k∈S 48 7.3.3. Estimación de diferencia El estimador de diferencia viene dado por bπ . YbD = Ybπ + X − X Es un estimador linear con : wk (S) = N/n, k ∈ U, y bπ . w0 (S) = X − X El estimador de diferencia verifica : bπ ) = Y + X − X = Y. E(YbD ) = E(Ybπ ) + E(X) − E(X Como este estimador es insesgado, su error cuadrático medio es igual a su varianza V ar(YbD ) bπ ) − 2Cov(X bπ , Ybπ ) = V ar(Ybπ ) + V ar(X ¢ N (N − n) ¡ 2 = Sy + Sx2 − 2Sxy . n Esta varianza puede estimarse sin sesgo por ¢ N (N − n) ¡ 2 sy + s2x − 2sxy . Vd ar(YbD ) = n 7.3.4. Estimación de razón El estimador de razón (en ingles ratio estimator) es definido mediante X Ybπ Ybregr = . bπ X Este estimador es lineal con wk (S) = XN . bπ n X Para calcular el sesgo, tenemos que calcular la esperanza de bπ Ybπ − rX Ybπ −Y =X , YbR − Y = X bπ bπ X X donde r= Si ²= se puede escribir Y . X bπ − X X , X bπ Ybπ − rX . YbR − Y = 1+² Con un desarrollo de YbR − Y , se logra YbR − Y = ≈ ≈ bπ )(1 − ² + ²2 − ²3 + ...) (Ybπ − rX bπ )(1 − ²) (Ybπ − rX à ! bπ − X X bπ ) 1 − (Ybπ − rX . X 49 (7.15) Si se supone que ² es pequeño cuando n es grande, se logra una aproximación del sesgo de este estimador à ! bπ − X X bπ ) 1 − E(YbR − Y ) ≈ E(Ybπ − rX X bπ ) E(Ybπ − rX n o n o bπ − X) − rE X bπ (X bπ − X) E Ybπ (X − X bπ ) − Cov(X bπ , Ybπ ) rV ar(X X N (N − n) rSx2 − Sxy . n X ≈ ≈ ≈ La esperanza del estimador de razón es entonces dada por E(YbR − Y ) + Y ≈ Y + N − n rSx2 − Sxy . n X El sesgo es despreciable cuando n es grande. 7.3.5. Precisión del estimador de razón ECM (YbR ) = E(YbR − Y )2 . En una primera aproximación, por (7.15), ECM (YbR ) ≈ ≈ ≈ ≈ b π )2 E(Ybπ − rX n o2 bπ − X) E (Ybπ − Y ) − r(X bπ ) − 2rCov(X bπ , Ybπ ) V ar(Ybπ ) + r2 V ar(X ¢ N (N − n) ¡ 2 Sy + r2 Sx2 − 2rSxy . n Este error cuadrático medio puede estimarse por ¡ ¢ \ (YbR ) = N (N − n) s2y + r̂2 s2x − 2r̂sxy , ECM n donde r̂ = 7.3.6. Ybπ . bπ X Estimación de regresión El estimador de regresión viene dado por bπ ), Ybregr = Ybπ + b̂(X − X donde sxy , sx2 X b (xk − X)y k. b̂ = sxy = 1 n−1 k∈S El estimador es linear con w0 (S) = 0 y wk (S) = b N 1 bπ ) (xk − X) , k ∈ U. + (X − X n n−1 s2x 50 No es posible calcular exactamente la esperanza matemática y la varianza del estimador de regresión. Pero, bπ ) + (b̂ − b)(X − X bπ ), Ybregr = Ybπ + b(X − X donde b= (7.16) Sxy . Sx2 Si se suprime el último termino de la expresión (7.16), bπ ). Ybregr ≈ Ybπ + b(X − X Tenemos entonces n o bπ ) ≈ Y E(Ybregr ) ≈ E Ybπ + b(X − X y ECM (Ybregr ) ≈ ≈ ≈ n o2 bπ ) − Y E Ybπ + b(X − X ¢ N (N − n) ¡ 2 Sy − 2bSxy + b2 Sx2 n ¢ N (N − n) 2 ¡ S y 1 − ρ2 , n donde ρ= Sxy . Sx Sy Este error cuadrático medio puede estimarse por ¡ ¢ \ (Ybregr ) = N (N − n) s2y 1 − ρ̂2 , ECM n donde ρ̂ = sxy . sx sy La estimación de regresión puede ser generalizada al uso de varias variables auxiliares 7.3.7. Discusión de los tres métodos Cuadro 7.2: Métodos de estimación n Estimador estimador HT de diferencia de razón de regresión Definición N X yk Ybπ = n k∈S bπ YbD = Ybπ + X − X bπ Ybregr = Ybπ X/X bπ ) YbRY = Ybπ + b̂(X − X 51 N (N −n) n o−1 × ECM Sy2 Sy2 + Sx2 − 2Sxy Sy2 + r2 Sx2 − 2rSxy ¡ ¢ Sy2 1 − ρ2 7.3.8. Comparación del estimador de diferencia y del estimador de HorvitzThompson V ar(Ybπ ) − V ar(YbD ) ª N (N − n) 2 N (N − n) © 2 = Sy − Sy + Sx2 − 2Sxy n n ª N (N − n) © = 2Sxy − Sx2 . n El estimador de diferencia es entonces mejor que el estimador de Horvitz-Thompson cuando 2Sxy − Sx2 > 0; lo que puede escribirse de la forma b> 7.3.9. 1 . 2 Comparación del estimador de razón y del estimador de Horvitz-Thompson ECM (Ybπ ) − ECM (Ybregr ) ª N (N − n) 2 N (N − n) © 2 ≈ Sy − Sy + r2 Sx2 − 2rSxy n n ª N (N − n) © ≈ 2rSxy − r2 Sx2 . n El estimador de razón es generalmente mejor que el estimador de Horvitz-Thompson cuando 2rSxy − r2 Sx2 > 0, es decir, cuando b> 7.3.10. r r si r > 0 y b < si r < 0. 2 2 Comparación del estimador de razón y del estimador de diferencia ECM (YbD ) − ECM (Ybregr ) ª N (N − n) © 2 N (N − n) 2 (Sy + Sx2 − 2Sxy ) − Sy + r2 Sx2 − 2rSxy ≈ n n ª N (N − n) © ≈ 2(1 − r)Sxy − (1 − r2 )Sx2 . n El estimador de razón es generalmente preferible cuando 2(1 − r)Sxy − (1 − r2 )Sx2 > 0, es decir cuando 7.3.11. 2(1 − r)b > (1 − r2 ). Comparación del estimador de regresión con los otros estimadores ECM (Ybπ ) − ECM (Ybregr ) ≈ ρ2 ECM (Ybπ ) ≥ 0, 52 ECM (YbD ) − ECM (YbRY ) N (N − n) 2 N (N − n) ≈ (Sy + Sx2 − 2Sxy ) − (1 − ρ2 )Sy2 n n N (N − n) Sxy 2 ≈ (Sx − ) ≥ 0, n Sx y ECM (YbR ) − ECM (YbRY ) N (N − n) N (N − n) 2 (Sy + r2 Sx2 − 2rSxy ) − (1 − ρ2 )Sy2 ≈ n n N (N − n) Sxy 2 ≈ (rSx − ) ≥ 0. n Sx 53 Capítulo 8 Estimación con informaciones auxiliares y planes complejos 8.1. El problema y la notación El objetivo es siempre estimar el total Y = X yk , k∈U La información auxiliar viene dada por : J variables auxiliares x1 , ..., xj , ..., xJ . El valor tomado por la variable xj sobre la unidad k es xkj . xk = (xk1 , ..., xkj , ..., xkJ )0 es el vector de los valores tomados por las J variables auxiliares sobre k. X 1 X xkj , j = 1, ..., J, xkj = y Xj = Xj = N k∈U k∈U o X= X 1 X xk = y X = xk . N k∈U k∈U El vector X es conocido sobre la población total. Dos estimadores El estimador de regresión : Särndal, Swensson y Wretman (1992). Calibración Deville y Särndal (1992) y Deville, Särndal y Sautory (1993). Estimadores de la clase de los estimadores lineales YbG = X wk (S)yk . k∈S 8.2. El estimador de regresión Si existe una relación lineal entre los xk e yk , se busca el vector de coeficientes de regresión b ∈ RJ que minimiza: X 2 ck (yk − x0k b) , (8.1) k∈U donde ck es un coeficiente de ponderación estrictamente positivo que permite dar una importancia particular a cada unidad. Anulando la derivada de (8.1) con respecto a b, buscamos X ck xk (yk − x0k b) = 0, k∈U 54 lo que da X ck xk yk = k∈U X ck xk x0k b. k∈U Si T= X ck xk x0k k∈U y t= X ck xk yk k∈U y que suponemos que T es inversible, logramos el coeficiente de regresión : b = T−1 t. Como T y t son totales podemos estimarlos por estimadores de Horvitz-Thompson : b = T X ck xk x0 k πk k∈S y b t= X ck xk yk , πk k∈S que no tienen sesgo para T y t. Luego se estima b por b=T b −1b t. b b no es insesgado para b. Atención b El estimador de regresión : 8.2.1. b b π )0 b. Ybgreg = Ybπ + (X − X (8.2) Otra presentación del estimador de regresión Ybgreg es un estimador lineal X Ybgreg = wk (S)yk , k∈S donde wk (S) = o 1 n b π )0 T b −1 ck xk . 1 + (X − X πk Otra presentación viene dada por Ybgreg = = b + Ybπ − X b b0 b X0 b π X ek b+ X0 b , πk k∈S donde b ek = yk − x0k b. Los ek son los residuos : las diferencias entre los valores observados y los valores predichos. En algunos casos X ek πk k∈S es nulo; el estimador de regresión tiene entonces una forma más simple. Teorema 6 Una condición suficiente para que X ek = 0, πk k∈S es que existe un vector λ tal que λ0 x k = 1 , para todo k ∈ U. ck 55 Demostración X ek πk k∈S ´ X 1 ³ b yk − x0k b πk k∈S ´ X 1 ³ 0 b = yk − ck λ xk x0k b πk = k∈S = Ybπ − X ck λ0 xk x0 k b −1b T t πk k∈S X ck xk yk 0 = Ybπ − λ k∈S πk = Ybπ − Ybπ = 0. 2 En el caso donde la condición suficiente del teorema 6 es verificada, el estimador de regresión puede escribirse simplemente b Ybgreg = X0 b. 8.2.2. Calibración del estimador de regresión Un estimador se llama de calibración sobre un total de una variable auxiliar si es exactamente igual a este total. Suponemos que calculemos el estimador de regresión para la variable auxiliar xj . El coeficiente de regresión es à !−1 X ck xk x0 X ck xk xkj k b= b = (0 . . . 0 1 0 . . . 0)0 . πk πk k∈S El estimador es 8.2.3. k∈S b=X b π )0 b bj,greg = X b π + (X − X bjπ + (Xj − X bjπ ) = X . X j j Estimación de razón El estimador de razón se logra usando una sola variable auxiliar y cogiendo xk = xk , ck = 1/xk . Tenemos P b bb = P k∈S yk /πk = Yπ , bπ X k∈S xk /πk y por (8.2) b b b π ) Yπ = X Yπ , Ybgreg = Ybπ + (X − X bπ bπ X X (8.3) que es el estimador de razón. 8.2.4. Plan simple y estimación de regresión El estimador de regresión en el m.a.s. se logra cogiendo πk = n/N, ck = 1, y xk = (1, xk )0 . Luego tenemos bπ N X X b = T X bπ N x2k , n k∈S b −1 T N X 2 xk n n = 2 2 k∈S N sx (n − 1) bπ −X 56 bπ −X , N Ybπ X b t= N xk yk , n k∈S N X 2 N X b b Y x − X x y π k k π n k b −1b , n n T t= 2 2 k∈S k∈S N sx (n − 1) 2 N sxy donde s2x n = n−1 y sxy n = n−1 à à b2 1X 2 X xk − π2 n N ! , k∈S bπ Ybπ 1X X xk yk − n N2 ! . k∈S b xπ = (0, X − X bπ )0 , tenemos finalmente Como X − X ³ ´0 ³ ´ bπ T b −1b bπ sxy , Ybgreg = Ybπ + X − X t = Ybπ + X − X s2x que es el estimador de regresión clásico. 8.3. 8.3.1. Estimación de calibración El método Deville y Särndal (1992) y Deville, Särndal y Sautory (1993). La información auxiliar usada es un vector de totales conocidos X. El método de calibración consiste en buscar nuevos coeficientes de ponderación. Estimador lineal que se escribe X YbG = wk (S)yk , k∈S donde los wk (S), k ∈ S son los pesos que dependen de la muestra. Propiedad de calibración X b = wk xk = X. X (8.4) k∈S Como existe une infinidad de pesos wk que verifican la relación (8.4), vamos a buscar pesos próximos a los pesos πk−1 del estimador de Horvitz-Thompson , lo que va dar un pequeño sesgo. Definimos 1 dk = , k ∈ S, πk El objetivo consiste entonces en la búsqueda a los pesos wk próximos de los dk que verifican la calibración. Pseudo-distancia Gk (wk , dk ), (la simetría no es requerida.) Gk (wk , dk ) es positiva, derivable con respecto a wk estrictamente convexa, tal que Gk (dk , dk ) = 0. Los pesos wk , k ∈ S, se logran minimizando X Gk (wk , dk ) qk k∈S sujeto a que la calibración sea verificada. qk coeficientes de ponderación L(wk , k ∈ S, λj , j = 1, ..., J) = J X Gk (wk , dk ) X − λj qk j=1 k∈S 57 ( X k∈S ) wk xkj − Xj , donde los λj son los multiplicadores de Lagrange. J ∂L(wk , k ∈ S, λj , j = 1, ..., J) gk (wk , dk ) X = − λj xkj = 0, ∂wk qk j=1 donde gk (wk , dk ) = (8.5) ∂Gk (wk , dk ) . ∂wk Como Gk (., dk ) es estrictamente convexo y positivo y Gk (dk , dk ) = 0, gk (., dk ) es estrictamente creciente y gk (dk , dk ) = 0. Los pesos wk = dk Fk J X λj xkj , (8.6) j=1 donde dk Fk (.) es la función inversa de gk (., dk )/qk . La función Fk (.) es estrictamente creciente y Fk (0) = 1, y Fk0 (.) la derivada de Fk (.) es entonces estrictamente positiva. Además, suponemos que Fk0 (0) = qk . Ecuaciones de calibración : à J ! X X dk xkj Fk λi xki = Xj , j = 1, ..., J, (8.7) i=1 k∈S que permite obtener los λj . Con una escritura matricial X ¡ ¢ dk xk Fk x0k λ = X, (8.8) k∈S donde λ = (λ1 , ..., λj , ..., λJ )0 . Al final,una vez calculado λ, podemos calcular el estimador de calibración : X ¡ ¢ YbCAL = dk yk Fk x0k λ . (8.9) k∈S 8.3.2. Elección de la pseudo-distancia wα k α−1 + (α − 1)dk − αwk d k α(α − 1) α wk G (wk , dk ) = w log + dk − wk k dk dk log dk + wk − dk wk α ∈ R\{0, 1} α=1 α = 0. Si derivamos Gα (wk , dk ) con respecto a los wk , logramos µ α−1 ¶ wk 1 − 1 α ∈ R\{1} (α − 1) dα−1 g α (wk , dk ) = k log wk α = 1. dk La inversa de g α (wk , dk )/qk con respecto a wk es : p ½ dk α−1 1 + qk u(α − 1) α ∈ R\{1} dk Fkα (u) = dk exp qk u α = 1. Según los diferentes valores de α, logramos varias pseudo-distancias. Les distancias más usadas son los casos α = 2 (khi-cuadrado) y α = 1 (entropía). 58 Cuadro 8.1: Pseudo-distancias para la calibración α Gα (wk , dk ) 2 (wk −dk )2 2dk 1 1/2 0 −1 8.3.3. wk log wk dk g α (wk , dk ) + dk − wk dk log dk wk + wk − dk −1 1 + qk u Khi-cuadrado log wk dk exp(qk u) Entropía (1 − qk u/2)−2 Distancia de Hellinger (1 − qk u)−1 Entropía Inversa (1 − 2qk u)−1/2 Khi-cuadrado inverso 1− ³ (wk −dk )2 2wk T ipo wk dk q ´ ³ 2 1 − wdkk √ √ 2( wk − dk )2 Fkα (u) 1− dk wk d2k 2 wk ´ /2 El método lineal Un caso particular importante se logra usando como pseudo-distancia una función de tipo chi-cuadrado (caso α = 2) : 25 20 15 10 5 0 0 10 30 20 40 Figura 8.1: Método lineal : función G(wk , dk ) con qk = 1 y dk = 10 (wk − dk )2 , 2dk G2 (wk , dk ) = obtenemos una función lineal Fk (u) = 1 + qk u. Las ecuaciones de calibración son Xj = X à xkj dk 1 + qk J X ! λi xki , j = 1, ..., J, i=1 k∈S o, con escritura matricial, bπ + X=X X dk xk qk x0k λ k∈S 0 donde λ = (λ1 , ..., λj , ..., λJ ). Si la matriz à λ= P k∈S X dk xk qk x0k es inversible, podemos calcular λ : !−1 dk xk qk x0k k∈S 59 ³ ´ bπ . X−X (8.10) 3 2 1 0 -1 0 10 30 20 40 Figura 8.2: Método lineal: función g(wk , dk ) con qk = 1 y dk = 10 6 4 2 0 -2 -4 -4 0 -2 4 2 Figura 8.3: Método lineal: función Fk (u) con qk = 1 Luego, podemos calcular los wk mediante wk = dk 1 + qk J X λj xkj j=1 ³ ´ 0 = dk 1 + qk λ xk !−1 à ³ ´0 X bπ dk xk qk x0k xk . = d k 1 + qk X − X k∈S Al final, el estimador se escribe YbL = X wk yk k∈S ³ = bπ Ybπ + X − X ´0 à X !−1 dk xk qk x0k k∈S X xk dk qk yk . k∈S Si cogemos qk = ck , k ∈ U . 8.3.4. El método del “raking ratio” El método del “raking ratio” que incluye el estimador de calibración sobre márgenes se logra usando una pseudo-distancia de tipo “Entropía” (caso α = 1) : G1 (wk , dk ) = wk log wk + dk − wk . dk Obtenemos Fk (u) = exp qk u. 60 14 12 10 8 6 4 2 0 10 30 20 40 Figura 8.4: “Raking ratio": función G(wk , dk ) con qk = 1 y dk = 10 1 0 -1 -2 -3 -4 -5 -6 -5 5 0 15 10 20 30 25 Figura 8.5: “Raking ratio": función g(wk , dk ) con qk = 1 y dk = 10 70 60 50 40 30 20 10 0 -4 0 -2 4 2 Figura 8.6: “Raking ratio": función Fk (u) con qk = 1 Los pesos son siempre positivos. El estimador viene dado por wk = dk exp qk J X λj xkj , j=1 donde les λj son calculados por la ecuación X k∈S à dk xkj exp qk J X ! λi xki = Xj , j = 1, ..., J. i=1 Caso particular : la calibración sobre márgenes. En este caso, los xki son iguales a 1 o 0 según que la unidad i esté o no en la subpoblación Ui ⊂ U. Si, además, qk = 1, k ∈ U, tenemos Y wk = dk βi i|Ui 3k 61 donde βj = exp λj . Los βj son calculados mediante la ecuación X Y dk xkj βi = Xj , j = 1, ..., J. k∈S 8.3.5. i|Ui 3k El método logit 2 1.5 1 0.5 0 10 20 30 40 Figura 8.7: Método logístico: función G(wk , dk ) con qk = 1, dk = 10, L = 0, 2 y H = 3 0.5 0.4 0.3 0.2 0.1 0 -0.1 0 10 30 20 40 Figura 8.8: Método logístico: función g(wk , dk ) con qk = 1, dk = 10, L = 0, 2 y H = 3 3 2.5 2 1.5 1 0.5 0 -4 -2 0 2 4 Figura 8.9: Método logístico : función Fk (u) con qk = 1, L = 0, 2, y H = 3 A veces se quiere que los wk no sean demasiado variable. Es posible imponer que los pesos wk se encuentren entre dos valores Ldk y Hdk (L < 1 < H) usando una función de tipo logit G(wk , dk ) ( = ak log bk ak + bk log 1−L H −1 ∞ 1 A Ldk < wk < Hdk en otro caso, 62 donde ak = wk wk H −L − L, bk = H − ,A = . dk dk (1 − L)(H − 1) Obtenemos Fk (u) = L(H − 1) + H(1 − L) exp(Aqk u) . H − 1 + (1 − L) exp(Aqk u) Tenemos Fk (−∞) = L, Fk (∞) = H. Los pesos obtenidos estan entonces siempre en el intervalo [Ldk , Hdk ]. 8.3.6. El método lineal truncado Más simplemente, para restringir el intervalo de soluciones, podemos usar una función del tipo 25 20 15 10 5 0 10 30 20 40 Figura 8.10: Método lineal truncado : función G(wk , dk ) con qk = 1, dk = 10, L = 0, 2 y H = 3 3 2 1 0 -1 0 10 30 20 40 Figura 8.11: Método lineal truncado: función g(wk , dk ) con qk = 1, dk = 10, L = 0, 2 y H = 3 3 2.5 2 1.5 1 0.5 0 -4 -2 0 2 4 Figura 8.12: Método lineal truncado: función Fk (u) con qk = 1, L = 0, 2, y H = 3 (wk − dk )2 G(wk , dk ) = dk ∞ 63 Ldk < wk < Hdk sino. Obtenemos una función lineal truncada 1 + qk u H Fk (u) = L si si si (L − 1)/qk ≤ u ≤ (H − 1)/qk u > (H − 1)/qk ≥ H u < (L − 1)/qk ≤ L 64 Capítulo 9 Estimación de la varianza por linealización Las funciones de interés estimadas por muestreo son a veces funciones mas complejas que simples totales, por ejemplo coeficientes de regresión, de correlación, varianza, índices de desigualdades. Además, se usa generalmente una información auxiliar para la calibración de los estimadores, lo que da una forma mas compleja a los estimadores. Es posible aproximar la varianza por las técnicas de linealización para estimar la precisión de estos estimadores. Las técnicas de linealizsación han sido introducida por Woodruff (1971). Las aplicaciones en la teoría de muestreo han sido desarrolladas por Binder (1983), Binder y Patak (1994), Wolter (1985), Deville (1999). 9.1. Orden de magnitud en probabilidad Las técnicas de linealización estàn basadas en los métodos de desarrollo en Serie de Taylor. El desarrollo se hace con respeto a una variable aleatoria. Para tratar estos problemas vamos a introducir los ordenes de magnitud en probabilidad Definición 4 Una sucesión de números fn , n = 1, 2, ... es dice que es de orden de magnitud inferior a hn > 0, n = 1, 2, ..., si fn lı́m = 0. n→∞ hn Se escribe fn = o (hn ) . Definición 5 Una sucesión de números fn , n = 1, 2, ... està acotada por hn > 0, n = 1, 2, ..., si existe M > 0 tal que | fn |≤ M hn , para todo n = 1, 2, .... Se escribe fn = O (hn ) . Se puede también definir el orden de magnitud en probabilidad. Definición 6 Una sucesión de variables aleatorias Xn converge en probabilidad hacia una variable aleatoria X si, para todo ² > 0, lı́m P r [| Xn − X |> ²] = 0. n→∞ Se escribe p lı́m Xn = X, n→∞ o mas simplemente P Xn −→ X. 65 La convergencia en probabilidad permite introducir la noción de orden de magnitud aleatoria : Definición 7 Sea Xn una sucesión de variables aleatorias, Xn se dice que es inferior en probabilidad a hn > 0, si Xn p lı́m = 0. n→∞ hn Se escribe Xn = op (hn ) . Definición 8 Sea Xn una sucesión de variables aleatorias, Xn se dice que està acotada por hn > o en probabilidad por hn > 0 si para todo ² > 0, existe un número M² > 0 tal que P r [| Xn |≥ M² hn ] ≤ ², para todo n = 1, 2, 3, ... se escribe Xn = Op (hn ) . Teorema 7 Sean Xn y Yn dos sucesiones de variables aleatorias, tales que Xn = op (hn ) e Yn = op (gn ), si a es un real α > 0, entonces (i) aXn = op (hn ), (ii) | Xn |α = op (hα n ), (iii) Xn Yn = op (hn gn ), (iv) Xn + Yn = op (máx(hn , gn )) . Demostración (i) Si Xn = op (hn ) e Yn = op (gn ), entonces ¯ ·¯ ¸ ¯ Xn ¯ ¯ > ² = 0, lı́m P r ¯¯ n→∞ hn ¯ y (9.1) ·¯ ¯ ¸ ¯ Yn ¯ ¯ ¯ lı́m P r ¯ ¯ > ² = 0. n→∞ gn para todo ² > 0. Lo que implica que aXn = op (hn ). (ii) Como ¯ ¯ ·¯ ¸ ·¯ ¸ ¯ Xn ¯ ¯ X n ¯α α ¯ ¯ ¯ ¯ Pr ¯ > ² = Pr ¯ >² , hn ¯ hn ¯ se obtiene | Xn |α = op (hα n ). (iii) Luego, tenemos que, para todo ² > 0, ¯ ·¯ ¸ ·¯ ¯ ¸ ¯ Xn ¯ ¯ Yn ¯ ¯ ¯ ¯ ¯ Pr ¯ > ² + Pr ¯ ¯ > ² hn ¯ gn ≥ ≥ lo que implica que ¯ ·¯ ¯ Xn ¯ ¯ > ² donde ¯ Pr ¯ hn ¯ ¯ ·¯ ¸ ¯ Xn Yn ¯ ¯ > ²2 , P r ¯¯ hn gn ¯ ¯ ¯ ¸ ¯ Yn ¯ ¯ ¯>² ¯ gn ¯ ¯ ·¯ ¸ ¯ Xn Yn ¯ 2 ¯ ¯ lı́m P r ¯ > ² = 0, n→∞ hn gn ¯ y Xn Yn = Op (hn gn ). (iv) Al final, Xn + Yn = op (máx(hn , gn )) es obvio. 2 66 Teorema 8 Sean Xn y Yn los dos sucesiones de variables aleatorias, tales que Xn = Op (hn ) e Yn = Op (gn ), si a es un real y α > 0, aXn = Op (hn ), | Xn |α = Op (hα n ), Xn Yn = Op (hn gn ), Xn + Yn = Op (máx(hn , gn )) . Los demostraciones son similares a la precedente. 2 Teorema 9 Desigualdad de Bienaymé-Tchebychev (caso discreto) Sean α > 0 y X una variable aleatoria discreta tal que E[X α ] < ∞, entonces para todo ² > 0 y para todo A ∈ R, P r [| X − A |≥ ²] ≤ E [| X − A |α ] . ²α Demostración Si se nota X1 , ..., Xi , ..., XI , a los valores posibles X, se puede escribir E [| X − A |α ] = I X | Xi − A |α P r[X = Xi ] i=1 I X = | Xi − A |α P r[X = Xi ] i=1 |Xi −A|<² + I X | Xi − A |α P r[X = Xi ] i=1 |Xi −A|≥² ≥ ²α I X P r[X = Xi ] i=1 |Xi −A|≥² = α ² P r [| X − A |≥ ²] . 2 Teorema 10 Sea Xn una sucesión de variables aleatorias tal que £ ¤ E Xn2 = O(hn ), √ entonces Xn = Op ( hn ). Demostración £ ¤ Como E Xn2 = O(hn ) entonces existe un MA > 0 tal que £ ¤ E Xn2 ≤ MA hn √ para todo n. Por otro lado, con α = 2, A = 0, y ² = MB hn , por la desigualdad de Bienaymé-Tchébichev, se tiene i E £X 2 ¤ h p n . P r | Xn |≥ MB hn ≤ M B hn Si tomamos, MB ≥ MA α, se tiene £ ¤ E Xn2 MA = ≤ α, M B hn MB lo que da h i p P r | Xn |≥ MB hn ≤ α, √ y entonces Xn = Op ( hn ). 2 67 Teorema 11 Sea Xn una sucesión de variables aleatorias tales que £ ¤ E (Xn − E[Xn ])2 = O(hn ), y que p E [Xn ] = O( hn ), √ entonces Xn = Op ( hn ) Demostración Como £ ¤ £ ¤ E Xn2 = E (Xn − E[Xn ])2 + E[Xn ]2 = O(hn ), el resultado viene del teorema 11. 2 Ejemplo 9. Sea X1 , ..., Xn , n variables independientes con la misma distribución de media µ y con desviación tipica σ. La variable n 1X Xn X̄n = n i=1 tiene varianza £ ¤ σ2 V ar X̄n = , n y entonces X̄n = Op (n−1/2 ). Teorema 12 Sea Xn una sucesión de variables aleatorias tales que Xn = x0 + Op (hn ), f (x) una función derivable α veces con derivadas continuas en el punto x = x0 , y hn una sucesión de números positivos tales que lı́mn→∞ hn = 0, α−1 X f (i) (x0 ) f (Xn ) = f (x0 ) + (Xn − x0 )i + Op (hα n ), i! i=1 donde f (i) (x0 ) es la i-ésima derivada de f (x) calculada en el punto x = x0 . Demostración Con un desarrollo en Serie de Taylor, tenemos f (Xn ) = f (x0 ) + α−1 X (Xn − x0 )i i=1 f (i) (x0 ) f (α) (b) + (Xn − x0 )α , i! α! donde b varia entre x0 y Xn . Puesto que f (α) (.) es una función continua, f (α) (b) està acotado, en probabilidad, i.e. f (α) (b) = Op (1). Se obtiene f (α) (b) (Xn − x0 )α = Op (hα n ). α! 2 Teorema 13 Sean X1n , ..., Xjn , ..., Xpn , p sucesiones de variables aleatorias tales que Xjn = xj0 +Op (hn ), j = 1, ..., p, f (x1 , ..., xp ) una función continua cuyas derivadas parciales existen y son continuas en los puntos xj = xj0 , y hn una sucesión de números positivos tales que lı́mn→∞ hn = 0, entonces f (X1n , ..., Xpn ) = f (x10 , ..., xp0 ) ¯ p X ∂f (x1 , ..., xp ) ¯¯ + (Xjn − xj0 ) ¯ ∂xj xj =xj0 j=1 + Op (h2n ). 68 Demostración Aplicando un desarrollo en Serie de Taylor, se logra f (X1n , ..., Xpn ) = + + f (x10 , ..., xp0 ) ¯ p X ∂f (x1 , ..., xp ) ¯¯ (Xjn − xj0 ) ¯ ∂xj xj =xj0 j=1 ¯ p X p X (Xjn − xj0 )(Xin − xi0 ) ∂ 2 f (x1 , ..., xp ) ¯¯ , ¯ 2! ∂xj ∂xi xj =bj j=1 i=1 ¡ ¢ donde los bj están entre Xjn y xj0 . Como en el teorema precedente, (Xjn − xj0 )(Xin − xi0 ) = Op h2n que multiplica una cantidad acotada en probabilidad. 2 9.2. Aproximación de la varianza por linealización 9.2.1. Linealisación de una función de totales El objetivo es estimar la varianza de una función de p totales cuyas derivadas existen y son continuas hasta el orden dos θ = f (Y1 , ..., Yj , ...Yp ). Para estimar esta función, se utiliza el estimador por substitución θb = f (Yb1 , ..., Ybj , ...Ybp ), donde los Ybj son los estimadores (eventualmente sesgados) de los Yj . Generalmente los Ybj son los estimadores de Horvitz-Thompson, pero pueden también ser estimadores de razón, de regresión o más complejos. Definición 9 Si N −α θ está acotado para todo valor de N, entonces θ se dice que es de grado α. Por ejemplo R = Y /X es de grado 0, Y es de grado 1, y = Y /N es de grado 0 (porque es una razón de dos funciones de grado 1) y V ar[Ybπ ] es de grado 2. En muestreo, no existe una teoría asintótica general. Existen resultados particulares para los planes simples (Madow, 1948) y para algunos planos con probabilidades desiguales (Rosen, 1972a, 1972b). Vamos a suponer que los Ybj verifican las condiciones siguientes : 1. Los Ybj son lineales homogéneos, es decir que pueden ser escritos de la manera siguiente X Ybj = wk (S)ykj , j = 1, ..., p, (9.2) k∈S donde ykj es el valor tomado por la j-isima variable sobre la unidad k. El caso más simple viene dado por el estimador de Horvitz-Thompson donde wk (S) = 1/πk . 2. ¶ µ Ybj − Yj 1 , j = 1, ..., p. = Op √ N n ³ ´ 3. Tenemos un estimador de la varianza de cada uno de los Ybj que se nota por Vd ar Ybj . ³ ´−1/2 ³ ´ 4. Las Vd ar Ybj Ybj − Yj tienen una distribución normal centrada reducida. Estas cuatro hipótesis son bastante simple y son verificadas para los planes simples y los planes estratificados (si el numero de estratos es n) y para los planes con conglomerados (si el numero de conglomerados crece con n). 69 Definición 10 La variable vk = p X ykj j=1 ¯ ∂f (a1 , ..., ap ) ¯¯ , k ∈ U, ¯ ∂aj a1 =Y1 ,...,ap =Yp (9.3) es llamada la variable linearizada de θ = f (Y1 , ..., Yp ). b Teorema 14 Sea vk , k ∈ U, la variable linealizsada de una función de interés θ de grado α estimada por θ, sobre los dos primeras condiciones, entonces µ ¶ ´ ³ 1 N −α θb = N −α θ + N −α Vb − V + Op , n donde V = X vk , k∈U Vb = X wk (S)vk , k∈S y los wk (S) están definidos de la misma manera que en (9.2). Demostración Si se nota Yb j = Ybj /N, tenemos N −α θb = N −α f (Yb1 , ..., Ybj , ..., Ybp ) = N −α f (N Yb 1 , ..., N Yb j , ..., N Yb p ). La condición 2 implica que Yb j = yj + Op (n−1/2 ) y con el teorema 13, tenemos N −α θb = N −α f (N Yb 1 , ..., N Yb j , ..., N Yb p ) = N −α f (N y1 , ..., N yj , ..., N yp ) p ³ ´ ∂f (N a , ..., N a ) ¯¯ X 1 p ¯ b −α +N Y j − yj ¯ ∂a j a1 =y1 ,...,ap =yp j=1 µ ¶ 1 +Op n = N −α θ p ³ ´ ∂f (a , ..., a ) ¯¯ X 1 p ¯ b +N Yj − Yj ¯ ∂a j a1 =Y1 ,...,ap =Yp j=1 µ ¶ 1 +Op n µ ¶ ´ ³ 1 −α −α b = N θ+N V − V + Op . n 2 ³ ´ Observar que N −α Vb − V = Op (n−1/2 ). La varianza del estimador de la función de interés puede ser aproximada simplemente. En efecto, h i V ar N −α θb · µ ¶¸ 1 −α −α b = V ar N θ + N (V − V ) + Op n " µ ¶ # · µ ¶¸ 2 h i 1 1 −α b −α b = V ar N V + 2E N (V − V ) × Op + E Op n n " # µ ¶ Vb 1 = V ar + EOp . α 3/2 N n ¡ ¢ Considerando que EOp n−3/2 es despreciable, se puede construir una aproximación de la varianza h i b = V ar Vb . AV ar[θ] −α 70 9.3. Estimación de la varianza Para estimar la varianza, no se puede usar directamente los vk , porque los vk dependen de los totales de la población Yj quienes son desconocidos. Se aproximan los vk combinado los totales desconocidos por los estimadores, y vbk es la aproximación de la variable linealizsada. Deville (1999) ha probado que si el número de totales a estimar en vk no crece con n, entonces la aproximación de la varianza lograda con los vbk es válida para grandes tamaños de muestra. b se usa un estimador de la varianza. Si los Ybj son estimadores de Al final, para estimar la varianza de θ, Horvitz-Thompson, se puede usar de manera general el estimador de la varianza de Horvitz-Thompson : h i X vb2 X X vbk vb` πk` − πk π` k Vd ar θb = (1 − πk ) + . 2 πk πk π` πk` k∈S k∈S `∈S `6=k Ejemplo 10. El problema más clásico consiste en estimar la razón R = Y /X y la varianza en un plan simple. Primero, se define f (a1 , a2 ) = a1 /a2 y entonces R = f (Y, X). El estimador viene directamente dado par b b = f (Y, b X) b = Y. R b X Luego, se calculan las derivadas parciales ¯ ∂f (a1 , a2 ) ¯¯ ¯ ∂a1 a =Y,a2 =X ¯ 1 ¯ ∂f (a1 , a2 ) ¯ ¯ ∂a2 = 1 X = − a1 =Y,a2 =X y por (9.3), se obtiene vk = La varianza aproximada se escribe donde Sv2 Y X2 yk Y 1 − 2 xk = (yk − Rxk ) . X X X ³ ´ b = N N − n Sv2 , AV ar R n µ ¶2 ¢ 1 X V 1 ¡ = vk − = 2 Sy2 − 2RSxy + R2 Sx2 . N −1 N X k∈U b se empieza a estimar los vk por Para estimar la varianza de R, vbk = y, como ´ 1 ³ b k , yk − Rx b X N X vbk = 0, Vb = n k∈S se obtiene el estimador de la varianza ´ ³ ´ X N −n 1 ³ 2 b xy + R b2 s2x . b =NN −n 1 sy − 2Rs V[ AR R vbk2 = N b2 n n−1 n X k∈S 71 (9.4) Ejemplo 11. En un plan complejo con probabilidades de inclusión de segundo orden positivas, se quiere estimar la varianza del vector de coeficientes de regresión à b= b X ck xk x0 k πk !−1 k∈S X ck xk yk . πk k∈S La función de interés a estimar es à b= X !−1 ck xk x0k k∈U X ck xk yk . k∈U Si se nota por T= X ck xk x0k , k∈U el vector de las variables linealizsadas es egual a vk = T−1 ck xk yk − T−1 ck xk x0k T−1 X ck xk yk k∈U = T−1 xk ck (yk − x0k b) . Si se nota por ek = yk − x0k b, tenemos Al final, se estima vk por vk = T−1 xk ck ek . (9.5) b −1 xk ck ebk , bk = T v donde b= T X ck xk x0 k , πk k∈S y b ebk = yk − x0k b. 9.4. Linealización por etapas 9.5. Descomposición en etapas de la linealización La técnica de linealización puede ser aplicada por etapas. Suponemos que θ = f (Y1 , ..., Yj , ..., Yp , λ) donde λ es también una función de totales de la qual conocemos la variable linealizada uk , entonces es fácil demostrar que la linealizada de θ puede escribirse de la forma vk = p X j=1 ykj ¯ ¯ ∂f (a1 , ..., ap , λ) ¯¯ ∂f (Y1 , ..., Yp , z) ¯¯ . + uk ¯ ¯ ∂aj ∂z z=λ a1 =Y1 ,...,ap =Yp Ejemplo 12. Para un plan con probabilidades de orden 1 y 2 conocidas, queremos calcular la varianza del cuadrado del estimador de razón de Hájek dado por !−1 à X yk X 1 b . YH = πk πk k∈S k∈S Se observa que la linealizada para la media y = Y /N se deduce de la linealizada de un razón (9.4) : uk = 1 (yk − y) . N 72 Aplicando el método de linealización por etapas, la linealizada de y2 es vk = 2yuk = Se estima vk por vbk = 9.6. 2y (yk − y) . N ´ 2Yb H ³ yk − Yb H . b N Linealización del estimador de regresión El estimador de regresión se definió en (8.2) : b Ybgreg = Ybπ + (tx − b txπ )0 b. Podemos escribirlo de la forma b Ybgreg = f (Ybπ , b txπ , b). b del cual conocemos la linealizada (9.5). Si se usa la Este estimador depende de dos totales Ybπ , b txπ , y de b técnica de linealisación por etapas f (Y, tx , b), se obtiene uk = = = yk − x0k b + (tx − tx )0 vk yk − x0k b ek , (9.6) donde vk es la linealizada de b que no interviene en la linealizada de uk . El estimador de la linealizada es entonces b u bk = ebk = yk − x0k b. La varianza puede ser estimada simplemente mediante el residuo de la regresión. 73 Capítulo 10 Referencias Ardilly, P. (1994), Les Techniques de Sondage, Paris, Technip. Ardilly, P. (1991), Echantillonnage représentatif optimum à probabilités inégales, Annales d’Economie y de Statistique, 23, 91-113. Arora, H.R. y Brackstone, G.J. (1977), An investigation of the properties of raking ratio estimator : I with simple random sampling, Survey Methodology, 3, 62-83. Basu, D. (1958), On sampling with and without replacement, Sankhyā, 20, 287-294. Basu, D. (1964), Recovery of ancillary information, Sankhyā, A26, 3-16. Basu, D. (1969), Role of the sufficiency and likelihood principles in sample survey theory, Sankhyā, A31, 441-454. Basu, D. (1971), An essay on the logical foundations of survey sampling,in Godambe, V.P. y Sprott, D.A. Éds., Foundations of Statistical Inference, Toronto, Holt, Rinehart and Winston, pp. 203-233. Basu, D. y Ghosh, J.K. (1967), Sufficient statistics in sampling from a finite universe, Proceedings of the 36th Session of International Statistical Institute, 850-859. Bebbington, A.C. (1975), A simple method of drawing a sample without replacement, Applied Statistics, 24, 136. Bellhouse D.R. (1988), A brief history of random sampling methods,in Krishnaiah, P.R. y Rao, C.R. Éds., Handbook of Statistics, Vol 6 (Sampling), New York, Elsevier Science Publishers, pp. 1-14. Berger, Y. (1996), Asymptotic variance for sequential sampling without replacement with unequal probabilities, Variance asymptotique pour un plan séquentiel sans remise à probabilités inégales, Survey Methodology, Techniques d’enquête, 22,167-173. Berger, Y. (1998a), Comportements asymptotiques des plans de sondage à probabilités inégales pour un modèle de population fixe, Ph.D., Université Libre de Bruxelles. Berger, Y. (1998b), Variance estimation using list sequential scheme for unequal probability sampling, Journal of Official Statistics, 14, 315-323. Berger, Y. (1998c), Rate of convergence for asymptotic variance for the Horvitz-Thompson estimator, Journal of Statistical Planning and Inference, 74, 149-168. Berger, Y., El Haj Tirari, M., Tillé, Y. (2000), Optimal generalised regression estimation under complex sampling designs, Document de travail, Rennes, CREST-ENSAI. Bethlehem, J.G. y Keller J.W. (1987), Lineal weighting of sample survey data, Journal of Official Statistics, 3, 141-153. Bethlehem, J.G. y Schuerhoff, M.H. (1984), Second-order inclusion probabilities in sequential sampling without replacement with unequal probabilities, Biometrika, 71, 642-644. Binder, D.A. y Patak, Z. (1994), Use of estimating functions for estimation from complex surveys, Journal of the American Statistical Association, 89, 1035-1043. Binder, D.A. y Theberge, A. (1988), Estimating the variance of raking-ratio estimators, Canadian Journal of Statistics, 16 supplement, 47-55. Brackstone, G.J. y Rao, J.N.K. (1979), An investigation of raking ratio estimators, Sankhyā, C41, 97-114. Brewer, K.R.W. (1963), Ratio estimation in finite populations : some results deductible from the assumption of an underlying stochastic process, Australian Journal of Statistics, 5, 93-105. Brewer, K.R.W. (1975), A simple procedure for πpswor, Australian Journal of Statistics, 17, 166-172. Brewer, K.R.W. y Hanif, M. (1983), Sampling with Unequal Probabilities, New York, Springer-Verlag. Bülher, W. y Deutler, T. (1975), Optimal stratification and grouping by dynamic programming, Metrika, 22, 161-175. Caron, N. (1996), Les principales techniques de correction de la non-réponse, y les modèles associés, Document de 74 travail n◦ 9604, Méthodologie statistique, INSEE. Caron, N. (1999), Le logiciel POULPE aspects méthodologiques, Actes des Journées de Méthodologie statistique, des 17 y 18 mars 1998, INSEE Méthodes 84-85-86, pp. 173-200. Cassel, C.-M., Särndal, C.-E. y Wretman, J.H. (1976), Some results on generalized difference estimation and generalized regression estimation for finite population, Biometrika, 63, 615-620. Cassel, C.-M., Särndal, C.-E. y Wretman, J.H. (1993), Foundations of Inference in Survey Sampling, New York, Wiley. Causey, B.D. (1972), Sensitivity of raked contingency table totals to change in problem conditions, Annals of Mathematical Statistics, 43, 656-658. Chao, M.T. (1982), A general purpose unequal probability sampling plan, Biometrika, 69, 653-656. Chaudhuri, A. (1988), Optimality of sampling strategies,in Krishnaiah, P.R. y Rao, C.R. Éds., Handbook of Statistics, Vol 6 (Sampling), New York, Elsevier Science Publishers, pp. 47-96. Chen, X.-H., Dempster, A.P., y Liu, S.L. (1994), Weighted finite population sampling to maximize entropy, Biometrika, 81, 457-469. Cochran, W.G. (1939), The use of the analysis of variance in enumeration by sampling, Journal of the American Statistical Association, 24, 492-510. Cochran, W.G. (1942), Sampling theory when the sampling units are of unequal sizes, Journal of the American Statistical Association, 37, 199-212. Cochran, W.G. (1946), Relative accuracy of systematic and stratified random samples for a certain class of population, Annals of Mathematical Statistics, 17, 164-177. Cochran, W.G. (1961), Comparison of methods for determining stratum boundaries, Proceedings of the International Statistical Institute, 38, 245-358. Cochran, W.G. (1977), Sampling Techniques, 3ème édition, New York, Wiley. Connor, W.S. (1966), An exact formula for the probability that specified sampling units will occur in a sample drawn with unequal probabilities and without replacement, Journal of the American Statistical Association, 61, 384-490. Cornfield, J. (1944), On samples from finite populations, Journal of the American Statistical Association, 39, 236-239. Deming, W.E. (1950), Some Theory of Sampling, New York, Dover Publications. Deming, W.E. (1948), Statistical Adjustment of Data, New York, Wiley. Deming, W.E. (1960), Sample Design in Business Research, New York, Wiley. Deming, W.E. y Stephan, F.F. (1940), On a least square adjustment of sampled frequency table when the expected marginal totals are known, Annals of Mathematical Statistics, 11, 427-444. Deville, J.-C. (sans date), Cours de Sondage, Chapitre III : Les Outils de Base, Polycopié, Paris, ENSAE. Deville, J.-C. (1988), Estimation linéaire y redressement sur informations auxiliaires d’enquêtes par sondage,in Monfort, A. y Laffond, J.J. Éds., Essais en l’honneur d’Edmond Malinvaud, Paris, Economica, pp. 915-929. Deville, J.-C., (1992), Constrained samples, conditional inference, weighting : three aspects of the utilisation of auxiliary information, Proceedings of the Workshop Auxiliary Information in Surveys, Örebro (Suède). Deville, J.-C. (1998a), Une nouvelle (encore une!) méthode de tirage à probabilités inégales, Document de travail n◦ 9804, Méthodologie statistique, INSEE. Deville, J.-C. (1998b), La correction de la non-réponse par calage ou par échantillonnage équilibré,in Recueil de la Section des méthodes d’enquêtes des communications présentées au 26ème congrès de la Société Statistique du Canada, Sherbrooke, pp.103-110. Deville, J.-C. (1999), Estimation de variance pour des statistiques y des estimateurs complexes : techniques de résidus y de linéarisation, Variance estimation for complex statistics ans estimators : linealization and residual techniques, Techniques d’enquête, Survey methodology, 25, 219-230 (fr.), 193-204 (angl.). Deville, J.-C. (2000a), Note sur l’algorithme de Chen, Dempster y Liu, Note manuscrite, CREST-ENSAI. Deville, J.-C. (2000b), Generalized calibration and application to weighting for non-response, Communication invitée, Utrecht, COMPSTAT. Deville, J.-C. y Dupont, F. (1993), Non-réponse : principes y méthodes,in Actes des Journées de Méthodologie statistique des 15 y 16 décémbre 1993, INSEE Méthodes n◦ 56-57-58, Paris, INSEE, pp. 53-70. Deville, J.-C. y Grosbras, J.-M. (1987), Algorithmes de tirage,in Droesbeke, J.-J., Fichet, B. y Tassi, P. Éds., Les Sondages, Paris, Economica, pp. 209-233. Deville, J.-C., Grosbras, J.-M., y Roth N. (1988), Efficient sampling algorithms and balanced sample, COMPSTAT, Proceeding in computational statistics, Physica Verlag, pp. 255-266. Deville, J.-C., y Särndal, C.-E. (1990), Estimateur par calage y technique de ratissage généralisé dans les enquêtes par sondage, Document de travail, Paris, INSEE. Deville, J.-C., y Särndal, C.-E. (1992), Calibration estimators in survey sampling, Journal of the American Statistical 75 Association, 87, 376-382. Deville, J.-C., Särndal, C.-E. y Sautory, O. (1993), Generalized Raking procedure in survey sampling, Journal of the American Statistical Association, 88, 1013-1020. Deville, J.-C., y Tillé, Y. (1998), Unequal probability sampling without replacement through a splitting method, Biometrika, 85, 89-101. Deville, J.-C., y Tillé, Y. (2000), Balanced sampling by means of the cube method, Document de travail, Rennes, CREST-ENSAI. Deroo, M. y Dussaix, A.-M. (1980), Pratique y analyse des enquêtes par sondage, Paris, P.U.F. Durbin, J. (1953), Some results in sampling when the units are selected with unequal probabilities, Journal of the American Statistical Association, 61, 384-490. Dussaix A.-M. (1987), Modèles de surpopulation,in Droesbeke, J.-J., Fichet, B. y Tassi, P. Éds., Les Sondages, Paris, Economica, pp. 66-88. Dussaix A.-M. y Grosbras, J.-M. (1992), Exercices de sondages, Paris, Economica. Fan C.T., Muller, M.E. y Rezucha I. (1962), Development of sampling plans by using sequential (item by item) selection techniques and digital computer, Journal of the American Statistical Association, 57, 387-402. Fienberg, S.E. (1970), An iterative procedure for estimation in contingency tables, Annals of Mathematical Statistics, 41, 907-917. Frielander, D., (1961), A technique for estimating a contingency table, given the marginal totals and some supplementary data, Journal of the Royal Statistical Society, A124, 412-420. Fuller, W.A., y Isaki, C.T. (1981), Survey design under superpopulation models, inCurrents topics in survey sampling, Eds Krewski, D., Platek, R., Rao, J.N.K., y Singh, M.P., New York, Academic Press, 196-226. Fuller, W.A. (1976), Introduction to Statistical Time Series, New York, Wiley. Gabler, S. (1984), On unequal probability sampling : sufficient conditions for the superiority of sampling without replacement, Biometrika, 71, 171-175. Gabler, S. (1990), Minimax solutions in sampling from finite populations, Lecture Notes in Statistics, 64, Berlin, Spinger Verlag. Ghiglione, R, y Matalon, B. (1991), Les enquêtes sociologiques : théorie y pratique, Paris, Armand Colin. Hájek, J. (1960), Limiting distributions in simple random sampling from finite population, Matematikai Kutató Intézeténk közleményei (Publication of the Mathematical Institute of the Hungarian Academy of Sciences), A5, 361-374. Hájek, J. (1964), Asymptotic theory of rejective sampling with varying probabilities from a finite population, Annals of Mathematical Statistics, 35, 1491-1523. Hájek, J. (1971), Comment on a paper of D. Basu,in Godambe, V.P. y Sprott, D.A. Éds., Foundations of Statistical Inference, Toronto, Holt, Rinehart y Winston, p.236. Hájek, J. (1981), Sampling in Finite Population, New York, Marcel Dekker. Hanif, M. y Brewer, K.R.W. (1980), Sampling with unequal probabilities without replacement : a review, International Statistical Review, 48, 317-335. Hansen, M.H., Dalenius, T.D. y Tepping B.J. (1985), The development of sample survey in finite population,in Atkinson, A. y Fienberg, S. Éds., A Celebration of Statistics, The ISI Centenary Volume, Springer-Verlag. pp. 327-353. Hansen, M.H., Hurwitz, W.N. (1943), On the theory of sampling from finite populations, Annals of Mathematical Statistics, 14, 333-362. Hansen, M.H., Hurwitz, W.N. (1949), On the determination of the optimum probabilities in sampling, Annals of Mathematical Statistics, 20, 426-432. Hansen, M.H., Hurwitz, W.N. y Madow, W.G. (1953a réimprimé en 1993), Sample Survey Methods and Theory, I, New York, Wiley. Hansen, M.H., Hurwitz, W.N. y Madow, W.G. (1953b réimprimé en 1993), Sample Survey Methods and Theory, II, New York, Wiley. Hansen, M.H. y Madow, W.G. (1974), Some important events in the historical development of sample survey,in Owen, D., Éd. On the History of Statistics and Probability, New York, Marcel Dekker. Hansen, M.H., Madow, W.G. y Tepping B.J. (1983), An evaluation of model dependent and probability-sampling inferences in sample surveys, Journal of the American Statistical Association, 78, 776-793, Comments and rejoinder, 794-807. Hanurav, T.V. (1962a), Some sampling schemes in probability sampling, Sankhyā, A24, 421-428. Hanurav, T.V. (1962b), On Horvitz and Thompson estimator, Sankhyā, A24, 429-436. 76 Hanurav, T.V. (1965), Optimum Sampling Strategies and some Related Problems, Thèse de doctorat, Indian Statistical Institute. Hanurav, T.V. (1966), Some aspects of unified sampling theory, Sankhyā, A28, 175-204. Hanurav, T.V. (1967), Optimum utilization of auxiliary information : IIPS sampling of two units from a stratum, Journal of the Royal Statistical Society, B29, 374-391. Hanurav, T.V. (1968), Hyper-admissibility and optimum estimators for sampling finite population, Annals of Mathematical Statistics, 39, 621-642. Hartley, H.O. y Rao, J.N.K. (1962), Sampling with unequal probabilities and without replacement, Annals of Mathematical Statistics, 33, 350-374. Hartley, H.O. y Rao, J.N.K (1968), A new estimation theory for sample survey, Biometrika, 55, 547-557. Hedayat, A.S., Majumdar, Dibyen (1995), Generating desirable sampling plans by the technique of trade-off in experimental design, Journal of Statistical Planning and Inference, 44, 237-247. Hedayat, A.S., y Sinha, B.K. (1991), Finite Population Sampling, New York, Wiley. Hedayat, A.S., Bing-Ying Lin y Stufken, J. (1989), The construction of ΠP S sampling designs through a method of emptying boxes, Annals of Statistics, 4, 1886-1905. Holt, D. y Smith, T.M.F. (1979), Poststratification, Journal of the Royal Statistical Society, A142, Part 1, 33-46. Horvitz, D.G. y Thompson, D.J. (1952), A generalization of sampling without replacement from a finite universe, Journal of the American Statistical Association, 47, 663-685. Ireland, C.T. y Kullback, S. (1968), Contingency tables with given marginals, Biometrika, 55, 179-188. Isaki, C.T. y Fuller, W.A. (1982), Survey design under a regression population model, Journal of the American Statistical Association, 77, 89-96. Jagers, P. (1986), Poststratification against bias in sampling, International Statistical Review, 54, 159-167. Jagers, P., Odén, A. y Trulsson, L. (1985), Poststratification and ratio estimation : usages of auxiliary information in survey sampling and opinion polls, International Statistical Review, 53, 221-238. Jessen, R.J. (1978), Statistical Survey Techniques, New York, Wiley. Johnson, N.L. y Smith, H. Éds. (1969), New Developments in Survey Sampling, New York, Wiley. Johnson, N.L, Kotz, S. y Kemp, A.W. (1992), Univariate Discrete Distributions, New York, Wiley. Keverberg, Baron de, (1827), Notes,in Quetelet, A., Nouveaux Mémoires de l’Académie royale des Sciences y Belles Lettres de Bruxelles, 4, 175-192. Kiaer, A. (1896), Observations y expériences concernant des dénombrements représentatifs, Bulletin de l’Institut International de Statistique, Berne, 9, livre 2, 176-183. Kish, L. (1965), Survey Sampling, New York, Wiley. Konijn, H.S. (1973), Statistical Theory of Sample Survey Design and Analysis, North-Holland, Amsterdam. Konijn, H.S. (1981), Biases, variances and covariances of raking ratio estimators for marginal and cell totals and averages of observed characteristics, Metrika, 28, 109-121. Lanke, J. (1973), On the UMV-estimators in survey sampling, Metrika, 20, 196-202. Lanke, J. (1975), Some contributions to the theory of survey sampling, Lund, AV-Centralen. Lavallée, P. y Hidiroglou, M.A. (1987), On the stratification of skewed populations, Sur la stratification de populations asymétriques, Survey Methodology, Techniques d’enquête, 14, 33-43. Laplace, S.P., (1847), Théorie analytique des probabilités, Paris, Imprimerie royale. McLeod, A.I. y Bellhouse, D.R. (1983), A convenient algorithm for drawing a simple random sampling, Applied Statistics, 32, 182-184. Madow, W.G. (1948), On the limiting distribution based on samples from finite universes, Annals of Mathematical Statistics, 19, 535-545. Madow, W.G. (1949), On the theory of systematic sampling, II, Annals of Mathematical Statistics, 20, 333-354. Marcus, M. et Minc, H. (1964), A survey of matrix theory and matrix inequalities. Boston : Allyn and Bacon. Montanari, G.E. (1987), Post sampling efficient QR-prediction in large sample survey, International Statistical Review, 55, 191-202. Narain, R.D. (1951), On sampling without replacement with varying probabilities, Journal of Indian Society for Agricultural Statistics, 3, 169-174. Neyman, J., (1934), On the two different aspects of representative method : the method of stratified sampling and the method of purposive selection, Journal of the Royal Statistical Society, 97, 558-606. Owen, D.B., Cochran, W.G. (1976), On the history of statistics and probability, Proceedings of a Symposium on the American Mathematical Heritage, to celebrate the bicentennial of the United States of America, held at Southern Methodist University, New York, M. Dekker. 77 Raj, D. (1968), Sampling Theory, New York, McGraw-Hill. Raj, D. y Khamis, S.D. (1958), Some remarks on sampling with replacement, Annals of Mathematical Statistics, 29, 550-557. Rao, T.J. (1971), Π-ps sampling designs and the H.T. estimator, Journal of the American Statistical Association, 66, 872-875. Rao, C.R. (1971), Some aspects of statistical inference in problems of sampling from finite population,in Godambe, V.P. y Sprott, D.A. Éds., Foundations of Statistical Inference, Toronto, Montréal. Rao, J.N.K. (1975), On the foundations of survey sampling,in Shrivastava, J.N. Éds., A Survey of Statistical Design and Lineal Models, La Haye, North Holland, pp. 489-505. Rao, J. N. K. (1985), Conditional inference in survey sampling, Inférence conditionelle dans les enquêtes par sondage, Survey Methodology, Techniques d’enquête, 11, 15-31. Rao, J. N. K. (1994), Estimating totals and distribution functions using auxiliary information at the estimation stage, Journal of Official Statistics, 10, 153-165. Rao, J. N. K. (1997), Development in sample survey theory : an appraisal, Canadian Journal of Statistics, 25, 1-21. Rao, J.N.K., Hartley, H.O. y Cochran, W.G. (1962), On a simple procedure of unequal probability sampling without replacement, Journal of the Royal Statistical Society, B24, 482-491. Rosen (1972a), Asymptotic theory for successive sampling I, Annals of Mathematical Statistics, 43, 373-397. Rosen (1972b), Asymptotic theory for successive sampling II, Annals of Mathematical Statistics, 43, 748-776. Royall, R., (1968), An old approach to finite population sampling theory, Journal of the American Statistical Association, 63, 1269-1279. Royall, R., (1970), On finite population sampling theory under certain lineal regression models, Biometrika, 57, 377-387. Royall, R., (1971), Lineal regression models in finite population sampling theory, in Godambe, V.P. y Sprott, D.A. Éds., Foundations of Statistical Inference, Toronto, Montréal. Royall, R., (1976), The lineal least squares prediction approach to two-stage sampling, Journal of the American Statistical Association, 71, 657-664. Royall, R. y Cumberland, W.G. (1981), An empirical study of the ratio estimator and its variance, Journal of the American Statistical Association, 76, 66-77. Royall, R. y Eberhardt, K.R. (1975), Variance estimates for the ratio estimator, Sankhyā, C37, 43-52. Royall, R. y Herson, J. (1973a), Robust estimation in finite populations I, Journal of the American Statistical Association, 68, 880-889. Royall, R. y Herson, J. (1973b), Robust estimation in finite populations II : stratification on a size variable, Journal of the American Statistical Association, 68, 891-893. Särndal, C.-E. (1980), On π-inverse weighting versus best lineal unbiased weighting in probability sampling, Biometrika, 67, 639-650. Särndal, C.-E (1982), Implication of survey design for generalized regression estimation of lineal functions, Journal of Statistical Planning and Inference, 7, 155-170. Särndal, C.-E. (1984), Inférence statistique y analyse des données sous des plans d’échantillonnage complexes, Montréal, Presses de l’Université de Montréal. Särndal, C.-E. (1984), Design-Consistent versus Model dependent estimation for small domains, Journal of the American Statistical Association, 68, 880-889. Särndal, C.-E. y Swensson, B. (1987), A general view of estimation for two phases of selection with applications to two-phase sampling and non-response, International Statistical Review, 55, 279-294. Särndal, C.-E., Swensson, B. y Wretman, J.H. (1989), The weighted residual technique for estimating the variance of the general regression estimator of the finite population total, Biometrika, 76, 527-537. Särndal, C.-E., Swensson, B. y Wretman, J.H. (1992), Model Assisted Survey Sampling, New York, Springer Verlag. Särndal, C.-E. y Wright, R.L. (1984), Cosmetic form of estimators in survey sampling, Scandinavian Journal of Statistics, 11, 146-156. Scott, A.J. (1975a), On admissibility and uniform admissibility in the finite sampling, Annals of Statistics, 2, 489-491. Scott, A.J. (1975b), Some comments on the problem of randomization in surveys, Proceedings of the 40th Session of the International Statistical Institute, Varsovie. Sen, A.R. (1953), On the estimate of the variance in sampling with varying probabilities, Journal of Indian Society for Agricultural Statistics, 5, 119-127. Sengupta, S. (1989), On Chao’s unequal probability sampling plan, Biometrika, 76, 192-196. Serfling, R.J. (1980), Approximation Theorems of Mathematical Statistics, New York, Wiley. Sheynin O.B. (1986), Adolphe Quetelet as a statistician, Archive for History of Exact Science, 36, 282-325. 78 Sinha, B.K. (1973), On sampling schemes to realize preassigned sets of inclusion probabilities of first two orders, Bulletin of the Calcutta Statistical Association, 22, 89-110. Skinner, C.J. (1991), On the efficiency of raking estimation for multiple frame surveys, Journal of the American Statistical Association, 86, 779-784. Smith, T.M.F. (1976), The foundations of survey sampling : a review, Journal of the Royal Statistical Society, A139, 183-204. Stephan, F. (1942), An iterative method of adjusting sample frequency data tables when expected marginal totals are known, Annals of Mathematical Statistics, 13, 166-178. Stephan, F. (1945), The expected value and variance of the reciprocal and other negative powers of a positive Bernoullan variate, Annals of Mathematical Statistics, 16, 50-61. Stephan, F. (1948), History of the uses of modern sampling procedures, Journal of the American Statistical Association, 43, 12-49. Sukhatme, P.V, Sukhatme, B.V. (1970), Sampling Theory of Surveys with Applications, 2ème édition, London, Asia Publishing House. Sunter, A. (1977), List sequential sampling with equal or unequal probabilities without replacement, Applied Statistics, 26, 261-268. Sunter, A. (1986), Solutions to the problem of unequal probability sampling without replacement, International Statistical Review, 54, 33-50. Thionet, P. (1953). La théorie des sondages. Etudes théoriquew 5, INSEE, Paris, Imprimerie nationale. Thionet, P. (1959), L’ajustement des résultats des sondages sur ceux des dénombrements, Revue de l’Institut International de Statistique, 27, 8-25. Thionet, P. (1976), Construction y reconstruction de tableaux statistiques, Annales de l’INSEE, 22-23, 5-27. Thompson, S.K. (1992), Sampling, New York, Wiley. Tillé, Y. (1996a), An elimination procedure of unequal probability sampling without replacement, Biometrika, 83, 238-241. Tillé, Y. (1996b), Some remarks on unequal probability sampling designs without replacement, Annales d’ Économie y de Statistique, 44, 177-189. Tillé, Y. (1996c), A moving stratification algorithm, Un algorithme de stratification mobile, Survey Methodology, Techniques d’enquête, 22, 1, 85-94. Tillé, Y. (1998), Estimation in surveys using conditional inclusion probabilities : simple random sampling, International Statistical Review, 66, 303-322. Tillé, Y. (1999), Estimation in surveys using conditional inclusion probabilities : complex design, Estimation dans les enquêtes par sondage en utilisant des probabilités d’inclusion conditionnelles : plans complexes, Survey Methodology, Techniques d’enquête, 25, 57-66. Tillé, Y., Newman, J.A. y Healy, S.D. (1996), New tests for departures from random behavior in spatial memory experiments, Animal Learning and Behavior, 24, 327-340. Tillé, Y., (2001), Théorie des sondages, : échantillonnage et estimation en populations finies, Paris, Dunod. Tschuprow, A. (1923), On the mathematical expectation of the moments of frequency distributions in the case of correlated observation, Metron, 3, 461-493, 646-680. Wolter, K.M. (1985), Introduction to Variance Estimation, New York, Springer-Verlag. Woodruff, R.S. (1971), A simple method for approximating de variance of a complicated estimate, Journal of the American Statistical Association, 66, 411-414. Wynn, H.P. (1977), Convex sets of finite population plans, Annals of Statistics, 5, 414-418. Wright, R.L. (1983), Finite population sampling with multivariate auxiliary information, Journal of the American Statistical Association, 78, 879-884. Yates, F. (1949), Sampling Methods for Censuses and Surveys, London, Griffin. Yates, F. y Grundy, P.M. (1953), Selection without replacement from within strata with probability proportional to size, Journal of the Royal Statistical Society, B15, 235-261. 79