Estad´ıstica Oficial Selecting optimal balanced samples using

Anuncio
Boletı́n de Estadı́stica e Investigación Operativa
Vol. 29, No. 2, Junio 2013, pp. 118-128
Estadı́stica Oficial
Selecting optimal balanced samples using auxiliary
information with the Cube Method
Aritz Adin Urtasun
Departamento de Estadı́stica e Investigación Operativa
Universidad Pública de Navarra
B [email protected]
Inmaculada Gil Gil
Área de Metodologı́a Estadı́stico-Matemática, Innovación e I+D
Instituto Vasco de Estadı́stica \ Euskal Estatistika Erakundea
[email protected]
Abstract
Eustat, aware of the growing demand for increasingly disaggregated
quality statistics, organised the 23rd International Statistics Seminar in
2010, with the title “Balanced and Efficient Sampling: The Cube Method”.
Eustat aims to redefine current designs to obtain samples that provide
quality estimators for more disaggregated areas or domains at the same or
a similar cost. In this paper, we explain the Cube Method for selecting balanced samples, a method that allows us to use all the available auxiliary
information for selecting optimal balanced random samples keeping the
original design of the sample. The outcomes of the research have been implemented in several statistical operations in 2010-2012 Basque Statistics
Plan. One of the last results will be shown here.
Keywords: Sampling design, inclusion probabilities, Horvitz-Thompson
estimator, balanced sampling, Cube Method, stratification, calibration.
AMS Subject classifications: 62D05
1. Introducción
Eustat, consciente de la creciente demanda de estadı́sticas de calidad cada
vez más desagregadas, organizó en 2010 el XXIII Seminario Internacional de
Estadı́stica con el tı́tulo “Muestreo equilibrado y eficiente: el Método del Cubo”, Tillé (2010). El objetivo de Eustat es redefinir los diseños actuales, para
que con el mismo o similar coste se puedan obtener muestras que proporcionen
estimadores de calidad para ámbitos o dominios mas desagregados.
c 2013 SEIO
!
119
A. Adin, I. Gil
Este trabajo se enmarca dentro del proyecto de investigación realizado por
Eustat en los años 2010-2012, cuyos resultados han sido publicados en el cuaderno técnico “El Método del Cubo: aplicaciones del muestreo equilibrado en la
Organización Estadı́stica Vasca” (Adin (2013)).
El Método del Cubo, permite utilizar toda la información auxiliar disponible de la población objetivo para seleccionar muestras sin necesidad de tener
que introducir esta información auxiliar en forma de variables de estratificación.
Manteniendo el diseño original de una muestra, es decir, teniendo en cuenta las
probabilidades de inclusión asociadas a cada elemento de la población, permite
seleccionar muestras aleatorias de manera que los estimadores de las variables
de equilibrio en la muestra sean iguales o muy similares a los totales de estas
variables en la población.
La organización del artı́culo es la siguiente. En la Sección 2 se definen las
muestras equilibradas, introduciendo conceptos básicos como diseños muestrales, probabilidades de inclusión o estimadores de Horvitz-Thompson, mientras
que en la Sección 3 se describirá brevemente el Método del Cubo y su implementación. En la Sección 4 se hablará sobre el interés y las ventajas del muestreo
equilibrado, mostrando cómo utilizar la información auxiliar disponible diferenciando entre variables de estratificación y variables de equilibrio y se explicará
cómo se integran las estrategias de equilibrio y calibración a la hora de realizar
el cálculo de elevadores. Finalmente, en la Sección 5 se presentará una de las
últimas muestras equilibradas en Eustat con el Método del Cubo, la muestra
para la Encuesta de Presupuestos del Tiempo (EPT) 2013.
2. Muestreo equilibrado
Sea U = {1, . . . , N } una población finita de tamaño N y sea Y una variable
de interés que toma los valores yk , k ∈ U , donde el objetivo es estimar el total
o la media definidos como
Y =
!
k∈U
yk
e
Y =
1 !
yk .
N
k∈U
Para poder entender el Método del Cubo, supongamos que una muestra es en
realidad un vector s = (s1 , . . . , sk , . . . , sN )t donde sk toma el valor 1 si la unidad
k está en la muestra y 0 en caso contrario. Geométricamente, cada vector s
representa un vértice de un cubo N -dimensional (N -cubo).
Por lo tanto, un diseño muestral p(·) consiste en una distribución de probabilidad de todas las posibles muestras sobre el conjunto S = {0, 1}N , definiendo
la probabilidad de inclusión como la probabilidad de que la unidad k sea selec-
Selecting optimal balanced samples with the Cube Method
120
Figura 1: Muestras posibles en una población de tamaño N = 3
cionada en la muestra aleatoria
πk = E(sk ) = P (Sk = 1) =
!
p(s)sk .
s∈S
Se define el estimador de Horvitz-Thompson para el total de la variable de
interés Y como
!
! yk
yk
=
.
Y"π =
Sk
πk
πk
k∈U
k∈s
Por lo tanto, se dice que una muestra s es equilibrada sobre las variables
x1 , x2 , . . . , xp si se verifican las ecuaciones de equilibrio
X̂π = X ⇔
! xkj
k∈s
πk
=
!
k∈U
xkj
∀s ∈ S con p(s) > 0
.
j = 1, . . . , p
(2.1)
Es decir, que los estimadores de H-T de las variables x1 , x2 , . . . , xp en la
muestra son iguales a los totales de estas variables en la población. El vector
de probabilidades de inclusión π estará siempre predeterminado por el propio
diseño muestral.
3. El Método del Cubo
El Método del Cubo, presentado en Deville y Tillé (2004), es un método
que permite seleccionar muestras equilibradas con probabilidades de inclusión
iguales o desiguales, optimizando los métodos de muestreo probabilı́sticos. Es
decir, respetando el diseño original de la muestra, permite utilizar el resto de la
información auxiliar disponible.
Intuitivamente, este método permite mantener las proporciones de la población original en la muestra sobre ciertas variables de equilibrio (variables cualitativas), teniendo siempre en cuenta las probabilidades de inclusión del diseño.
Los algoritmos desarrollados por Guillaume Chauvet e Yves Tillé que implementan el Método del Cubo, se encuentran disponibles tanto en SAS1 como en
1 http://www2.unine.ch/statistics/page-4208.html
121
A. Adin, I. Gil
el paquete sampling 2 de R.
En Eustat se ha optado por trabajar con las macros de SAS, elaborando macros auxiliares y modificando ligeramente los algoritmos originales con el objetivo
de adecuarlos a los complejos diseños muestrales que se llevan a cabo dentro de
la Organización Estadı́stica Vasca, véase Adin (2013).
Dado que en la práctica no es posible seleccionar una muestra exactamente
equilibrada, el Método del Cubo implementa un algoritmo que selecciona muestras aproximadamente equilibradas. Para ello, el método consta de dos fases:
• Fase de vuelo
Es una generalización del método de escisión (Tillé (2005)). El método
general para llevar a cabo la fase de vuelo es utilizar una martingala equilibrada que comienza con el vector de probabilidades de inclusión π y
permanece en la intersección del cubo y el subespacio definido por las
ecuaciones de equilibrio (2.1). Los detalles acerca de una rápida implementación de la fase de vuelo se encuentran en Chauvet y Tillé (2006).
• Fase de aterrizaje
Si al final de la fase de vuelo una muestra (un vértice del N -cubo) no ha
sido seleccionada, se deberá de aplicar la fase de aterrizaje.
Existen varias alternativas para esta fase tales como
– Eliminar progresivamente las variables de equilibrio y volver a aplicar
la fase de vuelo (suprimir las variables en orden de menor a mayor
importancia).
– Utilizar la programación lineal para minimizar la diferencia en equilibrio tal y como se muestra en Tillé (2005) (estrategia no recomendable
cuando el número de variables de equilibrio sea mayor que 20).
– Redondear las probabilidades de inclusión para las unidades restantes,
manteniendo el tamaño muestral predeterminado.
4. Interés y ventajas del muestreo equilibrado
Seleccionar muestras equilibradas con el Método del Cubo, aumenta la exactitud del estimador de Horvitz-Thompson. La varianza del estimador solo depende
de la correlación entre la variable de interés y las variables de equilibrio. Por ello,
las variables auxiliares escogidas como variables de equilibrio deben estar fuertemente correlacionadas con las variables de interés relativas a la población de
estudio.
En la muestra seleccionada por Eustat para la Encuesta de Euskadi y Drogas
2012, las variables de equilibrio fueron escogidas en función de las caracterı́sticas
2 http://cran.r-project.org/web/packages/sampling/index.html
Selecting optimal balanced samples with the Cube Method
122
de la encuesta y de los grupos poblacionales objeto de estudio. Concretamente,
las variables sobre las que se equilibró la muestra fueron el número de individuos
en cada una de las comarcas sanitarias de la Comunidad Autónoma de Euskadi
y el número de individuos por tamaño de los municipios, sexo y nacionalidad.
Sin embargo, en encuestas de tipo económico, debido a los complejos diseños
muestrales (variables de estratificación que producen muchos estratos, tamaños
de muestra mı́nimo, elementos autorepresentados, encuestas de tipo panel, etc.)
y a la falta de información auxiliar disponible, el uso de las variables de equilibrio
es mucho más limitado. En la muestra para la Encuesta de de la Sociedad de
la Información (ESI-Empresas) elaborada por Eustat, solo fue posible equilibrar
la muestra sobre el número de establecimientos por comarca. Aun ası́, estas
variables permiten definir dominios dentro del cruce de los estratos, obteniendo
mejores estimaciones a nivel comarcal.
Figura 2: Representación del cruce de estratos sobre la población y dominios de
las variables de equilibrio
Se trata de un método muy interesante para la selección de unidades primarias en una muestra multi-etápica. En la muestra para la Encuesta de Pobreza y
Desigualdades Sociales 2012, no sólo se seleccionó una muestra equilibrada para
las viviendas (unidades muestrales), también se seleccionó una muestra equilibrada de secciones censales (unidades primarias de la muestra) que permiten
obtener una buena representación de la población completa en la primera etapa
de la muestra. Es importante tener en cuenta que las variables equilibradas en
la segunda etapa deben haber sido equilibradas previamente en la primera etapa.
La mayor ventaja de la estratificación, es que nos permite dividir la población en subpoblaciones más homogéneas, obteniendo estimadores más precisos
y reduciendo la varianza de muestreo. Aun ası́, utilizar muchas variables de estratificación puede producir estratos demasiado pequeños en donde el tamaño
muestral es insuficiente, además de los problemas que pueda acarrear la falta de
respuesta en dichos estratos. Las variables de equilibrio permiten añadir información auxiliar relativa a aquellas variables que no puedan entran en la estratificación múltiple, manteniendo las ventajas de la estratificación y reduciendo aun
más la varianza del estimador. A diferencia de las variables de estratificación,
pueden utilizarse variables de equilibrio cuantitativas como información auxiliar.
123
A. Adin, I. Gil
El Departamento de Educación, Universidades e Investigación, por medio del
Instituto Vasco de Evaluación e Investigación (ISEI-IVEI), realiza una encuesta
a alumnado de ESO sobre el maltrato escolar en los centros de la Comunidad
Autónoma de Euskadi. En la muestra de centros seleccionada por Eustat para
la encuesta del año 2012, se decidió equilibrar la muestra con el Método del
Cubo para poder introducir la información auxiliar disponible sin necesidad de
incrementar el número de estratos de la muestra (Territorio Histórico3 y Red4 ).
Las variables de equilibrio utilizadas fueron el número de alumnos y número de
grupos por curso, lo cual permitió que los estimadores en la muestra de la media
de alumnos por centro y la media de alumnos por grupo fueran prácticamente
las mismas que las de la población.
Finalmente, describimos cómo se integran las estrategias de equilibrio y calibración. Los métodos de calibración, permiten utilizar variables auxiliares relativas a las unidades muestrales recogidas de la muestra para “reponderar” los
pesos de muestreo ajustándolos a dicha información auxiliar. A diferencia del
equilibrio y la estratificación, para la calibración solamente se deben conocer los
valores de las variables auxiliares sobre las unidades de la muestra, ası́ como los
totales (o proporciones) de estas variables en la población. La mejor estrategia
es usar equilibrio y calibración juntos (ver simulación en Deville y Tillé (2004)).
Figura 3: Distribuciones de la variable f para la ECS 2007 y 2012
Si una muestra ha sido previamente equilibrada sobre las mismas variables
auxiliares que se van a utilizar en la calibración, generalmente se obtienen me3 Provincias
4 Pública
de Araba, Gipuzkoa y Bizkaia.
y privada.
Selecting optimal balanced samples with the Cube Method
124
jores resultados para los elevadores finales (al utilizar el método CALMAR5
por ejemplo), puesto que sufren una menor desviación respecto a los elevadores
iniciales o pesos de muestreo.
Este efecto es claramente observable al comparar los resultados obtenidos
para la calibración de la Encuesta de Capital Social (ECS) en los años 2007
y 2012, esta última equilibrada con el Método del Cubo. Se define la variable
∗
f = whi
/whi como la razón entre los pesos finales y los pesos iniciales y se compara la distribución de f para cada una de las encuestas (ver Figura 3). Se observa
que al equilibrar la muestra de la ECS 2012 sobre las variables de calibración, se
han obtenido unos pesos finales mucho menos alejados de los pesos iniciales que
en la ECS 2007 (incremento máximo del 29 % frente al 132 % y un decremento
máximo del 20 % frente al 58 %).
Aparte del ejemplo presentado en esta sección, otros varios se encuentran
detalladamente descritos en el cuaderno técnico publicado por Eustat (ver Adin,
2013). En él se describen los diseños muestrales que han sido redefinidos por
Eustat utilizando el Método del Cubo durante el año 2012, ası́ como algunos de
los resultados obtenidos.
5. Muestra para la Encuesta de Presupuestos de Tiempo
(EPT)
La operación Encuesta de Presupuestos de Tiempo (EPT), de periodicidad
quinquenal, ofrece información exhaustiva acerca de los hábitos sociales y la vida
cotidiana de la población desde la perspectiva del empleo de su tiempo diario,
computando su distribución –o presupuesto- entre las actividades desarrolladas
a lo largo de una jornada. La operación proporciona información útil para el
análisis social desde la perspectiva de género y también para elaborar la Cuenta
Satélite de la Producción Doméstica de la C.A. de Euskadi.
En el año 2013, se decide seleccionar la muestra para la EPT utilizando el Método del Cubo. De esta manera, hemos logrado obtener una muestra equilibrada
por sexo, edad, nacionalidad y tamaño familiar en cada uno de los Territorios
Históricos.
Marco
El marco de la muestra de la EPT lo componen todas las personas de 10 y más
años residentes en viviendas familiares ocupadas de la Comunidad Autónoma de
Euskadi y sus Territorios Históricos.
5 CALage sur MARges: Macro de SAS desarrollada por el INSEE que permite reponderar
los pesos de las unidades de la muestra utilizando la información auxiliar disponible (variables
de calibración)
125
A. Adin, I. Gil
Diseño muestral
Se trata de una muestra bietápica con estratificación en la primera etapa y
tamaño de muestra variable en función de las tasas de elegibilidad y no-respuesta
en la segunda etapa. Lo caracterı́stico de esta operación es que se realizan dos
tomas para un mejor estudio del uso del tiempo, la primera en el 2o trimestre del
año y la segunda en el último trimestre. La afijación en las dos tomas se supone
que es idéntica.
• 1.a etapa
Sorteo de las secciones censales de la Comunidad Autónoma de Euskadi.
Estratificación
Muestreo estratificado por el cruce de las variables Comarcas y capitales
(12 zonas) y Tipologı́as (9 tipos).
Tamaño de la muestra
Se seleccionan 418 secciones muestrales dividas en las dos tomas mencionadas.
Afijación
1. Proporcional a la raı́z cuadrada del no de individuos de 10 y más años
residentes en viviendas familiares por Territorios Históricos.
2. Proporcional al no de individuos por estrato (cruce de zonas y tipos).
Sorteo: Muestreo probabilı́stico y proporcional al tamaño (PPT), medido
en número de individuos de 10 años y más residentes en viviendas familiares.
• 2.a etapa
Sorteo de los individuos.
Afijación: Muestra teórica de 12 individuos por sección, ampliada en función de los ı́ndices de elegibilidad y tasa de no-respuesta calculadas a partir
de la operación del año 2008.
Tamaño de la muestra
Se obtiene un tamaño final de 7.509 individuos.
Sorteo: Sorteo aleatorio simple dentro de cada unidad primaria (sección).
• Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables tanto en la
primera etapa como en la segunda (42 variables de equilibrio)
– Número de individuos por Territorio Histórico y sexo (hombres y mujeres)
– Número de individuos por Territorio Histórico y edad (< 24, 25-34,
35-44, 45-54, 55-64 o >65 años)
– Número de individuos por Territorio Histórico y nacionalidad (nacional y extranjero)
– Número de individuos por Territorio Histórico y tamaño familiar (1,
2, 3-4 o más de 5 residentes)
126
Selecting optimal balanced samples with the Cube Method
Los resultados obtenidos con el Método del Cubo para las variables de equilibrio
de la EPT se encuentran en la Tabla 1.
ARABA
Poblacional
145.244
(49,8 %)
146.600
(50,2 %)
291.844
Hombres
Mujeres
TOTAL
GIPUZKOA
Muestral
145.528
(49,9 %)
146.316
(50,1 %)
291.844
Poblacional
313.509
(48,8 %)
329.114
(51,2 %)
642.623
Muestral
311.698
(48,5 %)
330.925
(51,5 %)
642.623
BIZKAIA
Poblacional
507.648
(48,2 %)
545.141
(51,8 %)
1.052.789
Muestral
508.314
(48,3 %)
544.475
(51,7 %)
1.052.789
Distribución por Territorio Histórico y sexo
ARABA
Poblacional
40.627
(13,9 %)
43.871
(15,0 %)
55.902
(19,2 %)
49.987
(17,1 %)
40.783
(14,0 %)
60.674
(20,8 %)
291.844
<24 años
25-34 años
35-44 años
45-54 años
55-64 años
>65 años
TOTAL
GIPUZKOA
Muestral
40.764
(14,0 %)
44.902
(15,4 %)
55.964
(19,2 %)
49.184
(16,9 %)
40.391
(13,8 %)
60.638
(20,8 %)
291.844
Poblacional
91.725
(14,3 %)
85.460
(13,3 %)
116.677
(18,2 %)
109.082
(17,0 %)
91.778
(14,3 %)
147.901
(23,0 %)
642.623
Muestral
91.239
(14,2 %)
86.801
(13,5 %)
115.651
(18,0 %)
108.174
(16,8 %)
91.847
(14,3 %)
148.911
(23,2 %)
642.623
BIZKAIA
Poblacional
138.841
(13,2 %)
145.225
(13,8 %)
189.288
(18,0 %)
182.504
(17,3 %)
150.610
(14,3 %)
246.321
(23,4 %)
1.052.789
Muestral
138.584
(13,2 %)
146.533
(13,9 %)
189.821
(18,0 %)
181.816
(17,3 %)
150.770
(14,3 %)
245.264
(23,3 %)
1.052.789
Distribución por Territorio Histórico y Edad
ARABA
Poblacional
263.672
(90,3 %)
28.172
(9,7 %)
291.844
Nacional
Extranjero
TOTAL
GIPUZKOA
Muestral
263.501
(90,3 %)
28.343
(9,7 %)
291.844
Poblacional
599.418
(93,3 %)
43.205
(6,7 %)
642.623
Muestral
598.531
(93,1 %)
44.092
(6,9 %)
642.623
BIZKAIA
Poblacional
980.896
(93,2 %)
71.893
(6,8 %)
1.052.789
Muestral
979.383
(93,0 %)
73.406
(7,0 %)
1.052.789
Distribución por Territorio Histórico y nacionalidad
ARABA
1 residente
2 residentes
3-4 residentes
>5 residentes
TOTAL
Poblacional
37.042
(12,7 %)
75.789
(26,0 %)
142.913
(49,0 %)
36.100
(12,4 %)
291.844
Muestral
36.494
(12,5 %)
75.650
(25,9 %)
143.144
(49,0 %)
36.557
(12,5 %)
291.844
GIPUZKOA
Poblacional
70.729
(11,0 %)
156.949
(24,4 %)
331.679
(51,6 %)
83.266
(13,0 %)
642.623
Muestral
71.732
(11,2 %)
156.975
(24,4 %)
330.706
(51,5 %)
83.210
(12,9 %)
642.623
BIZKAIA
Poblacional
111.835
(10,6 %)
262.086
(24,9 %)
550.434
(52,3 %)
128.434
(12,2 %)
1.052.789
Distribución por Territorio Histórico y tamaño familiar
Tabla 1: Resultados relativos a la EPT 2013
Muestral
112.331
(10,7 %)
262.602
(24,9 %)
549.551
(52,2 %)
128.304
(12,2 %)
1.052.789
127
A. Adin, I. Gil
Conclusiones
Eustat ha optado por utilizar el Método del Cubo para seleccionar muestras
equilibradas por varias razones. Uno de los aspectos más importantes es el hecho
de que el Método del Cubo permite mantener los diseños muestrales ya existentes para las diferentes operaciones estadı́sticas, añadiendo además información
auxiliar disponible que hasta ahora no podı́a ser aprovechada. De esta manera,
las muestras obtenidas podrı́an ser consideradas como versiones óptimas de sus
predecesoras.
Se trata de un método muy interesante a tener en cuenta por las oficinas de
estadı́stica, puesto que las muestras equilibradas permiten obtener estimaciones
mucho más precisas sobre el cruce de estratos o áreas pequeñas, obteniendo
estimadores de calidad sobre las distintas subpoblaciones de interés relativas a
cada encuesta.
Una de las futuras lı́neas investigación, es estudiar si la aplicación del Método
del Cubo para seleccionar muestras equilibradas permite obtener muestras más
precisas y de mayor calidad con un menor tamaño de muestra y su correspondiente reducción del coste económico.
Referencias
[1] Adin, A. (2013). El Método del Cubo: Aplicaciones del Muestreo Equilibrado en la Organización Estadı́stica Vasca. Instituto Vasco de Estadı́stica, Vitoria-Gasteiz. http://www.eustat.es/documentos/datos/CT_
muestreo_cubo_2012_c.pdf
[2] Chauvet, G. y Tillé, Y. (2005). Fast SAS Macros for balancing samples: user’s
guide. Software Manual, University of Neuchâtel. http://www2.unine.ch/
statistics/page-4208.html
[3] Chauvet, G. y Tillé, Y. (2006). A fast algorithm for balanced sampling.
Computational Statistics, 21(1):53-62.
[4] Deville, J.-C. y Tillé, Y. (2004). Efficient balanced sampling: the cube method. Biometrika, 91(4):893-912.
[5] Deville, J.-C. y Tillé, Y. (2005). Variance approximation under balanced
sampling. Journal of Statistical Planning and Inference, 128(2):569-591.
[6] Matei, A. y Tillé Y. (2006). The R sampling package. The Comprehensive
R Archive Network, Manual of the Contributed Packages. http://cran.
r-project.org/web/packages/sampling
[7] Tillé, Y. (2005). Teorı́a de Muestreo, Groupe de Statistique, Université de
Neuchâtel. http://www2.unine.ch/files/content/sites/statistics/
files/shared/documents/curso_teoria_de_muestreo.pdf
Selecting optimal balanced samples with the Cube Method
128
[8] Muestreo Equilibrado y Eficiente: el Método del Cubo(Vol.52). Instituto Vasco de Estadı́stica, Vitoria-Gasteiz. http://www.eustat.es/
productosServicios/datos/Seminario_52.pdf
Acerca de los autores
Aritz Adin Urtasun es Licenciado en Matemáticas por la Universidad del
Pais Vasco (2010). Durante los años 2011-2012 disfrutó de una beca de formación e investigación en el campo de las metodologı́as estadı́stico-matemáticas
de la producción estadı́stica oficial en Eustat (Instituto Vasco de Estadı́stica
/ Euskal Estatistika Erakundea). Actualmente trabaja como ayudante de investigación en el grupo de estadı́stica espacial de la Universidad Pública de Navarra.
Inmaculada Gil Gil es Licenciada en Ciencias Matemáticas por la Universidad
del Paı́s Vasco (1999). Durante los años 2002-2008 trabajó como docente en la
Escuela Técnica Superior de Ingenierı́a de Bilbao y en la Escuela Politécnica de
San Sebastián. Actualmente trabaja en Eustat (Instituto Vasco de Estadı́stica
/ Euskal Estatistika Erakundea) como técnica estadı́stica dentro del área de
Metodologı́a Innovación e I+D.
Descargar