Boletı́n de Estadı́stica e Investigación Operativa Vol. 29, No. 2, Junio 2013, pp. 118-128 Estadı́stica Oficial Selecting optimal balanced samples using auxiliary information with the Cube Method Aritz Adin Urtasun Departamento de Estadı́stica e Investigación Operativa Universidad Pública de Navarra B [email protected] Inmaculada Gil Gil Área de Metodologı́a Estadı́stico-Matemática, Innovación e I+D Instituto Vasco de Estadı́stica \ Euskal Estatistika Erakundea [email protected] Abstract Eustat, aware of the growing demand for increasingly disaggregated quality statistics, organised the 23rd International Statistics Seminar in 2010, with the title “Balanced and Efficient Sampling: The Cube Method”. Eustat aims to redefine current designs to obtain samples that provide quality estimators for more disaggregated areas or domains at the same or a similar cost. In this paper, we explain the Cube Method for selecting balanced samples, a method that allows us to use all the available auxiliary information for selecting optimal balanced random samples keeping the original design of the sample. The outcomes of the research have been implemented in several statistical operations in 2010-2012 Basque Statistics Plan. One of the last results will be shown here. Keywords: Sampling design, inclusion probabilities, Horvitz-Thompson estimator, balanced sampling, Cube Method, stratification, calibration. AMS Subject classifications: 62D05 1. Introducción Eustat, consciente de la creciente demanda de estadı́sticas de calidad cada vez más desagregadas, organizó en 2010 el XXIII Seminario Internacional de Estadı́stica con el tı́tulo “Muestreo equilibrado y eficiente: el Método del Cubo”, Tillé (2010). El objetivo de Eustat es redefinir los diseños actuales, para que con el mismo o similar coste se puedan obtener muestras que proporcionen estimadores de calidad para ámbitos o dominios mas desagregados. c 2013 SEIO ! 119 A. Adin, I. Gil Este trabajo se enmarca dentro del proyecto de investigación realizado por Eustat en los años 2010-2012, cuyos resultados han sido publicados en el cuaderno técnico “El Método del Cubo: aplicaciones del muestreo equilibrado en la Organización Estadı́stica Vasca” (Adin (2013)). El Método del Cubo, permite utilizar toda la información auxiliar disponible de la población objetivo para seleccionar muestras sin necesidad de tener que introducir esta información auxiliar en forma de variables de estratificación. Manteniendo el diseño original de una muestra, es decir, teniendo en cuenta las probabilidades de inclusión asociadas a cada elemento de la población, permite seleccionar muestras aleatorias de manera que los estimadores de las variables de equilibrio en la muestra sean iguales o muy similares a los totales de estas variables en la población. La organización del artı́culo es la siguiente. En la Sección 2 se definen las muestras equilibradas, introduciendo conceptos básicos como diseños muestrales, probabilidades de inclusión o estimadores de Horvitz-Thompson, mientras que en la Sección 3 se describirá brevemente el Método del Cubo y su implementación. En la Sección 4 se hablará sobre el interés y las ventajas del muestreo equilibrado, mostrando cómo utilizar la información auxiliar disponible diferenciando entre variables de estratificación y variables de equilibrio y se explicará cómo se integran las estrategias de equilibrio y calibración a la hora de realizar el cálculo de elevadores. Finalmente, en la Sección 5 se presentará una de las últimas muestras equilibradas en Eustat con el Método del Cubo, la muestra para la Encuesta de Presupuestos del Tiempo (EPT) 2013. 2. Muestreo equilibrado Sea U = {1, . . . , N } una población finita de tamaño N y sea Y una variable de interés que toma los valores yk , k ∈ U , donde el objetivo es estimar el total o la media definidos como Y = ! k∈U yk e Y = 1 ! yk . N k∈U Para poder entender el Método del Cubo, supongamos que una muestra es en realidad un vector s = (s1 , . . . , sk , . . . , sN )t donde sk toma el valor 1 si la unidad k está en la muestra y 0 en caso contrario. Geométricamente, cada vector s representa un vértice de un cubo N -dimensional (N -cubo). Por lo tanto, un diseño muestral p(·) consiste en una distribución de probabilidad de todas las posibles muestras sobre el conjunto S = {0, 1}N , definiendo la probabilidad de inclusión como la probabilidad de que la unidad k sea selec- Selecting optimal balanced samples with the Cube Method 120 Figura 1: Muestras posibles en una población de tamaño N = 3 cionada en la muestra aleatoria πk = E(sk ) = P (Sk = 1) = ! p(s)sk . s∈S Se define el estimador de Horvitz-Thompson para el total de la variable de interés Y como ! ! yk yk = . Y"π = Sk πk πk k∈U k∈s Por lo tanto, se dice que una muestra s es equilibrada sobre las variables x1 , x2 , . . . , xp si se verifican las ecuaciones de equilibrio X̂π = X ⇔ ! xkj k∈s πk = ! k∈U xkj ∀s ∈ S con p(s) > 0 . j = 1, . . . , p (2.1) Es decir, que los estimadores de H-T de las variables x1 , x2 , . . . , xp en la muestra son iguales a los totales de estas variables en la población. El vector de probabilidades de inclusión π estará siempre predeterminado por el propio diseño muestral. 3. El Método del Cubo El Método del Cubo, presentado en Deville y Tillé (2004), es un método que permite seleccionar muestras equilibradas con probabilidades de inclusión iguales o desiguales, optimizando los métodos de muestreo probabilı́sticos. Es decir, respetando el diseño original de la muestra, permite utilizar el resto de la información auxiliar disponible. Intuitivamente, este método permite mantener las proporciones de la población original en la muestra sobre ciertas variables de equilibrio (variables cualitativas), teniendo siempre en cuenta las probabilidades de inclusión del diseño. Los algoritmos desarrollados por Guillaume Chauvet e Yves Tillé que implementan el Método del Cubo, se encuentran disponibles tanto en SAS1 como en 1 http://www2.unine.ch/statistics/page-4208.html 121 A. Adin, I. Gil el paquete sampling 2 de R. En Eustat se ha optado por trabajar con las macros de SAS, elaborando macros auxiliares y modificando ligeramente los algoritmos originales con el objetivo de adecuarlos a los complejos diseños muestrales que se llevan a cabo dentro de la Organización Estadı́stica Vasca, véase Adin (2013). Dado que en la práctica no es posible seleccionar una muestra exactamente equilibrada, el Método del Cubo implementa un algoritmo que selecciona muestras aproximadamente equilibradas. Para ello, el método consta de dos fases: • Fase de vuelo Es una generalización del método de escisión (Tillé (2005)). El método general para llevar a cabo la fase de vuelo es utilizar una martingala equilibrada que comienza con el vector de probabilidades de inclusión π y permanece en la intersección del cubo y el subespacio definido por las ecuaciones de equilibrio (2.1). Los detalles acerca de una rápida implementación de la fase de vuelo se encuentran en Chauvet y Tillé (2006). • Fase de aterrizaje Si al final de la fase de vuelo una muestra (un vértice del N -cubo) no ha sido seleccionada, se deberá de aplicar la fase de aterrizaje. Existen varias alternativas para esta fase tales como – Eliminar progresivamente las variables de equilibrio y volver a aplicar la fase de vuelo (suprimir las variables en orden de menor a mayor importancia). – Utilizar la programación lineal para minimizar la diferencia en equilibrio tal y como se muestra en Tillé (2005) (estrategia no recomendable cuando el número de variables de equilibrio sea mayor que 20). – Redondear las probabilidades de inclusión para las unidades restantes, manteniendo el tamaño muestral predeterminado. 4. Interés y ventajas del muestreo equilibrado Seleccionar muestras equilibradas con el Método del Cubo, aumenta la exactitud del estimador de Horvitz-Thompson. La varianza del estimador solo depende de la correlación entre la variable de interés y las variables de equilibrio. Por ello, las variables auxiliares escogidas como variables de equilibrio deben estar fuertemente correlacionadas con las variables de interés relativas a la población de estudio. En la muestra seleccionada por Eustat para la Encuesta de Euskadi y Drogas 2012, las variables de equilibrio fueron escogidas en función de las caracterı́sticas 2 http://cran.r-project.org/web/packages/sampling/index.html Selecting optimal balanced samples with the Cube Method 122 de la encuesta y de los grupos poblacionales objeto de estudio. Concretamente, las variables sobre las que se equilibró la muestra fueron el número de individuos en cada una de las comarcas sanitarias de la Comunidad Autónoma de Euskadi y el número de individuos por tamaño de los municipios, sexo y nacionalidad. Sin embargo, en encuestas de tipo económico, debido a los complejos diseños muestrales (variables de estratificación que producen muchos estratos, tamaños de muestra mı́nimo, elementos autorepresentados, encuestas de tipo panel, etc.) y a la falta de información auxiliar disponible, el uso de las variables de equilibrio es mucho más limitado. En la muestra para la Encuesta de de la Sociedad de la Información (ESI-Empresas) elaborada por Eustat, solo fue posible equilibrar la muestra sobre el número de establecimientos por comarca. Aun ası́, estas variables permiten definir dominios dentro del cruce de los estratos, obteniendo mejores estimaciones a nivel comarcal. Figura 2: Representación del cruce de estratos sobre la población y dominios de las variables de equilibrio Se trata de un método muy interesante para la selección de unidades primarias en una muestra multi-etápica. En la muestra para la Encuesta de Pobreza y Desigualdades Sociales 2012, no sólo se seleccionó una muestra equilibrada para las viviendas (unidades muestrales), también se seleccionó una muestra equilibrada de secciones censales (unidades primarias de la muestra) que permiten obtener una buena representación de la población completa en la primera etapa de la muestra. Es importante tener en cuenta que las variables equilibradas en la segunda etapa deben haber sido equilibradas previamente en la primera etapa. La mayor ventaja de la estratificación, es que nos permite dividir la población en subpoblaciones más homogéneas, obteniendo estimadores más precisos y reduciendo la varianza de muestreo. Aun ası́, utilizar muchas variables de estratificación puede producir estratos demasiado pequeños en donde el tamaño muestral es insuficiente, además de los problemas que pueda acarrear la falta de respuesta en dichos estratos. Las variables de equilibrio permiten añadir información auxiliar relativa a aquellas variables que no puedan entran en la estratificación múltiple, manteniendo las ventajas de la estratificación y reduciendo aun más la varianza del estimador. A diferencia de las variables de estratificación, pueden utilizarse variables de equilibrio cuantitativas como información auxiliar. 123 A. Adin, I. Gil El Departamento de Educación, Universidades e Investigación, por medio del Instituto Vasco de Evaluación e Investigación (ISEI-IVEI), realiza una encuesta a alumnado de ESO sobre el maltrato escolar en los centros de la Comunidad Autónoma de Euskadi. En la muestra de centros seleccionada por Eustat para la encuesta del año 2012, se decidió equilibrar la muestra con el Método del Cubo para poder introducir la información auxiliar disponible sin necesidad de incrementar el número de estratos de la muestra (Territorio Histórico3 y Red4 ). Las variables de equilibrio utilizadas fueron el número de alumnos y número de grupos por curso, lo cual permitió que los estimadores en la muestra de la media de alumnos por centro y la media de alumnos por grupo fueran prácticamente las mismas que las de la población. Finalmente, describimos cómo se integran las estrategias de equilibrio y calibración. Los métodos de calibración, permiten utilizar variables auxiliares relativas a las unidades muestrales recogidas de la muestra para “reponderar” los pesos de muestreo ajustándolos a dicha información auxiliar. A diferencia del equilibrio y la estratificación, para la calibración solamente se deben conocer los valores de las variables auxiliares sobre las unidades de la muestra, ası́ como los totales (o proporciones) de estas variables en la población. La mejor estrategia es usar equilibrio y calibración juntos (ver simulación en Deville y Tillé (2004)). Figura 3: Distribuciones de la variable f para la ECS 2007 y 2012 Si una muestra ha sido previamente equilibrada sobre las mismas variables auxiliares que se van a utilizar en la calibración, generalmente se obtienen me3 Provincias 4 Pública de Araba, Gipuzkoa y Bizkaia. y privada. Selecting optimal balanced samples with the Cube Method 124 jores resultados para los elevadores finales (al utilizar el método CALMAR5 por ejemplo), puesto que sufren una menor desviación respecto a los elevadores iniciales o pesos de muestreo. Este efecto es claramente observable al comparar los resultados obtenidos para la calibración de la Encuesta de Capital Social (ECS) en los años 2007 y 2012, esta última equilibrada con el Método del Cubo. Se define la variable ∗ f = whi /whi como la razón entre los pesos finales y los pesos iniciales y se compara la distribución de f para cada una de las encuestas (ver Figura 3). Se observa que al equilibrar la muestra de la ECS 2012 sobre las variables de calibración, se han obtenido unos pesos finales mucho menos alejados de los pesos iniciales que en la ECS 2007 (incremento máximo del 29 % frente al 132 % y un decremento máximo del 20 % frente al 58 %). Aparte del ejemplo presentado en esta sección, otros varios se encuentran detalladamente descritos en el cuaderno técnico publicado por Eustat (ver Adin, 2013). En él se describen los diseños muestrales que han sido redefinidos por Eustat utilizando el Método del Cubo durante el año 2012, ası́ como algunos de los resultados obtenidos. 5. Muestra para la Encuesta de Presupuestos de Tiempo (EPT) La operación Encuesta de Presupuestos de Tiempo (EPT), de periodicidad quinquenal, ofrece información exhaustiva acerca de los hábitos sociales y la vida cotidiana de la población desde la perspectiva del empleo de su tiempo diario, computando su distribución –o presupuesto- entre las actividades desarrolladas a lo largo de una jornada. La operación proporciona información útil para el análisis social desde la perspectiva de género y también para elaborar la Cuenta Satélite de la Producción Doméstica de la C.A. de Euskadi. En el año 2013, se decide seleccionar la muestra para la EPT utilizando el Método del Cubo. De esta manera, hemos logrado obtener una muestra equilibrada por sexo, edad, nacionalidad y tamaño familiar en cada uno de los Territorios Históricos. Marco El marco de la muestra de la EPT lo componen todas las personas de 10 y más años residentes en viviendas familiares ocupadas de la Comunidad Autónoma de Euskadi y sus Territorios Históricos. 5 CALage sur MARges: Macro de SAS desarrollada por el INSEE que permite reponderar los pesos de las unidades de la muestra utilizando la información auxiliar disponible (variables de calibración) 125 A. Adin, I. Gil Diseño muestral Se trata de una muestra bietápica con estratificación en la primera etapa y tamaño de muestra variable en función de las tasas de elegibilidad y no-respuesta en la segunda etapa. Lo caracterı́stico de esta operación es que se realizan dos tomas para un mejor estudio del uso del tiempo, la primera en el 2o trimestre del año y la segunda en el último trimestre. La afijación en las dos tomas se supone que es idéntica. • 1.a etapa Sorteo de las secciones censales de la Comunidad Autónoma de Euskadi. Estratificación Muestreo estratificado por el cruce de las variables Comarcas y capitales (12 zonas) y Tipologı́as (9 tipos). Tamaño de la muestra Se seleccionan 418 secciones muestrales dividas en las dos tomas mencionadas. Afijación 1. Proporcional a la raı́z cuadrada del no de individuos de 10 y más años residentes en viviendas familiares por Territorios Históricos. 2. Proporcional al no de individuos por estrato (cruce de zonas y tipos). Sorteo: Muestreo probabilı́stico y proporcional al tamaño (PPT), medido en número de individuos de 10 años y más residentes en viviendas familiares. • 2.a etapa Sorteo de los individuos. Afijación: Muestra teórica de 12 individuos por sección, ampliada en función de los ı́ndices de elegibilidad y tasa de no-respuesta calculadas a partir de la operación del año 2008. Tamaño de la muestra Se obtiene un tamaño final de 7.509 individuos. Sorteo: Sorteo aleatorio simple dentro de cada unidad primaria (sección). • Variables de equilibrio La muestra ha sido equilibrada sobre las siguientes variables tanto en la primera etapa como en la segunda (42 variables de equilibrio) – Número de individuos por Territorio Histórico y sexo (hombres y mujeres) – Número de individuos por Territorio Histórico y edad (< 24, 25-34, 35-44, 45-54, 55-64 o >65 años) – Número de individuos por Territorio Histórico y nacionalidad (nacional y extranjero) – Número de individuos por Territorio Histórico y tamaño familiar (1, 2, 3-4 o más de 5 residentes) 126 Selecting optimal balanced samples with the Cube Method Los resultados obtenidos con el Método del Cubo para las variables de equilibrio de la EPT se encuentran en la Tabla 1. ARABA Poblacional 145.244 (49,8 %) 146.600 (50,2 %) 291.844 Hombres Mujeres TOTAL GIPUZKOA Muestral 145.528 (49,9 %) 146.316 (50,1 %) 291.844 Poblacional 313.509 (48,8 %) 329.114 (51,2 %) 642.623 Muestral 311.698 (48,5 %) 330.925 (51,5 %) 642.623 BIZKAIA Poblacional 507.648 (48,2 %) 545.141 (51,8 %) 1.052.789 Muestral 508.314 (48,3 %) 544.475 (51,7 %) 1.052.789 Distribución por Territorio Histórico y sexo ARABA Poblacional 40.627 (13,9 %) 43.871 (15,0 %) 55.902 (19,2 %) 49.987 (17,1 %) 40.783 (14,0 %) 60.674 (20,8 %) 291.844 <24 años 25-34 años 35-44 años 45-54 años 55-64 años >65 años TOTAL GIPUZKOA Muestral 40.764 (14,0 %) 44.902 (15,4 %) 55.964 (19,2 %) 49.184 (16,9 %) 40.391 (13,8 %) 60.638 (20,8 %) 291.844 Poblacional 91.725 (14,3 %) 85.460 (13,3 %) 116.677 (18,2 %) 109.082 (17,0 %) 91.778 (14,3 %) 147.901 (23,0 %) 642.623 Muestral 91.239 (14,2 %) 86.801 (13,5 %) 115.651 (18,0 %) 108.174 (16,8 %) 91.847 (14,3 %) 148.911 (23,2 %) 642.623 BIZKAIA Poblacional 138.841 (13,2 %) 145.225 (13,8 %) 189.288 (18,0 %) 182.504 (17,3 %) 150.610 (14,3 %) 246.321 (23,4 %) 1.052.789 Muestral 138.584 (13,2 %) 146.533 (13,9 %) 189.821 (18,0 %) 181.816 (17,3 %) 150.770 (14,3 %) 245.264 (23,3 %) 1.052.789 Distribución por Territorio Histórico y Edad ARABA Poblacional 263.672 (90,3 %) 28.172 (9,7 %) 291.844 Nacional Extranjero TOTAL GIPUZKOA Muestral 263.501 (90,3 %) 28.343 (9,7 %) 291.844 Poblacional 599.418 (93,3 %) 43.205 (6,7 %) 642.623 Muestral 598.531 (93,1 %) 44.092 (6,9 %) 642.623 BIZKAIA Poblacional 980.896 (93,2 %) 71.893 (6,8 %) 1.052.789 Muestral 979.383 (93,0 %) 73.406 (7,0 %) 1.052.789 Distribución por Territorio Histórico y nacionalidad ARABA 1 residente 2 residentes 3-4 residentes >5 residentes TOTAL Poblacional 37.042 (12,7 %) 75.789 (26,0 %) 142.913 (49,0 %) 36.100 (12,4 %) 291.844 Muestral 36.494 (12,5 %) 75.650 (25,9 %) 143.144 (49,0 %) 36.557 (12,5 %) 291.844 GIPUZKOA Poblacional 70.729 (11,0 %) 156.949 (24,4 %) 331.679 (51,6 %) 83.266 (13,0 %) 642.623 Muestral 71.732 (11,2 %) 156.975 (24,4 %) 330.706 (51,5 %) 83.210 (12,9 %) 642.623 BIZKAIA Poblacional 111.835 (10,6 %) 262.086 (24,9 %) 550.434 (52,3 %) 128.434 (12,2 %) 1.052.789 Distribución por Territorio Histórico y tamaño familiar Tabla 1: Resultados relativos a la EPT 2013 Muestral 112.331 (10,7 %) 262.602 (24,9 %) 549.551 (52,2 %) 128.304 (12,2 %) 1.052.789 127 A. Adin, I. Gil Conclusiones Eustat ha optado por utilizar el Método del Cubo para seleccionar muestras equilibradas por varias razones. Uno de los aspectos más importantes es el hecho de que el Método del Cubo permite mantener los diseños muestrales ya existentes para las diferentes operaciones estadı́sticas, añadiendo además información auxiliar disponible que hasta ahora no podı́a ser aprovechada. De esta manera, las muestras obtenidas podrı́an ser consideradas como versiones óptimas de sus predecesoras. Se trata de un método muy interesante a tener en cuenta por las oficinas de estadı́stica, puesto que las muestras equilibradas permiten obtener estimaciones mucho más precisas sobre el cruce de estratos o áreas pequeñas, obteniendo estimadores de calidad sobre las distintas subpoblaciones de interés relativas a cada encuesta. Una de las futuras lı́neas investigación, es estudiar si la aplicación del Método del Cubo para seleccionar muestras equilibradas permite obtener muestras más precisas y de mayor calidad con un menor tamaño de muestra y su correspondiente reducción del coste económico. Referencias [1] Adin, A. (2013). El Método del Cubo: Aplicaciones del Muestreo Equilibrado en la Organización Estadı́stica Vasca. Instituto Vasco de Estadı́stica, Vitoria-Gasteiz. http://www.eustat.es/documentos/datos/CT_ muestreo_cubo_2012_c.pdf [2] Chauvet, G. y Tillé, Y. (2005). Fast SAS Macros for balancing samples: user’s guide. Software Manual, University of Neuchâtel. http://www2.unine.ch/ statistics/page-4208.html [3] Chauvet, G. y Tillé, Y. (2006). A fast algorithm for balanced sampling. Computational Statistics, 21(1):53-62. [4] Deville, J.-C. y Tillé, Y. (2004). Efficient balanced sampling: the cube method. Biometrika, 91(4):893-912. [5] Deville, J.-C. y Tillé, Y. (2005). Variance approximation under balanced sampling. Journal of Statistical Planning and Inference, 128(2):569-591. [6] Matei, A. y Tillé Y. (2006). The R sampling package. The Comprehensive R Archive Network, Manual of the Contributed Packages. http://cran. r-project.org/web/packages/sampling [7] Tillé, Y. (2005). Teorı́a de Muestreo, Groupe de Statistique, Université de Neuchâtel. http://www2.unine.ch/files/content/sites/statistics/ files/shared/documents/curso_teoria_de_muestreo.pdf Selecting optimal balanced samples with the Cube Method 128 [8] Muestreo Equilibrado y Eficiente: el Método del Cubo(Vol.52). Instituto Vasco de Estadı́stica, Vitoria-Gasteiz. http://www.eustat.es/ productosServicios/datos/Seminario_52.pdf Acerca de los autores Aritz Adin Urtasun es Licenciado en Matemáticas por la Universidad del Pais Vasco (2010). Durante los años 2011-2012 disfrutó de una beca de formación e investigación en el campo de las metodologı́as estadı́stico-matemáticas de la producción estadı́stica oficial en Eustat (Instituto Vasco de Estadı́stica / Euskal Estatistika Erakundea). Actualmente trabaja como ayudante de investigación en el grupo de estadı́stica espacial de la Universidad Pública de Navarra. Inmaculada Gil Gil es Licenciada en Ciencias Matemáticas por la Universidad del Paı́s Vasco (1999). Durante los años 2002-2008 trabajó como docente en la Escuela Técnica Superior de Ingenierı́a de Bilbao y en la Escuela Politécnica de San Sebastián. Actualmente trabaja en Eustat (Instituto Vasco de Estadı́stica / Euskal Estatistika Erakundea) como técnica estadı́stica dentro del área de Metodologı́a Innovación e I+D.