Diseño de la muestra Juana Porras Puga ESQUEMA 1. ÁMBITO 2. MARCO DE LA ENCUESTA 3. TIPO DE MUESTREO 4. CRITERIOS DE ESTRATIFICACIÓN 5. TAMAÑO Y AFIJACIÓN DE LA MUESTRA 6. SELECCIÓN 7. DISTRIBUCIÓN DE LA MUESTRA EN EL TIEMPO 8. RENOVACIÓN PARCIAL DE LA MUESTRA 9. ESTIMADORES 10. ERRORES DE MUESTREO 11. ACTUALIZACIÓN DE LAS UNIDADES DE MUESTREO 2. MARCO DE LA ENCUESTA Relación de unidades que van a ser muestreadas junto con toda la información complementaria que se puede utilizar en el diseño de la encuesta Se utilizan dos marcos: Marco de áreas geográficas: " Comunidades Autónomas " Provincias " Municipios - Actualmente 8.200 " Distritos municipales " Secciones censales. Aproximadamente 34.000 Sección censal Área geográfica en que se divide el territorio nacional, utilizada con fines estadísticos y electorales Características: Perfectamente definida con límites fácilmente identificables El tamaño varía, de acuerdo con la Ley General Electoral, entre 500 y 2.000 electores Cualquier parte del territorio nacional debe pertenecer a una sola sección SEVILLA SEVILLA SEVILLA-Municipio SEVILLA Municipio-Secciones Marco de viviendas Relación de todas las viviendas familiares con sus direcciones postales, en cada una de las secciones censales seleccionadas para la encuesta En el caso de la EPA se obtiene en cada censo a partir de los cuadernos de recorrido utilizados en los trabajos censales y se elabora una vez finalizada la fase de recogida de los cuestionarios censales. Se actualiza periódicamente En las encuestas esporádicas se obtiene de la explotación del Padrón Continuo Utilización del Censo en la formación del marco Fuente de información desagregada a nivel de unidades primarias de muestreo: Estratificación y subestratificación Instrumento para la formación del marco de viviendas, unidades de segunda etapa Actualización de la cartografía 3.TIPO DE MUESTREO. Muestreo bietápico con estratificación de unidades de primera etapa Unidades de primera etapa: Secciones censales. La muestra de secciones permanece fija indefinidamente salvo: Resultados censales que aconsejan otra afijación Agotamiento de los hogares consultables Actualización de probabilidades de selección Unidades de segunda etapa: Viviendas familiares principales y alojamientos fijos Dentro de las unidades de segunda etapa no se realiza submuestreo alguno. 4. CRITERIOS DE ESTRATIFICACIÓN Geográfico( Estratos): Según la importancia demográfica del municipio al que pertenecen las unidades primarias Municipios Autorrepresentados: Estratos 1-2-3 M unicipios Correpresentados : Población Estratos 4 50.000 - 100.000 5 20.000 - 50.000 6 10.000 - 10.000 7 5.000 - 10.000 8 2.000 5.000 9 < 2.000 Socioeconómico (Subestratos): Dentro de cada estrato las secciones se clasifican según la categoría socioeconómica de la población activa de la sección CPRO CMUN DIST NSECC 41 41 41 41 41 41 41 41 41 091 091 091 091 091 091 091 091 091 01 01 01 01 01 01 01 01 01 022 023 024 025 027 028 029 030 031 Población % de jóvenes (0-19) 1.146,0 1.487,0 1.261,0 2.036,0 1.391,0 773,0 1.915,0 762,0 758,0 9,34 9,75 10,55 11,25 9,99 12,55 9,92 8,27 8,84 % de jóvenes (15-24) 21,29 21,52 17,76 19,40 22,00 20,83 23,86 23,23 17,81 % de Mayores 20,24 16,75 20,38 17,58 21,21 17,21 13,68 22,18 26,65 % de parados % de en la sección inactivos 10,38 11,97 10,47 9,48 5,97 11,25 11,96 6,96 10,16 % de ocupados 53,66 49,83 54,48 49,85 54,57 52,65 47,42 53,67 56,20 % de extranjeros 35,95 37,26 34,66 37,28 39,47 34,67 35,67 37,53 33,64 3,14 2,69 2,38 2,65 1,01 2,85 1,04 0,79 1,72 % de personas con nivel de estudios CPRO CMUN DIST Nº SECC 41 41 41 41 41 41 41 41 41 022 023 024 025 027 028 029 030 031 091 091 091 091 091 091 091 091 091 01 01 01 01 01 01 01 01 01 inferiores medios 39,70 36,85 44,96 43,71 26,82 46,18 37,08 29,27 41,29 37,87 42,57 33,23 34,33 37,60 33,12 39,95 43,96 39,58 superiores 22,43 19,64 21,41 18,57 35,59 19,28 18,02 24,93 19,13 Renta total por vivienda con percentores 19160,6 17464,7 19662,2 18711,8 44987,0 19579,7 19480,2 33633,7 17857,5 Renta por desempleo entre renta total 2,0 2,2 1,6 1,8 0,5 1,5 1,7 1,2 2,7 Renta Capital mobiliario e Renta agraria Subestrato inmobiliario sobre renta sobre renta total total 4,6 3,1 5,2 3,7 23,4 4,6 4,6 6,6 4,1 0,1 0,0 0,3 0,3 1,2 0,4 0,3 0,0 0,1 4 4 4 4 6 4 4 4 4 5. TAMAÑO Y AFIJACIÓN DE LA MUESTRA Tamaño: En función del coste(Q) y del coeficiente de variación(C): = coeficiente de correlación intraclásica, Para la población activa Q = nQs + nmQv se estimó δ=0,05, δ V(P̂) 1− P̂ 1+ δ(m−1) C (P̂) = 2 = 2 ⋅ nm P̂ P̂ 2 El mínimo para un coste dado se obtuvo para: n = 3.000 secciones. m = 20 viviendas por sección. 5.1 Afijación. Objetivos : Estimaciones provinciales fiables. Estimaciones nacionales fiables. Número exacto de bloques (13 secciones por trimestre) en cada provincia. En provincias: De compromiso entre uniforme y proporcional En estratos: Estrictamente proporcional EPA-2005, Tamaño de la muestra de secciones ESTRATOS 1 1 ALAVA 2 ALBACETE 3 ALICANTE 4 ALM ERIA 5 AVILA 6 BADAJOZ 7 BALEARES 8 BARCELONA 9 BURGOS 10 CACERES 11 CADIZ 12 CASTELLON 13 CIUDAD REAL 14 CORDOBA 15 CORUÑA (LA) 16 CUENCA 17 GIRONA 18 GRANADA 19 GUADALAJARA 20 GUIPUZCOA 21 HUELVA 22 HUESCA 23 JAEN 24 LEON 25 LLEIDA 26 RIOJA (LA) 27 LUGO 30 18 18 16 13 20 44 55 20 19 13 26 13 34 21 10 15 28 20 26 15 13 17 24 15 33 13 2 3 10 4 15 9 6 33 13 6 19 26 9 13 5 6 7 10 5 8 12 10 27 21 7 7 7 26 14 13 11 19 5 4 13 15 6 7 3 12 12 6 3 8 3 3 14 12 10 3 10 7 4 12 11 14 8 10 11 20 13 10 12 10 5 9 7 7 3 6 12 15 3 7 7 12 5 6 12 12 5 6 6 15 9 12 8 5 3 6 8 12 9 3 12 7 8 11 7 6 13 11 6 6 8 9 Total 5 15 10 3 9 25 9 7 15 9 6 9 10 15 6 7 12 19 10 9 39 39 78 39 39 78 104 156 39 78 78 78 78 78 78 39 78 78 39 78 39 39 78 78 39 65 39 ESTRATOS 1 28 MADRID 29 MALAGA 30 MURCIA 31 NAVARRA 32 ORENSE 33 ASTURIAS 34 PALENCIA 35 LAS PALMAS 36 PONTEVEDRA 37 SALAMANCA 38 S.CRUZ TENERIFE 39 CANTABRIA 40 SEGOVIA 41 SEVILLA 42 SORIA 43 TARRAGONA 44 TERUEL 45 TOLEDO 46 VALENCIA 47 VALLADOLID 48 VIZCAYA 49 ZAMORA 50 ZARAGOZA 51 CEUTA 52 MELILLA TOTAL 2 3 4 5 6 7 92 36 36 18 36 16 30 33 20 44 11 26 20 25 15 35 10 16 52 18 19 12 10 13 13 45 36 29 7 16 59 13 13 1329 183 30 15 10 6 9 18 26 9 4 5 12 9 6 19 6 9 6 9 5 7 5 9 9 3 10 9 5 10 9 9 9 11 7 6 4 9 9 11 23 28 10 24 8 14 18 4 10 11 20 18 12 10 24 9 15 9 4 7 19 4 8 4 5 69 178 445 403 8 15 6 5 9 Total 13 6 9 9 4 12 7 9 3 6 9 21 7 9 15 12 8 16 13 5 6 6 5 19 9 366 284 331 156 78 104 91 39 130 39 104 78 39 91 91 39 117 39 78 39 78 117 52 78 39 78 13 13 3588 6. SELECCIÓN DE LA MUESTRA Secciones: Probabilidad proporcional al tamaño medido por el número de viviendas familiares principales Viviendas: Probabilidad igual(muestreo sistemático) De esta forma en cada estrato, las viviendas familiares tienen la misma probabilidad de pertenecer a la muestra (muestra autoponderada) ⎛ Vijh ⎞ Vjh m K h . m ⎟ = Kh . P (Vijh ) = P (S jh ) . P ⎜ = . ⎜S ⎟ Vh Vjh Vh ⎝ jh ⎠ 7. DISTRIBUCIÓN DE LA MUESTRA EN EL TIEMPO •Cada período de la encuesta es de un trimestre siendo cada una de las secciones de la muestra visitada en una de las 13 semanas del mismo. •La distribución de la muestra es uniforme en el tiempo, Para ello se han considerado las variables provincia, estrato, turno de rotación y semana. •La totalidad de la muestra está dividida en tres submuestras independientes representativas, cada una de ellas, de toda la población. •Las submuestras correspondientes a cada turno de rotación son representativas, aunque su reducido tamaño impide las estimaciones en dominios medios o pequeños. 8. RENOVACIÓN PARCIAL DE LA MUESTRA Unidades primarias: Las secciones censales permanecen fijas indefinidamente en la muestra (salvo las excepciones señaladas). Unidades secundarias: Las viviendas familiares de la muestra son renovadas parcialmente cada trimestre, Esta renovación afecta a una sexta parte de las secciones (5/6 permanecen de un trimestre a otro). Turnos de rotación: El conjunto de las secciones de la muestra está repartido en 6 grupos llamados turnos de rotación. Cada trimestre, se renueva la muestra de viviendas correspondientes a las secciones de un determinado turno de rotación. 9. ESTIMADORES (1) Se utilizan estimadores de razón y se aplican Técnicas de reponderación a los estimadores con objeto de ajustar las estimaciones de la encuesta a la información procedente de fuentes externas. Ŷ h Ŷ = ∑ ⋅ Ph h P̂ h Estimador de razón: Siendo: Ŷh = ∑ i, j∈h 1 m Kh ⋅ Vh 1 ∑ i , j∈ h Por tanto: K h K h Ŷ = ∑ h ∑ i , j∈ h ⋅ y hij ⋅ y hij P̂h = ∑ ij∈h 1 m Kh ⋅ Vh ⋅ p hij m ⋅ Ph Vh ⋅ Ph = ∑ ∑ y hij h ij ∈h 1 p h ⋅ p hij m ⋅ Vh Los datos muestrales elevados no se ajustan a los datos de la población E.P.A. Alicante. Varones 100000 90000 Población 80000 70000 60000 50000 40000 30000 20000 10000 1 2 3 4 5 6 7 Grupos de edad Estimaciones Población 8 9 10 11 Los datos muestrales elevados no se ajustan a los datos de la población E.P.A. Alicante. Mujeres 140000 Población 120000 100000 80000 60000 40000 20000 1 2 3 4 5 6 7 Grupos de edad Estimaciones Población 8 9 10 11 9. ESTIMADORES(2) La expresión del estimador de razón es: Esta expresión puede escribirse como: Ph Ŷ = ∑ ∑yhij h p i, j∈h h Ŷ = ∑ dk y k k∈s Se dispone de J variables auxiliares cuyos valores son conocidos para la muestra y cuyos totales son conocidos para la población Xj = ∑ x jk k∈U Generalmente la muestra no es equilibrada: X̂j ≠ ∑dk xjk k∈s 9. ESTIMADORES(3) Objetivo de la reponderación: Obtener unos nuevos pesos wk ,lo mas parecido posible a los pesos dk , que equilibren la muestra, es decir: X̂ = ∑ w k xk k∈s Solución matemática del problema : Encontrar unos valores que hagan mínima la expresión: ∑ k∈s ⎛ w d k G ⎜⎜ ⎝ d siendo: k k ⎞ con la ⎟⎟ condición ⎠ ∑ w k Xk = X k∈s G = Función de distancia. X= Vector de dimensión (J,1) con los totales de las variables auxiliares. Xk= Vector de dimensión (J,1) con los valores de las variables auxiliares en la unidad muestral k. La solución del problema depende de la función de distancia G que se utilice. 9. ESTIMADORES( 4) En la EPA se ha optado por utilizar la función de distancia lineal con objeto de aprovechar las propiedades del estimador de regresión, de pequeña varianza y mínimo sesgo, Además se ha utilizado un algoritmo que permite acotar las variaciones de los factores finales respecto de los iniciales con el fin de evitar factores finales negativos. Para la resolución práctica de este problema se ha utilizado el software CALMAR (CALage sur MARges) programado por el INSEE (Institut National de la Statistique et des Études Économiques) de Francia 9. ESTIMADORES(y 5) Las variables auxiliares que se han empleado son: 1- Población de 16 y más años por grupos de edad y sexo a nivel de Comunidad Autónoma 2- Población de 16 y más años por provincia 3- País de nacionalidad 10. ERRORES DE MUESTREO Se utiliza el método de las semimuestras reiteradas, procedimiento indirecto de estimación de la varianza. Consiste en: • Obtención de r semimuestras de la muestra total. • Estimación de la característica con cada una de las semimuestras. El estimador de la varianza es: 2 r 1 donde: V̂ X̂ = ∑ X̂i − X̂ r i =1 () ( ) r es el número de semimuestras X̂i es la estimación con la i-ésima reiteración. X̂ es la estimación obtenida con la muestra completa. En la E.P.A. el número de reiteraciones es de 40. Formación de las reiteraciones: - Se agrupan las secciones de cada estrato por pares. - Se asigna aleatoriamente la primera sección a 20 reiteraciones y la otra sección a las otras 20. De esta forma: - Cada reiteración queda constituida por un número de secciones equivalente al 50% de la muestra. - Cada sección aparece en la mitad de las reiteraciones. Errores de muestreo relativos,en porcentaje, de la población de 16 y más años según su relación con la actividad económica, por comunidades autónomas. Tercer trimestre 2006 Comunidades autónomas Total Andalucía Aragón Asturias (Principado de) Balears (Illes) Canarias Cantabria Castilla y León Castilla - La Mancha Cataluña Comunidad Valenciana Extremadura Galicia Madrid (Comunidad de) Murcia (Región de) Navarra (Comunidad Foral de) País Vasco Rioja (La) Ceuta Melilla Activos 0,22 0,57 1,05 1,58 0,83 0,87 0,96 0,66 0,88 0,54 0,84 0,85 0,95 0,70 1,34 1,14 0,77 1,27 6,45 2,88 Ocupados Parados Total 0,29 0,74 1,11 1,89 1,04 1,27 1,38 0,78 1,19 0,69 1,01 1,06 1,07 0,89 1,69 1,36 0,88 1,57 7,21 3,74 1,98 3,18 9,63 7,22 10,82 6,68 10,89 4,04 5,79 5,13 5,63 5,62 7,51 9,77 7,95 13,20 7,56 14,80 28,36 17,73 Inactivos Buscan Han primer trabajado empleo antes 3,83 2,02 6,75 3,60 26,62 10,37 21,04 10,77 50,47 9,36 14,67 7,47 19,77 10,83 13,03 4,12 16,27 6,40 15,91 6,11 15,87 6,04 14,96 7,69 20,22 7,59 18,06 10,31 24,11 10,26 26,68 13,15 19,51 9,00 48,49 15,94 34,17 29,75 52,79 12,08 0,32 0,71 1,39 1,59 1,68 1,40 1,20 0,76 1,09 0,89 1,24 0,90 1,13 1,20 1,90 1,83 1,08 1,86 7,30 3,30 Estimadores utilizados en la E P A a.- Estimador insesgado de expansión(H-T) Recordamos que la probabilidad de pertenecer a la muestra de una vivienda ‘i’ de la sección ‘j’ del estrato ‘h’ viene dada por: ⎛ Vijh ⎞ Vjh m Kh . m P Vijh = P Sjh . P⎜ ⎟ = Kh . . = ⎜ Sjh ⎟ Vh Vjh Vh ⎝ ⎠ ( ) ( ) Donde ‘Kh’ son las secciones de la muestra en el estrato ‘h’, y ‘m’ es el número de viviendas muestrales por sección. Según lo anterior, la probabilidad de pertenecer a la muestra se puede expresar por: ( P V ijh ) v ht = Vh Y por tanto el estimador H-T tendrá la expresión: Vh ŶH−T = ∑ t ⋅ ∑yi h v i∈h h b.- Corrección de la falta de respuesta La probabilidad de respuesta por estrato la podemos estimar por: PRh vh = t vh Donde vh representa la muestra efectiva de viviendas en el estrato h. Por tanto el estimador corregido será: Vh Vh vht ŶH−TCorr = ∑ t ⋅ ∑ yi = ∑ ∑ yi = ∑ ŶH−TCorr(h) h v i∈h h vh i∈h h h vh c.- Calibrado con fuentes externas(1) Se utiliza, en primer lugar, un estimador de razón separado que toma como variable auxiliar las proyecciones de población de 16 o más años, a mitad del trimestre(Ph). El estimador tiene la expresión: ŶCal1 = ∑ h que desarrollada es: Ŷ Cal 1 ŶH− TCorr (h ) P̂H− TCorr (h ) ⋅ Ph Vh ∑ yi Ph v h i∈h = ∑ ⋅ Ph = ∑ ⋅ y h = ∑ dk ⋅ y k Vh h h ph S ∑ pi v h i∈h donde S es la muestra efectiva. c.- Calibrado con fuentes externas(2) En el segundo ajuste con fuentes externas se utilizan las siguientes variables referidas a la población de 16 o más años en cada comunidad autónoma: •Proyecciones de población por grupos de edad y sexo(22) quinquenales •Proyecciones de población por nacionalidad(españoles y extranjeros) •Totales de población por provincia A partir de ahora llamaremos ‘xj’ a cada una de las ‘p’ variables auxiliares(j=1,...,p), y ‘Xj’ al total conocido en la comunidad autónoma. Es decir: X = ∑x j k ∈U jk Lo normal es que la muestra no sea equilibrada: X̂j ≠ ∑ dk x jk k∈s Objetivo de la reponderación: Obtener unos nuevos pesos wk, lo más parecido posible a los pesos dk , que equilibren la muestra, es decir: X̂ = ∑ wk xk k∈s donde X es la matriz (p,1) de totales de las variables auxiliares. El estimador final de una característica ‘y’ tendrá la expresión: Ŷ = ∑ w k y k k∈s Formalmente el problema se plantea como: Encontrar unos valores wk que hagan mínima la expresión: ⎛ wk ⎞ ⎟⎟ ∑ d k G ⎜⎜ k∈s ⎝ dk ⎠ con la condición ∑ wk X k = X k∈s siendo: G = Función de distancia. X= Vector de dimensión (J,1) con los totales de las variables auxiliares. Xk= Vector de dimensión (J,1) con los valores de las variables auxiliares en la unidad muestral k. La solución del problema depende de la función de distancia G que se utilice. Para la resolución práctica de este problema se ha utilizado el software CALMAR (CALage sur MARges) programado por el INSEE (Institut National de la Statistique et des Études Économiques) de Francia. CALMAR es una macro pública de SAS Disponible en: www.insee.fr Nomenclatures, Definitions, Méthodes Outils Statistiques Desarrollo informático: Olivier Sautory(INSEE) Teoría: Särndal, Deville y Sautory(“Generalized Raking Procedures in Survey Sampling” JASA 1993 Vol.88, No423) Entre las opciones disponibles en CALMAR se ha optado por utilizar la función de distancia lineal, que proporciona un estimador de regresión generalizada con conocidas propiedades de pequeña varianza y mínimo sesgo. Además se emplea la posibilidad que, proporciona el programa, de acotar las variaciones de los factores finales respecto de los iniciales, con el fin de evitar factores finales negativos. Reponderación por grupos de población Poblaciones Estimación Reponderació n