321 DISEÑO DE LA MUESTRA MAESTRA PARA EL SISTEMA INTEGRADO DE LA ENCUESTA DE HOGARES DEL INEC-ECUADOR1 INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS (INEC)2 ECUADOR 1 Extracto del documento elaborado por el Consulto Internacional David J. Megill del INTERNATIONAL PROGRAMS CENTER U.S. CENSUS BUREAU (Septiembre 2002) 2 Este documento fue elaborado por los economistas Sres. Stalin Ramos, Jefe Departamento de Hogares, y Rocío Espinel, Analista Investigación Proyectos Estadísticos Departamento de Diseño Muestral y Análisis Estadístico, INEC – Ecuador. 322 Diseño de la muestra maestra para el sistema... ÍNDICE Página 1. Antecedentes ........................................................................................................................ 323 2. Objetivos del Sistema Integrado de Encuestas de Hogares.................................................. 323 3. Universo y Unidad de Análisis............................................................................................. 324 4. Marco Muestral y Unidades de Muestreo ............................................................................ 324 5. Estratificación ...................................................................................................................... 325 6. Etapas de Selección para la Muestra Maestra ...................................................................... 325 7. Tamaño y Distribución de la Muestra Maestra .................................................................... 326 8. Metodología de Selección de la Muestra Maestrea.............................................................. 326 Diseño de la muestra maestra para el sistema... 1. 323 Antecedentes El Instituto Nacional de Estadística y Censos (INEC), tiene experiencia conduciendo una serie de encuestas de hogares durante las últimas décadas. El último marco muestral para las encuestas de hogares fue basado en los resultados del V Censo de Población y IV de Vivienda de 1990. Ahora que están disponibles los resultados definitivos del VI Censo de Población y V de Vivienda del 2001 (CPV-2001), el INEC preparó un nuevo marco muestral para las encuestas de hogares, bajo el Sistema Integrado de Encuestas de Hogares (SIEH). La metodología más costo-efectiva para proporcionar muestras eficientes paras las diferentes encuestas del SIEH es a través de una muestra maestra. El diseño de una muestra maestra generalmente involucra la selección de unidades primarias de muestreo (UPMs) que pueden servir para las varias encuestas nacionales de hogares durante el período intercensal. La mayor ventaja de la metodología de la muestra maestra es que hace más eficiente la selección de la muestra de viviendas para cada encuesta, y baja los costos relacionados a la actualización de la cartografía para las UPMs muestrales, listado de viviendas y otras operaciones para cada encuesta. Esta metodología también mejora la comparabilidad entre los resultados de las diferentes encuestas. Los criterios de esta aplicación y la distribución de la muestra maestra deben tomar en cuenta los requerimientos de las varias encuestas del SIEH. Por eso es importante invertir en el desarrollo de una estratificación geográfico y socioeconómico para la muestra maestra que es eficaz para las varias encuestas. Es necesario primero estudiar los objetivos de cada encuesta. Una encuesta particular puede utilizar todas las UPMs de la muestra maestra o una submuestra. Al diseñar la nueva muestra maestra, es importante examinar la experiencia del diseño de las encuestas de hogares previas. Por eso la investigación para la muestra maestra empezó con la revisión de los documentos metodológicos de las diferentes encuestas conducidas anteriormente. Para la investigación de la muestra maestra se realizaron y revisaron varios tabulados de las distribuciones de la población y vivienda por los dominios geográficos de los datos definitivos del CPV-2001. Para evaluar los efectos de diseño para las muestras previas y medir el nivel de precisión que se puede esperar de este nuevo diseño para las diferentes encuestas, se hizo un análisis de CENNVAR con datos de la Encuesta nacional de ingresos y gastos de hogares urbanos (ENIGHU) de 1994, y de la Encuesta nacional de empleo, desempleo y subempleo urbano y rural (ENEMDUR) del 2001. El objetivo de esto es describir la metodología para la muestra maestra y el diseño de las muestras para la ENIGHU 2002-2003 y ENEMDUR trimestral y provincial, que son las primeras encuestas basadas en la muestra maestra. 2. Objetivos del Sistema Integrado de Encuesta de Hogares Las encuestas principales que conforman el SIEH son la ENIGHU, ENEMDUR y la Encuesta de condiciones de vida (ECV). Otras encuestas incluidas en el SIEH son las Encuestas de informantes de precios y especificaciones y la Encuesta de alquileres de vivienda. El objetivo general de la ENIGHU es obtener información de la estructura de los presupuestos familiares, con el propósito de actualizar la base del Indice de Precios del Consumidor Urbano (IPCU). Esta encuesta es limitada a los centros urbanos con población de 20.000 y más, que corresponden a 49 centros poblados con dicha población que representa el 83,36% de la población urbana la misma que es la población objetivo de la ENIGHU; el resto de la población urbana (17,64%), vive en 244 centros poblados pequeños. Los datos de la encuesta servirán para hacer varios análisis de las características socioeconómicas de la población urbana. Dada la naturaleza de esta encuesta la estratificación socioeconómica de la muestra maestra para las ciudades mayores es de suma importancia. Los dominios geográficos de estudio para la ENIGHU 1994 fueron 6 ciudades principales (Quito, Guayaquil, Cuenca, Ambato, Machala, y Portoviejo), y el resto urbano en la costa y la sierra, que incluye todos los centros poblados con población de 5000 y más que son cabeceras cantonales o parroquiales. 324 Diseño de la muestra maestra para el sistema... Para la nueva ENIGHU se redujo las ciudades autorepresentadas a 4 ciudades de mayor población (Quito, Guayaquil, Cuenca y Machala) y se sigue considerando los dominios resto sierra urbano y resto costa urbano. Estos cambios se realizaron en razón de la nueva estructura demográfica del área urbana del Ecuador, reflejada en los resultados del CPV-2001. El objetivo general de la ENEMDUR es de brindar información oportuna sobre la dinámica del empleo, desempleo y subempleo en el área urbana y rural del país. Desde 1989 esta encuesta se realizaba anualmente y cada 6 meses en varios años. Para el próximo año el INEC realizará esta encuesta trimestralmente, dado la estacionalidad del empleo y dada la importancia de medir la situación laboral. Dada que la ENEMDUR tendrá la mayor periodicidad la muestra maestra da cierta prioridad a los requerimientos de esta encuesta y un esquema de rotación de la muestra a través del tiempo. Los dominios para la encuesta trimestral son las mismas 4 ciudades autorepresentadas (Quito, Guayaquil, Cuenca y Machala) además de los dominios resto sierra urbana, resto costa urbana y amazonía urbana, como también el dominio rural de cada región. Sin embargo para uno de los trimestres cada año el INEC plantea expandir la muestra para proporcionar índices de empleo, subempleo y desempleo a nivel nacional, con una submuestra trimestral a nivel regional. La muestra expandida da resultados a nivel de cada provincia, urbano y rural para la sierra y la costa, y para la amazonía urbano y rural. La amazonía abarca solo el 4.51 % de la población del país, por lo que si se requieren datos a nivel de cada provincia de esta región, es necesario asignar una muestra representativa. 3. Universo y Unidad de Análisis El universo de la muestra maestra está conformado por todos los hogares individuales del territorio del Ecuador, y las personas correspondientes excluyendo la Región Insular, como también la población en viviendas colectivas, viviendas flotantes y sectores con población indigente, por primera vez el INEC incluye las zonas no delimitadas o en litigio que constituyen el 0,6% de la población. Para la ENIGHU el universo es limitado a los hogares urbanos en los centros poblados con una población de 20000 y más. Para propósitos de comparabilidad es necesario considerar la conceptualización de la ENIGHU 1994 sobre centros poblados con población de 5000 y más. La ENEMDUR considera el marco muestral con centros poblados de 2000 y más habitantes sin importar que sean o no cabeceras cantonales o parroquiales o localidades amanzanadas. El dominio rural está formado por los centros poblados con menos de 2000 habitantes y el área dispersa; esta definición esta basada en el “Informe Final del Seminario Censo 2000 de Población y Vivienda” de los países andinos, de acuerdo a la recomendación elevada al Comité Andino de Estadística. 4. Marco Muestral y Unidades de Muestreo El marco para la muestra maestrea en los resultados definitivos y la cartografía del CPV-2001. Las unidades de muestreo dependen de las etapas de muestreo. Para tener un listado actualizado y eficaz en las áreas seleccionadas es importante definir para la primera y segunda etapa de muestreo, segmentos con aproximadamente 50 a 200 viviendas; los sectores tienen límites bien definidos en los croquis censales que facilitan el trabajo de listado y aseguran buena cobertura de las viviendas. Dado que los sectores tienen un promedio de 150 viviendas en los dominios urbanos y 80 viviendas en dominios rurales, son ideales para propósitos de actualización de los listados. Para dispersar más la muestra para la ENIGHU 2002-2003, se seleccionó una muestra bietápica dentro de los centros poblados con población de 20000 y más. Para el año 2003 se considera que los tamaños promedios de sectores urbanos y rurales serán de 450 (un promedio de 3 sectores en urbano) y 320 (un promedio de 4 sectores en lo rural) viviendas respectivamente. Los sectores de menos de 50 viviendas deben ser combinados con sectores vecinos para formar el segmento que se va a listar. Diseño de la muestra maestra para el sistema... 5. 325 Estratificación El primer nivel de estratificación corresponde a los dominios geográficos, para la ENIGHU los dominios geográficos urbanos corresponden a las cuatro ciudades mayores (Quito, Guayaquil, Cuenca y Machala) resto sierra urbano y resto costa urbano. En el caso de la ENEMDUR está incluida la región amazónica urbana. Para las encuestas de hogares que incluyen los hogares rurales, los dominios rurales serían costa rural, sierra rural y amazonía rural, que cubren todo el territorio del Ecuador continental. Para la ENEMDUR se estratificará por provincias una vez al año en los estratos urbano y rural y en cada estrato urbano se definen subestratos homogéneos para mejorar la eficiencia de la muestra maestra. Para determinar las variables más importantes en la identificación de los estratos socioeconómicos se utilizó el dato de la ECV 1999. Dado que esta encuesta incluye datos de ingresos y gastos de los hogares fue posible hacer un análisis de regresión usando ingresos o gastos como la variable dependiente. Se seleccionó el promedio de gastos por sector como la variable dependiente, dado que es más estable que el ingreso promedio y también es la variable más importante para el IPCU. Luego de generar los indicadores de gasto a todos los sectores en un marco de 14 ciudades con población de 100000 y más se asignaron códigos socioeconómicos a los sectores (1) bajo, (2) medio y (3) alto. Es importante evaluar la estratificación automatizada de acuerdo al modelo de indicador de gatos con una confirmación visual. Es importante indicar que la metodología para la estratificación socioeconómica sirve para mejorar la eficiencia del diseño muestral y no para identificar dominios socioeconómicos para el análisis. Posteriormente al levantamiento de la información se podrá realizar una post-estratificación a nivel de vivienda. En el caso de los estratos del resto costa urbano, resto sierra urbano y amazonía urbano se puede estratificar los centros poblados por el tamaño de la población, dado que el tamaño afecta la infraestructura del centro poblado, actividades económicas y otras características socioeconómicas. De acuerdo a los resultados definitivos del Censo de Población del 2001, Ecuador tiene dos ciudades con población superior a 1000000 (Guayaquil y Quito), ninguna ciudad con población entre 500000 y 1000000; y solo 2 ciudades con población entre 200000 y 499999 (Cuenca y Machala). Estas ciudades son autorepresentadas en la muestra maestra. Cuando se realiza la selección de las UPMs sistemáticamente, también se efectúa una estratificación implícita de acuerdo a las características que se usa para ordenar la lista de UPMs en el marco. En general un orden geográfico en forma de serpentina proporciona una estratificación implícita eficiente, dado que muchas características serían correlacionadas con la ubicación geográfica. En caso del marco para las ciudades principales, las UPMs pueden ser ordenadas geográficamente dentro de cada estrato socioeconómico. Dentro de cada estrato del resto urbano (por tamaño dentro de la provincia), se puede ordenar las UPMs geográficamente en forma de serpentina. Para el estrato rural de cada región también se pueden ordenar las UPMs geográficamente dado que las características agropecuarias, actividades rurales e identificación de grupos étnicos son muy correlacionados a la geografía. 6. Etapas de Selección para la Muestra Maestra El número de etapas de la muestra maestra afecta la eficiencia estadística de la muestra como también la logística operativa y los costos correspondientes. Por lo que se aplicó una muestra bietápica para la ENEMDUR y ENIGHU, realizando una selección de sectores como primera etapa y una selección de viviendas por aleatorio como segunda etapa, para todos los dominios. Se calculó los efectos de diseño en el paquete CENVAR, usando los datos de la ENIGHU 1994, por lo que para la ENIGHU 2003 se dispersará la muestra en los dominios resto urbano sierra y resto urbano 326 Diseño de la muestra maestra para el sistema... costa, con el fin de mejorar la eficiencia estadística de la muestra; por lo que se usará una muestra bietápica para estos dominios. Se considera la posibilidad de agrupar los sectores censales en UPMs mayores para establecer una muestra maestra de UPMs más permanentes. En este caso se seleccionarán solamente un sector dentro de cada UPM en la segunda etapa de muestreo. 7. Tamaño y Distribución de la Muestra Maestra Depende de los tipos de estimación que se obtienen de las varias encuestas y la precisión de las mismas así como las limitaciones de los recursos disponibles para cada encuesta. El tamaño debe ser suficiente como para responder a los objetivos de la encuesta nacional de hogares con más observaciones. Las demás encuestas pueden estar basadas en una submuestra de la muestra maestra de acuerdo a sus requerimientos. Para determinar el tamaño hay que tomar en cuenta los errores muestrales y no muestrales; a medida que el tamaño de la muestra aumenta el error muestral disminuye, mientras que los errores no muestrales tienden a aumentar, por lo que se hace difícil controlar la calidad la información. Para afijar el tamaño de la muestra a seleccionar en cada estrato se examina una distribución proporcional de la muestra basada en el número de viviendas ocupadas. La distribución proporcional de la muestra es generalmente más eficiente para resultados a nivel nacional. En vista que la muestra maestra sirve a diferentes encuestas de hogares fue necesario determinar el tamaño de muestra requerido paras las encuestas más grandes o importantes. Para el marco urbano ENIGHU 2003 se requiere la mayor muestra urbana en general. En ENEMDUR es necesario determinar el tamaño de la muestra suficiente para obtener resultados a nivel provincial una vez al año, para definir la muestra maestra ampliada. También se puede seleccionar una submuestra ampliada de la muestra maestra para la encuesta trimestral con resultados a nivel regional. Para la ENIGHU se tiene una muestra de 938 sectores con 12 viviendas por sector. El número de sectores muestrales que se asignaron a cada dominio son múltiplo de 13 para poder dispersar la muestra durante 13 períodos de 4 semanas cada uno durante el año. Dentro de cada dominio la muestra es distribuida proporcionalmente entre los estratos. Para ENEMDUR la distribución de la muestra a nivel provincial, urbano y rural se ha considerado 1621 sectores, y para la trimestral se tomará 740 sectores como submuestra urbano rural; y una submuestra a nivel urbano de 559 sectores. 8. Metodología de Selección de la Muestra Maestra Con la estratificación completa del marco de sectores censales del CPV-2001, para la muestra maestra, se finaliza la distribución de la muestra por estrato y se selecciona los sectores dentro de cada estrato sistemáticamente con probabilidad proporcional al tamaño (PPT), usando como medida de tamaño el número de viviendas ocupadas. Para la selección sistemática de las UPMs se utilizó el programa FOX PRO, que genera 3 archivos de salida: 1 archivo con la base de la muestra de UPMs seleccionada, 2 archivo con la base completa del marco de UPMs ordenado; y 3 archivo de texto “LOG”, con los parámetros para la selección de cada estrato, acumulado de medidas de tamaño, número de UPMs seleccionadas, intervalo de selección y arranque aleatorio. Dado que los sectores censales se seleccionan con PPT para la muestra maestra, la submuestra de sectores para una encuesta particular debe ser seleccionada con PPT dentro de cada estrato. Seleccionada la submuestra de sectores censales para una encuesta se recomienda hacer una actualización cartográfica con un nuevo listado de viviendas, que servirá de marco para la selección de viviendas para la última etapa de muestreo. La selección de viviendas dentro de cada sector sería sistemática con probabilidades iguales.