411 EVOLUCIÓN DE LOS DISEÑOS MUESTRALES DE ENCUESTAS DE HOGARES EN NICARAGUA INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS (INEC) NICARAGUA 412 Evolución de los diseños muestrales de... ÍNDICE Página 1. Introducción ......................................................................................................................... 413 2. Diseño Muestral EMNV 1993 ............................................................................................. 413 3. Diseño Muestral EMNV 1998 ............................................................................................. 414 4. Diseño Muestral EMNV 2001 ............................................................................................. 417 5. Encuestas de Demografía y Salud (ENDESA 1998 y 2001)................................................ 417 Evolución de los diseños muestrales de... 1. 413 Introducción En Nicaragua, a pesar de que no existe un programa permanente de Encuestas de Hogares, se ha realizado una serie de encuestas de hogares como la ESDENIC 85 y las encuestas de Coyuntura e Impacto a inicios de la década de los noventa. Posteriormente, desde el año 1993, se han realizado tres Encuestas de Mediciones de Nivel de Vida. La primera de éstas fue realizada antes que Nicaragua entrara al Programa MECOVI, en tanto que la segunda y tercera fueron realizadas dentro del Programa. Además, se han realizado otras encuestas: dos Encuestas de Demografía y Salud, una Encuesta Ingresos y Gastos y otras encuestas puntuales, como las de Electrificación Rural. 2. • Diseño Muestral EMNV 1993 Marco muestral Para la realización de la primera Encuesta de Nivel de Vida en 1993 se usó como marco de muestreo una combinación de dos fuentes: el registro de votantes y la actualización cartográfica preparada por el INEC para el censo que se pensaba realizar en 1982. El tamaño de muestra fue prefijado en 3.600 viviendas, tomándose una tasa de no-respuesta del 15% para no realizar sustituciones en campo, lo que dio una muestra final de 4,200 viviendas. • Distribución de la muestra Al discutir los objetivos prioritarios del análisis de resultados de la encuesta, se estableció que tenía prioridad el poder hacer un análisis comparativo de los resultados básicos (estructuras porcentuales, tasas, razones y medias) para 7 regiones, de acuerdo a la división política territorial del país. Ante la ausencia de estimaciones de varianza a nivel regional para las principales variables de la encuesta, lo recomendable es distribuir la muestra en tamaños iguales para cada región, independientemente del tamaño de ésta. Hay sin embargo, un interés particular en el departamento de Managua (Región 3), en donde se profundizó el análisis más allá de las tabulaciones principales. Por esta razón, se decidió afijar la muestra primero adjudicando a Managua un número cercano a la proporción que le correspondía de acuerdo a su población estimada para 1991, distribuyendo el resto de manera igual entre las 6 regiones restantes. Al interior de cada región se distribuyó la muestra proporcionalmente en la zona urbana y rural. • Selección de la muestra En total se seleccionaron 420 JRV con probabilidad proporcional al tamaño (medido por el número de votantes inscritos), 247 urbanas y 173 rurales. La selección de JRV se realizó de forma independiente al interior de cada región ordenando las JRV de acuerdo a los estratos de selección y corte urbano rural. La distribución en regiones quedando de la siguiente manera: se dividió la muestra de 420 JRV en 4 réplicas de 105 JRV cada una. De las JRV seleccionadas, tanto urbanas como rurales, se seleccionaron 10 viviendas en dos segmentos compactos de 5 viviendas cada uno. • Factores de Expansión La muestra no es autoponderada. Existe un factor de expansión diferente para cada JRV en muestra. En general, la probabilidad de selección de las viviendas provenientes de las JRV¡ del estrato h está dada por: f hi = K h * M hi * 2 M h * S hi donde: K h : es el número de JRV (o grupos de ellas) seleccionadas en la región h (1) 414 Evolución de los diseños muestrales de... M hi : es el número de votantes inscritos en la i-ésima JRV de la región h M h : es la suma de todos los M hi de la región h (no sólo los seleccionados) S hi : es el número de segmentos compactos formados en la i-ésima JRV de la región h Los factores de expansión se determinan por el inverso de estas probabilidades de selección debido a que la muestra se dividió en 4 réplicas. Las estimaciones de los errores de muestreo (varianzas) se obtuvieron simplemente obteniendo 4 estimaciones del parámetro de interés basada en las 4 réplicas, y contrastando cada una de éstas con el promedio de las 4. Las fórmulas de estimación de medias, porcentajes, tasas, proporciones y razones son las usuales, con las variables expandidas por los factores de expansión correspondientes. 3. Diseño Muestral EMNV 1998 • Marco muestral De acuerdo al último censo de población de 1995, la República de Nicaragua se dividía en 15 departamentos y dos regiones autónomas. Cada departamento está dividido en municipios. A su vez cada municipio fue dividido en áreas censales y dichas áreas en segmentos censales. En promedio, cada segmento tiene aproximadamente entre 50 y 60 viviendas, y un sector censal tiene un promedio de cinco segmentos. Un archivo computarizado de los segmentos censales para cada departamento fue construido en base de este censo. El área de supervisión censal es una unidad territorial establecida para fines de control censal y es considerada como la unidad de un grupo de segmentos censales, los cuales fueron considerados como la carga de trabajo normal para un enumerador censal. Para la EMNV 1998 se empleó el mismo marco muestral utilizado para la encuesta de Demografía y Salud (ENDESA 1998), principalmente por dos razones: poder vincular ambas bases de datos de niveles de vida de la población; y, la necesidad urgente del país de trabajar coordinadamente en la generación de sistemas de información estadísticas, comunicada por el Comité Interinstitucional. Así, se decidió utilizar el archivo computarizado de segmentos censales antes mencionado como el marco muestral inicial para las encuestas ENDESA 1998 y EMNV 1998. De esta manera, resultaba factible una primera selección de unidades grandes (áreas de supervisión como UPMs) adecuada tanto para los objetivos de la ENDESA 1998 como de la EMNV 1998 y de otras posibles encuestas. • Estratificación Para la ENDESA 1998 y la EMNV 1998, además de la estratificación explícita de las áreas censales y de los segmentos censales en lo urbano y rural dentro de cada departamento, se realizó una estratificación implícita del ordenamiento geográfico en forma de serpentina de las áreas y segmentos. Así, todo proceso de la estratificación también quedaba implícitamente reflejado en la muestra para la encuesta EMNV 1998. La eficiencia de la estratificación implícita puede ser calculada con el efecto de diseño muestral, el cual es definido como el cuociente del error estándar con el diseño muestral considerando este ordenamiento geográfico y del error muestral, con un diseño simple aleatorio dentro de lo urbano o rural de cada dominio de estudio. • Tamaño de muestra En general, el diseño de la muestra para una encuesta del tipo de la EMNV 1998 es estratificado por conglomerado y puede resumirse en dos etapas. El error muestral para este diseño tiene dos componentes: Variación entre conglomerados (segmentos censales) y Variación de los hogares dentro de los conglomerados. En general, la variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas rurales, pero la variabilidad de los hogares dentro del conglomerado seleccionado es menor en lo urbano Evolución de los diseños muestrales de... 415 que en lo rural. Por lo tanto, un importante factor a controlar en el error muestral es reducir el mayor componente de variabilidad, que es la variación entre conglomerados, la cual es inversamente proporcional al número de conglomerados (especialmente en el área urbana). Para un análisis adecuado de la información resultante de un tipo de encuesta como la EMNV 1998, se recomienda un mínimo entre 30 y 40 conglomerados seleccionados por dominio de estudio. También es bien conocido que un aumento del número de conglomerados en la muestra reduce el error muestral pero no en razón proporcional al incremento de ese número. Específicamente, si se doblara el número de conglomerados el error muestral se reduce solo un 30% del valor original. Basado en las consideraciones anteriores, y para evitar los altos costos de implementacion sin poner en compromiso la calidad de la información, se hizo necesario una detenida evaluación de dichos factores y se empleó el criterio de mantener ese mínimo requerido para las estimaciones por dominio. • Asignación de la muestra Con el objetivo de asignar la muestra para la EMNV 1998, se hizo necesario utilizar información de la encuesta EMNV 1993 como un instrumento de ayuda para la estimación de ciertos parámetros del diseño. En dicha encuesta se seleccionaron 4.200 viviendas particulares con un adicional de 544 viviendas (es decir un total de 4.744 viviendas) para conseguir un total de 4.455 entrevistas completas de hogares. Con dicha información, y el número promedio de hogares completos por vivienda seleccionada de 0.94, se estimó que para obtener un total aproximado de 4.370 entrevistas completas de hogares se hacía necesario seleccionar aproximadamente 4.650 viviendas En la ENDESA 1998, el total de entrevista completas fue distribuido por departamentos pero no proporcionalmente a su tamaño poblacional sino en formas proporcional a la raíz cuadrada de la población de cada departamento, para poder cumplir con los objetivos requeridos de la encuesta en términos de conseguir una mejor distribución entre los departamentos más grandes y los más pequeños. En otras palabras, a fin de suavizar los efectos de las grandes discrepancias de los tamaños departamentales. En realidad, este criterio fue tomado de un concepto mucho mas general, que es combinar el departamento (tamaño poblacional) y el error muestral del indicador departamental (Véase el artículo Power Allocations: Determining Sample Sizes for Subnational Areas, desarrollado por Michael D. Banker, The Statistician, Vol 42 Nº 3, August 1980). Así, dado que la muestra para la EMNV 1998 es una submuestra de la ENDESA 1998, seleccionada sistemáticamente con la misma razón de selección, entonces la submuestra de la EMNV 1998 también mantiene la asignación de la raíz cuadrada. En el siguiente cuadro se observa la siguiente asignación de la muestra de conglomerado por dominio de estudio para la EMNV 1998. Tabla 1 Distribución de la muestra esperada y del número de conglomerados por dominio de estudio Dominio de Estudio Población censal 1995 Tamaño esperado de hogares Número de conglomerados completos Managua Pacífico Urbano Pacífico Rural Centro Urbano Centro Rural Atlántico Urbano Atlántico Rural 1.093.760 757.105 616.877 469.965 884.281 169.551 365.560 550 820 640 610 970 340 440 50 73 68 54 103 30 47 Total 4.357.099 4.370 425 416 • Evolución de los diseños muestrales de... Selección de la muestra La muestra resultante para la EMNV 1998 puede resumirse en dos etapas: ! Selección sistemática de segmentos censales con probabilidad proporcional a su tamaño. En estos segmentos censales seleccionados se implementó un levantamiento de revisión cartográfica y de actualización de sus viviendas que se han generado después del último censo de población. ! Definición de un número fijo de viviendas dentro de cada conglomerado (12 por segmento urbano rural) seleccionado de tal manera de mantener una misma probabilidad para cada vivienda (y automáticamente para todo hogar dentro de la vivienda) dentro de cada conglomerado. Dado que tenemos un tamaño fijo por conglomerado y que la asignación del tamaño de muestra no fue proporcional a través de sus departamentos en la ENDESA 1998, la muestra final de la EMNV 1998 no es una muestra autoponderada a través de su dominio de estudio. Por lo tanto es necesario establecer sus correspondientes ponderaciones. Para el proceso de selección de los segmentos censales se siguieron los siguientes pasos: Dado que la distribución de la población en Nicaragua es, aproximadamente, mitad urbana y mitad rural de acuerdo al último censo de población, la asignación de potencia para la ENDESA 1998 y la EMNV 1998 mantienen esta mínima proporción para los dominios urbanos y rurales. Sin embargo, con este tamaño de muestra urbano, el dominio Atlántico urbano sólo permitía seleccionar 18 conglomerados, de allí que se decidió incrementar ellos al mínimo de 30 conglomerados. En la EMNV 1998 se calculó el número de áreas censales a ser seleccionados en cada dominio urbano/rural, como la división entre el número de viviendas en la muestra asignada al dominio y predominio de muestra de viviendas por segmento censal (12 en lo urbano y 10 en lo rural). El total de segmentos a seleccionarse en el dominio urbano se estableció en 225 (2250/10) segmentos rurales. En cada dominio urbano/rural, se mantuvo el orden de selección de los segmentos censales en la ENDESA 1998. Para la EMNV 1998 dentro de cada dominio urbano/rural, se realizó una selección sistemática y con igual probabilidad del número de segmentos censales requeridos para la encuesta, digamos que de “ a ” segmentos en la ENDESA 1998 se seleccionó “ b ” segmentos censales para la EMNV 1998. En cada departamento, la correspondiente probabilidad de selección de cada segmento para la EMNV 1998, estará expresada en la siguiente relación matemática. Pn = (a * m ) * (b) ∑m i (2) a i donde, a : número de segmentos censales seleccionados en la ENDESA 1998 b : número de segmentos censales seleccionados en la EMNV 1998 m : número de viviendas en el i-ésimo segmento censal de acuerdo al censo de 1995 ∑ mi : total de viviendas en el correspondiente departamento según censo 1995 i Pn : probabilidad de selección del i-ésimo segmento censal en el departamento Previo a la siguiente etapa de selección, cada segmento censal debe ser actualizado en cuanto a su cantidad y su distribución de viviendas. Finalmente dentro del segmento, se implementará una selección Evolución de los diseños muestrales de... 417 final de viviendas con la correspondiente lista de viviendas actualizadas. Con el número actualizado de viviendas para cada segmento, se determina el número de viviendas a ser seleccionadas de acuerdo a la siguiente fórmula. Donde, P 2i = 1 ni = li Li (3) donde, n : es el número de viviendas (12 urbano, 10 rural) seleccionadas en el i-ésimo conglomerado li : es el intervalo se selección de la vivienda dentro del i-ésimo conglomerado Li : es el número total de viviendas listadas en el i-ésimo conglomerado actualizado en 1997 P 2ij : es la probabilidad de la j-ésima vivienda dentro del i-ésimo segmento censal para la encuesta EMNV 1998 La probabilidad final de la vivienda en cada departamento entonces viene a se expresada como: Pij = Pli * P2 ij (4) Una vez establecido el número de viviendas a ser seleccionado, el procedimiento real de selección de ellos depende si el conglomerado está localizado en lo urbano o en lo rural. Para cada conglomerado urbano, la selección debe ser de 12 viviendas en forma sistemática con un intervalo de selección de li = Li / ni . La primera selección es hecha al azar dentro del rango del intervalo de selección y las siguientes selecciones están determinadas al acumularse consecutivamente el intervalo de selección. Para cada conglomerado rural, la selección de los hogares se hará en un grupo compacto de 10 viviendas contiguas sobre el listado total de viviendas dentro del segmento censal de acuerdo al siguiente procedimiento: Toda estimación será calculada con un estimado de razón r= (∑W (∑W j j * yj) * xj) (5) Donde la sumatoria es llevada sobre todas las unidades de análisis y W, es la ponderación asignada a cada unidad de análisis. En general “y” es el valor de la variable bajo consideración y “x” es una variable de conteo. 4. Diseño Muestral EMNV 2001 En la EMNV 2001, y debido al interés de realizar una muestra panel que permitiera realizar un análisis comparativo, fue utilizado el mismo diseño muestral de 1998, realizándose solamente el proceso de actualización cartográfica y listado de viviendas correspondiente a los segmentos seleccionados en 1998. 5. Encuestas de Demografía y Salud (ENDESA 1998 y 2001) • Marco muestral El marco muestral utilizado para el diseño y selección de la muestra fue el listado de áreas censales del Censo de Población y Vivienda de 1995. 418 • Evolución de los diseños muestrales de... Tamaño de la muestra El total de sectores censales para la ENDESA 1998 fue de 601 en todo el país y para la ENDESA 2001 fue de 611. Se estimo un total de 15.000 entrevistas aproximadamente, con una perdida muestral de hasta el 15% por causas de la no respuesta y el posible no acceso a ciertos segmentos censales por razones de clima y seguridad. • Distribución de la muestra La distribución de la muestra fue hecha en forma proporcional a la raíz cuadrada de la población censal con el fin de incrementar el tamaño de muestra en los departamentos pequeños. La distribución de la muestra dentro de los departamentos respondió a la consideración de representar a cada uno de ellos como un dominio de estudio para obtener estimadores confiables a nivel departamental. La distribución del número de entrevistas esperadas en cada departamento según nivel urbano y rural se distribuyó en forma proporcional al número estimado de población total. Luego se fijó el número de unidades primarias de muestreo a seleccionarse. El muestreo es bietápico: primero la selección UPM’s y luego la selección de hogares por UPM’s. • Factores de Ponderación Los factores de ponderación de ENDESA restituyen la participación real de cada departamento dentro del total muestral. Las ponderaciones de ENDESA 1998 y 2001 consiste en dos componentes: el valor inverso de la fracción de muestreo y el valor inverso de la tasa de respuesta por hogar. El producto de estos dos componentes arroja el peso bruto para los hogares de la muestra . Los pesos finales se calcularon haciendo un ajuste por UPM’s que no se pudieron completar y estandarizando los factores para replicar el total de hogares completos.