evolución de los diseños muestrales de encuestas de hogares en

Anuncio
411
EVOLUCIÓN DE LOS DISEÑOS MUESTRALES DE
ENCUESTAS DE HOGARES EN NICARAGUA
INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS (INEC)
NICARAGUA
412
Evolución de los diseños muestrales de...
ÍNDICE
Página
1.
Introducción ......................................................................................................................... 413
2.
Diseño Muestral EMNV 1993 ............................................................................................. 413
3.
Diseño Muestral EMNV 1998 ............................................................................................. 414
4.
Diseño Muestral EMNV 2001 ............................................................................................. 417
5.
Encuestas de Demografía y Salud (ENDESA 1998 y 2001)................................................ 417
Evolución de los diseños muestrales de...
1.
413
Introducción
En Nicaragua, a pesar de que no existe un programa permanente de Encuestas de Hogares, se ha realizado
una serie de encuestas de hogares como la ESDENIC 85 y las encuestas de Coyuntura e Impacto a inicios
de la década de los noventa. Posteriormente, desde el año 1993, se han realizado tres Encuestas de
Mediciones de Nivel de Vida. La primera de éstas fue realizada antes que Nicaragua entrara al Programa
MECOVI, en tanto que la segunda y tercera fueron realizadas dentro del Programa. Además, se han
realizado otras encuestas: dos Encuestas de Demografía y Salud, una Encuesta Ingresos y Gastos y otras
encuestas puntuales, como las de Electrificación Rural.
2.
•
Diseño Muestral EMNV 1993
Marco muestral
Para la realización de la primera Encuesta de Nivel de Vida en 1993 se usó como marco de muestreo una
combinación de dos fuentes: el registro de votantes y la actualización cartográfica preparada por el INEC
para el censo que se pensaba realizar en 1982.
El tamaño de muestra fue prefijado en 3.600 viviendas, tomándose una tasa de no-respuesta del 15% para
no realizar sustituciones en campo, lo que dio una muestra final de 4,200 viviendas.
•
Distribución de la muestra
Al discutir los objetivos prioritarios del análisis de resultados de la encuesta, se estableció que tenía
prioridad el poder hacer un análisis comparativo de los resultados básicos (estructuras porcentuales, tasas,
razones y medias) para 7 regiones, de acuerdo a la división política territorial del país.
Ante la ausencia de estimaciones de varianza a nivel regional para las principales variables de la encuesta,
lo recomendable es distribuir la muestra en tamaños iguales para cada región, independientemente del
tamaño de ésta. Hay sin embargo, un interés particular en el departamento de Managua (Región 3), en
donde se profundizó el análisis más allá de las tabulaciones principales. Por esta razón, se decidió afijar la
muestra primero adjudicando a Managua un número cercano a la proporción que le correspondía de
acuerdo a su población estimada para 1991, distribuyendo el resto de manera igual entre las 6 regiones
restantes. Al interior de cada región se distribuyó la muestra proporcionalmente en la zona urbana y rural.
•
Selección de la muestra
En total se seleccionaron 420 JRV con probabilidad proporcional al tamaño (medido por el número de
votantes inscritos), 247 urbanas y 173 rurales. La selección de JRV se realizó de forma independiente al
interior de cada región ordenando las JRV de acuerdo a los estratos de selección y corte urbano rural.
La distribución en regiones quedando de la siguiente manera: se dividió la muestra de 420 JRV en 4
réplicas de 105 JRV cada una. De las JRV seleccionadas, tanto urbanas como rurales, se seleccionaron 10
viviendas en dos segmentos compactos de 5 viviendas cada uno.
•
Factores de Expansión
La muestra no es autoponderada. Existe un factor de expansión diferente para cada JRV en muestra.
En general, la probabilidad de selección de las viviendas provenientes de las JRV¡ del estrato h está dada
por:
f hi =
K h * M hi * 2
M h * S hi
donde:
K h : es el número de JRV (o grupos de ellas) seleccionadas en la región h
(1)
414
Evolución de los diseños muestrales de...
M hi : es el número de votantes inscritos en la i-ésima JRV de la región h
M h : es la suma de todos los M hi de la región h (no sólo los seleccionados)
S hi : es el número de segmentos compactos formados en la i-ésima JRV de la región h
Los factores de expansión se determinan por el inverso de estas probabilidades de selección debido a que
la muestra se dividió en 4 réplicas. Las estimaciones de los errores de muestreo (varianzas) se obtuvieron
simplemente obteniendo 4 estimaciones del parámetro de interés basada en las 4 réplicas, y contrastando
cada una de éstas con el promedio de las 4. Las fórmulas de estimación de medias, porcentajes, tasas,
proporciones y razones son las usuales, con las variables expandidas por los factores de expansión
correspondientes.
3. Diseño Muestral EMNV 1998
•
Marco muestral
De acuerdo al último censo de población de 1995, la República de Nicaragua se dividía en 15
departamentos y dos regiones autónomas. Cada departamento está dividido en municipios. A su vez cada
municipio fue dividido en áreas censales y dichas áreas en segmentos censales. En promedio, cada
segmento tiene aproximadamente entre 50 y 60 viviendas, y un sector censal tiene un promedio de cinco
segmentos. Un archivo computarizado de los segmentos censales para cada departamento fue construido
en base de este censo. El área de supervisión censal es una unidad territorial establecida para fines de
control censal y es considerada como la unidad de un grupo de segmentos censales, los cuales fueron
considerados como la carga de trabajo normal para un enumerador censal.
Para la EMNV 1998 se empleó el mismo marco muestral utilizado para la encuesta de Demografía y
Salud (ENDESA 1998), principalmente por dos razones: poder vincular ambas bases de datos de niveles
de vida de la población; y, la necesidad urgente del país de trabajar coordinadamente en la generación de
sistemas de información estadísticas, comunicada por el Comité Interinstitucional.
Así, se decidió utilizar el archivo computarizado de segmentos censales antes mencionado como el marco
muestral inicial para las encuestas ENDESA 1998 y EMNV 1998. De esta manera, resultaba factible una
primera selección de unidades grandes (áreas de supervisión como UPMs) adecuada tanto para los
objetivos de la ENDESA 1998 como de la EMNV 1998 y de otras posibles encuestas.
•
Estratificación
Para la ENDESA 1998 y la EMNV 1998, además de la estratificación explícita de las áreas censales y de
los segmentos censales en lo urbano y rural dentro de cada departamento, se realizó una estratificación
implícita del ordenamiento geográfico en forma de serpentina de las áreas y segmentos. Así, todo proceso
de la estratificación también quedaba implícitamente reflejado en la muestra para la encuesta EMNV
1998. La eficiencia de la estratificación implícita puede ser calculada con el efecto de diseño muestral, el
cual es definido como el cuociente del error estándar con el diseño muestral considerando este
ordenamiento geográfico y del error muestral, con un diseño simple aleatorio dentro de lo urbano o rural
de cada dominio de estudio.
•
Tamaño de muestra
En general, el diseño de la muestra para una encuesta del tipo de la EMNV 1998 es estratificado por
conglomerado y puede resumirse en dos etapas. El error muestral para este diseño tiene dos
componentes: Variación entre conglomerados (segmentos censales) y Variación de los hogares dentro de
los conglomerados.
En general, la variabilidad entre conglomerados es mucho mayor para las áreas urbanas que en las áreas
rurales, pero la variabilidad de los hogares dentro del conglomerado seleccionado es menor en lo urbano
Evolución de los diseños muestrales de...
415
que en lo rural. Por lo tanto, un importante factor a controlar en el error muestral es reducir el mayor
componente de variabilidad, que es la variación entre conglomerados, la cual es inversamente
proporcional al número de conglomerados (especialmente en el área urbana).
Para un análisis adecuado de la información resultante de un tipo de encuesta como la EMNV 1998, se
recomienda un mínimo entre 30 y 40 conglomerados seleccionados por dominio de estudio. También es
bien conocido que un aumento del número de conglomerados en la muestra reduce el error muestral pero
no en razón proporcional al incremento de ese número. Específicamente, si se doblara el número de
conglomerados el error muestral se reduce solo un 30% del valor original.
Basado en las consideraciones anteriores, y para evitar los altos costos de implementacion sin poner en
compromiso la calidad de la información, se hizo necesario una detenida evaluación de dichos factores y
se empleó el criterio de mantener ese mínimo requerido para las estimaciones por dominio.
•
Asignación de la muestra
Con el objetivo de asignar la muestra para la EMNV 1998, se hizo necesario utilizar información de la
encuesta EMNV 1993 como un instrumento de ayuda para la estimación de ciertos parámetros del diseño.
En dicha encuesta se seleccionaron 4.200 viviendas particulares con un adicional de 544 viviendas (es
decir un total de 4.744 viviendas) para conseguir un total de 4.455 entrevistas completas de hogares. Con
dicha información, y el número promedio de hogares completos por vivienda seleccionada de 0.94, se
estimó que para obtener un total aproximado de 4.370 entrevistas completas de hogares se hacía necesario
seleccionar aproximadamente 4.650 viviendas
En la ENDESA 1998, el total de entrevista completas fue distribuido por departamentos pero no
proporcionalmente a su tamaño poblacional sino en formas proporcional a la raíz cuadrada de la
población de cada departamento, para poder cumplir con los objetivos requeridos de la encuesta en
términos de conseguir una mejor distribución entre los departamentos más grandes y los más pequeños.
En otras palabras, a fin de suavizar los efectos de las grandes discrepancias de los tamaños
departamentales. En realidad, este criterio fue tomado de un concepto mucho mas general, que es
combinar el departamento (tamaño poblacional) y el error muestral del indicador departamental (Véase el
artículo Power Allocations: Determining Sample Sizes for Subnational Areas, desarrollado por Michael
D. Banker, The Statistician, Vol 42 Nº 3, August 1980). Así, dado que la muestra para la EMNV 1998 es
una submuestra de la ENDESA 1998, seleccionada sistemáticamente con la misma razón de selección,
entonces la submuestra de la EMNV 1998 también mantiene la asignación de la raíz cuadrada. En el
siguiente cuadro se observa la siguiente asignación de la muestra de conglomerado por dominio de
estudio para la EMNV 1998.
Tabla 1
Distribución de la muestra esperada y del número de conglomerados por dominio de estudio
Dominio de Estudio
Población censal 1995
Tamaño esperado de hogares
Número de conglomerados
completos
Managua
Pacífico Urbano
Pacífico Rural
Centro Urbano
Centro Rural
Atlántico Urbano
Atlántico Rural
1.093.760
757.105
616.877
469.965
884.281
169.551
365.560
550
820
640
610
970
340
440
50
73
68
54
103
30
47
Total
4.357.099
4.370
425
416
•
Evolución de los diseños muestrales de...
Selección de la muestra
La muestra resultante para la EMNV 1998 puede resumirse en dos etapas:
! Selección sistemática de segmentos censales con probabilidad proporcional a su tamaño. En
estos segmentos censales seleccionados se implementó un levantamiento de revisión cartográfica
y de actualización de sus viviendas que se han generado después del último censo de población.
! Definición de un número fijo de viviendas dentro de cada conglomerado (12 por segmento urbano
rural) seleccionado de tal manera de mantener una misma probabilidad para cada vivienda (y
automáticamente para todo hogar dentro de la vivienda) dentro de cada conglomerado.
Dado que tenemos un tamaño fijo por conglomerado y que la asignación del tamaño de muestra no fue
proporcional a través de sus departamentos en la ENDESA 1998, la muestra final de la EMNV 1998 no es
una muestra autoponderada a través de su dominio de estudio. Por lo tanto es necesario establecer sus
correspondientes ponderaciones.
Para el proceso de selección de los segmentos censales se siguieron los siguientes pasos:
Dado que la distribución de la población en Nicaragua es, aproximadamente, mitad urbana y mitad rural
de acuerdo al último censo de población, la asignación de potencia para la ENDESA 1998 y la EMNV
1998 mantienen esta mínima proporción para los dominios urbanos y rurales. Sin embargo, con este
tamaño de muestra urbano, el dominio Atlántico urbano sólo permitía seleccionar 18 conglomerados, de
allí que se decidió incrementar ellos al mínimo de 30 conglomerados.
En la EMNV 1998 se calculó el número de áreas censales a ser seleccionados en cada dominio
urbano/rural, como la división entre el número de viviendas en la muestra asignada al dominio y
predominio de muestra de viviendas por segmento censal (12 en lo urbano y 10 en lo rural). El total de
segmentos a seleccionarse en el dominio urbano se estableció en 225 (2250/10) segmentos rurales.
En cada dominio urbano/rural, se mantuvo el orden de selección de los segmentos censales en la
ENDESA 1998.
Para la EMNV 1998 dentro de cada dominio urbano/rural, se realizó una selección sistemática y con igual
probabilidad del número de segmentos censales requeridos para la encuesta, digamos que de “ a ”
segmentos en la ENDESA 1998 se seleccionó “ b ” segmentos censales para la EMNV 1998.
En cada departamento, la correspondiente probabilidad de selección de cada segmento para la EMNV
1998, estará expresada en la siguiente relación matemática.
Pn =
(a * m ) * (b)
∑m
i
(2)
a
i
donde,
a : número de segmentos censales seleccionados en la ENDESA 1998
b : número de segmentos censales seleccionados en la EMNV 1998
m : número de viviendas en el i-ésimo segmento censal de acuerdo al censo de 1995
∑ mi : total de viviendas en el correspondiente departamento según censo 1995
i
Pn : probabilidad de selección del i-ésimo segmento censal en el departamento
Previo a la siguiente etapa de selección, cada segmento censal debe ser actualizado en cuanto a su
cantidad y su distribución de viviendas. Finalmente dentro del segmento, se implementará una selección
Evolución de los diseños muestrales de...
417
final de viviendas con la correspondiente lista de viviendas actualizadas. Con el número actualizado de
viviendas para cada segmento, se determina el número de viviendas a ser seleccionadas de acuerdo a la
siguiente fórmula.
Donde,
P 2i =
1 ni
=
li Li
(3)
donde,
n : es el número de viviendas (12 urbano, 10 rural) seleccionadas en el i-ésimo conglomerado
li : es el intervalo se selección de la vivienda dentro del i-ésimo conglomerado
Li : es el número total de viviendas listadas en el i-ésimo conglomerado actualizado en 1997
P 2ij : es la probabilidad de la j-ésima vivienda dentro del i-ésimo segmento censal para la encuesta
EMNV 1998
La probabilidad final de la vivienda en cada departamento entonces viene a se expresada como:
Pij = Pli * P2 ij
(4)
Una vez establecido el número de viviendas a ser seleccionado, el procedimiento real de selección de
ellos depende si el conglomerado está localizado en lo urbano o en lo rural.
Para cada conglomerado urbano, la selección debe ser de 12 viviendas en forma sistemática con un
intervalo de selección de li = Li / ni . La primera selección es hecha al azar dentro del rango del intervalo
de selección y las siguientes selecciones están determinadas al acumularse consecutivamente el intervalo
de selección.
Para cada conglomerado rural, la selección de los hogares se hará en un grupo compacto de 10 viviendas
contiguas sobre el listado total de viviendas dentro del segmento censal de acuerdo al siguiente
procedimiento: Toda estimación será calculada con un estimado de razón
r=
(∑W
(∑W
j
j
* yj)
* xj)
(5)
Donde la sumatoria es llevada sobre todas las unidades de análisis y W, es la ponderación asignada a cada
unidad de análisis. En general “y” es el valor de la variable bajo consideración y “x” es una variable de
conteo.
4. Diseño Muestral EMNV 2001
En la EMNV 2001, y debido al interés de realizar una muestra panel que permitiera realizar un análisis
comparativo, fue utilizado el mismo diseño muestral de 1998, realizándose solamente el proceso de
actualización cartográfica y listado de viviendas correspondiente a los segmentos seleccionados en 1998.
5. Encuestas de Demografía y Salud (ENDESA 1998 y 2001)
•
Marco muestral
El marco muestral utilizado para el diseño y selección de la muestra fue el listado de áreas censales del
Censo de Población y Vivienda de 1995.
418
•
Evolución de los diseños muestrales de...
Tamaño de la muestra
El total de sectores censales para la ENDESA 1998 fue de 601 en todo el país y para la ENDESA 2001
fue de 611. Se estimo un total de 15.000 entrevistas aproximadamente, con una perdida muestral de hasta
el 15% por causas de la no respuesta y el posible no acceso a ciertos segmentos censales por razones de
clima y seguridad.
•
Distribución de la muestra
La distribución de la muestra fue hecha en forma proporcional a la raíz cuadrada de la población censal
con el fin de incrementar el tamaño de muestra en los departamentos pequeños. La distribución de la
muestra dentro de los departamentos respondió a la consideración de representar a cada uno de ellos
como un dominio de estudio para obtener estimadores confiables a nivel departamental.
La distribución del número de entrevistas esperadas en cada departamento según nivel urbano y rural se
distribuyó en forma proporcional al número estimado de población total. Luego se fijó el número de
unidades primarias de muestreo a seleccionarse. El muestreo es bietápico: primero la selección UPM’s y
luego la selección de hogares por UPM’s.
•
Factores de Ponderación
Los factores de ponderación de ENDESA restituyen la participación real de cada departamento dentro del
total muestral.
Las ponderaciones de ENDESA 1998 y 2001 consiste en dos componentes: el valor inverso de la fracción
de muestreo y el valor inverso de la tasa de respuesta por hogar. El producto de estos dos componentes
arroja el peso bruto para los hogares de la muestra . Los pesos finales se calcularon haciendo un ajuste por
UPM’s que no se pudieron completar y estandarizando los factores para replicar el total de hogares
completos.
Descargar