DISEÑO Y COBERTURA DE LA MUESTRA A.1 APÉNDICE A INTRODUCCIÓN La Encuesta Nacional de Demografía y Salud 2005 (ENDS 2005) se realizó en la Muestra Maestra de PROFAMILIA, ampliada y actualizada en su diseño, en un total de 37,211 hogares, concentrados en 3,935 segmentos, de 208 Unidades Primarias de Muestreo (básicamente municipios), de los 33 departamentos del país. Los segmentos están distribuidos proporcionalmente en las cabeceras municipales y la zona rural. El universo de estudio comprende el 99 por ciento de la población urbana y rural de los 33 departamentos del país (Cuadro A.1). Se excluyó del universo la población rural de la Orinoquía y la Amazonía, en razón de los muy elevados costos unitarios de su cubrimiento, pues está dispersa en cerca de 500,000 km2 y porque representa menos del 1 por ciento de la población total. Para los 22 mayores departamentos el tamaño de la muestra se fijó en 1,200 hogares, lo cual garantiza estimaciones de aceptable y similar precisión para los más importantes indicadores, así: • • Para las mujeres en edad fértil, la estimación de indicadores con una probabilidad de ocurrencia de 0.20 o más, con un error estándar relativo (ESrel) del 10 por ciento o menos. Para las mujeres actualmente unidas y para los niños menores de 5 años, la estimación de indicadores con probabilidad de 0.3 o más, con un ESrel del 12 por ciento o menos. Indicadores de menor frecuencia en estos subgrupos de población, u otros de similar tamaño, también pueden ser estimados a nivel departamental, pero con menor precisión (ESrel mayor). Para San Andrés y Providencia, y para los departamentos de la Orinoquía y la Amazonía, la muestra de la ENDS 2005 se fijó alrededor de 600 hogares, lo que significa la posibilidad de estimaciones independientes de aceptable precisión (ESrel del 12 por ciento o menos) sólo para indicadores de mayor frecuencia, o también, la posibilidad de estimaciones para parejas de departamentos, con precisión similar a la de los departamentos con muestra más grande. A medida que se acumula la muestra por subregiones (14-16), regiones (6) y para el conjunto del país, no sólo aumenta progresivamente la precisión de las estimaciones (menor ESrel), sino que es factible la estimación de fenómenos de menor probabilidad de ocurrencia, y la partición sucesiva de la muestra en múltiples subgrupos de análisis demográficos y socioeconómicos. El Cuadro A.1 resume el universo de estudio y el tamaño de las muestras fijadas para la ENDS 2005, por departamento, subregión, región y país. Diseño y Cobertura de la Muestra | 411 Cuadro A.1 Distribución de la población de Colombia 2004 y del número de segmentos de la muestra para la ENDS 2005 Población base para la muestra, número de Unidades Primarias de Muestreo (UPM) y número de segmentos según zona, región, subregión y departamento Población de Colombia 2004 Urbana Rural Número de Segmentos ATLANTICA Cesar Guajira Magdalena 1,034,435 517,359 1,380,971 657,807 349,234 881,096 376,628 168,125 499,875 7 5 6 120 120 120 76 82 76 44 38 44 Barranquilla A.M. 1,695,890 1,691,008 4,882 1 120 120 0 Atlántico sin Barranquilla Bolívar Norte San Andrés 625,556 1,267,215 81,453 482,646 1,114,716 59,015 142,910 160,601 22,438 4 4 1 35 76 55 27 63 40 8 13 15 Bolívar Sur Córdoba Sucre 917,012 1,381,851 854,948 395,525 690,832 590,917 513,385 691,019 264,031 6 8 6 44 120 120 19 57 86 25 63 34 Santander Norte de Santander 2,063,451 1,464,956 1,469,663 1,102,046 593,788 362,910 11 8 120 120 90 93 30 27 Boyacá Cundinamarca Meta 1,404,309 2,305,535 758,316 639,723 1,344,585 500,206 764,586 960,950 258,110 13 16 7 120 120 120 55 70 79 65 50 41 BOGOTA Bogotá D.C. 7,029,928 7,014,111 15,817 1 357 356 1 CENTRAL Medellín A.M. 3,213,471 3,027,390 186,081 1 120 113 7 Antioquia sin Medellín 2,471,727 1,150,331 1,321,396 17 120 53 67 Quindío Risaralda Caldas 603,185 1,009,556 1,159,779 512,487 769,656 747,545 90,698 239,900 412,234 5 5 6 120 120 120 102 94 76 18 26 44 Tolima Huila Caquetá 1,312,703 982,263 455,508 837,279 614,631 219,786 475,424 367,632 235,722 9 8 5 120 120 120 77 74 57 43 46 63 Cali A.M. 2,448,817 2,412,594 36,223 1 120 119 1 Valle sin Cali ni Litoral 1,735,516 1,209,834 525,682 7 120 84 36 Cauca sin Litoral Pacífico Nariño sin Litoral Pacífico 1,248,331 1,581,681 484,529 706,342 763,802 875,339 5 11 79 109 38 51 41 58 96,156 166,030 276,517 413,905 23,010 84,483 237,585 164,572 73,146 81,547 38,932 249,333 3 1 1 5 41 11 8 120 11 6 7 48 30 5 1 72 1,354,645 515,293 839,352 14 480 480 0 45,312,975 32,700,477 12,612,498 208 3,935 2,879 1,056 Cauca Litoral Nariño Litoral Valle Litoral Chocó ORINOQUIA Y AMAZONIA TOTAL 1 Fuente: DANE, Proyecciones de población por área según municipios, 1995-2005 412 | Diseño y Cobertura de la Muestra Rural Total Subregión/departamento PACIFICA Urbana Unidades Primarias de Muestreo Región ORIENTAL Total 1 A.2 LA MUESTRA MAESTRA La muestra de PROFAMILIA tiene el carácter de Muestra Maestra porque sus unidades de muestreo (UPM, segmentos) son clasificables en varias submuestras, las cuales pueden ser utilizadas o adaptadas total o parcialmente para investigaciones similares o de diferentes objetivos, en forma simultánea, sucesiva o acumulativa, y porque sus materiales pueden ser utilizados repetitivamente a través del tiempo. Además las unidades primarias de muestreo (UPM) admiten la selección rotativa de segmentos adicionales, para atender nuevos requerimientos investigativos. Con motivo de la ENDS 2005, que demandó un tamaño de muestra inusualmente grande para garantizar estimaciones departamentales, fue necesaria la implementación de un programa de ampliación de la muestra maestra existente, conformada por 61 Unidades Primarias, que había sido ampliada a 150 UPM y que era insuficiente para las necesidades de la ENDS 2005. Se decidió entonces un rediseño total para garantizar una muestra de óptima estructura y composición, que facilitara el necesario ajuste con base en los próximos resultados del Censo General 2005 que actualmente adelanta el Departamento Administrativo Nacional de Estadísticas (DANE). Se utilizó para el efecto la metodología sugerida por Kish que, garantizando un proceso probabilístico, permite mantener el máximo posible de unidades de muestreo de la actual muestra y que reduce por consiguiente los costos de la ampliación.1 A.3 TIPO DE MUESTRA PARA LA ENDS 2005 El diseño implementado es probabilístico, de conglomerados, estratificado y polietápico. Probabilístico, porque cada unidad del universo estudiado tuvo una probabilidad de selección conocida y superior a cero. Las muestras probabilísticas tienen la ventaja de permitir establecer a priori la precisión requerida en las estimaciones y calcular a posteriori la precisión observada en los resultados. La probabilidad final de cada sujeto de estudio (hogar y sus miembros), está dada por el producto de las probabilidades de las varias fases del proceso de selección. Los conglomerados son de varias categorías. Las Unidades Primarias de Muestreo (UPM) están constituidas por municipios, o combinación de dos o más de éstos (si son menores de 7,000 habitantes). El tamaño mínimo se determinó con base en la cantidad de segmentos necesarios para que un municipio de la muestra represente el estrato al cual pertenece. Las Unidades Secundarias de Muestreo (USM) están conformadas por manzanas en la zona urbana, y por secciones censales en la zona rural. Las Unidades Terciarias de Muestreo (UTM) son los segmentos de hogares contiguos (alrededor de 10) que se seleccionaron en cada USM. La conglomeración de la muestra, es decir, su concentración en un número limitado de conglomerados, tiene grandes ventajas en el estudio de universos grandes y dispersos, pues reduce los costos unitarios de la recolección, a cambio de una moderada reducción en la precisión de las estimaciones. Tal reducción, a su vez, se compensa con un pequeño incremento del tamaño total de la muestra. El efecto de la conglomeración o efecto del diseño (deff o EDIS) depende del grado de homogeneidad interna de los conglomerados, la cual se mide por la correlación intraclase. Las múltiples investigaciones de PROFAMILIA en muestras de hogares de similar conglomeración a la rediseñada, 1 Kish, L. 1963. Changing strata and selection probabilities. In Proceedings of the Social Statistics Section, American Statistical Association, 124-131. Diseño y Cobertura de la Muestra | 413 permitieron el cálculo del deff, que facilitó la exploración del tamaño de muestra requerido para la ENDS 2005. Antes de la selección, las UPM se clasificaron en grupos o estratos de unidades similares dentro de cada departamento, para aumentar la precisión de las estimaciones. La estratificación es la técnica de optimización, por excelencia, en el muestreo probabilístico. La ganancia en precisión está asociada con el grado de homogeneidad interna de las unidades de los estratos y el grado de heterogeneidad entre un estrato y otro. Las variables de estratificación deben estar altamente correlacionadas con las variables centrales de estudio (variables dependientes) y mínimamente correlacionadas entre sí, para una mayor complementariedad. Las siguientes fueron las variables de estratificación de las UPM: población de la cabecera, porcentaje urbano–rural, Índice de Condiciones de Vida (ICV), vecindad geográfica y tamaño promedio del estrato. Dentro de las UPM, el ordenamiento geográfico de las manzanas facilitó una buena composición por estrato socioeconómico. Las UPM con población similar al tamaño promedio de los estratos, constituyeron por sí mismas un estrato, por lo cual tuvieron probabilidad 1, y entraron directamente en la muestra. Hubo un total de 53 unidades de “certeza”, que corresponden principalmente a las capitales departamentales y un total de 155 estratos de “no certeza”, con dos o más UPM. La muestra es polietápica, es decir, con varias etapas en el proceso de selección: en la primera etapa se seleccionan las UPM; segunda etapa, selección de manzanas y secciones rurales; tercera etapa, selección de segmentos. En la zona rural dispersa, una vez seleccionada la sección rural, para la selección de segmentos se utilizó muestreo de áreas a partir de la cartografía del Instituto Geográfico Agustín Codazzi; esta metodología representó etapas adicionales en oficina: selección de una 'parte' de cada sección; selección de una 'fracción' en cada parte y, en campo: levantamiento cartográfico, segmentación y selección final del segmento en cada 'fracción'. La última etapa tanto en la zona urbana como la rural consistió en la selección de hogares dentro de cada segmento. Cada etapa tiene su probabilidad y fue de rigurosa selección aleatoria. El producto de las probabilidades de las varias etapas que llevaron a la selección de un hogar y de una persona, es la probabilidad final de selección del hogar y de la persona. El cálculo cuidadoso de las probabilidades de selección es indispensable para la estimación insesgada de los resultados. A.4 EL TAMAÑO DE LA MUESTRA Y LA PRECISIÓN ESPERADA Los cálculos exploratorios del tamaño de la muestra facilitaron la discusión de alternativas en función de precisión deseada y de desagregación requerida de los resultados. A su vez, la precisión esperada de la muestra decidida permitió establecer las implicaciones de la decisión tomada. Se utilizaron fórmulas de muestreo aleatorio simple adaptadas para el diseño de conglomerados propuesto.2 Tamaño, para proporciones: n= N p q deff N (ES rel * p ) + pq deff 2 En donde, 2 Kish, L. 1950. Survey Sampling. John Wiley and Sons: New York 414 | Diseño y Cobertura de la Muestra N = Tamaño del universo, es decir, tamaño del grupo o subgrupo poblacional para el cual se desea estimar una proporción, en un determinado nivel de desagregación (departamento, subregión, etc) p = proporción mínima esperada del indicador q = 1− p deff = efecto de la conglomeración de la muestra deff = ES rel = Var ( M . conglomerados ) Varianza del diseño de conglomerados = Var ( MAS ) Varianza de un muestreo aleatorio simple Error Estándar Relativo deseado = ES * p = Error Estándar absoluto por la proporción mínima esperada. Es el nivel de precisión deseado para la investigación. Para la verificación del alcance de la muestra decidida se calcula: ESrel = A.5 n ⎞ pq ⎛ * deff ⎜1 − ⎟ ⎝ N⎠ n p SELECCIÓN DE LA MUESTRA Selección de UPM Dentro de cada estrato se seleccionó una UPM con probabilidad proporcional al tamaño de la población (PPT). Inicialmente, se identificaron las UPM seleccionadas en la muestra anterior. Si había solamente una de estas UPM preseleccionada, se aceptaba en la nueva muestra, con su nueva probabilidad de selección. Si había dos o más UPM preseleccionadas, se escogía una de ellas con PPT. Para el resto de estratos se construyó un proceso de “Selección Controlada”. El objetivo de este método es reducir el error de muestreo en una magnitud adicional a la lograda con la previa estratificación.3 Se define la selección controlada como un “proceso por el cual, manteniendo las probabilidades originales de selección de las UPM, las probabilidades para algunas combinaciones o patrones preferidos de UPM (una por estrato) pueden ser más grandes que las del muestreo estratificado corriente. En forma correspondiente, las probabilidades de patrones no preferidos pueden ser más pequeñas que lo lograble con dicho muestreo estratificado”.4 Se llama patrón preferido el constituido por un conjunto de UPM, tomando una unidad de cada estrato, de características diferentes (variables de estratificación), de tal manera que reflejen en conjunto óptimamente, la heterogeneidad del universo de estudio. El patrón de UPM se establece “por conveniencia”, tratando que sea “favorable”, pero se le asigna una probabilidad de selección igual a la más baja de las probabilidades de las UPM combinadas. Las UPM cuya probabilidad es mayor que la del patrón, deben participar en más patrones, con la probabilidad restante, hasta que se utilice la totalidad de su probabilidad. La conformación de los patrones termina cuando se ha utilizado completamente la probabilidad de todas las UPM y, se procede a la 3 Goodman, R., and Kish, L. 1950. Controlled Selection, a Technique in Probability Sampling. JASA Gómez, L. C. y Losee, G. 1968. La Muestra de la Investigación Nacional de Morbilidad, Cap. II, Selección Controlada de las Unidades Primarias No Definidas, Estudio de Recursos Humanos para la Salud y Educación Médica en Colombia, Minsalud y Ascofame: Bogotá, Abril Diseño y Cobertura de la Muestra | 415 4 selección probabilística de uno de los patrones. Las UPM del patrón seleccionado constituyen la muestra por ser recolectada. Para la muestra de PROFAMILIA, se construyó un conjunto de patrones para cada departamento. De cada conjunto, se seleccionó uno probabilísticamente, para constituir la muestra de UPM de los departamentos. Selección de Segmentos Utilizando como marco de muestreo los mapas y listados del Censo Nacional de Población de 1993 disponibles en el Departamento Administrativo de Estadística (DANE) y los mapas rurales del Instituto Geográfico Agustin Codazzi (IGAC), se procedió de la siguiente manera: • Se estimó el número de segmentos de 10 hogares, en promedio, que tenía la muestra en cada UPM seleccionada. Tal asignación se hizo en función del tamaño de la población del estrato respectivo para las UPM de no certeza; y de la población de las UPM de certeza. El número de segmentos urbanos y rurales (cabecera y resto) en cada UPM, se definió con base en la composición urbano–rural de la población general de los estratos y de las UPM de certeza. • Se seleccionó independientemente para cada UPM la muestra de segmentos. Inicialmente, en cada UPM seleccionada, se listaron los hogares censados por área mínima de empadronamiento del censo de población de 1993 (sector, sección o manzana); se calculó el número de segmentos teóricos de 10 hogares en promedio; se elaboró una frecuencia acumulada de segmentos teóricos separado por cabecera y resto; se calculó un intervalo de muestreo (segmentos existentes sobre segmentos a ser seleccionados); y se seleccionaron los segmentos de la muestra, aplicando sistemáticamente el intervalo de muestreo a partir de un arranque aleatorio. Se identificaron en la cartografía, también a nivel central, los sectores, secciones y manzanas que contenían los segmentos de la muestra, que posteriormente fueron visitados para levantar el croquis con las viviendas y hogares existentes. Para la zona rural, se llevó a cabo la segmentación en la oficina central de la ENDS 2005, en PROFAMILIA. El procedimiento tuvo varias etapas. Primero, se ubicó en la cartografía disponible la sección censal rural que contenía uno o más segmentos de la muestra; segundo, se dividió la sección en grandes “partes”, con límites claramente identificables, se asignó a cada parte el número de segmentos (10 hogares en promedio) que podía contener según la apreciación realizada con estereoscopios, y se seleccionó con PPT una o más partes, según el número de segmentos preseleccionados; tercero, en cada parte seleccionada, se hizo una división en fracciones, utilizando también límites identificables, y se seleccionó una fracción con PPT. Tanto para la zona urbana como en la zona rural, una vez identificado el segmento demarcado cartográficamente, sobre el terreno se construyeron los croquis de los segmentos, con un promedio de 10 viviendas continuas, utilizando todo tipo de límites, divisiones o señales existentes en el terreno (calles y puntos de referencia, quebradas, ríos). A.6 PROCEDIMIENTOS DE ESTIMACIÓN DE LOS RESULTADOS Los procedimientos de estimación se refieren a los esquemas para estimar insesgadamente los valores e indicadores de los universos de estudio. Son fuentes de sesgo las probabilidades variables de selección de las unidades últimas de observación (hogares, personas), la cobertura incompleta de la muestra seleccionada, las imperfecciones del marco de muestreo utilizado en la selección de las muestras, los errores en el diseño de los instrumentos de medición, y las deficiencias en la selección y capacitación de los recolectores, en la captación de los datos y en su procesamiento. 416 | Diseño y Cobertura de la Muestra El efecto negativo de las diferentes probabilidades de selección se controla ponderando los valores muestrales por el recíproco de la probabilidad final de las unidades últimas de observación, o por un factor equivalente. La probabilidad final es el producto de las probabilidades parciales de cada una de las etapas del proceso de selección. El recíproco mencionado se le llama también “factor de expansión”, pues su aplicación genera estimaciones insesgadas de los valores absolutos del universo de investigación. La no cobertura de algunas de las unidades de muestreo seleccionadas es causante de sesgos de estimación cuando las tasas de no cobertura varían entre los distintos subgrupos de la población y cuando los indicadores de estudio también difieren entre estos grupos. La minimización del sesgo se logra con un factor de ajuste, aplicado a nivel de conglomerado mínimo de la muestra, cuando existe evidencia de que, a este nivel, las unidades encuestadas son, en promedio, similares a las no encuestadas. Para la ENDS 2005, el factor básico de expansión, ajustado por no respuesta se convirtió en una ponderación alrededor de la unidad, dividiendo dichos factores por el factor de expansión promedio, con el fin de dar los resultados absolutos en términos del tamaño de muestra. Debido a que el tamaño de la muestra de los diferentes departamentos es similar, a pesar de ser muy variable la población de éstos, son diferentes las probabilidades de selección de los hogares de departamento a departamento. Esta situación de variables probabilidades se corrige a través de la ponderación mencionada, con una implicación: la muestra ponderada acumulada de los departamentos pequeños, se reduce en función del peso del departamento en el contexto nacional, y la muestra ponderada de los grandes, se aumenta proporcionalmente al peso de éstos. Probabilidades de Selección p f = p1 × p 2 según corresponda P1 = De UPM en Estrato p1 = población UPM población Estrato P2 = De Segmentos en UPM P2.1 = De Segmentos Urbanos p 2.1 = MT (medidas de tamaño) seleccionadas MT existentes P2.2 = De Segmentos Rurales P2.2.1 = De Sector Rural p 2.2.1 = MT (del sector seleccionado) × total sectores seleccionados MT existentes en zona rural Diseño y Cobertura de la Muestra | 417 P2.2.2 = De Parte en Sector p 2.2.2 = MT (de parte seleccionada ) × total partes seleccionadas MT existentes en parte P2.2.3 = De fracción en Parte p 2.2.3 = MT (del sector seleccionado) × total sectores seleccionados MT existentes en zona rural P2.2.4 = De Hogares en Fracción p 2.2.4 = Total de hogares en fracción seleccionada Total hogares existentes en fracción Factores de Expansión F1 = Factor Básico de Expansión f 1 = recíproco de probabilidad final = 1 pf F2 = Factor de Ajuste por Cobertura F2.1 = De Segmentos f 2.1 = F2.2 = segmentos seleccionados zona (U o R ) de UPM segmentos encuestados en la misma zona De Hogares de Segmentos Encuestados f 2.2 = hogares seleccionados en cada segmento Hogares encuestados en el segmentos Si los hogares encuestados eran menos del 50 por ciento, el factor se calculó para grupos de segmentos dentro del mismo sector censal y de la misma zona. F2.3 = De personas en segmentos encuestados F2.3.1= De Mujeres de 13 a 49 años en los Hogares de Segmentos Encuestados f 2.3.1 = Mujeres de 13 a 49 años seleccionadas en cada segmento Mujeres de 13 a 49 años entrevistadas cada segmentos 418 | Diseño y Cobertura de la Muestra F2.3.2= De Mujeres de 59 a 69 años en los Hogares de Segmentos Encuestados f 2.3.2 = Mujeres de 50 a 69 años seleccionadas en cada segmento Mujeres de 50 a 69 años entrevistadas cada segmentos Ff = Factor Final de Expansión f f = f1 × f 2 FCP = Factor Final o Ponderación de Corrección alrededor de la Unidad. misma ponderación Wh α β j de la fórmula de errores de muestreo. f cp = ff f f = Es la Factor final de expansión promedio de factores finales de expansión La ponderación final calculada con base en el promedio general de los factores finales de expansión de toda la muestra permite el cálculo insesgado de cualquier tipo de indicador relativo o combinado, en todos los niveles de agregación de la muestra: departamental, subregional, regional y nacional. A.7 CÁLCULO DE LA PRECISIÓN OBSERVADA: LOS ERRORES DE MUESTREO Todas las estimaciones de las características de los universos de estudio, basadas en muestras probabilísticas, son aproximadas, razón por la cual es importante establecer su nivel de precisión, o margen de error. El indicador apropiado, es el Error Estándar, o Error de Muestreo, que mide la variabilidad del azar propia de las muestras probabilísticas. El Error Estándar Relativo (ESrel), es la expresión del error estándar como proporción o porcentaje del valor del indicador. La formulación matemática para el cálculo del error estándar, se realiza en función del tipo de muestra. Se proponen fórmulas generales para un diseño estratificado de conglomerados desiguales, las cuales permiten variable cantidad de conglomerados por departamento. Si en el análisis de los resultados se desean los límites de confianza entre los cuales se pueden encontrar los verdaderos valores del universo de estudio, con un determinado nivel de seguridad (nivel de confianza), se resta y se suma al indicador, “Z” veces el error estándar del mismo. El valor de Z es 1.96 para un 95 por ciento de confianza, 1.64 para el 90 por ciento de confianza y 1.44 para el 85 por ciento de confianza. Diseño y Cobertura de la Muestra | 419 Estimadores de Razón Por tratarse de un diseño de conglomerados desiguales, el tamaño de la muestra tiene el carácter de variable aleatoria. En consecuencia, las proporciones y promedios estimados a partir de la muestra surgen del cociente o razón (r) de dos variables aleatorias. H y r= = x ah bh α x h αβ ∑∑ ∑ ∑ α β y h αβ j .w h αβ j ∑ ∑α ∑β ∑ x h αβ j .w h αβ j h =1 =1 =1 j =1 h j Estimadores de Razón para Variables Continuas xhαβ yhαβ = ∑ yh α β j j =1 yhα β j = El valor de la variable continua “ y ” en la j - ésima persona u hogar de segmento “ β ”, del grupo “ α “, del departamento “h”. j = 1, 2, ... xhαβ , es cada una de las personas u hogares de la muestra, en el segmento “ β ”,del grupo “ α “, del departamento “h”. xh α β = β 1, 2, 3, ... = Total de personas en el segmento “ β ”,del grupo “ α “, del departamento “h”. bhα , es cada uno de los segmentos de la muestra, en el grupo “ α “, del departamento “h”. bhα = Total de ah = h H = = segmentos en el grupo “ α “, del departamento “h”. Total de grupos de segmentos en el departamento “ h ” 1, 2, ... H, es cada uno de los departamentos. Total de los departamentos. whαβj = Ponderación por diferente probabilidad, ajustada por no respuesta, en la persona u hogar “ j “, segmento “ β ”, del grupo “ α “, del departamento “h”. 420 | Diseño y Cobertura de la Muestra Estimadores para Variables Discontinuas, Cualitativas xhαβ yhαβ = ∑ yhαβ , j =1 j =1 y h α β , j =1 yhα β = = es cada persona que tiene la característica de interés. Se cuenta como 1 Total de personas que tienen la característica de interés en el segmento “ β ”, del grupo “ α “, del departamento “h”. Varianza de Azar del Estimador: el Error Estándar var (r ) = 1 ⎡ ⎢∑∑∑∑ ⎣h α β j ⎡ ⎤ 2 ⎢∑ var( yh ) + r ∑ var(xh ) − 2r ∑ cov( yh , xh )⎥ h h ⎦ ⎤ ⎣h xhαβj .whαβj ⎥ ⎦ 2 En donde, 2 x ⎛ ⎞ ⎤ 1 ⎡ a h bhα hαβ 2 ⎢ah ∑ ∑ ∑ ( yhαβj .whαβj ) − ⎜ ∑∑∑ yhαβj .whαβj ⎟ ⎥ var ( yh ) = ⎜ ⎟ ⎥ ah − 1 ⎢ α =1 β =1 j =1 ⎝ α β j ⎠ ⎦ ⎣ 1 ⎡ ⎢ah ∑ var ( x h ) = ah − 1 ⎢ α ⎣ ∑ ∑ (x β j h αβ j . w h αβ j ) 2 ⎛ − ⎜⎜ ∑ ⎝ α ∑β ∑ j x h αβ j .w h αβ j ⎞ ⎟ ⎟ ⎠ 2 ⎤ ⎥ ⎥⎦ x ⎛ ⎞⎤ 1 ⎡ ah bhα hαβ cov ( yh , xh ) = ⎢ah ∑ ∑ ∑ ( yhαβj .xhαβj .whαβj ) − ⎜⎜ ∑∑∑ yhαβj .xhαβj .whαβj ⎟⎟⎥ ah − 1 ⎢⎣ α =1 β =1 j =1 ⎝ α β j ⎠⎥⎦ El factor de corrección para poblaciones finitas es muy cercano al valor 1, por lo cuál se eliminó de las fórmulas. Diseño y Cobertura de la Muestra | 421 Error Estándar del Estimador es (r ) = var (r ) Límites de Confianza del Estimador r − Z * es(r ) ≤ R ≤ r + Z * es(r ) En donde R es el valor del universo de estudio Z es 1.96 para 95 por ciento de confianza Z es 1.64 para 90 por ciento de confianza Z es 1.44 para 85 por ciento de confianza Error Estándar Relativo, en Porcentaje es rel (r ) = [es(r ) / r ] x 100 Varianza de Diferencia de Razones Diferencia r − r1 = 1 y y − = x x1 ∑∑∑∑ α β yhαβj .whαβj ∑∑∑∑ α β xhαβj .whαβj h − j h j ∑∑∑∑ α β y1hαβj .whαβj ∑∑∑∑ α β x1hαβj .whαβj h j h j Varianza de la diferencia ( ) ( ) ( ) ) ( ) var r − r 1 = var (r ) + var r 1 − 2 cov r , r 1 En donde, ( ) cov r , r 1 = ( ) ( ( ) 1 [cov y, y 1 + r r 1 cov x, x1 − r cov y 1 , x − r 1 cov y, x1 ) 1 xx siendo ⎛ ⎞⎛ ⎞ x x1 = ⎜⎜ ∑∑∑∑ xhαβj .whαβj ⎟⎟ ⎜⎜ ∑∑∑∑ x1hαβj whαβj ⎟⎟ ⎝ h α β j ⎠⎝ h α β j ⎠ 422 | Diseño y Cobertura de la Muestra Una forma de la varianza más cómoda para cálculos, podría ser: ( ) var r − r 1 = 1 x2 ∑d 2 1 x12 zh + h ∑d z − 2 1 h h 2 x x1 ∑ dz .dz h 1 h h En donde, z hα = y hα − r x hα Es decir: d 2 zh = ⎤ 1 ⎡ ah ∑ z h2α − z h2 ⎥ ⎢ ah − 1 ⎣ α ⎦ zh = ∑∑∑ zhα = ∑∑∑ yhαβj .whαβj − r ∑∑∑ xhαβj .whαβj α β α j β α j β j O sea: 1 ⎡ 2 ⎢ ah d zh = ah − 1 ⎢ ⎣ (y αβ .w αβ ) ∑ ∑∑ α β 2 h j h j j d z h . d z1h = ⎛ ⎞ − ⎜⎜ ∑∑∑ yhαβj .whαβj ⎟⎟ ⎝ α β j ⎠ 2 ⎤ ⎥ ⎥⎦ ⎤ 1 ⎡ ah ∑ z hα .z1hα − z h .z1h ⎥ ⎢ ah − 1 ⎣ α ⎦ Error Estándar de la Diferencia ( ) ( es r − r 1 = var r − r 1 A.8 ) RENDIMIENTO DE LA MUESTRA En el Cuadro A.2.1 se presentan las tasas de respuesta por zona de residencia y región. En el Cuadro A.2.2 se presentan los resultados detallados de las entrevistas de hogares por subregión y departamento y en el Cuadro A.2.3 para las entrevistas de mujeres. Los cuadros detallan los procedimientos para el cálculo de las tasas. En el 8 por ciento de las 47,794 viviendas visitadas no se encontró hogares porque la vivienda cambió de uso, estaba desocupada o fue demolida. En total se encontraron 42,033 hogares y en 37,211 se logró completar la entrevista, para una tasa de respuesta del 88 por ciento al excluir del cálculo las Diseño y Cobertura de la Muestra | 423 viviendas sin hogar disponible para entrevista por las razones anteriormente mencionadas. La menor tasa de respuesta corresponde a Bogotá (65 por ciento) y la mayor a la región Atlántica. De un total de 41,552 mujeres elegibles de 15 a 49 años, se logró entrevistar 38,143 obteniéndose una tasa de respuesta del 92 por ciento. Al igual que para las entrevistas de hogares, la menor tasa de respuesta para la entrevista individual se obtuvo en Bogotá. En todas las demás regiones la tasa es superior al 91 por ciento y alcanzó el 95 por ciento en la Orinoquía y Amazonía. La tasa de respuesta combinada de hogares y mujeres de 15 a 49 años fue del 81 por ciento que, aunque ha disminuido con relación a las encuestas de demografía y salud anteriores, continúa siendo satisfactoria, teniendo en cuenta que los diferentes hechos de orden social y económico que afectan al país dificultan el trabajo de campo. Con relación a la encuesta anterior, las tasas de respuesta han disminuido para todos los niveles de desagregación particularmente en la zona urbana y en Bogotá . Cuadro A.2.1 Distribución porcentual de hogares y de mujeres elegibles por resultado de las entrevistas de hogar e individual, y tasas de respuesta de hogares, mujeres elegibles y Total, según zona urbana-rural y región, Colombia 2005 Tasa de respuesta de las entrevistas de hogares y de mujeres por zona de residencia y región, Colombia 2005 Zona Resultado Urbana Región Rural Atlántica Oriental Bogotá Central Pacífica Orinoquía y Amazonía Total Hogares Completo Rechazo Ausente momentáneo Ausente temporal Ausente no recuperable Cambio de uso Vivienda desocupada Otra respuesta Total Número de hogares en la muestra 81.1 2.8 0.8 6.8 1.7 1.4 4.3 1.1 100.0 34,290 81.9 0.5 0.6 5.0 2.0 0.9 8.6 0.5 100.0 11,504 88.7 0.7 0.3 3.4 0.9 0.4 4.9 0.5 100.0 10,293 76.7 2.6 0.1 11.5 2.4 0.0 5.4 1.3 100.0 7,187 59.8 9.5 3.1 18.7 1.0 2.4 4.3 1.2 100.0 4,024 81.4 1.9 0.9 4.7 2.7 0.8 6.5 1.1 100.0 11,131 82.5 1.3 1.0 1.6 2.6 4.7 5.3 1.0 100.0 7,347 86.8 1.3 0.1 6.2 0.4 0.0 4.6 0.7 100.0 5,812 81.3 2.3 0.8 6.4 1.8 1.3 5.4 0.9 100.0 45,794 Mujeres Completa Rechazo Ausente momentáneo Ausente temporal Ausente no recuperable Incompleta Otro Total Número de mujeres elegibles 91.6 0.9 1.6 0.9 4.3 0.0 0.8 100.0 32,017 92.4 0.2 0.9 0.7 4.8 0.0 1.0 100.0 9,535 93.7 0.5 0.9 0.8 3.1 0.0 0.9 100.0 11,109 91.1 0.7 0.2 0.2 6.8 0.1 0.9 100.0 5,801 82.4 2.3 2.2 1.7 10.5 0.2 0.6 100.0 2,873 91.5 0.7 1.4 1.3 4.3 0.0 0.8 100.0 9,697 91.0 0.5 4.3 1.1 2.2 0.0 0.9 100.0 6,534 95.0 0.4 0.0 0.0 4.0 0.0 0.5 100.0 5,538 91.8 0.7 1.4 0.8 4.4 0.0 0.8 100.0 41,552 86.9 91.6 79.6 91.0 92.4 84.1 94.3 93.7 88.4 82.2 91.1 74.9 65.0 82.4 53.6 88.9 91.5 81.3 92.7 91.0 84.3 91.7 95.0 87.1 87.9 91.8 80.7 Tasa de respuesta Hogares Mujeres Total 424 | Diseño y Cobertura de la Muestra Cuadro A.2.2 Implementación de la muestra de hogares Distribución porcentual de hogares por resultado de las entrevistas y tasas de respuesta, según subregión y departamento, Colombia 2005 ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– Subregión y departamento Ausente no Vivienda Cambio Otro Ausente Ausente de resulComplemomen- tem- recupe- desocurable pada uso tado to Rechazo táneo poral (CU) (OR) (C) (R) (AM) (AT) (ANR) (VD) Tasa de Número respuesta de de hogares hogares Total muestreados (TRH) ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– Subregión Guajira, Cesar, Magdalena Barranquilla A. M. Atlántico, San Andrés, Bolívar Norte Bolívar Sur, Sucre, Córdoba Santanderes Boyacá, Cundinamarca, Meta Medellín A.M. Antioquia sin Medellín Caldas, Risaralda, Quindío Tolima, Huila, Caquetá Cali A.M. Valle sin Cali ni Litoral Cauca y Nariño sin Litoral Litoral Pacífico Bogotá Orinoquía y Amazonía 88.3 89.7 87.0 89.8 77.7 76.1 78.7 81.3 80.3 83.5 78.6 84.8 86.0 78.7 59.8 86.8 0.7 1.7 1.1 0.2 2.6 2.6 3.9 1.3 2.8 0.6 2.6 1.4 1.2 0.6 9.5 1.3 0.0 0.8 0.0 1.1 0.0 0.1 4.2 1.0 0.0 0.3 12.3 7.0 0.0 3.5 2.4 0.0 0.1 0.4 0.6 0.5 0.0 0.1 5.5 1.0 0.0 0.1 0.6 1.0 0.0 2.5 3.1 0.1 3.6 3.1 6.1 1.5 12.6 10.9 0.4 2.7 5.0 6.5 0.6 1.2 2.7 1.1 18.7 6.2 6.9 3.0 3.8 4.2 3.6 6.5 3.9 8.8 6.4 6.9 4.4 4.1 5.9 6.3 4.3 4.6 0.2 0.6 0.6 0.9 1.4 1.2 1.3 0.7 1.0 1.2 0.4 0.2 1.3 1.6 1.2 0.7 0.3 0.8 0.8 1.9 2.2 2.6 2.0 3.1 4.6 0.9 0.5 0.3 2.9 5.8 1.0 0.4 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 3,822 1,447 1,931 3,093 2,812 4,375 1,497 1,356 4,145 4,133 1,400 1,533 2,519 1,895 4,024 5,812 95.3 93.7 91.8 96.5 83.6 84.8 84.8 93.2 91.1 91.8 83.1 88.9 95.7 91.1 64.0 92.0 Departamento La Guajira Cesar Magdalena Atlántico San Andrés Bolívar Sucre Córdoba Norte de Santander Santander Boyacá Cundinamarca Meta Bogotá Antioquia Caldas Risaralda Quindío Tolima Huila Caquetá Valle Cauca Nariño Chocó Arauca Casanare Guainía Vichada Amazonas Putumayo Guaviare Vaupés 85.0 90.3 89.9 90.1 82.6 88.8 89.2 90.1 82.3 73.5 75.3 72.5 81.7 59.8 80.0 81.2 80.4 79.2 78.2 91.3 80.7 81.8 84.1 86.6 76.8 89.1 76.7 89.0 88.3 88.9 89.4 88.0 86.1 1.0 0.2 0.9 1.4 1.1 1.0 0.2 0.2 1.7 3.5 2.7 2.6 2.3 9.5 2.7 2.7 4.6 1.1 1.0 0.3 0.3 1.9 1.5 0.8 0.4 0.4 3.1 0.6 0.6 1.7 1.3 1.3 0.8 0.0 0.0 0.0 0.7 0.0 0.0 1.3 1.1 0.0 0.0 0.0 0.2 0.0 2.4 2.7 0.1 0.0 0.0 0.7 0.0 0.0 9.4 2.7 0.1 1.5 0.0 0.0 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 0.2 0.3 0.9 0.5 0.6 0.5 0.0 0.0 0.0 0.4 0.0 3.1 3.4 0.0 0.1 0.0 0.3 0.0 0.0 0.8 0.6 0.1 2.8 0.0 0.0 0.0 0.0 0.0 0.5 0.0 0.0 4.2 3.6 3.0 2.5 11.1 4.5 1.3 1.2 10.5 14.3 10.4 13.6 7.8 18.7 1.5 5.9 6.5 2.7 9.8 2.8 6.7 0.9 2.6 2.1 1.4 3.0 14.0 5.4 3.4 6.1 4.7 6.4 5.3 9.8 5.1 5.5 3.2 3.8 3.9 4.2 4.1 2.4 4.6 6.9 7.7 4.6 4.3 6.3 8.4 5.8 5.0 8.1 4.1 8.9 4.4 5.5 5.9 6.7 3.7 3.0 5.0 7.8 2.9 3.7 4.2 7.8 0.0 0.3 0.2 0.8 0.2 0.4 1.7 0.2 1.1 1.7 1.3 1.1 1.3 1.2 1.0 0.2 0.7 2.0 0.6 0.9 2.3 0.3 0.6 1.7 2.2 3.5 0.7 0.0 0.0 0.4 0.3 0.1 0.0 0.1 0.5 0.3 0.9 0.3 1.1 1.5 2.4 2.0 2.3 3.4 1.9 2.4 1.0 2.5 1.4 1.9 10.0 1.2 0.6 0.9 0.4 2.4 2.8 8.3 0.3 2.6 0.0 0.0 0.0 0.0 0.0 0.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 1,340 1,288 1,194 1,816 633 1,321 1,393 1,308 1,319 1,493 1,503 1,622 1,250 4,024 2,853 1,349 1,340 1,456 1,543 1,432 1,158 3,024 1,480 1,599 1,244 737 810 702 681 721 765 793 603 94.3 96.0 95.6 94.8 86.3 93.8 96.4 96.6 87.1 80.5 85.1 81.2 89.0 64.0 88.7 90.3 87.8 95.4 86.8 96.7 91.9 86.3 91.9 96.5 92.6 96.3 81.8 93.7 95.7 92.0 93.1 92.0 93.3 Total 81.3 2.3 1.3 0.8 6.4 5.4 0.9 1.8 100.0 45,794 88.4 ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– 1 La tasa de respuesta de hogares (TRH) se calcula como: 100 x HC TRH = ––––––––––––––––––– C+R+AM+AT+ANR Es decir, se excluyen de los cálculos las categorías ‘vivienda desocupada’, ‘cambio de uso’ y ‘otro resultado’ Diseño y Cobertura de la Muestra | 425 Cuadro A.2.3 Implementación de la muestra de mujeres Distribución porcentual de mujeres elegibles por resultado de las entrevistas y tasas de respuesta, según subregión y departamento, Colombia 2005 ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– Subregión y Departamento Ausente Ausente no Complemomen- Ausente recupe- Incomta Rechazo táneo temporal rable pleta (C) (R) (AM) (AT) (ANR) (I) Otro resultado (OR) Total Tasa de respuesta Tasa de Número de mujeres respuesta de elegibles total mujeres (TRM) (TRT) ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– Subregión Guajira, Cesar, Magdalena Barranquilla A. M. Atlántico, San Andrés, Bolívar Norte Bolívar Sur, Sucre, Córdoba Santanderes Boyacá, Cundinamarca, Meta Medellín A.M. Antioquia sin Medellín Caldas, Risaralda, Quindío Tolima, Huila, Caquetá Cali A.M. Valle sin Cali ni Litoral Cauca y Nariño sin Litoral Litoral Pacífico Bogotá Orinoquía y Amazonía 94.4 93.4 92.9 93.6 90.9 91.2 84.5 91.9 91.8 93.6 84.5 90.6 94.6 90.9 82.4 95.0 0.8 0.8 0.2 0.2 0.9 0.6 1.5 0.1 1.1 0.4 0.3 0.4 0.9 0.1 2.3 0.4 0.1 1.6 0.5 1.7 0.2 0.3 6.5 3.2 0.1 0.3 12.7 5.9 0.0 2.7 2.2 0.0 0.1 1.2 1.4 1.0 0.2 0.2 6.0 1.8 0.0 0.5 0.9 1.4 0.0 2.5 1.7 0.0 3.7 2.0 3.9 2.5 6.9 6.7 0.9 2.4 6.0 4.5 0.7 1.1 3.7 2.4 10.5 4.0 0.0 0.0 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.2 0.0 0.8 1.0 1.0 0.9 1.0 0.8 0.7 0.7 0.9 0.8 0.9 0.6 0.8 1.4 0.6 0.5 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 4,012 1,778 2,027 3,292 2,408 3,393 1,364 1,221 3,439 3,673 1,199 1,385 2,342 1,608 2,873 5,538 94.4 93.4 92.9 93.6 90.9 91.2 84.5 91.9 91.8 93.6 84.5 90.6 94.6 90.9 82.4 95.0 90.0 87.5 85.2 90.4 76.0 77.4 71.7 85.6 83.7 85.9 70.2 80.5 90.5 82.9 52.7 87.4 Departamento La Guajira Cesar Magdalena Atlántico San Andrés Bolívar Sucre Córdoba Norte de Santander Santander Boyacá Cundinamarca Meta Bogotá Antioquia Caldas Risaralda Quindío Tolima Huila Caquetá Valle Cauca Nariño Chocó Arauca Casanare Guainía Vichada Amazonas Putumayo Guaviare Vaupés 93.8 94.8 94.8 93.1 95.8 92.6 92.4 94.7 90.9 90.9 91.3 90.0 92.7 82.4 88.0 90.9 90.2 94.3 91.2 95.0 94.6 87.9 94.3 93.9 90.5 98.2 91.9 93.0 96.3 95.0 95.7 94.6 95.2 1.3 0.3 0.7 0.7 0.2 0.2 0.4 0.0 0.6 1.3 0.9 0.3 0.6 2.3 0.8 0.9 1.0 1.4 0.8 0.1 0.1 0.3 0.5 1.1 0.1 0.1 0.6 0.8 0.2 0.1 0.4 0.8 0.5 0.0 0.1 0.2 1.3 0.0 0.8 2.8 0.9 0.3 0.0 0.0 0.7 0.0 2.2 4.9 0.2 0.0 0.0 0.5 0.1 0.3 9.0 1.2 0.2 1.8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0.3 1.4 0.2 1.5 0.9 1.2 0.2 0.1 0.1 0.5 0.0 1.7 4.0 0.0 0.1 0.0 1.1 0.2 0.0 1.1 0.9 0.1 2.5 0.0 0.0 0.0 0.0 0.3 0.0 0.0 0.0 3.7 4.3 3.0 2.5 3.5 3.9 2.4 2.2 7.0 6.7 6.9 7.7 5.3 10.5 1.6 7.4 7.5 3.4 5.6 3.8 4.2 0.9 2.3 3.8 3.5 0.7 7.2 5.8 2.5 4.0 3.6 4.2 3.8 0.1 0.0 0.0 0.0 0.0 0.1 0.0 0.1 0.0 0.0 0.1 0.1 0.3 0.2 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.1 0.0 1.0 0.3 1.1 1.1 0.4 0.8 1.2 0.9 1.0 1.1 0.7 0.7 1.2 0.6 0.7 0.7 1.2 0.8 0.9 0.8 0.7 0.7 0.8 0.9 1.6 1.0 0.3 0.5 1.0 0.6 0.3 0.3 0.5 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 1,373 1,362 1,277 2,201 543 1,444 1,518 1,391 1,216 1,192 1,139 1,228 1,026 2,873 2,585 1,127 1,134 1,178 1,259 1,398 1,016 2,679 1,332 1,493 1,030 715 657 656 593 775 729 783 630 93.8 94.8 94.8 93.1 95.8 92.6 92.4 94.7 90.9 90.9 91.3 90.0 92.7 82.4 88.0 90.9 90.2 94.3 91.2 95.0 94.6 87.9 94.3 93.9 90.5 98.2 91.9 93.0 96.3 95.0 95.7 94.6 95.2 88.5 91.0 90.6 88.3 82.6 86.8 89.0 91.5 79.1 73.1 77.7 73.1 82.5 52.7 78.0 82.0 79.2 89.9 79.2 91.8 87.0 75.8 86.6 90.6 83.8 94.6 75.2 87.1 92.2 87.3 89.1 87.0 88.9 Total 91.8 0.7 1.4 0.8 4.4 0.0 0.8 100.0 41,552 91.8 81.2 ––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––––– 1 La tasa de respuesta de mujeres (TRM) se calcula como: 100 x HC TRH = ––––––––––––––––––––––– C+R+AM+AT+ANR+I+OR 2 La tasa de respuesta total (TRT) se calcula como: TRT = TRH* TRM/100 426 | Diseño y Cobertura de la Muestra