ANEXO METODOLÓGICO I ANTECEDENTES El proyecto de investigación Construcción de indicadores de la calidad de ciudadanía en México tiene como objetivo generar indicadores para medir la calidad de la ciudadanía en nuestro país como parte de la Estrategia Nacional para el Desarrollo de la Cultura Política Democrática en México (enec) 2011-2015 que desarrolla el ife. Entre las fuentes de información para elaborar los indicadores se encuentra una encuesta aplicada a una muestra probabilística de la población objetivo. En este documento se describen los elementos que fueron considerados para redactar las especificaciones técnicas de la convocatoria con el fin de contratar los servi­ cios de levantamiento de entrevistas para el proyecto. ELEMENTOS INCLUIDOS EN LA PROPUESTA TÉCNICA Error total de la encuesta La propuesta técnica fue redactada con el propósito de que los licitantes propusieran metodologías encaminadas a reducir el error total de la encuesta (Total Survey Error 211 212 CALIDAD DE LA CIUDADANÍA EN MÉXICO • INE o tse). El enfoque del tse incluye todas las posibles fuentes de error en una encuesta. El siguiente cuadro muestra los elementos del tse junto a su sección asociada en la propuesta técnica. Véase Groves, R. M., y Lyberg, L. (2010). Total survey error: Past, present, and future. Public Opinion Quarterly, 74(5), 849-879. Cuadro A.I.1 ERROR TOTAL DE LA ENCUESTA Error muestral PROPUESTA TÉCNICA 6. Diseño de la muestra 5. Cuestionario Error de medición 7. Personal 8. Levantamiento de información Fuente: Elaboración propia. Error de cobertura 6. Diseño de la muestra Error de no-respuesta 8. 3 Tasa de no-respuesta Error de procesamiento 9. Captura y codificación 10. Postprocesamiento Calidad total de la encuesta El enfoque de calidad total de la encuesta (Total Survey Quality o tsq) enfatiza atributos como puntualidad, accesibilidad, y facilidad para utilizar los datos de la encuesta. Las siguientes secciones de la propuesta técnica tienen como propósito que los licitantes propongan alternativas en términos de esos atributos. Véase Biemer, P. P. (2010). Total survey error: Design, implementation, and evaluation. Public Opinion Quarterly, 74(5), 817-848: 1. Plan de trabajo (sección 11). 2. Entregables (sección 12). • Informe de inicio de levantamiento. • Informe semanal de avance del levantamiento. • Informe sobre la logística y desarrollo del levantamiento. A este informe se integrarán como anexos la siguiente información: – Calendario de actividades. – Programa de cobertura. – Informe de prueba piloto. – Reporte de las eventualidades e incidencias en las entidades seleccionadas. – Relación de cuestionarios aplicados. – Relación de cuestionarios cancelados. – Información fuente y base de datos. • Bases de datos finales en un formato de manejador de base de datos, y una consulta que incluya todos los campos correspondientes al instrumento de captación, en formato spss (mínimo versión 13.0) que incluya la descripción y etiqueta de cada variable (hoja Variable View, spss). • Reporte metodológico. ANEXO METODOLÓGICO I 213 ELEMENTOS PARA PUBLICACIÓN EN REVISTAS ACADÉMICAS ESPECIALIZADAS La publicación de análisis estadísticos con datos de encuestas en revistas académicas especializadas requiere información sobre el diseño de la muestra y el levantamiento de los datos. Las siguientes secciones del anexo técnico incluyen los requisitos enumerados en el artículo Stapleton, L. M. (2010). Survey sampling, administration, and analysis. The reviewer’s guide to quantitative methods in the social sciences, 397. 10. Postprocesamiento La licitante adjudicada será responsable de incluir en la base de datos las variables necesarias para llevar a cabo el análisis de la encuesta. Con ese propósito deberá incluir: • Ponderadores muestrales que reflejan el inverso de la probabilidad de selección del individuo en la encuesta. • Estratos (tres variables: estrato geográfico, estrato de interés y la combinación de las dos anteriores). • Variable que indique los conglomerados de la muestra. • Ponderadores por desviaciones de edad y sexo de la muestra con respecto a la población. • Factores de corrección finita. •Replicaciones bootstrap que contemplen el diseño muestral complejo. Diseño de la muestra Uno de los propósitos de la encuesta será contar con información que permita analizar los datos de manera desagregada. Para ello, la encuesta contempla un diseño muestral estratificado. En esta sección del documento se describe el procedimiento para determinar los estratos de la muestra, los cuales serán incluidos en las especificaciones técnicas que deberán cumplir las licitantes interesadas en participar en la convocatoria para la contratación de los servicios de levantamiento de entrevistas para el proyecto. Los investigadores del proyecto plantearon la necesidad de que la muestra fuera representativa a los siguientes niveles de agregación: • Representatividad nacional. • Representatividad de cinco regiones del país. • Representatividad de cinco estratos de interés para el proyecto. Además, los investigadores plantearon la necesidad de sobrerrepresentar en la muestra a dos entidades federativas en cada uno de los cinco estratos de interés, para un total de 10 entidades: • Representatividad de 10 estados de la república. 214 CALIDAD DE LA CIUDADANÍA EN MÉXICO • INE En resumen, el diseño de la muestra será triplemente estratificado, donde los estratos de la muestra se describen por los siguientes atributos de las unidades primarias de muestreo (upm): 1. Una variable que indica la región del país. 2. Una variable que indica el estrato de interés. 3. Una variable que indica si el estado es típico (por definir más adelante) del estrato de interés y/o es el estado con mayor número de habitantes dentro del estrato de interés. Regiones del país La primera variable de estratificación comprende cinco categorías según la zona geográfica en que se ubica el estado (Norte, Centro, Centro-Occidente, Sur y Sureste). Los investigadores del proyecto definieron las siguientes regiones del país: Cuadro A.I.2 REGIÓN 1 2 3 4 5 Fuente: Elaboración propia. NOMBRE ESTADOS Región Norte Sonora Baja California Norte Baja California Sur Sinaloa Chihuahua Coahuila Nuevo León Tamaulipas Durango Región Centro Morelos Tlaxcala Puebla Hidalgo Estado de México Distrito Federal Región Centro-Occidente Aguascalientes Colima Guanajuato Jalisco Michoacán Nayarit Querétaro San Luis Potosí Zacatecas Región Sur Guerrero Oaxaca Chiapas Veracruz Región Sureste Tabasco Quintana Roo Yucatán Campeche 215 ANEXO METODOLÓGICO I Estratos de interés La segunda variable de estratificación es una clasificación de los estados en cinco categorías construidas a partir de las siguientes variables: a) Índice de desarrollo humano, 2010 (Oficina de Investigación en Desarrollo Humano, pnud México). b) Desarrollo institucional. c) Estados con y sin alternancia partidista en la elección de gobernador (elaboración propia a partir de datos electorales del cidac). d) Variación en las ejecuciones por 100 mil habitantes por entidad federativa 20072012 (Eduardo Guerrero, Nexos 1 de diciembre de 2012). e) Porcentaje de hogares con conexión a internet, 2011 (Módulo sobre disponibilidad y uso de las tecnologías de la información en los hogares, 2011, inegi). f) Población de cinco años y más que habla alguna lengua indígena (Censo Nacional de Población y Vivienda 2010. Panorama Sociodemográfico de México). La variable de estratificación se creó en dos pasos. Primero, aplicando un método de reducción de datos (homogeneity analysis) a las seis variables antes mencionadas. Segundo, clasificando a los estados en un cierto número de categorías a partir sus calificaciones (scores) en el paso anterior. Análisis de homogeneidad o análisis no-lineal de componentes principales Para reducir la dimensionalidad de los datos, se realizó un análisis de homogeneidad usando como insumo las seis variables enumeradas. El análisis de homogeneidad equivale a un análisis no-lineal de componentes principales cuando alguna de las variables en el análisis es categórica, como ocurre en nuestra aplicación. En términos generales, el procedimiento consiste en cuantificar de manera óptima las variables categóricas y efectuar un análisis de componentes principales en forma iterativa. Los loadings (pesos) de las variables en las dos primeras dimensiones (las cuales capturan la mayor parte de la varianza de los datos) se ilustran a continuación: Gráfica A.I.1 Fuente: Elaboración propia. 216 CALIDAD DE LA CIUDADANÍA EN MÉXICO • INE Como se observa, la primera dimensión está definida principalmente por las variables de alternancia, desarrollo institucional (accountability) y violencia (variación en ejecuciones). La segunda dimensión está definida por población indígena, cobertura de internet, e índice de desarrollo humano. La gráfica de abajo muestra la ubicación de los estados en ambas dimensiones (scores). Gráfica A.I.2 Fuente: Elaboración propia. Análisis de conglomerados Con el propósito de crear una variable que clasifique a los estados de acuerdo con sus scores, se realizó un análisis de conglomerados utilizando el método de repartición alrededor de medoides (pam, por sus iniciales en inglés). Este algoritmo identifica un número de observaciones (llamados medoides) que se encuentran centrados en los conglomerados que ellos definen. Para propósitos de la encuesta, un medoide es un estado para el cual la disimilitud promedio de los scores con todos los estados en el mismo conglomerado es mínima. El método de pam representa dos ventajas para el diseño de la encuesta. Primero, permite clasificar a los estados del país en un número fijo de conglomerados de acuerdo con su similitud en los scores que fueron utilizados como insumo. Segundo, permite identificar a los estados más representativos de cada conglomerado en los cuales se recolectará una sobremuestra. El método de pam arroja los siguientes resultados: Cuadro A.I.3 CONGLOMERADO 1 Aguascalientes, Baja California Sur 2 Baja California, Colima, Distrito Federal, Jalisco, Morelos, Nuevo León, Sonora 3 4 Fuente: Elaboración propia. ESTADOS 5 Campeche, Chiapas, Guerrero, Hidalgo, Michoacán, Nayarit, Oaxaca, Puebla, San Luis Potosí Coahuila, Chihuahua, Durango, Estado de México, Quintana Roo, Sinaloa, Tamaulipas, Veracruz Guanajuato, Querétaro, Tabasco, Tlaxcala, Yucatán, Zacatecas 217 ANEXO METODOLÓGICO I Las variables que fueron utilizadas como criterios para los estratos de interés se distribuyen de la siguiente manera al interior de los conglomerados. Gráfica A.I.3 Como se puede apreciar, la distribución de la mayoría de las variables es relativamente homogénea al interior de los conglomerados, y aproximadamente heterogénea entre ellos. Sobrerrepresentación de estados Para definir a los estados que serán sobrerrepresentados en la muestra se utilizó un criterio doble. Primero, si el Estado es típico del estrato de interés; segundo, si el Estado es el más grande en términos de población dentro del estrato de interés. Fuente: Elaboración propia. 218 CALIDAD DE LA CIUDADANÍA EN MÉXICO • INE Para determinar los Estados típicos se seleccionaron los medoides del análisis de conglomerados. Como se explicó anteriormente, un medoide es un estado para el cual la disimilitud promedio de los scores con todos los estados en el mismo conglomerado es mínima. Los estados medoides en cada estrato son los siguientes: Cuadro A.I.4 CONGLOMERADO Fuente: Elaboración propia. MEDOIDE 1 Aguascalientes 2 Sonora 3 Oaxaca 4 Estado de México 5 Tabasco Los estados más grandes en cada conglomerado (excluyendo a los medoides) son: Cuadro A.I.5 CONGLOMERADO Fuente: Elaboración propia. ESTADO 1 Baja California Sur 2 Distrito Federal 3 Puebla 4 Estado de México 5 Guanajuato Debido a que el conglomerado 1 comprende únicamente dos estados (Aguascalientes y Baja California Sur), ambos serían sobrerrepresentados en la muestra. Sin embargo, su peso poblacional es mucho más pequeño que el peso que le correspondería en la muestra. Por esa razón, se sustituyó a Baja California Sur por Nuevo León. En resumen, la lista de estados que se van a sobrerrepresentar en la muestra es la siguiente: Cuadro A.I.6 ESTADO Fuente: Elaboración propia. NOMBRE 1 Aguascalientes 2 Nuevo León 3 Distrito Federal 4 Estado de México 5 Guanajuato 6 Oaxaca 7 Puebla 8 Sonora 9 Tabasco 10 Veracruz