Observatorio Social Universidad Alberto Hurtado La encuesta Panel CASEN: Manual de Usuario Santiago de Chile, Octubre de 2007 Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 Encuesta Panel CASEN: Manual de Usuario El objetivo de este documento es el facilitar el uso de la base de datos. En este sentido, en las diversas secciones se tratan temas como la estructura de la base de datos, las convenciones usadas para nombrar las variables (tanto originales como generadas), los valores perdidos y la descripción de los pesos. Además, se describe como consolidar los distintos archivos que contienen los datos y se adjuntarán junto con esta documentación. 1. Los datos de la encuesta Panel CASEN La tercera ola de la encuesta Panel CASEN 1996, 2001, 2006 es un proyecto conjunto de la Fundación para la Superación de la Pobreza (FSP), el Ministerio de Planificación (Mideplan) y el Observatorio Social de la Universidad Alberto Hurtado (OSUAH). Con esta nueva medición, el objetivo principal que persiguen las tres instituciones es llevar más allá el entendimiento de las condiciones de vida de los hogares chilenos y, en particular, de los problemas de la pobreza y vulnerabilidad con el fin de diseñar mejores políticas sociales. 2. Cómo Solicitar los Datos La información se encontrará disponible a partir del día 17 de octubre del 2007 en la página web del Observatorio Social de la Universidad Alberto Hurtado (http://www.osuah.cl). Para ello, deberá llenarse un formulario electrónico donde se solicitarán algunos datos personales (nombre, afiliación) así como los fines para los cuales se utilizará la encuesta. Alternativamente, existe la posibilidad de asistir personalmente al Observatorio Social, donde se podrá entregar la información correspondiente sobre como obtenerla. 3. Estructura de las Bases de Datos La base de datos se encuentra dividida en cinco módulos separados, que contienen los identificadores necesarios para su utilización conjunta. Estos módulos son: - Archivo panelcasen_m01: Características de los residentes, patrimonio y vivienda. Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 2 - Archivo panelcasen_m02: Educación. - Archivo panelcasen_m03: Empleo. - Archivo panelcasen_m04: Ingresos. - Archivo panelcasen_m05: Salud. - Archivo panelcasen_m06: Hitos. - Archivo panelcasen_m07: Participación. - Archivo panelcasen_m08: Historia Laboral. Cabe señalar que los módulos del 1 al 5 contienen información de las tres olas, mientras que los últimos tres módulos fueron aplicados sólo en la ola 2006. Los cinco primeros módulos contienen los identificadores de hogar para las tres olas, así como el de personas. 4. Identificadores Con el propósito de consolidar los distintos módulos para un análisis posterior, se crearon identificadores de hogares, personas y olas. 4.1. Hogares Los identificadores de hogares están resumidos en tres variables que reflejan las distintas olas de la encuesta: idhogar_96, idhogar_01 e idhogar_06. 4.2. Personas El identificador de personas es la variable idpersona, que identifica a todos los individuos que fueron encuestados alguna vez en el panel. 4.3. Olas Para identificar a los individuos que fueron encuestados en una determinada ola (o varias), se generaron las siguientes variables: - personas_96: personas encuestadas en 1996 - personas_01: personas encuestadas en 2001 - personas_06: personas encuestadas en 2006 - personas_96_01: personas encuestadas en 1996 y 2001 Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 3 - personas_96_01_06: personas encuestadas en 1996, 2001 y 2006. 5. Consolidación de las Bases de Datos Para realizar el pegado de los cinco primeros módulos primero deben ordenarse los módulos de interés en forma ascendente a partir de las variables idhogar_96, idhogar_01, idhogar_06 e idpersona. Luego, deberá hacerse la consolidación. A continuación se muestra un ejemplo de cómo hacerlo en Stata. 1. clear 2. use panelcasen_m02.dta 3. sort idhogar_96 idhogar_01 idhogar_06 idpersona 4. save, replace 5. use panelcasen_m01.dta 6. sort idhogar_96 idhogar_01 idhogar_06 idpersona 7. merge idhogar_96 idhogar_01 idhogar_06 idpersona using panelcasen_m02.dta En los módulos de hitos e historia laboral no se puede hacer el pegado de la forma anterior, puesto que en estos módulos únicamente se recoge información del primer y segundo perceptor del hogar. Para ello, se deben llevar a cabo los siguientes pasos: - Ordenar los archivos ascendentemente en base a las variables idhogar_06 e idmp_06. - Hacer el pegado y eliminar las observaciones de aquellos individuos que no hayan sido primer y segundo perceptor en el 2006. 1. clear 2. use panelcasen_m06.dta 3. sort idhogar_06 idmp_06 4. save, replace 5. use panelcasen_m01.dta 6. sort idhogar_06 idmp_06 7. merge idhogar_06 idmp_06 using panelcasen_m06.dta 8. drop if _merge==1 /* Opcional */ Para el módulo de participación, que se encuentra a nivel de jefe de hogar (es decir, una observación por hogar encuestado), se puede hacer la consolidación únicamente en base a idhogar_06. Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 4 1. clear 2. use panelcasen_m08.dta 3. sort idhogar_06 4. save, replace 5. use panelcasen_m01.dta 6. sort idhogar_06 7. merge idhogar_06 idmp_06 using panelcasen_m06.dta 6. Convenciones para Nombrar las Variables Las variables se nombraron usando las siguientes convenciones: - La primera letra suele referirse al módulo al que corresponde la variable: o r residentes, e educación, o empleo, y ingresos, s salud, v vivienda, p participación, h historia labora, t hitos. - Luego, en la mayoría de los casos, se hace referencia al número de la pregunta en el módulo correspondiente. - Por último viene un sufijo que indica la ola en que fue recolectada la información, es decir “_96” para la primera ola, “_01” para la segunda y “_06” para la tercera. Por ejemplo, la variable o1_01 se refiere a la pregunta 1 del modulo de empleo del año 2001. Además de las variables que representan preguntas del cuestionario, hay en la base de datos otras variables necesarias para el análisis. Entre ellas están las variables r (región), p (provincia), c (comuna), z (zona), h (hogar), que sirven para identificar a los distintos hogares. Estas variables van acompañadas por el sufijo que indica la ola a la que hacen referencia, por ejemplo, r_06 es la variable que identifica la región de la persona en el año 2006. Otras variables que no representan preguntas del cuestionario son las variables estrato, estrato2 y conglomerado, que identifican el diseño muestral complejo. La diferencia entre la primera y la segunda variable es que esta última se encuentra colapsada para reflejar las combinaciones entre región y zona urbana o rural. Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 5 Por otra parte, se encuentran las variables que corresponden a los factores de expansión, divididas en dos grupos que serán presentados con más detalle en la sección 7.3. El primero comprende a los pesos de corte transversal (pesos_ctrans_96, pesos_ctrans_01, pesos_ctrans_06), mientras que el segundo a los pesos longitudinales (pesos_long_96_01, pesos_long_96_01_06). También se dispone de variables de ingreso construidas a partir de las preguntas del cuestionario, las cuales siguen las convenciones del sufijo y de comenzar con la letra “y”. Estas variables fueron construidas a nivel de personas y a nivel de agregado del hogar y se diferencian en la base de datos por la letra h para estas últimas, previo al sufijo que indica la ola a la que hace referencia el ingreso. Así, yaut_06 se refiere al ingreso autónomo de la persona en la tercera ola e yauth_06 se refiere al ingreso autónomo agregado del hogar al que pertenece esa persona en 2006. Durante este proceso se construyen también nph (numero de personas del hogar) y las variables de corte de pobreza para las distintas poblaciones de estudio. Por ultimo, las variables imputadas en la base de datos no sobrescriben las originales, permitiéndole al usuario hacer uso de los datos que estime conveniente, y se distinguen por las letras “cor” previo al sufijo y luego del identificador del hogar en aquellos casos en que corresponda. Por ejemplo, yopr_96 se refiere al ingreso de la ocupación principal del individuo, e yoprcor_96 se refiere a la versión luego del proceso de imputación respectivo. En el caso del agregado del hogar, las variables son yoprh_96 e yoprcorh_96 respectivamente. Es importante advertir al usuario que los cuestionarios de las tres olas no son idénticos, y por tanto, no siempre encontrará una misma variable en las tres olas, o los nombres de las variables no serán los mismos dado que la numeración de las preguntas en el cuestionario respectivo cambió entre una ola y otra. Por tanto, durante el análisis es fundamental que el usuario tenga los cuestionarios de modo de identificar claramente cada variable. Estos cuestionarios estarán disponibles para su descarga junto con la base de datos y la documentación. 6.1. Convenciones para Datos Faltantes En su gran mayoría las preguntas del cuestionario presentan distintas alternativas de respuesta, cada una de las cuales tiene un número asociado. Por lo tanto, en la base Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 6 de datos se registra el número que representa la respuesta del individuo. Entre las variables de texto se encuentran las que registran el nombre del encuestado y los valores ingresados en ciertas preguntas en que se permite especificar la respuesta, como por ejemplo nombre del establecimiento educacional al que asiste, comuna, etc. Es importante diferenciar entre el término no aplica, es decir que una determinada pregunta no corresponde aplicarla a un cierto individuo, y el término dato faltante, que se da en aquellos casos en que efectivamente la pregunta aplica al individuo pero no hay dato registrado, ya sea porque desconoce la respuesta o porque se niega a contestar la pregunta. En las variables de texto, aquellos casos en que una pregunta no aplica a un individuo se registra con un texto vacío en la base de datos, y la falta de información se registra con el texto “SIN DATO”. Para las variables numéricas se identifica con “.” los casos en que la pregunta no aplica y con 9 o 99 un dato faltante. La cantidad de dígitos depende de la cantidad de alternativas que tenga la pregunta, por ejemplo, en una pregunta con 5 alternativas es necesario solo un dígito para identificar el valor faltante, pero para una pregunta con 8 o más alternativas es necesario dos dígitos. En el modulo de ingresos, un dato faltante se representa por 9999999 (7 dígitos), y siguiendo la misma convención, las variables construidas a partir de ingresos faltantes se representan de la misma forma. Las variables de ingresos que se construyeron para el hogar, al ser de mayor magnitud, necesitan mayor número de dígitos, y sus valores faltantes se representan por 1e8. 7. Construcción de Variables 7.1. Escolaridad La construcción de la variable escolaridad se realiza en base a 2 preguntas, que contienen información acerca de: • Tipo de estudio del encuestado, actual (para quienes están estudiando) o último curso aprobado (para quienes no están estudiando). Pregunta e9t para las dos primeras olas y e8tipo para la ola del 2006 Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 7 • Curso del encuestado, actual (para quienes están estudiando) o último curso aprobado (para quienes no están estudiando). Pregunta e9c para las 2 primeras olas y e8curso para la ola del 2006. La división por tipo de estudio es la siguiente: clave 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 0 tipo de estudio educación preescolar o educacion parvularia preparatoria (sistema antiguo) educación básica escuela especial (diferencial) humanidades (sistema antiguo) educación media científico-humanística técnica, comercial, industrial o normalista (sistema antiguo) educación media técnica profesional centro de formación técnica incompleta (sin título) centro de formación técnica completa (con título) instituto profesional incompleta (sin título) instituto profesional completa (con título) educación universitaria incompleta (sin título) educación universitaria completa (con título) universitaria de postgrado educación básica de adulto educación media de adulto ninguno Los cursos del encuestado dependerán del nivel que este presente, exigiendo una consistencia entre ambas variables. 7.1.1 Verificación de consistencia Antes de construir la variable escolaridad se realiza la siguiente verificación de consistencia: • Verificación de rango: dado el tipo de educación, existe un rango admisible para el último curso aprobado. Por ejemplo, si respondió preparatoria, el último curso aprobado no puede ser superior a 6. • Verificación de edad: dado el tipo de educación, existe un rango admisible de edad. Por ejemplo, no debiese existir un individuo cuyo tipo de escolaridad es preparatoria con 20 años de edad, dado que este sistema es anterior a su año de nacimiento. Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 8 7.1.2 Supuestos para la construcción de la variable escolaridad Luego de revisar por posibles inconsistencias, se procede a construir la variable escolaridad para cada ola, bajo los siguientes supuestos: • Educación preescolar, parvularia y diferencial: se asume 0 años de escolaridad1. • Educación superior completa e incompleta: se asumen 12 años de escolaridad previa, que corresponden a los años de estudio escolar2. • Educación universitaria de postgrado: se asume aparte de los 12 años de estudio escolar, 5 años de educación universitaria. • Si existe ausencia de tipo de educación o curso, se le asigna missing. • Valores fuera de rango se les asigna missing. Los supuestos pueden, en algunos casos, subestimar el verdadero número de años de escolaridad3, pero bajo ninguna circunstancia esta variable sobreestimará los verdaderos años cursados por el encuestado. 7.2. Número de personas en el hogar La construcción del número de personas en el hogar se realiza creando en primera instancia un identificador por hogar. Para ello, se generaron las variables nph_96, nph_01 y nph_06, que corresponden a cada una de las tres olas del panel. Cabe señalar que estos hogares no consideran a los individuos de servicio doméstico que forman parte de los hogares. 7.3. Pesos En las bases de datos de la encuesta Panel CASEN se han construido distintos tipos de pesos. Básicamente, éstos son los pesos de corte transversal y los pesos longitudinales para cada ola de la encuesta. A continuación se explica cuáles son los pesos apropiados a utilizar para cada tipo de análisis. La construcción de los mismos 1 Supuestos de escolaridad adoptados por MIDEPLAN. Educación superior abarca centros de formación técnica, institutos profesionales y universidades. 3 Para estudiantes de medicina e ingeniería existe una subestimación de los años de escolaridad dado que éstos estudian 7 y 6 años respectivamente. 2 Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 9 se detalla en el documento “La Encuesta Panel CASEN: Metodología y Calidad de los Datos”. Como es sabido, a través de las reglas de seguimiento y niveles adecuados de respuesta entre ola y ola, una encuesta de hogares tipo panel provee representación continua de la población en un sentido de corte transversal y en un sentido longitudinal. Como es de suponer, si el objetivo es realizar estimaciones de corte transversal de la población, se deberán emplear pesos de corte transversal a partir de la muestra para el año en cuestión. En cambio, si el objetivo es realizar estimaciones longitudinales, se deberán utilizar los pesos longitudinales a partir de la muestra de personas que formaron parte de la muestra a lo largo de todo el período de estudio. Si el objetivo es estudiar la población desde un punto de vista de corte transversal de los residentes de hogares particulares en 1996, 2001 ó 2006, se debe emplear el vector de pesos pesos_ctrans_96, pesos_ctrans_01 o pesos_ctrans_06, a partir de la muestra de personas que respondieron ese año, dada por personas_96, personas_01 o personas_06. Como la encuesta Panel CASEN se completó a través de un informante proxy, no se vio afecta a la no respuesta de las personas dentro del hogar. Ahora bien, desde un punto de vista longitudinal, es discutible la definición de hogar como unidad de análisis. Como se argumenta en la sección 4. de “La Encuesta Panel CASEN: Metodología y Calidad de los Datos”, la definición de hogar es lo suficientemente precisa para un punto del tiempo, pero no a lo largo de él. Por consiguiente, para realizar un análisis longitudinal de la encuesta es mejor definir la persona como la unidad de análisis. A partir de ello, los pesos longitudinales que se deben utilizar son los de la última ola del período analizar. Como en la Encuesta Panel CASEN son sólo tres olas, es posible explicar este punto agotando las posibilidades: − para analizar el período 1996-2001, se deben emplear los pesos período 2001-2006, se deben emplear los pesos pesos_long_96_01; − para analizar el pesos_long_96_01_06; − para analizar el período 1996-2001-2006, se deben emplear los pesos pesos_long_96_01_06, Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 10 Observatorio Social Universidad Alberto Hurtado – www.osuah.cl Almirante Barroso 37 Santiago Centro. Teléfono (56-2) 6987013 11