Manual_del_Usuario_-_V_2.0.pdf

Anuncio
Observatorio Social
Universidad Alberto Hurtado
La encuesta Panel CASEN: Manual de Usuario
Santiago de Chile, Octubre de 2007
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
Encuesta Panel CASEN: Manual de Usuario
El objetivo de este documento es el facilitar el uso de la base de datos. En este
sentido, en las diversas secciones se tratan temas como la estructura de la base de
datos, las convenciones usadas para nombrar las variables (tanto originales como
generadas), los valores perdidos y la descripción de los pesos. Además, se describe
como consolidar los distintos archivos que contienen los datos y se adjuntarán junto
con esta documentación.
1. Los datos de la encuesta Panel CASEN
La tercera ola de la encuesta Panel CASEN 1996, 2001, 2006 es un proyecto conjunto
de la Fundación para la Superación de la Pobreza (FSP), el Ministerio de Planificación
(Mideplan) y el Observatorio Social de la Universidad Alberto Hurtado (OSUAH). Con
esta nueva medición, el objetivo principal que persiguen las tres instituciones es llevar
más allá el entendimiento de las condiciones de vida de los hogares chilenos y, en
particular, de los problemas de la pobreza y vulnerabilidad con el fin de diseñar
mejores políticas sociales.
2. Cómo Solicitar los Datos
La información se encontrará disponible a partir del día 17 de octubre del 2007 en la
página
web
del
Observatorio
Social
de
la
Universidad
Alberto
Hurtado
(http://www.osuah.cl). Para ello, deberá llenarse un formulario electrónico donde se
solicitarán algunos datos personales (nombre, afiliación) así como los fines para los
cuales se utilizará la encuesta. Alternativamente, existe la posibilidad de asistir
personalmente al Observatorio Social, donde se podrá entregar la información
correspondiente sobre como obtenerla.
3. Estructura de las Bases de Datos
La base de datos se encuentra dividida en cinco módulos separados, que contienen
los identificadores necesarios para su utilización conjunta. Estos módulos son:
-
Archivo panelcasen_m01: Características de los residentes, patrimonio y
vivienda.
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
2
-
Archivo panelcasen_m02: Educación.
-
Archivo panelcasen_m03: Empleo.
-
Archivo panelcasen_m04: Ingresos.
-
Archivo panelcasen_m05: Salud.
-
Archivo panelcasen_m06: Hitos.
-
Archivo panelcasen_m07: Participación.
-
Archivo panelcasen_m08: Historia Laboral.
Cabe señalar que los módulos del 1 al 5 contienen información de las tres olas,
mientras que los últimos tres módulos fueron aplicados sólo en la ola 2006. Los cinco
primeros módulos contienen los identificadores de hogar para las tres olas, así como el
de personas.
4. Identificadores
Con el propósito de consolidar los distintos módulos para un análisis posterior, se
crearon identificadores de hogares, personas y olas.
4.1. Hogares
Los identificadores de hogares están resumidos en tres variables que reflejan las
distintas olas de la encuesta: idhogar_96, idhogar_01 e idhogar_06.
4.2. Personas
El identificador de personas es la variable idpersona, que identifica a todos los
individuos que fueron encuestados alguna vez en el panel.
4.3. Olas
Para identificar a los individuos que fueron encuestados en una determinada ola (o
varias), se generaron las siguientes variables:
-
personas_96: personas encuestadas en 1996
-
personas_01: personas encuestadas en 2001
-
personas_06: personas encuestadas en 2006
-
personas_96_01: personas encuestadas en 1996 y 2001
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
3
-
personas_96_01_06: personas encuestadas en 1996, 2001 y 2006.
5. Consolidación de las Bases de Datos
Para realizar el pegado de los cinco primeros módulos primero deben ordenarse los
módulos de interés en forma ascendente a partir de las variables idhogar_96,
idhogar_01, idhogar_06 e idpersona. Luego, deberá hacerse la consolidación. A
continuación se muestra un ejemplo de cómo hacerlo en Stata.
1. clear
2. use panelcasen_m02.dta
3. sort idhogar_96 idhogar_01 idhogar_06 idpersona
4. save, replace
5. use panelcasen_m01.dta
6. sort idhogar_96 idhogar_01 idhogar_06 idpersona
7. merge
idhogar_96
idhogar_01
idhogar_06
idpersona
using
panelcasen_m02.dta
En los módulos de hitos e historia laboral no se puede hacer el pegado de la forma
anterior, puesto que en estos módulos únicamente se recoge información del primer y
segundo perceptor del hogar. Para ello, se deben llevar a cabo los siguientes pasos:
-
Ordenar los archivos ascendentemente en base a las variables idhogar_06 e
idmp_06.
-
Hacer el pegado y eliminar las observaciones de aquellos individuos que no
hayan sido primer y segundo perceptor en el 2006.
1. clear
2. use panelcasen_m06.dta
3. sort idhogar_06 idmp_06
4. save, replace
5. use panelcasen_m01.dta
6. sort idhogar_06 idmp_06
7. merge idhogar_06 idmp_06 using panelcasen_m06.dta
8. drop if _merge==1
/* Opcional */
Para el módulo de participación, que se encuentra a nivel de jefe de hogar (es decir,
una observación por hogar encuestado), se puede hacer la consolidación únicamente
en base a idhogar_06.
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
4
1. clear
2. use panelcasen_m08.dta
3. sort idhogar_06
4. save, replace
5. use panelcasen_m01.dta
6. sort idhogar_06
7. merge idhogar_06 idmp_06 using panelcasen_m06.dta
6. Convenciones para Nombrar las Variables
Las variables se nombraron usando las siguientes convenciones:
-
La primera letra suele referirse al módulo al que corresponde la variable:
o
r residentes, e educación, o empleo, y ingresos, s salud, v vivienda, p
participación, h historia labora, t hitos.
-
Luego, en la mayoría de los casos, se hace referencia al número de la
pregunta en el módulo correspondiente.
-
Por último viene un sufijo que indica la ola en que fue recolectada la
información, es decir “_96” para la primera ola, “_01” para la segunda y “_06”
para la tercera.
Por ejemplo, la variable o1_01 se refiere a la pregunta 1 del modulo de empleo del
año 2001.
Además de las variables que representan preguntas del cuestionario, hay en la base
de datos otras variables necesarias para el análisis. Entre ellas están las variables r
(región), p (provincia), c (comuna), z (zona), h (hogar), que sirven para identificar a los
distintos hogares. Estas variables van acompañadas por el sufijo que indica la ola a la
que hacen referencia, por ejemplo, r_06 es la variable que identifica la región de la
persona en el año 2006. Otras variables que no representan preguntas del
cuestionario son las variables estrato, estrato2 y conglomerado, que identifican
el diseño muestral complejo. La diferencia entre la primera y la segunda variable es
que esta última se encuentra colapsada para reflejar las combinaciones entre región y
zona urbana o rural.
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
5
Por otra parte, se encuentran las variables que corresponden a los factores de
expansión, divididas en dos grupos que serán presentados con más detalle en la
sección
7.3.
El
primero
comprende
a
los
pesos
de
corte
transversal
(pesos_ctrans_96, pesos_ctrans_01, pesos_ctrans_06), mientras que el
segundo a los pesos longitudinales (pesos_long_96_01, pesos_long_96_01_06).
También se dispone de variables de ingreso construidas a partir de las preguntas del
cuestionario, las cuales siguen las convenciones del sufijo y de comenzar con la letra
“y”. Estas variables fueron construidas a nivel de personas y a nivel de agregado del
hogar y se diferencian en la base de datos por la letra h para estas últimas, previo al
sufijo que indica la ola a la que hace referencia el ingreso. Así, yaut_06 se refiere al
ingreso autónomo de la persona en la tercera ola e yauth_06 se refiere al ingreso
autónomo agregado del hogar al que pertenece esa persona en 2006. Durante este
proceso se construyen también nph (numero de personas del hogar) y las variables de
corte de pobreza para las distintas poblaciones de estudio.
Por ultimo, las variables imputadas en la base de datos no sobrescriben las originales,
permitiéndole al usuario hacer uso de los datos que estime conveniente, y se
distinguen por las letras “cor” previo al sufijo y luego del identificador del hogar en
aquellos casos en que corresponda. Por ejemplo, yopr_96 se refiere al ingreso de la
ocupación principal del individuo, e yoprcor_96 se refiere a la versión luego del
proceso de imputación respectivo. En el caso del agregado del hogar, las variables
son yoprh_96 e yoprcorh_96 respectivamente.
Es importante advertir al usuario que los cuestionarios de las tres olas no son
idénticos, y por tanto, no siempre encontrará una misma variable en las tres olas, o los
nombres de las variables no serán los mismos dado que la numeración de las
preguntas en el cuestionario respectivo cambió entre una ola y otra. Por tanto, durante
el análisis es fundamental que el usuario tenga los cuestionarios de modo de
identificar claramente cada variable. Estos cuestionarios estarán disponibles para su
descarga junto con la base de datos y la documentación.
6.1. Convenciones para Datos Faltantes
En su gran mayoría las preguntas del cuestionario presentan distintas alternativas de
respuesta, cada una de las cuales tiene un número asociado. Por lo tanto, en la base
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
6
de datos se registra el número que representa la respuesta del individuo. Entre las
variables de texto se encuentran las que registran el nombre del encuestado y los
valores ingresados en ciertas preguntas en que se permite especificar la respuesta,
como por ejemplo nombre del establecimiento educacional al que asiste, comuna, etc.
Es importante diferenciar entre el término no aplica, es decir que una determinada
pregunta no corresponde aplicarla a un cierto individuo, y el término dato faltante, que
se da en aquellos casos en que efectivamente la pregunta aplica al individuo pero no
hay dato registrado, ya sea porque desconoce la respuesta o porque se niega a
contestar la pregunta.
En las variables de texto, aquellos casos en que una pregunta no aplica a un individuo
se registra con un texto vacío en la base de datos, y la falta de información se registra
con el texto “SIN DATO”.
Para las variables numéricas se identifica con “.” los casos en que la pregunta no
aplica y con 9 o 99 un dato faltante. La cantidad de dígitos depende de la cantidad de
alternativas que tenga la pregunta, por ejemplo, en una pregunta con 5 alternativas es
necesario solo un dígito para identificar el valor faltante, pero para una pregunta con 8
o más alternativas es necesario dos dígitos.
En el modulo de ingresos, un dato faltante se representa por 9999999 (7 dígitos), y
siguiendo la misma convención, las variables construidas a partir de ingresos faltantes
se representan de la misma forma. Las variables de ingresos que se construyeron
para el hogar, al ser de mayor magnitud, necesitan mayor número de dígitos, y sus
valores faltantes se representan por 1e8.
7. Construcción de Variables
7.1. Escolaridad
La construcción de la variable escolaridad se realiza en base a 2 preguntas, que
contienen información acerca de:
•
Tipo de estudio del encuestado, actual (para quienes están estudiando) o
último curso aprobado (para quienes no están estudiando). Pregunta e9t para
las dos primeras olas y e8tipo para la ola del 2006
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
7
•
Curso del encuestado, actual (para quienes están estudiando) o último curso
aprobado (para quienes no están estudiando). Pregunta e9c para las 2
primeras olas y e8curso para la ola del 2006.
La división por tipo de estudio es la siguiente:
clave
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0
tipo de estudio
educación preescolar o educacion parvularia
preparatoria (sistema antiguo)
educación básica
escuela especial (diferencial)
humanidades (sistema antiguo)
educación media científico-humanística
técnica, comercial, industrial o normalista (sistema antiguo)
educación media técnica profesional
centro de formación técnica incompleta (sin título)
centro de formación técnica completa (con título)
instituto profesional incompleta (sin título)
instituto profesional completa (con título)
educación universitaria incompleta (sin título)
educación universitaria completa (con título)
universitaria de postgrado
educación básica de adulto
educación media de adulto
ninguno
Los cursos del encuestado dependerán del nivel que este presente, exigiendo una
consistencia entre ambas variables.
7.1.1 Verificación de consistencia
Antes de construir la variable escolaridad se realiza la siguiente verificación de
consistencia:
•
Verificación de rango: dado el tipo de educación, existe un rango admisible
para el último curso aprobado. Por ejemplo, si respondió preparatoria, el último
curso aprobado no puede ser superior a 6.
•
Verificación de edad: dado el tipo de educación, existe un rango admisible de
edad. Por ejemplo, no debiese existir un individuo cuyo tipo de escolaridad es
preparatoria con 20 años de edad, dado que este sistema es anterior a su año
de nacimiento.
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
8
7.1.2 Supuestos para la construcción de la variable escolaridad
Luego de revisar por posibles inconsistencias, se procede a construir la variable
escolaridad para cada ola, bajo los siguientes supuestos:
•
Educación preescolar, parvularia y diferencial: se asume 0 años de
escolaridad1.
•
Educación superior completa e incompleta: se asumen 12 años de escolaridad
previa, que corresponden a los años de estudio escolar2.
•
Educación universitaria de postgrado: se asume aparte de los 12 años de
estudio escolar, 5 años de educación universitaria.
•
Si existe ausencia de tipo de educación o curso, se le asigna missing.
•
Valores fuera de rango se les asigna missing.
Los supuestos pueden, en algunos casos, subestimar el verdadero número de años de
escolaridad3, pero bajo ninguna circunstancia esta variable sobreestimará los
verdaderos años cursados por el encuestado.
7.2. Número de personas en el hogar
La construcción del número de personas en el hogar se realiza creando en primera
instancia un identificador por hogar. Para ello, se generaron las variables nph_96,
nph_01 y nph_06, que corresponden a cada una de las tres olas del panel. Cabe
señalar que estos hogares no consideran a los individuos de servicio doméstico que
forman parte de los hogares.
7.3. Pesos
En las bases de datos de la encuesta Panel CASEN se han construido distintos tipos
de pesos. Básicamente, éstos son los pesos de corte transversal y los pesos
longitudinales para cada ola de la encuesta. A continuación se explica cuáles son los
pesos apropiados a utilizar para cada tipo de análisis. La construcción de los mismos
1
Supuestos de escolaridad adoptados por MIDEPLAN.
Educación superior abarca centros de formación técnica, institutos profesionales y
universidades.
3
Para estudiantes de medicina e ingeniería existe una subestimación de los años de
escolaridad dado que éstos estudian 7 y 6 años respectivamente.
2
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
9
se detalla en el documento “La Encuesta Panel CASEN: Metodología y Calidad de los
Datos”.
Como es sabido, a través de las reglas de seguimiento y niveles adecuados de
respuesta entre ola y ola, una encuesta de hogares tipo panel provee representación
continua de la población en un sentido de corte transversal y en un sentido
longitudinal. Como es de suponer, si el objetivo es realizar estimaciones de corte
transversal de la población, se deberán emplear pesos de corte transversal a partir de
la muestra para el año en cuestión. En cambio, si el objetivo es realizar estimaciones
longitudinales, se deberán utilizar los pesos longitudinales a partir de la muestra de
personas que formaron parte de la muestra a lo largo de todo el período de estudio.
Si el objetivo es estudiar la población desde un punto de vista de corte transversal de
los residentes de hogares particulares en 1996, 2001 ó 2006, se debe emplear el
vector de pesos pesos_ctrans_96, pesos_ctrans_01 o pesos_ctrans_06, a partir de
la muestra de personas que respondieron ese año, dada por personas_96,
personas_01 o personas_06. Como la encuesta Panel CASEN se completó a través
de un informante proxy, no se vio afecta a la no respuesta de las personas dentro del
hogar.
Ahora bien, desde un punto de vista longitudinal, es discutible la definición de hogar
como unidad de análisis. Como se argumenta en la sección 4. de “La Encuesta Panel
CASEN: Metodología y Calidad de los Datos”, la definición de hogar es lo
suficientemente precisa para un punto del tiempo, pero no a lo largo de él. Por
consiguiente, para realizar un análisis longitudinal de la encuesta es mejor definir la
persona como la unidad de análisis.
A partir de ello, los pesos longitudinales que se deben utilizar son los de la última ola
del período analizar. Como en la Encuesta Panel CASEN son sólo tres olas, es posible
explicar este punto agotando las posibilidades:
−
para
analizar
el
período
1996-2001,
se
deben
emplear
los
pesos
período
2001-2006,
se
deben
emplear
los
pesos
pesos_long_96_01;
−
para
analizar
el
pesos_long_96_01_06;
−
para analizar el período 1996-2001-2006, se deben emplear los pesos
pesos_long_96_01_06,
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
10
Observatorio Social Universidad Alberto Hurtado – www.osuah.cl
Almirante Barroso 37 Santiago Centro.
Teléfono (56-2) 6987013
11
Descargar