Análisis de los datos de la Encuesta de Caracterización

Anuncio
Análisis de los datos de la Encuesta de
Caracterización Socioeconómica Nacional- Casen
Documento preparado por Alina Oyarzún, Estadística
Taller de trabajo, Universidad del Bío Bío
Diciembre 2015
La Encuesta Casen
I. Descripción Generales del Paquete Estadístico SPSS v.22
SPSS es un paquete estadístico orientado -en principio- al ámbito de aplicación de las Ciencias
Sociales. Es uno de los paquetes estadísticos de uso más extendido, estando disponible en gran
variedad de soportes físicos
Para lograr una visión general del modo de operar del programa y de sus conceptos básicos y
posibilidades, realizaremos una sesión de trabajo.
Para comenzar, abra el programa
Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma:
El editor de datos tiene la misma forma y estructura de una hoja de cálculo y sirve para crear y
editar ficheros en formato SPSS. Muchas de sus aplicaciones son similares a una hoja de planilla
electrónica como Lotus, Excel etc.. Sin embargo, existen varias diferencias importantes:

Las filas corresponden a un caso, observación o una unidad de análisis. En el caso concreto
de un fichero las filas representan los registros.

Las columnas son las variables. Cada columna representa una variable o una característica
que se mide. Por ejemplo el sexo de un individuo, la edad, el ingreso etc..

Una casilla es la intersección de una fila y una columna, es decir, una casilla es un valor único
de un caso y una variable específica. A diferencia de las planillas electrónicas las casillas del
Editor no pueden contener formulas sólo datos.

Las dimensiones de un archivo SPSS está determinado por el número de casos y el número de
variables.
2
La Encuesta Casen
Estando en el Editor, hay dos posibilidades de trabajo, la primera es crear una base de datos
definiendo las variables y luego ingresar los datos. La segunda es abrir una base de datos ya
creada en SPSS.
2. Abrir archivo de dato:
Para abrir un archivo o fichero que ha sido previamente grabado en formato SPSS, se distinguen
porque tienen extensión “sav”, es necesario seguir la siguiente secuencia de comando desde el
Editor de datos del SPSS:
<Archivo>/<Abrir>/<Datos>
O haga click en el ícono como se muestra en la siguiente figura:
Aparece en pantalla el siguiente formato:
3
La Encuesta Casen
Esto le permite escribir el nombre del archivo o buscarlo en la estructura de directorios y
subdirectorios del computador en el cual está trabajando.
Para trabajar busque el archivo CASEN2013_BIOBIO.SAV.
Cuando la base de datos se active aparecerá en el costado superior de la pantalla el nombre del
archivo y luego la frase – Editor de texto SPSS-.
3. Seleccionar casos
Seleccionar casos proporciona varios métodos para seleccionar un subgrupo de casos basándose
en criterios que incluyen variables y expresiones complejas. También se puede seleccionar una
muestra aleatoria de casos. Los criterios usados para definir un subgrupo pueden incluir:

Valores y rangos de las variables

Rangos de fechas y horas
4
La Encuesta Casen

Números de caso (filas)

Expresiones aritméticas

Expresiones lógicas

Funciones
Todos los casos: Desactiva el filtrado y utiliza todos los casos.
Si se satisface la condición: Utiliza una expresión condicional para seleccionar los casos. Si el
resultado de la expresión condicional es verdadero, se selecciona el caso. Si el resultado es falso o
perdido, no se selecciona el caso.
Muestra aleatoria de casos: Selecciona una muestra aleatoria basándose en un porcentaje
aproximado o en un número exacto de casos.
Basándose en el rango del tiempo o de los casos: Selecciona los casos basándose en un rango de
los números de caso o en un rango de las fechas/horas.
Usar variable de filtro: Utiliza como variable para el filtrado la variable numérica seleccionada del
archivo de datos. Se seleccionan los casos con cualquier valor distinto del 0 o del valor perdido
para la variable seleccionada.
La secuencia desde el editor de datos es la siguiente:
<Datos>/<Seleccionar casos>/<Si satisface la condición>
Esta sección controla el tratamiento de casos no seleccionados. Puede elegir una de las siguientes
alternativas para tratar los casos no seleccionados:
5
La Encuesta Casen
Descartar casos no seleccionados: Los casos no seleccionados no se incluyen en el análisis, pero
se conservan en el conjunto de datos. Podrá utilizar los casos no seleccionados más adelante en la
sesión, si desactiva el filtrado. Si selecciona una muestra aleatoria o si selecciona los casos
mediante una expresión condicional, se generará una variable con el nombre filter_$ que tendrá el
valor 1 para los casos seleccionados y el valor 0 para los casos no seleccionados.
Copiar casos seleccionados a un nuevo conjunto de datos: Los casos seleccionados se copiarán a
un nuevo conjunto de datos, lo que mantendrá inalterado el conjunto de datos original. Los casos
no seleccionados no se incluirán en el nuevo conjunto de datos y se mantendrán en su estado
original en el conjunto de datos original.
Eliminar casos no seleccionados: Los casos no seleccionados se eliminarán del conjunto de datos.
Sólo se pueden recuperar los casos eliminados saliendo del archivo sin guardar ningún cambio y
abriéndolo de nuevo. La eliminación de los casos será permanente si se guardan los cambios en el
archivo de datos.
4. Recodificar en distintas variables
El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las
variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable
nueva. Por ejemplo, podría agrupar los ingresos en una nueva variable que contenga categorías
de rangos de salarios.

Puede recodificar las variables numéricas y de cadena

Puede recodificar variables numéricas en variables de cadena y viceversa

Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar
juntas las variables numéricas y de cadena
Elija en el menú la siguiente secuencia:
<Transformar>/<Recodificar en distintas variables>
6
La Encuesta Casen
1. Seleccione las variables que desee recodificar. Si selecciona múltiples variables, todas
deberán ser del mismo tipo (numéricas o de cadena).
2. Introduzca el nombre de la nueva variable de resultado para cada nueva variable y pulse
en Cambiar.
3. Pulse en Valores antiguos y nuevos y especifique cómo deben recodificarse los valores.
5. Asignar rangos de casos.
Puede seleccionar diversos métodos de asignación de rangos. En cada método se crea una
variable diferente de asignación de rangos. Los métodos de asignación de rangos incluyen rangos
sencillos, puntuaciones de Savage, rangos fraccionales y percentiles. También puede crear rangos
basados en estimaciones de la proporción y puntuaciones normales.
Para asignar rangos a los casos elija en los menús:
<Transformar>/<Asignar rangos a casos>
7
La Encuesta Casen
Seleccione una o más variables a las que desee asignar los rangos. Sólo se pueden asignar rangos
a las variables numéricas.
Si lo desea, puede asignar rangos a los casos en orden ascendente o descendente y organizar los
rangos en subgrupos.
Asignar rangos a los casos crea nuevas variables que contienen rangos, puntuaciones de Savage
y normales y los valores de los percentiles para las variables numéricas.
Los nombres de las nuevas variables y las etiquetas de variable descriptivas se generan
automáticamente en función del nombre de la variable original y de las medidas seleccionadas.
Una tabla de resumen presenta una lista de las variables originales, las nuevas y las etiquetas de
variable.
Si lo desea, tiene la posibilidad de:
Asignar rangos a los casos en orden ascendente o descendente.
Organizar los rangos en subgrupos seleccionando una o más variables de agrupación para la lista
Por. Los rangos se calculan dentro de cada grupo, y los grupos se definen mediante la
combinación de los valores de las variables de agrupación. Por ejemplo, si selecciona SEXO y
MINORÍA como variables de agrupación, los rangos se calcularán para cada combinación de SEXO
y MINORÍA.
6. Calcular
Calcular variable calcula los valores de una variable basándose en las transformaciones numéricas
de otras variables.

Puede calcular valores para las variables numéricas o de cadena (alfanuméricas).
8
La Encuesta Casen

Puede crear nuevas variables o bien reemplazar los valores de las variables existentes. Para
las nuevas variables, también se puede especificar el tipo y la etiqueta de variable.

Puede calcular valores de forma selectiva para subconjuntos de datos basándose en
condiciones lógicas.

Puede utilizar unas 70 funciones preincorporadas, incluyendo funciones aritméticas,
estadísticas, de distribución y de cadena.
Para calcular variables elija en los menús:
<Transformar>/<Calcular>
Por defecto, las nuevas variables calculadas son numéricas. Para calcular una nueva variable de
cadena, deberá especificar el tipo de datos y el ancho.
Etiqueta:
Etiqueta de variable descriptiva y opcional de hasta 120 caracteres. Puede escribir
el texto de una etiqueta o bien utilizar los primeros 110 caracteres de la expresión
de cálculo.
Tipo:
Las variables calculadas pueden ser numéricas o de cadena (alfanuméricas). Las
variables de cadena no se pueden utilizar en los cálculos.
Este paquete estadístico cuenta con múltiples funciones, las presentadas aquí, son solo una
muestra de lo que comúnmente se utiliza al trabajar con la base de datos Casen, más usos del
paquete, pueden encontrarse en el menú ayuda del mismo, o bien en un manual de usuario de
SPSS.
7. Ponderar casos
Ponderar casos (factor de expansión) proporciona a los casos diferentes ponderaciones (mediante
una réplica simulada) para el análisis estadístico. Para ponderar casos elija en los menús:
9
La Encuesta Casen
<Datos>/<Ponderar>
Los valores de la variable de ponderación deben indicar el número de observaciones
representadas por casos únicos en el archivo de datos.
Los casos con valores perdidos, negativos o cero para la variable de ponderación se excluyen del
análisis.
Si aplica una variable de ponderación, ésta seguirá vigente hasta que se seleccione otra variable
de ponderación o se desactive la ponderación. Si guarda un archivo de datos ponderado, la
información de ponderación se guardará con el archivo. Puede desactivar la ponderación en
cualquier momento, incluso después de haber guardado el archivo de forma ponderada.
8. Sintaxis
Todos los procedimientos aquí mostrados y los que se realizan utilizando directamente los
comandos del programa, también se pueden hacer mediante sintaxis, que es una ventana que
ofrece el SPSS, en la cual se escriben cada uno de los comandos, teniendo la opción de guardar
para usarlos en otro archivo o bien cambiando alguna variable, usarlo más adelante. Para tener un
ejemplo de cuál es el formato que requiere la sintaxis, se puede una vez realizado alguno de los
procedimiento antes descrito, hacer un “paste” es decir “pegar”, automáticamente esto generará
una sintaxis de lo solicitado, teniendo la opción de guardar.
Ejemplo:
Seleccionar a las mujeres de 15 y más años, la sintaxis estaría dada por lo siguiente:
USE ALL.
COMPUTE filter_$=(sexo=2 & edad >= 15).
VARIABLE LABEL filter_$ 'sexo=2 & edad >= 15 (FILTER)'.
10
La Encuesta Casen
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0).
FILTER BY filter_$.
EXECUTE .
II. Procesamiento estadístico de datos
Para cualquier procesamiento de datos involucra la siguiente secuencia:





Abrir la base de datos Casen, generada en formato SPSS y grabada previamente.
Ponderar la base de datos (uso de factor de expansión).
Seleccionar un procesamiento estadístico de los menús.
Seleccionar las variables para el procedimiento de los datos.
Ejecutar el procedimiento y analizar los resultados.
1. Distribución de frecuencia
Un estadígrafo muy importante y necesario para cualquier análisis estadístico es la descripción de
frecuencia que permite: tener información acerca del rango de valores de la variable, número de
casos válidos, número de casos sin información y las veces que se repite cada valor que tiene esa
variable en la base de datos.
Nota: De ahora en adelante suponemos que estamos en el Editor de texto del SPSS y con la
base de datos de la CASEN2013_BIOBIO abierta.
La forma más directa de obtener una frecuencia de variables es la siguiente:
<Analizar>/<Estadísticos Descriptivos>/<Frecuencias>
11
La Encuesta Casen
EJERCICIO:
Obtenga la distribución de frecuencia de la variable corte (Situación de pobreza).
Elegida la secuencia de menús obtenemos la siguiente Pantalla:
En el cuadro de la izquierda de la pantalla aparece el listado de todas las variables que contiene
la base de datos, es necesario seleccionar las variables de las cuales se desea obtener la
distribución de frecuencia y luego se elige la opción de aceptar.
Como resultado obtenemos la siguiente tabla:
Tabla 1. Frecuencia de la población en situación de pobreza, Casen 2013, Región del Biobío
Corte
Frecuencia
Válido
Perdidos
Total
Porcentaje
Porcentaje
Porcentaje
válido
acumulado
Pobres extremos
162693
8,0
8,0
8,0
Pobres no extremos
293218
14,3
14,4
22,3
No pobres
1586133
77,6
77,7
100,0
Total
2042044
99,9
100,0
2706
,1
2044750
100,0
Sistema
Observe que en este momento no estamos en el editor de texto, sino que en la pantalla de
resultados. Estos resultados están expandidos al total de la población de la región del Biobío.
12
La Encuesta Casen
Esta tabla contiene:

Las frecuencia absolutas

El % sobre el total de casos

% eliminando los casos perdidos (o ausentes), % válido.

El % acumulado de casos válidos
EJERCICIO:
Recodifique la variable corte en dos categorías de la siguiente forma:
1-2=1, Total pobre
3 =2, No pobre
Y obtenga la frecuencia de la nueva variable (cortep).
A continuación se presenta la secuencia del procedimiento:
1. Los códigos 1 y 2 se asignan al valor 1.
13
La Encuesta Casen
2. Al código 3 se asigna el valor 2.
3. En la siguiente figura se muestra el proceso completo. Luego pinche la casilla “continuar”.
14
La Encuesta Casen
A continuación se presenta la sintaxis del procedimiento:
RECODE corte (3=2) (1 thru 2=1) INTO cortep.
EXECUTE.
VARIABLE LABELS cortep 'Situación de pobreza, NM'.
VALUE LABELS cortep
1 'Total pobre'
2 'No pobre'.
2. Tablas Básicas
Permite trabajar con cruce de dos o más variables categóricas simultáneamente.
EJERCICIO:
Calcular la situación de pobreza de la población por zona geográfica. (Número y %)
Secuencia de menús:
<Analizar>/<Tablas>/<Tablas personalizadas>
1. Selección de las variables corte y zona.
15
La Encuesta Casen
Si observamos la siguiente figura se visibiliza una estructura similar a la de frecuencia, el
listado de variables a la izquierda y opciones de menús abajo y a la derecha. La diferencia de
esta pantalla es que ahora debemos elegir a lo menos dos variables una para fila (A través) y
otra para columna (Hacia abajo). Para cruzar dos variables, cualquiera de ellas puede ir como
fila o como columna. Se recomienda siempre dejar como columna aquellas variables que
tienen menor cantidad de categorías.
Seleccionamos la variable corte como fila y zona como columna y luego el menú aceptar:
Obtenemos el siguiente resultado.
Tabla 2: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío
zona
corte
Urbano
Rural
Total
Recuento
Recuento
Recuento
Pobres extremos
109799
52894
162693
Pobres no extremos
217925
75293
293218
No pobres
1385799
200334
1586133
Total
1713523
328521
2042044
Note que este
resultado coincide con
lo mostrado en la
Tabla 1.
16
La Encuesta Casen
Por definición, el programa entrega la cantidad de personas (valor absoluto) de todas las
combinaciones posibles entre las categorías de las dos variables y los totales parciales de ambas
variables.
Para definir los porcentajes en la tabla básica debemos abrir el menú Estadísticos y seleccionar los
porcentajes que deseamos. En este caso seleccionaremos porcentaje de fila y de columna.
Con este procedimiento obtenemos los siguientes resultados.
Tabla 3: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío
(N, % fila y % columna)
zona
Urbano
Recuento
corte
Rural
% del N de
fila
% del N de
columna
Recuento
Total
% del N de
fila
% del N de
columna
Recuento
% del N de
fila
% del N de
columna
Pobres
extremos
109799
67,5
6,4
52894
32,5
16,1
162693
100,0
8,0
Pobres no
extremos
217925
74,3
12,7
75293
25,7
22,9
293218
100,0
14,4
No pobres
1385799
87,4
80,9
200334
12,6
61,0
1586133
100,0
77,7
Total
1713523
83,9
100,0
328521
16,1
100,0
2042044
100,0
100,0
Nota: Observemos que las tablas básicas permiten trabajar no sólo con variables de tipo
categórica y en muchos casos es necesario cruzar variables en que una de ellas es de tipo
continua como edad, escolaridad ingresos etc.
17
La Encuesta Casen
EJERCICIO:
Calcule ingreso promedio del trabajo por sexo.
NOTA: El nombre de la variable del ingreso del trabajo es ytrabcor.
El resultado es el siguiente:
Tabla 4: Ingreso promedio del trabajo según sexo, Casen 2013, Región del Biobío
ytrabcor
Media
sexo
Hombre
370039
Mujer
270953
Total
329418
18
La Encuesta Casen
Anexo 1: Análisis de los ponderadores
El factor de expansión entregado con la base de datos es generalmente igual al producto del
factor de selección (sel), el factor de ajuste por no respuesta (nr) y el factor de ajuste postestratificación (ps). La institución a cargo de producir la base de datos, es la responsable de
elaborar el factor de expansión para cada una de las observaciones.
El factor de expansión asignado a cada entrevistado de la encuesta es una medida del número de
personas de la población que la observación representa. Cuando los factores de expansión son
utilizados en el análisis de los datos de la encuesta, lo que se hace es expandir cada contribución
de la observación muestral para reflejar su participación en la población objetivo.
Identificación de la variable de ponderación correcta para el análisis
El usuario de los datos debe recurrir a la documentación de la encuesta para identificar
correctamente el nombre de la variable que contiene los ponderadores. Desafortunadamente, no
existe una forma convencional de nombrar a los factores de expansión, por lo cual hay que ser
bastante cuidadoso en identificar la variable que los contiene.
Determinación de la escala y distribución de los factores de expansión
Mirar la distribución del factor de expansión que será utilizado en el análisis es un paso necesario
de realizar. La distribución de esta variable nos entrega información sobre:
 La escala del factor de expansión
Es importante para la interpretación de la estimación de los totales.
 La variabilidad y asimetría en la distribución de los ponderadores en las observaciones
Pueden tener influencia en la pérdida de precisión de las estimaciones.
 Valores extremos en el factor de expansión
Valores extremos en los ponderadores, combinados con valores extremos en la variable de interés,
puede producir inestabilidad en las estimaciones y los errores estándar.
 Posibles observaciones sin dato o valores cero en el factor de expansión
Pueden indicar un error en el proceso de construcción de la base de datos o una característica
especial de la base de datos.
En la siguiente tabla se presenta las estadísticas descriptivas del factor de expansión regional de la
encuesta Casen 2011 y Casen 2013.
19
La Encuesta Casen
Tabla 1: Estadística descriptiva factor de expansión Casen 2011 y Casen 2013
n
Suma
Media
Desviación
estándar
Mínimo
Máximo
1%
5%
25%
50%
75%
95%
99%
Casen 2011 (expr_2)
200.302
16.962.515
85
Casen 2013 (expr)
218.491
17.273.117
79
167
3
8.868
5
10
21
44
94
259
627
131
2
6.812
7
13
28
50
89
219
462
Sensibilidad de las estimaciones a los factores de expansión
Es recomendable para el investigador, especialmente cuando es la primera vez que trabaja con la
base de datos, es estudiar como al aplicar los factores de expansión en el análisis afecta las
estimaciones y los errores estándar de las variables.
Veamos el siguiente ejemplo.
Calcule la media, error estándar e intervalo de confianza de las siguientes variables: escolaridad
(esc), edad e ingreso promedio de la ocupación principal (yoprcor), ponderadas y no ponderadas.
Resultados:
Variables
Años de Escolaridad (esc)
No ponderado
Edad
Ing. de la ocupación principal
Ponderado
Media
Error estándar
[95 % Intervalo de confianza]
9,97
,028
9,91
10,02
36,24
,127
35,99
36,48
312.609,37
3.145,15
306.444,88
318.773,86
Años de Escolaridad (esc)
10,23
,076
10,07
10,38
Edad
36,06
,258
35,55
36,56
Ing. de la ocupación principal
326.078,67
7.089,85
312.106,65
340.050,69
Podemos notar que las estimaciones obtenidas de la muestra sin ponderar tiende a subestimar las
medias y los errores estándar de las variables.
Es importante que revise los siguientes documentos:
20
La Encuesta Casen
1. Metodología de Diseño Muestral Encuesta Casen 2013.
http://www.ministeriodesarrollosocial.gob.cl/documentos_metodologicos.php
2. Metodología del Diseño Muestral y Factores de Expansión Casen 2011.
http://observatorio.ministeriodesarrollosocial.gob.cl/casen/casen-documentos.php?c=82&a=2011
21
La Encuesta Casen
Anexo 2: Plan de Muestreo en SPSS
En el presente apartado se presenta los pasos necesarios para definir un plan de muestro lo que
permitirá calcular los errores estándar e intervalos de confianza para las variables de la encuesta
Casen bajo un diseño de muestras complejas.
Pasos para Definir Plan de Muestreo en SPSS
En SPSS, previamente a la realización de cualquier análisis o estimación que considere un diseño
complejo, se requiere generar un plan de muestreo.
Generación de un PLAN de muestreo en SPSS
La generación de un plan de muestreo se realiza en 4 pasos:
1. En el módulo de muestras complejas, hay que generar un Plan para el análisis posterior,
mediante los comandos:
< Analizar > / < Muestras complejas > / < Preparar para el análisis >
2. En la ventana que se abre se marca la opción:
Crear un archivo de plan
En Examinar se debe indicar el directorio donde guardará el archivo con el plan de muestreo, al
cual deberá asignarle un nombre, por ejemplo: “biobio”. Una vez asignado el nombre, marque
<Siguiente> para pasar al siguiente nivel de definición del plan de muestreo.
22
La Encuesta Casen
3. En este nivel deberá introducir tres variables para que quede el plan definido. Estas son:
Estrato: Corresponden a las agrupaciones derivadas de la estratificación definida en el diseño
muestral. En el caso específico de la CASEN, corresponden originalmente al cruce o interposición
de la división política administrativa a nivel comunal (322 comunas del país), con la división
geográfica del territorio nacional en las áreas urbanas y rurales (2 áreas). En Casen 2013, también
se creó una Post-Estratificación con el objetivo de corregir estimaciones de la varianza, lo que dio
origen a 266 pseudo-estratos denominados VarStrat.
Conglomerados: Son las unidades de selección definidas en el diseño muestral, que
generalmente corresponden a unidades muestrales previas a la última etapa. En Casen son
denominadas manzanas y secciones en las partes urbana y rural de las comunas, respectivamente.
En forma simultánea a la creación de pseudo-estratos o VarStrat, en Casen se generaron
agrupaciones de manzanas y de secciones, denominadas VarUnit, también con el objetivo de
mejorar las estimaciones de la varianza, agrupando los conglomerados de manera de contener
una cantidad aproximada mínima de 30 viviendas.
23
La Encuesta Casen
Ponderación muestral: Se refiere al factor de expansión que posee cada unidad de selección.
En Casen 2011 corresponde al factor de expansión regional Expr_r2 y en Casen 2011 corresponde
al factor de expansión regional expr.
Una vez ingresadas estas tres variables, marque <Siguiente> para pasar al siguiente nivel de
definición del plan de muestreo.
4. Si se selecciona la opción de muestreo con reemplazo (CR), no es necesario definir alguna
etapa de muestreo posterior y el proceso puede darse por finalizado. La opción de incluir el factor
de corrección para poblaciones finitas o factor de corrección por finitud (FPC) aplica sólo si las
unidades de conglomeración son seleccionadas bajo el supuesto de muestreo aleatorio simple. Si
se selecciona cualquiera de las otras dos opciones, que implican un muestreo con reemplazo, se
requiere que sea definida una segunda etapa y también que se tengan calculadas las
probabilidades de inclusión conjunta de las unidades de conglomeración. En Casen se recomienda
la opción CR ya que la estimación de la varianza no difiere prácticamente de las otras opciones
simplificando enormemente los cálculos y la expresión de ésta es sencilla.
24
La Encuesta Casen
Ejercicio: Población según situación de pobreza, región del Biobío, Casen 2013
La secuencia que debe utilizar es la siguiente:
< Analizar > / < Muestras complejas > / < Frecuencia >
A continuación se muestran las pantallas de la secuencia.
25
La Encuesta Casen
Resultado:
corte
95% de intervalo de confianza
Estimación
% del total
Pobres extremos
Error estándar
Inferior
Superior
8,0%
0,5%
7,0%
9,0%
Pobres no extremos
14,4%
0,6%
13,1%
15,7%
No pobres
77,7%
1,0%
75,7%
79,6%
100,0%
0,0%
100,0%
100,0%
Total
Ejercicio: Población según situación de pobreza por sexo, región del Biobío, Casen 2013
La secuencia que debe utilizar es la siguiente:
< Analizar > / < Muestras complejas > / < Tablas cruzadas>
26
La Encuesta Casen
Resultado:
corte * sexo
sexo
corte
Hombre
Pobres extremos
% dentro de sexo
% dentro de sexo
7,5%
8,4%
8,0%
Error estándar
0,5%
0,5%
0,5%
Inferior
6,5%
7,5%
7,0%
Superior
8,6%
9,5%
9,0%
13,8%
14,9%
14,4%
0,7%
0,6%
0,6%
Inferior
12,5%
13,7%
13,1%
Superior
15,3%
16,1%
15,7%
78,7%
76,7%
77,7%
1,1%
1,0%
1,0%
Inferior
76,5%
74,8%
75,7%
Superior
80,7%
78,6%
79,6%
Estimación
Error estándar
95% de intervalo de confianza
No pobres
% dentro de sexo
Total
Estimación
95% de intervalo de confianza
Pobres no extremos
Mujer
Estimación
Error estándar
95% de intervalo de confianza
En el documento “Metodología del Diseño Muestral Encuesta Casen 2013”, páginas 87-92
encontrara la sintaxis para estimación de pobreza a nivel de personas y hogares.
27
La Encuesta Casen
Anexo 3: Base de datos Casen
Algunas consideraciones
La base Casen disponible para los usuarios está a nivel de personas es decir, si trabaja con Casen
2013 podrá verificar que la base tiene 218.491 registros (personas) (ver tabla 1)
Sin embargo, es posible en la encuesta Casen analizar la información para las siguientes unidades
de análisis:
 Personas
 Núcleo
 Hogares
Para cada una de estas unidades de análisis es posible obtener información a nivel nacional y
regional.
Para conocer los conceptos de Personas, Núcleo y Hogar, revise el documento “Manual de Trabajo
de Campo, Encuesta Casen 2013”, disponible en sitio web del Ministerio de Desarrollo Social:
http://observatorio.ministeriodesarrollosocial.gob.cl/documentos/Casen2013_Manual_TrabajodeCa
mpo.pdf
 Para obtener información a nivel de hogar, en la base de datos debe seleccionar pco1=1,
luego como resultado deberá obtener las cifras indicadas en la tabla 1.
 Para obtener información a nivel de núcleo, en la base de datos debe seleccionar pco1=2,
luego como resultado deberá obtener las cifras indicadas en la tabla 1.
Tabla 1: Estimaciones muestrales y expandidas en Casen 2011 y Casen 2013
Estimación País
Casen 2011
Personas
Muestral
Expandido
Personas sin S.D. P.A
Muestral
Hogares
Casen 2011 Casen 2013
200.302
218.491
19.346
31.315
16.962.515
17.273.117
2.018.886
2.044.750
200.160
218.348
19.346
31.296
17.256.219
2.018.383
2.042.044
142
143
-
19
Expandido
21.205
16.898
-
2.706
Muestral
66.725
59.084
5.779
9.599
5.273.828
4.966.890
580.998
612.488
Muestral
Expandido
Núcleo
Casen 2013
16.941.310
Expandido
Personas en el Núcleo 0
Estimación Región Biobío
Muestral
Expandido
79.063
70.890
5.779
11.338
6.271.119
5.977.815
580.998
732.402
28
La Encuesta Casen
La base de datos Casen está formada por aproximadamente 600 variables, y está estructurada
siguiendo el orden de los módulos del cuestionario. En la siguiente figura se muestra la secuencia
del cuestionario.
Figura 1: Secuencia de los módulos encuesta Casen 2011 y 2013
Registro
Educación
Trabajo
Ingresos
Salud
Residente
Vivienda
Las primeras variables de la base de datos están referidas a identificación de cada persona
entrevistada en la encuestas. Estas variables son:
folio :
región :
zona:
comuna:
o:
Folio de la encuesta
Región
Zona (1:urbano; 2:rural)
Comuna
Orden de la persona dentro de cada hogar
Las siguientes variables permiten identificar a los residentes habituales de cada hogar por sexo,
edad, estado civil y parentesco con los jefes de hogar y núcleo y están presentes en el módulo de
registro.
Continuando con el orden del cuestionario las variables siguientes corresponden a las del módulo
de educación. El nombre de la variable en la base de datos es el mismo que está registrado en el
cuestionario. Todas las variables de este módulo comienzan con la letra “e” tal como se indica en
la imagen siguiente.
Figura 2: Secuencia de los módulos encuesta Casen 2011 y 2013
29
La Encuesta Casen
En el módulo de trabajo el nombre de las variables comienza con la letra “o”, las variables del
módulo de ingresos comienzan con la letra “y”, en salud el nombre de las variables comienza con
la letra “s”, en residentes con la letra “r” y en vivienda el nombre de las variables comienzan con
la letra “v”.
Al final de la base de datos, encontrara varias variables que son creadas, entre las más importante
de señalar tenemos: esc, analfabetismo, activ, cotiza, rama, oficio, hacinamiento, corte, dau,
dautr, qau, qautr y las corrientes de ingreso más relevantes como ingreso autónomo, ingreso
monetario, ingreso por subsidios monetarios entre otros.
Es importante que al trabajar con la base de datos revise:
 Libro de códigos base de datos Encuesta Casen 2013
 Cuestionario Encuesta Casen 2013
 Libro de códigos base de datos Encuesta Casen 2011
 Cuestionario Encuesta Casen 2011
Disponible en el sitio web del Ministerio de Desarrollo Social.
30
La Encuesta Casen
Anexo 4: Los ingresos en la Encuesta Casen
1. Definiciones
Ingresos Corrientes
La investigación de los ingresos corrientes de los hogares en la Encuesta Casen se enmarca
conceptualmente en el Sistema de Cuentas Nacionales, SCN, 19931.
Este sistema distingue dos grandes categorías de ingresos corrientes que reciben los hogares: los
ingresos primarios y las transferencias corrientes, que en conjunto constituyen el ingreso
corriente. La figura 1 muestra la composición de ambas categorías por tipo de ingresos:
Los ingresos primarios, que se pagan con el valor agregado creado por la producción, incluyen
tanto los ingresos provenientes del trabajo como de la propiedad de los activos. El SCN 1993
distingue las siguientes categorías de ingresos primarios: ingresos de los asalariados, ingresos
mixtos de los empleadores y trabajadores por cuenta propia (formados por un componente de
remuneración por el trabajo y por un componente de rendimiento de la actividad empresarial),
intereses, dividendos y otras rentas de la propiedad de los propietarios de activos financieros, de
tierras y activos del subsuelo; y el excedente de explotación o excedente derivado de la
imputación que se hace en el sistema por los servicios de las viviendas ocupadas por sus
propietarios.
Las transferencias corrientes2 que pueden recibir los hogares están constituidas por dos clases
principales de transferencias: prestaciones sociales y otras transferencias corrientes. Las
prestaciones sociales incluyen prestaciones tanto de la seguridad social (prestaciones
contributivas, como las pensiones y jubilaciones), como de la asistencia social (subsidios o
transferencias monetarias efectuadas por el Estado como parte de los programas sociales).
Además, se incluyen todas las transferencias corrientes que reciben los hogares y que no
constituyen prestaciones sociales; en particular, estas se refieren a las diversas transferencias
corrientes existentes entre hogares.
Grupo Intersecretarial de Trabajo sobre Cuentas Nacionales, Comisión de las Comunidades Europeas – Eurostat, Fondo Monetario
Internacional, Organización para la Cooperación y el Desarrollo Económico, Naciones Unidas, Banco Mundial, Sistema de Cuentas
Nacionales 1993, Bruselas / Luxemburgo, Nueva York, París, Washington D.C., 1993
2
En el SCN se entiende por transferencia a "una transacción mediante la cual una unidad institucional suministra a otra un bien, un
servicio o un activo a otra unidad sin recibir de ésta ninguna contrapartida en forma de bien, servicio o activo". (SCN 1993, párrafo
8.27). Las transferencias corrientes quedan delimitadas en el SCN por exclusión, cuando define primero la transferencia de capital y
señala después que "los otros tipos de transferencias se denominan corrientes". Para el SCN la transferencia de capital es "aquélla
mediante la cual se transfiere la propiedad de un activo o se obliga, a una o ambas partes, a adquirir o disponer de un activo".
1
31
La Encuesta Casen
Figura 1: Categorías de ingresos corrientes que reciben los hogares
INGRESOS PRIMARIOS
INGRESOS CORRIENTES
DE LOS HOGARES
TRANSFERENCIAS CORRIENTES

Ingresos de los asalariados

Ingresos mixtos de los empleadores
y trabajadores por cuenta propia

Rentas de la propiedad, intereses y
dividendos

Arriendo imputado

Prestaciones de la seguridad social:
Pensiones y jubilaciones

Prestaciones de asistencia social:
Subsidios
o
transferencias
monetarias sociales
Transferencias
corrientes
entre
hogares

De acuerdo con este marco, la Encuesta Casen recoge información sobre los distintos
componentes de los ingresos primarios: ingresos de los asalariados, ingresos de los empleadores y
trabajadores por cuenta propia, rentas de la propiedad y alquiler imputado; así como sobre los
distintos componentes de las transferencias corrientes: jubilaciones, pensiones y montepíos,
subsidios o transferencias del Estado que pueden recibir los hogares como parte de los programas
sociales, y transferencias corrientes entre hogares.
El siguiente cuadro detalla las variables que componen estos ingresos y las correspondientes
preguntas en el cuestionario de la Encuesta Casen 2011:
32
La Encuesta Casen
Tabla1: Ingresos corrientes de los hogares y variables que los componen en Encuesta Casen 2011
TIPO DE INGRESO
Variable
INGRESOS PRIMARIOS
Ingresos de los asalariados
Ingresos en efectivo de la ocupación principal
Sueldos y salarios
y1a, y1b, y1c
Horas extras
y3a
Comisiones
y3b
Propinas
y3c
Asignación por vivienda, transporte, educación
y3d
Viáticos no sujetos a rendición
y3e
Otros
y3f
Bonificaciones o aguinaldos (anuales)
y4a
Gratificaciones (anuales)
y4b
Sueldo adicional, por sobre la remuneración mensual (décimo tercer mes)
y4c
Otros similares
y4d
Ingresos en especie de la ocupación principal
Alimentos y bebidas
y5a
Vales de alimentación
y5b
Vivienda o alojamiento
y5c
Automóvil para uso privado
y5d
Servicio de transporte
y5e
Estacionamiento gratuito
y5f
Teléfono
y5g
Vestimenta
y5h
Servicios de guardería o sala cuna
y5i
Leña u otro tipo de combustible de uso doméstico
y5j
Bienes o servicios producidos por el empleador
y5k
Otros similares
y5l
Ingresos ocupación secundaria
y6, y10
Remuneración por trabajos ocasionales
y14a
Trabajos realizados antes del mes anterior
y14b
33
La Encuesta Casen
Ingresos mixtos de los empleadores y trabajadores por cuenta propia
Ingresos de la ocupación principal
Dinero retirado para gastos propios o del hogar
y7a, y7b, y7c
Retiro de productos para consumo propio o del hogar
y8
Ganancias por venta de productos (anuales)
y9
Ingresos ocupación secundaria
y10
Remuneración por trabajos ocasionales
y14a
Trabajos realizados antes del mes anterior
y14b
Consumo de productos agropecuarios producidos o recolectados por
el hogar
y17
Arriendo de propiedades urbanas
y12a
Arriendo de maquinarias, animales o implementos
y12b
Arriendo de propiedades agrícolas
y16a
Arriendo de propiedades por temporadas
y16b
Intereses por depósitos
y15a
Dividendo por acciones o bonos financieros
y15b
Retiro de utilidades de empresas
y15c
Arriendo imputado
v17
Rentas de la propiedad
Arriendo imputado
TRANSFERENCIAS CORRIENTES
Prestaciones de la seguridad social
Jubilaciones, pensiones y montepíos
Jubilación o pensión de vejez bajo la modalidad de retiro y27a
programado
Jubilación o pensión de vejez bajo la modalidad de renta y27b
vitalicia
Pensión de invalidez
y27c
Montepío o pensión de viudez
y27d
Pensión de orfandad
y277e
Otro tipo de pensión
y27f
Seguro de desempleo o cesantía
y14c
Asignación familiar
y19
34
La Encuesta Casen
A continuación se presentan las definiciones de los principales tipos de ingresos y subsidios
construidos a partir de la información de la Encuesta Casen, y el nombre que se da a las variables
correspondientes.
Ingresos de la ocupación principal (yoprcor): Corresponde a los ingresos de las personas
asalariadas (y1a), empleadores y trabajadores cuenta propia (y7a) por su ocupación principal.
Ingresos del trabajo (ytrabcor): Corresponden a los ingresos que obtienen las personas en su
ocupación por concepto de sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4,
y5, y6, y10, y11a, y14a, y14b), ganancias provenientes del trabajo independiente (preguntas y7a,
y8, y9, y10, y14a, y14b) y la auto provisión de bienes producidos por el hogar (pregunta y17).
Ingresos del trabajo del hogar (ytrabhcor): Para cada hogar, es la suma de los ingresos del
trabajo de todos los miembros del hogar, excluido el servicio doméstico puertas adentro.
Ingresos autónomos (yautcor): Corresponden a la suma de todos los pagos que reciben las
personas, provenientes tanto del trabajo como de la propiedad de los activos. Estos incluyen
sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4, y5, y6, y10, y11a, y14a,
y14b), ganancias provenientes del trabajo independiente (preguntas y7a, y8, y9, y10, y14a, y14b),
la auto-provision de bienes producidos por el hogar (pregunta y17), rentas (preguntas y12, y16),
intereses, dividendos y retiro de utilidades (pregunta y15), jubilaciones, pensiones o montepíos
(pregunta y27), y transferencias corrientes (pregunta y13, y14c, y18a, y18b, y18d).
Ingresos autónomos del hogar (yauthcor): Para cada hogar, es la suma de los ingresos
autónomos de todos los miembros del hogar, excluido el servicio doméstico puertas adentro.
Ingresos autónomos per cápita del hogar (ypcauthcor): En cada hogar, es la suma de los
ingresos autónomos de todos los integrantes del hogar, dividida por el número de miembros del
hogar, excluido el servicio doméstico puertas adentro.
Subsidios monetarios (ysubcor): Corresponden a todos los aportes en dinero que reciben las
personas y los hogares del Estado a través de los programas sociales. La Encuesta Casen
considera los aportes correspondientes a la Asignación Familiar, (pregunta y19), el Subsidio
Familiar (SUF), el Subsidio Familiar Duplo o por Invalidez, el Subsidio a la Discapacidad Mental, el
Subsidio de Cesantía, la Pensión Básica Solidaria (pregunta y20), el Aporte Previsional Solidario
(pregunta y26), el Bono de Protección Familiar y de Egreso (del programa Chile Solidario)
(pregunta y22), la Asignación Social (pregunta y23), el Subsidio de Agua Potable (pregunta y24),
el Bono Bodas de Oro, el Bono de Invierno, el Subsidio Empleo Joven y otros subsidios del Estado
(pregunta y25).
Subsidios monetarios del hogar (ysubhcor): Para cada hogar, es la suma de los subsidios
monetarios percibidos por todos los miembros del hogar, excluido el servicio doméstico puertas
adentro.
Ingresos monetarios (ymonecor): Para cada persona, corresponde a la suma de los ingresos
autónomos y los subsidios monetarios percibidos.
Ingreso total del hogar (ytothaj): Corresponde a la suma del ingreso monetario del hogar
(preguntas y1a, y3, y4, y5, y6, y7a, y8, y9, y10, y11a, y12, y13, y14, y15, y16, y17, y18a, y18b,
35
La Encuesta Casen
y18d, y19, y20, y22, y23, y24, y25, y26 e y27) y el arriendo imputado del mismo (pregunta v17),
excluido el servicio doméstico puertas adentro. El arriendo imputado se aplica a los hogares que
no pagan arriendo por ser propietarios de la vivienda que ocupan. El valor que se imputa es
equivalente al arriendo que se pagaría en el mercado por una vivienda similar a la ocupada.
Ingreso total per cápita del hogar (ypchaj): Para cada hogar, corresponde al ingreso total del
hogar, dividido por el número de miembros del hogar, excluido el servicio doméstico puertas
adentro.
2. Indicadores
A continuación, se presentan los principales indicadores sobre ingresos, pobreza y distribución de
ingresos que son estimados, a partir de las variables construidas con la información provista por el
módulo ingresos de la Encuesta Casen.
Incidencia de la pobreza FGT(0)
Para estimar la pobreza y la pobreza extrema, el ingreso del hogar se define como la suma del
ingreso autónomo del hogar, excluido el servicio doméstico puertas adentro, las transferencias
monetarias que recibe el hogar del Estado, excluido el servicio doméstico puertas adentro, y una
imputación por concepto de arriendo de la vivienda, cuando ésta es habitada por sus propietarios.
La incidencia de la pobreza en un determinado grupo o población se refiere al porcentaje de dicho
grupo que vive en condición de pobreza, comúnmente definida mediante la aplicación de una línea
de pobreza1.
Un índice comúnmente utilizado para medir la incidencia de la pobreza es el índice de pobreza
FGT, desarrollado por Foster, Greer y Thorbecke (1984)2, definido como:

q
 1   z  yi 
FGT ( )     

 n  i 1  z 
;  0
Donde α es un parámetro que representa la sensibilidad del índice, z es línea de pobreza, n es el
número total de individuos (población u hogares), yi es el ingreso del individuo “i”, y el número de
(1) .
individuos pobres, q 

xi  z
Cuando α toma el valor “0”, el índice FGT(0) representa la incidencia de la pobreza (proporción de
individuos pobres). Cuando α toma el valor “1”, el índice FGT(1) se convierte en el índice de
brecha de pobreza, y cuando toma el valor “2”, el FGT(2) es un índice de severidad de pobreza.
De este modo, es posible utilizar el índice FGT para estimar la incidencia de la pobreza tanto para
la población general (personas), como a nivel de hogares.
Incidencia de la pobreza en la población: Porcentaje de población pobre sobre el total de la
población, definido a partir del método del ingreso. Es el porcentaje de personas cuyos ingresos
son inferiores a la línea de pobreza establecida para la medición de esta
1
2
La incidencia de la pobreza en Chile es medida utilizando una línea de pobreza absoluta. Ver Cuadro B.4.2
Foster, James; Joel Greer and Erik Thorbecke (1984). "A class of decomposable poverty measures". Econometrica. 2 81: 761–766
36
La Encuesta Casen
Entonces, la incidencia de la pobreza en la población (porcentaje de la población pobre) se calcula
como:
q
FGT(0) =  p
n
 p

 

Porcentaje de personas cuyo ingreso
per capita del hogar
 línea de pobreza
Donde qp= número de personas bajo la línea de pobreza, y np=tamaño de la población
Incidencia de la pobreza entre los hogares: Porcentaje de hogares pobres sobre el total de
hogares, definido a partir del método del ingreso. Es el porcentaje de hogares cuyos ingresos per
cápita son inferiores a la línea de pobreza establecida para la medición de ésta.
Análogamente a la incidencia de la pobreza entre la población, la incidencia de la pobreza entre los
hogares (porcentaje de hogares pobres) se calcula como:
q 
FGT(0) =  h  
 nh 
Porcentaje de hogares cuyo ingreso
per capita del hogar
 línea de pobreza
Donde qh= número de hogares bajo la línea de pobreza, y nh=total de hogares
Decil de ingreso autónomo per cápita del hogar nacional: Décima parte o 10% de los
hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del
hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los hogares
nacionales y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares. Los límites
de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del
hogar que definen los intervalos de cada uno de los deciles.
Quintil de ingreso autónomo per cápita del hogar nacional: Quinta parte o 20% de los
hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del
hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares
nacionales y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites
de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita
del hogar que definen los intervalos de cada uno de los quintiles.
Decil de ingreso autónomo per cápita del hogar regional: Décima parte o 10% de los
hogares de una región del país ordenados en forma ascendente de acuerdo al ingreso autónomo
per cápita del hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los
hogares de la región y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares.
Los límites de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per
cápita del hogar que definen los intervalos de cada uno de los deciles.
Quintil de ingreso autónomo per cápita del hogar regional: Quinta parte o 20% de los
hogares de una región ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita
del hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares de
la región y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites
de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita
del hogar que definen los intervalos de cada uno de los quintiles.
37
La Encuesta Casen
Distribución del ingreso autónomo entre los hogares por decil (quintil) de ingreso
autónomo per cápita del hogar: Estimación de la participación porcentual de los ingresos
autónomos de cada decil (quintil) de hogares, clasificados en orden creciente de acuerdo al
ingreso autónomo per cápita percibido por el hogar; en el total de ingresos autónomos del total de
hogares del país.
Índice 10/10 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el
ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al
10% de hogares con menores ingresos:
n10
Índice 10 /10 
 yauthaj
j
j 1
n1
 yauthaj
i 1
i
donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es
identificada por un índice j=1,2,…,n10 ;
y donde cada hogar perteneciente al primer decil de ingresos autónomos per cápita del hogar es
identificada por un índice i=1,2,…,n1
Índice 10/40 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el
ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al
40% de hogares con menores ingresos:
n10
Índice 10 / 40 
 yauthaj
j 1
n4
j
 yauthaj
i 1
i
donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es
identificada por un índice j=1,2,…,n10 ;
y donde cada hogar perteneciente a los primeros cuatro deciles de ingresos autónomos per cápita
del hogar es identificada por un índice i=1,2,…,n4
38
La Encuesta Casen
Más información respecto a la temática de ingreso revisar el documento:
“Manual del Investigador Encuesta de Caracterización Socioeconómica Nacional 2011:
Módulos Registro, Residentes, Trabajo e Ingresos”
Disponible en el siguiente link:
http://www.ministeriodesarrollosocial.gob.cl/centro-informacion/#observatorio-social
39
Descargar