Análisis de los datos de la Encuesta de Caracterización Socioeconómica Nacional- Casen Documento preparado por Alina Oyarzún, Estadística Taller de trabajo, Universidad del Bío Bío Diciembre 2015 La Encuesta Casen I. Descripción Generales del Paquete Estadístico SPSS v.22 SPSS es un paquete estadístico orientado -en principio- al ámbito de aplicación de las Ciencias Sociales. Es uno de los paquetes estadísticos de uso más extendido, estando disponible en gran variedad de soportes físicos Para lograr una visión general del modo de operar del programa y de sus conceptos básicos y posibilidades, realizaremos una sesión de trabajo. Para comenzar, abra el programa Inmediatamente aparecerá una ventana llamada editor de datos que tiene la siguiente forma: El editor de datos tiene la misma forma y estructura de una hoja de cálculo y sirve para crear y editar ficheros en formato SPSS. Muchas de sus aplicaciones son similares a una hoja de planilla electrónica como Lotus, Excel etc.. Sin embargo, existen varias diferencias importantes: Las filas corresponden a un caso, observación o una unidad de análisis. En el caso concreto de un fichero las filas representan los registros. Las columnas son las variables. Cada columna representa una variable o una característica que se mide. Por ejemplo el sexo de un individuo, la edad, el ingreso etc.. Una casilla es la intersección de una fila y una columna, es decir, una casilla es un valor único de un caso y una variable específica. A diferencia de las planillas electrónicas las casillas del Editor no pueden contener formulas sólo datos. Las dimensiones de un archivo SPSS está determinado por el número de casos y el número de variables. 2 La Encuesta Casen Estando en el Editor, hay dos posibilidades de trabajo, la primera es crear una base de datos definiendo las variables y luego ingresar los datos. La segunda es abrir una base de datos ya creada en SPSS. 2. Abrir archivo de dato: Para abrir un archivo o fichero que ha sido previamente grabado en formato SPSS, se distinguen porque tienen extensión “sav”, es necesario seguir la siguiente secuencia de comando desde el Editor de datos del SPSS: <Archivo>/<Abrir>/<Datos> O haga click en el ícono como se muestra en la siguiente figura: Aparece en pantalla el siguiente formato: 3 La Encuesta Casen Esto le permite escribir el nombre del archivo o buscarlo en la estructura de directorios y subdirectorios del computador en el cual está trabajando. Para trabajar busque el archivo CASEN2013_BIOBIO.SAV. Cuando la base de datos se active aparecerá en el costado superior de la pantalla el nombre del archivo y luego la frase – Editor de texto SPSS-. 3. Seleccionar casos Seleccionar casos proporciona varios métodos para seleccionar un subgrupo de casos basándose en criterios que incluyen variables y expresiones complejas. También se puede seleccionar una muestra aleatoria de casos. Los criterios usados para definir un subgrupo pueden incluir: Valores y rangos de las variables Rangos de fechas y horas 4 La Encuesta Casen Números de caso (filas) Expresiones aritméticas Expresiones lógicas Funciones Todos los casos: Desactiva el filtrado y utiliza todos los casos. Si se satisface la condición: Utiliza una expresión condicional para seleccionar los casos. Si el resultado de la expresión condicional es verdadero, se selecciona el caso. Si el resultado es falso o perdido, no se selecciona el caso. Muestra aleatoria de casos: Selecciona una muestra aleatoria basándose en un porcentaje aproximado o en un número exacto de casos. Basándose en el rango del tiempo o de los casos: Selecciona los casos basándose en un rango de los números de caso o en un rango de las fechas/horas. Usar variable de filtro: Utiliza como variable para el filtrado la variable numérica seleccionada del archivo de datos. Se seleccionan los casos con cualquier valor distinto del 0 o del valor perdido para la variable seleccionada. La secuencia desde el editor de datos es la siguiente: <Datos>/<Seleccionar casos>/<Si satisface la condición> Esta sección controla el tratamiento de casos no seleccionados. Puede elegir una de las siguientes alternativas para tratar los casos no seleccionados: 5 La Encuesta Casen Descartar casos no seleccionados: Los casos no seleccionados no se incluyen en el análisis, pero se conservan en el conjunto de datos. Podrá utilizar los casos no seleccionados más adelante en la sesión, si desactiva el filtrado. Si selecciona una muestra aleatoria o si selecciona los casos mediante una expresión condicional, se generará una variable con el nombre filter_$ que tendrá el valor 1 para los casos seleccionados y el valor 0 para los casos no seleccionados. Copiar casos seleccionados a un nuevo conjunto de datos: Los casos seleccionados se copiarán a un nuevo conjunto de datos, lo que mantendrá inalterado el conjunto de datos original. Los casos no seleccionados no se incluirán en el nuevo conjunto de datos y se mantendrán en su estado original en el conjunto de datos original. Eliminar casos no seleccionados: Los casos no seleccionados se eliminarán del conjunto de datos. Sólo se pueden recuperar los casos eliminados saliendo del archivo sin guardar ningún cambio y abriéndolo de nuevo. La eliminación de los casos será permanente si se guardan los cambios en el archivo de datos. 4. Recodificar en distintas variables El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva. Por ejemplo, podría agrupar los ingresos en una nueva variable que contenga categorías de rangos de salarios. Puede recodificar las variables numéricas y de cadena Puede recodificar variables numéricas en variables de cadena y viceversa Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numéricas y de cadena Elija en el menú la siguiente secuencia: <Transformar>/<Recodificar en distintas variables> 6 La Encuesta Casen 1. Seleccione las variables que desee recodificar. Si selecciona múltiples variables, todas deberán ser del mismo tipo (numéricas o de cadena). 2. Introduzca el nombre de la nueva variable de resultado para cada nueva variable y pulse en Cambiar. 3. Pulse en Valores antiguos y nuevos y especifique cómo deben recodificarse los valores. 5. Asignar rangos de casos. Puede seleccionar diversos métodos de asignación de rangos. En cada método se crea una variable diferente de asignación de rangos. Los métodos de asignación de rangos incluyen rangos sencillos, puntuaciones de Savage, rangos fraccionales y percentiles. También puede crear rangos basados en estimaciones de la proporción y puntuaciones normales. Para asignar rangos a los casos elija en los menús: <Transformar>/<Asignar rangos a casos> 7 La Encuesta Casen Seleccione una o más variables a las que desee asignar los rangos. Sólo se pueden asignar rangos a las variables numéricas. Si lo desea, puede asignar rangos a los casos en orden ascendente o descendente y organizar los rangos en subgrupos. Asignar rangos a los casos crea nuevas variables que contienen rangos, puntuaciones de Savage y normales y los valores de los percentiles para las variables numéricas. Los nombres de las nuevas variables y las etiquetas de variable descriptivas se generan automáticamente en función del nombre de la variable original y de las medidas seleccionadas. Una tabla de resumen presenta una lista de las variables originales, las nuevas y las etiquetas de variable. Si lo desea, tiene la posibilidad de: Asignar rangos a los casos en orden ascendente o descendente. Organizar los rangos en subgrupos seleccionando una o más variables de agrupación para la lista Por. Los rangos se calculan dentro de cada grupo, y los grupos se definen mediante la combinación de los valores de las variables de agrupación. Por ejemplo, si selecciona SEXO y MINORÍA como variables de agrupación, los rangos se calcularán para cada combinación de SEXO y MINORÍA. 6. Calcular Calcular variable calcula los valores de una variable basándose en las transformaciones numéricas de otras variables. Puede calcular valores para las variables numéricas o de cadena (alfanuméricas). 8 La Encuesta Casen Puede crear nuevas variables o bien reemplazar los valores de las variables existentes. Para las nuevas variables, también se puede especificar el tipo y la etiqueta de variable. Puede calcular valores de forma selectiva para subconjuntos de datos basándose en condiciones lógicas. Puede utilizar unas 70 funciones preincorporadas, incluyendo funciones aritméticas, estadísticas, de distribución y de cadena. Para calcular variables elija en los menús: <Transformar>/<Calcular> Por defecto, las nuevas variables calculadas son numéricas. Para calcular una nueva variable de cadena, deberá especificar el tipo de datos y el ancho. Etiqueta: Etiqueta de variable descriptiva y opcional de hasta 120 caracteres. Puede escribir el texto de una etiqueta o bien utilizar los primeros 110 caracteres de la expresión de cálculo. Tipo: Las variables calculadas pueden ser numéricas o de cadena (alfanuméricas). Las variables de cadena no se pueden utilizar en los cálculos. Este paquete estadístico cuenta con múltiples funciones, las presentadas aquí, son solo una muestra de lo que comúnmente se utiliza al trabajar con la base de datos Casen, más usos del paquete, pueden encontrarse en el menú ayuda del mismo, o bien en un manual de usuario de SPSS. 7. Ponderar casos Ponderar casos (factor de expansión) proporciona a los casos diferentes ponderaciones (mediante una réplica simulada) para el análisis estadístico. Para ponderar casos elija en los menús: 9 La Encuesta Casen <Datos>/<Ponderar> Los valores de la variable de ponderación deben indicar el número de observaciones representadas por casos únicos en el archivo de datos. Los casos con valores perdidos, negativos o cero para la variable de ponderación se excluyen del análisis. Si aplica una variable de ponderación, ésta seguirá vigente hasta que se seleccione otra variable de ponderación o se desactive la ponderación. Si guarda un archivo de datos ponderado, la información de ponderación se guardará con el archivo. Puede desactivar la ponderación en cualquier momento, incluso después de haber guardado el archivo de forma ponderada. 8. Sintaxis Todos los procedimientos aquí mostrados y los que se realizan utilizando directamente los comandos del programa, también se pueden hacer mediante sintaxis, que es una ventana que ofrece el SPSS, en la cual se escriben cada uno de los comandos, teniendo la opción de guardar para usarlos en otro archivo o bien cambiando alguna variable, usarlo más adelante. Para tener un ejemplo de cuál es el formato que requiere la sintaxis, se puede una vez realizado alguno de los procedimiento antes descrito, hacer un “paste” es decir “pegar”, automáticamente esto generará una sintaxis de lo solicitado, teniendo la opción de guardar. Ejemplo: Seleccionar a las mujeres de 15 y más años, la sintaxis estaría dada por lo siguiente: USE ALL. COMPUTE filter_$=(sexo=2 & edad >= 15). VARIABLE LABEL filter_$ 'sexo=2 & edad >= 15 (FILTER)'. 10 La Encuesta Casen VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . II. Procesamiento estadístico de datos Para cualquier procesamiento de datos involucra la siguiente secuencia: Abrir la base de datos Casen, generada en formato SPSS y grabada previamente. Ponderar la base de datos (uso de factor de expansión). Seleccionar un procesamiento estadístico de los menús. Seleccionar las variables para el procedimiento de los datos. Ejecutar el procedimiento y analizar los resultados. 1. Distribución de frecuencia Un estadígrafo muy importante y necesario para cualquier análisis estadístico es la descripción de frecuencia que permite: tener información acerca del rango de valores de la variable, número de casos válidos, número de casos sin información y las veces que se repite cada valor que tiene esa variable en la base de datos. Nota: De ahora en adelante suponemos que estamos en el Editor de texto del SPSS y con la base de datos de la CASEN2013_BIOBIO abierta. La forma más directa de obtener una frecuencia de variables es la siguiente: <Analizar>/<Estadísticos Descriptivos>/<Frecuencias> 11 La Encuesta Casen EJERCICIO: Obtenga la distribución de frecuencia de la variable corte (Situación de pobreza). Elegida la secuencia de menús obtenemos la siguiente Pantalla: En el cuadro de la izquierda de la pantalla aparece el listado de todas las variables que contiene la base de datos, es necesario seleccionar las variables de las cuales se desea obtener la distribución de frecuencia y luego se elige la opción de aceptar. Como resultado obtenemos la siguiente tabla: Tabla 1. Frecuencia de la población en situación de pobreza, Casen 2013, Región del Biobío Corte Frecuencia Válido Perdidos Total Porcentaje Porcentaje Porcentaje válido acumulado Pobres extremos 162693 8,0 8,0 8,0 Pobres no extremos 293218 14,3 14,4 22,3 No pobres 1586133 77,6 77,7 100,0 Total 2042044 99,9 100,0 2706 ,1 2044750 100,0 Sistema Observe que en este momento no estamos en el editor de texto, sino que en la pantalla de resultados. Estos resultados están expandidos al total de la población de la región del Biobío. 12 La Encuesta Casen Esta tabla contiene: Las frecuencia absolutas El % sobre el total de casos % eliminando los casos perdidos (o ausentes), % válido. El % acumulado de casos válidos EJERCICIO: Recodifique la variable corte en dos categorías de la siguiente forma: 1-2=1, Total pobre 3 =2, No pobre Y obtenga la frecuencia de la nueva variable (cortep). A continuación se presenta la secuencia del procedimiento: 1. Los códigos 1 y 2 se asignan al valor 1. 13 La Encuesta Casen 2. Al código 3 se asigna el valor 2. 3. En la siguiente figura se muestra el proceso completo. Luego pinche la casilla “continuar”. 14 La Encuesta Casen A continuación se presenta la sintaxis del procedimiento: RECODE corte (3=2) (1 thru 2=1) INTO cortep. EXECUTE. VARIABLE LABELS cortep 'Situación de pobreza, NM'. VALUE LABELS cortep 1 'Total pobre' 2 'No pobre'. 2. Tablas Básicas Permite trabajar con cruce de dos o más variables categóricas simultáneamente. EJERCICIO: Calcular la situación de pobreza de la población por zona geográfica. (Número y %) Secuencia de menús: <Analizar>/<Tablas>/<Tablas personalizadas> 1. Selección de las variables corte y zona. 15 La Encuesta Casen Si observamos la siguiente figura se visibiliza una estructura similar a la de frecuencia, el listado de variables a la izquierda y opciones de menús abajo y a la derecha. La diferencia de esta pantalla es que ahora debemos elegir a lo menos dos variables una para fila (A través) y otra para columna (Hacia abajo). Para cruzar dos variables, cualquiera de ellas puede ir como fila o como columna. Se recomienda siempre dejar como columna aquellas variables que tienen menor cantidad de categorías. Seleccionamos la variable corte como fila y zona como columna y luego el menú aceptar: Obtenemos el siguiente resultado. Tabla 2: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío zona corte Urbano Rural Total Recuento Recuento Recuento Pobres extremos 109799 52894 162693 Pobres no extremos 217925 75293 293218 No pobres 1385799 200334 1586133 Total 1713523 328521 2042044 Note que este resultado coincide con lo mostrado en la Tabla 1. 16 La Encuesta Casen Por definición, el programa entrega la cantidad de personas (valor absoluto) de todas las combinaciones posibles entre las categorías de las dos variables y los totales parciales de ambas variables. Para definir los porcentajes en la tabla básica debemos abrir el menú Estadísticos y seleccionar los porcentajes que deseamos. En este caso seleccionaremos porcentaje de fila y de columna. Con este procedimiento obtenemos los siguientes resultados. Tabla 3: Población por zona geográfica según situación de pobreza, Casen 2013, Región del Biobío (N, % fila y % columna) zona Urbano Recuento corte Rural % del N de fila % del N de columna Recuento Total % del N de fila % del N de columna Recuento % del N de fila % del N de columna Pobres extremos 109799 67,5 6,4 52894 32,5 16,1 162693 100,0 8,0 Pobres no extremos 217925 74,3 12,7 75293 25,7 22,9 293218 100,0 14,4 No pobres 1385799 87,4 80,9 200334 12,6 61,0 1586133 100,0 77,7 Total 1713523 83,9 100,0 328521 16,1 100,0 2042044 100,0 100,0 Nota: Observemos que las tablas básicas permiten trabajar no sólo con variables de tipo categórica y en muchos casos es necesario cruzar variables en que una de ellas es de tipo continua como edad, escolaridad ingresos etc. 17 La Encuesta Casen EJERCICIO: Calcule ingreso promedio del trabajo por sexo. NOTA: El nombre de la variable del ingreso del trabajo es ytrabcor. El resultado es el siguiente: Tabla 4: Ingreso promedio del trabajo según sexo, Casen 2013, Región del Biobío ytrabcor Media sexo Hombre 370039 Mujer 270953 Total 329418 18 La Encuesta Casen Anexo 1: Análisis de los ponderadores El factor de expansión entregado con la base de datos es generalmente igual al producto del factor de selección (sel), el factor de ajuste por no respuesta (nr) y el factor de ajuste postestratificación (ps). La institución a cargo de producir la base de datos, es la responsable de elaborar el factor de expansión para cada una de las observaciones. El factor de expansión asignado a cada entrevistado de la encuesta es una medida del número de personas de la población que la observación representa. Cuando los factores de expansión son utilizados en el análisis de los datos de la encuesta, lo que se hace es expandir cada contribución de la observación muestral para reflejar su participación en la población objetivo. Identificación de la variable de ponderación correcta para el análisis El usuario de los datos debe recurrir a la documentación de la encuesta para identificar correctamente el nombre de la variable que contiene los ponderadores. Desafortunadamente, no existe una forma convencional de nombrar a los factores de expansión, por lo cual hay que ser bastante cuidadoso en identificar la variable que los contiene. Determinación de la escala y distribución de los factores de expansión Mirar la distribución del factor de expansión que será utilizado en el análisis es un paso necesario de realizar. La distribución de esta variable nos entrega información sobre: La escala del factor de expansión Es importante para la interpretación de la estimación de los totales. La variabilidad y asimetría en la distribución de los ponderadores en las observaciones Pueden tener influencia en la pérdida de precisión de las estimaciones. Valores extremos en el factor de expansión Valores extremos en los ponderadores, combinados con valores extremos en la variable de interés, puede producir inestabilidad en las estimaciones y los errores estándar. Posibles observaciones sin dato o valores cero en el factor de expansión Pueden indicar un error en el proceso de construcción de la base de datos o una característica especial de la base de datos. En la siguiente tabla se presenta las estadísticas descriptivas del factor de expansión regional de la encuesta Casen 2011 y Casen 2013. 19 La Encuesta Casen Tabla 1: Estadística descriptiva factor de expansión Casen 2011 y Casen 2013 n Suma Media Desviación estándar Mínimo Máximo 1% 5% 25% 50% 75% 95% 99% Casen 2011 (expr_2) 200.302 16.962.515 85 Casen 2013 (expr) 218.491 17.273.117 79 167 3 8.868 5 10 21 44 94 259 627 131 2 6.812 7 13 28 50 89 219 462 Sensibilidad de las estimaciones a los factores de expansión Es recomendable para el investigador, especialmente cuando es la primera vez que trabaja con la base de datos, es estudiar como al aplicar los factores de expansión en el análisis afecta las estimaciones y los errores estándar de las variables. Veamos el siguiente ejemplo. Calcule la media, error estándar e intervalo de confianza de las siguientes variables: escolaridad (esc), edad e ingreso promedio de la ocupación principal (yoprcor), ponderadas y no ponderadas. Resultados: Variables Años de Escolaridad (esc) No ponderado Edad Ing. de la ocupación principal Ponderado Media Error estándar [95 % Intervalo de confianza] 9,97 ,028 9,91 10,02 36,24 ,127 35,99 36,48 312.609,37 3.145,15 306.444,88 318.773,86 Años de Escolaridad (esc) 10,23 ,076 10,07 10,38 Edad 36,06 ,258 35,55 36,56 Ing. de la ocupación principal 326.078,67 7.089,85 312.106,65 340.050,69 Podemos notar que las estimaciones obtenidas de la muestra sin ponderar tiende a subestimar las medias y los errores estándar de las variables. Es importante que revise los siguientes documentos: 20 La Encuesta Casen 1. Metodología de Diseño Muestral Encuesta Casen 2013. http://www.ministeriodesarrollosocial.gob.cl/documentos_metodologicos.php 2. Metodología del Diseño Muestral y Factores de Expansión Casen 2011. http://observatorio.ministeriodesarrollosocial.gob.cl/casen/casen-documentos.php?c=82&a=2011 21 La Encuesta Casen Anexo 2: Plan de Muestreo en SPSS En el presente apartado se presenta los pasos necesarios para definir un plan de muestro lo que permitirá calcular los errores estándar e intervalos de confianza para las variables de la encuesta Casen bajo un diseño de muestras complejas. Pasos para Definir Plan de Muestreo en SPSS En SPSS, previamente a la realización de cualquier análisis o estimación que considere un diseño complejo, se requiere generar un plan de muestreo. Generación de un PLAN de muestreo en SPSS La generación de un plan de muestreo se realiza en 4 pasos: 1. En el módulo de muestras complejas, hay que generar un Plan para el análisis posterior, mediante los comandos: < Analizar > / < Muestras complejas > / < Preparar para el análisis > 2. En la ventana que se abre se marca la opción: Crear un archivo de plan En Examinar se debe indicar el directorio donde guardará el archivo con el plan de muestreo, al cual deberá asignarle un nombre, por ejemplo: “biobio”. Una vez asignado el nombre, marque <Siguiente> para pasar al siguiente nivel de definición del plan de muestreo. 22 La Encuesta Casen 3. En este nivel deberá introducir tres variables para que quede el plan definido. Estas son: Estrato: Corresponden a las agrupaciones derivadas de la estratificación definida en el diseño muestral. En el caso específico de la CASEN, corresponden originalmente al cruce o interposición de la división política administrativa a nivel comunal (322 comunas del país), con la división geográfica del territorio nacional en las áreas urbanas y rurales (2 áreas). En Casen 2013, también se creó una Post-Estratificación con el objetivo de corregir estimaciones de la varianza, lo que dio origen a 266 pseudo-estratos denominados VarStrat. Conglomerados: Son las unidades de selección definidas en el diseño muestral, que generalmente corresponden a unidades muestrales previas a la última etapa. En Casen son denominadas manzanas y secciones en las partes urbana y rural de las comunas, respectivamente. En forma simultánea a la creación de pseudo-estratos o VarStrat, en Casen se generaron agrupaciones de manzanas y de secciones, denominadas VarUnit, también con el objetivo de mejorar las estimaciones de la varianza, agrupando los conglomerados de manera de contener una cantidad aproximada mínima de 30 viviendas. 23 La Encuesta Casen Ponderación muestral: Se refiere al factor de expansión que posee cada unidad de selección. En Casen 2011 corresponde al factor de expansión regional Expr_r2 y en Casen 2011 corresponde al factor de expansión regional expr. Una vez ingresadas estas tres variables, marque <Siguiente> para pasar al siguiente nivel de definición del plan de muestreo. 4. Si se selecciona la opción de muestreo con reemplazo (CR), no es necesario definir alguna etapa de muestreo posterior y el proceso puede darse por finalizado. La opción de incluir el factor de corrección para poblaciones finitas o factor de corrección por finitud (FPC) aplica sólo si las unidades de conglomeración son seleccionadas bajo el supuesto de muestreo aleatorio simple. Si se selecciona cualquiera de las otras dos opciones, que implican un muestreo con reemplazo, se requiere que sea definida una segunda etapa y también que se tengan calculadas las probabilidades de inclusión conjunta de las unidades de conglomeración. En Casen se recomienda la opción CR ya que la estimación de la varianza no difiere prácticamente de las otras opciones simplificando enormemente los cálculos y la expresión de ésta es sencilla. 24 La Encuesta Casen Ejercicio: Población según situación de pobreza, región del Biobío, Casen 2013 La secuencia que debe utilizar es la siguiente: < Analizar > / < Muestras complejas > / < Frecuencia > A continuación se muestran las pantallas de la secuencia. 25 La Encuesta Casen Resultado: corte 95% de intervalo de confianza Estimación % del total Pobres extremos Error estándar Inferior Superior 8,0% 0,5% 7,0% 9,0% Pobres no extremos 14,4% 0,6% 13,1% 15,7% No pobres 77,7% 1,0% 75,7% 79,6% 100,0% 0,0% 100,0% 100,0% Total Ejercicio: Población según situación de pobreza por sexo, región del Biobío, Casen 2013 La secuencia que debe utilizar es la siguiente: < Analizar > / < Muestras complejas > / < Tablas cruzadas> 26 La Encuesta Casen Resultado: corte * sexo sexo corte Hombre Pobres extremos % dentro de sexo % dentro de sexo 7,5% 8,4% 8,0% Error estándar 0,5% 0,5% 0,5% Inferior 6,5% 7,5% 7,0% Superior 8,6% 9,5% 9,0% 13,8% 14,9% 14,4% 0,7% 0,6% 0,6% Inferior 12,5% 13,7% 13,1% Superior 15,3% 16,1% 15,7% 78,7% 76,7% 77,7% 1,1% 1,0% 1,0% Inferior 76,5% 74,8% 75,7% Superior 80,7% 78,6% 79,6% Estimación Error estándar 95% de intervalo de confianza No pobres % dentro de sexo Total Estimación 95% de intervalo de confianza Pobres no extremos Mujer Estimación Error estándar 95% de intervalo de confianza En el documento “Metodología del Diseño Muestral Encuesta Casen 2013”, páginas 87-92 encontrara la sintaxis para estimación de pobreza a nivel de personas y hogares. 27 La Encuesta Casen Anexo 3: Base de datos Casen Algunas consideraciones La base Casen disponible para los usuarios está a nivel de personas es decir, si trabaja con Casen 2013 podrá verificar que la base tiene 218.491 registros (personas) (ver tabla 1) Sin embargo, es posible en la encuesta Casen analizar la información para las siguientes unidades de análisis: Personas Núcleo Hogares Para cada una de estas unidades de análisis es posible obtener información a nivel nacional y regional. Para conocer los conceptos de Personas, Núcleo y Hogar, revise el documento “Manual de Trabajo de Campo, Encuesta Casen 2013”, disponible en sitio web del Ministerio de Desarrollo Social: http://observatorio.ministeriodesarrollosocial.gob.cl/documentos/Casen2013_Manual_TrabajodeCa mpo.pdf Para obtener información a nivel de hogar, en la base de datos debe seleccionar pco1=1, luego como resultado deberá obtener las cifras indicadas en la tabla 1. Para obtener información a nivel de núcleo, en la base de datos debe seleccionar pco1=2, luego como resultado deberá obtener las cifras indicadas en la tabla 1. Tabla 1: Estimaciones muestrales y expandidas en Casen 2011 y Casen 2013 Estimación País Casen 2011 Personas Muestral Expandido Personas sin S.D. P.A Muestral Hogares Casen 2011 Casen 2013 200.302 218.491 19.346 31.315 16.962.515 17.273.117 2.018.886 2.044.750 200.160 218.348 19.346 31.296 17.256.219 2.018.383 2.042.044 142 143 - 19 Expandido 21.205 16.898 - 2.706 Muestral 66.725 59.084 5.779 9.599 5.273.828 4.966.890 580.998 612.488 Muestral Expandido Núcleo Casen 2013 16.941.310 Expandido Personas en el Núcleo 0 Estimación Región Biobío Muestral Expandido 79.063 70.890 5.779 11.338 6.271.119 5.977.815 580.998 732.402 28 La Encuesta Casen La base de datos Casen está formada por aproximadamente 600 variables, y está estructurada siguiendo el orden de los módulos del cuestionario. En la siguiente figura se muestra la secuencia del cuestionario. Figura 1: Secuencia de los módulos encuesta Casen 2011 y 2013 Registro Educación Trabajo Ingresos Salud Residente Vivienda Las primeras variables de la base de datos están referidas a identificación de cada persona entrevistada en la encuestas. Estas variables son: folio : región : zona: comuna: o: Folio de la encuesta Región Zona (1:urbano; 2:rural) Comuna Orden de la persona dentro de cada hogar Las siguientes variables permiten identificar a los residentes habituales de cada hogar por sexo, edad, estado civil y parentesco con los jefes de hogar y núcleo y están presentes en el módulo de registro. Continuando con el orden del cuestionario las variables siguientes corresponden a las del módulo de educación. El nombre de la variable en la base de datos es el mismo que está registrado en el cuestionario. Todas las variables de este módulo comienzan con la letra “e” tal como se indica en la imagen siguiente. Figura 2: Secuencia de los módulos encuesta Casen 2011 y 2013 29 La Encuesta Casen En el módulo de trabajo el nombre de las variables comienza con la letra “o”, las variables del módulo de ingresos comienzan con la letra “y”, en salud el nombre de las variables comienza con la letra “s”, en residentes con la letra “r” y en vivienda el nombre de las variables comienzan con la letra “v”. Al final de la base de datos, encontrara varias variables que son creadas, entre las más importante de señalar tenemos: esc, analfabetismo, activ, cotiza, rama, oficio, hacinamiento, corte, dau, dautr, qau, qautr y las corrientes de ingreso más relevantes como ingreso autónomo, ingreso monetario, ingreso por subsidios monetarios entre otros. Es importante que al trabajar con la base de datos revise: Libro de códigos base de datos Encuesta Casen 2013 Cuestionario Encuesta Casen 2013 Libro de códigos base de datos Encuesta Casen 2011 Cuestionario Encuesta Casen 2011 Disponible en el sitio web del Ministerio de Desarrollo Social. 30 La Encuesta Casen Anexo 4: Los ingresos en la Encuesta Casen 1. Definiciones Ingresos Corrientes La investigación de los ingresos corrientes de los hogares en la Encuesta Casen se enmarca conceptualmente en el Sistema de Cuentas Nacionales, SCN, 19931. Este sistema distingue dos grandes categorías de ingresos corrientes que reciben los hogares: los ingresos primarios y las transferencias corrientes, que en conjunto constituyen el ingreso corriente. La figura 1 muestra la composición de ambas categorías por tipo de ingresos: Los ingresos primarios, que se pagan con el valor agregado creado por la producción, incluyen tanto los ingresos provenientes del trabajo como de la propiedad de los activos. El SCN 1993 distingue las siguientes categorías de ingresos primarios: ingresos de los asalariados, ingresos mixtos de los empleadores y trabajadores por cuenta propia (formados por un componente de remuneración por el trabajo y por un componente de rendimiento de la actividad empresarial), intereses, dividendos y otras rentas de la propiedad de los propietarios de activos financieros, de tierras y activos del subsuelo; y el excedente de explotación o excedente derivado de la imputación que se hace en el sistema por los servicios de las viviendas ocupadas por sus propietarios. Las transferencias corrientes2 que pueden recibir los hogares están constituidas por dos clases principales de transferencias: prestaciones sociales y otras transferencias corrientes. Las prestaciones sociales incluyen prestaciones tanto de la seguridad social (prestaciones contributivas, como las pensiones y jubilaciones), como de la asistencia social (subsidios o transferencias monetarias efectuadas por el Estado como parte de los programas sociales). Además, se incluyen todas las transferencias corrientes que reciben los hogares y que no constituyen prestaciones sociales; en particular, estas se refieren a las diversas transferencias corrientes existentes entre hogares. Grupo Intersecretarial de Trabajo sobre Cuentas Nacionales, Comisión de las Comunidades Europeas – Eurostat, Fondo Monetario Internacional, Organización para la Cooperación y el Desarrollo Económico, Naciones Unidas, Banco Mundial, Sistema de Cuentas Nacionales 1993, Bruselas / Luxemburgo, Nueva York, París, Washington D.C., 1993 2 En el SCN se entiende por transferencia a "una transacción mediante la cual una unidad institucional suministra a otra un bien, un servicio o un activo a otra unidad sin recibir de ésta ninguna contrapartida en forma de bien, servicio o activo". (SCN 1993, párrafo 8.27). Las transferencias corrientes quedan delimitadas en el SCN por exclusión, cuando define primero la transferencia de capital y señala después que "los otros tipos de transferencias se denominan corrientes". Para el SCN la transferencia de capital es "aquélla mediante la cual se transfiere la propiedad de un activo o se obliga, a una o ambas partes, a adquirir o disponer de un activo". 1 31 La Encuesta Casen Figura 1: Categorías de ingresos corrientes que reciben los hogares INGRESOS PRIMARIOS INGRESOS CORRIENTES DE LOS HOGARES TRANSFERENCIAS CORRIENTES Ingresos de los asalariados Ingresos mixtos de los empleadores y trabajadores por cuenta propia Rentas de la propiedad, intereses y dividendos Arriendo imputado Prestaciones de la seguridad social: Pensiones y jubilaciones Prestaciones de asistencia social: Subsidios o transferencias monetarias sociales Transferencias corrientes entre hogares De acuerdo con este marco, la Encuesta Casen recoge información sobre los distintos componentes de los ingresos primarios: ingresos de los asalariados, ingresos de los empleadores y trabajadores por cuenta propia, rentas de la propiedad y alquiler imputado; así como sobre los distintos componentes de las transferencias corrientes: jubilaciones, pensiones y montepíos, subsidios o transferencias del Estado que pueden recibir los hogares como parte de los programas sociales, y transferencias corrientes entre hogares. El siguiente cuadro detalla las variables que componen estos ingresos y las correspondientes preguntas en el cuestionario de la Encuesta Casen 2011: 32 La Encuesta Casen Tabla1: Ingresos corrientes de los hogares y variables que los componen en Encuesta Casen 2011 TIPO DE INGRESO Variable INGRESOS PRIMARIOS Ingresos de los asalariados Ingresos en efectivo de la ocupación principal Sueldos y salarios y1a, y1b, y1c Horas extras y3a Comisiones y3b Propinas y3c Asignación por vivienda, transporte, educación y3d Viáticos no sujetos a rendición y3e Otros y3f Bonificaciones o aguinaldos (anuales) y4a Gratificaciones (anuales) y4b Sueldo adicional, por sobre la remuneración mensual (décimo tercer mes) y4c Otros similares y4d Ingresos en especie de la ocupación principal Alimentos y bebidas y5a Vales de alimentación y5b Vivienda o alojamiento y5c Automóvil para uso privado y5d Servicio de transporte y5e Estacionamiento gratuito y5f Teléfono y5g Vestimenta y5h Servicios de guardería o sala cuna y5i Leña u otro tipo de combustible de uso doméstico y5j Bienes o servicios producidos por el empleador y5k Otros similares y5l Ingresos ocupación secundaria y6, y10 Remuneración por trabajos ocasionales y14a Trabajos realizados antes del mes anterior y14b 33 La Encuesta Casen Ingresos mixtos de los empleadores y trabajadores por cuenta propia Ingresos de la ocupación principal Dinero retirado para gastos propios o del hogar y7a, y7b, y7c Retiro de productos para consumo propio o del hogar y8 Ganancias por venta de productos (anuales) y9 Ingresos ocupación secundaria y10 Remuneración por trabajos ocasionales y14a Trabajos realizados antes del mes anterior y14b Consumo de productos agropecuarios producidos o recolectados por el hogar y17 Arriendo de propiedades urbanas y12a Arriendo de maquinarias, animales o implementos y12b Arriendo de propiedades agrícolas y16a Arriendo de propiedades por temporadas y16b Intereses por depósitos y15a Dividendo por acciones o bonos financieros y15b Retiro de utilidades de empresas y15c Arriendo imputado v17 Rentas de la propiedad Arriendo imputado TRANSFERENCIAS CORRIENTES Prestaciones de la seguridad social Jubilaciones, pensiones y montepíos Jubilación o pensión de vejez bajo la modalidad de retiro y27a programado Jubilación o pensión de vejez bajo la modalidad de renta y27b vitalicia Pensión de invalidez y27c Montepío o pensión de viudez y27d Pensión de orfandad y277e Otro tipo de pensión y27f Seguro de desempleo o cesantía y14c Asignación familiar y19 34 La Encuesta Casen A continuación se presentan las definiciones de los principales tipos de ingresos y subsidios construidos a partir de la información de la Encuesta Casen, y el nombre que se da a las variables correspondientes. Ingresos de la ocupación principal (yoprcor): Corresponde a los ingresos de las personas asalariadas (y1a), empleadores y trabajadores cuenta propia (y7a) por su ocupación principal. Ingresos del trabajo (ytrabcor): Corresponden a los ingresos que obtienen las personas en su ocupación por concepto de sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4, y5, y6, y10, y11a, y14a, y14b), ganancias provenientes del trabajo independiente (preguntas y7a, y8, y9, y10, y14a, y14b) y la auto provisión de bienes producidos por el hogar (pregunta y17). Ingresos del trabajo del hogar (ytrabhcor): Para cada hogar, es la suma de los ingresos del trabajo de todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos autónomos (yautcor): Corresponden a la suma de todos los pagos que reciben las personas, provenientes tanto del trabajo como de la propiedad de los activos. Estos incluyen sueldos y salarios, monetarios y en especies (preguntas y1a, y3, y4, y5, y6, y10, y11a, y14a, y14b), ganancias provenientes del trabajo independiente (preguntas y7a, y8, y9, y10, y14a, y14b), la auto-provision de bienes producidos por el hogar (pregunta y17), rentas (preguntas y12, y16), intereses, dividendos y retiro de utilidades (pregunta y15), jubilaciones, pensiones o montepíos (pregunta y27), y transferencias corrientes (pregunta y13, y14c, y18a, y18b, y18d). Ingresos autónomos del hogar (yauthcor): Para cada hogar, es la suma de los ingresos autónomos de todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos autónomos per cápita del hogar (ypcauthcor): En cada hogar, es la suma de los ingresos autónomos de todos los integrantes del hogar, dividida por el número de miembros del hogar, excluido el servicio doméstico puertas adentro. Subsidios monetarios (ysubcor): Corresponden a todos los aportes en dinero que reciben las personas y los hogares del Estado a través de los programas sociales. La Encuesta Casen considera los aportes correspondientes a la Asignación Familiar, (pregunta y19), el Subsidio Familiar (SUF), el Subsidio Familiar Duplo o por Invalidez, el Subsidio a la Discapacidad Mental, el Subsidio de Cesantía, la Pensión Básica Solidaria (pregunta y20), el Aporte Previsional Solidario (pregunta y26), el Bono de Protección Familiar y de Egreso (del programa Chile Solidario) (pregunta y22), la Asignación Social (pregunta y23), el Subsidio de Agua Potable (pregunta y24), el Bono Bodas de Oro, el Bono de Invierno, el Subsidio Empleo Joven y otros subsidios del Estado (pregunta y25). Subsidios monetarios del hogar (ysubhcor): Para cada hogar, es la suma de los subsidios monetarios percibidos por todos los miembros del hogar, excluido el servicio doméstico puertas adentro. Ingresos monetarios (ymonecor): Para cada persona, corresponde a la suma de los ingresos autónomos y los subsidios monetarios percibidos. Ingreso total del hogar (ytothaj): Corresponde a la suma del ingreso monetario del hogar (preguntas y1a, y3, y4, y5, y6, y7a, y8, y9, y10, y11a, y12, y13, y14, y15, y16, y17, y18a, y18b, 35 La Encuesta Casen y18d, y19, y20, y22, y23, y24, y25, y26 e y27) y el arriendo imputado del mismo (pregunta v17), excluido el servicio doméstico puertas adentro. El arriendo imputado se aplica a los hogares que no pagan arriendo por ser propietarios de la vivienda que ocupan. El valor que se imputa es equivalente al arriendo que se pagaría en el mercado por una vivienda similar a la ocupada. Ingreso total per cápita del hogar (ypchaj): Para cada hogar, corresponde al ingreso total del hogar, dividido por el número de miembros del hogar, excluido el servicio doméstico puertas adentro. 2. Indicadores A continuación, se presentan los principales indicadores sobre ingresos, pobreza y distribución de ingresos que son estimados, a partir de las variables construidas con la información provista por el módulo ingresos de la Encuesta Casen. Incidencia de la pobreza FGT(0) Para estimar la pobreza y la pobreza extrema, el ingreso del hogar se define como la suma del ingreso autónomo del hogar, excluido el servicio doméstico puertas adentro, las transferencias monetarias que recibe el hogar del Estado, excluido el servicio doméstico puertas adentro, y una imputación por concepto de arriendo de la vivienda, cuando ésta es habitada por sus propietarios. La incidencia de la pobreza en un determinado grupo o población se refiere al porcentaje de dicho grupo que vive en condición de pobreza, comúnmente definida mediante la aplicación de una línea de pobreza1. Un índice comúnmente utilizado para medir la incidencia de la pobreza es el índice de pobreza FGT, desarrollado por Foster, Greer y Thorbecke (1984)2, definido como: q 1 z yi FGT ( ) n i 1 z ; 0 Donde α es un parámetro que representa la sensibilidad del índice, z es línea de pobreza, n es el número total de individuos (población u hogares), yi es el ingreso del individuo “i”, y el número de (1) . individuos pobres, q xi z Cuando α toma el valor “0”, el índice FGT(0) representa la incidencia de la pobreza (proporción de individuos pobres). Cuando α toma el valor “1”, el índice FGT(1) se convierte en el índice de brecha de pobreza, y cuando toma el valor “2”, el FGT(2) es un índice de severidad de pobreza. De este modo, es posible utilizar el índice FGT para estimar la incidencia de la pobreza tanto para la población general (personas), como a nivel de hogares. Incidencia de la pobreza en la población: Porcentaje de población pobre sobre el total de la población, definido a partir del método del ingreso. Es el porcentaje de personas cuyos ingresos son inferiores a la línea de pobreza establecida para la medición de esta 1 2 La incidencia de la pobreza en Chile es medida utilizando una línea de pobreza absoluta. Ver Cuadro B.4.2 Foster, James; Joel Greer and Erik Thorbecke (1984). "A class of decomposable poverty measures". Econometrica. 2 81: 761–766 36 La Encuesta Casen Entonces, la incidencia de la pobreza en la población (porcentaje de la población pobre) se calcula como: q FGT(0) = p n p Porcentaje de personas cuyo ingreso per capita del hogar línea de pobreza Donde qp= número de personas bajo la línea de pobreza, y np=tamaño de la población Incidencia de la pobreza entre los hogares: Porcentaje de hogares pobres sobre el total de hogares, definido a partir del método del ingreso. Es el porcentaje de hogares cuyos ingresos per cápita son inferiores a la línea de pobreza establecida para la medición de ésta. Análogamente a la incidencia de la pobreza entre la población, la incidencia de la pobreza entre los hogares (porcentaje de hogares pobres) se calcula como: q FGT(0) = h nh Porcentaje de hogares cuyo ingreso per capita del hogar línea de pobreza Donde qh= número de hogares bajo la línea de pobreza, y nh=total de hogares Decil de ingreso autónomo per cápita del hogar nacional: Décima parte o 10% de los hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los hogares nacionales y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares. Los límites de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los deciles. Quintil de ingreso autónomo per cápita del hogar nacional: Quinta parte o 20% de los hogares del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares nacionales y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los quintiles. Decil de ingreso autónomo per cápita del hogar regional: Décima parte o 10% de los hogares de una región del país ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Decil I) representa el intervalo o 10% más pobre de los hogares de la región y el décimo decil (Decil X) el intervalo o 10% más rico de estos hogares. Los límites de cada decil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los deciles. Quintil de ingreso autónomo per cápita del hogar regional: Quinta parte o 20% de los hogares de una región ordenados en forma ascendente de acuerdo al ingreso autónomo per cápita del hogar, donde el primer (Quintil I) representa el intervalo o 20% más pobre de los hogares de la región y el quinto quintil (Quintil V) el intervalo o 20% más rico de estos hogares. Los límites de cada quintil corresponden a los valores mínimos y máximos del ingreso autónomo per cápita del hogar que definen los intervalos de cada uno de los quintiles. 37 La Encuesta Casen Distribución del ingreso autónomo entre los hogares por decil (quintil) de ingreso autónomo per cápita del hogar: Estimación de la participación porcentual de los ingresos autónomos de cada decil (quintil) de hogares, clasificados en orden creciente de acuerdo al ingreso autónomo per cápita percibido por el hogar; en el total de ingresos autónomos del total de hogares del país. Índice 10/10 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al 10% de hogares con menores ingresos: n10 Índice 10 /10 yauthaj j j 1 n1 yauthaj i 1 i donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es identificada por un índice j=1,2,…,n10 ; y donde cada hogar perteneciente al primer decil de ingresos autónomos per cápita del hogar es identificada por un índice i=1,2,…,n1 Índice 10/40 de ingresos autónomos: Índice de desigualdad que muestra la relación entre el ingreso autónomo recibido por el 10% de hogares de mayores ingresos y el correspondiente al 40% de hogares con menores ingresos: n10 Índice 10 / 40 yauthaj j 1 n4 j yauthaj i 1 i donde cada hogar perteneciente al décimo decil de ingresos autónomos per cápita del hogar es identificada por un índice j=1,2,…,n10 ; y donde cada hogar perteneciente a los primeros cuatro deciles de ingresos autónomos per cápita del hogar es identificada por un índice i=1,2,…,n4 38 La Encuesta Casen Más información respecto a la temática de ingreso revisar el documento: “Manual del Investigador Encuesta de Caracterización Socioeconómica Nacional 2011: Módulos Registro, Residentes, Trabajo e Ingresos” Disponible en el siguiente link: http://www.ministeriodesarrollosocial.gob.cl/centro-informacion/#observatorio-social 39