TRABAJO DE INVESTIGACIÓN FIN DE MÁSTER APLICACIONES DE MODELOS DE RESPUETA DISCRETA PARA DETERMINAR LOS FACTORES SOCIODEMOGRÁFICOS QUE EXPLICAN LA ACTIVIDAD ECONÓMICA EN ESPAÑA Máster Oficial en Estadística Aplicada Departamento de Estadística e I.O. Universidad de Granada Autora: Ana Gema Galera Pozo Tutores: Ana María Aguilera del Pino y Manuel Escabias Machuca Septiembre 2014 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Ana Gema Galera Pozo 2 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores AGRADECIMIENTOS GRACIAS… A mis tutores Ana María Aguilera y Manuel Escabias, de los que ya guardaba un gran recuerdo desde mis años de Universidad, gracias por ayudarme en todo momento a encaminar este trabajo, gracias por toda la dedicación en horas y deshoras, gracias por hacerme sentir que puedo cumplir mis metas transitando un camino que se puede disfrutar aunque sea difícil…. gracias de corazón… A los de mi aire, mi familia, por tener tanto de ellos y ellos tanto de mí… A mis padres, a mis hermanas Inma y Carmen Mari, a mis hermanos Juan Luis y Antonio Jesús… por sus consejos, sus palabras y por animarme… por estar siempre a mi lado a pesar de la distancia… a ellos y al resto de mi familia, la de siempre y la que llega, de la que soy y de la que me hago… Gracias, porque no hay nada más bonito que ver sonreir a las personas que te ayudan a ser más fuerte cada día. A Alba, Patricia y Eduardo, mis sobrinos, mis estrellas… los que me pellizcan el alma y me hacen recordar y ver la vida como una niña. A mis amigos, compañeros… a los que vienen, a los que se van y a los que siempre están… A todos los que formais parte de mi vida… por las risas, las ganas, las largas conversaciones, el cariño, el ánimo, las cosas buenas… …. Y GRACIAS a mi marido Miguel, mi ángel de la guarda, la persona responsable de que crea en la magia del universo, y sobre todo, en la magia de su mirada. Gracias por estar ahí, por haber soportado numerosas horas de trabajo en detrimento de mi tiempo para ti, por ocuparte de todo mientras yo no podía, por animarme a seguir en cada momento y a recuperarme de cada contratiempo… Gracias por ser el hombre que eres: divertido, sereno, bondadoso… Gracias a ti, a tu cariño, a tu quererme… por todo lo que hemos vivido y por todo lo que nos queda por vivir… TASB!! Ana Gema Galera Pozo 3 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores “No es mi cerebro el que redacta todas mis palabras, es mi corazón que modera mis sentimientos” Ana Gema Galera Pozo 4 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores PRÓLOGO Las altas tasas de paro, el aumento del desempleo dado en los últimos años y la disminución del número de ocupados en España, pone de manifiesto el problema de la crisis económica por la que atraviesa el país, así como la preocupación de los españoles sobre su relación con la actividad económica. La necesidad de encontrar factores que influyen en ello, así como la de hallar las relaciones existentes entre diversas características de los individuos y el hecho de clasificarse en un colectivo u otro de la fuerza de trabajo, ha motivado la realización de este trabajo. En vista de lo expuesto, el objetivo principal de este estudio está basado en investigar los factores y características sociodemográficas asociados a la relación con la actividad económica que tiene una persona de 16 y más años en España. Los datos que se han utilizado son los microdatos del primer trimestre del 2014 de la Encuesta de Población Activa (EPA) que realiza el Instituto Nacional de Estadística (INE). La EPA está considerada como una de las mejores fuentes para medir diversas características de la fuerza de trabajo de la población, y a su vez, permite clasificar a las personas con edad de trabajar en los tres grandes colectivos: inactivos, ocupados y parados. Para nuestro estudio nos centramos en el colectivo de personas de 16 y más años utilizando dos variables de respuesta discreta: a) que una persona sea activa o inactiva, b) y que una persona se clasifique en el colectivo de parados, ocupados o inactivos. Los modelos de respuesta discreta son las herramientas estadísticas apropiadas para modelizar el comportamiento de variables dependientes que toman un conjunto finito y discreto de valores a partir de un conjunto de variables independientes que pueden ser tanto discretas como continuas. Los modelos de regresión más utilizados en estos casos son los modelos de regresión logística, (logit). Para llevar a cabo ambos estudios, se ha construido un modelo de regresión logística binomial para la variable dependiente dicotómica (ser activo o inactivo); y un modelo de regresión logística multinomial para la variable dependiente que tiene tres categorías de respuesta (parado, ocupado e inactivo). Ana Gema Galera Pozo 5 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores La EPA es una encuesta que se realiza por muestreo bietápico y que pretende obtener estimaciones de ciertas características de la población total. Por ello, es necesario trabajar con los pesos de cada individuo de la muestra para así poder ponderar los resultados a la población total de España. Para poder elevar los resultados de la regresión logística a la totalidad de la población, es un requisito necesario hacer uso de los pesos o factores de elevación de cada individuo de la muestra para obtener la estimación de los parámetros del modelo asociados a las variables explicativas. Por ello, para la estimación de los modelos se ha utilizado el método de Máxima Verosimilitud Ponderada que tendrá en cuenta la representación de cada individuo de la muestra para dicha estimación. Para la construcción del modelo logit binomial más adecuado, y que contenga aquellos factores sociodemográficos que mejor expliquen el hecho de que una persona se encuentre activa o inactiva en España, se ha usado el procedimiento por pasos o stepwise, que está basado en los contrastes condicionales de razón de verosimilitudes. A nivel computacional se ha utilizado la herramienta de software libre R. En el paquete “survey” se dispone de las funciones “svyglm” y “svydesign” que permiten obtener la estimación de los parámetros del modelo usando las ponderaciones de la muestra. Para validar el modelo obtenido se recurre a distintos procedimientos. Para comenzar, se han estudiado los contrastes de bondad global de ajuste con el test de Hosmer-Lemeshow, así como los test chi-cuadro de Pearson X2 y el test chi-cuadrado de razón de verosimilitudes o deviance G2. A continuación, se han obtenido las tablas de clasificaciones correctas, tanto para la muestra de individuos como para las estimaciones de población total, con las tasas de clasificación correcta (TCC) para los colectivos de activos e inactivos. La librería ROCR de R permite, mediante una serie de funciones, obtener un punto óptimo de la probabilidad estimada a partir del cual un individuo se clasifica como activo, y por debajo de este valor como inactivo, maximizando de este modo la TCC total. Para realizar una validación completa del modelo binomial que se ha obtenido, se han estudiado los residuos de Pearson y los residuos de la Devianza, así como los valores influyentes en la muestra. También se han obtenido algunas medidas para el estudio de la calidad del modelo. Ana Gema Galera Pozo 6 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores El sexo, la nacionalidad, la edad, el nivel de estudios terminados y la Comunidad Autónoma de residencia son factores que explican el hecho de que una persona decida ser activa en relación a la actividad económica, o que por el contrario, no esté interesada en participar en el mercado de trabajo. Para la regresión multinomial se ha profundizado en la metodología de estos modelos así como en el cálculo de las medidas de validación del mismo. Para construir el modelo logit multinomial que describa los factores que influyen en que una persona de 16 o más años se encuentre parada, ocupada o inactiva en España, se ha utilizado la función “multinom” del paquete “nnet” de R. Al igual que en el caso binomial, también se ha construido el modelo a partir del procedimiento stepwise. En base a la necesidad de obtener los estadísticos X2 y G2 de los contrastes de bondad de ajuste para ficheros con datos individuales y que no están agrupados por los distintos patrones de las variables explicativas, tal y como ocurre con el fichero de la EPA, se ha programado de manera manual con la herramienta R, los pasos para construir ambos estadísticos para datos no agrupados. Además, se han estudiado los residuos de Pearson para cada categoría de la variable respuesta en cada combinación de las variables explicativas, a partir del estadístico X2 del contraste de bondad de ajuste. La tabla de clasificación muestra una TCC total que es aceptable, aunque el resultado de la clasificación correcta para el colectivo de parados muestra que éste está infrarrepresentado por el modelo que se ha obtenido. Por ello, aunque el modelo final de la regresión logística multinomial incluía la variable sexo, edad, nacionalidad, nivel de estudios terminados y la Comunidad Autónoma de residencia, se concluye que las variables sociodemográficas no son suficientes para explicar el hecho de que una persona se encuentre parada u ocupada en España, aunque sí muestran algunas tendencias de estas variables en relación a la actividad económica de una persona de 16 y más años. Ana Gema Galera Pozo 7 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ÍNDICE: 1. INTRODUCIÓN............................................................................................................ 11 1.1. Fundamentos del problema ................................................................................ 11 1.2. Objetivos de la investigación ............................................................................... 13 2. FUENTES ESTADÍSTICAS PARA LA MEDICIÓN DEL EMPLEO Y PARO EN ESPAÑA ............. 15 3. LA ENCUESTA DE POBLACIÓN ACTIVA (EPA) ................................................................ 17 4. 3.1. Algunas nociones históricas................................................................................. 17 3.2. Definiciones ........................................................................................................ 17 3.3. Diseño de la muestra .......................................................................................... 19 MODELOS DE RESPUESTA DISCRETA ........................................................................... 24 4.1. Modelos de regresión logística binaria................................................................. 25 4.1.1. Modelos logit con variables explicativas cuantitativas .................................. 25 4.1.2. Modelos logit con variables explicativas cualitativas .................................... 28 4.2. Modelos de regresión logística multinomial......................................................... 31 4.2.1. Formulación del modelo .............................................................................. 31 4.2.2. Interpretación de los parámetros ................................................................. 32 4.3. Ajuste del modelo logit para datos con ponderaciones ........................................ 34 4.4. Contrastes de bondad de ajuste en regresión logística binaria.............................. 38 4.4.1. Test chi-cuadrado de Pearson ...................................................................... 39 4.4.2. Test chi-cuadrado de razón de verosimilitudes. ............................................ 39 4.4.3. Test de Hosmer y Lemeshow ........................................................................ 40 4.5. Contrastes de bondad de ajuste en regresión logística multinomial ...................... 40 4.5.1. Test de chi-cuadrado de Pearson.................................................................. 41 4.5.2. Test de chi-cuadrado de razón de verosimilitudes......................................... 42 4.6. Medidas globales de bondad de ajuste ................................................................ 42 4.6.1. Tasas de clasificaciones correctas ................................................................. 42 4.6.2. Curva Roc .................................................................................................... 43 4.6.3. Tasas tipo R2 ................................................................................................ 44 4.7. Contrastes sobre los parámetros del modelo ....................................................... 45 4.7.1. Contraste de Wald ....................................................................................... 46 4.7.2. Contrastes condicionales de razón de verosimilitudes .................................. 46 4.8. Intervalos de confianza ....................................................................................... 47 4.9. Residuos y medidas de influencia en los modelos de regresión logística binaria .... 48 Ana Gema Galera Pozo 8 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4.9.1. Residuos de Pearson .................................................................................... 48 4.9.2. Residuos de la devianza ............................................................................... 49 4.9.3. Medidas de influencia.................................................................................. 50 4.10. Residuos en los modelos de regresión logística multinomial................................. 50 4.10.1. Residuos de Pearson .................................................................................... 50 4.11. Métodos de selección del modelo ....................................................................... 51 5. FACTORES RELACIONADOS CON LA ACTIVIDAD ECONÓMICA DE LA POBLACIÓN EN ESPAÑA. MODELOS DE REGRESIÓN LOGÍSTICA ................................................................... 55 5.1. Preparación de los datos de estudio .................................................................... 55 5.2. Análisis descriptivo de los datos .......................................................................... 60 5.3. Ajuste de un modelo de regresión logística binaria para explicar los factores relacionados con la actividad e inactividad ..................................................................... 72 5.4. Ajuste de un modelo de regresión multinomial para explicar los factores relacionados con la ocupación, desempleo e inactividad de la población española. ......... 93 6. CONCLUSIONES ........................................................................................................ 116 7. BIBLIOGRAFÍA .......................................................................................................... 118 8. ANEXOS ................................................................................................................... 121 8.1. Sintaxis en SPSS para abrir los microdatos de la EPA .......................................... 121 8.2. Función ‘svydesign’ y ‘svyglm’ de R en el paquete (survey)................................. 123 8.3. Función ‘multinom’ de R en el paquete (nnet) ................................................... 124 8.4. Sintaxis en R para la regresión binomial............................................................. 125 8.5. Sintaxis en R para la regresión multinomial ....................................................... 132 Ana Gema Galera Pozo 9 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 1. INTRODUCIÓN 1.1. Fundamentos del problema La tasa de paro en España en el primer trimestre del año 2014 ascendía a casi el 26% de la población activa (25,93) según datos de la Encuesta de Población Activa (EPA) que elabora el Instituto Nacional de Estadística (INE). En muy pocos años el paro ha crecido rápidamente, de tal modo que la tasa de desempleo se ha incrementado en más de 16 puntos porcentuales en los últimos cinco años. Si a principios del año 2008 dicha tasa en España se situaba en 9,6%, un año después había crecido hasta situarse en 17,24%. En 2013, según datos de EUROSTAT1, la tasa media anual de paro española superó en más de 15 puntos a las tasa de paro de la media de la Unión Europea (10,8%) situándose ésta, a su vez, 18 puntos por encima de la de EE.UU. (7,4) y superando en casi 22 puntos porcentuales a la tasa de paro de Japón (4%). Estos datos ponen de manifiesto que el desempleo en España es uno de los mayores problemas con la que se encuentra la sociedad, y tal como señalan los datos del barómetro de opinión pública de España que publica el Centro de Investigaciones Sociológicas (CIS)2, el paro es según el 57% de los españoles el principal problema del país seguido del la corrupción que es manifestado como principal por el 11% de los españoles. Estos datos contrastan con los estudios publicados sobre mercado de trabajo hasta el año 2007, donde se resaltaba la capacidad de la economía española para absorber mano de obra inmigrante y que llegó a alcanzar un volumen de nuevos trabajadores extranjeros cercano al medio millón de personas (Oliver Alonso, 2007). Por otro lado, a la vez que el desempleo se ha visto agravado, la destrucción de empleo y de ocupados ha disminuido en la misma medida que ha crecido el número de parados tal y como puede observarse en el gráfico de la Figura 1. El número de ocupados en España a principios de 2014 fue de 16.950.000, casi 425 mil ocupados menos que el año anterior. El número de parados en España durante el primer trimestre del 2014 fue de 5.933.300 desempleados; cifra que duplica el número de parados del año 2008. Ante esta situación de desempleo son muchos los autores que se han preguntados cuales son las causas que influyen a la hora de perder un empleo o de mantenerlo ¿qué factores están relacionados, de alguna manera, con estar ocupado o parado en España?, ¿qué características presentan mayores ventajas o desventajas en nuestro país para tener un puesto de trabajo frente a estar desempleado? 1 http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/ 2 Datos del 2014: http://www.cis.es/cis/export/sites/default/Archivos/Marginales/3020_3039/3021/Cru3021_enlace.html Ana Gema Galera Pozo 11 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 60,00 50,00 40,00 30,00 Tasa de empleo 20,00 tasa de paro 10,00 0,00 Fuente: INE. EPA Figura 1: Evolución trimestral de la tasa de empleo y de paro en España. 1T08-1T14 Un determinante de la tasa de paro es el factor demográfico o el perfil sociodemográfico de los individuos. La incorporación de la mujer al mercado de trabajo en España durante los años 80 y 90, o el aumento de la población activa procedente de países extranjeros con edades más jóvenes han marcado el mercado laboral en España en los últimos años (Cachón, 2006) y (Oliver Alonso, 2008). Por otro lado, algunos autores ponen de manifiesto el retroceso dado, en tiempo de crisis, en los avances conseguidos en igualdad de género en lo que se refiere a la incorporación de la mujer al mercado de trabajo (Gálvez Muñoz, 2011). En el reciente estudio de la OCDE, (Panorama de la Educación. Indicadores de la OCDE 2013) se hace referencia a la importancia del nivel de formación o de estudios terminados para la incorporación en el mercado de trabajo. Tanto en España como en la Unión Europea las tasas de empleo son más altas para las personas con niveles de estudios más altos, al igual que les corresponde un salario mayor. Además, datos del Ministerio de Educación3 arrojan indicios de que el paro aumenta más entre personas con niveles inferiores de educación y además, el tiempo que una persona parada tarda en encontrar empleo es inversamente proporcional a su nivel de estudios. Por tanto, factores como la edad, el sexo, el nivel de estudios terminados o la nacionalidad pueden ser identificados como factores que agravan o disminuyen la ventaja de estar ocupado en España frente a estar parado en nuestro país. A su vez, las diferencias en relación a la fuerza de trabajo entre las Comunidades Autónomas son una característica presente en el mercado laboral español. Las distintas tasas de paro entre Comunidades Autónomas, han venido siendo evidentes desde los años 80. (Abascal Fernández, E., García Lautre I., Landaluce Calvo, M.I. 2006). 3 Mapa de la oferta de la formación Profesional en España Ana Gema Galera Pozo 12 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Andalucía y Extremadura han destacado por tener tasas medias de paro mucho más altas que el resto de Comunidades a lo largo de los años. Otras Comunidades como Cataluña o la Comunidad Foral de Navarra, han experimentado una mejora respecto a sus tasas de paro a lo largo de los años, y han conseguido que éstas se sitúen por debajo de la media nacional. En la actualidad, es posible distinguir una amplia diferencia en las tasas de paro por regiones. En concreto, las Comunidades Autónomas más al norte del país, presentan índices de paro más bajos que las Comunidades que se encuentran más al sur. En concreto, la tasa de paro de Navarra (17,12%) es la mitad de la tasa andaluza (34,94%). Estos datos señalan la importancia de incluir las regiones geográficas de España en el estudio de la relación con la actividad de las personas de 16 y más años, ya que en cada Comunidad Autónoma las características de los distintos colectivos puede ser diferente dado el mayor o menor volumen de unos colectivos u otros. Por otro lado, la economía de un país depende en gran medida de las tasas de actividad y de las personas que se encuentran inactivas. Desde 2002, la población activa venía creciendo hasta alcanzar una representación del 60,5% de las personas de 16 y más años, estabilizándose a mediados del 2012. Desde entonces la población activa ha ido decreciendo y aumentando la población inactiva, de modo que en el primer trimestre del 2014 el número de activos desciende en este trimestre en 187.000 hasta 22.883.900. La tasa de actividad se sitúa en el 59,46%, la más baja desde el segundo trimestre de 2007, lo que significa que casi el 40% de las personas en edad de trabajar no lo hacían y tampoco buscaban un empleo. En un año la población activa se ha reducido en 424.500 personas. Por ello se hace de vital importancia caracterizar a los individuos que se encuentran dentro del colectivo de activos o de inactivos para ofrecer una imagen global más adecuada de la fuerza de trabajo que actualmente existe en España. 1.2. Objetivos de la investigación El objetivo primordial es tratar de conocer las ventajas o desventajas de los factores sociodemográficos de una persona residente en España para que tenga una relación de actividad con el mercado de trabajo frente a la inactividad de la misma. Por otro lado, se pretende analizar también los tres grandes colectivos en relación con la actividad económica: ocupado, parado o inactivo. En este sentido, nos centramos en las variables sexo, edad, nivel de estudios terminado, nacionalidad y Comunidad Autónoma de residencia. Con este fin, se lleva a cabo un estudio sobre el que se aplica un modelo de respuesta discreta binario de tipo logit para el primer caso, y para el segundo caso se aplica un modelo de regresión logística multinomial. Ana Gema Galera Pozo 13 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores La variable binaria dependiente viene definida por el hecho de estar activo (1) o inactivo (0). La variable dependiente multinomial viene definida por estar parado (0), ocupado (1) e inactivo(2) Ana Gema Galera Pozo 14 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 2. FUENTES ESTADÍSTICAS PARA LA MEDICIÓN DEL EMPLEO Y PARO EN ESPAÑA Existen varias fuentes que pueden aportar información estadística sobre la ocupación y el empleo en España: - La Encuesta de Población Activa (EPA) del Instituto de Nacional de Estadística. La EPA es una encuesta trimestral por muestreo cuyo objetivo es obtener información sobre la fuerza de trabajo y sus principales características: parados, ocupados e inactivos. Para el empleo se miden variables demográficas (sexo, edad, nacionalidad, estado civil, nivel educativo), situación profesional, subempleo, horas de trabajo, tipo de jornada, tipo de contrato, pluriempleo, etc. Para el paro se miden variables demográficas, características del empleo anterior, métodos de búsqueda, duración de la búsqueda, etc. El principal inconveniente de esta fuente se deriva de su propia condición de encuesta por muestreo y es el no poder dar información de algunas características con la mayor desagregación posible. Su principal ventaja es que está dirigida a la población en su totalidad por lo que permite desagregar la información de la población total en los principales colectivos según su relación con la actividad. - Los Censos de Población. Los censos de población recogen las características de las personas y de las viviendas en España. Esta fuente recoge también información sobre la fuerza del trabajo, pero tienen los siguiente inconvenientes: a) distanciamiento en el tiempo, (ya que se realiza cada 10 años), b) la recogida de datos se realiza por autoinscripción (es decir, el entrevistado se declara así mismo como ocupado, parado o inactivo, por ejemplo), c) el elevado coste y d) la tardanza en la obtención de resultados debido al gran volumen de la operación. - Afiliaciones a la Seguridad Social del Ministerio de Empleo y Seguridad Social. La estadística es una explotación de los ficheros de afiliaciones y cuentas de cotización a la Seguridad Social de los trabajadores en los distintos regímenes. Este concepto de afiliación excluye a los que cotizan a efecto de asistencia sanitaria exclusivamente, también excluye a los que están en situación de desempleo, los de convenios especiales y los que se encuentren en situaciones especiales sin efecto en cotizaciones. El número de trabajadores afiliados a los distintos regímenes de la Seguridad Social no se corresponde necesariamente con el número de trabajadores, ya que un trabajador puede encontrase de alta laboral, (afiliado a la Seguridad Social) en dos regímenes distintos. Por tanto, la fuente recoge situaciones que generan la afiliación y no recoge número de afiliados. El inconveniente principal de la fuente al igual que todas las estadísticas que proceden de registros administrativos, es que está sujeta a normas legales variables, por lo que, aparte de ofrecer información sólo sobre una parte del colectivo estudiado (ocupados afiliados a la Seguridad Social), no permiten la obtención de series homogéneas. Ana Gema Galera Pozo 15 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España - los factores Paro registrado del Servicio Público de Empleo Estatal (SEPE) del Ministerio de Empleo y Seguridad Social. El objetivo de ésta es llevar un registro de los demandantes de empleo registrados en las distintas oficinas de empleo del país para instrumentar, entre otras, la política de ayuda al desempleo. El Paro Registrado está constituido por el total de demandas de empleo en alta, registradas por el SEPE, existentes el último día de cada mes, excluyendo las que correspondan a situaciones laborales descritas en la Orden Ministerial de 11 de Marzo de 1985 (B.O.E. de 14/3/85) por la que se establecen criterios estadísticos para la medición del Paro Registrado. El principal inconveniente de la fuente es que sólo recoge al colectivo de parados y sólo a aquellos que acuden de forma voluntaria a registrarse en las oficinas de empleo. Además, el paro registrado recoge como parado a todo aquel que acude a la oficina diciendo que es demandantes empleo, mientras que la EPA clasifica a una persona como parada según las definiciones establecidas de manera internacional y siguiendo las exigencias de EUROSTAT. A partir de mayo de 2004, el SEPE también ofrece información sobre demandantes de empleo clasificados como ocupados y que teniendo ya un empleo, demandan o buscan un empleo mejor o compatibilizarlo con el que ya realizan. Para pertenecer a este colectivo, al igual que para el paro registrado, el solicitante debe acudir de manera voluntaria a la oficina de empleo para inscribirse. Ana Gema Galera Pozo 16 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 3. LA ENCUESTA DE POBLACIÓN ACTIVA (EPA) 3.1. Algunas nociones históricas El principal instrumento que se utiliza en España para realizar un seguimiento de la evolución del empleo y el paro es la Encuesta de Población Activa (EPA) que lleva a cabo el Instituto Nacional de Estadística (INE), tal y como viene realizándose en todos los países de la Unión Europea. La EPA es una investigación por muestreo de periodicidad trimestral, dirigida a la población que reside en viviendas familiares del territorio nacional y cuya finalidad es averiguar las características de dicha población en relación con el mercado de trabajo. La EPA entrevista aproximadamente a 180.000 personas de unos 65.000 hogares. La encuesta se viene realizando desde 1964, y desde entonces la EPA ha sufrido algunos cambios metodológicos: - En 1976 la EPA pasa a realizarse de forma trimestral. - En 1987 se adaptó el cuestionario a las últimas recomendaciones internacionales y la exigencia de adaptar la EPA a la Encuesta de Fuerza de Trabajo de la Comunidad Económica Europea con motivo de la incorporación de España a la Unión Europea. - En 1999 se convierte en una encuesta continua. - En 2002 se introduce una nueva definición de parado para homogeneizarlos con las definiciones utilizadas por la Unión Europea. - En 2005 se produjo el último cambio metodológico sustancial donde se introduce un nuevo cuestionario y un control centralizado. Además, se tuvieron en cuenta algunos cambios en las estructura de la población, como el aumento de población extranjera que se había dado en España y que afectarían a los factores de elevación de la población. Para poder tener series que fuesen comparables, se calcularon series retrospectivas para el periodo 1996-2004 con la nueva base de población instaurada ese año, con el fin de mantener la homogeneidad de las estimaciones. Las cifras actuales de la encuesta se encuadran en la metodología instaurada en 2005. En 2014, con los datos del Censo de población y viviendas de 2011 y con la introducción de nuevos criterios en la calibración de los factores de elevación de la Encuesta, se han recalculado las poblaciones de referencia para el período 2002 a 2013. 3.2. Definiciones Las nociones históricas vistas anteriormente implican que los métodos y conceptos utilizados por la EPA son totalmente comparables con los utilizados en los demás países europeos. De hecho, las cifras de la EPA son correctas para EUROSTAT y para la OCDE. Ana Gema Galera Pozo 17 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores La a Encueta de Población Activa clasifica a las personas de 164 y más años en tres grandes colectivos: vos: ocupados, parados e inactivos. La Figura 2 esquematiza de manera resumida como se descomponen los distintos colectivos según su relación con la actividad económica: POBLACIÓN DE 16 Y MÁS AÑOS ACTIVOS INACTIVOS OCUPADOS - Estudiantes PARADOS - Jubilados - Otras pensiones - Labores del hogar Asalariado Trabajador por cuenta propia Parados que buscan su 1erempleo Resto de ocupados Parados que han trabajado anteriormente - Incapacidad - Actividades benéfica - Otras Población de 16 y más años según relación rela con la Figura 2: Descomposición de la Población actividad económica Tal y como puede deducirse del la Figura 2,, la población activa se compone de la suma de la población ocupada más la población parada. La población ocupada es aquella que se encontraba trabajando, al menos una hora a la semana inmediatamente ente anterior a la fecha de la encuesta. También se clasifican como ocupados aquella población que aún estando ausente de su puesto de trabajo mantienen un fuerte vinculo con el trabajo, por ejemplo aquellos que se encuentran de baja por enfermedad o de vacaciones. Se clasifican como parados aquella población que no se encuentra trabajando la semana de referencia pero que están interesados en encontrar un empleo, están dispuestos a trabajar y realizan alguna gestión o utilizan algún método para encontrar un empleo. Deben cumplirse todas las condiciones para que la persona sea considerada como parada. Por el contrario, todas aquellas personas que no cumplen alguno de los requisitos anteriores, se clasifica como ‘inactivo’. Por tanto, la población inactiva se compone de aquellos individuos de 16 o más años que no se encuentran ocupados durante la semana de referencia pero que tampoco están interesados en encontrar un empleo. 4 Por ser la a edad legal a partir de la cual se puede trabajar en España Ana Gema Galera Pozo 18 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores A partir de los grandes colectivos derivados de las definiciones anteriores se calculan, entre otras, tres tasas de gran importancia y que miden la relación entre los colectivos: - Tasa de actividad. Mide la relación de personas activas respecto de la población en edad de trabajar (de 16 o más años). Se calcula: Tasadeactividad = - PoblaciónActiva Poblacón16 ymás Tasa de empleo. Mide la relación entre la población ocupada y la población de 16 o más años. Se calcula: TasadeEmpleo = - PoblaciónOcupada Poblacón16 ymás Tasa de paro. Mide la relación de personas paradas y la población activa TasadeParo = PoblaciónParada PoblacónActiva Las tres tasas suelen darse en porcentajes por lo que se suelen multiplicar por 100. 3.3. Diseño de la muestra Tipo de muestreo Para la Encuesta de Población Activa se realiza un muestreo en dos etapas, muestreo bietápico: a) La primera etapa está constituida por las secciones censales realizándose una estratificación de las mismas. Los estratos que se utilizan son los siguientes: - Estrato 1: Municipio capital de provincia. - Estrato 2: Municipios autorrepresentados, importantes en relación con la capital. - Estrato 3: Otros municipios autorrepresentados, importantes en relación con la capital o - municipios mayores de 100.000 habitantes. - Estrato 4: Municipios entre 50.000 y 100.000 habitantes. - Estrato 5: Municipios entre 20.000 y 50.000 habitantes. - Estrato 6: Municipios entre 10.000 y 20.000 habitantes - Estrato 7: Municipios entre 5.000 y 10.000 habitantes. - Estrato 8: Municipios entre 2.000 y 5.000 habitantes. - Estrato 9: Municipios menores de 2.000 habitantes. La constitución de unos estratos u otros en cada una de las provincias dependerá de los municipios que tenga cada una de las provincias. A continuación se forman subestratos, dentro de cada estrato, según criterios socioeconómicos. Para los municipios más pequeños se utiliza la comarca, y para el resto se aplican técnicas de conglomerados. Ana Gema Galera Pozo 19 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores b) En la segunda etapa se realiza un muestreo sistemático con arranque aleatorio para seleccionar las viviendas a las que se realizará la entrevista. Dentro de cada vivienda, que es la unidad de segunda etapa, no se realiza submuestreo alguno, recogiéndose información de todas las personas que tengan su residencia habitual en las mismas. Tamaño de la muestra En la actualidad la muestra está formada por 3.822 secciones censales. En cada una de ellas hay 18 viviendas, a excepción de las secciones que se encuentran en las provincias de Madrid, Barcelona, Valencia, Sevilla y Zaragoza que están formadas por 22 viviendas en cada sección censal. Dentro de cada provincia la afijación entre estratos es proporcional al tamaño de cada uno de ellos, potenciando los municipios de mayor tamaño; mientras que la afijación entre los subestratos es proporcional al número de viviendas en cada uno de ellos. Cada provincia dispone de un tamaño mínimo de muestra que permite obtener un mínimo de estimaciones posibles para la provincia. Selección de la muestra Dentro de cada estrato todas las viviendas tienen la misma probabilidad de ser seleccionadas. Como el número de viviendas a tomar de cada uno de los estratos se ha fijado en 18 (a excepción de la provincias mencionadas en el punto anterior), la probabilidad de selección de la vivienda i perteneciente a la sección j del estrato h, donde se han afijado Kh secciones, es: P (Vijh ) = K h x V jh Vh x 18 18 = Kh x V jh Vh donde Vh es el número total de viviendas en el estrato h, y Vjh es el número total de viviendas en la sección j Distribución de la muestra en el tiempo La muestra está distribuida uniformemente durante el trimestre que dura la encuesta. Cada sección censal es visitada una vez al trimestre. Las viviendas pertenecientes a cada una de las secciones censales son renovadas según los turnos de rotación establecidos por el INE, con una numeración del 1 al 6. Estimadores y Ponderaciones Para el cálculo del estimador de una determinada característica Y en un trimestre se usan técnicas de calibrado o reponderación. Es una técnica para reajustan los factores de elevación obtenidos a partir del diseño muestral, de forma que los resultados que proporciona la encuesta Ana Gema Galera Pozo 20 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores se hacen coincidir con los de una fuente de referencia externa5. En el caso de la EPA, se ajusta la pirámide de población por sexo y edad de cada Comunidad Autónoma, el total de población de cada provincia y el total de población por nacionalidad (española, extranjera) de cada Comunidad Autónoma6, de forma que coincidan con las cifras reales. La técnica consiste en tomar una muestra s de una población, de tal forma que el estimador de Y viene por Ŷ = ∑ d k YK k∈s donde dk es el factor de elevación e Yk el valor de la característica en la unidad muestral k El factor de elevación original se calcula como dh = Ph ph donde Ph es la población residente en viviendas familiares principales, en el estrato h, referida a la mitad del trimestre; y ph es el número de personas que habitan en las viviendas de la muestra, en el estrato h, en el momento de la entrevista. Se disponen de las J variables auxiliares7 con las que queremos que coincidan las cifras y cuyos totales son conocidos X j = ∑ x jk k ∈U donde X j es el valor total de la j-ésima variable auxiliar y x jk es el valor de la j-ésima variable auxiliar en la unidad muestral k. Por tanto, es necesario encontrar un nuevo estimador que cumpla Ŷw = ∑ wk YK k∈s donde se verifique que los nuevos pesos en la unidad muestral k (wk) sean próximos a dk y que se verifique la ecuación ∑w k ∈s k xik = X j . El problema se reduce a encontrar los valores de wk que hagan mínima la expresión ∑d k ∈s k w G k dk con la condición ∑w k ∈s k Xk = X donde - G es la función de distancia. 5 Por ejemplo las proyecciones de Población elaboradas trimestralmente por el INE Siempre que la cantidad de muestra así lo permita 7 Las variables auxiliares que se usan vienen dadas por la población de 16 o más años: según sexo, grupos de edad y CCAA; según CCAA y nacionalidad (española/extranjera); según provincias; y población menor de 16 años por provincias 6 Ana Gema Galera Pozo 21 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores X k es el vector de dimensión J con los valores de las J variables auxiliares en la - unidad muestral k. X es el vector de dimensión J con los valores de las J variables auxiliares. - En resumen, si en la encuesta se parte de una muestra de tamaño k, llamando pesos o factores de elevación originales de dimensión k x 1 y d k al vector de wk al vector homólogo de pesos o factores de elevación transformados, aplicando el proceso de reponderación se dará lugar a una relación funcional donde los nuevos pesos van a ser función de los originales y de las variables auxiliares elegidas. Tal y como se explica anteriormente, el problema se reducía a encontrar los valores de wk que minimicen la función de distancia ∑d k ∈s k w G k dk con la condición ∑w k ∈s k Xk = X La EPA ha optado por utilizar la función de distancia lineal w = d (1 + u ) truncada para obtener sólo soluciones positivas en los sistemas de ecuaciones y para aprovechar las propiedades del estimador de regresión, de pequeña varianza y mínimo sesgo. Los valores wk que se obtienen son los nuevos factores de elevación que se utilizan para obtener las diferentes características de la fuerza de trabajo elevada a la población total. Estos valores wk son los que utiliza el INE para dar datos respecto de la totalidad de la población y son los que se incluyen en los ficheros de microdatos. Con los estimadores actuales utilizados en la EPA se estima correctamente la población por grupo de edad y sexo y el total de españoles y extranjeros mayores de 16 años por Comunidad Autónoma. Errores de muestreo Para el cálculo de los errores muestrales de las estimaciones, la EPA utiliza el método de semimuestras reiteradas. El método consiste en extraer submuestras aleatorias de tamaño n/2 obteniendo así la primera semimuestra. Se repone la semimuestra obtenida y se repite el proceso k veces para obtener Ana Gema Galera Pozo 22 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores las k semimuestras reiteradas. Se calculan las estimaciones en cada semimuestra y en la muestra total. El estimador de la varianza vendrá dado por: 1 k Vˆ = ∑ (Yˆi −Yˆ ) 2 k i =1 La EPA utiliza 40 reiteraciones, es decir k=40 A medida que se desagrega más la información, ya sea por detallar los valores de las variables, por realizar desagregaciones territoriales o por cruzar varias variables, aumentan los errores de muestreo. Por ello, el INE recomienda que aquellos valores inferiores a 5.000 personas (después de haber sido ponderados), o las tasas e indicadores derivados de los mismos, deben tomarse con precaución pues están sometidos a fuertes errores de muestreo. Ana Gema Galera Pozo 23 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4. MODELOS DE RESPUESTA DISCRETA Se denomina modelos de respuesta discreta a aquellos modelos en los que la variable dependiente toma un conjunto discreto y finito de valores: 0, 1, 2,... Estos modelos reflejan las diferentes opciones o alternativas cualitativas, excluyentes entre sí, que pueden darse en una variable. En los modelos de respuesta binaria la variable que se quiere estudiar sólo tiene dos alternativas y el hecho de pertenecer a una u otra categoría depende de características identificables. En esta situación, la variable dependiente toma solamente dos valores Y={0, 1} . Cuando la variable de estudio tiene varios valores discretos, el modelo recibe el nombre de modelo de respuesta multinomial. En esta situación la variable dependiente toma tantos valores como categorías haya Y={0, 1, 2,…} La variable dependiente, Y, es categórica y los valores que toma son las distintas características que puede tomar un individuo. Así por ejemplo, si la variable que se desea estudiar es la relación con la actividad económica de un individuo, ésta podía tomar los valores tales como ocupado, parado o inactivo. En este caso la variable de interés es: Y “Relación con la actividad económica de un individuo” La variable tomaría tres valores distintos que podrían codificarse como Y= {0,1,2} 0: Parado 1: Ocupado 2: Inactivo Si nos centramos en el estudio de los modelos de elección discreta binaria, esto es: el individuo sólo puede pertenecer a dos colectivos que son mutuamente excluyentes; la variable de estudio, Y, es categórica y toma dos únicos valores numéricos, normalmente 0 y 1. Un ejemplo podría ser el análisis de si un individuo es activo o no (es decir, inactivo). En este caso la variable dependiente es: Y “El individuo es activo o inactivo” La variable tomaría solamente dos valores Y= {0,1} 0: Inactivo 1: Activo Los modelos de regresión tienen como objetivo describir el efecto de una o más variables (independientes) sobre una o más variables de respuesta (dependientes). En los casos donde la variable respuesta es discreta, los modelos tienen por objetivo pronosticar la pertenencia a un grupo a partir de una serie de variables independientes. La herramienta estadística apropiada para modelizar su comportamiento serán los Modelos de Respuesta Discreta. Ana Gema Galera Pozo 24 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Los modelos de regresión más utilizados en estos casos son los modelos de regresión logística (logit) que serán los que utilizaremos en los siguientes apartados. 4.1. Modelos de regresión logística binaria 4.1.1. Modelos logit con variables explicativas cuantitativas Partimos del modelo en el que se quiere explicar una variable aleatoria de respuesta binaria con dos posibles categorías. Si se representan las dos opciones de la variable Y por los valores 1 y 0, entonces Y sigue una distribución Bernoulli de media E[Y ] = P[Y = 1] = p (0<p<1). Por tanto, la probabilidad de que Y=0 es P[Y = 0] = 1 − p . Si consideramos R variables explicativas cuantitativas no aleatorias ( X 1 , X 2 ,..., X R ) , entonces la distribución de Y condicionada a cada combinación de valores observados de las variables explicativas tendrá también distribución Bernouilli con esperanza E[Y / X 1 = x1 ,..., X R = x R ] = P[Y = 1 / X 1 = x1 ,..., X R = xR ] = p( x1 ,..., xR ) . Y la varianza será Var[Y / X 1 = x1 ,..., X R = x R ] = p( x1 ,..., x R )(1 − p ( x1 ,..., x R )) . Así, p( x1 ,..., x R ) representa la probabilidad de Y=1 respecto de los valores de las variables explicativas. Si denotamos por Y (x ) a la distribución de Y condicionada a los valores observados de las variables explicativas, el objetivo será construir el modelo adecuado para que Y ( x ) = F ( βx ' ) + u donde β = ( β 0 , β1 ,..., β R )' es un vector de parámetros, valores observados de las variables explicativas y x = ( x0 , x1 ,..., x R )' es el vector de u son los errores que representan variables aleatorias no observables, independientes con esperanza cero y cuya distribución es también una Bernoulli. Ana Gema Galera Pozo 25 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España Dado que los factores u tiene esperanza cero, se tiene [ ] E [Y / X = x ] = E F ( β x ' ) + E [u ] = F ( β x ' ) = p ( x) 0 Dependiendo de la forma funcional concreta que adopte F ( β x ' ) se obtienen distintos modelos de respuesta binaria. En los modelos logit, que se estudian para este se trabajo, se tiene la siguiente expresión: R p( x1 , x 2 ,..., x R ) = exp(β 0 + ∑ β r x r ) r =1 R 1 + exp(β 0 + ∑ β r x r ) = r =1 donde β0 1 R 1 + exp(−( β 0 + ∑ β r x r )) r =1 es el término independiente del modelo y Para simplificar la notación llamaremos X βr al vector es el coeficiente de la variable ( X 0 , X 1 , X 2 ,..., X R ) con XR . X 0 = 1, entonces R p( x ) = exp( ∑ β r xr ) r =0 R 1 + exp(∑ β r xr ) r =0 = 1 R 1 + exp( −∑ β r xr )) r =0 . El modelolo logit se puede interpretar en términos probabilísticos, es decir, la probabilidad de que suceda Y =1 bajo ciertos valores de las variables X . En cuanto a la interpretación de los parámetros βr, el signo indica el sentido del cambio en la probabilidad cuando aumenta la variable correspondiente, aunque no su cuantía. En estos modelos, al suponer una relación no lineal entre las variables explicativas y la probabilidad de ocurrencia del acontecimiento, cuando aumenta en una unidad la variable explicativa los incrementos en la probabilidad no son siempre iguales ya que dependen del nivel original de la misma. Aunque la ecuación inicial del modelo es de tipo exponencial, se puede realizar su transformación logarítmica (logit), dada por p( x) R ln = ∑ β r xr 1 − p ( x) r =0 Ana Gema Galera Pozo 26 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España donde los factores p( x) representa la ventaja de respuesta Y = 1 para el vector de valores observados 1 − p( x) x = ( x0 , x1 ,..., x R )' , de las variables ( X 0 , X 1 , X 2 ,..., X R ) , y que nos permite dar una interpretación más sencilla de los parámetros del modelo. - Si βr es igual a 0 entonces la variable Y es independiente de la variable XR - Si βr es mayor que 0, entonces p(x) aumenta cuando aumenta XR - Si βr es menor que 0, entonces p(x) aumenta cuando disminuye XR - β0 es el valor del logaritmo de la ventaja de respuesta Y = 1 para un individuo X1=X2=…=XR=0, o cuando la respuesta es independiente de las variables explicativas β1= β2=…= βr=0 Los gráficos que se muestran a continuación representan la curva logística para un modelo simple, con una sola variable explicativa, cuando el parámetro β asociado a la variable X es positivo (Figura 3) y cuando éste es negativo (Figura 4). Figura 3: Curva logística para β>0 Figura 4: Curva logística para β<0 Una interpretación más intuitiva viene dada por las exponenciales de los parámetros asociados a las variables explicativas. En concreto, frente a exp(β r ) representa el cociente de ventajas de Y = 1 Y = 0 cuando xr aumenta en una unidad y el resto de variables permanecen constantes. Como ejemplo, si definimos una variable X l y la incrementamos en una unidad ( X l + 1 ), y las restantes R-1 variables las mantenemos fijas, entonces el cociente de ventajas de respuesta Y = 1 para las dos combinaciones de valores de las variables explicativas x1=(1,x1,…, xl,…, xR)’ y x2 =(1,x1,…, xl+1,…, xR)’, es: Ana Gema Galera Pozo 27 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores p ( x1 ) 1 − p ( x1 ) exp( β 0 + β 1 x1 + ... + β l ( x + 1) + ... + β R x R = = exp (β l (( x l + 1) − x l )) = exp (β l ) p( x 2 ) exp( β 0 + β 1 x1 + ... + β l x + ... + β R x R 1 − p( x 2 ) Concretamente, si exp( β l ) =1, equivale a que β l = 0 indicando que la variable asociada al parámetro no afecta al valor de la respuesta. 4.1.2. Modelos logit con variables explicativas cualitativas En ocasiones, las variables disponibles para explicar la variable de respuesta discreta son variables cualitativas con distintas categorías de clasificación. Por ejemplo, en los modelo que se quieren estudiar en este trabajo, se tiene la variable sexo con dos categorías (hombremujer), o la variable ‘nivel de estudios’ con siete categorías diferentes. En estos casos es necesario definir nuevas variables artificiales que servirán para pasar de una categoría a otra. Supongamos una variable cualitativa A con k categorías, entonces es necesario definir k-1 variables artificiales asociadas a las categorías de clasificación. Existen varios métodos para la codificación de las variables, pero en este estudio nos vamos a centrar en el método parcial que será el que utilicemos en nuestra investigación. Este método realiza la codificación de las variables respecto a una categoría de referencia. La categoría de referencia tendrá valor 0 para todas las variables artificiales asociadas al resto de categorías. Asociada al resto de categorías se creará la variable artificial que se codifica como 1 para su categoría y 0 para el resto. Por ejemplo, si para la variable “nivel de estudios” se definen las siguientes categorías: - Sin estudios - Estudios de primaria - Estudios de secundaria - Estudios de FP - Estudios superiores Y se toma como variable de referencia la primera de ellas, ‘sin estudios’, entonces la codificación de las variables quedará del siguiente modo: 0 1 Estudios secundaria 0 0 0 0 Estudios superiores 0 0 0 1 0 0 0 0 1 0 0 0 0 1 Estudios primaria Sin estudios Estudios primaria Estudios secundaria Estudios FP Estudios superiores Estudios FP Ana Gema Galera Pozo 28 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Finalmente se habrán creado cuatro variables artificiales que podrán tomar valor 0 ó 1. Por tanto y de manera general, la m-enésima variable de diseño va asociada con las categorías Am y se define 1, k = m A X km = X mA ( A = Ak ) = 0, k ≠ m ∀m = 2,..., K ; k = 1,..., K . Entonces, la probabilidad de respuesta de Y=1 para un individuo clasificado en la categoría Ak de la variable cualitativa A es p k = P[Y = 1 / A = Ak ] . El modelo logit para una variable categórica definida de este modo será k p A Lk = ln k = β 0 + ∑τ mA X km . 1 − p m=2 k Se obtiene un parámetro asociado a cada una de las variables artificiales tal y como se observa en la expresión. Equivalentemente el modelo se puede expresar como p Lk = ln k = β0 + τ kA 1 − pk para en este caso, la exponencial de β0 k = 1,..., K y con τ 1A =0 es la ventaja de respuesta Y = 1 para la categoría de referencia de la variable A . Para la interpretación de los parámetros asociados a las variables artificiales podemos usar los cocientes de ventajas del mismo modo que en el caso de variables continuas θ k1 Pk 1 − Pk exp( β 0 + τ kA ) exp( β 0 )·exp( τ kA ) = = = = exp(τ kA ) P1 exp( β 0 ) exp( β 0 ) 1 − P1 . θ k1 =exp( τ kA ) representa el cociente de ventajas de la respuesta de Y = 1 para la observación o el individuo con categoría k frente a la categoría de referencia, que en este caso es la primera de ellas . Si consideramos ahora más de una variable cualitativa, por ejemplo, N variables explicativas categóricas del siguiente modo: A1: A11….A1K1; con K1 categorías y con variables diseñadas X 2A1 ,..., X KA11 A2: A21….A2K2; con K2 categorías y con variables diseñadas X 2A 2 ,..., X KA 22 . . . AN AN: AN1….ANKN; con KN categorías y con variables diseñadas X 2AN ,..., X KN Ana Gema Galera Pozo 29 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores entonces, la probabilidad de respuesta de Y=1 en cada combinación de niveles de las variables cualitativas es P[Y = 1 / A1 = A1k 1 , A2 = A2 k 2 ,..., AN = AN kn ] = p k 1, k 2... kn Para obtener el modelo de regresión logística y utilizando el método parcial para la codificación, se definen K1 − 1 variables artificiales para la variable A1 K 2 − 1 variables artificiales para la variable A2 . . . KN − 1 variables artificiales para la variable AN por lo que el modelo de regresión logística se construye con (K1+K2+…+KN – N) variables explicativas del siguiente modo: K1 K2 KN p k1, k 2,...kn A1 A1 A2 A2 ln = β + τ X + τ X + ... + τ knAN X knAN ∑ ∑ ∑ k1 k1 k2 k2 0 k 1= 2 k 2= 2 kn = 2 1 − p k1,k 2,...kn donde k1=1,…,K1; k2=1,…,K2; … ; kn=1,…,KN. Equivalentemente el modelo se puede expresar como p k1,k 2,...kn A1 A2 AN ln = β 0 + τ k1 + τ k 2 + ... + τ kN p 1 − k 1, k 2,...kn para k1=1,…,K1; k2=1,…,K2; … ; kn=1,…,KN y con τ 1A1 = τ 1A 2 = ... = τ 1AN =0 La interpretación de las exponenciales será la siguiente: - La exponencial de β0 es la ventaja de respuesta Y=1 para cuando las N variables toman el valor de las categorías de referencia. - La exponencial de exp( τ k 1 ) es A1 p k1,k 2...kn exp(τ kA11 ) = 1 − p k 1,k 2...kn p1,k 2...kn 1 − p1,k 2..kn que representa el cociente de ventajas de la respuesta Y=1 de la categoría A1k1 respecto de la categoría de referencia de esta variable (A11). - La exponencial de exp( τ k 2 ) es A2 Ana Gema Galera Pozo 30 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores p k1,k 2...kn exp(τ kA22 ) = 1 − p k 1,k 2...kn p k1,1...kn 1 − p k 1,1...kn que representa el cociente de ventajas de la respuesta Y=1 de la categoría A2k2 respecto de la categoría de referencia de esta variable (A21). - La exponencial de exp( τ kn ) es AN p k 1, k 2...kn exp(τ knAN ) = 1 − p k 1,k 2..kn p k1, k 2...1 1 − p k 1,k 2...1 que representa el cociente de ventajas de la respuesta Y=1 de la categoría ANkn respecto de la categoría de referencia de esta variable (AN1). 4.2. Modelos de regresión logística multinomial 4.2.1. Formulación del modelo En esta sección partimos de una variable dependiente discreta Y , con más de dos categorías de respuesta, y denotadas por Y1 , Y2 ,..., Ys . El objetivo es explicar la probabilidad de tomar una de las posibles categorías de la variable respuesta en función de una serie de variables X=(X1, X2, …, XR)’, es decir E[Y = Ys / X = x] = p s ( x) . En esta situación la variable respuesta es politómica por lo que Y sigue una distribución multinomial: Y → M(1; p1 (x), p 2 (x),…, p S (x)) y se verifica que S ∑ p ( x) = 1 . s =1 s En el caso de que la variable respuesta sea nominal, el modelo de regresión logística se formula mediante varios logits simultáneamente para realizar comparaciones de cada par de categorías de la variable dependiente. Se realiza uno para cada una de las restantes categorías respecto a una categoría de referencia que se haya considerado de la variable dependiente. Es decir, se realizan S-1 comparaciones. Así por ejemplo, si la variable dependiente es: Y → ‘Relación con la actividad económica’ Que tiene tres categorías - Parados Ana Gema Galera Pozo 31 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España - Ocupados - Inactivos los factores entonces, si tomamos como categoría de referencia la primera ‘parados’, se realizarán los siguientes dos logit: - Logit (Ocupados/Parados). - Logit (Inactivos/Parados). La trasformación logit generalizada se define como: p ( x) ln s = Ls ( x) p1 ( x) ∀s = 2,3,..., S En el caso de que tengamos R variables explicativas R p s ( x) ln = Ls ( x) = ∑ β rs x r = x´β s r =0 p1 ( x) siendo x = ( x0 , x1 , x 2 ,..., x R )' con x0 =1 ( X 1 , X 2 ,..., X R ) , el modelo es de la forma ∀s = 2,3,..., S y β s = (β 0 s , β1s ,..., β Rs )' Para las probabilidades de respuesta podemos escribir el modelo de la siguiente forma: R p s ( x) = exp(∑ β rs x r ) r =0 ∀s = 2,3,..., S , R 1 + ∑ exp ∑ β rs x r s =2 r =0 S y para la categoría de referencia el modelo será el siguiente: p1 ( x) = 1 . R 1 + ∑ exp ∑ β rs x r s=2 r =0 S 4.2.2. Interpretación de los parámetros La interpretación de los parámetros del modelo va a depender del tipo que sean las variables explicativas (cuantitativas o cualitativas) que a continuación se detallan: - Si tenemos sólo una variable explicativa cuantitativa las exponenciales de los parámetros βs asociados a la variable se interpretan como la ventaja de la respuesta Ys frente a Y1 cuando se incrementa en una unidad la variable explicativa X Ana Gema Galera Pozo 32 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ps ( x + 1) p ( x + 1) exp(α s + β s ( x + 1)) = = exp(β s ) θ s (∆X = 1) = 1 ps ( x) exp(α s + β s x) p1 ( x) - Si tenemos múltiples variables cuantitativas ( X 1 , X 2 ,..., X R ) , entonces las exponenciales de los parámetros asociados a las distintas variables muestran el cociente de ventajas de Ys frente a la categoría de referencia Y1 incrementa en una unidad la variable asociada al parámetro, cuando se X l , y se mantienen fijas las demás P[Y = Ys / X l = xl + 1, X r = x r , r ≠ l ] P[Y = Y1 / X l = xl + 1, X r = x r , r ≠ l ] θ s (∆X l = 1 / X r = x r , r ≠ l ) = ⇒ P[Y = Ys / X l = xl , X r = x r , r ≠ l ] P[Y = Y1 / X l = xl , X r = x r , r ≠ l ] ⇒ θ s (∆X l = 1 / X r = x r , r ≠ l ) = exp(β ls ) ∀s = 2,3,..., S - Cuando en el modelo hay variables explicativas categóricas, éstas se introducen mediante sus variables de diseño asociadas utilizando el método parcial, por ejemplo, que explicamos en el punto 4.1.2. Supongamos la variable categórica A con categorías A1,…,Ak. Utilizando el método parcial se obtienen K-1 variables nuevas que se denotan como X kA (k = 2,..., K ) . Así, el modelo de regresión logística multinomial generalizado que obtenemos sigue siendo un modelo lineal, como en los casos anteriores, para cada logit generalizado en función de esas variables de diseño K p Ls / k = ln s / k = β 0 s + ∑τ ksA X ksA k =2 pS / k donde k = 1,..., K ; s = 2,..., S p s / k es la probabilidad de respuesta Ys en la categoría Ak. El modelo se puede escribir equivalente como p Ls / k = ln s / k = β 0 s + τ ks pS / k siendo τ 1s = 0 k = 1,..., K ; s = 2,..., S ∀s = 2,3,..., S Ana Gema Galera Pozo 33 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Las exponenciales de los parámetros se interpretan como el cociente de ventajas de respuesta Ys frente a la categoría de referencia Y1 , para la categoría Ak de A respecto a la primera categoría A1 θ s / k1 ps / k p exp(β 0 s + τ ks ) exp(β 0 s )·exp(τ ks ) = 1/ k = = = exp(τ ks ) . ps /1 exp(β 0 s ) exp(β 0 s ) p1 / 1 4.3. Ajuste del modelo logit para datos con ponderaciones A continuación se va a abordar el problema de la estimación de los parámetros del modelo que están asociados a las variables explicativas. El método más utilizado en regresión logística es el método de Máxima Verosimilitud (MV). Dado que el diseño muestral de la EPA no es un muestreo aleatorio simple, tendremos que tener en cuenta los factores de elevación asociadas a cada individuo incluido en la muestra y que es lo que determina el peso de cada registro en la muestra. Estos pesos nos sirven para elevar los datos a la población total de España y hacer estimaciones de ésta. El tratamiento de los conjuntos de datos obtenido mediante un muestreo distinto del aleatorio simple para modelos como el de regresión logística arranca en el muestreo endógeno y se remonta a McFadden (1973). Sin embargo, los trabajos de Manski y Lerman (1977) y, posteriormente, Cosslett (1981), establecieron los principales resultados respecto a la estimación mediante el método de máxima verosimilitud cuando hay que tener en cuenta la ponderación de los datos. Butler (2000) demuestra que para el caso de regresión logística donde los estimadores de MV coinciden con los obtenidos por el método generalizado de los momentos, las varianzas son menores si no se tienen en cuenta las ponderaciones que corrigen el diseño muestral. Por ello, es necesario que tengamos en cuenta los factores de elevación poblacionales que se incluyen en la EPA ya que en caso contrario podríamos aceptar la significación o no de variables que a nivel de población su efecto puede ser el contrario. Usamos el método de máxima verosimilitud ponderada para la estimación de los parámetros a partir de la siguiente función: R exp( xir β r ) ∑ n 1 = 0 r L( β ) = ∑ wi y i ln + (1 − y i ) ln R R i =1 1 + exp( x β ) 1 + exp( x β ) ∑ ∑ ir r ir r r =0 r =0 Ana Gema Galera Pozo 34 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores donde wi son los factores de población con los que se pondera cada individuos de la muestra y n se cumple que ∑w i =1 muestra de tamaño i es igual a la población total de España. Por tanto, cada individuo i de la n , tiene asociado un valor de ponderación wi . Recordemos que tenemos R variables explicativas que se incluyen en el modelo por lo que se estiman R+1 parámetros, donde β es el vector de dichos parámetros ( β 0 , β 1 ,..., β r )' e yi es el valor que toma el individuo i en la variable Y (1 ó 0 en el caso de regresión logística binaria). Desarrollamos la expresión anterior se tiene R exp( xir β r ) ∑ n 1 r = 0 = L( β ) = ∑ wi y i ln + (1 − y i ) ln R R i =1 1 + exp(∑ xir β r ) 1 + exp(∑ xir β r ) r =0 r =0 R exp( xir β r ) ∑ n 1 r =0 + wi ln wi y i ln ∑ R R i =1 1 + exp(∑ xir β r ) 1 + exp(∑ xir β r ) r =0 r =0 n 1 − ∑ wi y i ln R i =1 1 + exp(∑ xir β r i ) r =0 (1) Aplicamos las propiedades de los logaritmos R exp( xir β r ) n ∑ n 1 r =0 = wi y i ln − ∑ wi y i ln ∑ R R i =1 i =1 1 + exp(∑ xir β r ) 1 + exp(∑ xir β r ) r =0 r =0 R exp(∑ xir β r ) n n R 1 r =0 = w y ln(exp( w y ln : xir β r )) = ∑ ∑ i i i i R R ∑ i =1 i =1 r =0 1 + exp(∑ xir β r ) 1 + exp(∑ xir β r ) r =0 r =0 n R ∑∑ i =1 r = 0 wi y i xir β r i La expresión (1) queda expresada como Ana Gema Galera Pozo 35 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España n los factores 1 . (2) wi y i xir β r i + ∑ wi ln R i =1 1 + exp(∑ xir β r ) r =0 R n L( β ) = ∑∑ i =1 r = 0 n R 1 = − ln1 + exp( Además, sabemos que ln xir β r ) ∑ ∑ R i =1 r =0 1 + exp(∑ xir β r ) r =0 por tanto, la expresión (2) queda expresada finalmente como n R n n R L( β ) = ∑∑ wi y i xir β r i − ∑ wi ln1 + ∑ exp(∑ xir β r ) (3) i =1 r = 0 i =1 i =1 r =0 Derivando respecto de cada uno de los parámetros R exp ∑ β r xir n n ∆L( β ) r =0 = ∑ wi y i xir − ∑ wi xir R ∆β r i =1 i =1 1 + exp ∑ β r xir r =0 e igualando a cero se obtienen las ecuaciones máximo verosímiles βˆ r para los parámetros n n i =1 i =1 βr ∑ wi yi xir − ∑ wi xir pˆ i = 0 R exp ∑ βˆ r xir r =0 es el estimados MV de p ˆi = donde p i. R ˆ 1 + exp ∑ β r xir r =0 Para la estimación máxima verosimilitud de los parámetros se requiere el uso de métodos de solución iterativa como el de Newton-Raphson que proporciona la siguiente fórmula de estimación iterativa: β ( t ) = β ( t −1) − ( H (t −1) ) −1 D ( t −1) La expresión depende de los valores de D y H. D es la primera deriva de L( β ) que se obtenia anteriormente como n n n i =1 i =1 i =1 ( ) D (t −1) = ∑ wi yi xir − ∑ wi xir pˆ i =∑ yi − pˆ i(t −1) wi xir . Ana Gema Galera Pozo 36 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España Para obtener H calculamos la segunda derivada los factores de L( β ) R β exp x ∑ r ir n ∆2 L( β ) ∆ n r = 0 = = wi y i xir − ∑ wi xir ∑ R ∆β r ∆β s β r i =1 i =1 β 1 exp x + ∑ r ir 0 r = (4) R exp β x ∑ r ir n r =0 = −∑ wi xir xis 2 i =1 R 1 + exp ∑ β r xir r =0 sabiendo que R exp ∑ β r xir r =0 , pi = R 1 + exp ∑ β r xir r =0 entonces, la expresión (4) se puede poner como n ∆2 L( β ) == −∑ wi xir xis p i (1 − p i ) ∆β r ∆β s i =1 Por tanto: n H (t −1) = −∑ wi xir xis p (t −1) (1 − pi(t −1) ) i =1 Sustituyendo D ( t −1) y H (t −1) en la ecuación β ( t ) = β (t −1) − ( H (t −1) ) −1 D ( t −1) la fórmula de estimación iterativa es β ( t ) = β (t −1) − ( X ' Diag [ wi p i( t −1) (1 − p i(t −1) )] X ) −1 X ' wi ( y i − pˆ i(t −1) ) donde X es la matriz de diseño con R+1 columnas y n filas. R es el número de variables explicativas y n el número de individuos en la muestra. x10 , x11 ,..., x1r ,..., x1R x 20 , x 21 ,..., x 2 r ,..., x 2 R X = ................................ x , x ,..., x ,..., x nr nR n 0 n1 Ana Gema Galera Pozo 37 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Los criterios de convergencia del método iterativo utilizado para la estimación de los parámetros pueden ser varios pero en todos ellos la idea es que: - β (t ) ≈ β (t −1) , o que - L( β ( t ) ) ≈ L( β ( t −1) ) , o que - p it ≈ pit −1 El estimador MV βˆ del vector de parámetros β converge en distribución a una Normal: βˆ → N ( β , Cov( βˆ )) n→∞ Donde la matriz de covarianzas viene dada por la expresión: Cov( βˆ ) = ( X ' Diag[ wi pi( t −1) (1 − pi(t −1) )] X ) −1 4.4. Contrastes de bondad de ajuste en regresión logística binaria Una vez construido el modelo de regresión logística es necesario comprobar como de bueno es el ajuste de los valores pronosticados por el modelo, a los valores observados. Si Q es el número de combinaciones de las variables explicativas e yq es el número de respuestas de Y=1 en la q-ésima combinación, (qué también puede obtenerse como la probabilidad observada de Y=1 en la q-ésima combinación por el número de casos en la combinación q, y q = n q · p q ). Entonces, una vez estimado el modelo se pueden obtener las probabilidades p̂ q (estimadas bajo el modelo), y las frecuencias esperadas que serán mˆ q = n q · pˆ q . Por tanto, el test global de bondad de ajuste contrasta R H 0 : pq = exp(∑ β r x qr ) r =0 R (1 + exp(∑ β r x qr )) ∀q = 1,2,..., Q r =0 frente a la alternativa R H 0 : pq ≠ exp(∑ β r x qr ) r =0 R para algún q. (1 + exp(∑ β r x qr )) r =0 Cuando nq es suficientemente grande, se dispone del test chi-cuadrado de Pearson y del test chi-cuadrado de razón de verosimilitud. Ana Gema Galera Pozo 38 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4.4.1. Test chi-cuadrado de Pearson Este estadístico es de la forma: Q ( y q − n q pˆ q ) 2 q =1 n q pˆ q (1 − pˆ q ) X (M ) = ∑ 2 Q n q ( y q − mˆ q ) 2 q =1 mˆ q (n q − mˆ q ) =∑ . El estadístico tiene distribución asintótica chi-cuadrado con Q-(R+1) grados de libertad. R es el número de parámetros estimados bajo el modelo X 2 ( M ) → χ Q2 −( R +1) nq → ∞ Se rechazará la hipótesis nula al nivel de significación α si se verifica X 2 ( M ) Obs ≥ χ Q2 −( R +1);α o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la derecha del valor observado p − valor = P[ X 2 ( M ) ≥ X 2 ( M ) Obs ] . En este caso se rechaza la hipótesis nula cuando p-valor≤ α 4.4.2. Test chi-cuadrado de razón de verosimilitudes El estadístico de Wilks de razón de verosimilitudes, o conocido también como DEVIANCE, para la regresión logística múltiple es de la forma Q nq − y q G 2 ( M ) = 2 ∑ (n q − y q ) ln n − mˆ q =1 q q Q y + ∑ y q ln q q =1 mˆ q . El estadístico tiene distribución asintótica chi-cuadrada con Q-(R+1) grados de libertad. R es el número de parámetros estimados bajo el modelo G 2 ( M ) → χ Q2 −( R +1) nq → ∞ Se rechazará la hipótesis nula al nivel de significación α si se verifica G 2 ( M ) Obs ≥ χ Q2 −( R +1);α o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la derecha del valor observado p − valor = P[G 2 ( M ) ≥ G 2 ( M ) Obs ] . Se rechaza la hipótesis nula cuando p-valor≤ α Ana Gema Galera Pozo 39 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4.4.3. Test de Hosmer y Lemeshow Cuando no se cumple que nq sea lo suficientemente grande, es decir, cuando el número de frecuencias estimadas en cada combinación de las variables explicativas es pequeño, no se puede asumir la distribución chi-cuadrado. La norma es que el 80% de las frecuencias ˆ q = n q · pˆ q , sean mayores que cinco y todas mayores de 1. Cuando estimadas bajo el modelo, m no se cumple dicha norma, se usa el estadístico de Hosmer y Lemeshow. Este estadístico agrupa adecuadamente los datos en intervalos, por lo que su valor depende fuertemente del número de clases resultantes de la agrupación. Hosmer y Lesmeshow (1989) aconsejan G=10 grupos construidos en base a los deciles de las probabilidades estimadas bajo el modelo. Entonces, si agrupamos en G grupos, se define por g-ésimo grupo, u g n g' al número total de observaciones en el al número de respuestas Y=1 en el g-ésimo grupo y p g a las probabilidades estimadas bajo el modelo para el g-ésimo grupo que se obtiene como la media de las probabilidades p̂ q de los valores de xq en el grupo. El estadístico es de la forma G (u g − n g' p g ) 2 g =1 n g' p g (1 − p g ) H −L=∑ . Este estadístico sí tiene una distribución asintótica chi-cuadrado con G-2 grados de libertad. 4.5. Contrastes de bondad de ajuste en regresión logística multinomial Si Q es el número de combinaciones de las variables explicativas, ys/q es el número de respuestas de Ys en la q-ésima combinación de las variables explicativas. Entonces, una vez estimado el modelo se pueden obtener las probabilidades pˆ s / q , por lo que las frecuencias ˆ s / q = nq · pˆ s / q . esperadas son para este caso m Por tanto, el test global de bondad de ajuste trata de contrastar si las probabilidades observadas son iguales a las porbabilidades estimadas bajo el modelo, es decir, si R H 0 : ps / q = exp(∑ β sr x qr ) r =0 S R s =2 r =0 (1 + ∑ exp(∑ β sr x qr )) ∀q = 1,2,..., Q Ana Gema Galera Pozo 40 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores frente a la alternativa R H 0 : ps / q ≠ exp(∑ β sr x qr ) r =0 para algún q y s. S R s =2 r =0 (1 + ∑ exp(∑ β sr x qr )) En el caso multinomial solo se dispone del test chi-cuadrado de Pearson y del test chi-cuadrado de razón de verosimilitud. 4.5.1. Test de chi-cuadrado de Pearson El estadístico de contraste es de la forma S X (M ) = ∑ s =1 o equivalente, sabiendo que Q ( y s / q − n q pˆ s / q ) 2 q =1 n q pˆ s / q ∑ 2 y s / q = Os / q son las frecuencias observadas y que n q pˆ s / q = E s / q son las frecuencias estimadas bajo el modelo, el estadístico de contraste puede escribirse como S X (M ) = ∑ 2 s =1 Q (Os / q − E s / q ) 2 q =1 Es / q ∑ . Este estadístico sigue una distribución asintótica chi-cuadrado con (Q − R − 1) x ( S − 1) grados de libertad, donde R es el número de paramétros de las variables explicativas en cada combinación, y S es el número de categorías de la variable respuesta. X 2 ( M ) → χ (2Q − R −1) x ( S −1) nq → ∞ Se rechazará la hipótesis nula al nivel de significación α si se verifica X 2 ( M ) Obs ≥ χ (2Q − R −1) x ( S −1);α o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la derecha del valor observado p − valor = P[ X 2 ( M ) ≥ X 2 ( M ) Obs ] . En este caso se rechaza la hipótesis nula cuando p-valor≤ α. Ana Gema Galera Pozo 41 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4.5.2. Test de chi-cuadrado de razón de verosimilitudes El estadístico de contraste es de la forma Q S G ( M ) = 2·∑ ∑y 2 s =1 q =1 s/q ys / q ln n pˆ q s/q o equivalentemente Q S G ( M ) = 2·∑ ∑O 2 s =1 q =1 s/q Os / q ln E s/q Este estadístico sigue una distribución asintótica chi-cuadrado con (Q − R − 1) x ( S − 1) grados de libertad, donde R es el número de paramétros de las variables explicativas en cada combinación y S es el número de categorías de la variable respuesta. G 2 ( M ) → χ (2Q − R −1) x ( S −1) nq → ∞ Se rechazará la hipótesis nula al nivel de significación α si se verifica X 2 ( M ) Obs ≥ χ (2Q − R −1) x ( S −1);α o sabiendo que p − valor = P[ X ( M ) ≥ X ( M ) Obs ] , se rechaza la hipótesis nula cuando 2 p-valor≤ 2 α. 4.6. Medidas globales de bondad de ajuste 4.6.1. Tasas de clasificaciones correctas La tasa de clasificaciones correctas es también una medida de bondad de ajuste que permite obtener la proporción de individuos que se clasifican correctamente por el modelo en su categoría observada de la variable respuesta. Un individuo se clasifica correctamente si la categoría predicha por el modelo coincide con la categoría observada. La tasa de clasificaciones correctas (TCC) se calcula como el cociente entre el número de individuos correctamente clasificados por el modelo y el número total de individuos en la muestra. También se puede obtener la tasa de clasificación correcta en cada categoría de la variable respuesta, realizando el cociente entre el número de individuos correctamente clasificados por el modelo en esa categoría y el número total de individuos observados en dicha categoría. Ana Gema Galera Pozo 42 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores En el caso de regresión logística binaria se escoge un punto de corte p ∈ (0,1) , de modo que a un individuo se le asigna Y=1 si la probabilidad estimada es mayor que ese punto de corte, y 0 si la probabilidad está por debajo de ese valor. Normalmente se suele tomar 0,5 como punto de corte, aunque la librería (ROCR) de R permite obtener un punto de corte óptimo de modo que se maximice la TCC. En el caso multinomial, los individuos se clasifican en aquella categoría donde la probabilidad estimada por el modelo sea más alta. 4.6.2. Curva Roc Para realizar la representación gráfica de la curva es necesario calcular la especificidad y sensibilidad del modelo para distintos puntos de corte. Si partimos de la tabla de clasificaciones correctas Categorías predichas por el modelo Categorías de observación Y=1 Y=0 Y=1 A B Y=0 C D se definen las siguientes tasas: - La tasa de verdaderos positivos (TVP) es el cociente entre los individuos clasificados correctamente en la categoría Y=1 y el total de individuos observados que toman el valor Y=1 (A/(A+B)). - La tasa de falsos positivos (TFP) es igual al número de individuos clasificados como Y=1 por el modelo cuando realmente tienen valor Y=0, y el total de individuos que presentan la categoría Y=0 en las observaciones reales, (C/(C+D)). La especificidad es la probabilidad de que un individuo tome un valor Y=0 cuando su valor real es Y=0, es decir, 1-TFP. La curva de ROC, tal y como se observa en la Figura 5, es la representación de la sensibilidad (tasa de verdaderos positivos) en función de la tasa falsos positivos (1-especificidad) para distintos puntos de corte (cutpoint) en la regresión logística binaria. Ana Gema Galera Pozo 43 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Figura 5: Ejemplo de Curva ROC Si el modelo fuera perfecto, hay una región en la que cualquier punto de corte tiene sensibilidad y especifidad iguales a 1, la curva sólo tiene el punto (0,1). Si el modelo fuera inútil, la sensibilidad (verdaderos positivos) es igual a la proporción de falsos positivos, la curva sería la diagonal de (0,0) a (1,1). Los modelos habituales tienen curvas intermedias. Un parámetro para evaluar la bondad de un modelo logit binario, es el área bajo la curva que tomará valores entre 1 (modelo perfecta) y 0,5 (modelo inútil). Puede demostrarse, (Hanley y McNeil, 1982 y 1983) que este área puede interpretarse como la probabilidad de que ante un par de individuos, uno con Y=1 y el otro con Y=0, el modelo los clasifique correctamente. En consecuencia, las curvas ROC son útiles para conocer el ajuste global de un modelo a través del área bajo la curva, ya que evalúan la capacidad del modelo para discriminar. Finalmente, cuando el área bajo la curva ROC es al menos de 0.7, el modelo logit ajustado se considera preciso con capacidad de discriminación alta. La limitación principal de esta prueba está en su uso ya que sólo contemplan dos categorías de la variable respuesta y no sirve para modelos con variables de respuesta discreta multinomial. 4.6.3. Tasas tipo R2 Para estudiar la calidad del modelo, también pueden obtenerse otras medidas del tipo a R2 que se obtiene en regresión lineal, y que aporta la proporción de variación de los resultados que puede explicarse por el modelo. En el caso de variables de repuesta discreta se han definido otras que son análogas pero que no llegan a ser tan útiles como ésta. En regresión logística se proponen, entre otras, las siguientes: Ana Gema Galera Pozo 44 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España - los factores R2 de Cox y Snell Sea V0 el máximo de la verosimilitud bajo el modelo con sólo la constante y VM el máximo verosimilitud del modelo ajustado con todos los parámetros, entonces: R 2 CN V = 1 − 0 VM Si llamamos 2/ N ΛM a la deviance del modelo ajustado y sólo la constante, entonces Λ 0 a la desviance del modelo con Λ M = −2 ln(VM ) y Λ 0 = −2 ln(V0 ) , por lo que R2 de Cox y Snell se puede expresar como R 2 CN Λ − Λ0 = 1 − exp M N 2/ N Aunque esta medida esté acotada entre 0 y 1, no toma necesariamente 1 como valor máximo, sino 2 max RCN = 1 − (V0 ) 2/ N − Λ0 = 1 − exp N Además, si hay pocos datos puede tomar un valor cercano a 0. No obstante éste puede ajustarse para que tome como máximo el valor 1 con R2 de Nagelkerke. - R2 de Nagelkerke R N2 = 2 RCN 2 max RCN Este coeficiente puede interpretarse del mismo modo que el coeficiente de determinación de la regresión lineal clásica, aunque es más difícil que alcance valores cercanos a 1. 4.7. Contrastes sobre los parámetros del modelo Una vez ajustado el modelo también es necesario estudiar la significación estadística de los parámetros obtenidos. En esta sección se van a considerar los contrastes de hipótesis para estudiar si las variables regresoras que se introdujeron en el modelo son realmente necesarias o explicativas. Es decir, se quiere contrastar si un subconjunto de parámetros, βr en el caso binomial o βrs en el caso multinomial, que se denotará como β=(β1, β2, …, βl)’, es nulo. Por tanto, la hipótesis del modelo será H0 : β = 0 H1 : β ≠ 0 . Ana Gema Galera Pozo 45 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 4.7.1. Contraste de Wald Estos contrastes están basados en la normalidad asintótica de los estimadores de máxima verosimilitud. Si queremos contrastar si el parámetro βr asociado a una variable explicativa es cero H0 : βr = 0 H1 : β r ≠ 0 Wald demostró que el estadístico: βˆ r2 W1 = 2 σ ( βˆ r ) → χ1 . Bajo la hipótesis nula tiene distribución chi-cuadrado asintótica con 1 grado de libertad por ser el cuadrado de una normal estándar. Por lo tanto, también se puede usar el estadístico W2 = βˆ r S .E ( βˆ r ) → N (0,1) Qué bajo la hipótesis nula sigue una distribución normal de media 0 y desviación típica 1. Se rechazará la hipótesis nula al nivel de significación - Si usamos W1 , cuando W1obs ≥ χ1;α - Si usamos W2 , cuando | W2 |≥ z α / 2 . α cuando se verifique lo siguiente: . Si se obtiene significación, entonces el coeficiente es diferente de 0 y la variable asociada está relacionada significativamente con la respuesta. Sin embargo, la ausencia de significación puede indicar que la variable asociada al parámetro es independiente a la variable de respuesta discreta que se está estudiando. En modelos con errores estándar grandes, el estadístico de Wald puede proporcional falsas ausencias de significación. Tampoco es recomendable su uso si se están empleando variables de diseño. En estos casos se recomienda el uso del test de razón de verosimilitudes. 4.7.2. Contrastes condicionales de razón de verosimilitudes Este test se basa en ir eliminando parámetros asociados a las variables independientes del modelo ajustado y comprobar si el nuevo modelo obtenido, sin la variable asociada al parámetro eliminado, se ajusta peor. La ausencia de significación del contraste indica que el modelo sin la variable no es peor, por lo que se acepta que el parámetro asociado a esa variable puede ser nulo. Supongamos que MG es un modelo de regresión logística que se ajusta bien y se quiere contrastar que los parámetros β=(β1, β2, …, βl)’, son nulos. Ana Gema Galera Pozo 46 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Entonces, si denotamos por MP al modelo más simple que resulta de hacer ceros estos parámetros en MG, la hipótesis que se contrasta se puede expresar como H 0 : β = 0 (MP se verifica) H 1 : β ≠ 0 asumiendo cierto MG. El estadístico de razón de verosimilitudes condicional es de la forma G 2 ( M p / M G ) = −2( L p − LG ) = G 2 ( M p ) − G 2 ( M G ) donde LP, LG son los máximos de la log-verosimilitud bajo el modelo MP y MG respectivamente. Observemos que el estadístico del contraste es la diferencia entre las deviances de la bondad de ajuste para cada modelo. Además este estadístico tiene distribución chi-cuadrado con l 2 grados de libertad igual a la diferencia de grados de libertad de la distribución G de ambos modelos G 2 (M p / M G ) χ l2 → La hipótesis nula se rechazará al nivel de significación α igual que el cuantil de orden (1- α ) de la distribución χ l2 . . cuando G 2 ( M p / M G ) sea mayor o Para los procedimientos de selección de variables es aconsejable el uso del test de razón de verosimilitudes que proporciona mejores resultados y más potentes que el test de Wald. 4.8. Intervalos de confianza Cuando se obtienen los parámetros del modelo es necesario realizar inferencia para indicar la precisión de los mismos a través de los intervalos de confianza. Para obtener estos intervalos de confianza a un nivel de confianza de 1- α nos basaremos en la distribución normal asintótica de los estimadores MV. Intervalos de confianza para los parámetros Para la construcción de un intervalo de confianza de nivel recordamos la distribución asintótica de β̂ r 1 − α para un parámetro β r β̂ r → N (β r , σˆ 2 (βˆ r )) entonces βˆ − β r P − zα / 2 ≤ r ≤ zα / 2 = 1 − α σˆ (βˆ r ) Ana Gema Galera Pozo 47 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores de donde se obtiene el intervalo de confianza βˆ r ± zα / 2σˆ ( βˆ r ) Intervalos de confianza para los cocientes de ventajas Sabemos que los cocientes de ventajas vienen dados por la exponencial de los parámetros exp( βˆr ) y que éstos facilitan la interpretación de los βˆr asociados a las variables del modelo. Por ello, es también interesante obtener intervalos de confianza de nivel 1 − α para dichas exponenciales para dotar de mayor precisión a las interpretaciones. En este caso tomamos exponenciales en el intervalo obtenido para cada uno de los parámetros, y así construimos el intervalo de confianza para dichos cocientes de ventajas exp(βˆ r ± zα / 2σˆ ( βˆ r )) . 4.9. Residuos y medidas de influencia en los modelos de regresión logística binaria Los contrastes de bondad de ajuste del modelo son medidas para evaluar la calidad global del ajuste, pero también es necesario evaluar la bondad del ajuste observación a observación. El estudio de los residuos en los modelos de regresión logística compara el número de las observaciones de éxitos en todas las combinaciones posibles de las variables explicativas frente al número de éxitos estimado bajo el modelo en esas mismas combinaciones de las variables explicativas. A continuación, veamos los tipos de residuos más habituales que se basan en los estadísticos X2 y G2, y que se definen en cada combinación de valores de las variables explicativas. 4.9.1. Residuos de Pearson Vienen dados por la siguiente expresión: rq = [n y q − nq pˆ q q ] 1/ 2 pˆ q (1 − pˆ q ) . Obsérvese que el estadístico X2 se calcula como Ana Gema Galera Pozo 48 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Q X = ∑ rq2 2 q =1 . El test que queremos contrastar es si el residuo es significativamente igual a cero, es decir H 0 : rq = 0 H 1 : rq ≠ 0 Bajo esta hipótesis el residuo tiene distribución asintótica normal con media cero y varianza estimada σ 2 (rq ) < 1 , es decir que los residuos tienen menor variabilidad que una variable aleatoria estándar, pero suelen ser tratados como normales estándar, considerándose significativos y que existe falta de ajuste cuando sus valores absolutos son mayores que 2. Para evitar ese problema se usan los residuos de Pearson ajustados y que vienen dados por la siguiente expresión: rSq = rq [1 − h ] 1/ 2 qq donde hqq es el elemento diagonal de la matriz 1 2 −1 H = W X ( X 'WX ) X 'W 1 2 con W = Diag [ n q wq pˆ q (1 − pˆ q )] . wq es el peso o factor de elevación de la combinación q. Como en cada combinación de variables cada individuo tiene un peso diferente, entonces I wq = ∑ wi , siendo I el número total de individuos en la combinación q. i =1 Bajo la hipótesis nula, r S q tiene distribución N(0,1) por lo que la hipótesis se rechazará, y diremos que el residuo es significativamente distinto de cero a un nivel de significación α, cuando se cumpla | r S q |≥ zα / 2 . Por el contrario, el residuo será significativamente igual a cero si se cumple | r S q |< zα / 2 . 4.9.2. Residuos de la devianza El cálculo del residuo de la deviance es de la forma 1 yq d q = signo( y q − mˆ q ) 2 y q ln mˆ q n − yq + (nq − y q ) ln q n − mˆ q q 2 . Ana Gema Galera Pozo 49 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ˆ q ) es -1 cuando la frecuencia observada (yq) es menor que la La función signo ( y q − m estimada (mq) y +1 cuando yq es mayor que mq. Obsérvese que el estadístico G2 se calcula como Q G 2 = ∑ d q2 . q =1 El residuo de la deviance, bajo la hipótesis nula, tiene distribución asintóticamente normal con media 0 y varianza estimada σ 2 (d q ) < 1 . También en este caso se puede obtener los residuos de la devianza ajustados dSq = dq [1 − h ] 1/ 2 qq que bajo la hipótesis nula d S q tiene distribución N(0,1). Por tanto, la hipótesis se rechazará y diremos que el residuo es significativamente distinto de cero, a un nivel de significación α cuando se cumpla: | d S q |≥ zα / 2 . 4.9.3. Medidas de influencia Si se detectan residuos significativamente distintos de 0, debemos estudiar su influencia sobre el modelo mediante las distancias de Cook. La distancia de Cook es una prueba útil para la identificación de puntos influyentes. En la literatura existente se consideran como puntos influyentes, aquellos que presentan un valor de distancia de cook superior a 1 (Cook y Weisberg, 1982). El cálculo está basado en el análisis de regresión considerando inicialmente cada dato en el modelo y el posterior retiro de cada elemento de la muestra, y su influencia en los resultados. Dq = hqq 1 (rqs ) 2 1− h R +1 qq . 4.10. Residuos en los modelos de regresión logística multinomial 4.10.1. Residuos de Pearson En el caso multinomial, los residuos de Pearson son para la Q combinación de las variables explicativas en la categoría s de la variable respuesta, de la siguiente forma: Ana Gema Galera Pozo 50 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España rs / q = los factores y s / q − n q pˆ s / q [n q pˆ s / q ] 1/ 2 o lo que es lo mismo rs / q = Os / q − E s / q [E ] 1/ 2 . s/q Al igual que en el caso binomial, el residuo de Pearson se considera significativamente distinto de cero si en valor absluto es mayor que 2. 4.11. Métodos de selección del modelo Un paso importante en la construcción de un modelo de regresión es la elección de variables a incluir y cuáles no. Pero, del conjunto de variables que pueda tener un estudio, ¿qué variables deben introducirse en el modelo? El modelo debe ser aquél más reducido que explique los datos (principio de parsimonia), y que además sea congruente e interpretable de manera sencilla en términos de cocientes de ventajas. Para poder decidir entre utilizar un modelo con unas determinadas variables o con otras será preciso disponer de una medida de comparación entre modelos. En la regresión lineal lo más común para comparar dos modelos es utilizar la F parcial, que en el caso de que se contrasten dos modelos que difieren en una sola variable es idéntico a utilizar el valor de la t para el coeficiente de regresión de la nueva variable. En la regresión logística se utiliza los contrastes condicionales de razón de verosimilitudes, que como ya vimos en su apartado, nos permite comparar dos modelos anidados a través del valor del estadístico G2(Mp/MG). Este estadístico se distribuye según una chi-cuadrado con grados de libertad igual a la diferencia entre el número de variables de los dos modelos. Si no es suficientemente grande decimos que no hay evidencia para pensar que un modelo es mejor que el otro y por tanto nos quedaremos con el más sencillo. El procedimiento de selección stepwise, paso a paso, está basado en estos contrastes condicionales de razón de verosimilitudes. Una cuestión importante a tener en cuenta es el correcto manejo de las variables categóricas transformadas en varias variables ficticias. Siempre que se decida incluir (o excluir) una de estas variables, todas sus correspondientes variables ficticias deben ser incluidas (o excluidas) en bloque. No hacerlo así implicaría que se habría recodificado la variable, y por tanto la interpretación de la misma no sería igual. Ana Gema Galera Pozo 51 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Existen diferentes estrategias para la elección de variables a incluir en los modelos que se van a evaluar. Hacía atrás Podemos empezar con un modelo con todas las variables e interacciones, a partir del cual vamos eliminando variables cuya presencia no mejora la calidad del ajuste del modelo según el criterio especificado. Es decir, se ajustan modelos logit eliminando, una a una, cada una de las variables y se realizan los contrastes de razón de verosimilitudes para comprobar si el modelo con menos variables es mejor que el modelo logit con todas las variables. De todas las variables candidatas a salir, se elimina aquella que sea menos significativa. En el paso siguiente, se toma el modelo obtenido en el paso anterior y se compara con los modelos logit que resultan de ir eliminando cada una de las restantes variables. De todas las variables candidatas a salir porque los contrastes de razón de verosimilitudes no son significativos, sale la de menor significación. El proceso se detiene cuando ya no hay más variables candidatas a salir. Hacia delante Podemos empezar con un modelo más simple, que por defecto suele ser el modelo con sólo la constante, e ir añadiendo aquellas variables e interacciones que mejoran significativamente el modelo. En este caso se realizan los contrastes de razón de verosimilitudes con el modelo logit simple que tiene sólo la constante y con el modelo logit que resulta de añadir la nueva variable. Repetimos para todas las variables. Si el contraste es significativo entonces el modelo que añade la variable es mejor. De todas las variables candidatas a entrar, nos quedamos con la que sea más significativa. En el siguiente paso se contrasta el modelo resultante del paso anterior con los que resultan de añadir una nueva variable. Finalmente se incluye la variable cuyo contraste es más significativo. El proceso se detiene cuando ya no hay más variables candidatas a entrar Stepwise (paso a paso) La selección "stepwise", o por pasos, es una versión modificada del proceso de regresión hacia adelante y hacia atrás, en la que en cada nuevo paso, cuando se incluye una nueva variable, además se reconsidera el mantener las que ya se habían añadido previamente, es decir que no sólo puede entrar una nueva variable en cada paso sino que puede salir alguna de las que ya estaban en el modelo. El proceso finaliza cuando ninguna variable cumple la condición para entrar y, de las variables incluidas en la ecuación, ninguna cumple la condición para salir. Ana Gema Galera Pozo 52 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Concretamente los pasos que deben realizarse son: - Partimos del modelo más simple que contiene sólo la constante. - En el primer paso vamos a buscar la primera variable que entra en el modelo. Para ello ajustamos un modelo logit con cada una de las variables explicativas. Se realiza un contraste de razón de verosimilitudes que tiene como hipótesis nula el modelo simple con sólo la constante, y en la hipótesis alternativa el modelo resultante de añadir la variable explicativa. Si el contraste es significativo (p-valor menor a α1 fijado de antemano), la variable nueva mejora el modelo. De todas las variables que mejoran el modelo, se incluye la más significativa (p-valor más pequeño). En el primer paso sólo se podría considerar ser eliminada la constante del modelo pero por defecto suelen considerarse siempre modelos con término constante. - A continuación se repite el paso anterior, pero en esta ocasión, la hipótesis nula tiene como modelo el obtenido en el paso anterior, y la hipótesis alternativa incluye el modelo con una variable más explicativa. Al igual que antes, se incluye la variable cuyo contraste condicional de razón de verosimilitud es más significativo. - En cada paso se considera la posibilidad de que salga la variable del modelo de partida. Para eliminar una variable se fijará un valor de de entrada α1 . α2 mayor que el nivel de significación Para la eliminación de las variables se realizan también los contrastes condicionales de razón de verosimilitudes que tienen en la hipótesis nula el modelo que resulta de la eliminación de la variable explicativa y en la hipótesis alternativa el modelo seleccionado en el paso anterior. Serán candidatas a ser eliminadas aquellas variables cuyo p-valor de la constante es mayor que α2 . La variable explicativa que finalmente sale, será aquella con p-valor mayor. Y así sucesivamente, el procedimiento stepwise continúa hasta que no hay más variables candidatas a introducirse en el modelo y ninguna variable puede ser eliminada. Un método alternativo para la selección de variables, está basado en el criterio de información de Akaike (AIC), que es una modificación del criterio de la deviance de la siguiente forma: AIC = −2 LModelo + k número parámetros estimados LModelo es el log verosimilitud del modelo ajustado en cada paso y k suele ser igual a 2. El criterio precisa que el modelo con el menor valor AIC es seleccionado como el mejor al que se ajustan los datos. Por ello, cuando se utiliza este criterio para la selección de la variable que que entra en el modelo, optaremos por quedarnos con aquella que al introducirla en el modelo Ana Gema Galera Pozo 53 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores de partida, (de entre todas las que tiene un nivel de significación de entrada menor al α1 fijado), nos aporte un valor de AIC más pequeño. En el caso de de elegir la variable que sale del modelo, escogeremos aquella con mayor valor de AIC entre todas las que tiene un nivel de significación de salida mayor del α2 fijado. El conjunto de variables que finalmente quede incluido en la ecuación de regresión puede depender del camino seguido a la hora de seleccionarlas. Cualquiera que sea el método que se piense utilizar para la selección de variables, éste debe comenzar con un cuidadoso análisis descriptivo de la posible relación entre la variable dependiente y cada uno de los factores estudiados. Ana Gema Galera Pozo 54 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 5. FACTORES RELACIONADOS CON LA ACTIVIDAD ECONÓMICA DE LA POBLACIÓN EN ESPAÑA. MODELOS DE REGRESIÓN LOGÍSTICA 5.1. Preparación de los datos de estudio Para tratar de explicar los factores que influyen en la probabilidad de pertenecer a alguno de los colectivos relacionados con la actividad económica de España, se van a analizar distintas variables sociodemográficas de la población, así como la Comunidad Autónoma de residencia. De las variables que se utilizarán, se tratará de explicar aquellos factores que más influyen, así como el sentido de la ventaja de pertenecer a un colectivo u otro según ciertas características. Para ello se van a realizar dos análisis distintos: a) En el primer análisis se llevará a cabo una regresión logística usando la variable binaria ‘ACTIVO-INACTIVO’ donde 0 será el valor del colectivo de inactivos y 1 el valor del colectivo de activos. b) En el segundo análisis se analizarán los tres grandes colectivos: inactivos, parados y ocupado. Se realizará una regresión multinomial donde la variable de respuesta estará formada por esas tres categorías tomando a los parados como categoría de referencia Recordemos que cuando se hace referencia a ‘parado’ estamos señalando a aquella población que no tiene trabajo pero que busca empleo activamente, y que el ‘inactivo’ es aquél que no trabaja y que tampoco está interesado en hacerlo a pesar de tener la edad legal para entrar en el mercado de trabajo. Por esta razón sólo usaremos la información de la población de 16 y más años que se encuentra dentro del fichero de microdatos de la EPA. Los datos que se van a utilizar en este estudio se han obtenido del fichero de microdatos del primer trimestre del 2014 y que el INE proporciona a través de su página web8. Los ficheros de descarga gratuita que se proporcionan, tienen formato ASCII y tienen anonimizadas sus variables de forma estándar. El fichero no contiene cabecera y cada fila contiene la información registrada para cada individuo perteneciente a la muestra, tal y como se observa en la Figura 6. 8 http://www.ine.es/inebaseDYN/epa30308/epa_microdatos.htm Ana Gema Galera Pozo 55 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Figura 6: Microdatos de la EPA para el primer trimestre del 2014 La información contenida por columnas representa a cada una de las variables que recoge la encuesta y que se codifican, en la mayoría de los casos, con valores numéricos según la respuesta dada por el individuo o el valor que le corresponde en dicha variable. Cada variable puede ocupar uno o más caracteres, por lo que es necesario descargar también el diseño de registro de la encuesta para poder establecer la posición de cada una de las variables. Para poder obtener una columna distinta para cada una de las variables incluidas en el fichero de microdatos se va a abrir el fichero ASCII con el programa SPSS. Se ha construido una sintaxis en SPSS (véase anexo 8.1) que permite leer los datos que se incluyen y que, además, permite asociarle los nombres de cada variable utilizando el diseño del registro proporcionado por el INE. A continuación, segmentamos el fichero y seleccionamos la población de 16 y más años a través del código 1 de la variable NIVEL. Esta variable representa con un 1 a la población que legalmente puede trabajar y con un 2 a la población menor de 16 años. El fichero que se ha obtenido con esta segmentación se guarda en formato SPSS con el nombre de EPA1T2014_1. A continuación se definen las dos variables dependientes que se van a utilizar en los análisis. La primera variable de respuesta es binaria ‘ACT_INAC’ y tendrá valor 1 para los activos. Este colectivo está compuesto por los que se clasifican con valor 3, 4, 5 y 6 en la variable AOI del fichero de microdatos. El resto (7, 8 y 9 de la variable AOI) se codifican con el valor 0 que indica que son inactivos. La segunda variable de respuesta discreta, y que utilizaremos en el segundo análisis, se compone de tres categorías ‘MULT’. El valor 2 lo tomará la población inactiva (códigos 7+8+9 de la variable AOI), el valor 1 lo tomará la población ocupada (3+4 de la variable AOI) y el valor 0 lo tomará la población parada (5+6 de la variable AOI). Ana Gema Galera Pozo 56 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores La muestra contiene un total de 144.110 personas de 16 y más años, de los cuales, 65.443 son inactivos, 20.137 son parados y 58.530 son ocupados (ver Tabla 1). Población de 16 y más años Inactivos 65.443 Parados Total Ocupados 20.137 58.530 144.110 Tabla 1: Tamaño de Muestra para cada colectivo Sin embargo, los datos incluyen el FACTOR DE ELEVACIÓN que se puede utilizar para ajustar la muestra a la población total de España. Al usar el factor de elevación se trabaja con los datos ponderados y así se pueden estimar datos para la población en su totalidad. Los datos que se obtienen al usar los pesos ofrecen el número de población total de 16 y más años en España durante el primer trimestre de 2014 (38.483.601), de los que 22.883.897 son activos (5.933.3010 parados y 16.950.596 ocupados); y 15.599.704 son inactivos (ver Tabla 2). Población de 16 y más años Inactivos Parados Ocupados 15.599.704 5.933.301 16.950.596 Total 38.483.601 Tabla 2: Tamaño de Población para cada colectivo Los factores que se van a utilizar para el estudio son aquellas variables comunes a inactivos, parados y ocupados y que ofrecen información sociodemográfica del individuo: sexo, edad, nacionalidad, nivel de estudios terminados y la Comunidad Autónoma de residencia. - EDAD. Se tienen los intervalos quinquenales con el valor del primer valor: 16: 16 a 19 años 20: 20-24 años, y 25: 25-29 años . . . 60: 60-64 años 65: 65 y más años - NIVEL DE ESTUIDOS. Desde 2014, el INE codifica esta variable según la Clasificación Nacional de Educación de 2014 (CNED-2014)9. El INE codifica en el fichero de microdatos los siguientes grupos: AN: Analfabetos (código 01 de CNED14) 9 http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft40%2Fcned14%2F&file=inebase&L=0 se encuentra disponible más información sobre la CNED-14 Ana Gema Galera Pozo 57 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores P1: Educación primaria incompleta (código 02 CNED14) P2: Educación primaria (código 10 en CNED14) S1: 1ª etapa de educación secundaria (códigos 21-24 en CNED14) S2: 2ª etapa de educación secundaria. Orientación general (código 32 CNED14) SP: Segunda etapa de educación secundaria Orientación profesional (códigos 33-35 y 41 en CNED14) SU: Educación superior. (códigos 51,52,61-63, 71-78 y 81 en CNED14) - NACIONALIDAD. La variable nacionalidad que aporta el fichero de microdatos se desglosa en tres categorías: (1) española, (2) española y doble nacionalidad y (3) extranjera. Para nuestro análisis hemos agrupado (1) y (2) en una sola categoría, obteniendo finalmente dos categorías: 1: Española 0: Extranjera - SEXO. Se compone de dos categorías: 1: Hombre 6: Mujer - CCAA. Se compone de 19 categorías: las 17 Comunidades Autónomas de España más Ceuta y Melilla. Una vez definidas todas las variables, el fichero es apto para comenzar los análisis descriptivos bidimensionales y los análisis multidimensionales con la regresión logística. La herramienta que se va a utilizar es RStudio. El fichero en formato .sav puede leerse en R cargando la librería foreing. > library(foreign) Los datos se leen en R con la siguiente función: > datos <- read.spss("C:/Users/Mikkis/Desktop/MASTER ESTADISTICA/TRABAJO FIN DE MASTER/EPA1T2014_1.sav", use.value.labels =TRUE) Para evitar trabajar con un tamaño demasiado grande, se va a construir un nuevo fichero que contendrá sólo las variables que se utilizan en el estudio > > > > > > > > act_inac<-datos$ACT_INAC sexo<-datos$SEXO1 edad<-datos$EDAD5 estudios<-datos$NFORMA ccaa<-datos$CCAA fe<-datos$FACTOREL nacionalidad<-datos$NACIONALIDAD mult<-datos$MULT Ana Gema Galera Pozo 58 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Se guardan las variables que se han extraído en un nuevo ‘data.frame’ > datos.tfm <- data.frame(act_inac, ccaa, sexo, edad, nacionalidad, estudios, fe, mult) > head(datos.tfm) 1 2 3 4 5 6 act_inac ccaa sexo edad nacionalidad estudios fe mult 1 16 6 35 1 SU 435.54 1 1 16 1 30 1 S1 435.54 1 0 16 6 45 1 SU 309.65 2 1 16 1 50 1 SU 309.65 1 1 16 6 20 1 S1 309.65 0 1 16 1 35 1 SU 460.45 1 Se convierten en factor las variables independientes, ya que los números representan las categorías cualitativas de cada una de ellas. > > > > > > datos.tfm$act_inac<- factor(datos.tfm$act_inac) datos.tfm$nacionalidad <- factor(datos.tfm$nacionalidad) datos.tfm$estudios <- factor(datos.tfm$estudios) datos.tfm$sexo <- factor(datos.tfm$sexo) datos.tfm$ccaa <- factor(datos.tfm$ccaa) datos.tfm$edad <- factor(datos.tfm$edad) Como todas las variables explicativas de este estudio son cualitativas, se debe codificar las categorías de diseño como variables dummies. Se va a usar el método parcial que se explicó en la metodología de este documento, y usaremos la primera categoría de cada una de ellas como el grupo de referencia para la codificación. Así, para la variable ‘sexo’, se toma la categoría ‘Hombre’ como categoría de referencia. > contrasts(datos.frame$sexo) 6 1 0 6 1 En el caso de la nacionalidad, serán los extranjeros la categoría de referencia. > contrasts(datos.frame$nacionalidad) 1 0 0 1 1 Para el nivel de estudios se usa el grupo de “Analfabetos”. > contrasts(datos.tfm$estudios) AN P1 P2 S1 SG SP SU P1 P2 S1 SG SP SU 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 Para los intervalos de edad se ha establecido el intervalo de edad de los más jóvenes “16-19 años”. > contrasts(datos.tfm$edad) Ana Gema Galera Pozo 59 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España 16 20 25 30 35 40 45 50 55 60 65 los factores 20 25 30 35 40 45 50 55 60 65 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 Y para las Comunidades Autónomas, Andalucía es la categoría de referencia. > contrasts(datos.tfm$ccaa) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 51 52 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 14 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 51 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 52 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 5.2. Análisis descriptivo de los datos Antes de dar paso al análisis de regresión logística, se realiza un análisis descriptivo bidimensional de las variables que se van a estudiar, así como de las asociaciones existentes entre las variables de respuesta discreta y las variables explicativas. El análisis bivariante será una guía para ayudar a la regresión logística a analizar y descubir las relaciones existentes entre la variable dependiente y las variables independientes. En este caso como todas las variables independientes son categóricas, podremos realizar un contraste de chi-cuadrado que nos permitirá establecer si, a priori, existe o no relación entre ambas variables. > tabla_sexo <- xtabs(fe ~ act_inac+sexo) > tabla_sexo sexo act_inac 1 6 0 6475536 9124168 1 12282141 10601756 Ana Gema Galera Pozo 60 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Entre la población de 16 y más años de España, 18.757.677 son hombres, que representan el 48,7% de esta población, mientras que las mujeres representan casi el 51,3% de este colectivo (19.725.924). Sin embargo, está proporción no se mantiene entra la población activa donde las mujeres representan algo más del 46% y los hombres casi el 54% de este colectivo. Población activa Población inactiva Figura 7: Distribución porcentual por sexo de la población activa e inactiva Entre la población inactiva la mujer vuelve a estar ‘sobrerrepresentada’ ya que supone un 58% de la misma, y el hombre sólo el 42%, tal y como muestra el gráfico de la Figura 7. > tabla_sexo2<- xtabs(fe ~ mult+sexo, data=datos.tfm) > tabla_sexo2 sexo mult 1 6 0 6475536 9124168 1 3116555 2816746 2 9165585 7785011 Figura 8: Distribución porcentual por sexo de la población parada y ocupada Sin embargo, entre la población parada el porcentaje de hombres es algo más bajo (47,47%), siendo algo mayor el peso de las mujeres entre la población desempleada (52,33%). El gráfico de la Figura 8 también muestra que entre la población ocupada, sin embargo, el peso de los hombres asciende al 54%, no llegando al 46% la representación de las mujeres en este colectivo. Ana Gema Galera Pozo 61 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Además, la tasa de paro de la población femenina es de 26,57%, superando en algo más de un punto porcentual a la tasa de la población masculina (25,37%). Las diferencias encontradas por sexo entre los distintos colectivos de la población de 16 y más años son significativas, tal y como se desprende de la prueba de chi-cuadrado que mide la asociación entre la variable binaria (ser activo o inactivo) y la variable sexo, por un lado; y entre la variable con las tres categorías (ocupados, parados e inactivos) y la variable sexo, por otro lado. > chisq.test(tabla_sexo) Pearson's Chi-squared test with Yates' continuity correction data: tabla_sexo X-squared = 549082.2, df = 1, p-value < 2.2e-16 > chisq.test(tabla_sexo2) Pearson's Chi-squared test data: tabla_sexo2 X-squared = 553286.3, df = 2, p-value < 2.2e-16 El p-valor que se ha obtenido es menor que 0,05 para ambos contrastes, por lo que se acepta que existe relación entre la actividad económica de la población de 16 y más años de España y el sexo. En el caso de la nacionalidad, los extranjeros representan el 10% de la población española de 16 y más años. Sin embargo, entre los inactivos casi no alcanzan el 6,4% de la representación. Entre la población activa los extranjeros representan algo más del 12,46%, muy por encima de la representación que tienen en otros colectivos como el de ocupados (véase gráfico de la Figura 9). > tabla_nacionalidad <- xtabs(fe ~ act_inac+nacionalidad) > tabla_nacionalidad act_inac 0 1 nacionalidad 0 1 995260.3 14604443.3 2851681.7 20032215.4 Figura 9: Distribución porcentual por nacionalidad de activos, inactivos y población de 16 y más años > tabla_nacionalidad2<-xtabs(fe~mult+nacionalidad, data=datos.tfm) > tabla_nacionalidad2 Ana Gema Galera Pozo 62 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España mult 0 1 2 los factores nacionalidad 0 1 995260.3 14604443.3 1075796.6 4857504.5 1775885.1 15174711.0 Si observamos la tabla de datos, el número de extranjeros que se encuentran parados en España asciende a 1.075.797 en el primer trimestre de 2014, mientras que el de ocupados es 1.775.885. Por tanto, la tasa de paro entre este colectivo es de casi un 38%. Entre los españoles, el número de parados es de 4 millones 857 mil, y el de ocupados de algo más de 15 millones. Así, la tasa de paro en el primer trimestre del 2014 para españoles era del 24%, 14 puntos por debajo del colectivo de inmigrantes. Además, tal y como puede deducirse del gráfico de la Figura 10 de la distribución por nacionalidad de parados y ocupados, el porcentaje de extranjeros difiere mucho entre ambos colectivos. Figura 10: Distribución porcentual por nacionalidad de ocupados, parados e inactivos en España Los extranjeros están ‘sobrerrepresentados’ en el colectivo de parados si comparamos su representación con colectivos como el de inactivos o el de ocupados. Más del 18% de los parados de España son extranjeros, mientras que entre los ocupado éstos sólo representan un 10,5%. Estas cifras también contrastan con el colectivo de inactivos, donde tal y como se dijo anteriormente, los extranjeros apenas son el 6,4% del colectivo. Estas diferencias vistas en los distintos colectivos relacionados con la actividad económica se pueden considerar que son significativos, tal y como muestran las pruebas chi-cuadrado. > chisq.test(tabla_nacionalidad) Pearson's Chi-squared test with Yates' continuity correction data: tabla_nacionalidad X-squared = 381324.6, df = 1, p-value < 2.2e-16 > chisq.test(tabla_nacionalidad2) Pearson's Chi-squared test data: tabla_nacionalidad2 X-squared = 667548.1, df = 2, p-value < 2.2e-16 Ana Gema Galera Pozo 63 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Los p-valores asociados a los contrastes son menores de 0,5, por lo que se deduce que existe relación entre la nacionalidad y el hecho de pertenecer al colectivo de ocupados, parados o inactivos. Si analizamos las dos categorías de la variable dependiente binaria (activos e inactivos), la edad parece jugar un papel muy importante en ambos grupos. > tabla_edad<- xtabs(fe ~ act_inac+edad, data=datos.tfm) > tabla_edad edad act_inac 16 20 25 30 35 40 45 0 1466658.3 998851.9 366076.5 298537.1 377564.2 459527.3 541869.2 1 241573.4 1346920.5 2344548.2 3107070.9 3609968.6 3377148.4 3125992.6 edad act_inac 50 55 60 65 0 644466.0 917664.2 1521101.6 8007387.3 1 2680323.0 1957331.0 958072.3 134948.2 Tal y como se desprende de la Tabla 3, la distribución porcentual es bastante diferente para ambos colectivos, sobre todo en los grupos de mediana edad y en el colectivo de 65 y más años. Mientras el 51% de los inactivos de España está formado por el grupo de personas de 65 y más años, entre los activos, este grupo de edad apenas alcanza una representación 0,6%. Este dato era de esperar, ya que la edad de jubilación oficial en España era los 65 años hasta 2011, y a partir de esta fecha se aumentó progresivamente hasta los 67 años10 en 2013. Entre los más jóvenes (16-19 años), la inactividad es mayor que la actividad ya que éstos representan un 9,4% de los inactivos y sólo un 1% de la población activa. Entre los grupos de mediana edad, en general, la representación de los colectivos de edad es mayor entre la población activa que entre la población inactiva. En concreto, las personas entre 30 y los 54 años representan entre un 13% y un 15% de la población activa, mientras que entre la población inactiva la representación está entre un 2% y un 4%. Inactivos Total 16 y más Activos 16-19 9,40% 1,06% 4,44% 20-24 6,40% 5,89% 6,10% 25-29 2,35% 10,25% 7,04% 30-34 1,91% 13,58% 8,85% 35-39 2,42% 15,78% 10,36% 40-44 2,95% 14,76% 9,97% 45-49 3,47% 13,66% 9,53% 50-54 4,13% 11,71% 8,64% 55-59 5,88% 8,55% 7,47% 60-64 9,75% 4,19% 6,44% 51,33% 0,59% 21,16% 100,00% 100,00% 100,00% 65 y más Total Tabla 3: Distribución porcentual por grupos de edad para activos e inactivos en España 10 A excepción de algunos casos recogidos disposición final 12.2. de la Ley 27/2011, de 1 de agosto Ana Gema Galera Pozo 64 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > tabla_edad2<- xtabs(fe ~ mult+edad, data=datos.tfm) > tabla_edad2 edad mult 16 0 1466658.30 1 169478.09 2 72095.27 20 25 30 35 40 45 998851.88 366076.52 298537.12 377564.25 459527.30 541869.22 711944.47 768022.77 803081.49 821536.60 753276.66 726087.71 634976.03 1576525.43 2303989.37 2788432.03 2623871.77 2399904.91 edad mult 50 55 60 65 0 644465.96 917664.16 1521101.63 8007387.27 1 577244.35 420260.75 174426.27 7941.88 2 2103078.61 1537070.27 783646.06 127006.33 Parados Ocupados 16-19 2,86% 0,43% 20-24 12,00% 3,75% 25-29 12,94% 9,30% 30-34 13,54% 13,59% 35-39 13,85% 16,45% 40-44 12,70% 15,48% 45-49 12,24% 14,16% 50-54 9,73% 12,41% 55-59 7,08% 9,07% 60-64 2,94% 4,62% 65 y más 0,13% 0,75% 100,00% 100,00% Total Tabla 4: Distribución porcentual por grupos de edad para parados y ocupados en España Tal y como muestra la Tabla 4, para el colectivo de ocupados y parados la distribución por edad es algo diferente con respecto a los inactivos y entre ambos grupos. Mientras que los más jóvenes son un grupo que casi no se presenta entre los ocupados (0,43%), entre los parados llegan a alcanzar una representación de casi un 2,9%. La tendencia se mantiene entre los 20 y 34 años, siendo la representación de estos colectivos de edad mayor entre parados que entre ocupados. Sin embargo, a partir de los 35 años la representación de los colectivos de edad es mayor entre ocupados, que entre parados. En particular, las personas entre 40 y 44 años representan el 15,5% del colectivo de ocupados, y un 12,7% del colectivo de parados. La población entre 45-49 años supone el 14,2% de los ocupados, y un 12,2% de los parados. Aquellos que tienen entre 50 y 54 años son el 12,4% de los ocupados y un 9,7% de los parados. Los mayores (65 y más años), casi no están representados ni en el colectivo de ocupados (0,75%) ni en el del parados (0,13%), algo que difiere significativamente de su representación entre los inactivos, que como ya dijimos, este grupo de edad representaba el 51% de este colectivo. Ana Gema Galera Pozo 65 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Para estudiar si las diferencias encontradas por grupos de edad son significativas, tal y como se desprende del primer análisis descriptivo que hemos realizado, se aplica el test de la chicuadrado. > chisq.test(tabla_edad) Pearson's Chi-squared test data: tabla_edad X-squared = 20051613, df = 10, p-value < 2.2e-16 > chisq.test(tabla_edad2) Pearson's Chi-squared test data: tabla_edad2 X-squared = 20843805, df = 20, p-value < 2.2e-16 Para ambos casos se ha obtenido un p-valor menor que 0,05, por lo que se acepta que existe relación entre la edad y el hecho de estar activo o inactivo por un lado; y que existe relación entre la ocupación, el desempleo y la inactividad con la edad de la población, por otro. A continuación, en las siguientes tablas se muestra las frecuencias para la variable ‘nivel de estudios terminados’ y ambas variables dependientes. > tabla_estudios <- xtabs(fe ~ act_inac+estudios, data=datos.tfm) > tabla_estudios estudios AN P1 P2 S1 SG SP SU act_inac 0 632482.28 2399738.85 4375917.02 3908547.70 1790411.69 592440.71 1900165.36 1 90990.61 376936.76 1818254.21 6849183.56 3152800.15 2129435.67 8466296.16 > tabla_estudios2 <- xtabs(fe ~ mult+estudios, data=datos.tfm) > tabla_estudios2 estudios mult AN P1 P2 S1 SG SP SU 0 632482.28 2399738.85 4375917.02 3908547.70 1790411.69 592440.71 1900165.36 1 49460.19 163276.00 704915.41 2315458.66 790488.34 574461.07 1335241.37 2 41530.42 213660.76 1113338.80 4533724.90 2362311.81 1554974.60 7131054.79 Para analizar mejor los resultados vamos a estudiar las frecuencias relativas que se muestran en los siguientes gráficos de la Figura 11: Figura 11: Distribución porcentual por nivel de estudios para activos e inactivos en España Sólo el 0,4% de la población activa es analfabeta. Los que tiene estudios superiores son los más representados en el colectivo de activos, ya que suponen el 37% de los mismos. En Ana Gema Galera Pozo 66 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores segunda posición están los que tienen estudios de secundaria de primera etapa (30%) y los que tienen estudios de secundaria de 2ª etapa (14%). Aquellos que tienen estudios de primaria, son el 8% de la población activa y los que estudiaron orientación profesional representan el 9%. Sin embargo, entre los inactivos, los que estudiaron una orientación profesional sólo suponen el 4% del colectivo. Los que tienen estudios de primaria encabezan en representación al colectivo de inactivos con un porcentaje de 28%, seguidos de los que tienen secundaria de primera etapa que suponen el 25%. Sólo el 12% de la población inactiva tiene estudios superiores, pero los analfabetos representan el 4% de dicho colectivo cuando a penas tenían representación entre los activos. Figura 12: Distribución porcentual por nivel de estudios terminado de la población ocupada y parada en España Entre la población que se encuentra empleada, los que tienen estudios superiores representan el 42%, seguidos de los que tienen estudios de secundaria de primera etapa que suponen el 27% de los ocupados. El colectivo de personas que no tienen estudios, no representan ni el 1% entre la población que tiene un puesto de trabajo. Éste último, sin embargo, supone algo más del 4% entre la población parada, y el colectivo de personas que tiene estudios superiores sólo el 22% entre la población sin empleo (véase gráficos de la Figura 12). Llama la atención el colectivo de personas que tienen estudios con orientación profesional, aproximadamente el 9% de los ocupados y los parados son representados por personas que estudiaron orientación profesional, porcentaje que coincide con su representación total en la población activa. La tasa de paro, que muestran la relación entre la población parada y la población activa, varía también bastante si la analizamos por los distintos grupos de niveles educativos. Tasa de Paro Analfabetos Primaria incompleta 54,36% Primaria 38,77% 43,32% Ana Gema Galera Pozo 67 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España 1ª secundaria 33,81% 2ª secundaria 25,07% Orien. Profes. 26,98% Superiores 15,77% TOTAL 25,93% los factores Tabla 5: Tasas de paro para la población activa de España según niveles de estudios terminados Como puede observarse en la Tabla 5, el colectivo que tiene una mayor tasa de paro es el de personas que no tienen estudios (54,36%), tasa que se sitúa casi 40 puntos por encima de las personas que tiene estudios superiores (15,77%). El segundo colectivo con menor tasa de paro son aquellos que estudiaron segunda etapa de secundaria (25,05%), seguidos de los que estudiaron una orientación profesional (26,98%). > chisq.test(tabla_estudios) Pearson's Chi-squared test data: tabla_estudios X-squared = 8050894, df = 6, p-value < 2.2e-16 > chisq.test(tabla_estudios2) Pearson's Chi-squared test data: tabla_estudios2 X-squared = 9014072, df = 12, p-value < 2.2e-16 El test chi-cuadrado nos confirma que las diferencias encontradas por niveles de estudios son significativas ya que el p-valor obtenido es inferior a 0,05, dato que prueba la relación de esta variable con ambas variables de respuesta discreta. En último lugar, se realizan los análisis bidimensionales con la variable de la Comunidad Autónoma de Residencia. > tabla_ccaa <- xtabs(fe ~ act_inac+ccaa, data=datos.tfm) > tabla_ccaa ccaa act_inac Andalucia Aragón Asturias 0 2837505.71 454341.48 443214.78 1 4016045.17 649287.06 480386.60 ccaa act_inac CaCataluña C.Valenc Ca-Mancha 0 685173.56 2275454.45 1673082.25 1 1011884.13 3800867.08 2435798.18 ccaa act_inac Navarra País Vasco Rioja 0 206071.14 778543.59 103746.14 1 314101.65 1030494.11 155934.90 Baleares Canarias Cantabria CastiCasti-Leon 354738.24 683681.86 217676.88 957373.32 570967.24 1093555.57 278608.55 1158903.17 Extremad Galicia Madrid 416146.55 1093486.22 1907145.65 499889.03 1279778.53 3313019.87 Ceuta 27472.68 36870.04 Inactivos Andalucia Activos Murcia 458295.99 723366.34 Melilla 26553.12 34139.90 Total 16 y más años 18,19% 17,55% 17,81% Aragón 2,91% 2,84% 2,87% Asturias 2,84% 2,10% 2,40% Baleares 2,27% 2,50% 2,41% Ana Gema Galera Pozo 68 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España Inactivos Activos los factores Total 16 y más años Canarias 4,38% 4,78% 4,62% Cantabria 1,40% 1,22% 1,29% Cast-León 6,14% 5,06% 5,50% Cast-Mancha 4,39% 4,42% 4,41% Cataluña 14,59% 16,61% 15,79% C.Valenciana 10,73% 10,64% 10,68% Extremadura 2,67% 2,18% 2,38% Galicia 7,01% 5,59% 6,17% Madrid 12,23% 14,48% 13,56% Murcia 2,94% 3,16% 3,07% Navarra 1,32% 1,37% 1,35% País Vasco 4,99% 4,50% 4,70% Rioja, la 0,67% 0,68% 0,67% Ceuta 0,18% 0,16% 0,17% Melilla 0,17% 0,15% 0,16% ESPAÑA 100% 100% 100% Tabla 6: Distribución porcentual por Comunidades Autónomas de la población activa e inactiva en España. Tal y como puede deducirse de la Tabla 6, la representación de las Comunidades entre los inactivos y activos parece ser muy parecida para casi todas las Comunidades Autónomas, a excepción de Madrid, donde la representación entre la población activa varia en dos puntos con respecto a la inactiva. En la mayoría de Comunidades Autónomas la diferencia entre ambos colectivos oscila en torno a un punto porcentual más o menos. Sin embargo, las diferencia son mucho más notables entre el colectivo de ocupados, parados y e inactivos. > tabla_ccaa2 <- xtabs(fe ~ mult+ccaa, data=datos.tfm) > tabla_ccaa2 ccaa Aragón Asturias mult Andalucia 0 2837505.71 454341.48 443214.78 1 1403384.41 148356.10 109289.58 2 2612660.76 500930.96 371097.02 ccaa mult CaCataluña C.Valenc Ca-Mancha 0 685173.56 2275454.45 1673082.25 1 306610.16 840172.16 683115.71 2 705273.97 2960694.92 1752682.47 ccaa mult Navarra País Vasco Rioja 0 206071.14 778543.59 103746.14 1 53763.15 178864.67 30536.24 2 260338.50 851629.44 125398.66 Baleares Canarias Cantabria CastiCasti-Leon 354738.24 683681.86 217676.88 957373.32 152460.91 355966.82 58365.25 257394.42 418506.33 737588.75 220243.30 901508.75 Extremad Galicia Madrid 416146.55 1093486.22 1907145.65 160673.81 296942.49 676954.72 339215.22 982836.04 2636065.15 Ceuta 27472.68 11637.38 25232.66 Inactivos Andalucia Murcia 458295.99 200473.82 522892.52 Melilla 26553.12 8339.24 25800.66 Parados Ocupados 18,19% 23,65% 15,41% Aragón 2,91% 2,50% 2,96% Asturias 2,84% 1,84% 2,19% Baleares 2,27% 2,57% 2,47% Ana Gema Galera Pozo 69 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España Inactivos los factores Parados Ocupados Canarias 4,38% 6,00% 4,35% Cantabria 1,40% 0,98% 1,30% Cast-León 6,14% 4,34% 5,32% Cast-Mancha 4,39% 5,17% 4,16% Cataluña 14,59% 14,16% 17,47% C.Valenciana 10,73% 11,51% 10,34% Extremadura 2,67% 2,71% 2,00% Galicia 7,01% 5,00% 5,80% Madrid 12,23% 11,41% 15,55% Murcia 2,94% 3,38% 3,08% Navarra 1,32% 0,91% 1,54% País Vasco 4,99% 3,01% 5,02% Rioja, la 0,67% 0,51% 0,74% Ceuta 0,18% 0,20% 0,15% Melilla 0,17% 0,14% 0,15% ESPAÑA 100% 100% 100% Tabla 7: Distribución porcentual por Comunidades Autónomas de la población activa e inactiva en España. La Comunidad Autónoma parece influir de manera más latente entre los colectivos de ocupados, parados e inactivos. Tal y como muestra la Tabla 7, Andalucía tiene una mayor representación entre la población parada, que supone el 23,7% del total de los parados en España, contrastando con la representación que tiene en el colectivo de ocupados (15%). Sin embargo, la población de Cataluña representa el 17,47% de la población ocupada, frente al 14% que representa en la población parada; o Madrid que cuenta con una representación del 15,6% y 11,4% respectivamente. Resumiendo, parece que la Comunidad Autónoma pueda estar relacionada con la variable respuesta de tres categorías: ocupados, parado e inactivos. Para concluir con el análisis por Comunidades Autónomas se han representado las tasas de paro para la población activa de cada una de ellas. Ana Gema Galera Pozo 70 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Figura 13: Tasas de paro en España según Comunidades Autónomas Las diferencias que pueden existir entre el colectivo de ocupados y parados se pueden intuir también a través de las tasas de paro. Tal y como muestra el gráfico de la Figura 13, la tasa de paro no es igual para las distintas Comunidades Autónomas. Mientras que Comunidades como País Vasco, La Rioja o Navarra están entre 6 y 9 puntos por debajo de la tasa de paro media de España (25,9%); Andalucía, Canarias, Extremadura, Castilla la Mancha o Ceuta superan entre 5 y 9 puntos la media española. Para probar si las diferencias encontradas son significativas, se realiza el test de la chicuadrado. > chisq.test(tabla_ccaa) Pearson's Chi-squared test data: tabla_ccaa X-squared = 155224.7, df = 18, p-value < 2.2e-16 > chisq.test(tabla_ccaa2) Pearson's Chi-squared test data: tabla_ccaa2 X-squared = 536554.5, df = 36, p-value < 2.2e-16 La Comunidad Autónoma está relacionada tanto con la actividad-inactividad de la población; como con la ocupación, el desempleo e inactividad de la población de 16 y más años en España. Tras el análisis descriptivo bidimensional de los datos, se han observado algunas relaciones entre las variables explicativas y las variables de respuesta discreta, tanto la binaria como la de tres categorías. Sin embargo, es neserario y muy importante realizar un estudio multidimensional del conjunto de variables ya que los estudios bidimensionales podrían llevarnos a conclusiones erróneas al no tener en cuenta el resto de variables: paradoja de Simpson (Edward H. Simpson 1951). Esta paradoja estadística se da cuando una tendencia en la asociación de dos variables cambia en sentido contraria al controlar el efecto de otras variables. Ana Gema Galera Pozo 71 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores De ahí la importancia de los estudios multidimensionales para obtener conclusiones válidas de las relaciones existentes entre variables. (Aguilera del Pino, 2006). 5.3. Ajuste de un modelo de regresión logística binaria para explicar los factores relacionados con la actividad e inactividad El primer modelo que se va a estudiar tratará de describir los factores que inciden en la probabilidad de que la población de 16 o más años de España sea activa en relación con la actividad económica, o que por el contrario, pertenezca al colectivo de inactivos que no presentan interés por participar en el mercado de trabajo. La variable binaria que se tratará de modelizar es que una persona sea activa, codificada con el valor 1, o que sea inactiva, categoría que se codificará como 0. Por tanto, el modelo final vendrá definido en términos probabilísticos informando de la probabilidad de que una persona en España sea activa bajo ciertos valores de las variables explicativas. Como ya se adelantaba en la metodología de la regresión logística, para la estimación de los parámetros del modelo es necesario tener en cuenta los factores de elevación que se incluyen en los datos de la EPA para que la estimación y las conclusiones que se obtengan sean realmente representativas de la población de 16 y más años de España. En RStudio la librería “survey” incluye distintas funciones que nos permitirán trabajar con datos obtenidos a partir de encuestas y, en concreto, la función svyglm que permite realizar la regresión logística binaria teniendo en cuenta los valores de las ponderaciones de cada registro de la muestra. Antes de utilizar la función, es necesario definir el diseño a utilizar con la función svydesign del mismo paquete. Con el argumento “weighs” indicamos la variable con los pesos o factores de elevación con los que se pondera la muestra (ver anexo 8.2). > datos.tfm.pon <- svydesign(id=~1,weights=~fe,data=datos.tfm) Con esta orden se guarda el diseño que aplicaremos a los datos cada vez que queramos usar la ponderación o factores de elevación de la muestra. Selección de variables para el modelo más adecuado Para la obtención del modelo más adecuado, se ha optado por utilizar una selección de variables mediante el proceso stepwise, paso a paso, en ambas direcciones (inclusión de variables y eliminación), que es un proceso que mediante contrastes condicionales de razón de verosimilitud se comparan variables para construir el modelo final. Ana Gema Galera Pozo 72 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Este proceso se realiza en cada paso utilizando la función anova de R que permite comparar dos modelos con los contrastes condicionales de razón de verosimilitud. Para utilizar el procedimiento stepwise se parte de un primer modelo con el que se iniciará el procedimiento. Para ello se construye el modelo más simple: el modelo que sólo tiene la constante. La función svyglm11 permite definir el modelo lineal generalizado con el que se quiere trabajar, en concreto para el caso binario es el binomial, y a su vez, nos permite añadir el diseño de nuestros datos de la encuesta para que utilice los factores de elevación para la estimación de los parámetros. Antes de comenzar el procedimiento de selección de variables stepwise se crea el modelo más simple y que sólo contiene la constante. Paso 0. > modelo.0<- svyglm(act_inac~1,family=binomial,data= datos.tfm, design=datos.tfm.pon) Paso 1. A partir del primer modelo debemos elegir la primera variable que entrará en el modelo. Para ello se ajusta un modelo de regresión logística binomial para cada una de las cinco variables consideradas (sexo, nacionalidad, ccaa, estudios y edad). > modelo.1<- svyglm(act_inac~sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.2<- svyglm(act_inac~nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.3<- svyglm(act_inac~ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.4<- svyglm(act_inac~estudios,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.5<- svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) Una vez creados los cinco modelo, se contrasta mediante el test condicional de razón de verosimilitudes cada modelo con el modelo 0, que incluía sólo la constante, para decidir que variable es la que entra en el primer paso. Para realizar los contrastes se usará la función anova( ) a la que se indicará los modelos que queremos comparar. El estadístico que muestra cada prueba es el 2LogLR que es valor de los máximos de la logverosimilitud del modelo con más parámetros. Si el p-valor es menor que el nivel de 11 En el anexo 8.2 se incluye la sintáxis y los argumentos para la función svyglm y svydesign Ana Gema Galera Pozo 73 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España significación fijado los factores α 1 ( α 1 =0,1, por ejemplo), entonces el modelo con más parámetros es más adecuado. De todos los modelos que mejoran al modelo simple, nos quedaremos con aquel cuyo valor de 2LogLR sea mayor, ya que hará que el valor de la Deviance final sea menor12. > anova(modelo.0,modelo.1) Working (Rao-Scott+F) LRT for sexo in svyglm(formula = act_inac ~ sexo, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1311.581 p= < 2.22e-16 df=1; denominator df= 144108 > anova(modelo.0,modelo.2) Working (Rao-Scott+F) LRT for nacionalidad in svyglm(formula = act_inac ~ nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 510.4586 p= < 2.22e-16 df=1; denominator df= 144108 > anova(modelo.0,modelo.3) Working (Rao-Scott+F) LRT for ccaa in svyglm(formula = act_inac ~ ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 543.7692 p= < 2.22e-16 (scale factors: 2.8 1.8 1.6 1.3 1.2 1.1 1 0.96 0.85 0.77 0.71 0.7 0.65 0.61 0.57 0.53 0.43 0.42 ); denominator df= 144091 > anova(modelo.0,modelo.4) Working (Rao-Scott+F) LRT for in svyglm(formula = act_inac datos.tfm, design = datos.tfm.pon) Working 2logLR = 17997.06 p= (scale factors: 1.2 1 1 0.95 estudios ~ estudios, family = binomial, data = < 2.22e-16 0.89 0.88 ); denominator df= 144103 > anova(modelo.0,modelo.5) Working (Rao-Scott+F) LRT for edad in svyglm(formula = act_inac ~ edad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 54342.69 p= < 2.22e-16 (scale factors: 1.1 1.1 1 1 1 1 0.97 0.94 0.9 0.85 ); denominator df= 144099 A la vista de los resultados, el modelo.5 es el que más reducirá el valor de la devianza, por lo que la variable edad es la nueva variable que entra en el modelo. Paso 2. En el segundo paso partimos del modelo con la variable edad, y se ajustan diferentes modelos con cada una de las 4 variables restantes. > modelo.edad<- svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) 12 Tal y como se explica en la metodología, la desviance para los contrastes de razón de verosimilitudes es dos veces la diferencia entre el máximo de log-verosimilitud del modelo con menos parámetros y el máximo de log-verosimilitud del modelo con más parámetros Ana Gema Galera Pozo 74 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > modelo.edad.1<- svyglm(act_inac~edad+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.edad.2<svyglm(act_inac~edad+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.edad.3<- svyglm(act_inac~edad+estudios,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.edad.4<- svyglm(act_inac~edad+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) A continuación realizamos los contrastes dos a dos: > anova(modelo.edad, modelo.edad.1) Working (Rao-Scott+F) LRT for sexo in svyglm(formula = act_inac ~ edad + sexo, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1397.297 p= < 2.22e-16 df=1; denominator df= 144098 > anova(modelo.edad, modelo.edad.2) Working (Rao-Scott+F) LRT for nacionalidad in svyglm(formula = act_inac ~ edad + nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1.411319 p= 0.23717 df=1; denominator df= 144098 > anova(modelo.edad, modelo.edad.3) Working (Rao-Scott+F) LRT for estudios in svyglm(formula = act_inac ~ edad + estudios, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1746.119 p= < 2.22e-16 (scale factors: 1.3 1 0.96 0.95 0.92 0.86 ); denominator df= 144093 > anova(modelo.edad, modelo.edad.4) Working (Rao-Scott+F) LRT for ccaa in svyglm(formula = act_inac ~ edad + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 448.6553 p= < 2.22e-16 (scale factors: 2.7 1.8 1.6 1.3 1.3 1.1 1 0.9 0.81 0.74 0.69 0.69 0.65 0.63 0.54 0.51 0.5 0.41 ); denominator df= 144081 El modelo 3 tiene un mayor valor de 2LogLLR (2LogLR=1746.119). Por tanto, la variable “nivel de estudios” es la que entra en el modelo. En este paso la única variable candidata a salir del estudio es la variable que entro en el paso anterior, la variable edad. Para saber si ésta se extrae del modelo, se compara aquel que sólo contiene a la variable ‘nivel de estudios, con el modelo compuesto por la variable edad y nivel de estudios. > modelo.estudios<- svyglm(act_inac~estudios,family=binomial,data= datos.tfm, design=datos.tfm.pon) Ana Gema Galera Pozo 75 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > modelo.estudios.edad<svyglm(act_inac~estudios+edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > anova(modelo.estudios, modelo.estudios.edad) Working (Rao-Scott+F) LRT for edad in svyglm(formula = act_inac ~ estudios + edad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 36239.89 p= < 2.22e-16 (scale factors: 1.1 1.1 1 1 1 1 0.99 0.94 0.93 0.85 ); denominator df= 144093 Para decidir si se elimina una variable se fija un nivel α 2 ( α 2 =0,15, por ejemplo) por encima del cual la variable es candidata a salir. Tal y como se comprueba por el resultado, (p-valor <0,15), el modelo con la variable edad es mejor. Por tanto, la edad se queda en el modelo. Paso3. En este paso se contrasta si entra algunas de las 3 variables restantes (sexo, ccaa y nacionalidad). Creamos cada modelo con cada una de las variables. > modelo.edad.estudios.1<svyglm(act_inac~edad+estudios+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.edad.estudios.2<svyglm(act_inac~edad+estudios+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.edad.estudios.3<svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) Y realizamos los contrastes > anova(modelo.edad.estudios, modelo.edad.estudios.1) Working (Rao-Scott+F) LRT for nacionalidad in svyglm(formula = act_inac ~ edad + estudios + nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 33.6193 p= 7.4034e-09 df=1; denominator df= 144092 > anova(modelo.edad.estudios, modelo.edad.estudios.2) Working (Rao-Scott+F) LRT for ccaa in svyglm(formula = act_inac ~ edad + estudios + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 357.4942 p= < 2.22e-16 (scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.81 0.73 0.7 0.69 0.63 0.6 0.53 0.5 0.5 0.41 ); denominator df= 144075 > anova(modelo.edad.estudios, modelo.edad.estudios.3) Working (Rao-Scott+F) LRT for sexo in svyglm(formula = act_inac ~ edad + estudios + sexo, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1435.071 p= < 2.22e-16 df=1; denominator df= 144092 Las tres variables podrían entrar en el modelo porque tienen p-valores menores de 0,10, pero el mejor modelo es el tercero con la variable sexo, ya que tiene un valor de 2logLR mayor. Ana Gema Galera Pozo 76 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Una vez decidida la variable que se incluye en el modelo, veamos si la variable sexo o edad puede salir. Creamos el modelo con las tres variables (edad, estudios y sexo), y lo comparamos con el modelo que incluye a la edad y al sexo por un lado, y al modelo con la variable estudios y el sexo por otro. > modelo.edad.estudios.sexo<svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.estudios.sexo<svyglm(act_inac~estudios+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.sexo.edad<- svyglm(act_inac~sexo+edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > anova(modelo.edad.estudios.sexo, modelo.estudios.sexo) Working (Rao-Scott+F) LRT for edad in svyglm(formula = act_inac ~ edad + estudios + sexo, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 36510.72 p= < 2.22e-16 (scale factors: 1.1 1.1 1 1 1 1 0.98 0.94 0.92 0.85 ); denominator df= 144092 > anova(modelo.sexo.estudios.edad, modelo.sexo.edad) Working (Rao-Scott+F) LRT for estudios in svyglm(formula = act_inac ~ sexo + estudios + edad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1802.135 p= < 2.22e-16 (scale factors: 1.3 1 0.98 0.96 0.91 0.87 ); denominator df= 144092 El modelo con las tres variables mejora a los modelos que sólo tienen dos, ya sea el sexo y la edad, o el sexo y la variable ‘nivel de estudios’. El modelo final que se obtiene en este paso se compone de la constante, la edad, el nivel de estudios y la variable sexo. Paso 4. En este paso se comprueba si la variable que codifica a las Comunidades Autónomas o la variable con la nacionalidad, se incluyen en el modelo. Se crea el modelo con las tres variables del paso anterior más la nueva variable “ccaa”. > modelo.edad.estudios.sexo.1<svyglm(act_inac~edad+estudios+sexo+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) Se crea el modelo con las tres variables del paso anterior más la nueva variable “nacionalidad” > modelo.edad.estudios.sexo.2<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) Realizamos los contrastes. > anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.1) Ana Gema Galera Pozo 77 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Working (Rao-Scott+F) LRT for ccaa in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 375.0815 p= < 2.22e-16 (scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.82 0.74 0.69 0.69 0.63 0.56 0.54 0.51 0.49 0.41 ); denominator df= 144074 > anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.2) Working (Rao-Scott+F) LRT for in svyglm(formula = act_inac family = binomial, data = Working 2logLR = 39.97436 p= df=1; denominator df= 144091 nacionalidad ~ edad + estudios + sexo + nacionalidad, datos.tfm, design = datos.tfm.pon) 2.8576e-10 La variable que entra en el modelo es la variable “Comunidad Autónoma”, ya que tiene un pvalor menor de 0,10 y su valor de 2LogLR es mayor. Veamos, a continuación, si incluida la Comunidad Autónoma, sale del modelo algunas de las variables que entraron en los pasos anteriores. > modelo.1<- svyglm(act_inac~estudios+sexo+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.2<- svyglm(act_inac~edad+sexo+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.<- svyglm(act_inac~edad+estudios+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.3<- svyglm(act_inac~edad+estudios+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) > anova(modelo.edad.estudios.sexo.ccaa, modelo.1) Working (Rao-Scott+F) LRT for edad in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 36266.78 p= < 2.22e-16 (scale factors: 1.1 1.1 1.1 1 1 1 0.99 0.94 0.91 0.86 ); denominator df= 144074 > anova(modelo.edad.estudios.sexo.ccaa, modelo.2) Working (Rao-Scott+F) LRT for estudios in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1737.829 p= < 2.22e-16 (scale factors: 1.3 1 0.97 0.96 0.91 0.86 ); denominator df= 144074 > anova(modelo.edad.estudios.sexo.ccaa, modelo.3) Working (Rao-Scott+F) LRT for sexo in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1450.255 p= < 2.22e-16 df=1; denominator df= 144074 Todos los contrastes tienen un p-valor menor que 0,15, por tanto permanecen en el modelo las cuatro variables junto a la variable de la Comunidad Autónoma de residencia. Ana Gema Galera Pozo 78 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Paso 5. Sólo la variable “nacionalidad” puede entrar en el modelo en este paso. > anova(modelo.edad.estudios.sexo.ccaa, modelo.edad.estudios.sexo.ccaa.nacionalidad) Working (Rao-Scott+F) LRT for in svyglm(formula = act_inac nacionalidad, family = binomial, data = Working 2logLR = 28.47515 p= df=1; denominator df= 144073 nacionalidad ~ edad + estudios + sexo + ccaa + datos.tfm, design = datos.tfm.pon) 1.043e-07 Como el p-valor es menor que 0,10 se concluye que la nacionalidad mejora el modelo por lo que también debe de incluirse. Para finalizar, se estudia si debe expulsarse del modelo alguna de las cuatro restantes variables incluidas en los pasos anteriores. > modelo.svy<svyglm(act_inac~edad+estudios+sexo+ccaa+nacionalidad,family=binomial,d ata= datos.tfm, design=datos.tfm.pon) > modelo.1<svyglm(act_inac~estudios+sexo+ccaa+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.2<svyglm(act_inac~edad+sexo+ccaa+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.3<svyglm(act_inac~edad+estudios+ccaa+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) > modelo.4<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) Realizamos los contrastes. > anova(modelo.total, modelo.1) Working (Rao-Scott+F) LRT for edad in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa + nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 35336.32 p= < 2.22e-16 (scale factors: 1.1 1.1 1 1 1 1 0.99 0.94 0.91 0.86 ); denominator df= 144073 > anova(modelo.total, modelo.2) Working (Rao-Scott+F) LRT for estudios in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa + nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 1790.918 p= < 2.22e-16 (scale factors: 1.2 1 0.98 0.97 0.92 0.86 ); denominator df= 144073 > anova(modelo.total, modelo.3) Working (Rao-Scott+F) LRT for in svyglm(formula = act_inac nacionalidad, family = binomial, data = Working 2logLR = 1463.683 p= df=1; denominator df= 144073 sexo ~ edad + estudios + sexo + ccaa + datos.tfm, design = datos.tfm.pon) < 2.22e-16 Ana Gema Galera Pozo 79 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > anova(modelo.total, modelo.4) Working (Rao-Scott+F) LRT for ccaa in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa + nacionalidad, family = binomial, data = datos.tfm, design = datos.tfm.pon) Working 2logLR = 342.6512 p= < 2.22e-16 (scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.81 0.74 0.69 0.68 0.63 0.56 0.54 0.51 0.49 0.41 ); denominator df= 144073 Ninguna de las variables debe salir. El modelo que se ha obtenido con la selección por pasos y que mejor explica la variable respuesta se compone de la constante y de las cinco variables explicativas: edad, nivel de estudios terminado, sexo, Comunidad Autónoma de residencia y nacionalidad. Bondad de ajuste del modelo Para determinar la bondad del ajuste global de los datos se ha realizado un test de Hosmer y Lemeshow ya que, al calcular las frecuencias estimadas bajo el modelo (mq=nqpq), existen más del 20% de frecuencias menores de 5, por lo que no puede asumirse la distribución chicuadrada para utilizar otro tipo de contrastes. Con el test Hosmer-Lemeshow se van a agrupar las frecuencias en 10 grupos. Para calcular los diez grupos vamos a usar dos criterios: el primer criterio realizará 10 grupos de igual tamaño y el segundo realizará los 10 grupos según de los deciles de las probabilidades estimadas. > hosmerlem<-function(y, yhat, g=10) {cutyhat1 = cut(yhat,breaks + =quantile(yhat, probs=seq(0,1, 1/g)), include.lowest=TRUE) + obs = xtabs(cbind(1 - y, y) ~ cutyhat1) + expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat1) + chisq.C = sum((obs - expect)^2/expect) + P.C = 1 - pchisq(chisq.C, g - 2) + cutyhat2 = cut(yhat,breaks =g, include.lowest=TRUE) + obs = xtabs(cbind(1 - y, y) ~ cutyhat2) + expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat2) + chisq.H = sum((obs - expect)^2/expect) + P.H = 1 - pchisq(chisq.H, g - 2) + res <- data.frame(c(chisq.C,P.C),c(chisq.H,P.H)) + colnames(res)<- c("Hosmer-Lemeshow C statistic","Hosmer-Lemeshow H statistic") + rownames(res)<- c("X-squared","p.value") + return(res) + } > hosmerlem(y = datos.tfm$act_inac, yhat = fitted.values(modelo.svy)) X-squared p.value Hosmer-Lemeshow C statistic Hosmer-Lemeshow H statistic 134.513 125.8375 0.000 0.0000 Como resultado de agrupar por los 10 grupos de igual tamaño se obtiene un valor del estadístico de Hosmer-Lemeshow de 134,513, con un p-valor asociado con valor 0. El resultado es parecido para el caso de la agrupación por deciles de las probabilidades estimadas: el valor del estadístico es 125,8 y el p-valor asociado es 0. Ana Gema Galera Pozo 80 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Ambos p-valores son menores a 0,05, por lo que se puede pensar que el modelo no se ajusta bien, de manera global, a los datos observados. A pesar de que el número de frecuencias estimadas no es lo suficientemente grande en algunas combinaciones de las variables explicativas, se va a calcular también los estadísticos X2 y G2. Para el cálculo del estadístico X2 necesitamos crear una sintáxis en R ya que los datos muestran la información de cada individuo de la muestra (datos sin agrupar), y el estadístico X2 y G2 se obtiene a partir de los datos agrupados para las Q combinaciones de las variables explicativas que aparecen en la muestra. > fobs<data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+act_inac, data=datos.tfm)) > head(fobs) 1 2 3 4 5 6 sexo edad nacionalidad estudios ccaa act_inac Freq 1 16 0 AN 1 0 0 6 16 0 AN 1 0 0 1 20 0 AN 1 0 1 6 20 0 AN 1 0 1 1 25 0 AN 1 0 0 6 25 0 AN 1 0 2 Con estas primeras operaciones construimos las combinaciones de todas las variables explicativas en cada una de las categorías de la variable respuesta. La columna ‘Freq’ ofrece el valor de las frecuencias observadas. Los 5.852 registros son las combinaciones y frecuencias observadas para la categoría 0 (colectivo inactivos) de la variable respuesta. Los siguientes y últimos 5.852 registros, son las combinaciones y frecuencias observadas para la categoría 1 (activos) de la variable respuesta. Separamos en vectores diferentes las observaciones para las combinaciones de la categoría 0 y 1 de la variable respuesta (fobs0 y fobs1). > > > > fobs0=0 for (i in 1:5852) fobs0[i]=fobs$Freq[i] fobs1=0 for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852] A continuación se calculan las probabilidades predichas para las combinaciones de las variables explicativas. > ppred<-predict(modelo.svy, newdata=fobs, type='response') > head(ppred) 1 2 3 4 5 6 0.03828041 0.01797499 0.23499253 0.12377225 0.57248263 0.38110432 Separamos en vectores diferentes las probabilidades predichas bajo el modelo para las combinaciones de la categoría 0 y 1 de la variable respuesta (ppred00 y ppred1). > for (i in 1:5852) ppred0[i]=1-ppred[i] > for (i in 1:5852) ppred1[i]=ppred[i] Ana Gema Galera Pozo 81 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Se calculan las frecuencias predichas bajo el modelo como la multiplicación de las probabilidades predichas y el número total de frecuencias observadas en la combinación q de variables explicativas. > for (i in 1:5852) FT[i]=fobs0[i]+fobs1[i] > for (i in 1:5852) fpred0[i]=FT[i]*ppred0[i] > for (i in 1:5852) fpred1[i]=FT[i]*ppred1[i] > head(fpred0) [1] 0.0000000 0.0000000 0.7650075 0.8762278 0.0000000 1.2377914 Se calcula el estadístico X2. > for (i in 1:5852) x0[i]=(fobs0[i]-fpred0[i])^2/fpred0[i] > a<-ifelse(is.na(x0),0,x0) > sum(a) [1] 5200.536 > for (i in 1:5852) x1[i]=(fobs1[i]-fpred1[i])^2/fpred1[i] > b<-ifelse(is.na(x1),0,x1) > sum(b) [1] 3883.667 > X2.ind<-data.frame(a,b) > X2<-sum(X2.ind) > X2 [1] 9084.203 Los grados de libertad son el número de combinaciones de las variables explicativas que aparecen en la muestra - el número de parámetros en el modelo (con constante). Para construir las Q combinaciones de las variables explicativas se ha utilizado en R la función xtabs. Esta función construye la tabla de contigencia con todas las combinaciones posibles, aunque algunas de ellas no apareciera en la muestra para ninguna categoría de la variable respuesta. Por ello, para calcular los grados de libertad vamos a tomar las Q combinaciones de las variables explicativas que sí aparecieran en la muestra y que, dicho de otro modo, no pueden tener frecuencia 0 sumando las frecuencias observadas en la combinación q de las tres categorías. > contador=0 > for (i in 1:5852) {if (FT[i]>0) contador=contador+1 else contador=contador} > contador [1] 4279 > gl<-4279-37 > gl [1] 4242 Calculamos el p.valor. Ana Gema Galera Pozo 82 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > p.valor=1-pchisq(X2,gl) > p.valor [1] 0 Si calculamos el valor del estadístico G2, se obtiene el siguiente resultado: > for (i in 1:5852) x1[i]=fobs1[i]*(log(fobs1[i]/fpred1[i])) > for (i in 1:5852) x0[i]=fobs0[i]*(log(fobs0[i]/fpred0[i])) > a<-ifelse(is.na(x0),0,x0) > sum(a) [1] 2832.469 > b<-ifelse(is.na(x1),0,x1) > sum(b) [1] 1430.609 > G2<-2*(sum(a)+sum(b)) > G2 [1] 8526.157 > p.valor=1-pchisq(G2,gl) > p.valor [1] 0 Por tanto, calculando los valores de ambas estadísticos tampoco podríamos afirmar que el modelo se ajuste bien, de manera global, a los datos observados. Sin embargo, para realizar una validación completa podemos también calcular la tabla de clasificaciones correctas que también nos puede servir como medida de bondad del ajuste global. Tabla de clasificaciones correctas Tal y como se explicó en la metodología, la tabla de clasificaciones correctas es la proporción de individuos que bajo el modelo obtenido se han clasificado correctamente en su categoría de observación. En este caso debemos comprobar si se clasifican correctamente los individuos activos e inactivos como tal, según el modelo estimado. En primer lugar, se va a a comprobar la tabla de clasificación para los individuos de la muestra, y a continuación, se va a comprobar con los datos de la población total estimada bajo el factor de elevación. Tabla de clasificación para los individuos de la muestra > table(datos.tfm$act_inac) 0 1 65443 78667 Ana Gema Galera Pozo 83 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores La muestra tenía 65.443 personas clasificadas como inactivas y 78.667 clasificadas como activas. Para clasificar a una persona como activa o inactiva bajo el modelo que calcula la probabilidad de estar activo, debemos escoger un punto, que por encima de este valor clasifiquemos a la persona como activa, y bajo este punto, la clasifiquemos como inactiva. En primer lugar, vamos a tomar como punto de determinación la probabilidad de 0,5. Cuando la probabilidad estimada sea superior a 0,5 la persona será clasificada como activa, y cuando la probabilidad sea menor, se clasificará como inactiva. Teniendo en cuenta estas consideraciones podemos estimar cuantas personas se clasifican en cada colectivo según las probabilidades estimadas bajo el modelo. > prediccion <- ifelse(fitted.values(modelo.svy) >= 0.5, 1,0) > table(prediccion) prediccion 0 1 55278 88832 Tomando 0,5 como punto para la clasificación, se han estimado 55.278 personas que son inactivas y 88.832 que son activas. A continuación observamos cuantas se han clasificado correctamente en cada grupo a partir de la tabla de clasificación: > tabla.clasificacion<-table(datos.tfm$act_inac, prediccion) > tabla.clasificacion prediccion 0 1 0 49264 16179 1 6014 72653 Tal y como se observa, el 75,28% de los inactivos han sido clasificados correctamente al igual que el 92,36% de los activos. Por tanto, la tasa de clasificación correcta del total de los individuos de la muestra es de un 84,6%. Estos resultados son bastante buenos, por lo que el modelo que se ha obtenido puede ser bastante predictivo. Sin embargo, las predicciones pueden mejorarse aún más si encontramos un punto a partir del cual la clasificación de las personas, en inactivas o activas, sea más óptima. A partir de la librería ROCR en R, podemos calcular distintas medidas para obtener aquel punto (cutpoint) que nos de las mejores tasas de clasificación, es decir, maximice la tasa de clasificación correcta. > library(ROCR) > pred <- prediction(fitted.values(modelo.svy), datos.tfm$act_inac) > p1 <- performance(pred, measure = "acc") > (posicion.max <- sapply([email protected], which.max)) [1] 2806 Ana Gema Galera Pozo 84 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > (cutpoint <- sapply([email protected], "[", posicion.max)) 105329 0.5704263 El punto obtenido es 0.5704263. Esto significa que los individuos con probabilidades estimadas por encima de 0.5704263 deben clasificarse como activos, y por debajo de ese valor, como inactivos. > prediccion <- ifelse(fitted.values(modelo.svy) >= 0.5704263, 1,0) > table(prediccion) prediccion 0 1 59412 84698 > tabla.clasificacion<-table(datos.tfm$act_inac, prediccion) > tabla.clasificacion prediccion 0 1 0 51348 14095 1 8064 70603 Con el nuevo cutpoint que se ha obtenido para clasificar a las personas en activas e inactivas, se ha conseguido que un 78,46% de los individuos inactivos de la muestra se clasifiquen correctamente y el 89,75% de los activos. Por tanto, casi el 90% de los individuos de la muestra (89,75%) se clasifican adecuadamente. Por otro lado, el análisis del área bajo la curva ROC informa que, en su conjunto, la precisión del modelo es bastante alta. > AUC <- performance(pred, "auc") > [email protected] [1] "Area under the ROC curve" > [email protected] [[1]] [1] 0.9128167 > p2 <- performance(pred, "tpr", "fpr") > plot(p2, colorize = TRUE) > abline(a = 0, b = 1) > text(0.4, 0.6, paste([email protected], "\n", round(unlist([email protected]), 3)), cex = 0.7) Ana Gema Galera Pozo 85 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores El área bajo la curva es de algo más del 91%, por lo que el modelo obtenido da buenos resultados en la discriminación de las personas de 16 y más años como activas o inactivas. Si utilizamos los factores de elevación de la muestra de la EPA, podemos ponderar para obtener los valores de población total de España. Bajo estos valores de población total se va a estimar cual es la tasa de clasificación correcta para examinar el poder de discriminación del modelo obtenido para la población total de España según las estimaciones realizadas por la encuesta. > ob<-xtabs(fe~act_inac) > ob act_inac 0 1 15599704 22883897 Según los datos de la EPA, en España 15.599.704 personas de 16 o más años son inactivas, y 22.883.897 son activas. > prediccion <- ifelse(fitted.values(modelo.total) >= 0.5, 1,0) > pred<-xtabs(fe~prediccion) > pred prediccion 0 1 12833435 25650165 Bajo el modelo se han estimado 12.833.435 inactivos y 25.650.165 activos. > tabla.clasificacion<-xtabs(fe~datos.tfm$act_inac+prediccion) > tabla.clasificacion prediccion datos.tfm$act_inac 0 1 0 11332957 4266747 1 1500478 21383419 Tomando como punto de clasificación el 0,5, el 72,6% de la población inactiva se clasifica bien bajo el modelo estimado. En el caso de la población activa, el 93,4% se ha clasificado Ana Gema Galera Pozo 86 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores correctamente. Por tanto, la tasa de clasificación correcta es de un 85% en la población total de España, por lo que al igual que ya decíamos para el caso de la validación de la muestra, el modelo que se ha obtenido es bastante bueno en el ajuste global de la población. Calidad del Modelo Para realizar un análisis más completo se van a calcular lo R2 de Cox Snell y R2 de Nagelkerke. EL R2 de Cox Snell es de la forma > R2cs<-1-exp((vf-v0)/144110) [1] 0.4755057 Y el R2 de Nagelkerke > R2n<-R2cs/(1-exp(-v0/144110)) [1] 0.6418601 En el último caso, el valor es de algo más del 64%, valor que podemos considerar bastante bueno en cuanto a la calidad del ajuste. Diagnóstico y validación Para realizar una validación completa del modelo es necesario realizar un estudio de los residuos y de las medidas de influencia para comprobar si el ajuste es bueno observación a observación. De manera general se consideran que un residuo es significativamente mayor que cero si el valor del residuo en valor absoluto es mayor que significación zα / 2 . Para ello debemos fijar un nivel de α , que será en nuestro caso de 0,05. Por tanto, zα / 2 =1.96. Vamos a buscar aquellos residuos que sean, en valor absoluto, mayores a 1.96. Como estabamos trabajando con datos no agrupados, es decir, con datos individuo a individuo, los residuos que vamos a obtener son los correspondientes a cada individuo de la muestra y no a cada combinación de las variables explicativas. > res.pearson <- residuals(modelo.svy, type = "pearson") > res.pearson.sig <- abs(res.pearson) > 1.96 > table(res.pearson.sig) res.pearson.sig FALSE TRUE 136154 7956 En el caso de los residuos de Pearson, se obtiene 7.956 residuos que se pueden considerar significativamente distintos de cero. Este número de residuos suponen el 5,5% de todos los residuos de la muestra que son 144.110. Ana Gema Galera Pozo 87 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Si calculamos los residuos de Pearson estandarizados se obtiene que 7.482 residuos son significativamente distintos de cero, lo que supone un 5,4% de todos los individuos de la muestra. > res.pearson.estd <- rstandard(modelo.svy, type = "pearson") > res.pearson.estd.sig<-abs(res.pearson.estd)>1.96 > table(res.pearson.estd.sig) res.pearson.estd.sig FALSE TRUE 136268 7842 En el caso de los residuos de la deviance, el resultado es mucho mejor, > res.deviance <- residuals(modelo.total, type = "deviance") > res.deviance.sig <- abs(res.deviance) > 1.96 > table(res.deviance.sig) res.deviance.sig FALSE TRUE 139031 5079 sólo 5.079 residuos se consideran significativamente distintos de cero, un 3,5% del total de los residuos de la muestra. > res.deviance.std <- rstandard(modelo.svy, type = "deviance") > table(abs(res.deviance.std) > 1.96) FALSE 139076 TRUE 5034 En el caso de los residuos estandarizados de la deviance, sólo el 3,5% de los mismos se consideran significativamente mayores que 0 en valor absoluto. > res.student <- rstudent(modelo.svy) > table(abs(res.student) > 1.96) FALSE TRUE 139027 5083 En el caso de los residuos estunderizados, el 3,5% de los residuos son significativamente distintos de cero. A la vista de los resultados obtenidos en el análisis de los residuos, y ya que en casi todos los casos los residuos significativamente distintos de cero no suponen mucho más del 5% e incluso en la mayoría de los casos no supera el 3,5%, la validación puede darse por buena. A continuación se calculan también las distancias de cook para probar si existe algún registro que se bastante influyente. Un registro se considera influyente si la distancia de cook es mayor que 1, tal y como se explicaba en la metodología. Ana Gema Galera Pozo 88 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > distancias.cook <- cooks.distance(modelo.total) > table(distancias.cook > 1) FALSE 144110 Tal y como se muestra en la tabla de resultados, no existe ningún valor que pueda considerarse influyente. Contrastes sobre los parámetros Por último, para poder interpretar el modelo es necesario que los parámetros del modelo sean significativamente distintos de cero. En el resumen de los datos obtenidos en R con la función svyglm, ésta realiza y nos devuelve a su vez los resultados obtenidos de aplicar el contraste de Wald. Este contraste está basado en la normalidad asintótica de los estimadores de MV. Bajo la hipótesis nula de que el parámetro sea nulo, se rechazará la hipótesis si el estadístico de Wald es mayor o igual que 1,96 si consideramos un nivel de significación de 0,05; o lo que es lo mismo, que el p-valor asociado al estadístico sea menor que el nivel de significación fijado (0,05). En la salida del resumen, (Tabla 8), podemos ver la columna z que es la que tiene los valores del estadístico de Wald, y la columna con los p-valores asociados. > summary(modelo.total) β E.S Z Pr(>|z|) Signif. (Intercept) -3.22378 0.12725 -25.335 < 2e-16 * edad20 2.04345 0.05641 36.223 < 2e-16 * edad25 3.51577 0.06314 55.684 < 2e-16 * edad30 4.00798 0.06471 61.939 < 2e-16 * edad35 3.91599 0.06080 64.409 < 2e-16 * edad40 3.70085 0.05883 62.903 < 2e-16 * edad45 3.53359 0.05782 61.118 < 2e-16 * edad50 3.26572 0.05598 58.340 < 2e-16 * edad55 2.66689 0.05532 48.212 < 2e-16 * edad60 1.42287 0.05617 25.332 < 2e-16 * edad65 Primaria incom Primaria -2.06057 0.07269 -28.348 < 2e-16 * 1.01190 0.12446 1.53553 0.11516 8.130 4.31e-16 13.334 < 2e-16 * * 1ª Secundaria 1.90553 0.11315 16.841 < 2e-16 * 2ª Secundaria 1.69309 0.11426 14.818 < 2e-16 * O. Profesional Superiores 2.33789 0.11884 2.57951 0.11482 19.673 < 2e-16 22.466 < 2e-16 * * Mujer -0.77685 0.02068 -37.572 < 2e-16 * Aragón 0.17339 0.05328 3.254 0.001137 * Asturias -0.25407 0.05082 -4.999 5.77e-07 * Baleares 0.02108 0.06406 0.329 0.742146 Ana Gema Galera Pozo 89 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España β E.S Z los factores Pr(>|z|) Signif. Canarias 0.08235 0.04869 1.691 0.090781 Cantabría -0.18689 0.05597 -3.339 0.000841 * Castilla-León 0.01715 0.03756 0.457 0.647856 Cast Mancha 0.15939 0.04024 3.961 7.47e-05 * Cataluña 0.37291 0.03804 9.804 < 2e-16 * C.Valenciana 0.09833 0.04220 2.330 0.019800 * Extremadura -0.10872 0.04860 -2.237 0.025284 * Galicia -0.03961 0.03299 -1.201 0.229814 Madrid 0.23329 0.04689 4.975 6.53e-07 * Murcia Navarra País Vasco 0.11092 0.16115 -0.04824 0.05411 0.06287 0.04446 2.050 2.563 -1.085 0.040386 * 0.010376 * 0.277932 Rioja 0.22519 0.07131 3.158 0.001591 * Ceuta -0.23012 0.13107 -1.756 0.079139 Melilla -0.35462 0.13939 -2.544 0.010959 * Español -0.24858 0.04712 -5.276 1.32e-07 * Significación: ‘*’ significativo a un nivel 0.05 ; ‘ ’ no sign Categorías de referencia es un hombre extranjero de 16 a 20 años, que vive en Andalucía y es analfabeto Tabla 8: Estimación de los parámetros del modelo. En todos los casos, a excepción de los parámetros asociados a la Comunidad Autónoma de País Vasco, Baleares, Canarias, Ceuta, Castilla-León y Galicia, los parámetros son significativamente distintos de cero a un nivel de confianza del 95%. Los seis parámetros que pueden considerarse nulos son categorías de la variable ‘Comunidad Autónoma’, por lo que deben permanecer en el modelo porque el resto de categorías de esta variable sí influyen. Para facilitar la interpretación de los parámetros, se van a calcular sus exponenciales, así como sus intervalos de confianza al 95%, que nos dan una interpretación de la ventaja de ser activo frente a ser inactivo para los distintos valores de las variables explicativas (Tabla 9). > exp(confint.default(modelo.total, level = 0.95)) exp(β) 0,025% 0,975% Signif. (Intercept) 0,040 0,031 0,051 * edad20 7,717 6,909 8,619 * edad25 edad30 33,642 55,035 29,726 48,480 38,074 * 62,477 * edad35 edad40 50,199 40,482 44,560 36,073 56,552 * 45,430 * edad45 edad50 edad55 edad60 edad65 Primaria incom 34,247 26,199 14,395 4,149 0,127 30,578 23,477 12,916 3,716 0,110 38,356 29,237 16,044 4,632 0,147 2,751 2,155 3,511 * Primaria 4,644 3,706 5,820 * * * * * * Ana Gema Galera Pozo 90 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España exp(β) 0,025% 0,975% los factores Signif. 1ª Secundaria 6,723 5,386 8,392 * 2ª Secundaria 5,436 4,346 6,801 * O. Profesional 10,359 8,207 13,076 * Superiores 13,191 10,533 16,520 * Mujer 0,460 0,442 0,479 * Aragón 1,189 1,071 1,320 * Asturias 0,776 0,702 0,857 * Baleares 1,021 0,901 1,158 Canarias 1,086 0,987 1,195 Cantabría 0,830 0,743 0,926 * Castilla-León 1,017 0,945 1,095 Cast Mancha 1,173 1,084 1,269 * Cataluña 1,452 1,348 1,564 * C.Valenciana 1,103 1,016 1,198 * Extremadura 0,897 0,815 0,987 * Galicia 0,961 0,901 1,025 Madrid 1,263 1,152 1,384 * Murcia 1,117 1,005 1,242 * Navarra 1,175 1,039 1,329 * País Vasco 0,953 0,873 1,040 Rioja 1,253 1,089 1,440 * Ceuta 0,794 0,614 1,027 Melilla 0,701 0,534 0,922 * Español 0,780 0,711 0,855 * Significación: ‘*’ significativo a un nivel 0.05 ; ‘ ’ no sign Categorías de referencia es un hombre extranjero de 16 a 20 años, que vive en Andalucía y es analfabeto Tabla 9: Estimación de las exponenciales de los parámetros del modelo e intervalos de confianza El valor de la exponencial de la constante nos informa de la ventaja de ser activo para la persona de referencia tomada en cada una de las categorías. Así la ventaja de ser activo es de 1 a 25 para el caso de una persona que sea hombre, extranjero, de entre 16 y 19 años, analfabeto y que viva en Andalucía. En el caso del sexo, la mujer presenta desventajas a la hora de pertenecer a la actividad económica del país. Concretamente, la ventaja de ésta se divide por 2,17 (1/0,46) frente a la del hombre. Equivalentemente, la ventaja a favor de estar activo es aproximadamente el doble para los hombres que para las mujeres En el caso de la nacionalidad, ser español también presenta desventajas frente a ser extranjero. La ventaja a favor de estar activo es 1,28 veces mayor para los extranjeros que para los españoles. Ana Gema Galera Pozo 91 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores En el caso del nivel de estudios terminados, parece que la ventaja de participar en el mercado de trabajo va aumentando conforme el nivel de estudios es mayor. Concretamente, aquellos que tienen un nivel de primaria incompleta, presentan una ventaja de 2.75 veces mayor que los que son analfabetos. Para los que tiene secundaria (ya sea primera o segunda etapa), la ventaja de ser activo se multiplica entre 4 y 8 frente a los que no tienen estudios. Para los que tienen estudios de orientación profesional su ventaja frente a los analfabetos se multiplica por 10. Para los que tienen estudios superiores, su ventaja se multiplica entre un 10,5 y un 16,5 frente a los no tienen ningún tipo de estudios. En el caso de las Comunidades Autónomas, a excepción de Asturias, Cantabria y Extremadura, el resto presentan mayores ventajas que Andalucía en lo relativo a ser activo. En casi todas las Comunidades Autónomas, la ventaja de pertenecer a la actividad activa del país, se multiplica en torno a 1,1; a excepción de Madrid y la Rioja cuya ventaja se multiplica por 1,26 frente a la población andaluza; y Cataluña que presenta la mayor ventaja (1,45 veces mayor que Andalucía). Asturias presenta la menor ventaja de pertenecer al colectivo de activos. Ésta se divide por 1,3 frente a Andalucía. Extremadura y Cantabria, aún teniendo una ventaja menor que la de Andalucía, éstas se multiplican entre 0,8 y 0,9, muy cerca de la andaluza. Las seis Comunidades Autónomas con parámetro 0 y cuyas exponenciales son 1, y que correspondientes a las Comunidades Autónomas del Páis Vasco, Galicia, Ceuta, Castilla-León, Canarias y Baleares, se interpretan como que los individuos residentes en ellas tienen la misma ventaja de estar activos que en la Comunidad Andaluza. En cuanto a la edad, el aumento de la misma también contribuye a presentar mayores ventajas a la hora de estar activo hasta alcanzar la edad de jubilación (65 años), que disminuye frente a los más jóvenes. Desde los 20 años, la ventaja de ser una persona activa es 7,7 veces mayor que los jóvenes de entre 16 y 19 años. A partir de los 25 años, esta ventaja se multiplica por 33,6. Sigue aumentando hasta los 40 años donde se presentar una ventaja de estar activo que se multiplica por 40 frente a los más jóvenes. Sin embargo, a partir de los 50 años la ventaja de ser activo es de 26 veces más que la de una persona de entre 16 y 19 años, y con 60-64 años de sólo 4 veces más que la del colectivo de referencia. Los mayores de 65 años son el colectivo con más desventaja. Éstos dividen su ventaja por 8 frente a los que tienen entre 16 y 19 años. Ana Gema Galera Pozo 92 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 5.4. Ajuste de un modelo de regresión multinomial para explicar los factores relacionados con la ocupación, desempleo e inactividad de la población española. Como ya se anunciaba al comienzo de este capítulo, el segundo análisis que se va a realizar tratará de explicar aquellos factores que más influyen y las características que acentúan el hecho de pertenecer al colectivo de ocupados, parados o inactivos entre la población con edad de trabajar en España. Para realizar la regresión multinomial se ha definido como variable de respuesta ‘mult’ la relación con la actividad económica de la población con las tres categorías de clasificación: 0 para la población parada, 1 para la población ocupada y 2 para la población inactiva. El colectivo de parados será la categoría de referencia para realizar la regresión logística multinomial. > head(datos.tfm) 1 2 3 4 5 6 act_inac ccaa sexo edad nacionalidad estudios fe mult 1 16 6 35 1 SU 435.54 1 1 16 1 30 1 S1 435.54 1 0 16 6 45 1 SU 309.65 2 1 16 1 50 1 SU 309.65 1 1 16 6 20 1 S1 309.65 0 1 16 1 35 1 SU 460.45 1 Esta vez, se va a utilizar la función ‘multinom’ de la librería (nnet) de R. En el anexo 8.3 se incluye los principales argumentos de la función. Entre sus argumentos se incluye ‘weights’ que permite incluir la ponderación de los casos para la regresión, indicando sólo el nombre de la variable donde están incluidas las ponderaciones. Al igual que en el caso de la regresión binaria, la construcción del modelo más adecuado se va a obtener a partir de la selección de variables paso a paso. La función ‘multinom’ permite usar la función step que permite realizar un stepwise de manera automática. Las variables candidatas a entrar en el modelo son aquellas cuyo p-valor del contraste es menor que α 1 fijado para la entrada de términos. Normalmente suele fijarse en 0,1. De todas las variables candidatas a entrar, lo hará aquella de menor p-valor. En el caso de la función multinom, R no muestra los p-valores de los contrastes condicionales de razón de verosimilitud, pero muestra el valor de AIC del modelo que se basa en el criterio de información de Akaike. La función step toma el AIC asociado a los diferentes modelos que resultan en cada paso al añadir o quitar una variable, y elige el modelo con menor valor de AIC. Como el procedimiento es en ambas direcciones, una vez incluida una variable se elige el término que puede salir del modelo. El procedimiento se detiene cuando no hay más variables que puedan incluirse en el modelo. Ana Gema Galera Pozo 93 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Para comenzar el procedimiento ajustamos el modelo más simple: el modelo que toma sólo la constante. Para ello usamos la función ‘multinom’. > modelom.0 <- multinom(mult ~ 1, weight=fe, data = datos.tfm) # weights: 6 (2 variable) initial value 42 278556.674178 final value 39077718.359780 converged > modelom.0 Call: multinom(formula = mult ~ 1, data = datos.tfm, weights = fe) Coefficients: (Intercept) 1 -0.96664723 2 0.08306237 Residual Deviance: 78155437 AIC: 78155441 A continuación construimos el modelo más adecuado a partir del modelo más simple con la función step en ambas direcciones. > modelom.step<step(modelom.0,scope=list(lower=mult~1,upper=mult~sexo+ccaa+estudios+n acionalidad+edad),direction="both") Paso 1. Start: AIC=78155441 mult ~ 1 trying + sexo # weights: 9 (4 variable) initial value 42278556.674178 final value 38800093.083867 converged trying + ccaa # weights: 60 (38 variable) initial value 42278556.674178 iter 10 value 39038856.792832 iter 20 value 39036706.741272 iter 30 value 39035096.344236 iter 40 value 38900984.052782 final value 38811061.047292 converged trying + estudios # weights: 24 (14 variable) initial value 42278556.674178 iter 10 value 36166933.390789 iter 20 value 34399441.414544 final value 34399262.440144 converged trying + nacionalidad # weights: 9 (4 variable) initial value 42278556.674178 iter 10 value 38766791.335642 iter 10 value 38766791.137204 final value 38766791.137204 Ana Gema Galera Pozo 94 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores converged trying + edad # weights: 36 (22 variable) initial value 42278556.674178 iter 10 value 27540490.732054 iter 20 value 27425537.012721 iter 30 value 27008630.259867 final value 27007690.376373 converged Df AIC + +edad 22 54015425 + +estudios 14 68798553 + +nacionalidad 4 77533590 + +sexo 4 77600194 + +ccaa 38 77622198 <none> 2 78155441 # weights: 36 (22 variable) initial value 42278556.674178 iter 10 value 27540490.732054 iter 20 value 27425537.012721 iter 30 value 27008630.259867 final value 27007690.376373 converged En el primer paso se construye un modelo para cada una de las cinco variables candidatas a entrar, y extrae el valor de AIC de cada modelo. El modelo con menor valor de AIC es el modelo que se obtiene de incluir la variable edad, por tanto ésta es la primera variable que entra en el modelo Paso 2. Step: AIC=54015425 mult ~ edad trying - edad # weights: 6 (2 variable) initial value 42278556.674178 final value 39077718.359780 converged trying + sexo # weights: 39 (24 variable) initial value 42278556.674178 iter 10 value 29899359.660466 iter 20 value 29517013.614668 iter 30 value 26715029.201575 iter 40 value 26710817.758904 final value 26710816.960568 converged trying + ccaa # weights: 90 (58 variable) initial value 42278556.674178 iter 10 value 27358679.759454 iter 20 value 27226481.174720 iter 30 value 27224781.085722 iter 40 value 27223181.941477 iter 50 value 27053924.473387 iter 60 value 26864383.347717 iter 70 value 26761881.032602 final value 26761705.451242 converged trying + estudios # weights: 54 (34 variable) initial value 42278556.674178 iter 10 value 27645355.602656 iter 20 value 27241644.099099 iter 30 value 27223725.066244 iter 40 value 26091345.528425 iter 50 value 26082507.688010 Ana Gema Galera Pozo 95 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores iter 50 value 26082507.581280 iter 50 value 26082507.581280 final value 26082507.581280 converged trying + nacionalidad # weights: 39 (24 variable) initial value 42278556.674178 iter 10 value 29119491.591980 iter 20 value 28947563.014521 iter 30 value 26920614.223121 iter 40 value 26910358.273604 final value 26910350.494229 converged Df AIC + +estudios 34 52165083 + +sexo 24 53421682 + +ccaa 58 53523527 + +nacionalidad 24 53820749 <none> 22 54015425 - edad 2 78155441 # weights: 54 (34 variable) initial value 42278556.674178 iter 10 value 27645355.602656 iter 20 value 27241644.099099 iter 30 value 27223725.066244 iter 40 value 26091345.528425 iter 50 value 26082507.688010 iter 50 value 26082507.581280 iter 50 value 26082507.581280 final value 26082507.581280 converged En el paso 2, la variable que finalmente entra en el modelo es la variable ‘nivel de estudios’ que tiene un menor valor de AIC. Paso 3. Step: AIC=52165083 mult ~ edad + estudios trying - edad # weights: 24 (14 variable) initial value 42278556.674178 iter 10 value 36166933.390789 iter 20 value 34399441.414544 final value 34399262.440144 converged trying - estudios # weights: 36 (22 variable) initial value 42278556.674178 iter 10 value 27540490.732054 iter 20 value 27425537.012721 iter 30 value 27008630.259867 final value 27007690.376373 converged trying + sexo # weights: 57 (36 variable) initial value 42278556.674178 iter 10 value 29815915.004922 iter 20 value 29175357.420447 iter 30 value 29164272.279113 iter 40 value 25882939.710955 iter 50 value 25769150.238968 final value 25768316.466123 converged trying + ccaa # weights: 108 (70 variable) initial value 42278556.674178 Ana Gema Galera Pozo 96 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores iter 10 value 27669742.175235 iter 20 value 27218285.838733 iter 30 value 27185818.219221 iter 40 value 27183251.967745 iter 50 value 27116918.691405 iter 60 value 26234609.306655 iter 70 value 26133815.861991 iter 80 value 25927085.027403 final value 25926316.880360 converged trying + nacionalidad # weights: 57 (36 variable) initial value 42278556.674178 iter 10 value 28900060.084058 iter 20 value 28361080.302405 iter 30 value 28338888.494467 iter 40 value 26111769.544467 iter 50 value 26022019.484688 final value 26018674.386367 converged Df AIC + +sexo 36 51536705 + +ccaa 70 51852774 + +nacionalidad 36 52037421 <none> 34 52165083 - estudios 22 54015425 - edad 14 68798553 # weights: 57 (36 variable) initial value 42278556.674178 iter 10 value 29815915.004922 iter 20 value 29175357.420447 iter 30 value 29164272.279113 iter 40 value 25882939.710955 iter 50 value 25769150.238968 final value 25768316.466123 converged En el tercer paso es la variable sexo la que se introduce en el modelo y, ni la edad ni el nivel de estudios, salen del modelo. Paso 4. Step: AIC=51536705 mult ~ edad + estudios + sexo trying - edad # weights: 27 (16 variable) initial value 42278556.674178 iter 10 value 35942695.856184 iter 20 value 34164569.296054 final value 34160960.457891 converged trying - estudios # weights: 39 (24 variable) initial value 42278556.674178 iter 10 value 29899359.660466 iter 20 value 29517013.614668 iter 30 value 26715029.201575 iter 40 value 26710817.758904 final value 26710816.960568 converged trying - sexo # weights: 54 (34 variable) initial value 42278556.674178 iter 10 value 27645355.602656 iter 20 value 27241644.099099 iter 30 value 27223725.066244 iter 40 value 26091345.528425 Ana Gema Galera Pozo 97 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores iter 50 value 26082507.688010 iter 50 value 26082507.581280 iter 50 value 26082507.581280 final value 26082507.581280 converged trying + ccaa # weights: 111 (72 variable) initial value 42278556.674178 iter 10 value 29651519.865707 iter 20 value 29018072.569999 iter 30 value 29005670.170625 iter 40 value 29002924.035306 iter 50 value 28959457.327236 iter 60 value 28302350.291112 iter 70 value 27138984.053357 iter 80 value 25650175.628419 iter 90 value 25609475.382242 final value 25609317.191320 converged trying + nacionalidad # weights: 60 (38 variable) initial value 42278556.674178 iter 10 value 30928483.894671 iter 20 value 29921947.131486 iter 30 value 29885681.360952 iter 40 value 26977935.334514 iter 50 value 25717775.611715 final value 25703477.011024 converged Df AIC + +ccaa 72 51218778 + +nacionalidad 38 51407030 <none> 36 51536705 - sexo 34 52165083 - estudios 24 53421682 - edad 16 68321953 # weights: 111 (72 variable) initial value 42278556.674178 iter 10 value 29651519.865707 iter 20 value 29018072.569999 iter 30 value 29005670.170625 iter 40 value 29002924.035306 iter 50 value 28959457.327236 iter 60 value 28302350.291112 iter 70 value 27138984.053357 iter 80 value 25650175.628419 iter 90 value 25609475.382242 final value 25609317.191320 converged La siguiente variable que se incluye en el modelo es la “ccaa”, pero no sale ninguna de las variables del modelo de partida. Paso 5. En este paso sólo la variable ‘nacionalidad’ puede introducirse en el modelo. Step: AIC=51218778 mult ~ edad + estudios + sexo + ccaa trying - edad # weights: 81 (52 variable) initial value 42278556.674178 iter 10 value 35945474.571778 iter 20 value 35753655.218336 iter 30 value 35746290.418452 iter 40 value 35727534.838562 iter 50 value 34702895.674034 iter 60 value 33929732.046163 final value 33929063.291552 Ana Gema Galera Pozo 98 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores converged trying - estudios # weights: 93 (60 variable) initial value 42278556.674178 iter 10 value 29635548.263924 iter 20 value 29225610.075684 iter 30 value 29221022.826507 iter 40 value 29211998.750386 iter 50 value 27818536.419263 iter 60 value 27545499.091710 iter 70 value 26464543.456461 iter 80 value 26460584.130221 final value 26460580.830452 converged trying - sexo # weights: 108 (70 variable) initial value 42278556.674178 iter 10 value 27669742.175235 iter 20 value 27218285.838733 iter 30 value 27185818.219221 iter 40 value 27183251.967745 iter 50 value 27116918.691405 iter 60 value 26234609.306655 iter 70 value 26133815.861991 iter 80 value 25927085.027403 final value 25926316.880360 converged trying - ccaa # weights: 57 (36 variable) initial value 42278556.674178 iter 10 value 29815915.004922 iter 20 value 29175357.420447 iter 30 value 29164272.279113 iter 40 value 25882939.710955 iter 50 value 25769150.238968 final value 25768316.466123 converged trying + nacionalidad # weights: 114 (74 variable) initial value 42278556.674178 iter 10 value 30745679.745102 iter 20 value 29726788.510745 iter 30 value 29686927.599942 iter 40 value 29679802.284499 iter 50 value 29657907.583133 iter 60 value 28714883.061549 iter 70 value 27363597.593984 iter 80 value 25710324.056024 iter 90 value 25540249.394777 final value 25537543.893218 converged Df AIC + +nacionalidad 74 51075236 <none> 72 51218778 - ccaa 36 51536705 - sexo 70 51852774 - estudios 60 52921282 - edad 52 67858231 # weights: 114 (74 variable) initial value 42278556.674178 iter 10 value 30745679.745102 iter 20 value 29726788.510745 iter 30 value 29686927.599942 iter 40 value 29679802.284499 iter 50 value 29657907.583133 iter 60 value 28714883.061549 iter 70 value 27363597.593984 iter 80 value 25710324.056024 iter 90 value 25540249.394777 Ana Gema Galera Pozo 99 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores final value 25537543.893218 converged Finalmente ésta se incluye en el modelo. Paso 6. En este último, el programa se plantea si al incluir la nacionalidad en el modelo, algunas de las otras cuatro variables puedan salir del modelo. Step: AIC=51075236 mult ~ edad + estudios + sexo + ccaa + nacionalidad trying - edad # weights: 84 (54 variable) initial value 42278556.674178 iter 10 value 35468856.713553 iter 20 value 35259925.809177 iter 30 value 35254279.480361 iter 40 value 35247129.s547672 iter 50 value 34404626.697318 iter 60 value 33604288.617595 final value 33600847.083872 converged trying - estudios # weights: 96 (62 variable) initial value 42278556.674178 iter 10 value 28892128.717923 iter 20 value 28542334.699648 iter 30 value 28537714.988169 iter 40 value 28535613.611855 iter 50 value 27605961.632568 iter 60 value 27280243.004549 iter 70 value 26386801.192489 iter 80 value 26353703.616689 final value 26353691.008408 converged trying - sexo # weights: 111 (72 variable) initial value 42278556.674178 iter 10 value 29067460.433715 iter 20 value 28402257.616714 iter 30 value 28377739.227632 iter 40 value 28372559.162353 iter 50 value 28239803.239146 iter 60 value 27286683.992434 iter 70 value 26869901.699968 iter 80 value 25878607.377389 iter 90 value 25855171.416960 final value 25855148.309406 converged trying - ccaa # weights: 60 (38 variable) initial value 42278556.674178 iter 10 value 30928483.894671 iter 20 value 29921947.131486 iter 30 value 29885681.360952 iter 40 value 26977935.334514 iter 50 value 25717775.611715 final value 25703477.011024 converged trying - nacionalidad # weights: 111 (72 variable) initial value 42278556.674178 iter 10 value 29651519.865707 iter 20 value 29018072.569999 iter 30 value 29005670.170625 Ana Gema Galera Pozo 100 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores iter 40 value 29002924.035306 iter 50 value 28959457.327236 iter 60 value 28302350.291112 iter 70 value 27138984.053357 iter 80 value 25650175.628419 iter 90 value 25609475.382242 final value 25609317.191320 converged Df AIC <none> 74 51075236 - nacionalidad 72 51218778 - ccaa 38 51407030 - sexo 72 51710441 - estudios 62 52707506 - edad 54 67201802 Tal y como se observa en el resultado, ninguna variable es candidata a salir, por lo que las cinco variables permanecen en el modelo. Finalmente el modelo que se ha obtenido se compone de la constante, la edad, la variable ‘nivel de estudios terminados’, el sexo, la Comunidad Autónoma de residencia y la nacionalidad. > summary(modelom.step) Call: multinom(formula = mult ~ edad + sexo + nacionalidad + ccaa + estudios, data = datos.tfm, weights = fe) Coefficients: (Intercept) edad50 edad55 edad20 edad25 edad30 edad35 edad40 edad45 1 -2.459026 0.4150943 1.239018 1.575586 1.723815 1.781548 1.790705 1.932922 1.974095 2 2.630242 -1.9675900 -2.982726 -3.246612 -3.044731 -2.785130 -2.610874 -2.237125 -1.606809 edad60 edad65 sexo6 nacionalidad1 ccaa2 ccaa3 ccaa4 ccaa5 1 2.1890533 3.523677 -0.1560379 0.5157588 0.5194798 0.4039511 0.4386474 0.126470667 2 -0.1943315 4.475223 0.6612178 0.5450348 0.1705877 0.5169425 0.2614181 -0.008371586 ccaa6 ccaa7 ccaa8 ccaa9 ccaa10 ccaa11 ccaa12 ccaa13 ccaa14 1 0.5122471 0.5148050 0.23723523 0.61597891 0.29172163 0.1112688 0.4583702 0.5682242 0.4173326 2 0.5310990 0.3256409 -0.01230576 0.03669374 0.08200684 0.1693218 0.3374715 0.1525727 0.1575535 ccaa15 ccaa16 ccaa17 ccaa51 ccaa52 estudiosP1 estudiosP2 estudiosS1 estudiosSG 1 0.8197443 0.6907049 0.7260644 0.2376883 0.5774045 0.2879792 0.4915264 0.7753342 1.332046 2 0.4114134 0.5322278 0.2728772 0.3888650 0.7457501 -0.8944755 -1.2735185 -1.4426837 -0.858771 estudiosSP estudiosSU 1 1.135710 1.716766 2 -1.630806 -1.407705 Std. Errors: (Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 1 0.008195006 0.004821013 0.004713930 0.004684360 0.004672399 0.004680337 0.004684926 0.004729696 2 0.006368057 0.003101997 0.003355065 0.003439181 0.003332223 0.003265767 0.003212643 0.003225036 edad55 edad60 edad65 sexo6 nacionalidad1 ccaa2 ccaa3 1 0.004825888 0.005234824 0.01243645 0.0009981468 0.001447390 0.003239819 0.003691324 2 0.003272552 0.003706398 0.01157343 0.0012162229 0.001831109 0.003933725 0.004224810 ccaa4 ccaa5 ccaa7 ccaa8 ccaa9 ccaa10 ccaa11 ccaa6 1 0.003275156 0.002369169 0.004880351 0.002538548 0.002481937 0.001683524 0.001832152 0.003295747 2 0.003946823 0.002859147 0.005669892 0.002994743 0.003024284 0.002062879 0.002212154 0.003832543 ccaa12 ccaa13 ccaa14 ccaa15 ccaa16 ccaa17 ccaa51 ccaa52 1 0.002404494 0.001794960 0.002932135 0.004981067 0.002879131 0.006657383 0.01162028 0.01310335 2 0.002838301 0.002178941 0.003541506 0.005927629 0.003376032 0.008031917 0.01302295 0.01422721 estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP estudiosSU 1 0.007515148 0.006911362 0.006795287 0.006868476 0.006934084 0.006820038 2 0.006471668 0.005843633 0.005707751 0.005813195 0.006016948 0.005782576 Residual Deviance: 51075088 AIC: 51075236 Bondad del ajuste global. Para estudiar la bondad del ajuste global del modelo se va a proceder a utilizar el test asintótico de la chi-cuadro que es el único disponible para el caso de regresión multinomial. Para ello vamos a calcular el valor X 2 que es el estadístico de chi-cuadrado de Pearson para medir la bondad de ajuste y que se puede obtener con la siguiente expresión: S X =∑ 2 s =1 q (O s / q − E s / q ) 2 q =1 Es / q ∑ Ana Gema Galera Pozo 101 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Donde Os / q son las frecuencias observadas en cada combinación de valores de las variables explicativas en la categoría s de la varaible respuesta, y E s / q son las frecuencias esperadas bajo el modelo obtenido en esas mismas combinaciones de valores de las variables explicativas para la categoría s. También podemos calcular el estadístico G 2 mediante la siguiente expresión: S G 2 ( M ) = 2·∑ s =1 Q ∑O q =1 s/q Os / q ln E s/q Para obtener el número de frecuencias observadas y esperadas en cada combinación de las variables explicativas, se crean las tablas de contingencia que nos darán las frecuencias de cada una de las combinaciones de las variables explicativas, ya que el fichero de datos no tiene los datos agrupados. En el caso de las frecuencias observadas, construimos la siguiente sintaxis en R con la que obtendremos una tabla con la columna “Freq” que ofrece el número de casos en cada una de las categorías de la variable respuesta para cada combinación de las variables explicativas. > fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+mult, data=datos.tfm)) head(fobs) sexo edad nacionalidad estudios ccaa mult Freq 1 1 16 0 AN 1 0 0 2 6 16 0 AN 1 0 0 3 1 20 0 AN 1 0 0 4 6 20 0 AN 1 0 0 5 1 25 0 AN 1 0 0 6 6 25 0 AN 1 0 0 > nrow(fobs) [1] 17556 La tabla se compone de 17.556 registros. Los 5.852 primeros son las combinaciones de las variables explicativas para la categoría de “parados” (Y=0) de la variable respuesta. Los siguientes 5.852 registros son las combinaciones de las variables explicativas cuando Y=1 (ocupados), y los últimos 5.852 registros son las combinaciones de las variables explicativas cuando Y=2 (inactivos). Cuando las frecuencias de una combinación de variables explicativas es 0 para las tres categorías de respuesta, entonces dicha combinación no se encuentra en la muestra por lo que no se va a tomar para el cálculo de los estadísticos y para obtener los grados de libertad. Sin embargo, puede ocurrir que alguna/as categoría/s de la variable no tenga/n observaciones (valores de frecuencia igual a 0), pero para otra/s categoría/s de la variable respuesta sí exista/n observaciones, por lo que dicha combinación sí debe tenerse en cuenta al estar representada en la muestra. Ana Gema Galera Pozo 102 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores A continuación vamos a obtener un vector con las frecuencias observadas para cada categoría de la variable Y (fobs0, fobs1 y fobs2): > for (i in 1:5852) fobs0[i]=fobs$Freq[i] > head(fobs0) [1] 0 0 0 0 0 0 > for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852] > head(fobs1) [1] 0 0 0 0 0 0 > for (i in 1:5852) fobs2[i]=fobs$Freq[i+5852+5852] > head(fobs2) [1] 0 0 1 1 0 2 Tal y como se muestra en los resultados, la primera combinación, la segunda y la quinta tienen frecuencia 0 para las tres categorías de respuesta, por lo que éstas combinaciones no se encuentra en la muestra y no se van a tomar para calcular el estadístico y los grados de libertad. Sin embargo, aunque existen frecuencias observadas con valor 0 en algunas categorías de la tercera, cuarta y sexta combinación de las variables explicativas, dicha combinación sí debe mantenerse ya que sí tiene valores de frecuencias observadas mayores que 0 para la categoría de inactivos (codificada con 2) de la variable Y. Una vez obtenidas las frecuencias observadas, se calculan las frecuencias esperadas bajo el modelo que hemos obtenido. Éstas se calculan como la multiplicación entre el número total de frecuencias totales observadas en la combinación de variables explicativas, y la probabilidad predicha para cada una de las categorías de la variable respuesta en dicha combinación. Así, para obtener las frecuencias esperadas se calcula, en primer lugar, las probabilidades predichas para cada patrón de las variables explicativas con la siguiente sintaxis en R: > ppred<-predict(modelom.step, fobs, type='prob') > head (ppred) 1 2 3 4 5 6 0 0.06683311 0.03577148 0.32579144 0.20539188 0.50045866 0.38251536 1 0.005715446 0.002617152 0.042196000 0.022758754 0.147749261 0.096613893 2 0.9274514 0.9616114 0.6320126 0.7718494 0.3517921 0.5208707 Una vez obtenidas las frecuencias esperadas, se procede a calcular las frecuencias predichas bajo el modelo. > FT=0 > for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i] > fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3))) Ana Gema Galera Pozo 103 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > head(fprd) 1 2 3 4 5 6 0 0.0000000 0.0000000 0.3257914 0.2053919 0.0000000 0.7650307 1 0.00000000 0.00000000 0.04219600 0.02275875 0.00000000 0.19322779 2 0.0000000 0.0000000 0.6320126 0.7718494 0.0000000 1.0417415 Al igual que en el caso de las frecuencias observadas, vamos a obtener un vector con las frecuencias predichas para cada categoría de la variable respuesta (fprd0, fprd1 y fprd2): > fprd0<-fprd[,1] > fprd1<-fprd[,2] > fprd2<-fprd[,3] Una vez obtenidos los vectores con las frecuencias esperadas y frecuencias observadas, obtenemos el valor del estadístico X 2. > x0=0 > for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i] > x0<-ifelse(is.na(x0),0,x0) > sum(x0) [1] 5575.107 > for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i] > x1<-ifelse(is.na(x1),0,x1) > sum(x1) [1] 4985.839 > for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i] > x2<-ifelse(is.na(x2),0,x2) > sum(x2) [1] 4911.632 Entonces el valor de X2 se obtiene como sigue > X2.ind<-data.frame(x0,x1,x2) > head(X2.ind) 1 2 3 4 5 6 x0 0.0000000 0.0000000 0.3257914 0.2053919 0.0000000 0.7650307 x1 0.00000000 0.00000000 0.04219600 0.02275875 0.00000000 0.19322779 x2 0.00000000 0.00000000 0.21425960 0.06743895 0.00000000 0.88146567 > X2<-sum(X2.ind) > X2 [1] 15472.58 El número de grados de libertad se calcula como: (Q-nº de parámetros obtenidos con la constante)x(nº de categorías-1). Q es el número de combinaciones de las variables explicativas para los que existen datos muestrales en, al menos, una de las categorías de la variable respuesta. Es decir, Q es el número de patrones de las variables explicativas del modelo que están presentes en la muestra. Ana Gema Galera Pozo 104 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Para obtener el número de combinaciones de las variables explicativas que sí aparecen en la muestra realizamos la siguiente sintaxis en R: > tabla<-xtabs(~sexo+edad+ccaa+nacionalidad+estudios, data=datos.tfm) > tabla2<-data.frame(tabla) > tabla2$Freq Se obtienen 5.582 Contamos sólo aquellas combinaciones que están presentes en la muestra > for (i in 1:5852) {if (tabla2$Freq[i]>0) contador=contador+1 else contador=contador} > contador [1] 4279 Por tanto, existen 4.279 combinaciones de las variables explicativas. Q=4.279 y el número de categorías de la variable respuesta es 3, por tanto los grados de libertad son: > gl<-(4279-37)*(3-1) > gl [1] 8484 Y obtenemos el p-valor del contraste: > p.valor=1-pchisq(X2,gl) > p.valor [1] 0 En segundo lugar obtenemos el valor del estadístico G 2 > g0=0 > g1=0 > g2=0 > for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i]))) > g0<-ifelse(is.na(g0),0,g0) > sum(g0) [1] 2154.553 > for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i]))) > g1<-ifelse(is.na(g1),0,g1) > sum(g1) [1] 1681.292 > for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i]))) > g2<-ifelse(is.na(g2),0,g2) > sum(g2) [1] 2701.805 > G2.ind<- data.frame(g0, g1, g2) > G2<-2*sum(G2.ind) > G2 [1] 13075.3 Ana Gema Galera Pozo 105 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > p.valor=1-pchisq(G2,8484) > p.valor [1] 0 Como el p-valor del contraste, en ambos caso, es menor que 0,05, entonces no podemos asegurar que el modelo se ajuste bien de manera global. Antes de calcular los estadísticos para los contrastes de bondad de ajuste, se explicó que para algunas categorías de la variable respuesta Y, las frecuencias observadas eran 0 en las combinaciones de las variables explicativas, es decir, existen ceros muestrales. Ante esta situación, el estadístico de Pearson X2 se puede calcular a pesar de la existencia de estos ceros muestrales, pero hay un problema en el cálculo de la desviación, G2. Si existen valores de frecuencias observadas iguales a 0, entonces el valor de la deviance si usamos la fórmula es igual a cero. En este caso estaríamos interpretando que el modelo se ajusta bien en esa celda. Para corregir este efecto podemos aplicar el método delta. Este método se aplica ante la existencia de ceros muestrales y consiste en sumar 0,5 a todas las frecuencias observadas en cada combinación de niveles de las variables explicativas. Calculamos los nuevos vectores de frecuencias observadas sumando 0,5 a todas las celdas de cada categoría de la variable respuesta en cada combinación de las variables explicativas, incluidas aquellas con valor cero. Se contruye la sintraxís siguiente para que añada 0,5 en las celdas de las Q combinaciones presentes en la muestra: > for (i in 1:5852) {if (fobs0[i]==0) {if (fobs1[i]==0) {if (fobs2[i]==0) (fobs0[i]=0) & (fobs1[i]=0) & (fobs2[i]=0) else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} > head(fobs0) [1] 0.0 0.0 0.5 0.5 0.0 0.5 > head(fobs1) [1] 0.0 0.0 0.5 0.5 0.0 0.5 > head(fobs2) [1] 0.0 0.0 1.5 1.5 0.0 2.5 Tal y como se observa, en los niveles 3, 4 y 6 se ha sumado 0,5 a cada una de las categorías de la variable respuesta. En el caso, 1, 2 y 6, tal y como se explicó anteriormente, no serán tenidos en cuenta ya que son combinaciones de las variables explicativas que no aparecen en la muestra. El siguiente paso es calcular las frecuencias predichas a partir de las nuevas frecuencias observadas. > FT=0 Ana Gema Galera Pozo 106 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i] > fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3))) > head(fprd) 1 2 3 4 5 6 0 0.0000000 0.0000000 0.8144786 0.5134797 0.0000000 1.3388038 1 0.00000000 0.00000000 0.10549000 0.05689688 0.00000000 0.33814863 2 0.000000 0.000000 1.580031 1.929623 0.000000 1.823048 > fprd0<-fprd[,1] > fprd1<-fprd[,2] > fprd2<-fprd[,3] Se obtienen los valores de los estadísticos G 2 > for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i]))) > g0<-ifelse(is.na(g0),0,g0) > sum(g0) [1] 2972.059 > for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i]))) > g1<-ifelse(is.na(g1),0,g1) > sum(g1) [1] 1103.489 > for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i]))) > g2<-ifelse(is.na(g2),0,g2) > sum(g2) [1] 2037.611 > G2_2.ind<-data.frame(g0,g1,g2) > G_22<-2*sum(G2_2.ind) > G2_2 [1] 12226.32 > p.valor=1-pchisq(G2_2,8484) > p.valor [1] 0 El estadístico X 2 y su p-valor > x0=0 > x1=0 > x2=0 > for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i] > x0<-ifelse(is.na(x0),0,x0) > sum(x0) [1] 21303 > for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i] > x1<-ifelse(is.na(x1),0,x1) > sum(x1) [1] 7101.021 > for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i] Ana Gema Galera Pozo 107 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > x2<-ifelse(is.na(x2),0,x2) > sum(x2) [1] 4695.335 > X2_2.ind<-data.frame(x0,x1,x2) > head(X2_2.ind) x0 x1 1 0.0000000000 0.0000000 2 0.0000000000 0.0000000 3 0.1214234389 1.4753829 4 0.0003538647 3.4508106 5 0.0000000000 0.0000000 6 0.5255376232 0.0774685 x2 0.000000000 0.000000000 0.004053732 0.095654041 0.000000000 0.251372771 > X2_2<-sum(X2_2.ind) > X2_2 [1] 33099.36 > p.valor=1-pchisq(X2_2,8484) > p.valor [1] 0 El p-valor en ambos estadísticos (X2 y G2), es menor que 0,05, por lo que tampoco podemos asegurar que el modelo se ajuste bien de manera global. Otra medida que podemos utilizar es la tabla de clasificaciones correctas para las tres categorías, así podemos comprobar si el modelo discrimina bien a los ocupados, parados e inactivos. Tabla de clasificaciones correctas Para obtener los valores de la TCC, calculamos las categorías predichas por el modelo obtenido, y adjuntamos la variable de resultado a nuestro fichero de datos ‘datos.tfm’ con el nombre de ‘prd’. > datos.tfm$prd<-predict(modelom.step, type='class') > head(datos.tfm) 1 2 3 4 5 6 act_inac ccaa sexo edad nacionalidad estudios fe mult prd 1 16 6 35 1 SU 435.54 1 1 1 16 1 30 1 S1 435.54 1 1 0 16 6 45 1 SU 309.65 2 1 1 16 1 50 1 SU 309.65 1 1 1 16 6 20 1 S1 309.65 0 2 1 16 1 35 1 SU 460.45 1 Usamos la columna con las categorías observados, ‘mult’ y la columna con las categorías predichas ‘prd’. > table(datos.tfm$mult, datos.tfm$prd) 0 1 0 1 1169 15642 894 51766 2 3326 5870 Ana Gema Galera Pozo 108 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España 2 los factores 630 12362 52451 Para el caso de los inactivos, se han clasificado correctamente 52.451 individuos de la muestra, de un total de 65.443, por tanto se han clasificado correctamente el 80% de los inactivos bajo el modelo obtenido. En el caso de los ocupados, se han clasificado correctamente 51.766 individuos de un total de 58.530, que suponen un 88,4% del total de los ocupados. Pero, sin embargo, en el caso de los parados sólo se han clasificado correctamente 1.169 individuos de un total de 20.137, por tanto sólo un 6% de este colectivo se clasifica bien bajo el modelo obtenido. La tasa global de clasificación correcta para la muestra total es de un 73,13%. > table(datos.tfm$mult) 0 1 2 20137 58530 65443 Si calculamos la tabla de clasificación usando las poderaciones para obtener la estimación de la población total, el resultado para las clasificaciones correctas es: > tabla.clasificacion<-xtabs(fe~datos.tfm$mult+prd, data=datos.tfm) > tabla.clasificacion prd datos.tfm$mult 0 1 2 0 451252.7 4602510.0 879538.3 1 371456.5 15182642.5 1396497.1 2 228301.8 3322521.5 12048880.3 Se clasifican un 77,2% de los inactivos de manera correcta. Entre los ocupados se clasifican correctamente casi el 90%, mientras que entre los parados el resultado es sólo de un 7,6% de individuos clasificados correctamente. En total, el 72% de la población de 16 y más años se ha clasificado en una categoría de manera correcta. Estudio de los residuos Para realizar una validación completa del modelo debemos estudiar los residuos de Pearson del modelo. Para ello vamos a hacer uso del vector ‘X2.ind’ y ‘X2_2.ind’ que utilizamos para calcular el estadístico X2 de la prueba de bondad del ajuste global. Estos vectores guardaban para cada combinación de valores de las variables explicativas, junto con las categorías de la variable respuesta, el valor de de los residuos de Pearson al cuadrado. Para obtener el valor de los residuos de Pearson para cada combinación de las variables explicativas presente en la muestra, sólo tenemos que calcular la raíz cuadrada a los valores del vector ‘X2.ind’. > r.p<-sqrt(X2.ind) Tal y como se explicó en la metodología, se consideran significativamente distintos de cero aquellos residuos cuyo valor absoluto es mayor que 2. Ana Gema Galera Pozo 109 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores > r.p.sig<-abs(r.p)>2 > table(r.p.sig) r.p.sig FALSE TRUE 16867 689 Se obtienen 689 residuos que se consideran significativamente distintos de 0. Se sabe que había 4.279 grupos según las combinaciones de las variables explicativas presentes en la muestra, y hay tres categorías de la respuesta discreta; entonces tenemos un total de 12.837 residuos. Por tanto, los residuos significativamente distintos de 0 suponen un 5,4% del total de los residuos. Para calculamos los residuos de Pearson a partir del estadístico X2 que se obtuvo sumando 0,5 a las frecuencias observadas, se usará el vector vector ‘X2.ind’. Se tiene > r.p2<-sqrt(X2_2.ind) > r.p2.sig<-abs(r.p2)>2 > table(r.p2.sig) r.p2.sig FALSE TRUE 16501 1055 que los residuos significativamente distintos de 0 suponen un 8,2% del total. En ambos casos el porcentaje de residuos de Pearson significativamente distintos de cero no es muy alto, por lo que podría aceptarse que el modelo se ajusta bien de manera individual. Contraste sobre los parámetros. Para poder interpretar los parámetros del modelo es necesario verificar que los coeficientes obtenidos para el modelo son significativamente distintos de 0. La salida del modelo que hemos obtenido nos muestra los valores de los coeficientes y el error estándar asociados a cada coeficiente, sin embargo, para contrastar si los parámetros del modelo de regresión obtenido son nulos, necesitamos los p-valores de asociados al contraste de Wald. Como ya se describía en apartados anteriores, este contraste se basa en la normalidad asintótica de los estimadores de máxima verosimilitud. El estadístico de contraste puede obtenerse también como el cociente entre el coeficiente obtenido y su error estándar. En este caso el estadístico de contraste seguirá una distribución normal de media 0 y desviación típica 1. Obtenemos en primer lugar los valores de los estadísticos con la siguiente sintaxis en R: Ana Gema Galera Pozo 110 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores z <summary(modelom.step)$coefficients/summary(modelom.step)$standard.erro rs > z 1 2 1 2 1 2 1 2 (Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 edad55 -300.0640 86.10104 262.8418 336.3503 368.9357 380.6452 382.2270 408.6778 409.0636 413.0368 -634.29781 -889.0219 -944.0074 -913.7235 -852.8256 -812.6872 -693.6745 -490.9957 edad60 edad65 sexo6 nacionalidad1 ccaa2 ccaa3 ccaa4 ccaa5 ccaa6 418.17135 283.3347 -156.3276 356.3371 160.34226 109.4326 133.93177 53.381868 104.96112 -52.43137 386.6808 543.6650 297.6528 43.36543 122.3587 66.23508 -2.928002 93.67004 ccaa7 ccaa8 ccaa9 ccaa10 ccaa11 ccaa12 ccaa13 ccaa14 ccaa15 ccaa16 ccaa16 202.7951 95.584701 365.88662 159.22347 33.76133 190.6306 316.5665 142.33066 164.57202 239.9005 108.7375 -4.068984 17.78763 37.07103 44.18001 118.8991 70.0215 44.48771 69.40606 157.6489 ccaa17 ccaa51 ccaa52 estudiosP1 estudiosP2 estudiosS1 estudiosS1 estudiosSG estudiosSP estudiosSU 109.06152 20.45460 44.06542 38.31984 71.11861 114.0988 193.9362 163.7866 251.7238 33.97411 29.85997 52.41718 -138.21406 -217.93266 -252.7587 -147.7279 -271.0355 -243.4392 Y obtenemos los p-valores con la función ‘pnorm’ para ambas colas, tanto la izquierda como la derecha por tener valores negativos y positivos > p_valor <- (1 - pnorm(abs(z), 0, 1))*2 > p_valor (Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 edad55 edad60 edad65 sexo6 sexo6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 nacionalidad1 ccaa2 ccaa3 ccaa4 ccaa5 ccaa6 ccaa7 ccaa8 ccaa9 ccaa10 ccaa11 ccaa11 ccaa12 1 0 0 0 0 0.000000000 0 0 0.000000e+00 0 0 0 0 2 0 0 0 0 0.003411481 0 0 4.721849e-05 0 0 0 0 ccaa13 ccaa14 ccaa15 ccaa16 ccaa17 ccaa51 ccaa52 ccaa52 estudiosP1 estudiosP2 estudiosS1 estudiosSG 1 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 estudiosSP estudiosSU estudiosSU 1 0 0 2 0 0 1 2 Tal y como se observa en la salida, no existe ningún coeficiente que tenga asociado un p-valor mayor que 0,05. Por lo que a un nivel de significación del 5% todos los coeficientes son significativamente distintos de cero. Para la interpretación de los parámetros de cada categoría, se van a calcular los valores de las exponenciales de los parámetros, así como los intervalos de confianza al 95%. > beta<-summary(modelom.step)$coefficients > beta 1 2 1 2 1 2 1 2 1 2 (Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 (Intercept) -2.459026 0.4150943 1.239018 1.575586 1.723815 1.781548 1.790705 1.932922 2.630242 -1.9675900 -2.982726 -3.246612 -3.044731 -2.785130 -2.610874 -2.237125 edad55 edad60 edad65 estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP edad55 1.974095 2.1890533 3.523677 0.2879792 0.4915264 0.7753342 1.332046 1.135710 -1.606809 -0.1943315 4.475223 -0.8944755 -1.2735185 -1.4426837 -0.858771 -1.630806 estudiosSU sexo6 ccaa2 ccaa3 ccaa4 ccaa5 ccaa6 ccaa7 1.716766 -0.1560379 0.5194798 0.4039511 0.4386474 0.126470667 0.5122471 0.5148050 -1.407705 0.6612178 0.1705877 0.5169425 0.2614181 -0.008371586 0.5310990 0.3256409 ccaa8 ccaa9 ccaa10 ccaa11 ccaa12 ccaa13 ccaa14 ccaa15 0.23723523 0.61597891 0.29172163 0.1112688 0.4583702 0.5682242 0.4173326 0.8197443 -0.01230576 0.03669374 0.08200684 0.1693218 0.3374715 0.1525727 0.1575535 0.4114134 ccaa16 ccaa17 ccaa51 ccaa52 nacionalidad1 0.6907049 0.7260644 0.2376883 0.5774045 0.5157588 0.5322278 0.2728772 0.3888650 0.7457501 0.5450348 Las exponenciales de los parámetros son > exp(beta) (Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 edad25 1 0.08551818 1.5145135 3.45222141 4.83357351 5.60587253 5.93904035 5.9936782 6.909669 2 13.87712483 0.1397934 0.05065454 0.03890578 0.04760913 0.06172109 0.0734703 0.106765 edad55 edad60 edad65 edad65 estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP 1 7.2001037 8.9267584 33.90888 1.333730 1.6348098 2.1713176 3.7887888 3.1133831 Ana Gema Galera Pozo 111 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 2 0.2005264 0.8233849 87.81419 0.408822 0.2798453 0.2362928 0.4236825 0.1957717 estudiosSU sexo6 ccaa2 ccaa3 ccaa4 ccaa5 ccaa6 ccaa7 1 5.5664971 0.8555268 1.681153 1.497731 1.550609 1.1348162 1.669037 1.673312 2 0.2447041 1.9371500 1.186002 1.676893 1.298771 0.9916634 1.700801 1.384918 ccaa8 ccaa9 ccaa10 ccaa11 ccaa12 ccaa13 ccaa14 ccaa15 ccaa16 ccaa12 1 1.2677393 1.851468 1.338730 1.117695 1.581494 1.765130 1.517907 2.269919 1.995121 2 0.9877696 1.037375 1.085463 1.184501 1.401400 1.164827 1.170643 1.508949 1.702721 ccaa17 ccaa51 ccaa52 nacionalidad1 1 2.066930 1.268314 1.781409 1.674909 2 1.313739 1.475305 2.108022 1.724668 > exp(confint(modelom.step)) En la siguiente Tabla 10 se presentan los valores de las exponenciales de los parámetros para la categoría de inactivos y ocupados frente a la categoría de parados, así como los intervalos de confianza al 95% para dichas exponenciales de los parámetros: INACTIVOS OCUPADOS (Intercept) exp(B) 0,09 2,5 % 97,5 % exp(B) 2,5 % 0,08 0,09 13,88 13,70 97,5 % 14,05 edad20 1,51 1,50 1,53 0,14 0,14 0,14 edad25 3,45 3,42 3,48 0,05 0,05 0,05 edad30 4,83 4,79 4,88 0,04 0,04 0,04 edad35 5,61 5,55 5,66 0,05 0,05 0,05 edad40 5,94 5,88 5,99 0,06 0,06 0,06 edad45 5,99 5,94 6,05 0,07 0,07 0,07 edad50 6,91 6,85 6,97 0,11 0,11 0,11 edad55 7,20 7,13 7,27 0,20 0,20 0,20 edad60 8,93 8,84 9,02 0,82 0,82 0,83 edad65 33,91 33,09 34,75 87,81 85,84 89,83 Primaria incom Primaria 1ª Secundaria 1,33 1,63 2,17 1,31 1,61 2,14 1,35 1,66 2,20 0,41 0,28 0,24 0,40 0,28 0,23 0,41 0,28 0,24 2ª Secundaria 3,79 3,74 3,84 0,42 0,42 0,43 O. Profesional 3,11 3,07 3,16 0,20 0,19 0,20 Superiores 5,57 5,49 5,64 0,24 0,24 0,25 Mujer 0,86 0,85 0,86 1,94 1,93 1,94 Aragón 1,68 1,67 1,69 1,19 1,18 1,20 Asturias 1,50 1,49 1,51 1,68 1,66 1,69 Baleares 1,55 1,54 1,56 1,30 1,29 1,31 Canarias 1,13 1,13 1,14 0,99 0,99 1,00 Cantabría 1,67 1,65 1,69 1,70 1,68 1,72 Castilla-León 1,67 1,67 1,68 1,38 1,38 1,39 Cast Mancha 1,27 1,26 1,27 0,99 0,98 0,99 Cataluña 1,85 1,85 1,86 1,04 1,03 1,04 C.Valenciana 1,34 1,33 1,34 1,09 1,08 1,09 Extremadura 1,12 1,11 1,12 1,18 1,18 1,19 Galicia 1,58 1,57 1,59 1,40 1,39 1,41 Ana Gema Galera Pozo 112 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España INACTIVOS OCUPADOS exp(B) 2,5 % los factores 97,5 % exp(B) 2,5 % 97,5 % Madrid 1,77 1,76 1,77 1,16 1,16 1,17 Murcia 1,52 1,51 1,53 1,17 1,16 1,18 Navarra 2,27 2,25 2,29 1,51 1,49 1,53 País Vasco 2,00 1,98 2,01 1,70 1,69 1,71 Rioja 2,07 2,04 2,09 1,31 1,29 1,33 Ceuta 1,27 1,24 1,30 1,48 1,44 1,51 Melilla 1,78 1,74 1,83 2,11 2,05 2,17 Español 1,67 1,67 1,68 1,72 1,72 1,73 Tabla 10: Estimación de las exponenciales de los parámetros del modelo e intervalos de confianza. Ventajas de estar inactivos frente a estar parados La ventaja que tiene una persona en España de estar inactiva frente a estar parada se multiplica por 1,72 para un español frente a un extranjero. En el caso del sexo, las mujeres frente a los hombres, multiplican su ventaja de estar inactivas frente a estar paradas entre 1,93 y 1,94. En el caso de la edad, la ventaja de estar inactivos que tienes los individuos de 16 y más años en España frente a estar parados, es menor en casi todas las edades respecto al grupo más joven. La excepción a este caso es para los mayores de 65 años cuya ventaja de estar inactivos frente a la de estar parados, se multiplica casi por 88 frente a lo que tienen entre 16 y más años. En el caso del nivel de estudios, los que estudiaron orientación profesionales tienen una ventaja de estar inactivos frente a estar parados que se divide por 5 frente a los que no tienen estudios. Los que tiene estudios superiores y estudios de primera etapa, su ventaja se divide por 4 frente a los analfabetos. En el caso de los que tienen primaria incompleta y segunda etapa de secundaria, su ventaja de estar inactivos frente a estar parados se divide aproximadamente por 2 con respecto a los analfabetos. En el caso de las Comunidades Autónomas, en todos los casos (a excepción de Canarias y Castilla-La Mancha que presentan ventajas muy parecidas a la andaluza), la ventaja que tienen los habitantes de estar inactivos frente a estar parados es mayor que para los habitantes de Andalucía. En el caso de un individuo que vive en Galicia y Castilla-León, éste tiene una ventaja que se multiplica por 1,4 frente a los andaluces. Para la Comunidades de Cantabria, Asturias y Ana Gema Galera Pozo 113 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores País Vasco, la ventaja de estar inactivo frente a la de estar parado llega a multiplicarse casi por 1,7 respecto a Andalucía, y por algo más de 2 en el caso de Melilla. Para Madrid, Aragón, Extremadura y Murcia, la ventaja de que una persona sea inactiva frente a que esté parado se multiplica por 1,17 ó 1,18 frente a los andaluces. Ventajas de estar ocupados frente a estar parados La ventaja que tiene una persona de estar ocupada frente a estar parada se multiplica por 1,7 aproximadamente, para una persona con nacionalidad española frente a un extranjero. En el caso de las mujeres, éstas dividen su ventaja de estar ocupadas frente a estar paradas por 1,18 respecto a los hombres. Las personas de mayores edades, 65 o más, multiplican la ventaja de estar ocupados frente a estar parados por 33, respecto a los que tienen entre 16 y 19 años. Todas las edades tienen ventajas más altas de estar ocupados frente a estar parados, respecto a los más jóvenes. En el caso de los que tienen entre 20 y 24, multiplican la ventaja por 1,5; por 3 los que tienen de 25 a 29 años; entre 30 y 49 años la ventaja se multiplica aproximadamente por 5 ó 6; de 50 a 60 años por 7; y los de 60 a 65 años por algo más de 8. Los niveles de estudios más altos también influyen de manera positiva para estar ocupado. Los que tienen estudios superiores multiplican por algo más de 5 la ventaja de estar ocupados frente a estar desempleados, respecto a los analfabetos. Los que tienen orientación profesional multiplican la ventaja de estar ocupados por 3,1; y por 3,8 los que tiene secundaria de segunda etapa, respecto a los que no tienen estudios. Los de estudios de primaria incompleta sólo multiplican por 1,3 la ventaja de estar ocupados frente a los que son analfabetos; y los que tienen estudios de primaria terminados, multiplican por algo más de 1,6 su ventaja de estar ocupados respecto a los que no tienen ningún estudio. Entre las Comunidades Autónomas, Navarra, La Rioja y País Vasco son las que presentan mayores ventajas para que sus habitantes puedan desempeñar un trabajo frente a estar buscándolo. Éstos multiplican su ventaja por 2, respecto a los que viven en Andalucía. Los habitantes de las demás Comunidades Autónomas, sin ninguna excepción, presentan mayores ventajas para tener un puesto de trabajo frente a estar parados, con respecto a los andaluces. En Cataluña la ventaja se multiplica por 1,85; en Madrid y Melilla por 1,75; en Catilla-León, Cantabria y Aragón se multiplica por 1,7 la ventaja de estar ocupado frente a estar parado con respecto a Andalucía. Las Comunidades Autónomas con ventajas más cercanas a Andalucía son Canarias y Extremadura, cuya ventaja de estar empleado frente a estar parado, se multiplica por algo más de 1,1 respecto a la Comunidad de referencia. Ana Gema Galera Pozo 114 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Ana Gema Galera Pozo 115 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 6. CONCLUSIONES En este trabajo se ha estudiado la capacidad predictiva que tienen ciertos factores y variables sociodemográficas sobre la relación con la actividad económica que tiene una persona de 16 y más años en España, haciendo uso de los datos de la Encuesta de Población Activa (EPA) que realiza el INE. El objetivo de esta trabajo estaba basado en saber que factores pueden determinar que una persona se encuentre en un cierto colectivo en relación con la actividad económica. En primer lugar se ha estudiado que factores influyen en el hecho de que una persona de 16 y más años se clasifique como activa, o que por el contrario, se encuentre en el colectivo de inactivos. Los resultados que se han obtenido, a través de la regresión logística binaria, muestran que las variables edad, sexo, nacionalidad, nivel de estudios finalizados y la Comunidad Autónoma de residencia, influyen en el hecho de participar o no en el mercado de trabajo. Aunque los contrastes de bondad de ajuste global no permitían afirmar que el ajuste de los valores pronosticados por el modelo fueran buenos, el ajuste individual es bastante adecuado, así como la calidad del mismo, y además, el modelo tiene una alta capacidad predictiva y discrimina muy bien a las personas con edad de trabajar entre el colectivo de activos e inactivos. En concreto, hasta los 45 años aproximadamente, la ventaja de que una persona sea activa aumenta conforme aumenta la edad. El grupo de personas con 65 y más años presentan la mayor ventaja de estar inactivos. La ventaja que tiene un individuo para estar activo, frente a estar inactivo, también aumenta si los niveles de estudios son superiores, a mayor nivel de estudios mayor es la ventaja de que una persona en España decida ser activa. En cuanto al sexo y la nacionalidad, los extranjeros y los hombres presentan mayor ventaja para que una persona esté activa frente a su colectivo opuesto. La Comunidad Autónoma de residencia, sin embargo, presenta variaciones más parecidas. Destaca Cataluña que presenta la mayor ventaja de que una persona de 16 y más años esté activa frente a que esté inactiva, y Asturias que es la Comunidad que presenta la mayor ventaja en que las personas con edad de trabajar estén inactivas. Teniendo en cuenta estos resultados podemos concluir que los factores sociodemográficos pueden influir de manera clara para que una persona se encuentre en un colectivo u otro, en un porcentaje bastante alto de la población. En el segundo estudio que se ha realizado, mediante regresión multinomial, el modelo que se ha obtenido consideraba que los factores sociodemográficos influyen en que una persona en España de 16 o más años esté ocupada, parada o inactiva. Ana Gema Galera Pozo 116 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores A grandes rasgos, a mayor nivel de estudios una persona tiene mayor ventaja de estar ocupado frente a estar parado. Los hombres y los españoles presentan mayores ventajas para estar ocupados frente a las mujeres y los extranjeros respectivamente. Las personas que viven en las Comunidades del norte (Navarra, País Vasco y La Rioja), presentan mayores ventajas para que estén ocupados, frente a los andaluces y otras comunidades situadas más al sur. A mayor edad, también se observa que la ventaja de estar ocupado frente a estar parado, es mayor. Sin embargo, los resultados obtenidos con la regresión multinomial deben tomarse con cautela. La bondad del ajuste global del modelo no es buena con ninguno de los test usados, y a pesar de que la tasa de clasificación correcta es alta y encasilla globalmente bien a los individuos, así como al colectivo de ocupados e inactivos que también tienen altas tasas de clasificación correcta bajo el modelo obtenido; los parados, sin embargo, tienen una tasa de clasificación muy baja, apenas llega al 8%, y son infrarrepresentados a través del modelo. Por ello es necesario concluir y destacar que las variables sociodemográficas no son suficientes para describir el hecho de que una persona se clasifique como ocupada, parada o inactiva. Se hace neceario investigar y estudiar variables que midan otros apectos relacionados con el mercado de trabajo, u otras influencias externas, que no se encuentran disponibles en esta Encuesta y que pueden influir de manera más directa en que las personas estén en alguno de los tres colectivos, especialmente en el caso de los parados. Ana Gema Galera Pozo 117 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 7. BIBLIOGRAFÍA Abascal Fernández, E., García Lautre, I. y Landaluce Calvo, M.I. (2006). Trayectorias de las Comunidades Autónomas según sus tasas de paro por categorías de edad. Un análisis de tablas tridimensionales. Estadísticas Españolas. Vol. 48, núm. 163, págs. 525 a 550. Aguilera del Pino, A.M. (2006). Modelización de tablas de contingencia multidimensionales. (Colección Cuadernos de Estadística, 33). La Muralla. Aja, E., Arango, J. Y Oliver Alonso, J. (2008). La inmigración en la encrucijada. Anuario de la inmigración en España, edición 2008. Fundación CIDOB, Barcelona. Baquela, E., and A. Redchuk, (2013). Optimización matemática con R. Volumen I. Introducción al modelado y resolución de problemas. Bubok Publishing S.L. Benítez Rochel, J.J. y Villena Peña, J.E. (2013). La segmentación del mercado de trabajo en España: Efecto de la actual crisis económica. Propuestas de política económica ante los desafíos actuales. Editores: Collado Villalba, Madrid. Delta Publicaciones 2013. Butler, J. S. (2000). Efficiency results of MLE and GMM estimation with sampling weights. Econometrica. Vol 96, págs. 25 a 37. Cook, R. D., and S. Weisberg (1982). Residuals and Influence in Regression. New York: Chapman and Hall. Cosslett, S. R. (1981). Maximum likelihood estimator for choice-based samples. Econometrica. Vol 49, núm 5, págs. 1289 a 1316. Crawley, M. J. (2007): The R Book. WILEY. Cuadrado, Pilar; Hernández de Cos, Pedro e Izquierdo, Mario (2010). La evolución del empleo y del paro en 2009 según la EPA. Madrid, Banco de España. Boletín Económico 02/2010, págs. 32 a 43. Doeringer, Peter B. y Piore, Michael J. (1971). Internal Labor Markets and Manpower Analysis. Lexington (MA), Heath and Company. Ana Gema Galera Pozo 118 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Fagerland, M.W., Hosmer, D.W. y Bofin, A.M. (2008). Multinomial goodness-of-fit tests for logistic regression models. Statistics in Medicine, 2008 Sep 20. Vol 27(21), págs 4238 a 4253. Gálvez Muñoz y Rodriguez Modroño (2011). La desigualdad de género en las crisis económicas. Investigaciones feministas. Vol 2, págs. 113 a 132. Hanley J.A., McNeil B.J. (1982). The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. Vol 143, págs. 29 a 36. Hanley J.A., McNeil B.J. (1983). A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology. Vol 148, págs. 839 a 43. Hosmer D.W. y Lemeshow S. (2000). Applied logistic regression. Second edition. John Wiley and Sons, New York. Lumley, T.. (2010). Complex Surveys: A Guide to Analysis Using R. Wiley Series in Survey Methodology. Manski, C. F. y Lerman, S. R. (1977). The estimation of choice probabilities from choice based samples. Econometrics. Vol 45, núm 8, págs. 1977 a 1988. McFadden, J (1973). Conditional logit analysis of qualitative choice behaviour. Frontiers of Econometrics. Zarembra, P. (ed.). New York: Academic Press. Págs. 105 a 142. OCDE (2013). Panorama de la Educación. Indicadores de la OCDE 2013. Informe español. Ministerio de Educación, Cultura y Deporte. Madrid. Oliver Alonso, J. (2007). Inmigración y mercado de trabajo en 2006: razones de la acentuación del choque inmigratorio. En E. Aja Fernández y J.Arango (eds). La inmigración en España en 2006. Anuario de Inmigración y políticas de inmigración, págs. 44 a 67. Pando Fernández V, San Martín Fernández R. (2004). Regresión logística multinomial. Cuadernos de la Sociedad Española de Ciencias Forestales. Núm 18, pp 323-327. Piore, M. (1983). Notas para una teoría de la estratificación del mercado de trabajo. L. Toharia. El mercado de trabajo: teorías y aplicaciones. Madrid, Alianza Editorial. Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables. Royal Statistical Society, Series B. Vol 13, págs 238 a 241. Ana Gema Galera Pozo 119 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores Teodoro García, Carmen Montero, Vanessa Ruíz, Maura Vásquez, Willin Álvarez. (2008). Aplicación de la regresión logística multinomial en la detección de factores económicos que influyen la productividad de los sectores industriales. Revista INGENIERÍA UC, diciembre 2008. Vol. 15, núm. 3, págs. 19 a 24. Thompson, L. A. (2007). S-PLUS (and R) Manual to Acccompany Agresti’s Categorical Data Analysis. 2nd edition. Ana Gema Galera Pozo 120 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 8. ANEXOS 8.1. Sintaxis en SPSS para abrir los microdatos de la EPA DATA LIST FILE='C:\Users\Mikkis\Desktop\EPA_1t14.txt' /CICLO 1-3 CCAA 4-5 PROV 6-7 NVIVI 8-12 NIVEL 13-13 NPERS 14-15 EDAD5 16-17 RELLPP1 18-18 SEXO1 19-19 NCONY 20-21 NPADRE 22-23 NMADRE 24-25 RELLMILI 26-26 ECIV1 27-27 PRONA1 28-29 REGNA1 30-32 NAC1 33-33 EXREGNA1 34-36 ANORE1 37-38 NFORMA 39-40 (A) RELLB 41-42 EDADEST 43-45 CURSR 46-46 NCURSR 47-48 CURSNR 49-49 NCURNR 50-51 HCURNR 52-54 RELLB1 55-56 TRAREM 57-57 AYUDFA 58-58 AUSENT 59-59 RZNOTB 60-61 VINCUL 62-63 NUEVEM 64-64 OCUP1 65-65 ACT 66-66 SITU 67-68 SP 69-69 DUCON1 70-70 DUCON2 71-71 DUCON3 72-73 TCONTM 74-75 TCONTD 76-77 DREN 78-80 DCOM 81-83 PROEST 84-85 REGEST 86-88 PARCO 89-89 PARCO2 90-91 HORASP 92-95 HORASH 96-99 HORASE 100-103 EXTRA 104-104 Ana Gema Galera Pozo 121 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores EXTPAG 105-108 EXTNPG 109-112 RZNDISH 126-127 HORDES 128-129 BUSOTR 130-130 BUSCA 131-131 DESEA 132-132 FOBACT 133-133 NBUSCA 134-135 ASALA 136-136 EMBUS 137-137 ITBU 138-139 DISP 140-140 RZNDIS 141-141 EMPANT 142-142 DTANT 143-145 OCUPA 146-146 ACTA 147-147 SITUA 148-149 OFEMP 150-150 SIDI1 151-152 SIDI2 153-154 SIDI3 155-156 SIDAC1 157-157 SIDAC2 158-158 MUN1 159-159 PRORE1 160-161 REPAIRE1 162-164 TRAANT 165-165 AOI 166-167 CSE 168-169 FACTOREL 170-176 (F,2). EXECUTE Ana Gema Galera Pozo 122 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 8.2. Función ‘svydesign’ y ‘svyglm’ de R en el paquete (survey) svydesign(ids, probs=NULL, strata = NULL, variables = NULL, weights=NULL, data = NULL, ...) Argumentos Ids Fórmula o tramo de datos que especifica los identificadores Probs Fórmula o vector especificando las porbabilidades de los datos de muestreo Strata Formula o vector que especifica los estratos, si se usa NULL no ha y estratos variables Formula o tramo de datos especificando las variables medidas en la encuesta Weights Formula o vector que tiene los pesos como alternativa a las probabilidades Data Fichero de datos ... Otros svyglm(formula, design, subset=NULL, ...) Argumentos Fórmula Fórmula del modelo Diseño Diseño de la encuesta formado con svydesign. Debe contener todas las variables de la fórmula Subset Expresión para seleccionar una subpoblación ... Otros argumentos objeto Un objeto de svyglm df.resid Opcional. Grados de libertad para pruebas de Wald. newdata nuevos datos para la predicción total tamaño de la población para predicciones de población Ana Gema Galera Pozo 123 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 8.3. Función ‘multinom’ de R en el paquete (nnet) multinom(formula, data, weights, subset, ...) Argumentos formula Fórmula del modelo data Fichero de datos weights Es un argument opcional y es para añadir ponderaciones o pesos a los casos subset Subconjunto de datos ... Otros Ana Gema Galera Pozo 124 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 8.4. Sintaxis en R para la regresión binomial ##CARGAR LOS DATOS Y CONSTRUIR EL DATA.FRAME CON LAS VARIABLES QUE SE VAN A UTILIZAR# library(foreign) datos <- read.spss("C:/Users/Mikkis/Desktop/MASTER ESTADISTICA/TRABAJO FIN DE MASTER/EPA1T2014_1.sav", use.value.labels = TRUE) act_inac<-datos$ACT_INAC sexo<-datos$SEXO1 edad<-datos$EDAD5 estudios<-datos$NFORMA ccaa<-datos$CCAA fe<-datos$FACTOREL nacionalidad<-datos$NACIONALIDAD mult<-datos$MULT datos.tfm <- data.frame(act_inac, ccaa, sexo, edad, nacionalidad, estudios, fe, mult) datos.tfm$act_inac<- factor(datos.tfm$act_inac) datos.tfm$nacionalidad <- factor(datos.tfm$nacionalidad) datos.tfm$estudios <- factor(datos.tfm$estudios) datos.tfm$sexo <- factor(datos.tfm$sexo) datos.tfm$ccaa <- factor(datos.tfm$ccaa) datos.tfm$edad <- factor(datos.tfm$edad) ##USAR EL MÉTODO PARCIAL CON LAS VARIABLES CATEGÓRICAS PARA CONSTUIR LAS VARIABLES DUMMIES # contrasts(datos.tfm$sexo) contrasts(datos.tfm$nacionalidad) contrasts(datos.tfm$estudios) contrasts(datos.tfm$edad) contrasts(datos.tfm$ccaa) ##CONSTRUIR EL DISEÑO DE LOS DATOS # library(survey) datos.tfm.pon <- svydesign(id=~1,weights=~fe,data=datos.tfm) ##PROCESO STEPWISE PARA SELECCIONAL EL MODELO MÁS ADECUADO # ##Paso 0 # modelo.0<- svyglm(act_inac~1,family=binomial,data= datos.tfm, design=datos.tfm.pon) Ana Gema Galera Pozo 125 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ##Paso 1 # modelo.edad<-svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.edad.1<-svyglm(act_inac~edad+sexo,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.2<-svyglm(act_inac~edad+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.3<-svyglm(act_inac~edad+estudios,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.4<-svyglm(act_inac~edad+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.2<-svyglm(act_inac~nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.3<- svyglm(act_inac~ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.4<-svyglm(act_inac~estudios,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.5<- svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon) anova(modelo.0,modelo.1) anova(modelo.0,modelo.2) anova(modelo.0,modelo.3) anova(modelo.0,modelo.4) anova(modelo.0,modelo.5) modelo.1<- svyglm(act_inac~sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) ##Paso 2# modelo.edad<-svyglm(act_inac~edad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.1<-svyglm(act_inac~edad+sexo,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.2<-svyglm(act_inac~edad+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.3<-svyglm(act_inac~edad+estudios,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.4<-svyglm(act_inac~edad+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) anova(modelo.edad, modelo.edad.1) anova(modelo.edad, modelo.edad.2) anova(modelo.edad, modelo.edad.3) anova(modelo.edad, modelo.edad.4) anova(modelo.estudios, modelo.estudios.edad) Ana Gema Galera Pozo 126 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores modelo.estudios<-svyglm(act_inac~estudios,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.estudios.edad<-svyglm(act_inac~estudios+edad,family=binomial,data=datos.tfm, design=datos.tfm.pon) ##Paso 3# modelo.edad.estudios.1<svyglm(act_inac~edad+estudios+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.estudios.2<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.edad.estudios.3<-svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) anova(modelo.edad.estudios, modelo.edad.estudios.1) anova(modelo.edad.estudios, modelo.edad.estudios.2) anova(modelo.edad.estudios, modelo.edad.estudios.3) modelo.edad.estudios.sexo<-svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.estudios.sexo<-svyglm(act_inac~estudios+sexo,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.sexo.edad<-svyglm(act_inac~sexo+edad,family=binomial,data=datos.tfm, design=datos.tfm.pon) anova(modelo.edad.estudios.sexo, modelo.estudios.sexo) anova(modelo.sexo.estudios.edad, modelo.sexo.edad) ##Paso 4# modelo.edad.estudios.sexo.1<svyglm(act_inac~edad+estudios+sexo+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.edad.estudios.sexo.2<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.1) anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.2) modelo.1<-svyglm(act_inac~estudios+sexo+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) Ana Gema Galera Pozo 127 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores modelo.2<-svyglm(act_inac~edad+sexo+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.3<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=datos.tfm, design=datos.tfm.pon) anova(modelo.edad.estudios.sexo.ccaa, modelo.1) anova(modelo.edad.estudios.sexo.ccaa, modelo.2) anova(modelo.edad.estudios.sexo.ccaa, modelo.3) ##Paso 5# anova(modelo.edad.estudios.sexo.ccaa, modelo.edad.estudios.sexo.ccaa.nacionalidad) modelo.svy<svyglm(act_inac~edad+estudios+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.1<svyglm(act_inac~estudios+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.2<-svyglm(act_inac~edad+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm, design=datos.tfm.pon) modelo.3<-svyglm(act_inac~edad+estudios+ccaa+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) modelo.4<-svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data= datos.tfm, design=datos.tfm.pon) anova(modelo.total, modelo.1) anova(modelo.total, modelo.2) anova(modelo.total, modelo.3) anova(modelo.total, modelo.4) ##BONDAD DE AJUSTE# ##Estadístico H-L# hosmerlem<-function(y, yhat, g=10) {cutyhat1 = cut(yhat,breaks =quantile(yhat, probs=seq(0,1, 1/g)), include.lowest=TRUE) obs = xtabs(cbind(1 - y, y) ~ cutyhat1) expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat1) chisq.C = sum((obs - expect)^2/expect) P.C = 1 - pchisq(chisq.C, g - 2) cutyhat2 = cut(yhat,breaks =g, include.lowest=TRUE) Ana Gema Galera Pozo 128 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores obs = xtabs(cbind(1 - y, y) ~ cutyhat2) expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat2) chisq.H = sum((obs - expect)^2/expect) P.H = 1 - pchisq(chisq.H, g - 2) res <- data.frame(c(chisq.C,P.C),c(chisq.H,P.H)) colnames(res)<-c("Hosmer-Lemeshow C statistic","HosmerLemeshow H statistic") rownames(res)<- c("X-squared","p.value") return(res) } hosmerlem(y = datos.tfm$act_inac, yhat = fitted.values(modelo.svy)) ##Estadístico X2# fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+act_inac, data=datos.tfm)) head(fobs) fobs0=0 for (i in 1:5852) fobs0[i]=fobs$Freq[i] fobs1=0 for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852] ppred<-predict(modelo.svy, newdata=fobs, type='response') head(ppred) for (i in 1:5852) ppred0[i]=1-ppred[i] for (i in 1:5852) ppred1[i]=ppred[i] for (i in 1:5852) FT[i]=fobs0[i]+fobs1[i] for (i in 1:5852) fpred0[i]=FT[i]*ppred0[i] for (i in 1:5852) fpred1[i]=FT[i]*ppred1[i] head(fpred0) for (i in 1:5852) x0[i]=(fobs0[i]-fpred0[i])^2/fpred0[i] a<-ifelse(is.na(x0),0,x0) sum(a) for (i in 1:5852) x1[i]=(fobs1[i]-fpred1[i])^2/fpred1[i] b<-ifelse(is.na(x1),0,x1) sum(b) X2.ind<-data.frame(a,b) X2<-sum(X2.ind) X2 Ana Gema Galera Pozo 129 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ##Grados de Libertad# contador=0 for (i in 1:5852) {if (FT[i]0) contador=contador+1 else contador=contador} contador gl<-4279-37 gl p.valor=1-pchisq(X2,gl) p.valor ##Estadístico G2# for (i in 1:5852) x1[i]=fobs1[i]*(log(fobs1[i]/fpred1[i])) for (i in 1:5852) x0[i]=fobs0[i]*(log(fobs0[i]/fpred0[i])) a<-ifelse(is.na(x0),0,x0) sum(a) b<-ifelse(is.na(x1),0,x1) sum(b) G2<-2*(sum(a)+sum(b)) G2 p.valor=1-pchisq(G2,gl) p.valor ##TABLA DE CLASIFICACIONES# ##Para la muestra# table(datos.tfm$act_inac) prediccion <- ifelse(fitted.values(modelo.svy) = 0.5, 1,0) table(prediccion) tabla.clasificacion<-table(datos.tfm$act_inac, prediccion) tabla.clasificacion ##Para la Población# ob<-xtabs(fe~act_inac) prediccion <- ifelse(fitted.values(modelo.total) = 0.5, 1,0) pred<-xtabs(fe~prediccion) pred tabla.clasificacion<-xtabs(fe~datos.tfm$act_inac+prediccion) tabla.clasificacion ##CURVA ROCR# library(ROCR) pred <- prediction(fitted.values(modelo.svy), datos.tfm$act_inac) p1 <- performance(pred, measure = "acc") (posicion.max <- sapply([email protected], which.max)) Ana Gema Galera Pozo 130 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores (cutpoint <- sapply([email protected], "[", posicion.max)) prediccion <- ifelse(fitted.values(modelo.svy) = 0.5704263, 1,0) table(prediccion) tabla.clasificacion<-table(datos.tfm$act_inac, prediccion) tabla.clasificacion AUC <- performance(pred, "auc") [email protected] [email protected] p2 <- performance(pred, "tpr", "fpr") plot(p2, colorize = TRUE) abline(a = 0, b = 1) text(0.4, 0.6, paste([email protected], "\n", round(unlist([email protected]), 3)), cex = 0.7) ##R2 de Cox & Snell# R2cs<-1-exp((vf-v0)/144110) ##R2 de Nagelkerke# R2n<-R2cs/(1-exp(-v0/144110)) R2n ##RESIDUOS Y MEDIDAS DE INFLUENCIA PARA CADA INDIVIDIO DE LA MUESTRA# ##Residuos de Pearson# res.pearson <- residuals(modelo.svy, type = "pearson") res.pearson.sig <- abs(res.pearson)>1.96 table(res.pearson.sig) res.pearson.estd <- rstandard(modelo.svy, type = "pearson") res.pearson.estd.sig<-abs(res.pearson.estd)>1.96 table(res.pearson.estd.sig) res.deviance <- residuals(modelo.total, type = "deviance") res.deviance.sig <- abs(res.deviance)>1.96 table(res.deviance.sig) ##Residuos de Deviance# res.deviance.std <- rstandard(modelo.svy, type = "deviance") table(abs(res.deviance.std) > 1.96) res.student <- rstudent(modelo.svy) table(abs(res.student) > 1.96) distancias.cook <- cooks.distance(modelo.total) table(distancias.cook > 1) ##Intervalos de Confianza al 95%# exp(confint.default(modelo.total, level = 0.95)) Ana Gema Galera Pozo 131 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores 8.5. Sintaxis en R para la regresión multinomial ##Modelo con sólo la constante# library(nnet) modelom.0 <- multinom(mult ~ 1, weight=fe, data = datos.tfm) modelom.0 ##Stepwise para la selección del mejor modelo# modelom.step<step(modelom.0,scope=list(lower=mult~1,upper=mult~sexo+ccaa+estudios+nacionalidad+ed ad),direction="both") summary(modelom.step) ##BONDAD DE AJUSTE# ##Frecuencias observadas# fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+mult, data=datos.tfm)) head(fobs) nrow(fobs) for (i in 1:5852) fobs0[i]=fobs$Freq[i] head(fobs0) for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852] head(fobs1) for (i in 1:5852) fobs2[i]=fobs$Freq[i+5852+5852] head(fobs2) ##Frecuencias estimadas# ppred<-predict(modelom.step, fobs, type='prob') head (ppred) FT=0 for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i] fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3))) head(fprd) fprd0<-fprd[,1] fprd1<-fprd[,2] fprd2<-fprd[,3] ##Estadístico X2# x0=0 x1=0 x2=0 Ana Gema Galera Pozo 132 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i] x0<-ifelse(is.na(x0),0,x0) sum(x0) for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i] x1<-ifelse(is.na(x1),0,x1) sum(x1) for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i] x2<-ifelse(is.na(x2),0,x2) sum(x2) X2.ind<-data.frame(x0,x1,x2) head(X2.ind) X2<-sum(X2.ind) X2 tabla<-xtabs(~sexo+edad+ccaa+nacionalidad+estudios, data=datos.tfm) tabla2<-data.frame(tabla) tabla2$Freq for (i in 1:5852) {if (tabla2$Freq[i]>0) contador=contador+1 else contador=contador} contador gl<-(contador-37)*(3-1) gl p.valor=1-pchisq(X2,gl) p.valor ##Estadístico G2# g0=0 g1=0 g2=0 for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i]))) g0<-ifelse(is.na(g0),0,g0) sum(g0) for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i]))) g1<-ifelse(is.na(g1),0,g1) sum(g1) for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i]))) g2<-ifelse(is.na(g2),0,g2) sum(g2) Ana Gema Galera Pozo 133 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores G2.ind<- data.frame(g0, g1, g2) G2<-2*sum(G2.ind) G2 p.valor=1-pchisq(G2,8484) p.valor ##Método Delta sumando 0.5 a las frecuencias observadas# ##Cálculos para sumar 0.5 a las frecuencias observadas# for (i in 1:5852) {if (fobs0[i]==0) {if (fobs1[i]==0) {if (fobs2[i]==0) (fobs0[i]=0) & (fobs1[i]=0) & (fobs2[i]=0) else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} head(fobs0) head(fobs1) head(fobs2) ##nuevas frecuencias predichas# FT=0 for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i] fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3))) head(fprd) fprd0<-fprd[,1] fprd1<-fprd[,2] fprd2<-fprd[,3] ##Estadístico G2# for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i]))) g0<-ifelse(is.na(g0),0,g0) sum(g0) for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i]))) g1<-ifelse(is.na(g1),0,g1) sum(g1) for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i]))) g2<-ifelse(is.na(g2),0,g2) sum(g2) G2_2.ind<-data.frame(g0,g1,g2) G_22<-2*sum(G2_2.ind) Ana Gema Galera Pozo 134 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores G2_2 p.valor=1-pchisq(G2_2,8484) p.valor ##Estadístico X2# x0=0 x1=0 x2=0 for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i] x0<-ifelse(is.na(x0),0,x0) sum(x0) for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i] x1<-ifelse(is.na(x1),0,x1) sum(x1) for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i] x2<-ifelse(is.na(x2),0,x2) sum(x2) X2_2.ind<-data.frame(x0,x1,x2) head(X2_2.ind) X2_2<-sum(X2_2.ind) X2_2 p.valor=1-pchisq(X2_2,8484) p.valor ##Tabla de Clasificaciones# datos.tfm$prd<-predict(modelom.step, type='class') head(datos.tfm) table(datos.tfm$mult, datos.tfm$prd) table(datos.tfm$mult) tabla.clasificacion<-xtabs(fe~datos.tfm$mult+prd, data=datos.tfm) tabla.clasificacion ##Residuos de Pearson# r.p<-sqrt(X2.ind) r.p.sig<-abs(r.p)>2 table(r.p.sig) r.p2<-sqrt(X2_2.ind) r.p2.sig<-abs(r.p2)>2 table(r.p2.sig) Ana Gema Galera Pozo 135 Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar sociodemográficos que explican la actividad económica en España los factores ##Contraste sobre los parámetros# z <- summary(modelom.step)$coefficients/summary(modelom.step)$standard.errors z p_valor <- (1 - pnorm(abs(z), 0, 1))*2 p_valor ##Obtener los parámetros# beta<-summary(modelom.step)$coefficients beta ##Obtener las exponenciales parámetros# exp(beta) ##Intervalos de confianza al 95%# exp(confint(modelom.step)) Ana Gema Galera Pozo 136