Memoria Master GaleraPozo_Gema

Anuncio
TRABAJO DE INVESTIGACIÓN FIN DE MÁSTER
APLICACIONES DE MODELOS DE RESPUETA DISCRETA
PARA DETERMINAR LOS FACTORES SOCIODEMOGRÁFICOS
QUE EXPLICAN LA ACTIVIDAD ECONÓMICA EN ESPAÑA
Máster Oficial en Estadística Aplicada
Departamento de Estadística e I.O.
Universidad de Granada
Autora: Ana Gema Galera Pozo
Tutores: Ana María Aguilera del Pino
y Manuel Escabias Machuca
Septiembre 2014
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Ana Gema Galera Pozo
2
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
AGRADECIMIENTOS
GRACIAS…
A mis tutores Ana María Aguilera y Manuel Escabias, de los que ya guardaba un gran recuerdo
desde mis años de Universidad, gracias por ayudarme en todo momento a encaminar este
trabajo, gracias por toda la dedicación en horas y deshoras, gracias por hacerme sentir que
puedo cumplir mis metas transitando un camino que se puede disfrutar aunque sea difícil….
gracias de corazón…
A los de mi aire, mi familia, por tener tanto de ellos y ellos tanto de mí… A mis padres, a mis
hermanas Inma y Carmen Mari, a mis hermanos Juan Luis y Antonio Jesús… por sus consejos,
sus palabras y por animarme… por estar siempre a mi lado a pesar de la distancia… a ellos y al
resto de mi familia, la de siempre y la que llega, de la que soy y de la que me hago… Gracias,
porque no hay nada más bonito que ver sonreir a las personas que te ayudan a ser más fuerte
cada día.
A Alba, Patricia y Eduardo, mis sobrinos, mis estrellas… los que me pellizcan el alma y me
hacen recordar y ver la vida como una niña.
A mis amigos, compañeros… a los que vienen, a los que se van y a los que siempre están… A
todos los que formais parte de mi vida… por las risas, las ganas, las largas conversaciones, el
cariño, el ánimo, las cosas buenas…
…. Y GRACIAS a mi marido Miguel, mi ángel de la guarda, la persona responsable de que crea
en la magia del universo, y sobre todo, en la magia de su mirada. Gracias por estar ahí, por
haber soportado numerosas horas de trabajo en detrimento de mi tiempo para ti, por ocuparte
de todo mientras yo no podía, por animarme a seguir en cada momento y a recuperarme de
cada contratiempo… Gracias por ser el hombre que eres: divertido, sereno, bondadoso…
Gracias a ti, a tu cariño, a tu quererme… por todo lo que hemos vivido y por todo lo que nos
queda por vivir… TASB!!
Ana Gema Galera Pozo
3
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
“No es mi cerebro el que redacta todas mis palabras, es mi corazón que modera mis
sentimientos”
Ana Gema Galera Pozo
4
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
PRÓLOGO
Las altas tasas de paro, el aumento del desempleo dado en los últimos años y la disminución
del número de ocupados en España, pone de manifiesto el problema de la crisis económica por
la que atraviesa el país, así como la preocupación de los españoles sobre su relación con la
actividad económica. La necesidad de encontrar factores que influyen en ello, así como la de
hallar las relaciones existentes entre diversas características de los individuos y el hecho de
clasificarse en un colectivo u otro de la fuerza de trabajo, ha motivado la realización de este
trabajo.
En vista de lo expuesto, el objetivo principal de este estudio está basado en investigar los
factores y características sociodemográficas asociados a la relación con la actividad económica
que tiene una persona de 16 y más años en España.
Los datos que se han utilizado son los microdatos del primer trimestre del 2014 de la Encuesta
de Población Activa (EPA) que realiza el Instituto Nacional de Estadística (INE). La EPA está
considerada como una de las mejores fuentes para medir diversas características de la fuerza
de trabajo de la población, y a su vez, permite clasificar a las personas con edad de trabajar en
los tres grandes colectivos: inactivos, ocupados y parados.
Para nuestro estudio nos centramos en el colectivo de personas de 16 y más años utilizando
dos variables de respuesta discreta:
a) que una persona sea activa o inactiva,
b) y que una persona se clasifique en el colectivo de parados, ocupados o inactivos.
Los modelos de respuesta discreta son las herramientas estadísticas apropiadas para modelizar
el comportamiento de variables dependientes que toman un conjunto finito y discreto de
valores a partir de un conjunto de variables independientes que pueden ser tanto discretas
como continuas. Los modelos de regresión más utilizados en estos casos son los modelos de
regresión logística, (logit).
Para llevar a cabo ambos estudios, se ha construido un modelo de regresión logística binomial
para la variable dependiente dicotómica (ser activo o inactivo); y un modelo de regresión
logística multinomial para la variable dependiente que tiene tres categorías de respuesta
(parado, ocupado e inactivo).
Ana Gema Galera Pozo
5
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
La EPA es una encuesta que se realiza por muestreo bietápico y que pretende obtener
estimaciones de ciertas características de la población total. Por ello, es necesario trabajar con
los pesos de cada individuo de la muestra para así poder ponderar los resultados a la población
total de España. Para poder elevar los resultados de la regresión logística a la totalidad de la
población, es un requisito necesario hacer uso de los pesos o factores de elevación de cada
individuo de la muestra para obtener la estimación de los parámetros del modelo asociados a
las variables explicativas. Por ello, para la estimación de los modelos se ha utilizado el método
de Máxima Verosimilitud Ponderada que tendrá en cuenta la representación de cada individuo
de la muestra para dicha estimación.
Para la construcción del modelo logit binomial más adecuado, y que contenga aquellos factores
sociodemográficos que mejor expliquen el hecho de que una persona se encuentre activa o
inactiva en España, se ha usado el procedimiento por pasos o stepwise, que está basado en los
contrastes condicionales de razón de verosimilitudes.
A nivel computacional se ha utilizado la herramienta de software libre R. En el paquete “survey”
se dispone de las funciones “svyglm” y “svydesign” que permiten obtener la estimación de los
parámetros del modelo usando las ponderaciones de la muestra.
Para validar el modelo obtenido se recurre a distintos procedimientos. Para comenzar, se han
estudiado los contrastes de bondad global de ajuste con el test de Hosmer-Lemeshow, así como
los test chi-cuadro de Pearson X2 y el test chi-cuadrado de razón de verosimilitudes o deviance
G2. A continuación, se han obtenido las tablas de clasificaciones correctas, tanto para la
muestra de individuos como para las estimaciones de población total, con las tasas de
clasificación correcta (TCC) para los colectivos de activos e inactivos. La librería ROCR de R
permite, mediante una serie de funciones, obtener un punto óptimo de la probabilidad estimada
a partir del cual un individuo se clasifica como activo, y por debajo de este valor como inactivo,
maximizando de este modo la TCC total.
Para realizar una validación completa del modelo binomial que se ha obtenido, se han estudiado
los residuos de Pearson y los residuos de la Devianza, así como los valores influyentes en la
muestra. También se han obtenido algunas medidas para el estudio de la calidad del modelo.
Ana Gema Galera Pozo
6
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
El sexo, la nacionalidad, la edad, el nivel de estudios terminados y la Comunidad Autónoma de
residencia son factores que explican el hecho de que una persona decida ser activa en relación
a la actividad económica, o que por el contrario, no esté interesada en participar en el mercado
de trabajo.
Para la regresión multinomial se ha profundizado en la metodología de estos modelos así como
en el cálculo de las medidas de validación del mismo. Para construir el modelo logit multinomial
que describa los factores que influyen en que una persona de 16 o más años se encuentre
parada, ocupada o inactiva en España, se ha utilizado la función “multinom” del paquete “nnet”
de R. Al igual que en el caso binomial, también se ha construido el modelo a partir del
procedimiento stepwise.
En base a la necesidad de obtener los estadísticos X2 y G2 de los contrastes de bondad de
ajuste para ficheros con datos individuales y que no están agrupados por los distintos patrones
de las variables explicativas, tal y como ocurre con el fichero de la EPA, se ha programado de
manera manual con la herramienta R, los pasos para construir ambos estadísticos para datos no
agrupados. Además, se han estudiado los residuos de Pearson para cada categoría de la
variable respuesta en cada combinación de las variables explicativas, a partir del estadístico X2
del contraste de bondad de ajuste.
La tabla de clasificación muestra una TCC total que es aceptable, aunque el resultado de la
clasificación correcta para el colectivo de parados muestra que éste está infrarrepresentado por
el modelo que se ha obtenido. Por ello, aunque el modelo final de la regresión logística
multinomial incluía la variable sexo, edad, nacionalidad, nivel de estudios terminados y la
Comunidad Autónoma de residencia, se concluye que las variables sociodemográficas no son
suficientes para explicar el hecho de que una persona se encuentre parada u ocupada en
España, aunque sí muestran algunas tendencias de estas variables en relación a la actividad
económica de una persona de 16 y más años.
Ana Gema Galera Pozo
7
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
ÍNDICE:
1.
INTRODUCIÓN............................................................................................................ 11
1.1.
Fundamentos del problema ................................................................................ 11
1.2.
Objetivos de la investigación ............................................................................... 13
2.
FUENTES ESTADÍSTICAS PARA LA MEDICIÓN DEL EMPLEO Y PARO EN ESPAÑA ............. 15
3.
LA ENCUESTA DE POBLACIÓN ACTIVA (EPA) ................................................................ 17
4.
3.1.
Algunas nociones históricas................................................................................. 17
3.2.
Definiciones ........................................................................................................ 17
3.3.
Diseño de la muestra .......................................................................................... 19
MODELOS DE RESPUESTA DISCRETA ........................................................................... 24
4.1.
Modelos de regresión logística binaria................................................................. 25
4.1.1.
Modelos logit con variables explicativas cuantitativas .................................. 25
4.1.2.
Modelos logit con variables explicativas cualitativas .................................... 28
4.2.
Modelos de regresión logística multinomial......................................................... 31
4.2.1.
Formulación del modelo .............................................................................. 31
4.2.2.
Interpretación de los parámetros ................................................................. 32
4.3.
Ajuste del modelo logit para datos con ponderaciones ........................................ 34
4.4.
Contrastes de bondad de ajuste en regresión logística binaria.............................. 38
4.4.1.
Test chi-cuadrado de Pearson ...................................................................... 39
4.4.2.
Test chi-cuadrado de razón de verosimilitudes. ............................................ 39
4.4.3.
Test de Hosmer y Lemeshow ........................................................................ 40
4.5.
Contrastes de bondad de ajuste en regresión logística multinomial ...................... 40
4.5.1.
Test de chi-cuadrado de Pearson.................................................................. 41
4.5.2.
Test de chi-cuadrado de razón de verosimilitudes......................................... 42
4.6.
Medidas globales de bondad de ajuste ................................................................ 42
4.6.1.
Tasas de clasificaciones correctas ................................................................. 42
4.6.2.
Curva Roc .................................................................................................... 43
4.6.3.
Tasas tipo R2 ................................................................................................ 44
4.7.
Contrastes sobre los parámetros del modelo ....................................................... 45
4.7.1.
Contraste de Wald ....................................................................................... 46
4.7.2.
Contrastes condicionales de razón de verosimilitudes .................................. 46
4.8.
Intervalos de confianza ....................................................................................... 47
4.9.
Residuos y medidas de influencia en los modelos de regresión logística binaria .... 48
Ana Gema Galera Pozo
8
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4.9.1.
Residuos de Pearson .................................................................................... 48
4.9.2.
Residuos de la devianza ............................................................................... 49
4.9.3.
Medidas de influencia.................................................................................. 50
4.10. Residuos en los modelos de regresión logística multinomial................................. 50
4.10.1.
Residuos de Pearson .................................................................................... 50
4.11. Métodos de selección del modelo ....................................................................... 51
5. FACTORES RELACIONADOS CON LA ACTIVIDAD ECONÓMICA DE LA POBLACIÓN EN
ESPAÑA. MODELOS DE REGRESIÓN LOGÍSTICA ................................................................... 55
5.1.
Preparación de los datos de estudio .................................................................... 55
5.2.
Análisis descriptivo de los datos .......................................................................... 60
5.3. Ajuste de un modelo de regresión logística binaria para explicar los factores
relacionados con la actividad e inactividad ..................................................................... 72
5.4. Ajuste de un modelo de regresión multinomial para explicar los factores
relacionados con la ocupación, desempleo e inactividad de la población española. ......... 93
6.
CONCLUSIONES ........................................................................................................ 116
7.
BIBLIOGRAFÍA .......................................................................................................... 118
8.
ANEXOS ................................................................................................................... 121
8.1.
Sintaxis en SPSS para abrir los microdatos de la EPA .......................................... 121
8.2.
Función ‘svydesign’ y ‘svyglm’ de R en el paquete (survey)................................. 123
8.3.
Función ‘multinom’ de R en el paquete (nnet) ................................................... 124
8.4.
Sintaxis en R para la regresión binomial............................................................. 125
8.5.
Sintaxis en R para la regresión multinomial ....................................................... 132
Ana Gema Galera Pozo
9
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
1. INTRODUCIÓN
1.1. Fundamentos del problema
La tasa de paro en España en el primer trimestre del año 2014 ascendía a casi el 26% de la
población activa (25,93) según datos de la Encuesta de Población Activa (EPA) que elabora el
Instituto Nacional de Estadística (INE). En muy pocos años el paro ha crecido rápidamente, de
tal modo que la tasa de desempleo se ha incrementado en más de 16 puntos porcentuales en
los últimos cinco años. Si a principios del año 2008 dicha tasa en España se situaba en 9,6%,
un año después había crecido hasta situarse en 17,24%.
En 2013, según datos de EUROSTAT1, la tasa media anual de paro española superó en más de
15 puntos a las tasa de paro de la media de la Unión Europea (10,8%) situándose ésta, a su
vez, 18 puntos por encima de la de EE.UU. (7,4) y superando en casi 22 puntos porcentuales a
la tasa de paro de Japón (4%).
Estos datos ponen de manifiesto que el desempleo en España es uno de los mayores problemas
con la que se encuentra la sociedad, y tal como señalan los datos del barómetro de opinión
pública de España que publica el Centro de Investigaciones Sociológicas (CIS)2, el paro es
según el 57% de los españoles el principal problema del país seguido del la corrupción que es
manifestado como principal por el 11% de los españoles.
Estos datos contrastan con los estudios publicados sobre mercado de trabajo hasta el año 2007,
donde se resaltaba la capacidad de la economía española para absorber mano de obra
inmigrante y que llegó a alcanzar un volumen de nuevos trabajadores extranjeros cercano al
medio millón de personas (Oliver Alonso, 2007).
Por otro lado, a la vez que el desempleo se ha visto agravado, la destrucción de empleo y de
ocupados ha disminuido en la misma medida que ha crecido el número de parados tal y como
puede observarse en el gráfico de la Figura 1.
El número de ocupados en España a principios de 2014 fue de 16.950.000, casi 425 mil
ocupados menos que el año anterior. El número de parados en España durante el primer
trimestre del 2014 fue de 5.933.300 desempleados; cifra que duplica el número de parados del
año 2008.
Ante esta situación de desempleo son muchos los autores que se han preguntados cuales son
las causas que influyen a la hora de perder un empleo o de mantenerlo ¿qué factores están
relacionados, de alguna manera, con estar ocupado o parado en España?, ¿qué características
presentan mayores ventajas o desventajas en nuestro país para tener un puesto de trabajo
frente a estar desempleado?
1
http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home/
2
Datos del 2014: http://www.cis.es/cis/export/sites/default/Archivos/Marginales/3020_3039/3021/Cru3021_enlace.html
Ana Gema Galera Pozo
11
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
60,00
50,00
40,00
30,00
Tasa de empleo
20,00
tasa de paro
10,00
0,00
Fuente: INE. EPA
Figura 1: Evolución trimestral de la tasa de empleo y de paro en España. 1T08-1T14
Un determinante de la tasa de paro es el factor demográfico o el perfil sociodemográfico de los
individuos. La incorporación de la mujer al mercado de trabajo en España durante los años 80 y
90, o el aumento de la población activa procedente de países extranjeros con edades más
jóvenes han marcado el mercado laboral en España en los últimos años (Cachón, 2006) y
(Oliver Alonso, 2008).
Por otro lado, algunos autores ponen de manifiesto el retroceso dado, en tiempo de crisis, en
los avances conseguidos en igualdad de género en lo que se refiere a la incorporación de la
mujer al mercado de trabajo (Gálvez Muñoz, 2011).
En el reciente estudio de la OCDE, (Panorama de la Educación. Indicadores de la OCDE 2013)
se hace referencia a la importancia del nivel de formación o de estudios terminados para la
incorporación en el mercado de trabajo. Tanto en España como en la Unión Europea las tasas
de empleo son más altas para las personas con niveles de estudios más altos, al igual que les
corresponde un salario mayor.
Además, datos del Ministerio de Educación3 arrojan indicios de que el paro aumenta más entre
personas con niveles inferiores de educación y además, el tiempo que una persona parada
tarda en encontrar empleo es inversamente proporcional a su nivel de estudios.
Por tanto, factores como la edad, el sexo, el nivel de estudios terminados o la nacionalidad
pueden ser identificados como factores que agravan o disminuyen la ventaja de estar ocupado
en España frente a estar parado en nuestro país.
A su vez, las diferencias en relación a la fuerza de trabajo entre las Comunidades Autónomas
son una característica presente en el mercado laboral español. Las distintas tasas de paro entre
Comunidades Autónomas, han venido siendo evidentes desde los años 80. (Abascal Fernández,
E., García Lautre I., Landaluce Calvo, M.I. 2006).
3
Mapa de la oferta de la formación Profesional en España
Ana Gema Galera Pozo
12
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Andalucía y Extremadura han destacado por tener tasas medias de paro mucho más altas que
el resto de Comunidades a lo largo de los años. Otras Comunidades como Cataluña o la
Comunidad Foral de Navarra, han experimentado una mejora respecto a sus tasas de paro a lo
largo de los años, y han conseguido que éstas se sitúen por debajo de la media nacional.
En la actualidad, es posible distinguir una amplia diferencia en las tasas de paro por regiones.
En concreto, las Comunidades Autónomas más al norte del país, presentan índices de paro más
bajos que las Comunidades que se encuentran más al sur. En concreto, la tasa de paro de
Navarra (17,12%) es la mitad de la tasa andaluza (34,94%).
Estos datos señalan la importancia de incluir las regiones geográficas de España en el estudio
de la relación con la actividad de las personas de 16 y más años, ya que en cada Comunidad
Autónoma las características de los distintos colectivos puede ser diferente dado el mayor o
menor volumen de unos colectivos u otros.
Por otro lado, la economía de un país depende en gran medida de las tasas de actividad y de
las personas que se encuentran inactivas. Desde 2002, la población activa venía creciendo
hasta alcanzar una representación del 60,5% de las personas de 16 y más años, estabilizándose
a mediados del 2012. Desde entonces la población activa ha ido decreciendo y aumentando la
población inactiva, de modo que en el primer trimestre del 2014 el número de activos
desciende en este trimestre en 187.000 hasta 22.883.900. La tasa de actividad se sitúa en el
59,46%, la más baja desde el segundo trimestre de 2007, lo que significa que casi el 40% de
las personas en edad de trabajar no lo hacían y tampoco buscaban un empleo. En un año la
población activa se ha reducido en 424.500 personas.
Por ello se hace de vital importancia caracterizar a los individuos que se encuentran dentro del
colectivo de activos o de inactivos para ofrecer una imagen global más adecuada de la fuerza
de trabajo que actualmente existe en España.
1.2. Objetivos de la investigación
El objetivo primordial es tratar de conocer las ventajas o desventajas de los factores
sociodemográficos de una persona residente en España para que tenga una relación de
actividad con el mercado de trabajo frente a la inactividad de la misma.
Por otro lado, se pretende analizar también los tres grandes colectivos en relación con la
actividad económica: ocupado, parado o inactivo.
En este sentido, nos centramos en las variables sexo, edad, nivel de estudios terminado,
nacionalidad y Comunidad Autónoma de residencia. Con este fin, se lleva a cabo un estudio
sobre el que se aplica un modelo de respuesta discreta binario de tipo logit para el primer caso,
y para el segundo caso se aplica un modelo de regresión logística multinomial.
Ana Gema Galera Pozo
13
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
La variable binaria dependiente viene definida por el hecho de estar activo (1) o inactivo (0).
La variable dependiente multinomial viene definida por estar parado (0), ocupado (1) e
inactivo(2)
Ana Gema Galera Pozo
14
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
2.
FUENTES ESTADÍSTICAS PARA LA MEDICIÓN DEL EMPLEO Y
PARO EN ESPAÑA
Existen varias fuentes que pueden aportar información estadística sobre la ocupación y el
empleo en España:
-
La Encuesta de Población Activa (EPA) del Instituto de Nacional de Estadística. La EPA
es una encuesta trimestral por muestreo cuyo objetivo es obtener información sobre la fuerza
de trabajo y sus principales características: parados, ocupados e inactivos. Para el empleo se
miden variables demográficas (sexo, edad, nacionalidad, estado civil, nivel educativo), situación
profesional, subempleo, horas de trabajo, tipo de jornada, tipo de contrato, pluriempleo, etc.
Para el paro se miden variables demográficas, características del empleo anterior, métodos de
búsqueda, duración de la búsqueda, etc. El principal inconveniente de esta fuente se deriva de
su propia condición de encuesta por muestreo y es el no poder dar información de algunas
características con la mayor desagregación posible. Su principal ventaja es que está dirigida a la
población en su totalidad por lo que permite desagregar la información de la población total en
los principales colectivos según su relación con la actividad.
-
Los Censos de Población. Los censos de población recogen las características de las
personas y de las viviendas en España. Esta fuente recoge también información sobre la fuerza
del trabajo, pero tienen los siguiente inconvenientes: a) distanciamiento en el tiempo, (ya que
se realiza cada 10 años), b) la recogida de datos se realiza por autoinscripción (es decir, el
entrevistado se declara así mismo como ocupado, parado o inactivo, por ejemplo), c) el elevado
coste y d) la tardanza en la obtención de resultados debido al gran volumen de la operación.
-
Afiliaciones a la Seguridad Social del Ministerio de Empleo y Seguridad Social. La
estadística es una explotación de los ficheros de afiliaciones y cuentas de cotización a la
Seguridad Social de los trabajadores en los distintos regímenes. Este concepto de afiliación
excluye a los que cotizan a efecto de asistencia sanitaria exclusivamente, también excluye a los
que están en situación de desempleo, los de convenios especiales y los que se encuentren en
situaciones especiales sin efecto en cotizaciones. El número de trabajadores afiliados a los
distintos regímenes de la Seguridad Social no se corresponde necesariamente con el número de
trabajadores, ya que un trabajador puede encontrase de alta laboral, (afiliado a la Seguridad
Social) en dos regímenes distintos. Por tanto, la fuente recoge situaciones que generan la
afiliación y no recoge número de afiliados. El inconveniente principal de la fuente al igual que
todas las estadísticas que proceden de registros administrativos, es que está sujeta a normas
legales variables, por lo que, aparte de ofrecer información sólo sobre una parte del colectivo
estudiado (ocupados afiliados a la Seguridad Social), no permiten la obtención de series
homogéneas.
Ana Gema Galera Pozo
15
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
-
los factores
Paro registrado del Servicio Público de Empleo Estatal (SEPE) del Ministerio de Empleo y
Seguridad Social. El objetivo de ésta es llevar un registro de los demandantes de empleo
registrados en las distintas oficinas de empleo del país para instrumentar, entre otras, la política
de ayuda al desempleo.
El Paro Registrado está constituido por el total de demandas de empleo en alta, registradas por
el SEPE, existentes el último día de cada mes, excluyendo las que correspondan a situaciones
laborales descritas en la Orden Ministerial de 11 de Marzo de 1985 (B.O.E. de 14/3/85) por la
que se establecen criterios estadísticos para la medición del Paro Registrado.
El principal inconveniente de la fuente es que sólo recoge al colectivo de parados y sólo a
aquellos que acuden de forma voluntaria a registrarse en las oficinas de empleo. Además, el
paro registrado recoge como parado a todo aquel que acude a la oficina diciendo que es
demandantes empleo, mientras que la EPA clasifica a una persona como parada según las
definiciones establecidas de manera internacional y siguiendo las exigencias de EUROSTAT.
A partir de mayo de 2004, el SEPE también ofrece información sobre demandantes de empleo
clasificados como ocupados y que teniendo ya un empleo, demandan o buscan un empleo
mejor o compatibilizarlo con el que ya realizan. Para pertenecer a este colectivo, al igual que
para el paro registrado, el solicitante debe acudir de manera voluntaria a la oficina de empleo
para inscribirse.
Ana Gema Galera Pozo
16
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
3. LA ENCUESTA DE POBLACIÓN ACTIVA (EPA)
3.1. Algunas nociones históricas
El principal instrumento que se utiliza en España para realizar un seguimiento de la
evolución del empleo y el paro es la Encuesta de Población Activa (EPA) que lleva a cabo el
Instituto Nacional de Estadística (INE), tal y como viene realizándose en todos los países de la
Unión Europea.
La EPA es una investigación por muestreo de periodicidad trimestral, dirigida a la población
que reside en viviendas familiares del territorio nacional y cuya finalidad es averiguar las
características de dicha población en relación con el mercado de trabajo. La EPA entrevista
aproximadamente a 180.000 personas de unos 65.000 hogares.
La encuesta se viene realizando desde 1964, y desde entonces la EPA ha sufrido algunos
cambios metodológicos:
-
En 1976 la EPA pasa a realizarse de forma trimestral.
-
En 1987 se adaptó el cuestionario a las últimas recomendaciones internacionales y la
exigencia de adaptar la EPA a la Encuesta de Fuerza de Trabajo de la Comunidad
Económica Europea con motivo de la incorporación de España a la Unión Europea.
-
En 1999 se convierte en una encuesta continua.
-
En 2002 se introduce una nueva definición de parado para homogeneizarlos con las
definiciones utilizadas por la Unión Europea.
-
En 2005 se produjo el último cambio metodológico sustancial donde se introduce un
nuevo cuestionario y un control centralizado. Además, se tuvieron en cuenta algunos
cambios en las estructura de la población, como el aumento de población extranjera
que se había dado en España y que afectarían a los factores de elevación de la
población. Para poder tener series que fuesen comparables, se calcularon series
retrospectivas para el periodo 1996-2004 con la nueva base de población instaurada
ese año, con el fin de mantener la homogeneidad de las estimaciones.
Las cifras actuales de la encuesta se encuadran en la metodología instaurada en 2005. En 2014,
con los datos del Censo de población y viviendas de 2011 y con la introducción de nuevos
criterios en la calibración de los factores de elevación de la Encuesta, se han recalculado las
poblaciones de referencia para el período 2002 a 2013.
3.2. Definiciones
Las nociones históricas vistas anteriormente implican que los métodos y conceptos
utilizados por la EPA son totalmente comparables con los utilizados en los demás países
europeos. De hecho, las cifras de la EPA son correctas para EUROSTAT y para la OCDE.
Ana Gema Galera Pozo
17
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
La
a Encueta de Población Activa clasifica a las personas de 164 y más años en tres grandes
colectivos:
vos: ocupados, parados e inactivos.
La Figura 2 esquematiza de manera resumida como se descomponen los distintos colectivos
según su relación con la actividad económica:
POBLACIÓN DE 16 Y MÁS
AÑOS
ACTIVOS
INACTIVOS
OCUPADOS
- Estudiantes
PARADOS
- Jubilados
- Otras pensiones
- Labores del hogar
Asalariado
Trabajador
por cuenta
propia
Parados que
buscan su
1erempleo
Resto de
ocupados
Parados que
han trabajado
anteriormente
- Incapacidad
- Actividades
benéfica
- Otras
Población de 16 y más años según relación
rela
con la
Figura 2: Descomposición de la Población
actividad económica
Tal y como puede deducirse del la Figura 2,, la población activa se compone de la suma de la
población ocupada más la población parada.
La población ocupada es aquella que se encontraba trabajando, al menos una hora a la semana
inmediatamente
ente anterior a la fecha de la encuesta. También se clasifican como ocupados
aquella población que aún estando ausente de su puesto de trabajo mantienen un fuerte
vinculo con el trabajo, por ejemplo aquellos que se encuentran de baja por enfermedad o de
vacaciones.
Se clasifican como parados aquella población que no se encuentra trabajando la semana de
referencia pero que están interesados en encontrar un empleo, están dispuestos a trabajar y
realizan alguna gestión o utilizan algún método para encontrar un empleo. Deben cumplirse
todas las condiciones para que la persona sea considerada como parada.
Por el contrario, todas aquellas personas que no cumplen alguno de los requisitos anteriores, se
clasifica como ‘inactivo’. Por tanto, la población inactiva se compone de aquellos individuos de
16 o más años que no se encuentran ocupados durante la semana de referencia pero que
tampoco están interesados en encontrar un empleo.
4
Por ser la
a edad legal a partir de la cual se puede trabajar en España
Ana Gema Galera Pozo
18
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
A partir de los grandes colectivos derivados de las definiciones anteriores se calculan, entre
otras, tres tasas de gran importancia y que miden la relación entre los colectivos:
-
Tasa de actividad. Mide la relación de personas activas respecto de la población en
edad de trabajar (de 16 o más años). Se calcula:
Tasadeactividad =
-
PoblaciónActiva
Poblacón16 ymás
Tasa de empleo. Mide la relación entre la población ocupada y la población de 16 o más
años. Se calcula:
TasadeEmpleo =
-
PoblaciónOcupada
Poblacón16 ymás
Tasa de paro. Mide la relación de personas paradas y la población activa
TasadeParo =
PoblaciónParada
PoblacónActiva
Las tres tasas suelen darse en porcentajes por lo que se suelen multiplicar por 100.
3.3. Diseño de la muestra
Tipo de muestreo
Para la Encuesta de Población Activa se realiza un muestreo en dos etapas, muestreo bietápico:
a) La primera etapa está constituida por las secciones censales realizándose una
estratificación de las mismas. Los estratos que se utilizan son los siguientes:
-
Estrato 1: Municipio capital de provincia.
-
Estrato 2: Municipios autorrepresentados, importantes en relación con la capital.
-
Estrato 3: Otros municipios autorrepresentados, importantes en relación con la capital o
-
municipios mayores de 100.000 habitantes.
-
Estrato 4: Municipios entre 50.000 y 100.000 habitantes.
-
Estrato 5: Municipios entre 20.000 y 50.000 habitantes.
-
Estrato 6: Municipios entre 10.000 y 20.000 habitantes
-
Estrato 7: Municipios entre 5.000 y 10.000 habitantes.
-
Estrato 8: Municipios entre 2.000 y 5.000 habitantes.
-
Estrato 9: Municipios menores de 2.000 habitantes.
La constitución de unos estratos u otros en cada una de las provincias dependerá de los
municipios que tenga cada una de las provincias.
A continuación se forman subestratos, dentro de cada estrato, según criterios socioeconómicos.
Para los municipios más pequeños se utiliza la comarca, y para el resto se aplican técnicas de
conglomerados.
Ana Gema Galera Pozo
19
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
b) En la segunda etapa se realiza un muestreo sistemático con arranque aleatorio para
seleccionar las viviendas a las que se realizará la entrevista. Dentro de cada vivienda, que es la
unidad de segunda etapa, no se realiza submuestreo alguno, recogiéndose información de
todas las personas que tengan su residencia habitual en las mismas.
Tamaño de la muestra
En la actualidad la muestra está formada por 3.822 secciones censales. En cada una de ellas
hay 18 viviendas, a excepción de las secciones que se encuentran en las provincias de Madrid,
Barcelona, Valencia, Sevilla y Zaragoza que están formadas por 22 viviendas en cada sección
censal.
Dentro de cada provincia la afijación entre estratos es proporcional al tamaño de cada uno de
ellos, potenciando los municipios de mayor tamaño; mientras que la afijación entre los
subestratos es proporcional al número de viviendas en cada uno de ellos.
Cada provincia dispone de un tamaño mínimo de muestra que permite obtener un mínimo de
estimaciones posibles para la provincia.
Selección de la muestra
Dentro de cada estrato todas las viviendas tienen la misma probabilidad de ser seleccionadas.
Como el número de viviendas a tomar de cada uno de los estratos se ha fijado en 18 (a
excepción de la provincias mencionadas en el punto anterior), la probabilidad de selección de la
vivienda i perteneciente a la sección j del estrato h, donde se han afijado Kh secciones, es:
P (Vijh ) = K h x
V jh
Vh
x
18
18
= Kh x
V jh
Vh
donde Vh es el número total de viviendas en el estrato h, y Vjh es el número total de viviendas
en la sección j
Distribución de la muestra en el tiempo
La muestra está distribuida uniformemente durante el trimestre que dura la encuesta. Cada
sección censal es visitada una vez al trimestre.
Las viviendas pertenecientes a cada una de las secciones censales son renovadas según los
turnos de rotación establecidos por el INE, con una numeración del 1 al 6.
Estimadores y Ponderaciones
Para el cálculo del estimador de una determinada característica
Y
en un trimestre se usan
técnicas de calibrado o reponderación. Es una técnica para reajustan los factores de elevación
obtenidos a partir del diseño muestral, de forma que los resultados que proporciona la encuesta
Ana Gema Galera Pozo
20
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
se hacen coincidir con los de una fuente de referencia externa5. En el caso de la EPA, se ajusta
la pirámide de población por sexo y edad de cada Comunidad Autónoma, el total de población
de cada provincia y el total de población por nacionalidad (española, extranjera) de cada
Comunidad Autónoma6, de forma que coincidan con las cifras reales.
La técnica consiste en tomar una muestra s de una población, de tal forma que el estimador de
Y viene por
Ŷ = ∑ d k YK
k∈s
donde dk es el factor de elevación e Yk el valor de la característica en la unidad muestral k
El factor de elevación original se calcula como
dh =
Ph
ph
donde Ph es la población residente en viviendas familiares principales, en el estrato h, referida a
la mitad del trimestre; y ph es el número de personas que habitan en las viviendas de la
muestra, en el estrato h, en el momento de la entrevista.
Se disponen de las J variables auxiliares7 con las que queremos que coincidan las cifras y cuyos
totales son conocidos
X j = ∑ x jk
k ∈U
donde X
j
es el valor total de la j-ésima variable auxiliar y x jk es el valor de la j-ésima variable
auxiliar en la unidad muestral k.
Por tanto, es necesario encontrar un nuevo estimador que cumpla
Ŷw = ∑ wk YK
k∈s
donde se verifique que los nuevos pesos en la unidad muestral k (wk) sean próximos a dk y que
se verifique la ecuación
∑w
k ∈s
k
xik = X j .
El problema se reduce a encontrar los valores de wk que hagan mínima la expresión
∑d
k ∈s
k
w
G  k
 dk

 con la condición

∑w
k ∈s
k
Xk = X
donde
-
G es la función de distancia.
5
Por ejemplo las proyecciones de Población elaboradas trimestralmente por el INE
Siempre que la cantidad de muestra así lo permita
7
Las variables auxiliares que se usan vienen dadas por la población de 16 o más años: según sexo, grupos de edad y
CCAA; según CCAA y nacionalidad (española/extranjera); según provincias; y población menor de 16 años por
provincias
6
Ana Gema Galera Pozo
21
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
X k es el vector de dimensión J con los valores de las J variables auxiliares en la
-
unidad muestral k.
X es el vector de dimensión J con los valores de las J variables auxiliares.
-
En resumen, si en la encuesta se parte de una muestra de tamaño k, llamando
pesos o factores de elevación originales de dimensión k x 1 y
d k al vector de
wk al vector homólogo de pesos
o factores de elevación transformados, aplicando el proceso de reponderación se dará lugar a
una relación funcional donde los nuevos pesos van a ser función de los originales y de las
variables auxiliares elegidas.
Tal y como se explica anteriormente, el problema se reducía a encontrar los valores de wk que
minimicen la función de distancia
∑d
k ∈s
k
w
G  k
 dk



con la condición
∑w
k ∈s
k
Xk = X
La EPA ha optado por utilizar la función de distancia lineal w = d (1 + u ) truncada para obtener
sólo soluciones positivas en los sistemas de ecuaciones y para aprovechar las propiedades del
estimador de regresión, de pequeña varianza y mínimo sesgo.
Los valores
wk que se obtienen son los nuevos factores de elevación que se utilizan para
obtener las diferentes características de la fuerza de trabajo elevada a la población total. Estos
valores wk son los que utiliza el INE para dar datos respecto de la totalidad de la población y
son los que se incluyen en los ficheros de microdatos.
Con los estimadores actuales utilizados en la EPA se estima correctamente la población por
grupo de edad y sexo y el total de españoles y extranjeros mayores de 16 años por Comunidad
Autónoma.
Errores de muestreo
Para el cálculo de los errores muestrales de las estimaciones, la EPA utiliza el método de
semimuestras reiteradas.
El método consiste en extraer submuestras aleatorias de tamaño n/2 obteniendo así la primera
semimuestra. Se repone la semimuestra obtenida y se repite el proceso k veces para obtener
Ana Gema Galera Pozo
22
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
las k semimuestras reiteradas. Se calculan las estimaciones en cada semimuestra y en la
muestra total.
El estimador de la varianza vendrá dado por:
1 k
Vˆ = ∑ (Yˆi −Yˆ ) 2
k i =1
La EPA utiliza 40 reiteraciones, es decir k=40
A medida que se desagrega más la información, ya sea por detallar los valores de las variables,
por realizar desagregaciones territoriales o por cruzar varias variables, aumentan los errores de
muestreo. Por ello, el INE recomienda que aquellos valores inferiores a 5.000 personas
(después de haber sido ponderados), o las tasas e indicadores derivados de los mismos, deben
tomarse con precaución pues están sometidos a fuertes errores de muestreo.
Ana Gema Galera Pozo
23
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4. MODELOS DE RESPUESTA DISCRETA
Se denomina modelos de respuesta discreta a aquellos modelos en los que la variable
dependiente toma un conjunto discreto y finito de valores: 0, 1, 2,... Estos modelos reflejan las
diferentes opciones o alternativas cualitativas, excluyentes entre sí, que pueden darse en una
variable.
En los modelos de respuesta binaria la variable que se quiere estudiar sólo tiene dos
alternativas y el hecho de pertenecer a una u otra categoría depende de características
identificables. En esta situación, la variable dependiente toma solamente dos valores Y={0, 1} .
Cuando la variable de estudio tiene varios valores discretos, el modelo recibe el nombre de
modelo de respuesta multinomial. En esta situación la variable dependiente toma tantos valores
como categorías haya Y={0, 1, 2,…}
La variable dependiente, Y, es categórica y los valores que toma son las distintas características
que puede tomar un individuo. Así por ejemplo, si la variable que se desea estudiar es la
relación con la actividad económica de un individuo, ésta podía tomar los valores tales como
ocupado, parado o inactivo. En este caso la variable de interés es:
Y
“Relación con la actividad económica de un individuo”
La variable tomaría tres valores distintos que podrían codificarse como Y= {0,1,2}
0: Parado
1: Ocupado
2: Inactivo
Si nos centramos en el estudio de los modelos de elección discreta binaria, esto es: el individuo
sólo puede pertenecer a dos colectivos que son mutuamente excluyentes; la variable de
estudio, Y, es categórica y toma dos únicos valores numéricos, normalmente 0 y 1. Un ejemplo
podría ser el análisis de si un individuo es activo o no (es decir, inactivo). En este caso la
variable dependiente es:
Y
“El individuo es activo o inactivo”
La variable tomaría solamente dos valores Y= {0,1}
0: Inactivo
1: Activo
Los modelos de regresión tienen como objetivo describir el efecto de una o más variables
(independientes) sobre una o más variables de respuesta (dependientes). En los casos donde la
variable respuesta es discreta, los modelos tienen por objetivo pronosticar la pertenencia a un
grupo a partir de una serie de variables independientes.
La herramienta estadística apropiada para modelizar su comportamiento serán los Modelos de
Respuesta Discreta.
Ana Gema Galera Pozo
24
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Los modelos de regresión más utilizados en estos casos son los modelos de regresión
logística (logit) que serán los que utilizaremos en los siguientes apartados.
4.1. Modelos de regresión logística binaria
4.1.1. Modelos logit con variables explicativas cuantitativas
Partimos del modelo en el que se quiere explicar una variable aleatoria de respuesta binaria con
dos posibles categorías. Si se representan las dos opciones de la variable Y por los valores 1 y
0, entonces Y sigue una distribución Bernoulli de media
E[Y ] = P[Y = 1] = p (0<p<1).
Por tanto, la probabilidad de que Y=0 es
P[Y = 0] = 1 − p .
Si consideramos R variables explicativas cuantitativas no aleatorias
( X 1 , X 2 ,..., X R ) , entonces
la distribución de Y condicionada a cada combinación de valores observados de las variables
explicativas tendrá también distribución Bernouilli con esperanza
E[Y / X 1 = x1 ,..., X R = x R ] = P[Y = 1 / X 1 = x1 ,..., X R = xR ] = p( x1 ,..., xR ) .
Y la varianza será
Var[Y / X 1 = x1 ,..., X R = x R ] = p( x1 ,..., x R )(1 − p ( x1 ,..., x R )) .
Así,
p( x1 ,..., x R ) representa la probabilidad de Y=1 respecto de los valores de las variables
explicativas.
Si denotamos por Y (x ) a la distribución de Y condicionada a los valores observados de las
variables explicativas, el objetivo será construir el modelo adecuado para que
Y ( x ) = F ( βx ' ) + u
donde
β = ( β 0 , β1 ,..., β R )'
es un vector de parámetros,
valores observados de las variables explicativas y
x = ( x0 , x1 ,..., x R )' es el vector de
u son los errores que representan variables
aleatorias no observables, independientes con esperanza cero y cuya distribución es también
una Bernoulli.
Ana Gema Galera Pozo
25
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
Dado que
los factores
u tiene esperanza cero, se tiene
[
]
E [Y / X = x ] = E F ( β x ' ) + E [u ] = F ( β x ' ) = p ( x)
0
Dependiendo de la forma funcional concreta que adopte
F ( β x ' ) se obtienen distintos modelos
de respuesta binaria.
En los modelos logit, que se estudian para este se trabajo, se tiene la siguiente expresión:
R
p( x1 , x 2 ,..., x R ) =
exp(β 0 + ∑ β r x r )
r =1
R
1 + exp(β 0 + ∑ β r x r )
=
r =1
donde
β0
1
R
1 + exp(−( β 0 + ∑ β r x r ))
r =1
es el término independiente del modelo y
Para simplificar la notación llamaremos X
βr
al vector
es el coeficiente de la variable
( X 0 , X 1 , X 2 ,..., X R )
con
XR .
X 0 = 1,
entonces
R
p( x ) =
exp( ∑ β r xr )
r =0
R
1 + exp(∑ β r xr )
r =0
=
1
R
1 + exp( −∑ β r xr ))
r =0
.
El modelolo logit se puede interpretar en términos probabilísticos, es decir, la probabilidad de
que suceda Y =1 bajo ciertos valores de las variables X . En cuanto a la interpretación de los
parámetros βr, el signo indica el sentido del cambio en la probabilidad cuando aumenta la
variable correspondiente, aunque no su cuantía. En estos modelos, al suponer una relación no
lineal entre las variables explicativas y la probabilidad de ocurrencia del acontecimiento, cuando
aumenta en una unidad la variable explicativa los incrementos en la probabilidad no son
siempre iguales ya que dependen del nivel original de la misma.
Aunque la ecuación inicial del modelo es de tipo exponencial, se puede realizar su
transformación logarítmica (logit), dada por
 p( x)  R
ln 
 = ∑ β r xr
1 − p ( x)  r =0
Ana Gema Galera Pozo
26
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
donde
los factores
p( x)
representa la ventaja de respuesta Y = 1 para el vector de valores observados
1 − p( x)
x = ( x0 , x1 ,..., x R )' , de las variables ( X 0 , X 1 , X 2 ,..., X R ) , y que nos permite dar una
interpretación más sencilla de los parámetros del modelo.
-
Si βr es igual a 0 entonces la variable Y es independiente de la variable XR
-
Si βr es mayor que 0, entonces p(x) aumenta cuando aumenta XR
-
Si βr es menor que 0, entonces p(x) aumenta cuando disminuye XR
-
β0 es el valor del logaritmo de la ventaja de respuesta Y = 1 para un individuo
X1=X2=…=XR=0, o cuando la respuesta es independiente de las variables explicativas
β1= β2=…= βr=0
Los gráficos que se muestran a continuación representan la curva logística para un modelo
simple, con una sola variable explicativa, cuando el parámetro β asociado a la variable X es
positivo (Figura 3) y cuando éste es negativo (Figura 4).
Figura 3: Curva logística para β>0
Figura 4: Curva logística para β<0
Una interpretación más intuitiva viene dada por las exponenciales de los parámetros asociados
a las variables explicativas. En concreto,
frente a
exp(β r ) representa el cociente de ventajas de Y = 1
Y = 0 cuando xr aumenta en una unidad y el resto de variables permanecen
constantes.
Como ejemplo, si definimos una variable X l y la incrementamos en una unidad ( X l + 1 ), y las
restantes R-1 variables las mantenemos fijas, entonces el cociente de ventajas de respuesta
Y = 1 para las dos combinaciones de valores de las variables explicativas x1=(1,x1,…, xl,…, xR)’
y x2 =(1,x1,…, xl+1,…, xR)’, es:
Ana Gema Galera Pozo
27
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
p ( x1 )
1 − p ( x1 ) exp( β 0 + β 1 x1 + ... + β l ( x + 1) + ... + β R x R
=
= exp (β l (( x l + 1) − x l )) = exp (β l )
p( x 2 )
exp( β 0 + β 1 x1 + ... + β l x + ... + β R x R
1 − p( x 2 )
Concretamente, si
exp( β l ) =1, equivale a que β l = 0 indicando que la variable asociada al
parámetro no afecta al valor de la respuesta.
4.1.2. Modelos logit con variables explicativas cualitativas
En ocasiones, las variables disponibles para explicar la variable de respuesta discreta
son variables cualitativas con distintas categorías de clasificación. Por ejemplo, en los modelo
que se quieren estudiar en este trabajo, se tiene la variable sexo con dos categorías (hombremujer), o la variable ‘nivel de estudios’ con siete categorías diferentes.
En estos casos es necesario definir nuevas variables artificiales que servirán para pasar de una
categoría a otra.
Supongamos una variable cualitativa
A con k categorías, entonces es necesario definir k-1
variables artificiales asociadas a las categorías de clasificación.
Existen varios métodos para la codificación de las variables, pero en este estudio nos vamos a
centrar en el método parcial que será el que utilicemos en nuestra investigación.
Este método realiza la codificación de las variables respecto a una categoría de referencia.
La categoría de referencia tendrá valor 0 para todas las variables artificiales asociadas al resto
de categorías.
Asociada al resto de categorías se creará la variable artificial que se codifica como 1 para su
categoría y 0 para el resto.
Por ejemplo, si para la variable “nivel de estudios” se definen las siguientes categorías:
-
Sin estudios
-
Estudios de primaria
-
Estudios de secundaria
-
Estudios de FP
-
Estudios superiores
Y se toma como variable de referencia la primera de ellas, ‘sin estudios’, entonces la
codificación de las variables quedará del siguiente modo:
0
1
Estudios
secundaria
0
0
0
0
Estudios
superiores
0
0
0
1
0
0
0
0
1
0
0
0
0
1
Estudios primaria
Sin estudios
Estudios primaria
Estudios
secundaria
Estudios FP
Estudios
superiores
Estudios FP
Ana Gema Galera Pozo
28
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Finalmente se habrán creado cuatro variables artificiales que podrán tomar valor 0 ó 1.
Por tanto y de manera general, la m-enésima variable de diseño va asociada con las categorías
Am y se define
1, k = m
A
X km
= X mA ( A = Ak ) = 
0, k ≠ m
∀m = 2,..., K ; k = 1,..., K .
Entonces, la probabilidad de respuesta de Y=1 para un individuo clasificado en la categoría Ak
de la variable cualitativa A es
p k = P[Y = 1 / A = Ak ]
.
El modelo logit para una variable categórica definida de este modo será
k
 p 
A
Lk = ln  k  = β 0 + ∑τ mA X km
.
1
−
p
m=2
k 

Se obtiene un parámetro asociado a cada una de las variables artificiales tal y como se observa
en la expresión. Equivalentemente el modelo se puede expresar como
 p 
Lk = ln  k  = β0 + τ kA
1 − pk 
para
en este caso, la exponencial de
β0
k = 1,..., K y con τ 1A =0
es la ventaja de respuesta Y = 1 para la categoría de
referencia de la variable A .
Para la interpretación de los parámetros asociados a las variables artificiales podemos usar los
cocientes de ventajas del mismo modo que en el caso de variables continuas
θ k1
Pk
1 − Pk
exp( β 0 + τ kA ) exp( β 0 )·exp( τ kA )
=
=
=
= exp(τ kA )
P1
exp( β 0 )
exp( β 0 )
1 − P1
.
θ k1 =exp( τ kA ) representa el cociente de ventajas de la respuesta de Y = 1
para la observación
o el individuo con categoría k frente a la categoría de referencia, que en este caso es la primera
de ellas .
Si consideramos ahora más de una variable cualitativa, por ejemplo, N variables explicativas
categóricas del siguiente modo:
A1: A11….A1K1; con K1 categorías y con variables diseñadas X 2A1 ,..., X KA11
A2: A21….A2K2; con K2 categorías y con variables diseñadas X 2A 2 ,..., X KA 22
.
.
.
AN
AN: AN1….ANKN; con KN categorías y con variables diseñadas X 2AN ,..., X KN
Ana Gema Galera Pozo
29
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
entonces, la probabilidad de respuesta de Y=1 en cada combinación de niveles de las variables
cualitativas es
P[Y = 1 / A1 = A1k 1 , A2 = A2 k 2 ,..., AN = AN kn ] = p k 1, k 2... kn
Para obtener el modelo de regresión logística y utilizando el método parcial para la codificación,
se definen
K1 − 1 variables artificiales para la variable A1
K 2 − 1 variables artificiales para la variable A2
.
.
.
KN − 1 variables artificiales para la variable AN
por lo que el modelo de regresión logística se construye con (K1+K2+…+KN – N) variables
explicativas del siguiente modo:
K1
K2
KN
 p k1, k 2,...kn 
A1
A1
A2
A2
ln 
=
β
+
τ
X
+
τ
X
+
...
+
τ knAN X knAN

∑
∑
∑
k1
k1
k2
k2
0
k 1= 2
k 2= 2
kn = 2
1 − p k1,k 2,...kn 
donde k1=1,…,K1; k2=1,…,K2; … ; kn=1,…,KN.
Equivalentemente el modelo se puede expresar como
 p k1,k 2,...kn 
A1
A2
AN
ln 
 = β 0 + τ k1 + τ k 2 + ... + τ kN
p
1
−

k 1, k 2,...kn 

para k1=1,…,K1; k2=1,…,K2; … ; kn=1,…,KN y con
τ 1A1 = τ 1A 2 = ... = τ 1AN =0
La interpretación de las exponenciales será la siguiente:
-
La exponencial de
β0
es la ventaja de respuesta Y=1 para cuando las N variables
toman el valor de las categorías de referencia.
-
La exponencial de exp( τ k 1 ) es
A1
p k1,k 2...kn
exp(τ kA11 ) =
1 − p k 1,k 2...kn
p1,k 2...kn
1 − p1,k 2..kn
que representa el cociente de ventajas de la respuesta Y=1 de la categoría A1k1 respecto de
la categoría de referencia de esta variable (A11).
-
La exponencial de exp( τ k 2 ) es
A2
Ana Gema Galera Pozo
30
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
p k1,k 2...kn
exp(τ kA22 ) =
1 − p k 1,k 2...kn
p k1,1...kn
1 − p k 1,1...kn
que representa el cociente de ventajas de la respuesta Y=1 de la categoría A2k2 respecto de
la categoría de referencia de esta variable (A21).
-
La exponencial de exp( τ kn ) es
AN
p k 1, k 2...kn
exp(τ knAN ) =
1 − p k 1,k 2..kn
p k1, k 2...1
1 − p k 1,k 2...1
que representa el cociente de ventajas de la respuesta Y=1 de la categoría ANkn respecto
de la categoría de referencia de esta variable (AN1).
4.2. Modelos de regresión logística multinomial
4.2.1. Formulación del modelo
En esta sección partimos de una variable dependiente discreta Y , con más de dos categorías
de respuesta, y denotadas por
Y1 , Y2 ,..., Ys .
El objetivo es explicar la probabilidad de tomar una de las posibles categorías de la variable
respuesta en función de una serie de variables X=(X1, X2, …, XR)’, es decir
E[Y = Ys / X = x] = p s ( x) .
En esta situación la variable respuesta es politómica por lo que Y sigue una distribución
multinomial:
Y → M(1; p1 (x), p 2 (x),…, p S (x)) y se verifica que
S
∑ p ( x) = 1 .
s =1
s
En el caso de que la variable respuesta sea nominal, el modelo de regresión logística se formula
mediante varios logits simultáneamente para realizar comparaciones de cada par de categorías
de la variable dependiente. Se realiza uno para cada una de las restantes categorías respecto a
una categoría de referencia que se haya considerado de la variable dependiente. Es decir, se
realizan S-1 comparaciones.
Así por ejemplo, si la variable dependiente es:
Y → ‘Relación con la actividad económica’
Que tiene tres categorías
-
Parados
Ana Gema Galera Pozo
31
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
-
Ocupados
-
Inactivos
los factores
entonces, si tomamos como categoría de referencia la primera ‘parados’, se realizarán los
siguientes dos logit:
-
Logit (Ocupados/Parados).
-
Logit (Inactivos/Parados).
La trasformación logit generalizada se define como:
 p ( x) 
ln  s  = Ls ( x)
 p1 ( x) 
∀s = 2,3,..., S
En el caso de que tengamos R variables explicativas
R
 p s ( x) 
ln 
 = Ls ( x) = ∑ β rs x r = x´β s
r =0
 p1 ( x) 
siendo
x = ( x0 , x1 , x 2 ,..., x R )' con x0 =1
( X 1 , X 2 ,..., X R ) , el modelo es de la forma
∀s = 2,3,..., S
y
β s = (β 0 s , β1s ,..., β Rs )'
Para las probabilidades de respuesta podemos escribir el modelo de la siguiente forma:
R
p s ( x) =
exp(∑ β rs x r )
r =0
∀s = 2,3,..., S ,
 R

1 + ∑ exp ∑ β rs x r 
s =2
 r =0

S
y para la categoría de referencia el modelo será el siguiente:
p1 ( x) =
1
.
 R

1 + ∑ exp ∑ β rs x r 
s=2
 r =0

S
4.2.2. Interpretación de los parámetros
La interpretación de los parámetros del modelo va a depender del tipo que sean las variables
explicativas (cuantitativas o cualitativas) que a continuación se detallan:
-
Si tenemos sólo una variable explicativa cuantitativa las exponenciales de los
parámetros
βs
asociados a la variable se interpretan como la ventaja de la respuesta
Ys frente a Y1 cuando se incrementa en una unidad la variable explicativa X
Ana Gema Galera Pozo
32
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
ps ( x + 1)
p ( x + 1) exp(α s + β s ( x + 1))
=
= exp(β s )
θ s (∆X = 1) = 1
ps ( x)
exp(α s + β s x)
p1 ( x)
-
Si
tenemos
múltiples
variables
cuantitativas
( X 1 , X 2 ,..., X R ) ,
entonces
las
exponenciales de los parámetros asociados a las distintas variables muestran el
cociente de ventajas de
Ys frente a la categoría de referencia Y1
incrementa en una unidad la variable asociada al parámetro,
cuando se
X l , y se mantienen fijas
las demás
P[Y = Ys / X l = xl + 1, X r = x r , r ≠ l ]
P[Y = Y1 / X l = xl + 1, X r = x r , r ≠ l ]
θ s (∆X l = 1 / X r = x r , r ≠ l ) =
⇒
P[Y = Ys / X l = xl , X r = x r , r ≠ l ]
P[Y = Y1 / X l = xl , X r = x r , r ≠ l ]
⇒ θ s (∆X l = 1 / X r = x r , r ≠ l ) = exp(β ls )
∀s = 2,3,..., S
-
Cuando en el modelo hay variables explicativas categóricas, éstas se introducen
mediante sus variables de diseño asociadas utilizando el método parcial, por ejemplo,
que explicamos en el punto 4.1.2.
Supongamos la variable categórica A con categorías A1,…,Ak. Utilizando el método
parcial se obtienen K-1 variables nuevas que se denotan como
X kA (k = 2,..., K ) .
Así, el modelo de regresión logística multinomial generalizado que obtenemos sigue
siendo un modelo lineal, como en los casos anteriores, para cada logit generalizado en
función de esas variables de diseño
K
p 
Ls / k = ln  s / k  = β 0 s + ∑τ ksA X ksA
k =2
 pS / k 
donde
k = 1,..., K ; s = 2,..., S
p s / k es la probabilidad de respuesta Ys en la categoría Ak.
El modelo se puede escribir equivalente como
p 
Ls / k = ln  s / k  = β 0 s + τ ks
 pS / k 
siendo
τ 1s = 0
k = 1,..., K ; s = 2,..., S
∀s = 2,3,..., S
Ana Gema Galera Pozo
33
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Las exponenciales de los parámetros se interpretan como el cociente de ventajas de
respuesta
Ys frente a la categoría de referencia Y1 , para la categoría Ak de A respecto
a la primera categoría A1
θ s / k1
ps / k
p
exp(β 0 s + τ ks ) exp(β 0 s )·exp(τ ks )
= 1/ k =
=
= exp(τ ks ) .
ps /1
exp(β 0 s )
exp(β 0 s )
p1 / 1
4.3. Ajuste del modelo logit para datos con ponderaciones
A continuación se va a abordar el problema de la estimación de los parámetros del modelo que
están asociados a las variables explicativas.
El método más utilizado en regresión logística es el método de Máxima Verosimilitud (MV).
Dado que el diseño muestral de la EPA no es un muestreo aleatorio simple, tendremos que
tener en cuenta los factores de elevación asociadas a cada individuo incluido en la muestra y
que es lo que determina el peso de cada registro en la muestra. Estos pesos nos sirven para
elevar los datos a la población total de España y hacer estimaciones de ésta.
El tratamiento de los conjuntos de datos obtenido mediante un muestreo distinto del aleatorio
simple para modelos como el de regresión logística arranca en el muestreo endógeno y se
remonta a McFadden (1973). Sin embargo, los trabajos de Manski y Lerman (1977) y,
posteriormente, Cosslett (1981), establecieron los principales resultados respecto a la
estimación mediante el método de máxima verosimilitud cuando hay que tener en cuenta la
ponderación de los datos. Butler (2000) demuestra que para el caso de regresión logística
donde los estimadores de MV coinciden con los obtenidos por el método generalizado de los
momentos, las varianzas son menores si no se tienen en cuenta las ponderaciones que corrigen
el diseño muestral.
Por ello, es necesario que tengamos en cuenta los factores de elevación poblacionales que se
incluyen en la EPA ya que en caso contrario podríamos aceptar la significación o no de variables
que a nivel de población su efecto puede ser el contrario.
Usamos el método de máxima verosimilitud ponderada para la estimación de los
parámetros a partir de la siguiente función:
R





exp(
xir β r ) 



∑

n
1
=
0
r




L( β ) = ∑ wi  y i ln
+ (1 − y i ) ln
R
R





i =1
1
+
exp(
x
β
)
1
+
exp(
x
β
)




∑
∑
ir
r
ir
r

r =0
r =0





Ana Gema Galera Pozo
34
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
donde wi son los factores de población con los que se pondera cada individuos de la muestra y
n
se cumple que
∑w
i =1
muestra de tamaño
i
es igual a la población total de España. Por tanto, cada individuo i de la
n , tiene asociado un valor de ponderación wi .
Recordemos que tenemos R variables explicativas que se incluyen en el modelo por lo que se
estiman R+1 parámetros, donde
β
es el vector de dichos parámetros
( β 0 , β 1 ,..., β r )' e yi es
el valor que toma el individuo i en la variable Y (1 ó 0 en el caso de regresión logística
binaria).
Desarrollamos la expresión anterior se tiene
R





exp(
xir β r ) 



∑

n
1
r
=
0



 =
L( β ) = ∑ wi  y i ln
+ (1 − y i ) ln
R
R





i =1
 1 + exp(∑ xir β r ) 
 1 + exp(∑ xir β r ) 

r =0
r =0





R




exp(
xir β r ) 



∑
n
1
r =0




+ wi ln
wi y i ln
∑
R
R




i =1
 1 + exp(∑ xir β r ) 
 1 + exp(∑ xir β r ) 
r =0
r =0








n
1


− ∑ wi y i ln
R


i =1
 1 + exp(∑ xir β r i ) 
r =0


(1)
Aplicamos las propiedades de los logaritmos
R




exp(
xir β r )  n



∑
n
1
r =0



=
wi y i ln
− ∑ wi y i ln
∑
R
R




i =1
i =1
 1 + exp(∑ xir β r ) 
 1 + exp(∑ xir β r ) 
r =0
r =0




R


 exp(∑ xir β r )
 n
n
R
1
r =0

 = w y ln(exp(
w
y
ln
:
xir β r )) =
∑
∑
i i
i i
R
R

 ∑
i =1
i =1
r =0
 1 + exp(∑ xir β r ) 1 + exp(∑ xir β r ) 
r =0
r =0


n
R
∑∑
i =1 r = 0
wi y i xir β r i
La expresión (1) queda expresada como
Ana Gema Galera Pozo
35
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
n
los factores




1

 . (2)
wi y i xir β r i + ∑ wi ln
R


i =1
 1 + exp(∑ xir β r ) 
r =0


R
n
L( β ) = ∑∑
i =1 r = 0




n
R
1


 = − ln1 + exp(
Además, sabemos que ln
xir β r ) 
∑
∑
R


i =1
r =0


 1 + exp(∑ xir β r ) 
r =0


por tanto, la expresión (2) queda expresada finalmente como
n
R
n
n
R


L( β ) = ∑∑ wi y i xir β r i − ∑ wi ln1 + ∑ exp(∑ xir β r )  (3)
i =1 r = 0
i =1
i =1
r =0


Derivando respecto de cada uno de los parámetros

 R
 
 exp ∑ β r xir  
n
n
∆L( β )

 r =0
 
= ∑ wi y i xir − ∑ wi xir 
R
∆β r


i =1
i =1
 1 + exp ∑ β r xir  


 r =0


e igualando a cero se obtienen las ecuaciones máximo verosímiles βˆ r para los parámetros
n
n
i =1
i =1
βr
∑ wi yi xir − ∑ wi xir pˆ i = 0
 R

exp ∑ βˆ r xir 
 r =0
 es el estimados MV de p
ˆi =
donde p
i.
R


ˆ
1 + exp ∑ β r xir 
 r =0

Para la estimación máxima verosimilitud de los parámetros se requiere el uso de métodos de
solución iterativa como el de Newton-Raphson que proporciona la siguiente fórmula de
estimación iterativa:
β ( t ) = β ( t −1) − ( H (t −1) ) −1 D ( t −1)
La expresión depende de los valores de D y H. D es la primera deriva de L( β ) que se obtenia
anteriormente como
n
n
n
i =1
i =1
i =1
(
)
D (t −1) = ∑ wi yi xir − ∑ wi xir pˆ i =∑ yi − pˆ i(t −1) wi xir .
Ana Gema Galera Pozo
36
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
Para
obtener
H
calculamos
la
segunda
derivada
los factores
de
L( β )


 R
 

β
exp
x

 

∑
r
ir
n
∆2 L( β )
∆ n

r
=
0

  =
=
wi y i xir − ∑ wi xir 
∑
R
∆β r ∆β s β r  i =1

 
i =1


β
1
exp
x
+


∑
r ir   

0
r
=





(4)


R
 exp β x  
∑
r ir
n

r =0

 
= −∑ wi xir xis 

2
i =1

 R
 
 1 + exp ∑ β r xir  
 r =0
 

sabiendo que
 R

exp ∑ β r xir 
 r =0
 ,
pi =
R


1 + exp ∑ β r xir 
 r =0

entonces, la expresión (4) se puede poner como
n
∆2 L( β )
== −∑ wi xir xis p i (1 − p i )
∆β r ∆β s
i =1
Por tanto:
n
H (t −1) = −∑ wi xir xis p (t −1) (1 − pi(t −1) )
i =1
Sustituyendo
D ( t −1) y H (t −1) en la ecuación β ( t ) = β (t −1) − ( H (t −1) ) −1 D ( t −1) la fórmula de
estimación iterativa es
β ( t ) = β (t −1) − ( X ' Diag [ wi p i( t −1) (1 − p i(t −1) )] X ) −1 X ' wi ( y i − pˆ i(t −1) )
donde X es la matriz de diseño con R+1 columnas y n filas. R es el número de variables
explicativas y n el número de individuos en la muestra.
 x10 , x11 ,..., x1r ,..., x1R 


 x 20 , x 21 ,..., x 2 r ,..., x 2 R 
X =
................................ 


 x , x ,..., x ,..., x 
nr
nR 
 n 0 n1
Ana Gema Galera Pozo
37
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Los criterios de convergencia del método iterativo utilizado para la estimación de los parámetros
pueden ser varios pero en todos ellos la idea es que:
-
β (t ) ≈ β (t −1) , o que
-
L( β ( t ) ) ≈ L( β ( t −1) ) , o que
-
p it ≈ pit −1
El estimador MV βˆ del vector de parámetros
β
converge en distribución a una Normal:
βˆ → N ( β , Cov( βˆ ))
n→∞
Donde la matriz de covarianzas viene dada por la expresión:
Cov( βˆ ) = ( X ' Diag[ wi pi( t −1) (1 − pi(t −1) )] X ) −1
4.4. Contrastes de bondad de ajuste en regresión logística
binaria
Una vez construido el modelo de regresión logística es necesario comprobar como de bueno es
el ajuste de los valores pronosticados por el modelo, a los valores observados.
Si Q es el número de combinaciones de las variables explicativas e yq es el número de
respuestas de Y=1 en la q-ésima combinación, (qué también puede obtenerse como la
probabilidad observada de Y=1 en la q-ésima combinación por el número de casos en la
combinación q, y q = n q · p q ). Entonces, una vez estimado el modelo se pueden obtener las
probabilidades
p̂ q (estimadas bajo el modelo), y las frecuencias esperadas que serán
mˆ q = n q · pˆ q . Por tanto, el test global de bondad de ajuste contrasta
R
H 0 : pq =
exp(∑ β r x qr )
r =0
R
(1 + exp(∑ β r x qr ))
∀q = 1,2,..., Q
r =0
frente a la alternativa
R
H 0 : pq ≠
exp(∑ β r x qr )
r =0
R
para algún q.
(1 + exp(∑ β r x qr ))
r =0
Cuando nq es suficientemente grande, se dispone del test chi-cuadrado de Pearson y del test
chi-cuadrado de razón de verosimilitud.
Ana Gema Galera Pozo
38
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4.4.1. Test chi-cuadrado de Pearson
Este estadístico es de la forma:
Q
( y q − n q pˆ q ) 2
q =1
n q pˆ q (1 − pˆ q )
X (M ) = ∑
2
Q
n q ( y q − mˆ q ) 2
q =1
mˆ q (n q − mˆ q )
=∑
.
El estadístico tiene distribución asintótica chi-cuadrado con Q-(R+1) grados de libertad. R es el
número de parámetros estimados bajo el modelo
X 2 ( M ) → χ Q2 −( R +1)
nq → ∞
Se rechazará la hipótesis nula al nivel de significación
α
si se verifica
X 2 ( M ) Obs ≥ χ Q2 −( R +1);α
o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la
derecha del valor observado
p − valor = P[ X 2 ( M ) ≥ X 2 ( M ) Obs ] .
En este caso se rechaza la hipótesis nula cuando p-valor≤
α
4.4.2. Test chi-cuadrado de razón de verosimilitudes
El estadístico de Wilks de razón de verosimilitudes, o conocido también como DEVIANCE, para
la regresión logística múltiple es de la forma
Q
 nq − y q
G 2 ( M ) = 2 ∑ (n q − y q ) ln
 n − mˆ
 q =1
q
 q
 Q
y
 + ∑ y q ln q
 q =1
 mˆ

 q

 .


El estadístico tiene distribución asintótica chi-cuadrada con Q-(R+1) grados de libertad. R es el
número de parámetros estimados bajo el modelo
G 2 ( M ) → χ Q2 −( R +1)
nq → ∞
Se rechazará la hipótesis nula al nivel de significación
α
si se verifica
G 2 ( M ) Obs ≥ χ Q2 −( R +1);α
o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la
derecha del valor observado
p − valor = P[G 2 ( M ) ≥ G 2 ( M ) Obs ] .
Se rechaza la hipótesis nula cuando p-valor≤
α
Ana Gema Galera Pozo
39
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4.4.3. Test de Hosmer y Lemeshow
Cuando no se cumple que nq sea lo suficientemente grande, es decir, cuando el número de
frecuencias estimadas en cada combinación de las variables explicativas es pequeño, no se
puede asumir la distribución chi-cuadrado. La norma es que el 80% de las frecuencias
ˆ q = n q · pˆ q , sean mayores que cinco y todas mayores de 1. Cuando
estimadas bajo el modelo, m
no se cumple dicha norma, se usa el estadístico de Hosmer y Lemeshow.
Este estadístico agrupa adecuadamente los datos en intervalos, por lo que su valor depende
fuertemente del número de clases resultantes de la agrupación. Hosmer y Lesmeshow (1989)
aconsejan G=10 grupos construidos en base a los deciles de las probabilidades estimadas bajo
el modelo.
Entonces, si agrupamos en G grupos, se define por
g-ésimo grupo, u g
n g' al número total de observaciones en el
al número de respuestas Y=1 en el g-ésimo grupo y
p g a las
probabilidades estimadas bajo el modelo para el g-ésimo grupo que se obtiene como la media
de las probabilidades p̂ q de los valores de xq en el grupo. El estadístico es de la forma
G
(u g − n g' p g ) 2
g =1
n g' p g (1 − p g )
H −L=∑
.
Este estadístico sí tiene una distribución asintótica chi-cuadrado con G-2 grados de libertad.
4.5. Contrastes de bondad de ajuste en regresión logística
multinomial
Si Q es el número de combinaciones de las variables explicativas, ys/q es el número de
respuestas de Ys en la q-ésima combinación de las variables explicativas. Entonces, una vez
estimado el modelo se pueden obtener las probabilidades pˆ s / q , por lo que las frecuencias
ˆ s / q = nq · pˆ s / q .
esperadas son para este caso m
Por tanto, el test global de bondad de ajuste trata de contrastar si las probabilidades
observadas son iguales a las porbabilidades estimadas bajo el modelo, es decir, si
R
H 0 : ps / q =
exp(∑ β sr x qr )
r =0
S
R
s =2
r =0
(1 + ∑ exp(∑ β sr x qr ))
∀q = 1,2,..., Q
Ana Gema Galera Pozo
40
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
frente a la alternativa
R
H 0 : ps / q ≠
exp(∑ β sr x qr )
r =0
para algún q y s.
S
R
s =2
r =0
(1 + ∑ exp(∑ β sr x qr ))
En el caso multinomial solo se dispone del test chi-cuadrado de Pearson y del test chi-cuadrado
de razón de verosimilitud.
4.5.1. Test de chi-cuadrado de Pearson
El estadístico de contraste es de la forma
S
X (M ) = ∑
s =1
o
equivalente,
sabiendo
que
Q
( y s / q − n q pˆ s / q ) 2
q =1
n q pˆ s / q
∑
2
y s / q = Os / q
son
las
frecuencias
observadas
y
que
n q pˆ s / q = E s / q son las frecuencias estimadas bajo el modelo, el estadístico de contraste puede
escribirse como
S
X (M ) = ∑
2
s =1
Q
(Os / q − E s / q ) 2
q =1
Es / q
∑
.
Este estadístico sigue una distribución asintótica chi-cuadrado con (Q − R − 1) x ( S − 1) grados
de libertad, donde R es el número de paramétros de las variables explicativas en cada
combinación, y S es el número de categorías de la variable respuesta.
X 2 ( M ) → χ (2Q − R −1) x ( S −1)
nq → ∞
Se rechazará la hipótesis nula al nivel de significación
α
si se verifica
X 2 ( M ) Obs ≥ χ (2Q − R −1) x ( S −1);α
o equivalentemente, se define el p-valor del contraste como la probabilidad acumulada a la
derecha del valor observado
p − valor = P[ X 2 ( M ) ≥ X 2 ( M ) Obs ] .
En este caso se rechaza la hipótesis nula cuando p-valor≤
α.
Ana Gema Galera Pozo
41
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4.5.2. Test de chi-cuadrado de razón de verosimilitudes
El estadístico de contraste es de la forma
Q
S
G ( M ) = 2·∑
∑y
2
s =1
q =1
s/q
 ys / q
ln
 n pˆ
 q s/q




o equivalentemente
Q
S
G ( M ) = 2·∑
∑O
2
s =1
q =1
s/q
 Os / q
ln
E
 s/q




Este estadístico sigue una distribución asintótica chi-cuadrado con (Q − R − 1) x ( S − 1) grados
de libertad, donde R es el número de paramétros de las variables explicativas en cada
combinación y S es el número de categorías de la variable respuesta.
G 2 ( M ) → χ (2Q − R −1) x ( S −1)
nq → ∞
Se rechazará la hipótesis nula al nivel de significación
α
si se verifica
X 2 ( M ) Obs ≥ χ (2Q − R −1) x ( S −1);α
o sabiendo que p − valor = P[ X ( M ) ≥ X ( M ) Obs ] , se rechaza la hipótesis nula cuando
2
p-valor≤
2
α.
4.6. Medidas globales de bondad de ajuste
4.6.1. Tasas de clasificaciones correctas
La tasa de clasificaciones correctas es también una medida de bondad de ajuste que permite
obtener la proporción de individuos que se clasifican correctamente por el modelo en su
categoría observada de la variable respuesta. Un individuo se clasifica correctamente si la
categoría predicha por el modelo coincide con la categoría observada.
La tasa de clasificaciones correctas (TCC) se calcula como el cociente entre el número de
individuos correctamente clasificados por el modelo y el número total de individuos en la
muestra. También se puede obtener la tasa de clasificación correcta en cada categoría de la
variable respuesta, realizando el cociente entre el número de individuos correctamente
clasificados por el modelo en esa categoría y el número total de individuos observados en dicha
categoría.
Ana Gema Galera Pozo
42
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
En el caso de regresión logística binaria se escoge un punto de corte p ∈ (0,1) , de modo que a
un individuo se le asigna Y=1 si la probabilidad estimada es mayor que ese punto de corte, y 0
si la probabilidad está por debajo de ese valor. Normalmente se suele tomar 0,5 como punto de
corte, aunque la librería (ROCR) de R permite obtener un punto de corte óptimo de modo que
se maximice la TCC.
En el caso multinomial, los individuos se clasifican en aquella categoría donde la probabilidad
estimada por el modelo sea más alta.
4.6.2. Curva Roc
Para realizar la representación gráfica de la curva es necesario calcular la especificidad y
sensibilidad del modelo para distintos puntos de corte. Si partimos de la tabla de clasificaciones
correctas
Categorías
predichas
por el modelo
Categorías
de
observación
Y=1
Y=0
Y=1
A
B
Y=0
C
D
se definen las siguientes tasas:
-
La tasa de verdaderos positivos (TVP) es el cociente entre los individuos clasificados
correctamente en la categoría Y=1 y el total de individuos observados que toman el
valor Y=1 (A/(A+B)).
-
La tasa de falsos positivos (TFP) es igual al número de individuos clasificados como
Y=1 por el modelo cuando realmente tienen valor Y=0, y el total de individuos que
presentan la categoría Y=0 en las observaciones reales, (C/(C+D)).
La especificidad es la probabilidad de que un individuo tome un valor Y=0 cuando su valor real
es Y=0, es decir, 1-TFP.
La curva de ROC, tal y como se observa en la Figura 5, es la representación de la sensibilidad
(tasa de verdaderos positivos) en función de la tasa falsos positivos (1-especificidad) para
distintos puntos de corte (cutpoint) en la regresión logística binaria.
Ana Gema Galera Pozo
43
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Figura 5: Ejemplo de Curva ROC
Si el modelo fuera perfecto, hay una región en la que cualquier punto de corte tiene
sensibilidad y especifidad iguales a 1, la curva sólo tiene el punto (0,1).
Si el modelo fuera inútil, la sensibilidad (verdaderos positivos) es igual a la proporción de falsos
positivos, la curva sería la diagonal de (0,0) a (1,1). Los modelos habituales tienen curvas
intermedias.
Un parámetro para evaluar la bondad de un modelo logit binario, es el área bajo la curva que
tomará valores entre 1 (modelo perfecta) y 0,5 (modelo inútil). Puede demostrarse, (Hanley y
McNeil, 1982 y 1983) que este área puede interpretarse como la probabilidad de que ante un
par de individuos, uno con Y=1 y el otro con Y=0, el modelo los clasifique correctamente.
En consecuencia, las curvas ROC son útiles para conocer el ajuste global de un modelo a través
del área bajo la curva, ya que evalúan la capacidad del modelo para discriminar.
Finalmente, cuando el área bajo la curva ROC es al menos de 0.7, el modelo logit ajustado se
considera preciso con capacidad de discriminación alta.
La limitación principal de esta prueba está en su uso ya que sólo contemplan dos categorías de
la variable respuesta y no sirve para modelos con variables de respuesta discreta multinomial.
4.6.3. Tasas tipo R2
Para estudiar la calidad del modelo, también pueden obtenerse otras medidas del tipo a R2 que
se obtiene en regresión lineal, y que aporta la proporción de variación de los resultados que
puede explicarse por el modelo. En el caso de variables de repuesta discreta se han definido
otras que son análogas pero que no llegan a ser tan útiles como ésta. En regresión logística se
proponen, entre otras, las siguientes:
Ana Gema Galera Pozo
44
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
-
los factores
R2 de Cox y Snell
Sea V0 el máximo de la verosimilitud bajo el modelo con sólo la constante y VM el máximo
verosimilitud del modelo ajustado con todos los parámetros, entonces:
R
2
CN
V
= 1 −  0
 VM
Si llamamos



2/ N
ΛM
a la deviance del modelo ajustado y
sólo la constante, entonces
Λ 0 a la desviance del modelo con
Λ M = −2 ln(VM ) y Λ 0 = −2 ln(V0 ) , por lo que R2 de Cox y
Snell se puede expresar como
R
2
CN
 Λ − Λ0 
= 1 − exp M

N


2/ N
Aunque esta medida esté acotada entre 0 y 1, no toma necesariamente 1 como valor
máximo, sino
2
max RCN
= 1 − (V0 )
2/ N
 − Λ0 
= 1 − exp

 N 
Además, si hay pocos datos puede tomar un valor cercano a 0. No obstante éste puede
ajustarse para que tome como máximo el valor 1 con R2 de Nagelkerke.
-
R2 de Nagelkerke
R N2 =
2
RCN
2
max RCN
Este coeficiente puede interpretarse del mismo modo que el coeficiente de determinación
de la regresión lineal clásica, aunque es más difícil que alcance valores cercanos a 1.
4.7. Contrastes sobre los parámetros del modelo
Una vez ajustado el modelo también es necesario estudiar la significación estadística de los
parámetros obtenidos.
En esta sección se van a considerar los contrastes de hipótesis para estudiar si las variables
regresoras que se introdujeron en el modelo son realmente necesarias o explicativas. Es decir,
se quiere contrastar si un subconjunto de parámetros, βr en el caso binomial o βrs en el caso
multinomial, que se denotará como β=(β1, β2, …, βl)’, es nulo. Por tanto, la hipótesis del
modelo será
H0 : β = 0
H1 : β ≠ 0 .
Ana Gema Galera Pozo
45
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
4.7.1. Contraste de Wald
Estos contrastes están basados en la normalidad asintótica de los estimadores de máxima
verosimilitud.
Si queremos contrastar si el parámetro
βr
asociado a una variable explicativa es cero
H0 : βr = 0
H1 : β r ≠ 0
Wald demostró que el estadístico:
βˆ r2
W1 = 2
σ ( βˆ r )
→
χ1
.
Bajo la hipótesis nula tiene distribución chi-cuadrado asintótica con 1 grado de libertad por ser
el cuadrado de una normal estándar. Por lo tanto, también se puede usar el estadístico
W2 =
βˆ r
S .E ( βˆ r )
→
N (0,1)
Qué bajo la hipótesis nula sigue una distribución normal de media 0 y desviación típica 1.
Se rechazará la hipótesis nula al nivel de significación
-
Si usamos
W1 , cuando W1obs ≥ χ1;α
-
Si usamos
W2 , cuando | W2 |≥ z α / 2 .
α
cuando se verifique lo siguiente:
.
Si se obtiene significación, entonces el coeficiente es diferente de 0 y la variable asociada está
relacionada significativamente con la respuesta. Sin embargo, la ausencia de significación
puede indicar que la variable asociada al parámetro es independiente a la variable de respuesta
discreta que se está estudiando.
En modelos con errores estándar grandes, el estadístico de Wald puede proporcional falsas
ausencias de significación. Tampoco es recomendable su uso si se están empleando variables
de diseño. En estos casos se recomienda el uso del test de razón de verosimilitudes.
4.7.2. Contrastes condicionales de razón de verosimilitudes
Este test se basa en ir eliminando parámetros asociados a las variables independientes del
modelo ajustado y comprobar si el nuevo modelo obtenido, sin la variable asociada al
parámetro eliminado, se ajusta peor. La ausencia de significación del contraste indica que el
modelo sin la variable no es peor, por lo que se acepta que el parámetro asociado a esa
variable puede ser nulo.
Supongamos que MG es un modelo de regresión logística que se ajusta bien y se quiere
contrastar que los parámetros β=(β1, β2, …, βl)’, son nulos.
Ana Gema Galera Pozo
46
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Entonces, si denotamos por MP al modelo más simple que resulta de hacer ceros estos
parámetros en MG, la hipótesis que se contrasta se puede expresar como
H 0 : β = 0 (MP se verifica)
H 1 : β ≠ 0 asumiendo cierto MG.
El estadístico de razón de verosimilitudes condicional es de la forma
G 2 ( M p / M G ) = −2( L p − LG ) = G 2 ( M p ) − G 2 ( M G )
donde LP, LG son los máximos de la log-verosimilitud bajo el modelo MP y MG respectivamente.
Observemos que el estadístico del contraste es la diferencia entre las deviances de la bondad
de ajuste para cada modelo. Además este estadístico tiene distribución chi-cuadrado con
l
2
grados de libertad igual a la diferencia de grados de libertad de la distribución G de ambos
modelos
G 2 (M p / M G )
χ l2
→
La hipótesis nula se rechazará al nivel de significación
α
igual que el cuantil de orden (1- α ) de la distribución
χ l2 .
.
cuando
G 2 ( M p / M G ) sea mayor o
Para los procedimientos de selección de variables es aconsejable el uso del test de razón de
verosimilitudes que proporciona mejores resultados y más potentes que el test de Wald.
4.8. Intervalos de confianza
Cuando se obtienen los parámetros del modelo es necesario realizar inferencia para indicar la
precisión de los mismos a través de los intervalos de confianza.
Para obtener estos intervalos de confianza a un nivel de confianza de 1- α nos basaremos en la
distribución normal asintótica de los estimadores MV.
Intervalos de confianza para los parámetros
Para la construcción de un intervalo de confianza de nivel
recordamos la distribución asintótica de
β̂ r
1 − α para un parámetro β r
β̂ r
→
N (β r , σˆ 2 (βˆ r ))
entonces


βˆ − β r
P  − zα / 2 ≤ r
≤ zα / 2  = 1 − α
σˆ (βˆ r )


Ana Gema Galera Pozo
47
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
de donde se obtiene el intervalo de confianza
βˆ r ± zα / 2σˆ ( βˆ r )
Intervalos de confianza para los cocientes de ventajas
Sabemos que los cocientes de ventajas vienen dados por la exponencial de los parámetros
exp( βˆr ) y que éstos facilitan la interpretación de los βˆr asociados a las variables del modelo.
Por ello, es también interesante obtener intervalos de confianza de nivel
1 − α para dichas
exponenciales para dotar de mayor precisión a las interpretaciones.
En este caso tomamos exponenciales en el intervalo obtenido para cada uno de los parámetros,
y así construimos el intervalo de confianza para dichos cocientes de ventajas
exp(βˆ r ± zα / 2σˆ ( βˆ r )) .
4.9. Residuos y medidas de influencia en los modelos de
regresión logística binaria
Los contrastes de bondad de ajuste del modelo son medidas para evaluar la calidad global del
ajuste, pero también es necesario evaluar la bondad del ajuste observación a observación.
El estudio de los residuos en los modelos de regresión logística compara el número de las
observaciones de éxitos en todas las combinaciones posibles de las variables explicativas frente
al número de éxitos estimado bajo el modelo en esas mismas combinaciones de las variables
explicativas.
A continuación, veamos los tipos de residuos más habituales que se basan en los estadísticos X2
y G2, y que se definen en cada combinación de valores de las variables explicativas.
4.9.1. Residuos de Pearson
Vienen dados por la siguiente expresión:
rq =
[n
y q − nq pˆ q
q
]
1/ 2
pˆ q (1 − pˆ q )
.
Obsérvese que el estadístico X2 se calcula como
Ana Gema Galera Pozo
48
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Q
X = ∑ rq2
2
q =1
.
El test que queremos contrastar es si el residuo es significativamente igual a cero, es decir
H 0 : rq = 0
H 1 : rq ≠ 0
Bajo esta hipótesis el residuo tiene distribución asintótica normal con media cero y varianza
estimada
σ 2 (rq ) < 1 ,
es decir que los residuos tienen menor variabilidad que una variable
aleatoria estándar, pero suelen ser tratados como normales estándar, considerándose
significativos y que existe falta de ajuste cuando sus valores absolutos son mayores que 2.
Para evitar ese problema se usan los residuos de Pearson ajustados y que vienen dados por la
siguiente expresión:
rSq =
rq
[1 − h ]
1/ 2
qq
donde hqq es el elemento diagonal de la matriz
1
2
−1
H = W X ( X 'WX ) X 'W
1
2
con
W = Diag [ n q wq pˆ q (1 − pˆ q )] . wq es el peso o factor de elevación de la combinación q. Como
en cada combinación de variables cada individuo tiene un peso diferente, entonces
I
wq = ∑ wi , siendo I el número total de individuos en la combinación q.
i =1
Bajo la hipótesis nula, r
S
q
tiene distribución N(0,1) por lo que la hipótesis se rechazará, y
diremos que el residuo es significativamente distinto de cero a un nivel de significación
α,
cuando se cumpla
| r S q |≥ zα / 2 .
Por el contrario, el residuo será significativamente igual a cero si se cumple
| r S q |< zα / 2 .
4.9.2. Residuos de la devianza
El cálculo del residuo de la deviance es de la forma
1
 
 yq
d q = signo( y q − mˆ q ) 2  y q ln
 mˆ
 
 q
 

 n − yq
 + (nq − y q ) ln q

 n − mˆ
q

 q
  2

 
  .
Ana Gema Galera Pozo
49
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
ˆ q ) es -1 cuando la frecuencia observada (yq) es menor que la
La función signo ( y q − m
estimada (mq) y +1 cuando yq es mayor que mq. Obsérvese que el estadístico G2 se calcula
como
Q
G 2 = ∑ d q2 .
q =1
El residuo de la deviance, bajo la hipótesis nula, tiene distribución asintóticamente normal con
media 0 y varianza estimada
σ 2 (d q ) < 1 .
También en este caso se puede obtener los residuos de la devianza ajustados
dSq =
dq
[1 − h ]
1/ 2
qq
que bajo la hipótesis nula
d S q tiene distribución N(0,1). Por tanto, la hipótesis se rechazará y
diremos que el residuo es significativamente distinto de cero, a un nivel de significación
α
cuando se cumpla:
| d S q |≥ zα / 2 .
4.9.3. Medidas de influencia
Si se detectan residuos significativamente distintos de 0, debemos estudiar su influencia sobre
el modelo mediante las distancias de Cook.
La distancia de Cook es una prueba útil para la identificación de puntos influyentes. En la
literatura existente se consideran como puntos influyentes, aquellos que presentan un valor de
distancia de cook superior a 1 (Cook y Weisberg, 1982).
El cálculo está basado en el análisis de regresión considerando inicialmente cada dato en el
modelo y el posterior retiro de cada elemento de la muestra, y su influencia en los resultados.
Dq =
 hqq
1
(rqs ) 2 
1− h
R +1
qq




.
4.10. Residuos en los modelos de regresión logística multinomial
4.10.1. Residuos de Pearson
En el caso multinomial, los residuos de Pearson son para la Q combinación de las variables
explicativas en la categoría s de la variable respuesta, de la siguiente forma:
Ana Gema Galera Pozo
50
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
rs / q =
los factores
y s / q − n q pˆ s / q
[n
q
pˆ s / q
]
1/ 2
o lo que es lo mismo
rs / q =
Os / q − E s / q
[E ]
1/ 2
.
s/q
Al igual que en el caso binomial, el residuo de Pearson se considera significativamente distinto
de cero si en valor absluto es mayor que 2.
4.11. Métodos de selección del modelo
Un paso importante en la construcción de un modelo de regresión es la elección de variables a
incluir y cuáles no. Pero, del conjunto de variables que pueda tener un estudio, ¿qué variables
deben introducirse en el modelo? El modelo debe ser aquél más reducido que explique los
datos (principio de parsimonia), y que además sea congruente e interpretable de manera
sencilla en términos de cocientes de ventajas.
Para poder decidir entre utilizar un modelo con unas determinadas variables o con otras será
preciso disponer de una medida de comparación entre modelos.
En la regresión lineal lo más común para comparar dos modelos es utilizar la F parcial, que en
el caso de que se contrasten dos modelos que difieren en una sola variable es idéntico a utilizar
el valor de la t para el coeficiente de regresión de la nueva variable.
En la regresión logística se utiliza los contrastes condicionales de razón de verosimilitudes, que
como ya vimos en su apartado, nos permite comparar dos modelos anidados a través del valor
del estadístico G2(Mp/MG). Este estadístico se distribuye según una chi-cuadrado con grados de
libertad igual a la diferencia entre el número de variables de los dos modelos. Si no es
suficientemente grande decimos que no hay evidencia para pensar que un modelo es mejor que
el otro y por tanto nos quedaremos con el más sencillo.
El procedimiento de selección stepwise, paso a paso, está basado en estos contrastes
condicionales de razón de verosimilitudes.
Una cuestión importante a tener en cuenta es el correcto manejo de las variables categóricas
transformadas en varias variables ficticias. Siempre que se decida incluir (o excluir) una de
estas variables, todas sus correspondientes variables ficticias deben ser incluidas (o excluidas)
en bloque. No hacerlo así implicaría que se habría recodificado la variable, y por tanto la
interpretación de la misma no sería igual.
Ana Gema Galera Pozo
51
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Existen diferentes estrategias para la elección de variables a incluir en los modelos que se van a
evaluar.
Hacía atrás
Podemos empezar con un modelo con todas las variables e interacciones, a partir del cual
vamos eliminando variables cuya presencia no mejora la calidad del ajuste del modelo según el
criterio especificado. Es decir, se ajustan modelos logit eliminando, una a una, cada una de las
variables y se realizan los contrastes de razón de verosimilitudes para comprobar si el modelo
con menos variables es mejor que el modelo logit con todas las variables. De todas las variables
candidatas a salir, se elimina aquella que sea menos significativa.
En el paso siguiente, se toma el modelo obtenido en el paso anterior y se compara con los
modelos logit que resultan de ir eliminando cada una de las restantes variables. De todas las
variables candidatas a salir porque los contrastes de razón de verosimilitudes no son
significativos, sale la de menor significación.
El proceso se detiene cuando ya no hay más variables candidatas a salir.
Hacia delante
Podemos empezar con un modelo más simple, que por defecto suele ser el modelo con sólo la
constante, e ir añadiendo aquellas variables e interacciones que mejoran significativamente el
modelo. En este caso se realizan los contrastes de razón de verosimilitudes con el modelo logit
simple que tiene sólo la constante y con el modelo logit que resulta de añadir la nueva variable.
Repetimos para todas las variables. Si el contraste es significativo entonces el modelo que
añade la variable es mejor. De todas las variables candidatas a entrar, nos quedamos con la
que sea más significativa.
En el siguiente paso se contrasta el modelo resultante del paso anterior con los que resultan de
añadir una nueva variable. Finalmente se incluye la variable cuyo contraste es más significativo.
El proceso se detiene cuando ya no hay más variables candidatas a entrar
Stepwise (paso a paso)
La selección "stepwise", o por pasos, es una versión modificada del proceso de regresión hacia
adelante y hacia atrás, en la que en cada nuevo paso, cuando se incluye una nueva variable,
además se reconsidera el mantener las que ya se habían añadido previamente, es decir que no
sólo puede entrar una nueva variable en cada paso sino que puede salir alguna de las que ya
estaban en el modelo. El proceso finaliza cuando ninguna variable cumple la condición para
entrar y, de las variables incluidas en la ecuación, ninguna cumple la condición para salir.
Ana Gema Galera Pozo
52
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Concretamente los pasos que deben realizarse son:
-
Partimos del modelo más simple que contiene sólo la constante.
-
En el primer paso vamos a buscar la primera variable que entra en el modelo. Para ello
ajustamos un modelo logit con cada una de las variables explicativas. Se realiza un
contraste de razón de verosimilitudes que tiene como hipótesis nula el modelo simple
con sólo la constante, y en la hipótesis alternativa el modelo resultante de añadir la
variable explicativa. Si el contraste es significativo (p-valor menor a
α1
fijado de
antemano), la variable nueva mejora el modelo.
De todas las variables que mejoran el modelo, se incluye la más significativa (p-valor
más pequeño). En el primer paso sólo se podría considerar ser eliminada la constante
del modelo pero por defecto suelen considerarse siempre modelos con término
constante.
-
A continuación se repite el paso anterior, pero en esta ocasión, la hipótesis nula tiene
como modelo el obtenido en el paso anterior, y la hipótesis alternativa incluye el
modelo con una variable más explicativa. Al igual que antes, se incluye la variable cuyo
contraste condicional de razón de verosimilitud es más significativo.
-
En cada paso se considera la posibilidad de que salga la variable del modelo de partida.
Para eliminar una variable se fijará un valor de
de entrada
α1 .
α2
mayor que el nivel de significación
Para la eliminación de las variables se realizan también los contrastes
condicionales de razón de verosimilitudes que tienen en la hipótesis nula el modelo que
resulta de la eliminación de la variable explicativa y en la hipótesis alternativa el modelo
seleccionado en el paso anterior.
Serán candidatas a ser eliminadas aquellas variables cuyo p-valor de la constante es
mayor que
α2 .
La variable explicativa que finalmente sale, será aquella con p-valor
mayor.
Y así sucesivamente, el procedimiento stepwise continúa hasta que no hay más variables
candidatas a introducirse en el modelo y ninguna variable puede ser eliminada.
Un método alternativo para la selección de variables, está basado en el criterio de información
de Akaike (AIC), que es una modificación del criterio de la deviance de la siguiente forma:
AIC = −2 — LModelo + k — número parámetros estimados
LModelo es el log verosimilitud del modelo ajustado en cada paso y k suele ser igual a 2.
El criterio precisa que el modelo con el menor valor AIC es seleccionado como el mejor al que
se ajustan los datos. Por ello, cuando se utiliza este criterio para la selección de la variable que
que entra en el modelo, optaremos por quedarnos con aquella que al introducirla en el modelo
Ana Gema Galera Pozo
53
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
de partida, (de entre todas las que tiene un nivel de significación de entrada menor al
α1
fijado), nos aporte un valor de AIC más pequeño.
En el caso de de elegir la variable que sale del modelo, escogeremos aquella con mayor valor
de AIC entre todas las que tiene un nivel de significación de salida mayor del
α2
fijado.
El conjunto de variables que finalmente quede incluido en la ecuación de regresión puede
depender del camino seguido a la hora de seleccionarlas. Cualquiera que sea el método que se
piense utilizar para la selección de variables, éste debe comenzar con un cuidadoso análisis
descriptivo de la posible relación entre la variable dependiente y cada uno de los factores
estudiados.
Ana Gema Galera Pozo
54
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
5. FACTORES RELACIONADOS CON LA ACTIVIDAD ECONÓMICA DE
LA POBLACIÓN EN ESPAÑA. MODELOS DE REGRESIÓN LOGÍSTICA
5.1. Preparación de los datos de estudio
Para tratar de explicar los factores que influyen en la probabilidad de pertenecer a alguno de
los colectivos relacionados con la actividad económica de España, se van a analizar distintas
variables sociodemográficas de la población, así como la Comunidad Autónoma de residencia.
De las variables que se utilizarán, se tratará de explicar aquellos factores que más influyen, así
como el sentido de la ventaja de pertenecer a un colectivo u otro según ciertas características.
Para ello se van a realizar dos análisis distintos:
a) En el primer análisis se llevará a cabo una regresión logística usando la variable binaria
‘ACTIVO-INACTIVO’ donde 0 será el valor del colectivo de inactivos y 1 el valor del
colectivo de activos.
b) En el segundo análisis se analizarán los tres grandes colectivos: inactivos, parados y
ocupado. Se realizará una regresión multinomial donde la variable de respuesta estará
formada por esas tres categorías tomando a los parados como categoría de referencia
Recordemos que cuando se hace referencia a ‘parado’ estamos señalando a aquella población
que no tiene trabajo pero que busca empleo activamente, y que el ‘inactivo’ es aquél que no
trabaja y que tampoco está interesado en hacerlo a pesar de tener la edad legal para entrar en
el mercado de trabajo. Por esta razón sólo usaremos la información de la población de 16 y
más años que se encuentra dentro del fichero de microdatos de la EPA.
Los datos que se van a utilizar en este estudio se han obtenido del fichero de microdatos del
primer trimestre del 2014 y que el INE proporciona a través de su página web8.
Los ficheros de descarga gratuita que se proporcionan, tienen formato ASCII y tienen
anonimizadas sus variables de forma estándar. El fichero no contiene cabecera y cada fila
contiene la información registrada para cada individuo perteneciente a la muestra, tal y como
se observa en la Figura 6.
8
http://www.ine.es/inebaseDYN/epa30308/epa_microdatos.htm
Ana Gema Galera Pozo
55
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Figura 6: Microdatos de la EPA para el primer trimestre del 2014
La información contenida por columnas representa a cada una de las variables que recoge la
encuesta y que se codifican, en la mayoría de los casos, con valores numéricos según la
respuesta dada por el individuo o el valor que le corresponde en dicha variable.
Cada variable puede ocupar uno o más caracteres, por lo que es necesario descargar también
el diseño de registro de la encuesta para poder establecer la posición de cada una de las
variables.
Para poder obtener una columna distinta para cada una de las variables incluidas en el fichero
de microdatos se va a abrir el fichero ASCII con el programa SPSS. Se ha construido una
sintaxis en SPSS (véase anexo 8.1) que permite leer los datos que se incluyen y que, además,
permite asociarle los nombres de cada variable utilizando el diseño del registro proporcionado
por el INE.
A continuación, segmentamos el fichero y seleccionamos la población de 16 y más años a
través del código 1 de la variable NIVEL. Esta variable representa con un 1 a la población que
legalmente puede trabajar y con un 2 a la población menor de 16 años.
El fichero que se ha obtenido con esta segmentación se guarda en formato SPSS con el nombre
de EPA1T2014_1.
A continuación se definen las dos variables dependientes que se van a utilizar en los análisis. La
primera variable de respuesta es binaria ‘ACT_INAC’ y tendrá valor 1 para los activos. Este
colectivo está compuesto por los que se clasifican con valor 3, 4, 5 y 6 en la variable AOI del
fichero de microdatos. El resto (7, 8 y 9 de la variable AOI) se codifican con el valor 0 que
indica que son inactivos.
La segunda variable de respuesta discreta, y que utilizaremos en el segundo análisis, se
compone de tres categorías ‘MULT’. El valor 2 lo tomará la población inactiva (códigos 7+8+9
de la variable AOI), el valor 1 lo tomará la población ocupada (3+4 de la variable AOI) y el
valor 0 lo tomará la población parada (5+6 de la variable AOI).
Ana Gema Galera Pozo
56
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
La muestra contiene un total de 144.110 personas de 16 y más años, de los cuales, 65.443 son
inactivos, 20.137 son parados y 58.530 son ocupados (ver Tabla 1).
Población de 16 y más años
Inactivos
65.443
Parados
Total
Ocupados
20.137
58.530
144.110
Tabla 1: Tamaño de Muestra para cada colectivo
Sin embargo, los datos incluyen el FACTOR DE ELEVACIÓN que se puede utilizar para ajustar
la muestra a la población total de España. Al usar el factor de elevación se trabaja con los datos
ponderados y así se pueden estimar datos para la población en su totalidad. Los datos que se
obtienen al usar los pesos ofrecen el número de población total de 16 y más años en España
durante el primer trimestre de 2014 (38.483.601), de los que 22.883.897 son activos
(5.933.3010 parados y 16.950.596 ocupados); y 15.599.704 son inactivos (ver Tabla 2).
Población de 16 y más años
Inactivos
Parados
Ocupados
15.599.704
5.933.301
16.950.596
Total
38.483.601
Tabla 2: Tamaño de Población para cada colectivo
Los factores que se van a utilizar para el estudio son aquellas variables comunes a inactivos,
parados y ocupados y que ofrecen información sociodemográfica del individuo: sexo, edad,
nacionalidad, nivel de estudios terminados y la Comunidad Autónoma de residencia.
-
EDAD. Se tienen los intervalos quinquenales con el valor del primer valor:
16: 16 a 19 años
20: 20-24 años, y
25: 25-29 años
.
.
.
60: 60-64 años
65: 65 y más años
-
NIVEL DE ESTUIDOS. Desde 2014, el INE codifica esta variable según la Clasificación
Nacional de Educación de 2014 (CNED-2014)9. El INE codifica en el fichero de
microdatos los siguientes grupos:
AN: Analfabetos (código 01 de CNED14)
9
http://www.ine.es/jaxi/menu.do?type=pcaxis&path=%2Ft40%2Fcned14%2F&file=inebase&L=0 se encuentra
disponible más información sobre la CNED-14
Ana Gema Galera Pozo
57
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
P1: Educación primaria incompleta (código 02 CNED14)
P2: Educación primaria (código 10 en CNED14)
S1: 1ª etapa de educación secundaria (códigos 21-24 en CNED14)
S2: 2ª etapa de educación secundaria. Orientación general (código 32 CNED14)
SP: Segunda etapa de educación secundaria Orientación profesional (códigos 33-35
y 41 en CNED14)
SU: Educación superior. (códigos 51,52,61-63, 71-78 y 81 en CNED14)
-
NACIONALIDAD. La variable nacionalidad que aporta el fichero de microdatos se
desglosa en tres categorías: (1) española, (2) española y doble nacionalidad y (3)
extranjera.
Para nuestro análisis hemos agrupado (1) y (2) en una sola categoría, obteniendo
finalmente dos categorías:
1: Española
0: Extranjera
-
SEXO. Se compone de dos categorías:
1: Hombre
6: Mujer
-
CCAA. Se compone de 19 categorías: las 17 Comunidades Autónomas de España más
Ceuta y Melilla.
Una vez definidas todas las variables, el fichero es apto para comenzar los análisis descriptivos
bidimensionales y los análisis multidimensionales con la regresión logística.
La herramienta que se va a utilizar es RStudio. El fichero en formato .sav puede leerse en R
cargando la librería foreing.
> library(foreign)
Los datos se leen en R con la siguiente función:
> datos <- read.spss("C:/Users/Mikkis/Desktop/MASTER
ESTADISTICA/TRABAJO FIN DE MASTER/EPA1T2014_1.sav", use.value.labels
=TRUE)
Para evitar trabajar con un tamaño demasiado grande, se va a construir un nuevo fichero que
contendrá sólo las variables que se utilizan en el estudio
>
>
>
>
>
>
>
>
act_inac<-datos$ACT_INAC
sexo<-datos$SEXO1
edad<-datos$EDAD5
estudios<-datos$NFORMA
ccaa<-datos$CCAA
fe<-datos$FACTOREL
nacionalidad<-datos$NACIONALIDAD
mult<-datos$MULT
Ana Gema Galera Pozo
58
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Se guardan las variables que se han extraído en un nuevo ‘data.frame’
> datos.tfm <- data.frame(act_inac, ccaa, sexo, edad, nacionalidad,
estudios, fe, mult)
> head(datos.tfm)
1
2
3
4
5
6
act_inac ccaa sexo edad nacionalidad estudios
fe mult
1
16
6
35
1
SU 435.54
1
1
16
1
30
1
S1 435.54
1
0
16
6
45
1
SU 309.65
2
1
16
1
50
1
SU 309.65
1
1
16
6
20
1
S1 309.65
0
1
16
1
35
1
SU 460.45
1
Se convierten en factor las variables independientes, ya que los números representan las
categorías cualitativas de cada una de ellas.
>
>
>
>
>
>
datos.tfm$act_inac<- factor(datos.tfm$act_inac)
datos.tfm$nacionalidad <- factor(datos.tfm$nacionalidad)
datos.tfm$estudios <- factor(datos.tfm$estudios)
datos.tfm$sexo <- factor(datos.tfm$sexo)
datos.tfm$ccaa <- factor(datos.tfm$ccaa)
datos.tfm$edad <- factor(datos.tfm$edad)
Como todas las variables explicativas de este estudio son cualitativas, se debe codificar las
categorías de diseño como variables dummies. Se va a usar el método parcial que se explicó en
la metodología de este documento, y usaremos la primera categoría de cada una de ellas como
el grupo de referencia para la codificación. Así, para la variable ‘sexo’, se toma la categoría
‘Hombre’ como categoría de referencia.
> contrasts(datos.frame$sexo)
6
1 0
6 1
En el caso de la nacionalidad, serán los extranjeros la categoría de referencia.
> contrasts(datos.frame$nacionalidad)
1
0 0
1 1
Para el nivel de estudios se usa el grupo de “Analfabetos”.
> contrasts(datos.tfm$estudios)
AN
P1
P2
S1
SG
SP
SU
P1 P2 S1 SG SP SU
0 0 0 0 0 0
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 1
Para los intervalos de edad se ha establecido el intervalo de edad de los más jóvenes “16-19
años”.
> contrasts(datos.tfm$edad)
Ana Gema Galera Pozo
59
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
16
20
25
30
35
40
45
50
55
60
65
los factores
20 25 30 35 40 45 50 55 60 65
0 0 0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0
0 0 0 1 0 0 0 0 0 0
0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0
0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 0 1 0
0 0 0 0 0 0 0 0 0 1
Y para las Comunidades Autónomas, Andalucía es la categoría de referencia.
> contrasts(datos.tfm$ccaa)
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 51 52
1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
3 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
4 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
6 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
7 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
8 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
9 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
11 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
12 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
13 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
15 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
51 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
52 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
5.2. Análisis descriptivo de los datos
Antes de dar paso al análisis de regresión logística, se realiza un análisis descriptivo
bidimensional de las variables que se van a estudiar, así como de las asociaciones existentes
entre las variables de respuesta discreta y las variables explicativas.
El análisis bivariante será una guía para ayudar a la regresión logística a analizar y descubir las
relaciones existentes entre la variable dependiente y las variables independientes.
En este caso como todas las variables independientes son categóricas, podremos realizar un
contraste de chi-cuadrado que nos permitirá establecer si, a priori, existe o no relación entre
ambas variables.
> tabla_sexo <- xtabs(fe ~ act_inac+sexo)
> tabla_sexo
sexo
act_inac
1
6
0 6475536 9124168
1 12282141 10601756
Ana Gema Galera Pozo
60
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Entre la población de 16 y más años de España, 18.757.677 son hombres, que representan el
48,7% de esta población, mientras que las mujeres representan casi el 51,3% de este colectivo
(19.725.924).
Sin embargo, está proporción no se mantiene entra la población activa donde las mujeres
representan algo más del 46% y los hombres casi el 54% de este colectivo.
Población activa
Población inactiva
Figura 7: Distribución porcentual por sexo de la población activa e inactiva
Entre la población inactiva la mujer vuelve a estar ‘sobrerrepresentada’ ya que supone un 58%
de la misma, y el hombre sólo el 42%, tal y como muestra el gráfico de la Figura 7.
> tabla_sexo2<- xtabs(fe ~ mult+sexo, data=datos.tfm)
> tabla_sexo2
sexo
mult
1
6
0 6475536 9124168
1 3116555 2816746
2 9165585 7785011
Figura 8: Distribución porcentual por sexo de la población parada y ocupada
Sin embargo, entre la población parada el porcentaje de hombres es algo más bajo (47,47%),
siendo algo mayor el peso de las mujeres entre la población desempleada (52,33%).
El gráfico de la Figura 8 también muestra que entre la población ocupada, sin embargo, el peso
de los hombres asciende al 54%, no llegando al 46% la representación de las mujeres en este
colectivo.
Ana Gema Galera Pozo
61
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Además, la tasa de paro de la población femenina es de 26,57%, superando en algo más de un
punto porcentual a la tasa de la población masculina (25,37%).
Las diferencias encontradas por sexo entre los distintos colectivos de la población de 16 y más
años son significativas, tal y como se desprende de la prueba de chi-cuadrado que mide la
asociación entre la variable binaria (ser activo o inactivo) y la variable sexo, por un lado; y entre
la variable con las tres categorías (ocupados, parados e inactivos) y la variable sexo, por otro
lado.
> chisq.test(tabla_sexo)
Pearson's Chi-squared test with Yates' continuity correction
data: tabla_sexo
X-squared = 549082.2, df = 1, p-value < 2.2e-16
> chisq.test(tabla_sexo2)
Pearson's Chi-squared test
data: tabla_sexo2
X-squared = 553286.3, df = 2, p-value < 2.2e-16
El p-valor que se ha obtenido es menor que 0,05 para ambos contrastes, por lo que se acepta
que existe relación entre la actividad económica de la población de 16 y más años de España y
el sexo.
En el caso de la nacionalidad, los extranjeros representan el 10% de la población española de
16 y más años. Sin embargo, entre los inactivos casi no alcanzan el 6,4% de la representación.
Entre la población activa los extranjeros representan algo más del 12,46%, muy por encima de
la representación que tienen en otros colectivos como el de ocupados (véase gráfico de la
Figura 9).
> tabla_nacionalidad <- xtabs(fe ~ act_inac+nacionalidad)
> tabla_nacionalidad
act_inac
0
1
nacionalidad
0
1
995260.3 14604443.3
2851681.7 20032215.4
Figura 9: Distribución porcentual por nacionalidad de activos, inactivos y población
de 16 y más años
> tabla_nacionalidad2<-xtabs(fe~mult+nacionalidad, data=datos.tfm)
> tabla_nacionalidad2
Ana Gema Galera Pozo
62
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
mult
0
1
2
los factores
nacionalidad
0
1
995260.3 14604443.3
1075796.6 4857504.5
1775885.1 15174711.0
Si observamos la tabla de datos, el número de extranjeros que se encuentran parados en
España asciende a 1.075.797 en el primer trimestre de 2014, mientras que el de ocupados es
1.775.885. Por tanto, la tasa de paro entre este colectivo es de casi un 38%. Entre los
españoles, el número de parados es de 4 millones 857 mil, y el de ocupados de algo más de 15
millones. Así, la tasa de paro en el primer trimestre del 2014 para españoles era del 24%, 14
puntos por debajo del colectivo de inmigrantes.
Además, tal y como puede deducirse del gráfico de la Figura 10 de la distribución por
nacionalidad de parados y ocupados, el porcentaje de extranjeros difiere mucho entre ambos
colectivos.
Figura 10: Distribución porcentual por nacionalidad de ocupados, parados e
inactivos en España
Los extranjeros están ‘sobrerrepresentados’ en el colectivo de parados si comparamos su
representación con colectivos como el de inactivos o el de ocupados. Más del 18% de los
parados de España son extranjeros, mientras que entre los ocupado éstos sólo representan un
10,5%. Estas cifras también contrastan con el colectivo de inactivos, donde tal y como se dijo
anteriormente, los extranjeros apenas son el 6,4% del colectivo.
Estas diferencias vistas en los distintos colectivos relacionados con la actividad económica se
pueden considerar que son significativos, tal y como muestran las pruebas chi-cuadrado.
> chisq.test(tabla_nacionalidad)
Pearson's Chi-squared test with Yates' continuity correction
data: tabla_nacionalidad
X-squared = 381324.6, df = 1, p-value < 2.2e-16
> chisq.test(tabla_nacionalidad2)
Pearson's Chi-squared test
data: tabla_nacionalidad2
X-squared = 667548.1, df = 2, p-value < 2.2e-16
Ana Gema Galera Pozo
63
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Los p-valores asociados a los contrastes son menores de 0,5, por lo que se deduce que existe
relación entre la nacionalidad y el hecho de pertenecer al colectivo de ocupados, parados o
inactivos.
Si analizamos las dos categorías de la variable dependiente binaria (activos e inactivos), la edad
parece jugar un papel muy importante en ambos grupos.
> tabla_edad<- xtabs(fe ~ act_inac+edad, data=datos.tfm)
> tabla_edad
edad
act_inac
16
20
25
30
35
40
45
0 1466658.3 998851.9 366076.5 298537.1 377564.2 459527.3 541869.2
1 241573.4 1346920.5 2344548.2 3107070.9 3609968.6 3377148.4 3125992.6
edad
act_inac
50
55
60
65
0 644466.0 917664.2 1521101.6 8007387.3
1 2680323.0 1957331.0 958072.3 134948.2
Tal y como se desprende de la Tabla 3, la distribución porcentual es bastante diferente para
ambos colectivos, sobre todo en los grupos de mediana edad y en el colectivo de 65 y más
años. Mientras el 51% de los inactivos de España está formado por el grupo de personas de 65
y más años, entre los activos, este grupo de edad apenas alcanza una representación 0,6%.
Este dato era de esperar, ya que la edad de jubilación oficial en España era los 65 años hasta
2011, y a partir de esta fecha se aumentó progresivamente hasta los 67 años10 en 2013.
Entre los más jóvenes (16-19 años), la inactividad es mayor que la actividad ya que éstos
representan un 9,4% de los inactivos y sólo un 1% de la población activa.
Entre los grupos de mediana edad, en general, la representación de los colectivos de edad es
mayor entre la población activa que entre la población inactiva. En concreto, las personas entre
30 y los 54 años representan entre un 13% y un 15% de la población activa, mientras que
entre la población inactiva la representación está entre un 2% y un 4%.
Inactivos
Total 16 y
más
Activos
16-19
9,40%
1,06%
4,44%
20-24
6,40%
5,89%
6,10%
25-29
2,35%
10,25%
7,04%
30-34
1,91%
13,58%
8,85%
35-39
2,42%
15,78%
10,36%
40-44
2,95%
14,76%
9,97%
45-49
3,47%
13,66%
9,53%
50-54
4,13%
11,71%
8,64%
55-59
5,88%
8,55%
7,47%
60-64
9,75%
4,19%
6,44%
51,33%
0,59%
21,16%
100,00%
100,00%
100,00%
65 y más
Total
Tabla 3: Distribución porcentual por grupos de edad para activos e inactivos en
España
10
A excepción de algunos casos recogidos disposición final 12.2. de la Ley 27/2011, de 1 de agosto
Ana Gema Galera Pozo
64
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> tabla_edad2<- xtabs(fe ~ mult+edad, data=datos.tfm)
> tabla_edad2
edad
mult
16
0 1466658.30
1 169478.09
2
72095.27
20
25
30
35
40
45
998851.88 366076.52 298537.12 377564.25 459527.30 541869.22
711944.47 768022.77 803081.49 821536.60 753276.66 726087.71
634976.03 1576525.43 2303989.37 2788432.03 2623871.77 2399904.91
edad
mult
50
55
60
65
0 644465.96 917664.16 1521101.63 8007387.27
1 577244.35 420260.75 174426.27
7941.88
2 2103078.61 1537070.27 783646.06 127006.33
Parados
Ocupados
16-19
2,86%
0,43%
20-24
12,00%
3,75%
25-29
12,94%
9,30%
30-34
13,54%
13,59%
35-39
13,85%
16,45%
40-44
12,70%
15,48%
45-49
12,24%
14,16%
50-54
9,73%
12,41%
55-59
7,08%
9,07%
60-64
2,94%
4,62%
65 y más
0,13%
0,75%
100,00%
100,00%
Total
Tabla 4: Distribución porcentual por grupos de edad para parados y ocupados en
España
Tal y como muestra la Tabla 4, para el colectivo de ocupados y parados la distribución por edad
es algo diferente con respecto a los inactivos y entre ambos grupos.
Mientras que los más jóvenes son un grupo que casi no se presenta entre los ocupados
(0,43%), entre los parados llegan a alcanzar una representación de casi un 2,9%. La tendencia
se mantiene entre los 20 y 34 años, siendo la representación de estos colectivos de edad mayor
entre parados que entre ocupados. Sin embargo, a partir de los 35 años la representación de
los colectivos de edad es mayor entre ocupados, que entre parados.
En particular, las personas entre 40 y 44 años representan el 15,5% del colectivo de ocupados,
y un 12,7% del colectivo de parados. La población entre 45-49 años supone el 14,2% de los
ocupados, y un 12,2% de los parados. Aquellos que tienen entre 50 y 54 años son el 12,4% de
los ocupados y un 9,7% de los parados.
Los mayores (65 y más años), casi no están representados ni en el colectivo de ocupados
(0,75%) ni en el del parados (0,13%), algo que difiere significativamente de su representación
entre los inactivos, que como ya dijimos, este grupo de edad representaba el 51% de este
colectivo.
Ana Gema Galera Pozo
65
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Para estudiar si las diferencias encontradas por grupos de edad son significativas, tal y como se
desprende del primer análisis descriptivo que hemos realizado, se aplica el test de la chicuadrado.
> chisq.test(tabla_edad)
Pearson's Chi-squared test
data: tabla_edad
X-squared = 20051613, df = 10, p-value < 2.2e-16
> chisq.test(tabla_edad2)
Pearson's Chi-squared test
data: tabla_edad2
X-squared = 20843805, df = 20, p-value < 2.2e-16
Para ambos casos se ha obtenido un p-valor menor que 0,05, por lo que se acepta que existe
relación entre la edad y el hecho de estar activo o inactivo por un lado; y que existe relación
entre la ocupación, el desempleo y la inactividad con la edad de la población, por otro.
A continuación, en las siguientes tablas se muestra las frecuencias para la variable ‘nivel de
estudios terminados’ y ambas variables dependientes.
> tabla_estudios <- xtabs(fe ~ act_inac+estudios, data=datos.tfm)
> tabla_estudios
estudios
AN
P1
P2
S1
SG
SP
SU
act_inac
0 632482.28 2399738.85 4375917.02 3908547.70 1790411.69 592440.71 1900165.36
1
90990.61 376936.76 1818254.21 6849183.56 3152800.15 2129435.67 8466296.16
> tabla_estudios2 <- xtabs(fe ~ mult+estudios, data=datos.tfm)
> tabla_estudios2
estudios
mult
AN
P1
P2
S1
SG
SP
SU
0 632482.28 2399738.85 4375917.02 3908547.70 1790411.69 592440.71 1900165.36
1
49460.19 163276.00 704915.41 2315458.66 790488.34 574461.07 1335241.37
2
41530.42 213660.76 1113338.80 4533724.90 2362311.81 1554974.60 7131054.79
Para analizar mejor los resultados vamos a estudiar las frecuencias relativas que se muestran
en los siguientes gráficos de la Figura 11:
Figura 11: Distribución porcentual por nivel de estudios para activos e inactivos en
España
Sólo el 0,4% de la población activa es analfabeta. Los que tiene estudios superiores son los
más representados en el colectivo de activos, ya que suponen el 37% de los mismos. En
Ana Gema Galera Pozo
66
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
segunda posición están los que tienen estudios de secundaria de primera etapa (30%) y los
que tienen estudios de secundaria de 2ª etapa (14%). Aquellos que tienen estudios de
primaria, son el 8% de la población activa y los que estudiaron orientación profesional
representan el 9%.
Sin embargo, entre los inactivos, los que estudiaron una orientación profesional sólo suponen el
4% del colectivo. Los que tienen estudios de primaria encabezan en representación al colectivo
de inactivos con un porcentaje de 28%, seguidos de los que tienen secundaria de primera
etapa que suponen el 25%. Sólo el 12% de la población inactiva tiene estudios superiores, pero
los analfabetos representan el 4% de dicho colectivo cuando a penas tenían representación
entre los activos.
Figura 12: Distribución porcentual por nivel de estudios terminado de la población
ocupada y parada en España
Entre la población que se encuentra empleada, los que tienen estudios superiores representan
el 42%, seguidos de los que tienen estudios de secundaria de primera etapa que suponen el
27% de los ocupados. El colectivo de personas que no tienen estudios, no representan ni el 1%
entre la población que tiene un puesto de trabajo. Éste último, sin embargo, supone algo más
del 4% entre la población parada, y el colectivo de personas que tiene estudios superiores sólo
el 22% entre la población sin empleo (véase gráficos de la Figura 12).
Llama la atención el colectivo de personas que tienen estudios con orientación profesional,
aproximadamente el 9% de los ocupados y los parados son representados por personas que
estudiaron orientación profesional, porcentaje que coincide con su representación total en la
población activa.
La tasa de paro, que muestran la relación entre la población parada y la población activa, varía
también bastante si la analizamos por los distintos grupos de niveles educativos.
Tasa de Paro
Analfabetos
Primaria
incompleta
54,36%
Primaria
38,77%
43,32%
Ana Gema Galera Pozo
67
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
1ª secundaria
33,81%
2ª secundaria
25,07%
Orien. Profes.
26,98%
Superiores
15,77%
TOTAL
25,93%
los factores
Tabla 5: Tasas de paro para la población activa de España según niveles de estudios
terminados
Como puede observarse en la Tabla 5, el colectivo que tiene una mayor tasa de paro es el de
personas que no tienen estudios (54,36%), tasa que se sitúa casi 40 puntos por encima de las
personas que tiene estudios superiores (15,77%). El segundo colectivo con menor tasa de paro
son aquellos que estudiaron segunda etapa de secundaria (25,05%), seguidos de los que
estudiaron una orientación profesional (26,98%).
> chisq.test(tabla_estudios)
Pearson's Chi-squared test
data: tabla_estudios
X-squared = 8050894, df = 6, p-value < 2.2e-16
> chisq.test(tabla_estudios2)
Pearson's Chi-squared test
data: tabla_estudios2
X-squared = 9014072, df = 12, p-value < 2.2e-16
El test chi-cuadrado nos confirma que las diferencias encontradas por niveles de estudios son
significativas ya que el p-valor obtenido es inferior a 0,05, dato que prueba la relación de esta
variable con ambas variables de respuesta discreta.
En último lugar, se realizan los análisis bidimensionales con la variable de la Comunidad
Autónoma de Residencia.
> tabla_ccaa <- xtabs(fe ~ act_inac+ccaa, data=datos.tfm)
> tabla_ccaa
ccaa
act_inac Andalucia
Aragón
Asturias
0 2837505.71 454341.48 443214.78
1 4016045.17 649287.06 480386.60
ccaa
act_inac CaCataluña C.Valenc
Ca-Mancha
0 685173.56 2275454.45 1673082.25
1 1011884.13 3800867.08 2435798.18
ccaa
act_inac
Navarra
País Vasco Rioja
0 206071.14 778543.59 103746.14
1 314101.65 1030494.11 155934.90
Baleares Canarias
Cantabria CastiCasti-Leon
354738.24 683681.86 217676.88 957373.32
570967.24 1093555.57 278608.55 1158903.17
Extremad Galicia
Madrid
416146.55 1093486.22 1907145.65
499889.03 1279778.53 3313019.87
Ceuta
27472.68
36870.04
Inactivos
Andalucia
Activos
Murcia
458295.99
723366.34
Melilla
26553.12
34139.90
Total 16 y
más años
18,19%
17,55%
17,81%
Aragón
2,91%
2,84%
2,87%
Asturias
2,84%
2,10%
2,40%
Baleares
2,27%
2,50%
2,41%
Ana Gema Galera Pozo
68
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
Inactivos
Activos
los factores
Total 16 y
más años
Canarias
4,38%
4,78%
4,62%
Cantabria
1,40%
1,22%
1,29%
Cast-León
6,14%
5,06%
5,50%
Cast-Mancha
4,39%
4,42%
4,41%
Cataluña
14,59%
16,61%
15,79%
C.Valenciana
10,73%
10,64%
10,68%
Extremadura
2,67%
2,18%
2,38%
Galicia
7,01%
5,59%
6,17%
Madrid
12,23%
14,48%
13,56%
Murcia
2,94%
3,16%
3,07%
Navarra
1,32%
1,37%
1,35%
País Vasco
4,99%
4,50%
4,70%
Rioja, la
0,67%
0,68%
0,67%
Ceuta
0,18%
0,16%
0,17%
Melilla
0,17%
0,15%
0,16%
ESPAÑA
100%
100%
100%
Tabla 6: Distribución porcentual por Comunidades Autónomas de la población activa
e inactiva en España.
Tal y como puede deducirse de la Tabla 6, la representación de las Comunidades entre los
inactivos y activos parece ser muy parecida para casi todas las Comunidades Autónomas, a
excepción de Madrid, donde la representación entre la población activa varia en dos puntos con
respecto a la inactiva. En la mayoría de Comunidades Autónomas la diferencia entre ambos
colectivos oscila en torno a un punto porcentual más o menos.
Sin embargo, las diferencia son mucho más notables entre el colectivo de ocupados, parados y
e inactivos.
> tabla_ccaa2 <- xtabs(fe ~ mult+ccaa, data=datos.tfm)
> tabla_ccaa2
ccaa
Aragón
Asturias
mult Andalucia
0 2837505.71 454341.48 443214.78
1 1403384.41 148356.10 109289.58
2 2612660.76 500930.96 371097.02
ccaa
mult CaCataluña C.Valenc
Ca-Mancha
0 685173.56 2275454.45 1673082.25
1 306610.16 840172.16 683115.71
2 705273.97 2960694.92 1752682.47
ccaa
mult
Navarra
País Vasco Rioja
0 206071.14 778543.59 103746.14
1
53763.15 178864.67
30536.24
2 260338.50 851629.44 125398.66
Baleares Canarias
Cantabria CastiCasti-Leon
354738.24 683681.86 217676.88 957373.32
152460.91 355966.82
58365.25 257394.42
418506.33 737588.75 220243.30 901508.75
Extremad Galicia
Madrid
416146.55 1093486.22 1907145.65
160673.81 296942.49 676954.72
339215.22 982836.04 2636065.15
Ceuta
27472.68
11637.38
25232.66
Inactivos
Andalucia
Murcia
458295.99
200473.82
522892.52
Melilla
26553.12
8339.24
25800.66
Parados Ocupados
18,19%
23,65%
15,41%
Aragón
2,91%
2,50%
2,96%
Asturias
2,84%
1,84%
2,19%
Baleares
2,27%
2,57%
2,47%
Ana Gema Galera Pozo
69
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
Inactivos
los factores
Parados Ocupados
Canarias
4,38%
6,00%
4,35%
Cantabria
1,40%
0,98%
1,30%
Cast-León
6,14%
4,34%
5,32%
Cast-Mancha
4,39%
5,17%
4,16%
Cataluña
14,59%
14,16%
17,47%
C.Valenciana
10,73%
11,51%
10,34%
Extremadura
2,67%
2,71%
2,00%
Galicia
7,01%
5,00%
5,80%
Madrid
12,23%
11,41%
15,55%
Murcia
2,94%
3,38%
3,08%
Navarra
1,32%
0,91%
1,54%
País Vasco
4,99%
3,01%
5,02%
Rioja, la
0,67%
0,51%
0,74%
Ceuta
0,18%
0,20%
0,15%
Melilla
0,17%
0,14%
0,15%
ESPAÑA
100%
100%
100%
Tabla 7: Distribución porcentual por Comunidades Autónomas de la población activa
e inactiva en España.
La Comunidad Autónoma parece influir de manera más latente entre los colectivos de
ocupados, parados e inactivos.
Tal y como muestra la Tabla 7, Andalucía tiene una mayor representación entre la población
parada, que supone el 23,7% del total de los parados en España, contrastando con la
representación que tiene en el colectivo de ocupados (15%).
Sin embargo, la población de Cataluña representa el 17,47% de la población ocupada, frente al
14% que representa en la población parada; o Madrid que cuenta con una representación del
15,6% y 11,4% respectivamente.
Resumiendo, parece que la Comunidad Autónoma pueda estar relacionada con la variable
respuesta de tres categorías: ocupados, parado e inactivos.
Para concluir con el análisis por Comunidades Autónomas se han representado las tasas de
paro para la población activa de cada una de ellas.
Ana Gema Galera Pozo
70
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Figura 13: Tasas de paro en España según Comunidades Autónomas
Las diferencias que pueden existir entre el colectivo de ocupados y parados se pueden intuir
también a través de las tasas de paro. Tal y como muestra el gráfico de la Figura 13, la tasa de
paro no es igual para las distintas Comunidades Autónomas. Mientras que Comunidades como
País Vasco, La Rioja o Navarra están entre 6 y 9 puntos por debajo de la tasa de paro media de
España (25,9%); Andalucía, Canarias, Extremadura, Castilla la Mancha o Ceuta superan entre 5
y 9 puntos la media española.
Para probar si las diferencias encontradas son significativas, se realiza el test de la chicuadrado.
> chisq.test(tabla_ccaa)
Pearson's Chi-squared test
data: tabla_ccaa
X-squared = 155224.7, df = 18, p-value < 2.2e-16
> chisq.test(tabla_ccaa2)
Pearson's Chi-squared test
data: tabla_ccaa2
X-squared = 536554.5, df = 36, p-value < 2.2e-16
La Comunidad Autónoma está relacionada tanto con la actividad-inactividad de la población;
como con la ocupación, el desempleo e inactividad de la población de 16 y más años en
España.
Tras el análisis descriptivo bidimensional de los datos, se han observado algunas relaciones
entre las variables explicativas y las variables de respuesta discreta, tanto la binaria como la de
tres categorías. Sin embargo, es neserario y muy importante realizar un estudio
multidimensional del conjunto de variables ya que los estudios bidimensionales podrían
llevarnos a conclusiones erróneas al no tener en cuenta el resto de variables: paradoja de
Simpson (Edward H. Simpson 1951). Esta paradoja estadística se da cuando una tendencia en
la asociación de dos variables cambia en sentido contraria al controlar el efecto de otras
variables.
Ana Gema Galera Pozo
71
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
De ahí la importancia de los estudios multidimensionales para obtener conclusiones válidas de
las relaciones existentes entre variables. (Aguilera del Pino, 2006).
5.3. Ajuste de un modelo de regresión logística binaria para
explicar los factores relacionados con la actividad e inactividad
El primer modelo que se va a estudiar tratará de describir los factores que inciden en la
probabilidad de que la población de 16 o más años de España sea activa en relación con la
actividad económica, o que por el contrario, pertenezca al colectivo de inactivos que no
presentan interés por participar en el mercado de trabajo.
La variable binaria que se tratará de modelizar es que una persona sea activa, codificada con el
valor 1, o que sea inactiva, categoría que se codificará como 0.
Por tanto, el modelo final vendrá definido en términos probabilísticos informando de la
probabilidad de que una persona en España sea activa bajo ciertos valores de las variables
explicativas.
Como ya se adelantaba en la metodología de la regresión logística, para la estimación de los
parámetros del modelo es necesario tener en cuenta los factores de elevación que se incluyen
en los datos de la EPA para que la estimación y las conclusiones que se obtengan sean
realmente representativas de la población de 16 y más años de España.
En RStudio la librería “survey” incluye distintas funciones que nos permitirán trabajar con
datos obtenidos a partir de encuestas y, en concreto, la función svyglm que permite realizar la
regresión logística binaria teniendo en cuenta los valores de las ponderaciones de cada registro
de la muestra.
Antes de utilizar la función, es necesario definir el diseño a utilizar con la función svydesign
del mismo paquete. Con el argumento “weighs” indicamos la variable con los pesos o factores
de elevación con los que se pondera la muestra (ver anexo 8.2).
> datos.tfm.pon <- svydesign(id=~1,weights=~fe,data=datos.tfm)
Con esta orden se guarda el diseño que aplicaremos a los datos cada vez que queramos usar la
ponderación o factores de elevación de la muestra.
Selección de variables para el modelo más adecuado
Para la obtención del modelo más adecuado, se ha optado por utilizar una selección de
variables mediante el proceso stepwise, paso a paso, en ambas direcciones (inclusión de
variables y eliminación), que es un proceso que mediante contrastes condicionales de razón de
verosimilitud se comparan variables para construir el modelo final.
Ana Gema Galera Pozo
72
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Este proceso se realiza en cada paso utilizando la función anova de R que permite comparar
dos modelos con los contrastes condicionales de razón de verosimilitud.
Para utilizar el procedimiento stepwise se parte de un primer modelo con el que se iniciará el
procedimiento.
Para ello se construye el modelo más simple: el modelo que sólo tiene la constante.
La función svyglm11 permite definir el modelo lineal generalizado con el que se quiere trabajar,
en concreto para el caso binario es el binomial, y a su vez, nos permite añadir el diseño de
nuestros datos de la encuesta para que utilice los factores de elevación para la estimación de
los parámetros.
Antes de comenzar el procedimiento de selección de variables stepwise se crea el modelo más
simple y que sólo contiene la constante.
Paso 0.
> modelo.0<- svyglm(act_inac~1,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
Paso 1.
A partir del primer modelo debemos elegir la primera variable que entrará en el modelo.
Para ello se ajusta un modelo de regresión logística binomial para cada una de las cinco
variables consideradas (sexo, nacionalidad, ccaa, estudios y edad).
> modelo.1<- svyglm(act_inac~sexo,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.2<- svyglm(act_inac~nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.3<- svyglm(act_inac~ccaa,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.4<- svyglm(act_inac~estudios,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.5<- svyglm(act_inac~edad,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
Una vez creados los cinco modelo, se contrasta mediante el test condicional de razón de
verosimilitudes cada modelo con el modelo 0, que incluía sólo la constante, para decidir que
variable es la que entra en el primer paso.
Para realizar los contrastes se usará la función anova( ) a la que se indicará los modelos que
queremos comparar.
El estadístico que muestra cada prueba es el 2LogLR que es valor de los máximos de la logverosimilitud del modelo con más parámetros. Si el p-valor es menor que el nivel de
11
En el anexo 8.2 se incluye la sintáxis y los argumentos para la función svyglm y svydesign
Ana Gema Galera Pozo
73
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
significación fijado
los factores
α 1 ( α 1 =0,1, por ejemplo), entonces el modelo con más parámetros es más
adecuado.
De todos los modelos que mejoran al modelo simple, nos quedaremos con aquel cuyo valor de
2LogLR sea mayor, ya que hará que el valor de la Deviance final sea menor12.
> anova(modelo.0,modelo.1)
Working (Rao-Scott+F) LRT for sexo
in svyglm(formula = act_inac ~ sexo, family = binomial, data =
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 1311.581 p= < 2.22e-16
df=1; denominator df= 144108
> anova(modelo.0,modelo.2)
Working (Rao-Scott+F) LRT for nacionalidad
in svyglm(formula = act_inac ~ nacionalidad, family = binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 510.4586 p= < 2.22e-16
df=1; denominator df= 144108
> anova(modelo.0,modelo.3)
Working (Rao-Scott+F) LRT for ccaa
in svyglm(formula = act_inac ~ ccaa, family = binomial, data =
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 543.7692 p= < 2.22e-16
(scale factors: 2.8 1.8 1.6 1.3 1.2 1.1 1 0.96 0.85 0.77 0.71 0.7
0.65 0.61 0.57 0.53 0.43 0.42 ); denominator df= 144091
> anova(modelo.0,modelo.4)
Working (Rao-Scott+F) LRT for
in svyglm(formula = act_inac
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 17997.06 p=
(scale factors: 1.2 1 1 0.95
estudios
~ estudios, family = binomial, data =
< 2.22e-16
0.89 0.88 );
denominator df= 144103
> anova(modelo.0,modelo.5)
Working (Rao-Scott+F) LRT for edad
in svyglm(formula = act_inac ~ edad, family = binomial, data =
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 54342.69 p= < 2.22e-16
(scale factors: 1.1 1.1 1 1 1 1 0.97 0.94 0.9 0.85 ); denominator
df= 144099
A la vista de los resultados, el modelo.5 es el que más reducirá el valor de la devianza, por lo
que la variable edad es la nueva variable que entra en el modelo.
Paso 2.
En el segundo paso partimos del modelo con la variable edad, y se ajustan diferentes modelos
con cada una de las 4 variables restantes.
> modelo.edad<- svyglm(act_inac~edad,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
12
Tal y como se explica en la metodología, la desviance para los contrastes de razón de verosimilitudes es dos veces la
diferencia entre el máximo de log-verosimilitud del modelo con menos parámetros y el máximo de log-verosimilitud del
modelo con más parámetros
Ana Gema Galera Pozo
74
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> modelo.edad.1<- svyglm(act_inac~edad+sexo,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.edad.2<svyglm(act_inac~edad+nacionalidad,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.edad.3<- svyglm(act_inac~edad+estudios,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.edad.4<- svyglm(act_inac~edad+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
A continuación realizamos los contrastes dos a dos:
> anova(modelo.edad, modelo.edad.1)
Working (Rao-Scott+F) LRT for sexo
in svyglm(formula = act_inac ~ edad + sexo, family = binomial, data =
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 1397.297 p= < 2.22e-16
df=1; denominator df= 144098
> anova(modelo.edad, modelo.edad.2)
Working (Rao-Scott+F) LRT for nacionalidad
in svyglm(formula = act_inac ~ edad + nacionalidad, family =
binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1.411319 p= 0.23717
df=1; denominator df= 144098
> anova(modelo.edad, modelo.edad.3)
Working (Rao-Scott+F) LRT for estudios
in svyglm(formula = act_inac ~ edad + estudios, family = binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1746.119 p= < 2.22e-16
(scale factors: 1.3 1 0.96 0.95 0.92 0.86 ); denominator df= 144093
> anova(modelo.edad, modelo.edad.4)
Working (Rao-Scott+F) LRT for ccaa
in svyglm(formula = act_inac ~ edad + ccaa, family = binomial, data =
datos.tfm,
design = datos.tfm.pon)
Working 2logLR = 448.6553 p= < 2.22e-16
(scale factors: 2.7 1.8 1.6 1.3 1.3 1.1 1 0.9 0.81 0.74 0.69 0.69
0.65 0.63 0.54 0.51 0.5 0.41 ); denominator df= 144081
El modelo 3 tiene un mayor valor de 2LogLLR (2LogLR=1746.119). Por tanto, la variable “nivel
de estudios” es la que entra en el modelo.
En este paso la única variable candidata a salir del estudio es la variable que entro en el paso
anterior, la variable edad.
Para saber si ésta se extrae del modelo, se compara aquel que sólo contiene a la variable ‘nivel
de estudios, con el modelo compuesto por la variable edad y nivel de estudios.
> modelo.estudios<- svyglm(act_inac~estudios,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
Ana Gema Galera Pozo
75
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> modelo.estudios.edad<svyglm(act_inac~estudios+edad,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> anova(modelo.estudios, modelo.estudios.edad)
Working (Rao-Scott+F) LRT for edad
in svyglm(formula = act_inac ~ estudios + edad, family = binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 36239.89 p= < 2.22e-16
(scale factors: 1.1 1.1 1 1 1 1 0.99 0.94 0.93 0.85 ); denominator
df= 144093
Para decidir si se elimina una variable se fija un nivel
α 2 ( α 2 =0,15, por ejemplo) por encima
del cual la variable es candidata a salir. Tal y como se comprueba por el resultado, (p-valor
<0,15), el modelo con la variable edad es mejor. Por tanto, la edad se queda en el modelo.
Paso3.
En este paso se contrasta si entra algunas de las 3 variables restantes (sexo, ccaa y
nacionalidad). Creamos cada modelo con cada una de las variables.
> modelo.edad.estudios.1<svyglm(act_inac~edad+estudios+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.edad.estudios.2<svyglm(act_inac~edad+estudios+ccaa,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.edad.estudios.3<svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
Y realizamos los contrastes
> anova(modelo.edad.estudios, modelo.edad.estudios.1)
Working (Rao-Scott+F) LRT for nacionalidad
in svyglm(formula = act_inac ~ edad + estudios + nacionalidad, family
= binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 33.6193 p= 7.4034e-09
df=1; denominator df= 144092
> anova(modelo.edad.estudios, modelo.edad.estudios.2)
Working (Rao-Scott+F) LRT for ccaa
in svyglm(formula = act_inac ~ edad + estudios + ccaa, family =
binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 357.4942 p= < 2.22e-16
(scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.81 0.73 0.7 0.69 0.63
0.6 0.53 0.5 0.5 0.41 ); denominator df= 144075
> anova(modelo.edad.estudios, modelo.edad.estudios.3)
Working (Rao-Scott+F) LRT for sexo
in svyglm(formula = act_inac ~ edad + estudios + sexo, family =
binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1435.071 p= < 2.22e-16
df=1; denominator df= 144092
Las tres variables podrían entrar en el modelo porque tienen p-valores menores de 0,10, pero el
mejor modelo es el tercero con la variable sexo, ya que tiene un valor de 2logLR mayor.
Ana Gema Galera Pozo
76
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Una vez decidida la variable que se incluye en el modelo, veamos si la variable sexo o edad
puede salir.
Creamos el modelo con las tres variables (edad, estudios y sexo), y lo comparamos con el
modelo que incluye a la edad y al sexo por un lado, y al modelo con la variable estudios y el
sexo por otro.
> modelo.edad.estudios.sexo<svyglm(act_inac~edad+estudios+sexo,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.estudios.sexo<svyglm(act_inac~estudios+sexo,family=binomial,data= datos.tfm,
design=datos.tfm.pon)
> modelo.sexo.edad<- svyglm(act_inac~sexo+edad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> anova(modelo.edad.estudios.sexo, modelo.estudios.sexo)
Working (Rao-Scott+F) LRT for edad
in svyglm(formula = act_inac ~ edad + estudios + sexo, family =
binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 36510.72 p= < 2.22e-16
(scale factors: 1.1 1.1 1 1 1 1 0.98 0.94 0.92 0.85 ); denominator
df= 144092
> anova(modelo.sexo.estudios.edad, modelo.sexo.edad)
Working (Rao-Scott+F) LRT for estudios
in svyglm(formula = act_inac ~ sexo + estudios + edad, family =
binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1802.135 p= < 2.22e-16
(scale factors: 1.3 1 0.98 0.96 0.91 0.87 ); denominator df= 144092
El modelo con las tres variables mejora a los modelos que sólo tienen dos, ya sea el sexo y la
edad, o el sexo y la variable ‘nivel de estudios’. El modelo final que se obtiene en este paso se
compone de la constante, la edad, el nivel de estudios y la variable sexo.
Paso 4.
En este paso se comprueba si la variable que codifica a las Comunidades Autónomas o la
variable con la nacionalidad, se incluyen en el modelo.
Se crea el modelo con las tres variables del paso anterior más la nueva variable “ccaa”.
> modelo.edad.estudios.sexo.1<svyglm(act_inac~edad+estudios+sexo+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
Se crea el modelo con las tres variables del paso anterior más la nueva variable “nacionalidad”
> modelo.edad.estudios.sexo.2<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
Realizamos los contrastes.
> anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.1)
Ana Gema Galera Pozo
77
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Working (Rao-Scott+F) LRT for ccaa
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family
= binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 375.0815 p= < 2.22e-16
(scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.82 0.74 0.69 0.69
0.63 0.56 0.54 0.51 0.49 0.41 ); denominator df= 144074
> anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.2)
Working (Rao-Scott+F) LRT for
in svyglm(formula = act_inac
family = binomial, data =
Working 2logLR = 39.97436 p=
df=1; denominator df= 144091
nacionalidad
~ edad + estudios + sexo + nacionalidad,
datos.tfm, design = datos.tfm.pon)
2.8576e-10
La variable que entra en el modelo es la variable “Comunidad Autónoma”, ya que tiene un pvalor menor de 0,10 y su valor de 2LogLR es mayor.
Veamos, a continuación, si incluida la Comunidad Autónoma, sale del modelo algunas de las
variables que entraron en los pasos anteriores.
> modelo.1<- svyglm(act_inac~estudios+sexo+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.2<- svyglm(act_inac~edad+sexo+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.<- svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.3<- svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> anova(modelo.edad.estudios.sexo.ccaa, modelo.1)
Working (Rao-Scott+F) LRT for edad
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family
= binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 36266.78 p= < 2.22e-16
(scale factors: 1.1 1.1 1.1 1 1 1 0.99 0.94 0.91 0.86 ); denominator
df= 144074
> anova(modelo.edad.estudios.sexo.ccaa, modelo.2)
Working (Rao-Scott+F) LRT for estudios
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family
= binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1737.829 p= < 2.22e-16
(scale factors: 1.3 1 0.97 0.96 0.91 0.86 ); denominator df= 144074
> anova(modelo.edad.estudios.sexo.ccaa, modelo.3)
Working (Rao-Scott+F) LRT for sexo
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa, family
= binomial,
data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1450.255 p= < 2.22e-16
df=1; denominator df= 144074
Todos los contrastes tienen un p-valor menor que 0,15, por tanto permanecen en el modelo las
cuatro variables junto a la variable de la Comunidad Autónoma de residencia.
Ana Gema Galera Pozo
78
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Paso 5.
Sólo la variable “nacionalidad” puede entrar en el modelo en este paso.
> anova(modelo.edad.estudios.sexo.ccaa,
modelo.edad.estudios.sexo.ccaa.nacionalidad)
Working (Rao-Scott+F) LRT for
in svyglm(formula = act_inac
nacionalidad,
family = binomial, data =
Working 2logLR = 28.47515 p=
df=1; denominator df= 144073
nacionalidad
~ edad + estudios + sexo + ccaa +
datos.tfm, design = datos.tfm.pon)
1.043e-07
Como el p-valor es menor que 0,10 se concluye que la nacionalidad mejora el modelo por lo
que también debe de incluirse.
Para finalizar, se estudia si debe expulsarse del modelo alguna de las cuatro restantes variables
incluidas en los pasos anteriores.
> modelo.svy<svyglm(act_inac~edad+estudios+sexo+ccaa+nacionalidad,family=binomial,d
ata= datos.tfm, design=datos.tfm.pon)
> modelo.1<svyglm(act_inac~estudios+sexo+ccaa+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.2<svyglm(act_inac~edad+sexo+ccaa+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.3<svyglm(act_inac~edad+estudios+ccaa+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
> modelo.4<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
Realizamos los contrastes.
> anova(modelo.total, modelo.1)
Working (Rao-Scott+F) LRT for edad
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa +
nacionalidad,
family = binomial, data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 35336.32 p= < 2.22e-16
(scale factors: 1.1 1.1 1 1 1 1 0.99 0.94 0.91 0.86 ); denominator
df= 144073
> anova(modelo.total, modelo.2)
Working (Rao-Scott+F) LRT for estudios
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa +
nacionalidad,
family = binomial, data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 1790.918 p= < 2.22e-16
(scale factors: 1.2 1 0.98 0.97 0.92 0.86 ); denominator df= 144073
> anova(modelo.total, modelo.3)
Working (Rao-Scott+F) LRT for
in svyglm(formula = act_inac
nacionalidad,
family = binomial, data =
Working 2logLR = 1463.683 p=
df=1; denominator df= 144073
sexo
~ edad + estudios + sexo + ccaa +
datos.tfm, design = datos.tfm.pon)
< 2.22e-16
Ana Gema Galera Pozo
79
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> anova(modelo.total, modelo.4)
Working (Rao-Scott+F) LRT for ccaa
in svyglm(formula = act_inac ~ edad + estudios + sexo + ccaa +
nacionalidad,
family = binomial, data = datos.tfm, design = datos.tfm.pon)
Working 2logLR = 342.6512 p= < 2.22e-16
(scale factors: 2.7 1.9 1.7 1.3 1.3 1.1 1 0.9 0.81 0.74 0.69 0.68
0.63 0.56 0.54 0.51 0.49 0.41 ); denominator df= 144073
Ninguna de las variables debe salir.
El modelo que se ha obtenido con la selección por pasos y que mejor explica la variable
respuesta se compone de la constante y de las cinco variables explicativas: edad, nivel de
estudios terminado, sexo, Comunidad Autónoma de residencia y nacionalidad.
Bondad de ajuste del modelo
Para determinar la bondad del ajuste global de los datos se ha realizado un test de Hosmer y
Lemeshow ya que, al calcular las frecuencias estimadas bajo el modelo (mq=nqpq), existen más
del 20% de frecuencias menores de 5, por lo que no puede asumirse la distribución chicuadrada para utilizar otro tipo de contrastes.
Con el test Hosmer-Lemeshow se van a agrupar las frecuencias en 10 grupos. Para calcular los
diez grupos vamos a usar dos criterios: el primer criterio realizará 10 grupos de igual tamaño y
el segundo realizará los 10 grupos según de los deciles de las probabilidades estimadas.
> hosmerlem<-function(y, yhat, g=10) {cutyhat1 = cut(yhat,breaks
+ =quantile(yhat, probs=seq(0,1, 1/g)), include.lowest=TRUE)
+ obs = xtabs(cbind(1 - y, y) ~ cutyhat1)
+ expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat1)
+ chisq.C = sum((obs - expect)^2/expect)
+ P.C = 1 - pchisq(chisq.C, g - 2)
+ cutyhat2 = cut(yhat,breaks =g, include.lowest=TRUE)
+ obs = xtabs(cbind(1 - y, y) ~ cutyhat2)
+ expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat2)
+ chisq.H = sum((obs - expect)^2/expect)
+ P.H = 1 - pchisq(chisq.H, g - 2)
+ res <- data.frame(c(chisq.C,P.C),c(chisq.H,P.H))
+ colnames(res)<- c("Hosmer-Lemeshow C statistic","Hosmer-Lemeshow H
statistic")
+ rownames(res)<- c("X-squared","p.value")
+ return(res)
+ }
> hosmerlem(y = datos.tfm$act_inac, yhat = fitted.values(modelo.svy))
X-squared
p.value
Hosmer-Lemeshow C statistic Hosmer-Lemeshow H statistic
134.513
125.8375
0.000
0.0000
Como resultado de agrupar por los 10 grupos de igual tamaño se obtiene un valor del
estadístico de Hosmer-Lemeshow de 134,513, con un p-valor asociado con valor 0.
El resultado es parecido para el caso de la agrupación por deciles de las probabilidades
estimadas: el valor del estadístico es 125,8 y el p-valor asociado es 0.
Ana Gema Galera Pozo
80
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Ambos p-valores son menores a 0,05, por lo que se puede pensar que el modelo no se ajusta
bien, de manera global, a los datos observados.
A pesar de que el número de frecuencias estimadas no es lo suficientemente grande en algunas
combinaciones de las variables explicativas, se va a calcular también los estadísticos X2 y G2.
Para el cálculo del estadístico X2 necesitamos crear una sintáxis en R ya que los datos muestran
la información de cada individuo de la muestra (datos sin agrupar), y el estadístico X2 y G2 se
obtiene a partir de los datos agrupados para las Q combinaciones de las variables explicativas
que aparecen en la muestra.
> fobs<data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+act_inac,
data=datos.tfm))
> head(fobs)
1
2
3
4
5
6
sexo edad nacionalidad estudios ccaa act_inac Freq
1
16
0
AN
1
0
0
6
16
0
AN
1
0
0
1
20
0
AN
1
0
1
6
20
0
AN
1
0
1
1
25
0
AN
1
0
0
6
25
0
AN
1
0
2
Con estas primeras operaciones construimos las combinaciones de todas las variables
explicativas en cada una de las categorías de la variable respuesta. La columna ‘Freq’ ofrece el
valor de las frecuencias observadas.
Los 5.852 registros son las combinaciones y frecuencias observadas para la categoría 0
(colectivo inactivos) de la variable respuesta. Los siguientes y últimos 5.852 registros, son las
combinaciones y frecuencias observadas para la categoría 1 (activos) de la variable respuesta.
Separamos en vectores diferentes las observaciones para las combinaciones de la categoría 0 y
1 de la variable respuesta (fobs0 y fobs1).
>
>
>
>
fobs0=0
for (i in 1:5852) fobs0[i]=fobs$Freq[i]
fobs1=0
for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852]
A continuación se calculan las probabilidades predichas para las combinaciones de las variables
explicativas.
> ppred<-predict(modelo.svy, newdata=fobs, type='response')
> head(ppred)
1
2
3
4
5
6
0.03828041 0.01797499 0.23499253 0.12377225 0.57248263 0.38110432
Separamos en vectores diferentes las probabilidades predichas bajo el modelo para las
combinaciones de la categoría 0 y 1 de la variable respuesta (ppred00 y ppred1).
> for (i in 1:5852) ppred0[i]=1-ppred[i]
> for (i in 1:5852) ppred1[i]=ppred[i]
Ana Gema Galera Pozo
81
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Se calculan las frecuencias predichas bajo el modelo como la multiplicación de las
probabilidades predichas y el número total de frecuencias observadas en la combinación q de
variables explicativas.
> for (i in 1:5852) FT[i]=fobs0[i]+fobs1[i]
> for (i in 1:5852) fpred0[i]=FT[i]*ppred0[i]
> for (i in 1:5852) fpred1[i]=FT[i]*ppred1[i]
> head(fpred0)
[1] 0.0000000 0.0000000 0.7650075 0.8762278 0.0000000 1.2377914
Se calcula el estadístico X2.
> for (i in 1:5852) x0[i]=(fobs0[i]-fpred0[i])^2/fpred0[i]
> a<-ifelse(is.na(x0),0,x0)
> sum(a)
[1] 5200.536
> for (i in 1:5852) x1[i]=(fobs1[i]-fpred1[i])^2/fpred1[i]
> b<-ifelse(is.na(x1),0,x1)
> sum(b)
[1] 3883.667
> X2.ind<-data.frame(a,b)
> X2<-sum(X2.ind)
> X2
[1] 9084.203
Los grados de libertad son el número de combinaciones de las variables explicativas que
aparecen en la muestra - el número de parámetros en el modelo (con constante).
Para construir las Q combinaciones de las variables explicativas se ha utilizado en R la función
xtabs. Esta función construye la tabla de contigencia con todas las combinaciones posibles,
aunque algunas de ellas no apareciera en la muestra para ninguna categoría de la variable
respuesta. Por ello, para calcular los grados de libertad vamos a tomar las Q combinaciones de
las variables explicativas que sí aparecieran en la muestra y que, dicho de otro modo, no
pueden tener frecuencia 0 sumando las frecuencias observadas en la combinación q de las tres
categorías.
> contador=0
> for (i in 1:5852) {if (FT[i]>0) contador=contador+1 else
contador=contador}
> contador
[1] 4279
> gl<-4279-37
> gl
[1] 4242
Calculamos el p.valor.
Ana Gema Galera Pozo
82
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> p.valor=1-pchisq(X2,gl)
> p.valor
[1] 0
Si calculamos el valor del estadístico G2, se obtiene el siguiente resultado:
> for (i in 1:5852) x1[i]=fobs1[i]*(log(fobs1[i]/fpred1[i]))
> for (i in 1:5852) x0[i]=fobs0[i]*(log(fobs0[i]/fpred0[i]))
> a<-ifelse(is.na(x0),0,x0)
> sum(a)
[1] 2832.469
> b<-ifelse(is.na(x1),0,x1)
> sum(b)
[1] 1430.609
> G2<-2*(sum(a)+sum(b))
> G2
[1] 8526.157
> p.valor=1-pchisq(G2,gl)
> p.valor
[1] 0
Por tanto, calculando los valores de ambas
estadísticos tampoco podríamos afirmar que el
modelo se ajuste bien, de manera global, a los datos observados.
Sin embargo, para realizar una validación completa podemos también calcular la tabla de
clasificaciones correctas que también nos puede servir como medida de bondad del ajuste
global.
Tabla de clasificaciones correctas
Tal y como se explicó en la metodología, la tabla de clasificaciones correctas es la proporción de
individuos que bajo el modelo obtenido se han clasificado correctamente en su categoría de
observación.
En este caso debemos comprobar si se clasifican correctamente los individuos activos e
inactivos como tal, según el modelo estimado.
En primer lugar, se va a a comprobar la tabla de clasificación para los individuos de la muestra,
y a continuación, se va a comprobar con los datos de la población total estimada bajo el factor
de elevación.
Tabla de clasificación para los individuos de la muestra
> table(datos.tfm$act_inac)
0
1
65443 78667
Ana Gema Galera Pozo
83
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
La muestra tenía 65.443 personas clasificadas como inactivas y 78.667 clasificadas como
activas.
Para clasificar a una persona como activa o inactiva bajo el modelo que calcula la probabilidad
de estar activo, debemos escoger un punto, que por encima de este valor clasifiquemos a la
persona como activa, y bajo este punto, la clasifiquemos como inactiva.
En primer lugar, vamos a tomar como punto de determinación la probabilidad de 0,5. Cuando la
probabilidad estimada sea superior a 0,5 la persona será clasificada como activa, y cuando la
probabilidad sea menor, se clasificará como inactiva.
Teniendo en cuenta estas consideraciones podemos estimar cuantas personas se clasifican en
cada colectivo según las probabilidades estimadas bajo el modelo.
> prediccion <- ifelse(fitted.values(modelo.svy) >= 0.5, 1,0)
> table(prediccion)
prediccion
0
1
55278 88832
Tomando 0,5 como punto para la clasificación, se han estimado 55.278 personas que son
inactivas y 88.832 que son activas.
A continuación observamos cuantas se han clasificado correctamente en cada grupo a partir de
la tabla de clasificación:
> tabla.clasificacion<-table(datos.tfm$act_inac, prediccion)
> tabla.clasificacion
prediccion
0
1
0 49264 16179
1 6014 72653
Tal y como se observa, el 75,28% de los inactivos han sido clasificados correctamente al igual
que el 92,36% de los activos. Por tanto, la tasa de clasificación correcta del total de los
individuos de la muestra es de un 84,6%.
Estos resultados son bastante buenos, por lo que el modelo que se ha obtenido puede ser
bastante predictivo.
Sin embargo, las predicciones pueden mejorarse aún más si encontramos un punto a partir del
cual la clasificación de las personas, en inactivas o activas, sea más óptima.
A partir de la librería ROCR en R, podemos calcular distintas medidas para obtener aquel punto
(cutpoint) que nos de las mejores tasas de clasificación, es decir, maximice la tasa de
clasificación correcta.
> library(ROCR)
> pred <- prediction(fitted.values(modelo.svy), datos.tfm$act_inac)
> p1 <- performance(pred, measure = "acc")
> (posicion.max <- sapply([email protected], which.max))
[1] 2806
Ana Gema Galera Pozo
84
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> (cutpoint <- sapply([email protected], "[", posicion.max))
105329
0.5704263
El punto obtenido es 0.5704263. Esto significa que los individuos con probabilidades estimadas
por encima de 0.5704263 deben clasificarse como activos, y por debajo de ese valor, como
inactivos.
> prediccion <- ifelse(fitted.values(modelo.svy) >= 0.5704263, 1,0)
> table(prediccion)
prediccion
0
1
59412 84698
> tabla.clasificacion<-table(datos.tfm$act_inac, prediccion)
> tabla.clasificacion
prediccion
0
1
0 51348 14095
1 8064 70603
Con el nuevo cutpoint que se ha obtenido para clasificar a las personas en activas e inactivas,
se ha conseguido que un 78,46% de los individuos inactivos de la muestra se clasifiquen
correctamente y el 89,75% de los activos. Por tanto, casi el 90% de los individuos de la
muestra (89,75%) se clasifican adecuadamente.
Por otro lado, el análisis del área bajo la curva ROC informa que, en su conjunto, la precisión
del modelo es bastante alta.
> AUC <- performance(pred, "auc")
> [email protected]
[1] "Area under the ROC curve"
> [email protected]
[[1]]
[1] 0.9128167
> p2 <- performance(pred, "tpr", "fpr")
> plot(p2, colorize = TRUE)
> abline(a = 0, b = 1)
> text(0.4, 0.6, paste([email protected], "\n", round(unlist([email protected]),
3)), cex = 0.7)
Ana Gema Galera Pozo
85
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
El área bajo la curva es de algo más del 91%, por lo que el modelo obtenido da buenos
resultados en la discriminación de las personas de 16 y más años como activas o inactivas.
Si utilizamos los factores de elevación de la muestra de la EPA, podemos ponderar para obtener
los valores de población total de España.
Bajo estos valores de población total se va a estimar cual es la tasa de clasificación correcta
para examinar el poder de discriminación del modelo obtenido para la población total de España
según las estimaciones realizadas por la encuesta.
> ob<-xtabs(fe~act_inac)
> ob
act_inac
0
1
15599704 22883897
Según los datos de la EPA, en España 15.599.704 personas de 16 o más años son inactivas, y
22.883.897 son activas.
> prediccion <- ifelse(fitted.values(modelo.total) >= 0.5, 1,0)
> pred<-xtabs(fe~prediccion)
> pred
prediccion
0
1
12833435 25650165
Bajo el modelo se han estimado 12.833.435 inactivos y 25.650.165 activos.
> tabla.clasificacion<-xtabs(fe~datos.tfm$act_inac+prediccion)
> tabla.clasificacion
prediccion
datos.tfm$act_inac
0
1
0 11332957 4266747
1 1500478 21383419
Tomando como punto de clasificación el 0,5, el 72,6% de la población inactiva se clasifica bien
bajo el modelo estimado. En el caso de la población activa, el 93,4% se ha clasificado
Ana Gema Galera Pozo
86
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
correctamente. Por tanto, la tasa de clasificación correcta es de un 85% en la población total de
España, por lo que al igual que ya decíamos para el caso de la validación de la muestra, el
modelo que se ha obtenido es bastante bueno en el ajuste global de la población.
Calidad del Modelo
Para realizar un análisis más completo se van a calcular lo R2 de Cox Snell y R2 de Nagelkerke.
EL R2 de Cox Snell es de la forma
> R2cs<-1-exp((vf-v0)/144110)
[1] 0.4755057
Y el R2 de Nagelkerke
> R2n<-R2cs/(1-exp(-v0/144110))
[1] 0.6418601
En el último caso, el valor es de algo más del 64%, valor que podemos considerar bastante
bueno en cuanto a la calidad del ajuste.
Diagnóstico y validación
Para realizar una validación completa del modelo es necesario realizar un estudio de los
residuos y de las medidas de influencia para comprobar si el ajuste es bueno observación a
observación.
De manera general se consideran que un residuo es significativamente mayor que cero si el
valor del residuo en valor absoluto es mayor que
significación
zα / 2 . Para ello debemos fijar un nivel de
α , que será en nuestro caso de 0,05. Por tanto, zα / 2 =1.96.
Vamos a buscar aquellos residuos que sean, en valor absoluto, mayores a 1.96. Como
estabamos trabajando con datos no agrupados, es decir, con datos individuo a individuo, los
residuos que vamos a obtener son los correspondientes a cada individuo de la muestra y no a
cada combinación de las variables explicativas.
> res.pearson <- residuals(modelo.svy, type = "pearson")
> res.pearson.sig <- abs(res.pearson) > 1.96
> table(res.pearson.sig)
res.pearson.sig
FALSE
TRUE
136154
7956
En el caso de los residuos de Pearson, se obtiene 7.956 residuos que se pueden considerar
significativamente distintos de cero. Este número de residuos suponen el 5,5% de todos los
residuos de la muestra que son 144.110.
Ana Gema Galera Pozo
87
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Si calculamos los residuos de Pearson estandarizados se obtiene que 7.482 residuos son
significativamente distintos de cero, lo que supone un 5,4% de todos los individuos de la
muestra.
> res.pearson.estd <- rstandard(modelo.svy, type = "pearson")
> res.pearson.estd.sig<-abs(res.pearson.estd)>1.96
> table(res.pearson.estd.sig)
res.pearson.estd.sig
FALSE
TRUE
136268
7842
En el caso de los residuos de la deviance, el resultado es mucho mejor,
> res.deviance <- residuals(modelo.total, type = "deviance")
> res.deviance.sig <- abs(res.deviance) > 1.96
> table(res.deviance.sig)
res.deviance.sig
FALSE
TRUE
139031
5079
sólo 5.079 residuos se consideran significativamente distintos de cero, un 3,5% del total de los
residuos de la muestra.
> res.deviance.std <- rstandard(modelo.svy, type = "deviance")
> table(abs(res.deviance.std) > 1.96)
FALSE
139076
TRUE
5034
En el caso de los residuos estandarizados de la deviance, sólo el 3,5% de los mismos se
consideran significativamente mayores que 0 en valor absoluto.
> res.student <- rstudent(modelo.svy)
> table(abs(res.student) > 1.96)
FALSE
TRUE
139027 5083
En el caso de los residuos estunderizados, el 3,5% de los residuos son significativamente
distintos de cero.
A la vista de los resultados obtenidos en el análisis de los residuos, y ya que en casi todos los
casos los residuos significativamente distintos de cero no suponen mucho más del 5% e incluso
en la mayoría de los casos no supera el 3,5%, la validación puede darse por buena.
A continuación se calculan también las distancias de cook para probar si existe algún registro
que se bastante influyente.
Un registro se considera influyente si la distancia de cook es mayor que 1, tal y como se
explicaba en la metodología.
Ana Gema Galera Pozo
88
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> distancias.cook <- cooks.distance(modelo.total)
> table(distancias.cook > 1)
FALSE
144110
Tal y como se muestra en la tabla de resultados, no existe ningún valor que pueda considerarse
influyente.
Contrastes sobre los parámetros
Por último, para poder interpretar el modelo es necesario que los parámetros del modelo sean
significativamente distintos de cero.
En el resumen de los datos obtenidos en R con la función svyglm, ésta realiza y nos devuelve a
su vez los resultados obtenidos de aplicar el contraste de Wald. Este contraste está basado en
la normalidad asintótica de los estimadores de MV. Bajo la hipótesis nula de que el parámetro
sea nulo, se rechazará la hipótesis si el estadístico de Wald es mayor o igual que 1,96 si
consideramos un nivel de significación de 0,05; o lo que es lo mismo, que el p-valor asociado al
estadístico sea menor que el nivel de significación fijado (0,05). En la salida del resumen,
(Tabla 8), podemos ver la columna z que es la que tiene los valores del estadístico de Wald, y
la columna con los p-valores asociados.
> summary(modelo.total)
β
E.S
Z
Pr(>|z|) Signif.
(Intercept)
-3.22378 0.12725
-25.335 < 2e-16
*
edad20
2.04345 0.05641
36.223 < 2e-16
*
edad25
3.51577 0.06314
55.684 < 2e-16
*
edad30
4.00798 0.06471
61.939 < 2e-16
*
edad35
3.91599 0.06080
64.409 < 2e-16
*
edad40
3.70085 0.05883
62.903 < 2e-16
*
edad45
3.53359 0.05782
61.118 < 2e-16
*
edad50
3.26572 0.05598
58.340 < 2e-16
*
edad55
2.66689 0.05532
48.212 < 2e-16
*
edad60
1.42287 0.05617
25.332 < 2e-16
*
edad65
Primaria
incom
Primaria
-2.06057 0.07269
-28.348 < 2e-16
*
1.01190 0.12446
1.53553 0.11516
8.130 4.31e-16
13.334 < 2e-16
*
*
1ª Secundaria
1.90553 0.11315
16.841 < 2e-16
*
2ª Secundaria
1.69309 0.11426
14.818 < 2e-16
*
O. Profesional
Superiores
2.33789 0.11884
2.57951 0.11482
19.673 < 2e-16
22.466 < 2e-16
*
*
Mujer
-0.77685
0.02068
-37.572
< 2e-16 *
Aragón
0.17339
0.05328
3.254
0.001137 *
Asturias
-0.25407
0.05082
-4.999
5.77e-07 *
Baleares
0.02108
0.06406
0.329
0.742146
Ana Gema Galera Pozo
89
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
β
E.S
Z
los factores
Pr(>|z|) Signif.
Canarias
0.08235
0.04869
1.691
0.090781
Cantabría
-0.18689
0.05597
-3.339
0.000841 *
Castilla-León
0.01715
0.03756
0.457
0.647856
Cast Mancha
0.15939
0.04024
3.961
7.47e-05 *
Cataluña
0.37291
0.03804
9.804
< 2e-16 *
C.Valenciana
0.09833
0.04220
2.330
0.019800 *
Extremadura
-0.10872
0.04860
-2.237
0.025284 *
Galicia
-0.03961
0.03299
-1.201
0.229814
Madrid
0.23329
0.04689
4.975
6.53e-07 *
Murcia
Navarra
País Vasco
0.11092
0.16115
-0.04824
0.05411
0.06287
0.04446
2.050
2.563
-1.085
0.040386 *
0.010376 *
0.277932
Rioja
0.22519
0.07131
3.158
0.001591 *
Ceuta
-0.23012
0.13107
-1.756
0.079139
Melilla
-0.35462 0.13939
-2.544 0.010959 *
Español
-0.24858 0.04712
-5.276
1.32e-07 *
Significación: ‘*’ significativo a un nivel 0.05 ; ‘ ’ no sign
Categorías de referencia es un hombre extranjero de 16 a 20 años, que vive en Andalucía y es analfabeto
Tabla 8: Estimación de los parámetros del modelo.
En todos los casos, a excepción de los parámetros asociados a la Comunidad Autónoma de País
Vasco, Baleares, Canarias, Ceuta, Castilla-León y Galicia, los parámetros son significativamente
distintos de cero a un nivel de confianza del 95%.
Los seis parámetros que pueden considerarse nulos son categorías de la variable ‘Comunidad
Autónoma’, por lo que deben permanecer en el modelo porque el resto de categorías de esta
variable sí influyen.
Para facilitar la interpretación de los parámetros, se van a calcular sus exponenciales, así como
sus intervalos de confianza al 95%, que nos dan una interpretación de la ventaja de ser activo
frente a ser inactivo para los distintos valores de las variables explicativas (Tabla 9).
> exp(confint.default(modelo.total, level = 0.95))
exp(β)
0,025%
0,975%
Signif.
(Intercept)
0,040
0,031
0,051 *
edad20
7,717
6,909
8,619 *
edad25
edad30
33,642
55,035
29,726
48,480
38,074 *
62,477 *
edad35
edad40
50,199
40,482
44,560
36,073
56,552 *
45,430 *
edad45
edad50
edad55
edad60
edad65
Primaria
incom
34,247
26,199
14,395
4,149
0,127
30,578
23,477
12,916
3,716
0,110
38,356
29,237
16,044
4,632
0,147
2,751
2,155
3,511 *
Primaria
4,644
3,706
5,820 *
*
*
*
*
*
Ana Gema Galera Pozo
90
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
exp(β)
0,025%
0,975%
los factores
Signif.
1ª Secundaria
6,723
5,386
8,392 *
2ª Secundaria
5,436
4,346
6,801 *
O. Profesional
10,359
8,207
13,076 *
Superiores
13,191
10,533
16,520 *
Mujer
0,460
0,442
0,479 *
Aragón
1,189
1,071
1,320 *
Asturias
0,776
0,702
0,857 *
Baleares
1,021
0,901
1,158
Canarias
1,086
0,987
1,195
Cantabría
0,830
0,743
0,926 *
Castilla-León
1,017
0,945
1,095
Cast Mancha
1,173
1,084
1,269 *
Cataluña
1,452
1,348
1,564 *
C.Valenciana
1,103
1,016
1,198 *
Extremadura
0,897
0,815
0,987 *
Galicia
0,961
0,901
1,025
Madrid
1,263
1,152
1,384 *
Murcia
1,117
1,005
1,242 *
Navarra
1,175
1,039
1,329 *
País Vasco
0,953
0,873
1,040
Rioja
1,253
1,089
1,440 *
Ceuta
0,794
0,614
1,027
Melilla
0,701
0,534
0,922 *
Español
0,780
0,711
0,855 *
Significación: ‘*’ significativo a un nivel 0.05 ; ‘ ’ no sign
Categorías de referencia es un hombre extranjero de 16 a 20 años, que vive en Andalucía y es analfabeto
Tabla 9: Estimación de las exponenciales de los parámetros del modelo e intervalos
de confianza
El valor de la exponencial de la constante nos informa de la ventaja de ser activo para la
persona de referencia tomada en cada una de las categorías. Así la ventaja de ser activo es de
1 a 25 para el caso de una persona que sea hombre, extranjero, de entre 16 y 19 años,
analfabeto y que viva en Andalucía.
En el caso del sexo, la mujer presenta desventajas a la hora de pertenecer a la actividad
económica del país. Concretamente, la ventaja de ésta se divide por 2,17 (1/0,46) frente a la
del hombre. Equivalentemente, la ventaja a favor de estar activo es aproximadamente el doble
para los hombres que para las mujeres
En el caso de la nacionalidad, ser español también presenta desventajas frente a ser extranjero.
La ventaja a favor de estar activo es 1,28 veces mayor para los extranjeros que para los
españoles.
Ana Gema Galera Pozo
91
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
En el caso del nivel de estudios terminados, parece que la ventaja de participar en el mercado
de trabajo va aumentando conforme el nivel de estudios es mayor. Concretamente, aquellos
que tienen un nivel de primaria incompleta, presentan una ventaja de 2.75 veces mayor que los
que son analfabetos. Para los que tiene secundaria (ya sea primera o segunda etapa), la
ventaja de ser activo se multiplica entre 4 y 8 frente a los que no tienen estudios.
Para los que tienen estudios de orientación profesional su ventaja frente a los analfabetos se
multiplica por 10. Para los que tienen estudios superiores, su ventaja se multiplica entre un
10,5 y un 16,5 frente a los no tienen ningún tipo de estudios.
En el caso de las Comunidades Autónomas, a excepción de Asturias, Cantabria y Extremadura,
el resto presentan mayores ventajas que Andalucía en lo relativo a ser activo. En casi todas las
Comunidades Autónomas, la ventaja de pertenecer a la actividad activa del país, se multiplica
en torno a 1,1; a excepción de Madrid y la Rioja cuya ventaja se multiplica por 1,26 frente a la
población andaluza; y Cataluña que presenta la mayor ventaja (1,45 veces mayor que
Andalucía).
Asturias presenta la menor ventaja de pertenecer al colectivo de activos. Ésta se divide por 1,3
frente a Andalucía. Extremadura y Cantabria, aún teniendo una ventaja menor que la de
Andalucía, éstas se multiplican entre 0,8 y 0,9, muy cerca de la andaluza.
Las seis Comunidades Autónomas con parámetro 0 y cuyas exponenciales son 1,
y que
correspondientes a las Comunidades Autónomas del Páis Vasco, Galicia, Ceuta, Castilla-León,
Canarias y Baleares, se interpretan como que los individuos residentes en ellas tienen la misma
ventaja de estar activos que en la Comunidad Andaluza.
En cuanto a la edad, el aumento de la misma también contribuye a presentar mayores ventajas
a la hora de estar activo hasta alcanzar la edad de jubilación (65 años), que disminuye frente a
los más jóvenes. Desde los 20 años, la ventaja de ser una persona activa es 7,7 veces mayor
que los jóvenes de entre 16 y 19 años. A partir de los 25 años, esta ventaja se multiplica por
33,6. Sigue aumentando hasta los 40 años donde se presentar una ventaja de estar activo que
se multiplica por 40 frente a los más jóvenes. Sin embargo, a partir de los 50 años la ventaja de
ser activo es de 26 veces más que la de una persona de entre 16 y 19 años, y con 60-64 años
de sólo 4 veces más que la del colectivo de referencia.
Los mayores de 65 años son el colectivo con más desventaja. Éstos dividen su ventaja por 8
frente a los que tienen entre 16 y 19 años.
Ana Gema Galera Pozo
92
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
5.4. Ajuste de un modelo de regresión multinomial para explicar
los factores relacionados con la ocupación, desempleo e
inactividad de la población española.
Como ya se anunciaba al comienzo de este capítulo, el segundo análisis que se va a realizar
tratará de explicar aquellos factores que más influyen y las características que acentúan el
hecho de pertenecer al colectivo de ocupados, parados o inactivos entre la población con edad
de trabajar en España.
Para realizar la regresión multinomial se ha definido como variable de respuesta ‘mult’ la
relación con la actividad económica de la población con las tres categorías de clasificación: 0
para la población parada, 1 para la población ocupada y 2 para la población inactiva. El
colectivo de parados será la categoría de referencia para realizar la regresión logística
multinomial.
> head(datos.tfm)
1
2
3
4
5
6
act_inac ccaa sexo edad nacionalidad estudios
fe mult
1
16
6
35
1
SU 435.54
1
1
16
1
30
1
S1 435.54
1
0
16
6
45
1
SU 309.65
2
1
16
1
50
1
SU 309.65
1
1
16
6
20
1
S1 309.65
0
1
16
1
35
1
SU 460.45
1
Esta vez, se va a utilizar la función ‘multinom’ de la librería (nnet) de R. En el anexo 8.3 se
incluye los principales argumentos de la función.
Entre sus argumentos se incluye ‘weights’ que permite incluir la ponderación de los casos para
la regresión, indicando sólo el nombre de la variable donde están incluidas las ponderaciones.
Al igual que en el caso de la regresión binaria, la construcción del modelo más adecuado se va
a obtener a partir de la selección de variables paso a paso. La función ‘multinom’ permite usar
la función step que permite realizar un stepwise de manera automática.
Las variables candidatas a entrar en el modelo son aquellas cuyo p-valor del contraste es menor
que α 1 fijado para la entrada de términos. Normalmente suele fijarse en 0,1. De todas las
variables candidatas a entrar, lo hará aquella de menor p-valor. En el caso de la función
multinom, R no muestra los p-valores de los contrastes condicionales de razón de
verosimilitud, pero muestra el valor de AIC del modelo que se basa en el criterio de información
de Akaike.
La función step toma el AIC asociado a los diferentes modelos que resultan en cada paso al
añadir o quitar una variable, y elige el modelo con menor valor de AIC.
Como el procedimiento es en ambas direcciones, una vez incluida una variable se elige el
término que puede salir del modelo.
El procedimiento se detiene cuando no hay más variables que puedan incluirse en el modelo.
Ana Gema Galera Pozo
93
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Para comenzar el procedimiento ajustamos el modelo más simple: el modelo que toma sólo la
constante.
Para ello usamos la función ‘multinom’.
> modelom.0 <- multinom(mult ~ 1, weight=fe, data = datos.tfm)
# weights: 6 (2 variable)
initial value 42
278556.674178
final value 39077718.359780
converged
> modelom.0
Call:
multinom(formula = mult ~ 1, data = datos.tfm, weights = fe)
Coefficients:
(Intercept)
1 -0.96664723
2 0.08306237
Residual Deviance: 78155437
AIC: 78155441
A continuación construimos el modelo más adecuado a partir del modelo más simple con la
función step en ambas direcciones.
> modelom.step<step(modelom.0,scope=list(lower=mult~1,upper=mult~sexo+ccaa+estudios+n
acionalidad+edad),direction="both")
Paso 1.
Start: AIC=78155441
mult ~ 1
trying + sexo
# weights: 9 (4 variable)
initial value 42278556.674178
final value 38800093.083867
converged
trying + ccaa
# weights: 60 (38 variable)
initial value 42278556.674178
iter 10 value 39038856.792832
iter 20 value 39036706.741272
iter 30 value 39035096.344236
iter 40 value 38900984.052782
final value 38811061.047292
converged
trying + estudios
# weights: 24 (14 variable)
initial value 42278556.674178
iter 10 value 36166933.390789
iter 20 value 34399441.414544
final value 34399262.440144
converged
trying + nacionalidad
# weights: 9 (4 variable)
initial value 42278556.674178
iter 10 value 38766791.335642
iter 10 value 38766791.137204
final value 38766791.137204
Ana Gema Galera Pozo
94
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
converged
trying + edad
# weights: 36 (22 variable)
initial value 42278556.674178
iter 10 value 27540490.732054
iter 20 value 27425537.012721
iter 30 value 27008630.259867
final value 27007690.376373
converged
Df
AIC
+ +edad
22 54015425
+ +estudios
14 68798553
+ +nacionalidad 4 77533590
+ +sexo
4 77600194
+ +ccaa
38 77622198
<none>
2 78155441
# weights: 36 (22 variable)
initial value 42278556.674178
iter 10 value 27540490.732054
iter 20 value 27425537.012721
iter 30 value 27008630.259867
final value 27007690.376373
converged
En el primer paso se construye un modelo para cada una de las cinco variables candidatas a
entrar, y extrae el valor de AIC de cada modelo. El modelo con menor valor de AIC es el
modelo que se obtiene de incluir la variable edad, por tanto ésta es la primera variable que
entra en el modelo
Paso 2.
Step: AIC=54015425
mult ~ edad
trying - edad
# weights: 6 (2 variable)
initial value 42278556.674178
final value 39077718.359780
converged
trying + sexo
# weights: 39 (24 variable)
initial value 42278556.674178
iter 10 value 29899359.660466
iter 20 value 29517013.614668
iter 30 value 26715029.201575
iter 40 value 26710817.758904
final value 26710816.960568
converged
trying + ccaa
# weights: 90 (58 variable)
initial value 42278556.674178
iter 10 value 27358679.759454
iter 20 value 27226481.174720
iter 30 value 27224781.085722
iter 40 value 27223181.941477
iter 50 value 27053924.473387
iter 60 value 26864383.347717
iter 70 value 26761881.032602
final value 26761705.451242
converged
trying + estudios
# weights: 54 (34 variable)
initial value 42278556.674178
iter 10 value 27645355.602656
iter 20 value 27241644.099099
iter 30 value 27223725.066244
iter 40 value 26091345.528425
iter 50 value 26082507.688010
Ana Gema Galera Pozo
95
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
iter 50 value 26082507.581280
iter 50 value 26082507.581280
final value 26082507.581280
converged
trying + nacionalidad
# weights: 39 (24 variable)
initial value 42278556.674178
iter 10 value 29119491.591980
iter 20 value 28947563.014521
iter 30 value 26920614.223121
iter 40 value 26910358.273604
final value 26910350.494229
converged
Df
AIC
+ +estudios
34 52165083
+ +sexo
24 53421682
+ +ccaa
58 53523527
+ +nacionalidad 24 53820749
<none>
22 54015425
- edad
2 78155441
# weights: 54 (34 variable)
initial value 42278556.674178
iter 10 value 27645355.602656
iter 20 value 27241644.099099
iter 30 value 27223725.066244
iter 40 value 26091345.528425
iter 50 value 26082507.688010
iter 50 value 26082507.581280
iter 50 value 26082507.581280
final value 26082507.581280
converged
En el paso 2, la variable que finalmente entra en el modelo es la variable ‘nivel de estudios’ que
tiene un menor valor de AIC.
Paso 3.
Step: AIC=52165083
mult ~ edad + estudios
trying - edad
# weights: 24 (14 variable)
initial value 42278556.674178
iter 10 value 36166933.390789
iter 20 value 34399441.414544
final value 34399262.440144
converged
trying - estudios
# weights: 36 (22 variable)
initial value 42278556.674178
iter 10 value 27540490.732054
iter 20 value 27425537.012721
iter 30 value 27008630.259867
final value 27007690.376373
converged
trying + sexo
# weights: 57 (36 variable)
initial value 42278556.674178
iter 10 value 29815915.004922
iter 20 value 29175357.420447
iter 30 value 29164272.279113
iter 40 value 25882939.710955
iter 50 value 25769150.238968
final value 25768316.466123
converged
trying + ccaa
# weights: 108 (70 variable)
initial value 42278556.674178
Ana Gema Galera Pozo
96
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
iter 10 value 27669742.175235
iter 20 value 27218285.838733
iter 30 value 27185818.219221
iter 40 value 27183251.967745
iter 50 value 27116918.691405
iter 60 value 26234609.306655
iter 70 value 26133815.861991
iter 80 value 25927085.027403
final value 25926316.880360
converged
trying + nacionalidad
# weights: 57 (36 variable)
initial value 42278556.674178
iter 10 value 28900060.084058
iter 20 value 28361080.302405
iter 30 value 28338888.494467
iter 40 value 26111769.544467
iter 50 value 26022019.484688
final value 26018674.386367
converged
Df
AIC
+ +sexo
36 51536705
+ +ccaa
70 51852774
+ +nacionalidad 36 52037421
<none>
34 52165083
- estudios
22 54015425
- edad
14 68798553
# weights: 57 (36 variable)
initial value 42278556.674178
iter 10 value 29815915.004922
iter 20 value 29175357.420447
iter 30 value 29164272.279113
iter 40 value 25882939.710955
iter 50 value 25769150.238968
final value 25768316.466123
converged
En el tercer paso es la variable sexo la que se introduce en el modelo y, ni la edad ni el nivel de
estudios, salen del modelo.
Paso 4.
Step: AIC=51536705
mult ~ edad + estudios + sexo
trying - edad
# weights: 27 (16 variable)
initial value 42278556.674178
iter 10 value 35942695.856184
iter 20 value 34164569.296054
final value 34160960.457891
converged
trying - estudios
# weights: 39 (24 variable)
initial value 42278556.674178
iter 10 value 29899359.660466
iter 20 value 29517013.614668
iter 30 value 26715029.201575
iter 40 value 26710817.758904
final value 26710816.960568
converged
trying - sexo
# weights: 54 (34 variable)
initial value 42278556.674178
iter 10 value 27645355.602656
iter 20 value 27241644.099099
iter 30 value 27223725.066244
iter 40 value 26091345.528425
Ana Gema Galera Pozo
97
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
iter 50 value 26082507.688010
iter 50 value 26082507.581280
iter 50 value 26082507.581280
final value 26082507.581280
converged
trying + ccaa
# weights: 111 (72 variable)
initial value 42278556.674178
iter 10 value 29651519.865707
iter 20 value 29018072.569999
iter 30 value 29005670.170625
iter 40 value 29002924.035306
iter 50 value 28959457.327236
iter 60 value 28302350.291112
iter 70 value 27138984.053357
iter 80 value 25650175.628419
iter 90 value 25609475.382242
final value 25609317.191320
converged
trying + nacionalidad
# weights: 60 (38 variable)
initial value 42278556.674178
iter 10 value 30928483.894671
iter 20 value 29921947.131486
iter 30 value 29885681.360952
iter 40 value 26977935.334514
iter 50 value 25717775.611715
final value 25703477.011024
converged
Df
AIC
+ +ccaa
72 51218778
+ +nacionalidad 38 51407030
<none>
36 51536705
- sexo
34 52165083
- estudios
24 53421682
- edad
16 68321953
# weights: 111 (72 variable)
initial value 42278556.674178
iter 10 value 29651519.865707
iter 20 value 29018072.569999
iter 30 value 29005670.170625
iter 40 value 29002924.035306
iter 50 value 28959457.327236
iter 60 value 28302350.291112
iter 70 value 27138984.053357
iter 80 value 25650175.628419
iter 90 value 25609475.382242
final value 25609317.191320
converged
La siguiente variable que se incluye en el modelo es la “ccaa”, pero no sale ninguna de las
variables del modelo de partida.
Paso 5.
En este paso sólo la variable ‘nacionalidad’ puede introducirse en el modelo.
Step: AIC=51218778
mult ~ edad + estudios + sexo + ccaa
trying - edad
# weights: 81 (52 variable)
initial value 42278556.674178
iter 10 value 35945474.571778
iter 20 value 35753655.218336
iter 30 value 35746290.418452
iter 40 value 35727534.838562
iter 50 value 34702895.674034
iter 60 value 33929732.046163
final value 33929063.291552
Ana Gema Galera Pozo
98
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
converged
trying - estudios
# weights: 93 (60 variable)
initial value 42278556.674178
iter 10 value 29635548.263924
iter 20 value 29225610.075684
iter 30 value 29221022.826507
iter 40 value 29211998.750386
iter 50 value 27818536.419263
iter 60 value 27545499.091710
iter 70 value 26464543.456461
iter 80 value 26460584.130221
final value 26460580.830452
converged
trying - sexo
# weights: 108 (70 variable)
initial value 42278556.674178
iter 10 value 27669742.175235
iter 20 value 27218285.838733
iter 30 value 27185818.219221
iter 40 value 27183251.967745
iter 50 value 27116918.691405
iter 60 value 26234609.306655
iter 70 value 26133815.861991
iter 80 value 25927085.027403
final value 25926316.880360
converged
trying - ccaa
# weights: 57 (36 variable)
initial value 42278556.674178
iter 10 value 29815915.004922
iter 20 value 29175357.420447
iter 30 value 29164272.279113
iter 40 value 25882939.710955
iter 50 value 25769150.238968
final value 25768316.466123
converged
trying + nacionalidad
# weights: 114 (74 variable)
initial value 42278556.674178
iter 10 value 30745679.745102
iter 20 value 29726788.510745
iter 30 value 29686927.599942
iter 40 value 29679802.284499
iter 50 value 29657907.583133
iter 60 value 28714883.061549
iter 70 value 27363597.593984
iter 80 value 25710324.056024
iter 90 value 25540249.394777
final value 25537543.893218
converged
Df
AIC
+ +nacionalidad 74 51075236
<none>
72 51218778
- ccaa
36 51536705
- sexo
70 51852774
- estudios
60 52921282
- edad
52 67858231
# weights: 114 (74 variable)
initial value 42278556.674178
iter 10 value 30745679.745102
iter 20 value 29726788.510745
iter 30 value 29686927.599942
iter 40 value 29679802.284499
iter 50 value 29657907.583133
iter 60 value 28714883.061549
iter 70 value 27363597.593984
iter 80 value 25710324.056024
iter 90 value 25540249.394777
Ana Gema Galera Pozo
99
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
final value 25537543.893218
converged
Finalmente ésta se incluye en el modelo.
Paso 6.
En este último, el programa se plantea si al incluir la nacionalidad en el modelo, algunas de las
otras cuatro variables puedan salir del modelo.
Step: AIC=51075236
mult ~ edad + estudios + sexo + ccaa + nacionalidad
trying - edad
# weights: 84 (54 variable)
initial value 42278556.674178
iter 10 value 35468856.713553
iter 20 value 35259925.809177
iter 30 value 35254279.480361
iter 40 value 35247129.s547672
iter 50 value 34404626.697318
iter 60 value 33604288.617595
final value 33600847.083872
converged
trying - estudios
# weights: 96 (62 variable)
initial value 42278556.674178
iter 10 value 28892128.717923
iter 20 value 28542334.699648
iter 30 value 28537714.988169
iter 40 value 28535613.611855
iter 50 value 27605961.632568
iter 60 value 27280243.004549
iter 70 value 26386801.192489
iter 80 value 26353703.616689
final value 26353691.008408
converged
trying - sexo
# weights: 111 (72 variable)
initial value 42278556.674178
iter 10 value 29067460.433715
iter 20 value 28402257.616714
iter 30 value 28377739.227632
iter 40 value 28372559.162353
iter 50 value 28239803.239146
iter 60 value 27286683.992434
iter 70 value 26869901.699968
iter 80 value 25878607.377389
iter 90 value 25855171.416960
final value 25855148.309406
converged
trying - ccaa
# weights: 60 (38 variable)
initial value 42278556.674178
iter 10 value 30928483.894671
iter 20 value 29921947.131486
iter 30 value 29885681.360952
iter 40 value 26977935.334514
iter 50 value 25717775.611715
final value 25703477.011024
converged
trying - nacionalidad
# weights: 111 (72 variable)
initial value 42278556.674178
iter 10 value 29651519.865707
iter 20 value 29018072.569999
iter 30 value 29005670.170625
Ana Gema Galera Pozo
100
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
iter 40 value 29002924.035306
iter 50 value 28959457.327236
iter 60 value 28302350.291112
iter 70 value 27138984.053357
iter 80 value 25650175.628419
iter 90 value 25609475.382242
final value 25609317.191320
converged
Df
AIC
<none>
74 51075236
- nacionalidad 72 51218778
- ccaa
38 51407030
- sexo
72 51710441
- estudios
62 52707506
- edad
54 67201802
Tal y como se observa en el resultado, ninguna variable es candidata a salir, por lo que las
cinco variables permanecen en el modelo.
Finalmente el modelo que se ha obtenido se compone de la constante, la edad, la variable ‘nivel
de estudios terminados’, el sexo, la Comunidad Autónoma de residencia y la nacionalidad.
> summary(modelom.step)
Call:
multinom(formula = mult ~ edad + sexo + nacionalidad + ccaa +
estudios, data = datos.tfm, weights = fe)
Coefficients:
(Intercept)
edad50
edad55
edad20
edad25
edad30
edad35
edad40
edad45
1
-2.459026 0.4150943 1.239018 1.575586 1.723815 1.781548 1.790705 1.932922 1.974095
2
2.630242 -1.9675900 -2.982726 -3.246612 -3.044731 -2.785130 -2.610874 -2.237125 -1.606809
edad60
edad65
sexo6 nacionalidad1
ccaa2
ccaa3
ccaa4
ccaa5
1 2.1890533 3.523677 -0.1560379
0.5157588 0.5194798 0.4039511 0.4386474 0.126470667
2 -0.1943315 4.475223 0.6612178
0.5450348 0.1705877 0.5169425 0.2614181 -0.008371586
ccaa6
ccaa7
ccaa8
ccaa9
ccaa10
ccaa11
ccaa12
ccaa13
ccaa14
1 0.5122471 0.5148050 0.23723523 0.61597891 0.29172163 0.1112688 0.4583702 0.5682242 0.4173326
2 0.5310990 0.3256409 -0.01230576 0.03669374 0.08200684 0.1693218 0.3374715 0.1525727 0.1575535
ccaa15
ccaa16
ccaa17
ccaa51
ccaa52 estudiosP1 estudiosP2 estudiosS1 estudiosSG
1 0.8197443 0.6907049 0.7260644 0.2376883 0.5774045 0.2879792 0.4915264 0.7753342
1.332046
2 0.4114134 0.5322278 0.2728772 0.3888650 0.7457501 -0.8944755 -1.2735185 -1.4426837 -0.858771
estudiosSP estudiosSU
1
1.135710
1.716766
2 -1.630806 -1.407705
Std. Errors:
(Intercept)
edad20
edad25
edad30
edad35
edad40
edad45
edad50
1 0.008195006 0.004821013 0.004713930 0.004684360 0.004672399 0.004680337 0.004684926 0.004729696
2 0.006368057 0.003101997 0.003355065 0.003439181 0.003332223 0.003265767 0.003212643 0.003225036
edad55
edad60
edad65
sexo6 nacionalidad1
ccaa2
ccaa3
1 0.004825888 0.005234824 0.01243645 0.0009981468
0.001447390 0.003239819 0.003691324
2 0.003272552 0.003706398 0.01157343 0.0012162229
0.001831109 0.003933725 0.004224810
ccaa4
ccaa5
ccaa7
ccaa8
ccaa9
ccaa10
ccaa11
ccaa6
1 0.003275156 0.002369169 0.004880351 0.002538548 0.002481937 0.001683524 0.001832152 0.003295747
2 0.003946823 0.002859147 0.005669892 0.002994743 0.003024284 0.002062879 0.002212154 0.003832543
ccaa12
ccaa13
ccaa14
ccaa15
ccaa16
ccaa17
ccaa51
ccaa52
1 0.002404494 0.001794960 0.002932135 0.004981067 0.002879131 0.006657383 0.01162028 0.01310335
2 0.002838301 0.002178941 0.003541506 0.005927629 0.003376032 0.008031917 0.01302295 0.01422721
estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP estudiosSU
1 0.007515148 0.006911362 0.006795287 0.006868476 0.006934084 0.006820038
2 0.006471668 0.005843633 0.005707751 0.005813195 0.006016948 0.005782576
Residual Deviance: 51075088
AIC: 51075236
Bondad del ajuste global.
Para estudiar la bondad del ajuste global del modelo se va a proceder a utilizar el test asintótico
de la chi-cuadro que es el único disponible para el caso de regresión multinomial.
Para ello vamos a calcular el valor X
2
que es el estadístico de chi-cuadrado de Pearson para
medir la bondad de ajuste y que se puede obtener con la siguiente expresión:
S
X =∑
2
s =1
q
(O s / q − E s / q ) 2
q =1
Es / q
∑
Ana Gema Galera Pozo
101
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Donde Os / q son las frecuencias observadas en cada combinación de valores de las variables
explicativas en la categoría s de la varaible respuesta, y E s / q son las frecuencias esperadas
bajo el modelo obtenido en esas mismas combinaciones de valores de las variables explicativas
para la categoría s.
También podemos calcular el estadístico G 2 mediante la siguiente expresión:
S
G 2 ( M ) = 2·∑
s =1
Q
∑O
q =1
s/q
 Os / q
ln
E
 s/q




Para obtener el número de frecuencias observadas y esperadas en cada combinación de las
variables explicativas, se crean las tablas de contingencia que nos darán las frecuencias de cada
una de las combinaciones de las variables explicativas, ya que el fichero de datos no tiene los
datos agrupados.
En el caso de las frecuencias observadas, construimos la siguiente sintaxis en R con la que
obtendremos una tabla con la columna “Freq” que ofrece el número de casos en cada una de
las categorías de la variable respuesta para cada combinación de las variables explicativas.
> fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+mult,
data=datos.tfm))
head(fobs)
sexo edad nacionalidad estudios ccaa mult Freq
1
1
16
0
AN
1
0
0
2
6
16
0
AN
1
0
0
3
1
20
0
AN
1
0
0
4
6
20
0
AN
1
0
0
5
1
25
0
AN
1
0
0
6
6
25
0
AN
1
0
0
> nrow(fobs)
[1] 17556
La tabla se compone de 17.556 registros. Los 5.852 primeros son las combinaciones de las
variables explicativas para la categoría de “parados” (Y=0) de la variable respuesta. Los
siguientes 5.852 registros son las combinaciones de las variables explicativas cuando Y=1
(ocupados), y los últimos 5.852 registros son las combinaciones de las variables explicativas
cuando Y=2 (inactivos).
Cuando las frecuencias de una combinación de variables explicativas es 0 para las tres
categorías de respuesta, entonces dicha combinación no se encuentra en la muestra por lo que
no se va a tomar para el cálculo de los estadísticos y para obtener los grados de libertad.
Sin embargo, puede ocurrir que alguna/as categoría/s de la variable no tenga/n observaciones
(valores de frecuencia igual a 0), pero para otra/s categoría/s de la variable respuesta sí
exista/n observaciones, por lo que dicha combinación sí debe tenerse en cuenta al estar
representada en la muestra.
Ana Gema Galera Pozo
102
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
A continuación vamos a obtener un vector con las frecuencias observadas para cada categoría
de la variable Y (fobs0, fobs1 y fobs2):
> for (i in 1:5852) fobs0[i]=fobs$Freq[i]
> head(fobs0)
[1] 0 0 0 0 0 0
> for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852]
> head(fobs1)
[1] 0 0 0 0 0 0
> for (i in 1:5852) fobs2[i]=fobs$Freq[i+5852+5852]
> head(fobs2)
[1] 0 0 1 1 0 2
Tal y como se muestra en los resultados, la primera combinación, la segunda y la quinta tienen
frecuencia 0 para las tres categorías de respuesta, por lo que éstas combinaciones no se
encuentra en la muestra y no se van a tomar para calcular el estadístico y los grados de
libertad.
Sin embargo, aunque existen frecuencias observadas con valor 0 en algunas categorías de la
tercera, cuarta y sexta combinación de las variables explicativas, dicha combinación sí debe
mantenerse ya que sí tiene valores de frecuencias observadas mayores que 0 para la categoría
de inactivos (codificada con 2) de la variable Y.
Una vez obtenidas las frecuencias observadas, se calculan las frecuencias esperadas bajo el
modelo que hemos obtenido. Éstas se calculan como la multiplicación entre el número total de
frecuencias totales observadas en la combinación de variables explicativas, y la probabilidad
predicha para cada una de las categorías de la variable respuesta en dicha combinación. Así,
para obtener las frecuencias esperadas se calcula, en primer lugar, las probabilidades predichas
para cada patrón de las variables explicativas con la siguiente sintaxis en R:
> ppred<-predict(modelom.step, fobs, type='prob')
> head (ppred)
1
2
3
4
5
6
0
0.06683311
0.03577148
0.32579144
0.20539188
0.50045866
0.38251536
1
0.005715446
0.002617152
0.042196000
0.022758754
0.147749261
0.096613893
2
0.9274514
0.9616114
0.6320126
0.7718494
0.3517921
0.5208707
Una vez obtenidas las frecuencias esperadas, se procede a calcular las frecuencias predichas
bajo el modelo.
> FT=0
> for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i]
> fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3)))
Ana Gema Galera Pozo
103
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> head(fprd)
1
2
3
4
5
6
0
0.0000000
0.0000000
0.3257914
0.2053919
0.0000000
0.7650307
1
0.00000000
0.00000000
0.04219600
0.02275875
0.00000000
0.19322779
2
0.0000000
0.0000000
0.6320126
0.7718494
0.0000000
1.0417415
Al igual que en el caso de las frecuencias observadas, vamos a obtener un vector con las
frecuencias predichas para cada categoría de la variable respuesta (fprd0, fprd1 y fprd2):
> fprd0<-fprd[,1]
> fprd1<-fprd[,2]
> fprd2<-fprd[,3]
Una vez obtenidos los vectores con las frecuencias esperadas y frecuencias observadas,
obtenemos el valor del estadístico
X 2.
> x0=0
> for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i]
> x0<-ifelse(is.na(x0),0,x0)
> sum(x0)
[1] 5575.107
> for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i]
> x1<-ifelse(is.na(x1),0,x1)
> sum(x1)
[1] 4985.839
> for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i]
> x2<-ifelse(is.na(x2),0,x2)
> sum(x2)
[1] 4911.632
Entonces el valor de X2 se obtiene como sigue
> X2.ind<-data.frame(x0,x1,x2)
> head(X2.ind)
1
2
3
4
5
6
x0
0.0000000
0.0000000
0.3257914
0.2053919
0.0000000
0.7650307
x1
0.00000000
0.00000000
0.04219600
0.02275875
0.00000000
0.19322779
x2
0.00000000
0.00000000
0.21425960
0.06743895
0.00000000
0.88146567
> X2<-sum(X2.ind)
> X2
[1] 15472.58
El número de grados de libertad se calcula como: (Q-nº de parámetros obtenidos con la
constante)x(nº de categorías-1). Q es el número de combinaciones de las variables explicativas
para los que existen datos muestrales en, al menos, una de las categorías de la variable
respuesta. Es decir, Q es el número de patrones de las variables explicativas del modelo que
están presentes en la muestra.
Ana Gema Galera Pozo
104
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Para obtener el número de combinaciones de las variables explicativas que sí aparecen en la
muestra realizamos la siguiente sintaxis en R:
> tabla<-xtabs(~sexo+edad+ccaa+nacionalidad+estudios, data=datos.tfm)
> tabla2<-data.frame(tabla)
> tabla2$Freq
Se obtienen 5.582
Contamos sólo aquellas combinaciones que están presentes en la muestra
> for (i in 1:5852) {if (tabla2$Freq[i]>0) contador=contador+1 else
contador=contador}
> contador
[1] 4279
Por tanto, existen 4.279 combinaciones de las variables explicativas. Q=4.279 y el número de
categorías de la variable respuesta es 3, por tanto los grados de libertad son:
> gl<-(4279-37)*(3-1)
> gl
[1] 8484
Y obtenemos el p-valor del contraste:
> p.valor=1-pchisq(X2,gl)
> p.valor
[1] 0
En segundo lugar obtenemos el valor del estadístico G
2
> g0=0
> g1=0
> g2=0
> for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i])))
> g0<-ifelse(is.na(g0),0,g0)
> sum(g0)
[1] 2154.553
> for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i])))
> g1<-ifelse(is.na(g1),0,g1)
> sum(g1)
[1] 1681.292
> for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i])))
> g2<-ifelse(is.na(g2),0,g2)
> sum(g2)
[1] 2701.805
> G2.ind<- data.frame(g0, g1, g2)
> G2<-2*sum(G2.ind)
> G2
[1] 13075.3
Ana Gema Galera Pozo
105
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> p.valor=1-pchisq(G2,8484)
> p.valor
[1] 0
Como el p-valor del contraste, en ambos caso, es menor que 0,05, entonces no podemos
asegurar que el modelo se ajuste bien de manera global.
Antes de calcular los estadísticos para los contrastes de bondad de ajuste, se explicó que para
algunas categorías de la variable respuesta Y, las frecuencias observadas eran 0 en las
combinaciones de las variables explicativas, es decir, existen ceros muestrales.
Ante esta situación, el estadístico de Pearson X2 se puede calcular a pesar de la existencia de
estos ceros muestrales, pero hay un problema en el cálculo de la desviación, G2. Si existen
valores de frecuencias observadas iguales a 0, entonces el valor de la deviance si usamos la
fórmula es igual a cero. En este caso estaríamos interpretando que el modelo se ajusta bien en
esa celda.
Para corregir este efecto podemos aplicar el método delta. Este método se aplica ante la
existencia de ceros muestrales y consiste en sumar 0,5 a todas las frecuencias observadas en
cada combinación de niveles de las variables explicativas.
Calculamos los nuevos vectores de frecuencias observadas sumando 0,5 a todas las celdas de
cada categoría de la variable respuesta en cada combinación de las variables explicativas,
incluidas aquellas con valor cero. Se contruye la sintraxís siguiente para que añada 0,5 en las
celdas de las Q combinaciones presentes en la muestra:
> for (i in 1:5852) {if (fobs0[i]==0) {if (fobs1[i]==0) {if
(fobs2[i]==0) (fobs0[i]=0) & (fobs1[i]=0) & (fobs2[i]=0) else
(fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) &
(fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) &
(fobs1[i]=fobs1[i]+0.5) & (fobs2[i]=fobs2[i]+0.5)} else
(fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) &
(fobs2[i]=fobs2[i]+0.5)}
> head(fobs0)
[1] 0.0 0.0 0.5 0.5 0.0 0.5
> head(fobs1)
[1] 0.0 0.0 0.5 0.5 0.0 0.5
> head(fobs2)
[1] 0.0 0.0 1.5 1.5 0.0 2.5
Tal y como se observa, en los niveles 3, 4 y 6 se ha sumado 0,5 a cada una de las categorías
de la variable respuesta.
En el caso, 1, 2 y 6, tal y como se explicó anteriormente, no serán tenidos en cuenta ya que
son combinaciones de las variables explicativas que no aparecen en la muestra.
El siguiente paso es calcular las frecuencias predichas a partir de las nuevas frecuencias
observadas.
> FT=0
Ana Gema Galera Pozo
106
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i]
> fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3)))
> head(fprd)
1
2
3
4
5
6
0
0.0000000
0.0000000
0.8144786
0.5134797
0.0000000
1.3388038
1
0.00000000
0.00000000
0.10549000
0.05689688
0.00000000
0.33814863
2
0.000000
0.000000
1.580031
1.929623
0.000000
1.823048
> fprd0<-fprd[,1]
> fprd1<-fprd[,2]
> fprd2<-fprd[,3]
Se obtienen los valores de los estadísticos G
2
> for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i])))
> g0<-ifelse(is.na(g0),0,g0)
> sum(g0)
[1] 2972.059
> for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i])))
> g1<-ifelse(is.na(g1),0,g1)
> sum(g1)
[1] 1103.489
> for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i])))
> g2<-ifelse(is.na(g2),0,g2)
> sum(g2)
[1] 2037.611
> G2_2.ind<-data.frame(g0,g1,g2)
> G_22<-2*sum(G2_2.ind)
> G2_2
[1] 12226.32
> p.valor=1-pchisq(G2_2,8484)
> p.valor
[1] 0
El estadístico
X 2 y su p-valor
> x0=0
> x1=0
> x2=0
> for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i]
> x0<-ifelse(is.na(x0),0,x0)
> sum(x0)
[1] 21303
> for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i]
> x1<-ifelse(is.na(x1),0,x1)
> sum(x1)
[1] 7101.021
> for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i]
Ana Gema Galera Pozo
107
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> x2<-ifelse(is.na(x2),0,x2)
> sum(x2)
[1] 4695.335
> X2_2.ind<-data.frame(x0,x1,x2)
> head(X2_2.ind)
x0
x1
1 0.0000000000 0.0000000
2 0.0000000000 0.0000000
3 0.1214234389 1.4753829
4 0.0003538647 3.4508106
5 0.0000000000 0.0000000
6 0.5255376232 0.0774685
x2
0.000000000
0.000000000
0.004053732
0.095654041
0.000000000
0.251372771
> X2_2<-sum(X2_2.ind)
> X2_2
[1] 33099.36
> p.valor=1-pchisq(X2_2,8484)
> p.valor
[1] 0
El p-valor en ambos estadísticos (X2 y G2), es menor que 0,05, por lo que tampoco podemos
asegurar que el modelo se ajuste bien de manera global.
Otra medida que podemos utilizar es la tabla de clasificaciones correctas para las tres
categorías, así podemos comprobar si el modelo discrimina bien a los ocupados, parados e
inactivos.
Tabla de clasificaciones correctas
Para obtener los valores de la TCC, calculamos las categorías predichas por el modelo obtenido,
y adjuntamos la variable de resultado a nuestro fichero de datos ‘datos.tfm’ con el nombre de
‘prd’.
> datos.tfm$prd<-predict(modelom.step, type='class')
> head(datos.tfm)
1
2
3
4
5
6
act_inac ccaa sexo edad nacionalidad estudios
fe mult prd
1
16
6
35
1
SU 435.54
1
1
1
16
1
30
1
S1 435.54
1
1
0
16
6
45
1
SU 309.65
2
1
1
16
1
50
1
SU 309.65
1
1
1
16
6
20
1
S1 309.65
0
2
1
16
1
35
1
SU 460.45
1
Usamos la columna con las categorías observados, ‘mult’ y la columna con las categorías
predichas ‘prd’.
> table(datos.tfm$mult, datos.tfm$prd)
0
1
0
1
1169 15642
894 51766
2
3326
5870
Ana Gema Galera Pozo
108
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
2
los factores
630 12362 52451
Para el caso de los inactivos, se han clasificado correctamente 52.451 individuos de la muestra,
de un total de 65.443, por tanto se han clasificado correctamente el 80% de los inactivos bajo
el modelo obtenido. En el caso de los ocupados, se han clasificado correctamente 51.766
individuos de un total de 58.530, que suponen un 88,4% del total de los ocupados. Pero, sin
embargo, en el caso de los parados sólo se han clasificado correctamente 1.169 individuos de
un total de 20.137, por tanto sólo un 6% de este colectivo se clasifica bien bajo el modelo
obtenido.
La tasa global de clasificación correcta para la muestra total es de un 73,13%.
> table(datos.tfm$mult)
0
1
2
20137 58530 65443
Si calculamos la tabla de clasificación usando las poderaciones para obtener la estimación de la
población total, el resultado para las clasificaciones correctas es:
> tabla.clasificacion<-xtabs(fe~datos.tfm$mult+prd, data=datos.tfm)
> tabla.clasificacion
prd
datos.tfm$mult
0
1
2
0
451252.7 4602510.0
879538.3
1
371456.5 15182642.5 1396497.1
2
228301.8 3322521.5 12048880.3
Se clasifican un 77,2% de los inactivos de manera correcta. Entre los ocupados se clasifican
correctamente casi el 90%, mientras que entre los parados el resultado es sólo de un 7,6% de
individuos clasificados correctamente. En total, el 72% de la población de 16 y más años se ha
clasificado en una categoría de manera correcta.
Estudio de los residuos
Para realizar una validación completa del modelo debemos estudiar los residuos de Pearson del
modelo.
Para ello vamos a hacer uso del vector ‘X2.ind’ y ‘X2_2.ind’ que utilizamos para calcular el
estadístico X2 de la prueba de bondad del ajuste global.
Estos vectores guardaban para cada combinación de valores de las variables explicativas, junto
con las categorías de la variable respuesta, el valor de de los residuos de Pearson al cuadrado.
Para obtener el valor de los residuos de Pearson para cada combinación de las variables
explicativas presente en la muestra, sólo tenemos que calcular la raíz cuadrada a los valores
del vector ‘X2.ind’.
> r.p<-sqrt(X2.ind)
Tal y como se explicó en la metodología, se consideran significativamente distintos de cero
aquellos residuos cuyo valor absoluto es mayor que 2.
Ana Gema Galera Pozo
109
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
> r.p.sig<-abs(r.p)>2
> table(r.p.sig)
r.p.sig
FALSE TRUE
16867
689
Se obtienen 689 residuos que se consideran significativamente distintos de 0. Se sabe que
había 4.279 grupos según las combinaciones de las variables explicativas presentes en la
muestra, y hay tres categorías de la respuesta discreta; entonces tenemos un total de 12.837
residuos.
Por tanto, los residuos significativamente distintos de 0 suponen un 5,4% del total de los
residuos.
Para calculamos los residuos de Pearson a partir del estadístico X2 que se obtuvo sumando 0,5
a las frecuencias observadas, se usará el vector vector ‘X2.ind’. Se tiene
> r.p2<-sqrt(X2_2.ind)
> r.p2.sig<-abs(r.p2)>2
> table(r.p2.sig)
r.p2.sig
FALSE TRUE
16501 1055
que los residuos significativamente distintos de 0 suponen un 8,2% del total.
En ambos casos el porcentaje de residuos de Pearson significativamente distintos de cero no es
muy alto, por lo que podría aceptarse que el modelo se ajusta bien de manera individual.
Contraste sobre los parámetros.
Para poder interpretar los parámetros del modelo es necesario verificar que los coeficientes
obtenidos para el modelo son significativamente distintos de 0.
La salida del modelo que hemos obtenido nos muestra los valores de los coeficientes y el error
estándar asociados a cada coeficiente, sin embargo, para contrastar si los parámetros del
modelo de regresión obtenido son nulos, necesitamos los p-valores de asociados al contraste de
Wald.
Como ya se describía en apartados anteriores, este contraste se basa en la normalidad
asintótica de los estimadores de máxima verosimilitud.
El estadístico de contraste puede obtenerse también como el cociente entre el coeficiente
obtenido y su error estándar. En este caso el estadístico de contraste seguirá una distribución
normal de media 0 y desviación típica 1.
Obtenemos en primer lugar los valores de los estadísticos con la siguiente sintaxis en R:
Ana Gema Galera Pozo
110
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
z <summary(modelom.step)$coefficients/summary(modelom.step)$standard.erro
rs
> z
1
2
1
2
1
2
1
2
(Intercept)
edad20
edad25
edad30
edad35
edad40
edad45
edad50
edad55
-300.0640
86.10104 262.8418 336.3503 368.9357 380.6452 382.2270 408.6778 409.0636
413.0368 -634.29781 -889.0219 -944.0074 -913.7235 -852.8256 -812.6872 -693.6745 -490.9957
edad60
edad65
sexo6 nacionalidad1
ccaa2
ccaa3
ccaa4
ccaa5
ccaa6
418.17135 283.3347 -156.3276
356.3371 160.34226 109.4326 133.93177 53.381868 104.96112
-52.43137 386.6808 543.6650
297.6528 43.36543 122.3587 66.23508 -2.928002 93.67004
ccaa7
ccaa8
ccaa9
ccaa10
ccaa11
ccaa12
ccaa13
ccaa14
ccaa15
ccaa16
ccaa16
202.7951 95.584701 365.88662 159.22347 33.76133 190.6306 316.5665 142.33066 164.57202 239.9005
108.7375 -4.068984 17.78763 37.07103 44.18001 118.8991 70.0215 44.48771 69.40606 157.6489
ccaa17
ccaa51
ccaa52 estudiosP1 estudiosP2 estudiosS1
estudiosS1 estudiosSG estudiosSP estudiosSU
109.06152 20.45460 44.06542
38.31984
71.11861
114.0988
193.9362
163.7866
251.7238
33.97411 29.85997 52.41718 -138.21406 -217.93266 -252.7587 -147.7279 -271.0355 -243.4392
Y obtenemos los p-valores con la función ‘pnorm’ para ambas colas, tanto la izquierda como la
derecha por tener valores negativos y positivos
> p_valor <- (1 - pnorm(abs(z), 0, 1))*2
> p_valor
(Intercept) edad20 edad25 edad30 edad35 edad40 edad45 edad50 edad55 edad60 edad65 sexo6
sexo6
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
nacionalidad1 ccaa2 ccaa3 ccaa4 ccaa5 ccaa6 ccaa7 ccaa8 ccaa9 ccaa10 ccaa11
ccaa11 ccaa12
1
0
0
0
0 0.000000000
0
0 0.000000e+00
0
0
0
0
2
0
0
0
0 0.003411481
0
0 4.721849e-05
0
0
0
0
ccaa13 ccaa14 ccaa15 ccaa16 ccaa17 ccaa51 ccaa52
ccaa52 estudiosP1 estudiosP2 estudiosS1 estudiosSG
1
0
0
0
0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
estudiosSP estudiosSU
estudiosSU
1
0
0
2
0
0
1
2
Tal y como se observa en la salida, no existe ningún coeficiente que tenga asociado un p-valor
mayor que 0,05. Por lo que a un nivel de significación del 5% todos los coeficientes son
significativamente distintos de cero.
Para la interpretación de los parámetros de cada categoría, se van a calcular los valores de las
exponenciales de los parámetros, así como los intervalos de confianza al 95%.
> beta<-summary(modelom.step)$coefficients
> beta
1
2
1
2
1
2
1
2
1
2
(Intercept)
edad20
edad25
edad30
edad35
edad40
edad45
edad50
(Intercept)
-2.459026 0.4150943 1.239018 1.575586 1.723815 1.781548 1.790705 1.932922
2.630242 -1.9675900 -2.982726 -3.246612 -3.044731 -2.785130 -2.610874 -2.237125
edad55
edad60
edad65 estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP
edad55
1.974095 2.1890533 3.523677 0.2879792 0.4915264 0.7753342
1.332046
1.135710
-1.606809 -0.1943315 4.475223 -0.8944755 -1.2735185 -1.4426837 -0.858771 -1.630806
estudiosSU
sexo6
ccaa2
ccaa3
ccaa4
ccaa5
ccaa6
ccaa7
1.716766 -0.1560379 0.5194798 0.4039511 0.4386474 0.126470667 0.5122471 0.5148050
-1.407705 0.6612178 0.1705877 0.5169425 0.2614181 -0.008371586 0.5310990 0.3256409
ccaa8
ccaa9
ccaa10
ccaa11
ccaa12
ccaa13
ccaa14
ccaa15
0.23723523 0.61597891 0.29172163 0.1112688 0.4583702 0.5682242 0.4173326 0.8197443
-0.01230576 0.03669374 0.08200684 0.1693218 0.3374715 0.1525727 0.1575535 0.4114134
ccaa16
ccaa17
ccaa51
ccaa52 nacionalidad1
0.6907049 0.7260644 0.2376883 0.5774045
0.5157588
0.5322278 0.2728772 0.3888650 0.7457501
0.5450348
Las exponenciales de los parámetros son
> exp(beta)
(Intercept)
edad20
edad25
edad30
edad35
edad40
edad45
edad50
edad25
1 0.08551818 1.5145135 3.45222141 4.83357351 5.60587253 5.93904035 5.9936782 6.909669
2 13.87712483 0.1397934 0.05065454 0.03890578 0.04760913 0.06172109 0.0734703 0.106765
edad55
edad60
edad65
edad65 estudiosP1 estudiosP2 estudiosS1 estudiosSG estudiosSP
1 7.2001037 8.9267584 33.90888
1.333730 1.6348098 2.1713176 3.7887888 3.1133831
Ana Gema Galera Pozo
111
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
2 0.2005264 0.8233849 87.81419
0.408822 0.2798453 0.2362928 0.4236825 0.1957717
estudiosSU
sexo6
ccaa2
ccaa3
ccaa4
ccaa5
ccaa6
ccaa7
1 5.5664971 0.8555268 1.681153 1.497731 1.550609 1.1348162 1.669037 1.673312
2 0.2447041 1.9371500 1.186002 1.676893 1.298771 0.9916634 1.700801 1.384918
ccaa8
ccaa9
ccaa10
ccaa11
ccaa12
ccaa13
ccaa14
ccaa15
ccaa16
ccaa12
1 1.2677393 1.851468 1.338730 1.117695 1.581494 1.765130 1.517907 2.269919 1.995121
2 0.9877696 1.037375 1.085463 1.184501 1.401400 1.164827 1.170643 1.508949 1.702721
ccaa17
ccaa51
ccaa52 nacionalidad1
1 2.066930 1.268314 1.781409
1.674909
2 1.313739 1.475305 2.108022
1.724668
> exp(confint(modelom.step))
En la siguiente Tabla 10 se presentan los valores de las exponenciales de los parámetros para
la categoría de inactivos y ocupados frente a la categoría de parados, así como los intervalos de
confianza al 95% para dichas exponenciales de los parámetros:
INACTIVOS
OCUPADOS
(Intercept)
exp(B)
0,09
2,5 %
97,5 %
exp(B)
2,5 %
0,08
0,09
13,88
13,70
97,5 %
14,05
edad20
1,51
1,50
1,53
0,14
0,14
0,14
edad25
3,45
3,42
3,48
0,05
0,05
0,05
edad30
4,83
4,79
4,88
0,04
0,04
0,04
edad35
5,61
5,55
5,66
0,05
0,05
0,05
edad40
5,94
5,88
5,99
0,06
0,06
0,06
edad45
5,99
5,94
6,05
0,07
0,07
0,07
edad50
6,91
6,85
6,97
0,11
0,11
0,11
edad55
7,20
7,13
7,27
0,20
0,20
0,20
edad60
8,93
8,84
9,02
0,82
0,82
0,83
edad65
33,91
33,09
34,75
87,81
85,84
89,83
Primaria incom
Primaria
1ª Secundaria
1,33
1,63
2,17
1,31
1,61
2,14
1,35
1,66
2,20
0,41
0,28
0,24
0,40
0,28
0,23
0,41
0,28
0,24
2ª Secundaria
3,79
3,74
3,84
0,42
0,42
0,43
O. Profesional
3,11
3,07
3,16
0,20
0,19
0,20
Superiores
5,57
5,49
5,64
0,24
0,24
0,25
Mujer
0,86
0,85
0,86
1,94
1,93
1,94
Aragón
1,68
1,67
1,69
1,19
1,18
1,20
Asturias
1,50
1,49
1,51
1,68
1,66
1,69
Baleares
1,55
1,54
1,56
1,30
1,29
1,31
Canarias
1,13
1,13
1,14
0,99
0,99
1,00
Cantabría
1,67
1,65
1,69
1,70
1,68
1,72
Castilla-León
1,67
1,67
1,68
1,38
1,38
1,39
Cast Mancha
1,27
1,26
1,27
0,99
0,98
0,99
Cataluña
1,85
1,85
1,86
1,04
1,03
1,04
C.Valenciana
1,34
1,33
1,34
1,09
1,08
1,09
Extremadura
1,12
1,11
1,12
1,18
1,18
1,19
Galicia
1,58
1,57
1,59
1,40
1,39
1,41
Ana Gema Galera Pozo
112
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
INACTIVOS
OCUPADOS
exp(B)
2,5 %
los factores
97,5 %
exp(B)
2,5 %
97,5 %
Madrid
1,77
1,76
1,77
1,16
1,16
1,17
Murcia
1,52
1,51
1,53
1,17
1,16
1,18
Navarra
2,27
2,25
2,29
1,51
1,49
1,53
País Vasco
2,00
1,98
2,01
1,70
1,69
1,71
Rioja
2,07
2,04
2,09
1,31
1,29
1,33
Ceuta
1,27
1,24
1,30
1,48
1,44
1,51
Melilla
1,78
1,74
1,83
2,11
2,05
2,17
Español
1,67
1,67
1,68
1,72
1,72
1,73
Tabla 10: Estimación de las exponenciales de los parámetros del modelo e intervalos
de confianza.
Ventajas de estar inactivos frente a estar parados
La ventaja que tiene una persona en España de estar inactiva frente a estar parada se
multiplica por 1,72 para un español frente a un extranjero.
En el caso del sexo, las mujeres frente a los hombres, multiplican su ventaja de estar inactivas
frente a estar paradas entre 1,93 y 1,94.
En el caso de la edad, la ventaja de estar inactivos que tienes los individuos de 16 y más años
en España frente a estar parados, es menor en casi todas las edades respecto al grupo más
joven. La excepción a este caso es para los mayores de 65 años cuya ventaja de estar inactivos
frente a la de estar parados, se multiplica casi por 88 frente a lo que tienen entre 16 y más
años.
En el caso del nivel de estudios, los que estudiaron orientación profesionales tienen una ventaja
de estar inactivos frente a estar parados que se divide por 5 frente a los que no tienen
estudios. Los que tiene estudios superiores y estudios de primera etapa, su ventaja se divide
por 4 frente a los analfabetos. En el caso de los que tienen primaria incompleta y segunda
etapa de secundaria, su ventaja de estar inactivos frente a estar parados se divide
aproximadamente por 2 con respecto a los analfabetos.
En el caso de las Comunidades Autónomas, en todos los casos (a excepción de Canarias y
Castilla-La Mancha que presentan ventajas muy parecidas a la andaluza), la ventaja que tienen
los habitantes de estar inactivos frente a estar parados es mayor que para los habitantes de
Andalucía. En el caso de un individuo que vive en Galicia y Castilla-León, éste tiene una ventaja
que se multiplica por 1,4 frente a los andaluces. Para la Comunidades de Cantabria, Asturias y
Ana Gema Galera Pozo
113
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
País Vasco, la ventaja de estar inactivo frente a la de estar parado llega a multiplicarse casi por
1,7 respecto a Andalucía, y por algo más de 2 en el caso de Melilla. Para Madrid, Aragón,
Extremadura y Murcia, la ventaja de que una persona sea inactiva frente a que esté parado se
multiplica por 1,17 ó 1,18 frente a los andaluces.
Ventajas de estar ocupados frente a estar parados
La ventaja que tiene una persona de estar ocupada frente a estar parada se multiplica por 1,7
aproximadamente, para una persona con nacionalidad española frente a un extranjero.
En el caso de las mujeres, éstas dividen su ventaja de estar ocupadas frente a estar paradas
por 1,18 respecto a los hombres.
Las personas de mayores edades, 65 o más, multiplican la ventaja de estar ocupados frente a
estar parados por 33, respecto a los que tienen entre 16 y 19 años. Todas las edades tienen
ventajas más altas de estar ocupados frente a estar parados, respecto a los más jóvenes. En el
caso de los que tienen entre 20 y 24, multiplican la ventaja por 1,5; por 3 los que tienen de 25
a 29 años; entre 30 y 49 años la ventaja se multiplica aproximadamente por 5 ó 6; de 50 a 60
años por 7; y los de 60 a 65 años por algo más de 8.
Los niveles de estudios más altos también influyen de manera positiva para estar ocupado. Los
que tienen estudios superiores multiplican por algo más de 5 la ventaja de estar ocupados
frente a estar desempleados, respecto a los analfabetos. Los que tienen orientación profesional
multiplican la ventaja de estar ocupados por 3,1; y por 3,8 los que tiene secundaria de segunda
etapa, respecto a los que no tienen estudios. Los de estudios de primaria incompleta sólo
multiplican por 1,3 la ventaja de estar ocupados frente a los que son analfabetos; y los que
tienen estudios de primaria terminados, multiplican por algo más de 1,6 su ventaja de estar
ocupados respecto a los que no tienen ningún estudio.
Entre las Comunidades Autónomas, Navarra, La Rioja y País Vasco son las que presentan
mayores ventajas para que sus habitantes puedan desempeñar un trabajo frente a estar
buscándolo. Éstos multiplican su ventaja por 2, respecto a los que viven en Andalucía. Los
habitantes de las demás Comunidades Autónomas, sin ninguna excepción, presentan mayores
ventajas para tener un puesto de trabajo frente a estar parados, con respecto a los andaluces.
En Cataluña la ventaja se multiplica por 1,85; en Madrid y Melilla por 1,75; en Catilla-León,
Cantabria y Aragón se multiplica por 1,7 la ventaja de estar ocupado frente a estar parado con
respecto a Andalucía. Las Comunidades Autónomas con ventajas más cercanas a Andalucía son
Canarias y Extremadura, cuya ventaja de estar empleado frente a estar parado, se multiplica
por algo más de 1,1 respecto a la Comunidad de referencia.
Ana Gema Galera Pozo
114
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Ana Gema Galera Pozo
115
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
6. CONCLUSIONES
En este trabajo se ha estudiado la capacidad predictiva que tienen ciertos factores y variables
sociodemográficas sobre la relación con la actividad económica que tiene una persona de 16 y
más años en España, haciendo uso de los datos de la Encuesta de Población Activa (EPA) que
realiza el INE.
El objetivo de esta trabajo estaba basado en saber que factores pueden determinar que una
persona se encuentre en un cierto colectivo en relación con la actividad económica.
En primer lugar se ha estudiado que factores influyen en el hecho de que una persona de 16 y
más años se clasifique como activa, o que por el contrario, se encuentre en el colectivo de
inactivos. Los resultados que se han obtenido, a través de la regresión logística binaria,
muestran que las variables edad, sexo, nacionalidad, nivel de estudios finalizados y la
Comunidad Autónoma de residencia, influyen en el hecho de participar o no en el mercado de
trabajo. Aunque los contrastes de bondad de ajuste global no permitían afirmar que el ajuste de
los valores pronosticados por el modelo fueran buenos, el ajuste individual es bastante
adecuado, así como la calidad del mismo, y además, el modelo tiene una alta capacidad
predictiva y discrimina muy bien a las personas con edad de trabajar entre el colectivo de
activos e inactivos.
En concreto, hasta los 45 años aproximadamente, la ventaja de que una persona sea activa
aumenta conforme aumenta la edad. El grupo de personas con 65 y más años presentan la
mayor ventaja de estar inactivos.
La ventaja que tiene un individuo para estar activo, frente a estar inactivo, también aumenta si
los niveles de estudios son superiores, a mayor nivel de estudios mayor es la ventaja de que
una persona en España decida ser activa.
En cuanto al sexo y la nacionalidad, los extranjeros y los hombres presentan mayor ventaja
para que una persona esté activa frente a su colectivo opuesto.
La Comunidad Autónoma de residencia, sin embargo, presenta variaciones más parecidas.
Destaca Cataluña que presenta la mayor ventaja de que una persona de 16 y más años esté
activa frente a que esté inactiva, y Asturias que es la Comunidad que presenta la mayor ventaja
en que las personas con edad de trabajar estén inactivas.
Teniendo en cuenta estos resultados podemos concluir que los factores sociodemográficos
pueden influir de manera clara para que una persona se encuentre en un colectivo u otro, en
un porcentaje bastante alto de la población.
En el segundo estudio que se ha realizado, mediante regresión multinomial, el modelo que se
ha obtenido consideraba que los factores sociodemográficos influyen en que una persona en
España de 16 o más años esté ocupada, parada o inactiva.
Ana Gema Galera Pozo
116
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
A grandes rasgos, a mayor nivel de estudios una persona tiene mayor ventaja de estar ocupado
frente a estar parado. Los hombres y los españoles presentan mayores ventajas para estar
ocupados frente a las mujeres y los extranjeros respectivamente.
Las personas que viven en las Comunidades del norte (Navarra, País Vasco y La Rioja),
presentan mayores ventajas para que estén ocupados, frente a los andaluces y otras
comunidades situadas más al sur. A mayor edad, también se observa que la ventaja de estar
ocupado frente a estar parado, es mayor.
Sin embargo, los resultados obtenidos con la regresión multinomial deben tomarse con cautela.
La bondad del ajuste global del modelo no es buena con ninguno de los test usados, y a pesar
de que la tasa de clasificación correcta es alta y encasilla globalmente bien a los individuos, así
como al colectivo de ocupados e inactivos que también tienen altas tasas de clasificación
correcta bajo el modelo obtenido; los parados, sin embargo, tienen una tasa de clasificación
muy baja, apenas llega al 8%, y son infrarrepresentados a través del modelo.
Por ello es necesario concluir y destacar que las variables sociodemográficas no son suficientes
para describir el hecho de que una persona se clasifique como ocupada, parada o inactiva. Se
hace neceario investigar y estudiar variables que midan otros apectos relacionados con el
mercado de trabajo, u otras influencias externas, que no se encuentran disponibles en esta
Encuesta y que pueden influir de manera más directa en que las personas estén en alguno de
los tres colectivos, especialmente en el caso de los parados.
Ana Gema Galera Pozo
117
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
7. BIBLIOGRAFÍA
Abascal Fernández, E., García Lautre, I. y Landaluce Calvo, M.I. (2006). Trayectorias
de las Comunidades Autónomas según sus tasas de paro por categorías de edad. Un análisis de
tablas tridimensionales. Estadísticas Españolas. Vol. 48, núm. 163, págs. 525 a 550.
Aguilera del Pino, A.M. (2006). Modelización de tablas de contingencia multidimensionales.
(Colección Cuadernos de Estadística, 33). La Muralla.
Aja, E., Arango, J. Y Oliver Alonso, J. (2008). La inmigración en la encrucijada. Anuario de
la inmigración en España, edición 2008. Fundación CIDOB, Barcelona.
Baquela, E., and A. Redchuk, (2013). Optimización matemática con R. Volumen I.
Introducción al modelado y resolución de problemas. Bubok Publishing S.L.
Benítez Rochel, J.J. y Villena Peña, J.E. (2013). La segmentación del mercado de trabajo
en España: Efecto de la actual crisis económica. Propuestas de política económica ante los
desafíos actuales. Editores: Collado Villalba, Madrid. Delta Publicaciones 2013.
Butler, J. S. (2000). Efficiency results of MLE and GMM estimation with sampling weights.
Econometrica. Vol 96, págs. 25 a 37.
Cook, R. D., and S. Weisberg (1982). Residuals and Influence in Regression. New York:
Chapman and Hall.
Cosslett, S. R. (1981). Maximum likelihood estimator for choice-based samples. Econometrica.
Vol 49, núm 5, págs. 1289 a 1316.
Crawley, M. J. (2007): The R Book. WILEY.
Cuadrado, Pilar; Hernández de Cos, Pedro e Izquierdo, Mario (2010). La evolución del
empleo y del paro en 2009 según la EPA. Madrid, Banco de España. Boletín Económico
02/2010, págs. 32 a 43.
Doeringer, Peter B. y Piore, Michael J. (1971). Internal Labor Markets and Manpower
Analysis. Lexington (MA), Heath and Company.
Ana Gema Galera Pozo
118
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Fagerland, M.W., Hosmer, D.W. y Bofin, A.M. (2008). Multinomial goodness-of-fit tests for
logistic regression models. Statistics in Medicine, 2008 Sep 20. Vol 27(21), págs 4238 a 4253.
Gálvez Muñoz y Rodriguez Modroño (2011). La desigualdad de género en las crisis
económicas. Investigaciones feministas. Vol 2, págs. 113 a 132.
Hanley J.A., McNeil B.J. (1982). The meaning and use of the area under a receiver operating
characteristic (ROC) curve. Radiology. Vol 143, págs. 29 a 36.
Hanley J.A., McNeil B.J. (1983). A method of comparing the areas under receiver operating
characteristic curves derived from the same cases. Radiology. Vol 148, págs. 839 a 43.
Hosmer D.W. y Lemeshow S. (2000). Applied logistic regression. Second edition. John Wiley
and Sons, New York.
Lumley, T.. (2010). Complex Surveys: A Guide to Analysis Using R. Wiley Series in Survey
Methodology.
Manski, C. F. y Lerman, S. R. (1977). The estimation of choice probabilities from choice
based samples. Econometrics. Vol 45, núm 8, págs. 1977 a 1988.
McFadden, J (1973). Conditional logit analysis of qualitative choice behaviour. Frontiers of
Econometrics. Zarembra, P. (ed.). New York: Academic Press. Págs. 105 a 142.
OCDE (2013). Panorama de la Educación. Indicadores de la OCDE 2013. Informe español.
Ministerio de Educación, Cultura y Deporte. Madrid.
Oliver Alonso, J. (2007). Inmigración y mercado de trabajo en 2006: razones de la
acentuación del choque inmigratorio. En E. Aja Fernández y J.Arango (eds). La inmigración en
España en 2006. Anuario de Inmigración y políticas de inmigración, págs. 44 a 67.
Pando Fernández V, San Martín Fernández R. (2004). Regresión logística multinomial.
Cuadernos de la Sociedad Española de Ciencias Forestales. Núm 18, pp 323-327.
Piore, M. (1983). Notas para una teoría de la estratificación del mercado de trabajo. L.
Toharia. El mercado de trabajo: teorías y aplicaciones. Madrid, Alianza Editorial.
Simpson, E. H. (1951). The Interpretation of Interaction in Contingency Tables. Royal
Statistical Society, Series B. Vol 13, págs 238 a 241.
Ana Gema Galera Pozo
119
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
Teodoro García, Carmen Montero, Vanessa Ruíz, Maura Vásquez, Willin Álvarez.
(2008). Aplicación de la regresión logística multinomial en la detección de factores económicos
que influyen la productividad de los sectores industriales. Revista INGENIERÍA UC, diciembre
2008. Vol. 15, núm. 3, págs. 19 a 24.
Thompson, L. A. (2007). S-PLUS (and R) Manual to Acccompany Agresti’s Categorical Data
Analysis. 2nd edition.
Ana Gema Galera Pozo
120
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
8. ANEXOS
8.1.
Sintaxis en SPSS para abrir los microdatos de la EPA
DATA LIST FILE='C:\Users\Mikkis\Desktop\EPA_1t14.txt'
/CICLO 1-3
CCAA 4-5
PROV 6-7
NVIVI 8-12
NIVEL 13-13
NPERS 14-15
EDAD5 16-17
RELLPP1 18-18
SEXO1 19-19
NCONY 20-21
NPADRE 22-23
NMADRE 24-25
RELLMILI 26-26
ECIV1 27-27
PRONA1 28-29
REGNA1 30-32
NAC1 33-33
EXREGNA1 34-36
ANORE1 37-38
NFORMA 39-40 (A)
RELLB 41-42
EDADEST 43-45
CURSR 46-46
NCURSR 47-48
CURSNR 49-49
NCURNR 50-51
HCURNR 52-54
RELLB1 55-56
TRAREM 57-57
AYUDFA 58-58
AUSENT 59-59
RZNOTB 60-61
VINCUL 62-63
NUEVEM 64-64
OCUP1 65-65
ACT 66-66
SITU 67-68
SP 69-69
DUCON1 70-70
DUCON2 71-71
DUCON3 72-73
TCONTM 74-75
TCONTD 76-77
DREN 78-80
DCOM 81-83
PROEST 84-85
REGEST 86-88
PARCO 89-89
PARCO2 90-91
HORASP 92-95
HORASH 96-99
HORASE 100-103
EXTRA 104-104
Ana Gema Galera Pozo
121
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
EXTPAG 105-108
EXTNPG 109-112
RZNDISH 126-127
HORDES 128-129
BUSOTR 130-130
BUSCA 131-131
DESEA 132-132
FOBACT 133-133
NBUSCA 134-135
ASALA 136-136
EMBUS 137-137
ITBU 138-139
DISP 140-140
RZNDIS 141-141
EMPANT 142-142
DTANT 143-145
OCUPA 146-146
ACTA 147-147
SITUA 148-149
OFEMP 150-150
SIDI1 151-152
SIDI2 153-154
SIDI3 155-156
SIDAC1 157-157
SIDAC2 158-158
MUN1 159-159
PRORE1 160-161
REPAIRE1 162-164
TRAANT 165-165
AOI 166-167
CSE 168-169
FACTOREL 170-176 (F,2).
EXECUTE
Ana Gema Galera Pozo
122
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
8.2. Función ‘svydesign’ y ‘svyglm’ de R en el paquete (survey)
svydesign(ids, probs=NULL, strata = NULL, variables = NULL, weights=NULL, data
= NULL, ...)
Argumentos
Ids
Fórmula o tramo de datos que especifica los identificadores
Probs
Fórmula o vector especificando las porbabilidades de los datos de muestreo
Strata
Formula o vector que especifica los estratos, si se usa NULL no ha y estratos
variables Formula o tramo de datos especificando las variables medidas en la encuesta
Weights Formula o vector que tiene los pesos como alternativa a las probabilidades
Data
Fichero de datos
...
Otros
svyglm(formula, design, subset=NULL, ...)
Argumentos
Fórmula Fórmula del modelo
Diseño
Diseño de la encuesta formado con svydesign. Debe contener todas las variables de
la fórmula
Subset
Expresión para seleccionar una subpoblación
...
Otros argumentos
objeto
Un objeto de svyglm
df.resid Opcional. Grados de libertad para pruebas de Wald.
newdata nuevos datos para la predicción
total
tamaño de la población para predicciones de población
Ana Gema Galera Pozo
123
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
8.3. Función ‘multinom’ de R en el paquete (nnet)
multinom(formula, data, weights, subset, ...)
Argumentos
formula Fórmula del modelo
data
Fichero de datos
weights Es un argument opcional y es para añadir ponderaciones o pesos a los casos
subset Subconjunto de datos
...
Otros
Ana Gema Galera Pozo
124
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
8.4. Sintaxis en R para la regresión binomial
##CARGAR LOS DATOS Y CONSTRUIR EL DATA.FRAME CON LAS VARIABLES QUE SE
VAN A UTILIZAR#
library(foreign)
datos
<-
read.spss("C:/Users/Mikkis/Desktop/MASTER
ESTADISTICA/TRABAJO
FIN
DE
MASTER/EPA1T2014_1.sav", use.value.labels = TRUE)
act_inac<-datos$ACT_INAC
sexo<-datos$SEXO1
edad<-datos$EDAD5
estudios<-datos$NFORMA
ccaa<-datos$CCAA
fe<-datos$FACTOREL
nacionalidad<-datos$NACIONALIDAD
mult<-datos$MULT
datos.tfm <- data.frame(act_inac, ccaa, sexo, edad, nacionalidad, estudios, fe, mult)
datos.tfm$act_inac<- factor(datos.tfm$act_inac)
datos.tfm$nacionalidad <- factor(datos.tfm$nacionalidad)
datos.tfm$estudios <- factor(datos.tfm$estudios)
datos.tfm$sexo <- factor(datos.tfm$sexo)
datos.tfm$ccaa <- factor(datos.tfm$ccaa)
datos.tfm$edad <- factor(datos.tfm$edad)
##USAR EL MÉTODO PARCIAL CON LAS VARIABLES CATEGÓRICAS PARA CONSTUIR
LAS VARIABLES DUMMIES #
contrasts(datos.tfm$sexo)
contrasts(datos.tfm$nacionalidad)
contrasts(datos.tfm$estudios)
contrasts(datos.tfm$edad)
contrasts(datos.tfm$ccaa)
##CONSTRUIR EL DISEÑO DE LOS DATOS #
library(survey)
datos.tfm.pon <- svydesign(id=~1,weights=~fe,data=datos.tfm)
##PROCESO STEPWISE PARA SELECCIONAL EL MODELO MÁS ADECUADO #
##Paso 0 #
modelo.0<- svyglm(act_inac~1,family=binomial,data= datos.tfm, design=datos.tfm.pon)
Ana Gema Galera Pozo
125
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
##Paso 1 #
modelo.edad<-svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon)
modelo.edad.1<-svyglm(act_inac~edad+sexo,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.2<-svyglm(act_inac~edad+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.3<-svyglm(act_inac~edad+estudios,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.4<-svyglm(act_inac~edad+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.2<-svyglm(act_inac~nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.3<- svyglm(act_inac~ccaa,family=binomial,data= datos.tfm, design=datos.tfm.pon)
modelo.4<-svyglm(act_inac~estudios,family=binomial,data= datos.tfm, design=datos.tfm.pon)
modelo.5<- svyglm(act_inac~edad,family=binomial,data= datos.tfm, design=datos.tfm.pon)
anova(modelo.0,modelo.1)
anova(modelo.0,modelo.2)
anova(modelo.0,modelo.3)
anova(modelo.0,modelo.4)
anova(modelo.0,modelo.5)
modelo.1<- svyglm(act_inac~sexo,family=binomial,data= datos.tfm, design=datos.tfm.pon)
##Paso 2#
modelo.edad<-svyglm(act_inac~edad,family=binomial,data=datos.tfm, design=datos.tfm.pon)
modelo.edad.1<-svyglm(act_inac~edad+sexo,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.2<-svyglm(act_inac~edad+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.3<-svyglm(act_inac~edad+estudios,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.4<-svyglm(act_inac~edad+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
anova(modelo.edad, modelo.edad.1)
anova(modelo.edad, modelo.edad.2)
anova(modelo.edad, modelo.edad.3)
anova(modelo.edad, modelo.edad.4)
anova(modelo.estudios, modelo.estudios.edad)
Ana Gema Galera Pozo
126
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
modelo.estudios<-svyglm(act_inac~estudios,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.estudios.edad<-svyglm(act_inac~estudios+edad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
##Paso 3#
modelo.edad.estudios.1<svyglm(act_inac~edad+estudios+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.estudios.2<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
modelo.edad.estudios.3<-svyglm(act_inac~edad+estudios+sexo,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
anova(modelo.edad.estudios, modelo.edad.estudios.1)
anova(modelo.edad.estudios, modelo.edad.estudios.2)
anova(modelo.edad.estudios, modelo.edad.estudios.3)
modelo.edad.estudios.sexo<-svyglm(act_inac~edad+estudios+sexo,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
modelo.estudios.sexo<-svyglm(act_inac~estudios+sexo,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.sexo.edad<-svyglm(act_inac~sexo+edad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
anova(modelo.edad.estudios.sexo, modelo.estudios.sexo)
anova(modelo.sexo.estudios.edad, modelo.sexo.edad)
##Paso 4#
modelo.edad.estudios.sexo.1<svyglm(act_inac~edad+estudios+sexo+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.edad.estudios.sexo.2<svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.1)
anova(modelo.edad.estudios.sexo, modelo.edad.estudios.sexo.2)
modelo.1<-svyglm(act_inac~estudios+sexo+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
Ana Gema Galera Pozo
127
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
modelo.2<-svyglm(act_inac~edad+sexo+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.3<-svyglm(act_inac~edad+estudios+ccaa,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
anova(modelo.edad.estudios.sexo.ccaa, modelo.1)
anova(modelo.edad.estudios.sexo.ccaa, modelo.2)
anova(modelo.edad.estudios.sexo.ccaa, modelo.3)
##Paso 5#
anova(modelo.edad.estudios.sexo.ccaa, modelo.edad.estudios.sexo.ccaa.nacionalidad)
modelo.svy<svyglm(act_inac~edad+estudios+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.1<svyglm(act_inac~estudios+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.2<-svyglm(act_inac~edad+sexo+ccaa+nacionalidad,family=binomial,data=datos.tfm,
design=datos.tfm.pon)
modelo.3<-svyglm(act_inac~edad+estudios+ccaa+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
modelo.4<-svyglm(act_inac~edad+estudios+sexo+nacionalidad,family=binomial,data=
datos.tfm, design=datos.tfm.pon)
anova(modelo.total, modelo.1)
anova(modelo.total, modelo.2)
anova(modelo.total, modelo.3)
anova(modelo.total, modelo.4)
##BONDAD DE AJUSTE#
##Estadístico H-L#
hosmerlem<-function(y,
yhat,
g=10)
{cutyhat1
=
cut(yhat,breaks
=quantile(yhat,
probs=seq(0,1, 1/g)), include.lowest=TRUE)
obs = xtabs(cbind(1 - y, y) ~ cutyhat1)
expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat1)
chisq.C = sum((obs - expect)^2/expect)
P.C = 1 - pchisq(chisq.C, g - 2)
cutyhat2 = cut(yhat,breaks =g, include.lowest=TRUE)
Ana Gema Galera Pozo
128
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
obs = xtabs(cbind(1 - y, y) ~ cutyhat2)
expect = xtabs(cbind(1 - yhat, yhat) ~ cutyhat2)
chisq.H = sum((obs - expect)^2/expect)
P.H = 1 - pchisq(chisq.H, g - 2)
res <- data.frame(c(chisq.C,P.C),c(chisq.H,P.H))
colnames(res)<-c("Hosmer-Lemeshow C statistic","HosmerLemeshow H statistic")
rownames(res)<- c("X-squared","p.value")
return(res)
}
hosmerlem(y = datos.tfm$act_inac, yhat = fitted.values(modelo.svy))
##Estadístico X2#
fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+act_inac,
data=datos.tfm))
head(fobs)
fobs0=0
for (i in 1:5852) fobs0[i]=fobs$Freq[i]
fobs1=0
for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852]
ppred<-predict(modelo.svy, newdata=fobs, type='response')
head(ppred)
for (i in 1:5852) ppred0[i]=1-ppred[i]
for (i in 1:5852) ppred1[i]=ppred[i]
for (i in 1:5852) FT[i]=fobs0[i]+fobs1[i]
for (i in 1:5852) fpred0[i]=FT[i]*ppred0[i]
for (i in 1:5852) fpred1[i]=FT[i]*ppred1[i]
head(fpred0)
for (i in 1:5852) x0[i]=(fobs0[i]-fpred0[i])^2/fpred0[i]
a<-ifelse(is.na(x0),0,x0)
sum(a)
for (i in 1:5852) x1[i]=(fobs1[i]-fpred1[i])^2/fpred1[i]
b<-ifelse(is.na(x1),0,x1)
sum(b)
X2.ind<-data.frame(a,b)
X2<-sum(X2.ind)
X2
Ana Gema Galera Pozo
129
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
##Grados de Libertad#
contador=0
for (i in 1:5852) {if (FT[i]0) contador=contador+1 else contador=contador}
contador
gl<-4279-37
gl
p.valor=1-pchisq(X2,gl)
p.valor
##Estadístico G2#
for (i in 1:5852) x1[i]=fobs1[i]*(log(fobs1[i]/fpred1[i]))
for (i in 1:5852) x0[i]=fobs0[i]*(log(fobs0[i]/fpred0[i]))
a<-ifelse(is.na(x0),0,x0)
sum(a)
b<-ifelse(is.na(x1),0,x1)
sum(b)
G2<-2*(sum(a)+sum(b))
G2
p.valor=1-pchisq(G2,gl)
p.valor
##TABLA DE CLASIFICACIONES#
##Para la muestra#
table(datos.tfm$act_inac)
prediccion <- ifelse(fitted.values(modelo.svy) = 0.5, 1,0)
table(prediccion)
tabla.clasificacion<-table(datos.tfm$act_inac, prediccion)
tabla.clasificacion
##Para la Población#
ob<-xtabs(fe~act_inac)
prediccion <- ifelse(fitted.values(modelo.total) = 0.5, 1,0)
pred<-xtabs(fe~prediccion)
pred
tabla.clasificacion<-xtabs(fe~datos.tfm$act_inac+prediccion)
tabla.clasificacion
##CURVA ROCR#
library(ROCR)
pred <- prediction(fitted.values(modelo.svy), datos.tfm$act_inac)
p1 <- performance(pred, measure = "acc")
(posicion.max <- sapply([email protected], which.max))
Ana Gema Galera Pozo
130
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
(cutpoint <- sapply([email protected], "[", posicion.max))
prediccion <- ifelse(fitted.values(modelo.svy) = 0.5704263, 1,0)
table(prediccion)
tabla.clasificacion<-table(datos.tfm$act_inac, prediccion)
tabla.clasificacion
AUC <- performance(pred, "auc")
[email protected]
[email protected]
p2 <- performance(pred, "tpr", "fpr")
plot(p2, colorize = TRUE)
abline(a = 0, b = 1)
text(0.4, 0.6, paste([email protected], "\n", round(unlist([email protected]), 3)), cex = 0.7)
##R2 de Cox & Snell#
R2cs<-1-exp((vf-v0)/144110)
##R2 de Nagelkerke#
R2n<-R2cs/(1-exp(-v0/144110))
R2n
##RESIDUOS Y MEDIDAS DE INFLUENCIA PARA CADA INDIVIDIO DE LA
MUESTRA#
##Residuos de Pearson#
res.pearson <- residuals(modelo.svy, type = "pearson")
res.pearson.sig <- abs(res.pearson)>1.96
table(res.pearson.sig)
res.pearson.estd <- rstandard(modelo.svy, type = "pearson")
res.pearson.estd.sig<-abs(res.pearson.estd)>1.96
table(res.pearson.estd.sig)
res.deviance <- residuals(modelo.total, type = "deviance")
res.deviance.sig <- abs(res.deviance)>1.96
table(res.deviance.sig)
##Residuos de Deviance#
res.deviance.std <- rstandard(modelo.svy, type = "deviance")
table(abs(res.deviance.std) > 1.96)
res.student <- rstudent(modelo.svy)
table(abs(res.student) > 1.96)
distancias.cook <- cooks.distance(modelo.total)
table(distancias.cook > 1)
##Intervalos de Confianza al 95%#
exp(confint.default(modelo.total, level = 0.95))
Ana Gema Galera Pozo
131
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
8.5. Sintaxis en R para la regresión multinomial
##Modelo con sólo la constante#
library(nnet)
modelom.0 <- multinom(mult ~ 1, weight=fe, data = datos.tfm)
modelom.0
##Stepwise para la selección del mejor modelo#
modelom.step<step(modelom.0,scope=list(lower=mult~1,upper=mult~sexo+ccaa+estudios+nacionalidad+ed
ad),direction="both")
summary(modelom.step)
##BONDAD DE AJUSTE#
##Frecuencias observadas#
fobs<-data.frame(xtabs(~sexo+edad+nacionalidad+estudios+ccaa+mult, data=datos.tfm))
head(fobs)
nrow(fobs)
for (i in 1:5852) fobs0[i]=fobs$Freq[i]
head(fobs0)
for (i in 1:5852) fobs1[i]=fobs$Freq[i+5852]
head(fobs1)
for (i in 1:5852) fobs2[i]=fobs$Freq[i+5852+5852]
head(fobs2)
##Frecuencias estimadas#
ppred<-predict(modelom.step, fobs, type='prob')
head (ppred)
FT=0
for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i]
fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3)))
head(fprd)
fprd0<-fprd[,1]
fprd1<-fprd[,2]
fprd2<-fprd[,3]
##Estadístico X2#
x0=0
x1=0
x2=0
Ana Gema Galera Pozo
132
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i]
x0<-ifelse(is.na(x0),0,x0)
sum(x0)
for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i]
x1<-ifelse(is.na(x1),0,x1)
sum(x1)
for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i]
x2<-ifelse(is.na(x2),0,x2)
sum(x2)
X2.ind<-data.frame(x0,x1,x2)
head(X2.ind)
X2<-sum(X2.ind)
X2
tabla<-xtabs(~sexo+edad+ccaa+nacionalidad+estudios, data=datos.tfm)
tabla2<-data.frame(tabla)
tabla2$Freq
for (i in 1:5852) {if (tabla2$Freq[i]>0) contador=contador+1 else contador=contador}
contador
gl<-(contador-37)*(3-1)
gl
p.valor=1-pchisq(X2,gl)
p.valor
##Estadístico G2#
g0=0
g1=0
g2=0
for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i])))
g0<-ifelse(is.na(g0),0,g0)
sum(g0)
for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i])))
g1<-ifelse(is.na(g1),0,g1)
sum(g1)
for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i])))
g2<-ifelse(is.na(g2),0,g2)
sum(g2)
Ana Gema Galera Pozo
133
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
G2.ind<- data.frame(g0, g1, g2)
G2<-2*sum(G2.ind)
G2
p.valor=1-pchisq(G2,8484)
p.valor
##Método Delta sumando 0.5 a las frecuencias observadas#
##Cálculos para sumar 0.5 a las frecuencias observadas#
for (i in 1:5852) {if (fobs0[i]==0) {if (fobs1[i]==0) {if (fobs2[i]==0) (fobs0[i]=0) &
(fobs1[i]=0) & (fobs2[i]=0) else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) &
(fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) &
(fobs2[i]=fobs2[i]+0.5)} else (fobs0[i]=fobs0[i]+0.5) & (fobs1[i]=fobs1[i]+0.5) &
(fobs2[i]=fobs2[i]+0.5)}
head(fobs0)
head(fobs1)
head(fobs2)
##nuevas frecuencias predichas#
FT=0
for (i in 1:5852) FT[i]<-fobs0[i]+fobs1[i]+fobs2[i]
fprd<-ppred*(c(rep(FT,3), rep(FT, 3), rep(FT,3)))
head(fprd)
fprd0<-fprd[,1]
fprd1<-fprd[,2]
fprd2<-fprd[,3]
##Estadístico G2#
for (i in 1:5852) g0[i]=fobs0[i]*(log((fobs0[i])/(fprd0[i])))
g0<-ifelse(is.na(g0),0,g0)
sum(g0)
for (i in 1:5852) g1[i]=fobs1[i]*(log((fobs1[i])/(fprd1[i])))
g1<-ifelse(is.na(g1),0,g1)
sum(g1)
for (i in 1:5852) g2[i]=fobs2[i]*(log((fobs2[i])/(fprd2[i])))
g2<-ifelse(is.na(g2),0,g2)
sum(g2)
G2_2.ind<-data.frame(g0,g1,g2)
G_22<-2*sum(G2_2.ind)
Ana Gema Galera Pozo
134
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
G2_2
p.valor=1-pchisq(G2_2,8484)
p.valor
##Estadístico X2#
x0=0
x1=0
x2=0
for (i in 1:5852) x0[i]=(fobs0[i]-fprd0[i])^2/fprd0[i]
x0<-ifelse(is.na(x0),0,x0)
sum(x0)
for (i in 1:5852) x1[i]=(fobs1[i]-fprd1[i])^2/fprd1[i]
x1<-ifelse(is.na(x1),0,x1)
sum(x1)
for (i in 1:5852) x2[i]=(fobs2[i]-fprd2[i])^2/fprd2[i]
x2<-ifelse(is.na(x2),0,x2)
sum(x2)
X2_2.ind<-data.frame(x0,x1,x2)
head(X2_2.ind)
X2_2<-sum(X2_2.ind)
X2_2
p.valor=1-pchisq(X2_2,8484)
p.valor
##Tabla de Clasificaciones#
datos.tfm$prd<-predict(modelom.step, type='class')
head(datos.tfm)
table(datos.tfm$mult, datos.tfm$prd)
table(datos.tfm$mult)
tabla.clasificacion<-xtabs(fe~datos.tfm$mult+prd, data=datos.tfm)
tabla.clasificacion
##Residuos de Pearson#
r.p<-sqrt(X2.ind)
r.p.sig<-abs(r.p)>2
table(r.p.sig)
r.p2<-sqrt(X2_2.ind)
r.p2.sig<-abs(r.p2)>2
table(r.p2.sig)
Ana Gema Galera Pozo
135
Trabajo Fin de Máster: Aplicación de modelos de respuesta discreta para determinar
sociodemográficos que explican la actividad económica en España
los factores
##Contraste sobre los parámetros#
z <- summary(modelom.step)$coefficients/summary(modelom.step)$standard.errors
z
p_valor <- (1 - pnorm(abs(z), 0, 1))*2
p_valor
##Obtener los parámetros#
beta<-summary(modelom.step)$coefficients
beta
##Obtener las exponenciales parámetros#
exp(beta)
##Intervalos de confianza al 95%#
exp(confint(modelom.step))
Ana Gema Galera Pozo
136
Descargar