tesis doctoral - Dehesa - Universidad de Extremadura

Anuncio
UNIVERSIDAD DE EXTREMADURA
FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES
TESIS DOCTORAL
MODELIZACIÓN ESTADÍSTICA DE TABLAS DE
CONTINGENCIA:
APLICACIÓN AL ANÁLISIS DE LA DEMANDA
TURÍSTICA ESPAÑOLA
Doctorando:
Marcelino SÁNCHEZ RIVERO
Director:
Dr. D. Miguel Angel FAJARDO CALDERA
BADAJOZ, SEPTIEMBRE DE 1998
Edita: Universidad de Extremadura
Servicio de Publicaciones
c/ Pizarro, 8
Cáceres 10071
Correo e.: [email protected]
http://www.pcid.es/public.htm
UNIVERSIDAD DE EXTREMADURA
FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES
MODELIZACIÓN ESTADÍSTICA DE TABLAS DE
CONTINGENCIA:
APLICACIÓN AL ANÁLISIS DE LA DEMANDA
TURÍSTICA ESPAÑOLA
MEMORIA presentada por
Marcelino Sánchez Rivero para
optar al grado de Doctor.
Fdo.: Marcelino Sánchez Rivero
Vº Bº del Director de la Tesis:
Fdo.: Miguel Angel Fajardo Caldera
Catedrático de Universidad
Economía Aplicada
Badajoz, Septiembre de 1998
A Antonia y a mis padres,
las únicas constantes entre tantas variables.
Agradecimientos
Cuando se culmina un trabajo de investigación de varios años, uno toma
conciencia de la importancia que la ayuda, el apoyo y la comprensión de ciertas
personas tienen en la consecución exitosa del mismo. Desde la perspectiva de quien
comienza a dar sus primeros pasos en este apasionante mundo de la investigación
aplicada, el agradecimiento a esas personas es la mínima expresión de la deuda
contraída con ellas.
En primer lugar, deseo expresar mi más sincero agradecimiento al Director de
esta Tesis, el doctor D. Miguel Angel Fajardo Caldera, que también ha sido mi Tutor
durante mis estudios de Tercer Ciclo. El fue quien me inició en el mundo de la
investigación, quien resolvió muchas de mis dudas e indecisiones y quien, en definitiva,
veló por la calidad del trabajo que ahora se presenta. Sus consejos, sus ideas y su
constante dedicación a mí han tenido una importancia crucial en el desarrollo de esta
Tesis.
Quiero también agradecer a Antonia el ánimo que en todo momento ha sabido
infundirme. Su apoyo incondicional en los peores momentos y las innumerables horas
de compañía mútua que este trabajo nos ha robado merecen una recompensa mucho
mayor de lo que estas breves palabras puedan transmitir.
Mi padres también merecen toda mi gratitud en este momento. Y no sólo por la
educación que durante años me han dado, y por la que estaré eternamente en deuda con
ellos, sino también por el interés que en todo momento han demostrado por el proceso
de elaboración de esta Tesis.
Tampoco puedo olvidarme de mis compañeros de trabajo, los profesores de la
Facultad de Ciencias Económicas y Empresariales de la Universidad de Extremadura.
Algunos se han interesado por el estado de la investigación. Otros han demostrado de
una forma mucho más activa su compañerismo, como Pedro Mora López, que me ha
prestado una inestimable ayuda en el procesamiento informático de la información.
Finalmente, quisiera mostrar mi gratitud hacia dos personas que también han
aportado su granito de arena a este trabajo. Uno de ellos es Erling B. Andersen, que me
asesoró tanto en la búsqueda bibliográfica como en el enfoque de la investigación,
durante mi estancia en el Instituto de Estadística de la Universidad de Copenhagen en el
verano de 1995. El otro es Scott R. Eliason, de la Universidad de Iowa ( E.E.U.U. ), que
me ayudó a resolver algunos problemas de funcionamiento del programa MLLSA.
En suma, gracias a todos los que, de una u otra forma, habéis facilitado mi tarea
y me habéis prestado vuestra ayuda y comprensión cuando lo he necesitado.
“Nuestras horas son minutos
cuando esperamos saber,
y siglos cuando sabemos
lo que se puede aprender”
Antonio Machado
INDICE
Página
INTRODUCCIÓN
5
PRIMERA PARTE:
PLANTEAMIENTO Y METODOLOGÍA
CAPÍTULO PRIMERO
LA INVESTIGACIÓN DE LA DEMANDA TURÍSTICA EN ESPAÑA
17
1.1. INTRODUCCIÓN ........................................................................................... 19
1.2. ESTUDIOS SOBRE LA DEMANDA TURÍSTICA ESPAÑOLA ................................ 22
1.3. TÉCNICAS PARA EL ANÁLISIS DE LA INFORMACIÓN...................................... 42
1.4. ANÁLISIS ESTADÍSTICO DE DATOS CATEGÓRICOS Y DEMANDA
TURÍSTICA ................................................................................................... 50
CAPÍTULO SEGUNDO
FUNDAMENTOS PARA EL ANÁLISIS DE TABLAS DE CONTINGENCIA
61
2.1. INTRODUCCIÓN ........................................................................................... 63
2.2. INDEPENDENCIA DE SUCESOS E INDEPENDENCIA DE VECTORES
ALEATORIOS................................................................................................ 64
2.2.1. INDEPENDENCIA DE SUCESOS.......................................................... 64
2.2.2. ODDS Y ODDS RATIO ...................................................................... 68
2.2.3. INDEPENDENCIA DE VECTORES ALEATORIOS ................................... 70
2.2.4. COLAPSABILIDAD DE VECTORES ALEATORIOS................................. 75
Página
2.3. EXPANSIÓN LOG-LINEAL DE LA DISTRIBUCIÓN DE BERNOULLI .................... 76
2.3.1. LA DISTRIBUCIÓN DE BERNOULLI ................................................... 76
2.3.2. EXPANSIÓN LOG-LINEAL PARA EL CASO BIDIMENSIONAL ................ 77
2.3.3. EXPANSIÓN LOG-LINEAL PARA EL CASO TRIDIMENSIONAL .............. 78
2.4. TEORÍA DE GRAFOS E INDEPENDENCIA ........................................................ 80
CAPÍTULO TERCERO
85
TABLAS DE CONTINGENCIA
3.1. INTRODUCCIÓN ........................................................................................... 87
3.2. MODELOS MUESTRALES PARA TABLAS DE CONTINGENCIA .......................... 92
3.3. INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES ............. 96
3.4. OTRAS MEDIDAS DE ASOCIACIÓN PARA TABLAS BIDIMENSIONALES .......... 103
3.4.1. MEDIDAS DE ASOCIACIÓN PARA TABLAS 2X2 ............................... 104
3.4.2. MEDIDAS DE ASOCIACIÓN PARA TABLAS IXJ ................................ 111
3.5. INDEPENDENCIA EN TABLAS TRIDIMENSIONALES ...................................... 117
CAPÍTULO CUARTO
EL MODELO LOG-LINEAL GENERAL
133
4.1. INTRODUCCIÓN ......................................................................................... 135
4.2. MODELIZACIÓN LOGARÍTMICO-LINEAL ..................................................... 138
4.2.1. TABLAS BIDIMENSIONALES ........................................................... 138
4.2.2. TABLAS TRIDIMENSIONALES ......................................................... 144
4.2.3. JERARQUÍA,
NOTACIÓN ABREVIADA E INTERPRETACIÓN DE
MODELOS LOG-LINEALES ............................................................. 149
4.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO....................................... 154
4.4. CONTRASTACIÓN DE MODELOS LOG-LINEALES .......................................... 168
4.5. CEROS ESTRUCTURALES Y CEROS ALEATORIOS ......................................... 173
4.6. CRITERIOS DE SELECCIÓN DE MODELOS LOG-LINEALES ............................. 178
Página
4.7. MODELOS LOG-LINEALES GRÁFICOS.......................................................... 185
4.8. SELECCIÓN DE MODELOS LOG-LINEALES ENTRE MODELOS
DESCOMPONIBLES Y MODELOS GRÁFICOS .................................................. 195
4.9. CRITERIOS DE SELECCIÓN DEL MODELO FINAL .......................................... 200
4.10. RESIDUOS ESTANDARIZADOS Y RESIDUOS ESTANDARIZADOS
AJUSTADOS PARA UN MODELO LOG-LINEAL............................................... 205
4.11. COLAPSABILIDAD DE TABLAS DE CONTINGENCIA .................................... 212
4.12. EL MODELO LOGIT PARA VARIABLES CATEGÓRICAS ................................ 214
4.12.1. VARIABLE RESPUESTA DICOTÓMICA ........................................... 215
4.12.2. VARIABLE RESPUESTA POLICOTÓMICA ....................................... 224
CAPÍTULO QUINTO
MODELOS DE VARIABLES LATENTES
227
5.1. INTRODUCCIÓN ......................................................................................... 229
5.2. EL MODELO DE ANÁLISIS DE CLASES LATENTES GENERAL ......................... 234
5.3. ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL MODELO ACL GENERAL ................. 240
5.4. CONTRASTACIÓN DE LA BONDAD DE AJUSTE DEL MODELO ACL
GENERAL................................................................................................... 252
5.5. ASIGNACIÓN DE INDIVIDUOS A CLASES LATENTES ..................................... 255
5.6. ANÁLISIS DE CLASE LATENTE EXPLORATORIO Y CONFIRMATORIO ............. 257
5.7. ANÁLISIS DE ESTRUCTURA LATENTE SIMULTÁNEO .................................... 265
5.8. MODELOS DE HOMOGENEIDAD.................................................................. 277
5.9. MODELOS CON MÚLTIPLES VARIABLES LATENTES ..................................... 282
Página
SEGUNDA PARTE:
ANÁLISIS EMPÍRICO Y CONCLUSIONES
1. INTRODUCCIÓN
295
2. ANÁLISIS DE INTERDEPENDENCIAS ENTRE VARIABLES TURÍSTICAS
302
A).
PROPENSIÓN A VIAJAR
313
B). DESTINO TURÍSTICO
340
C).
LUGAR DE VACACIONES
346
D).
TRANSPORTE EMPLEADO
352
E).
ALOJAMIENTO UTILIZADO
360
F).
ORGANIZACIÓN DEL VIAJE
372
G).
DURACIÓN DEL VIAJE
378
H).
FORMA DE VIAJAR
387
I).
FRACCIONAMIENTO VACACIONAL
395
3. SEGMENTACIÓN DE LA POBLACION ESPAÑOLA SEGÚN SU ACTITUD ANTE
LAS VACACIONES
400
4. CONCLUSIONES FINALES
454
FUTURAS LÍNEAS DE INVESTIGACIÓN
471
BIBLIOGRAFÍA
477
ANEXOS
495
INTRODUCCIÓN
Introducción
____________________________________________________________________________________
La investigación de cualquier actividad económica exige, en mayor o menor
medida, información estadística. Esta necesidad informativa se hace especialmente
patente en el estudio del Turismo, debido al gran cúmulo de circunstancias
socioeconómicas que condicionan esta actividad. Hasta tal punto esto es así que el
diseño de una política turística o la adopción de una decisión por parte de las
autoridades políticas exige un conocimiento previo, fiable y detallado del
comportamiento de la demanda turística, para lo cual, a su vez, es imprescindible la
recopilación de información estadística.
El profesor Manuel Figuerola apunta que “en la actualidad, la magnitud e
importancia social alcanzada por la actividad turística hace insuficiente todo estudio
que se apoye exclusivamente en valores representativos. Es evidente que se hace
necesario realizar estudios de grupos diferenciados o llegar a la definición de
tipologías en base a las modernas técnicas o modelos que existen al respecto”.
( Figuerola Palomo, 1985, pag. 204 ).
En esta misma línea, Figuerola apunta también ( op. cit., pag. 218 ) la escasa
importancia que se concede a la recopilación de información relativa a los caracteres
sociales que modelan el turismo, y denuncia el escaso conocimiento sobre las
motivaciones que inducen los desplazamientos, la estructura social de los visitantes, los
rasgos demográficos y otras particularidades que definen la personalidad de quienes
practican turismo.
-7-
Introducción
____________________________________________________________________________________
Consciente de esta necesidad informativa, la Secretaría General de Turismo ha
puesto en marcha durante los últimos años una serie de estudios tendentes a la
recopilación de información estadística y al posterior análisis de la misma. Entre estos
estudios cabe citar, por ejemplo, las diferentes ediciones de “Las vacaciones de los
españoles”, los “movimientos turísticos en fronteras” o, más recientemente, la encuesta
Familitur.
A pesar de que estos estudios han venido a paliar en gran medida la sequía de
información estadística sobre la demanda turística en general, y sobre su
comportamiento, en particular, se detecta en la mayoría de ellos una explotación
insuficiente del gran caudal de información que atesoran. Dejando al margen los
trabajos realizados por Esteban Talaya sobre técnicas econométricas aplicadas al análisis
de previsión de la demanda turística, una consulta detallada de estos estudios constata,
en la inmensa mayoría de los casos, un mero análisis descriptivo y una ausencia, casi
generalizada, de técnicas estadísticas que profundicen en el análisis de la información
disponible.
Admitida la necesidad del análisis de información estadística básica y
confirmada la escasez de técnicas estadísticas avanzadas para el análisis de la demanda
turística, este trabajo se plantea como objetivo básico dar a conocer a los investigadores
una serie de herramientas que analicen con mayor profundidad científica la información
obtenida en procesos de encuestación de cualquier ámbito o naturaleza. Estas técnicas
han sido investigadas por estadísticos y matemáticos de Norteamérica ( Estados Unidos
-8-
Introducción
____________________________________________________________________________________
y Canadá ) y del Norte de Europa ( Holanda, Suecia y Dinamarca ) y se han aplicado
fundamentalmente al ámbito de la Medicina y de la Psicología. Sin embargo, la
metodología utilizada por estas técnicas no ha sido aplicada a otros campos de la
Ciencia, como podrían ser el caso de la Economía, en general, o del comportamiento de
la demanda turística, en particular. En este sentido, la elaboración de conclusiones
válidas sobre la demanda turística nacional a partir de información estadística básica
mediante el empleo de estas técnicas puede considerarse una de las aportaciones
originales de este trabajo.
Los modelos que se describen en el presente texto permitirán al investigador
alcanzar tres objetivos fundamentales:
a) Profundizar en la dependencia estadística entre dos o más variables turísticas,
superando el análisis de las mismas desde una perspectiva marginal y centrándolo en un
enfoque simultáneo o conjunto.
b) Cuantificar, en términos probabilísticos, la asociación detectada entre las
variables analizadas.
c) Segmentar mercados turísticos mediante una técnica que permite contrastar
estadísticamente el número de segmentos, el tamaño de los mismos y cualquier aspecto
que los caracterice.
-9-
Introducción
____________________________________________________________________________________
Al objeto de deslindar claramente los contenidos del presente trabajo, se ha
estructurado el mismo en dos partes: una Primera Parte, que hemos titulado
“Planteamiento y metodología”; y una segunda parte, denominada “Análisis empírico
y conclusiones”.
La Primera Parte plantea la cuestión, justifica la necesidad de emplear técnicas
estadísticas avanzadas y aborda con detalle la metodología estadística que se utilizará
para analizar la demanda turística española. Esta Primera Parte consta de un total de
cinco Capítulos. El Capítulo Primero realiza un recorrido general por las
investigaciones sobre demanda turística realizadas en España en los últimos 10 o 15
años, distinguiendo tres grandes bloques temáticos: estudios de previsión, estudios sobre
el grado de satisfacción del turista y estudios sobre el comportamiento de los españoles
ante las vacaciones. También se enumeran en este Capítulo, siguiendo a Esteban Talaya,
algunas de las técnicas de análisis de la demanda turística. Por último, se relaciona el
análisis estadístico de datos categóricos ( y en especial el modelo log-lineal y el modelo
logit ) con la investigación de la demanda turística y se propone el modelo de Análisis
de Clases Latentes como una posible técnica de segmentación óptima basada en criterios
subjetivos.
El Capítulo Segundo introduce una serie de conceptos estadísticos que
constituyen el punto de partida de las técnicas que serán abordadas en capítulos
posteriores. Con relativa brevedad, y mediante definiciones y proposiciones
matemáticas, se abordan conceptos tan básicos como el de independencia estadística e
- 10 -
Introducción
____________________________________________________________________________________
independencia condicionada de sucesos y de variables aleatorias; el de ratio y odds
ratio; la expansión log-lineal de la distribución de Bernoulli multidimensional; o la
asociación entre la teoría de grafos y el concepto de independencia.
Las nociones básicas abordadas en el Capítulo Segundo se trasladan, a lo largo
del Capítulo Tercero, a las tablas de contingencia. Así, se define el concepto de tabla de
contingencia, en torno al cual girará la mayor parte del contenido de este trabajo. Una de
las nociones claves de este Capítulo es la independencia en tablas de contingencia
bidimensionales y la cuantificación de la asociación entre variables mediante diversos
coeficientes. Por último, en este Capítulo se pone de manifiesto la necesidad de medir la
asociación entre variables en tablas de contingencia de dimensión superior a dos, lo que
evidencia la escasa utilidad de los coeficientes hasta ahora empleados y reivindica el
manejo de técnicas estadísticas más complejas que permitan abordar el problema.
El tratamiento detallado de estas técnicas constituye el contenido del Capítulo
Cuarto. En este Capítulo se describe el modelo logarítmico-lineal, poniendo especial
énfasis en la interpretación tanto del modelo en términos de independencia como de los
parámetros del mismo, en la estimación de sus efectos primarios y de interacción, en la
selección del mejor modelo y en su representación gráfica. Como una mera extensión
del modelo log-lineal, las últimas páginas de este Capítulo están dedicadas al modelo
logit para variables categóricas, abordándose especialmente el cálculo de las
probabilidades condicionadas correspondientes a las categorías de la variable respuesta.
- 11 -
Introducción
____________________________________________________________________________________
Sobre la base del modelo log-lineal, se introduce en el Capítulo Quinto una
nueva técnica estadística, cuya aplicación a la segmentación de la demanda turística
española constituye una de las aportaciones originales de este trabajo. La necesidad de
trabajar en ocasiones con variables difícilmente observables ( o simplemente
inobservables ) justifica el empleo de un modelo log-lineal algo peculiar, en el que una
de las variables consideradas es una variable latente. Tras describir los parámetros del
modelo ACL general, el contenido de este Capítulo gira en torno a la versatilidad del
mismo tanto en un análisis exploratorio ( cuando se desea formular una teoría sobre la
población estudiada ) como en un análisis confirmatorio ( cuando se desea contrastar la
validez de una teoría previamente definida sobre la población objeto de análisis ). En la
segunda mitad de este Capítulo Quinto, se constata la potencialidad del modelo ACL en
la segmentación simultánea de dos o más grupos y se detallan las especificidades tanto
de modelos heterogéneos como de modelos de homogeneidad. El tratamiento de
modelos con múltiples variables latentes pone punto final al Capítulo Quinto y, con ello,
a la Primera Parte de este trabajo.
La Segunda Parte tiene un carácter eminentemente aplicado y su finalidad es
poner en valor las potencialidades de las técnicas estadísticas tratadas en la Primera
Parte. La información estadística utilizada ha sido la contenida en el estudio 2.193 del
Centro de Investigaciones Sociológicas sobre el “comportamiento de los españoles ante
las vacaciones”, realizado en Octubre de 1995. Esta Segunda Parte se ha estructurado en
tres bloques. En el primer bloque, la modelización logarítmico-lineal se utiliza para
detectar las interrelaciones existentes entre las variables turísticas propensión a viajar,
- 12 -
Introducción
____________________________________________________________________________________
destino turístico, lugar de vacaciones, transporte empleado, alojamiento utilizado,
organización del viaje, duración del viaje, forma de viajar y fraccionamiento vacacional,
y las variables de corte socioecónomico tamaño del hábitat, edad, nivel de estudios,
nivel de ingresos, temporada vacacional y número de miembros del hogar familiar. Tras
seleccionar el modelo log-lineal óptimo, en este primer bloque se estiman también las
probabilidades asociadas a las diferentes categorías de las nueve variables turísticas
citadas
anteriormente,
condicionadas
a
niveles
concretos
de
las
variables
socioeconómicas consideradas en el análisis.
En el segundo bloque se ha segmentado la demanda turística española en cinco
segmentos, haciendo uso para ello del modelo ACL general sobre la base de la
existencia de la variable latente “comportamiento vacacional”. Estos cinco segmentos
son los correspondientes a turistas sociales, turistas ecológicos, turistas pasivos, turistas
por entretenimiento puro y turistas recreativos. Una vez identificadas las características
esenciales de cada segmento, se ha completado el análisis de cada uno de ellos con otras
variables auxiliares, como la Comunidad Autónoma de residencia, la edad, el nivel de
ingresos y de estudios, el estado civil, etc. Finalizado este análisis global, se ha
constatado que la variable edad podría afectar a la segmentación obtenida, hasta el punto
de que la segmentación de los turistas con menos de 45 años puede ser muy diferente a
la de los turistas que superan esta edad. Con la ayuda del modelo de estructura latente
simultáneo se ha procedido a comparar los dos grupos, obteniéndose como resultado del
análisis algunas diferencias significativas entre los segmentos definidos en los dos
grupos considerados.
- 13 -
Introducción
____________________________________________________________________________________
Finalmente, el tercer bloque de esta Segunda Parte está dedicado a la elaboración
de conclusiones finales tanto sobre el comportamiento turístico de los españoles como
sobre su actitud ante las vacaciones.
El trabajo concluye con un breve esbozo de las futuras líneas de trabajo que se
abren a raíz de esta investigación y en las que el autor centrará sus esfuerzos en los
próximos años.
- 14 -
PRIMERA PARTE:
Planteamiento y metodología
CAPÍTULO PRIMERO
LA INVESTIGACIÓN DE LA DEMANDA
TURÍSTICA EN ESPAÑA
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
1.1. INTRODUCCIÓN.
El turismo constituye, a finales de los noventa, la primera industria mundial,
hasta el punto de que la actividad turística se ha convertido en un componente
fundamental del consumo de los países desarrollados. Además de ello, en opinión de los
expertos, el turismo se puede erigir en uno de los sectores productivos que a medio y
largo plazo puede sustentar la economía de algunos países, especialmente de aquellos
que están en vías de desarrollo. A pesar del proceso de desaceleración de las tasas de
crecimiento del turismo mundial durante la primera década de los 901, las previsiones de
la O.M.T. para los próximos años ponen de manifiesto una indudable potencialidad de
crecimiento. Así, se estima que en el período 1995-2000 se producirá un crecimiento
medio anual de turistas a nivel mundial de un 4,4 %, mientras que las previsiones para
el período 2000-2010 sitúan esta tasa de crecimiento en torno al 3,5 %.
Las razones que podrían justificar estas expectativas son múltiples. En primer
lugar, las mejoras tecnológicas de los medios de transporte y la creciente calidad de las
vías de comunicación han propiciado una importante reducción en el tiempo de viaje
entre el punto de origen y el de destino. En segundo lugar, la incorporación de nuevas
tecnologías a múltiples sectores económicos ha provocado una disminución del número
de horas trabajadas y, por consiguiente, un incremento del tiempo de ocio. En tercer
1
Téngase en cuenta que en el período 1990-1994, y según datos de la Organización Mundial del Turismo
( O.M.T. ), el crecimiento anual del turismo internacional se cifró en un 3,9 % en número de turistas y en
un 6,5 % en ingresos por turismo, mientras que en el período 1985-1990 esta tasa de crecimiento anual se
cifró en el 6,8 % y en el 17,6 %, respectivamente.
- 19 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
lugar, y en conexión con la idea anterior, el creciente peso del sector terciario en la
economía de los países más desarrollados está provocando no sólo más facilidades para
viajar sino también para aumentar la frecuencia de los viajes realizados. En este sentido,
en los últimos años se está observando una tendencia del turista a realizar un número
cada vez mayor de viajes con una duración, por lo general, más corta que en años
anteriores.
La actual importancia del fenómeno turístico y sus previsiones de futuro
justifican plenamente la necesidad de definir una política turística que permita
garantizar un desarrollo turístico acorde con los objetivos globales de la economía y, por
extensión, de la sociedad moderna. Sean cuales sean los objetivos de la política turística
( económicos, sociales, culturales, etc. ), es evidente que el conocimiento de la demanda
turística es un paso previo fundamental en la definición de dicha política. Así, a título
ilustrativo, difícilmente se podrá fomentar la participación en el turismo de
determinados sectores de la sociedad ( jóvenes, tercera edad, etc. ) sin conocer antes
cuál es su comportamiento y sus motivaciones ante el fenómeno turístico, de la misma
forma que no podrá conocerse la necesidad de mejorar la calidad de la oferta turística
sin analizar a priori el grado de satisfacción de la demanda con respecto a los productos
y servicios turísticos ofertados.
Esta necesidad de conocer las características y motivaciones de la demanda
turística se confirma si se tienen en cuenta las transformaciones que se están
produciendo en la misma durante los últimos años. Por un lado, la reducción de la
- 20 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
población de menor edad y el crecimiento de la población de mediana edad está
provocando que las menores obligaciones familiares y la mayor estabilidad económicolaboral de este último sector de la población otorguen al mismo una mayor capacidad de
gasto y una mayor disponibilidad de tiempo de ocio. Por otro lado, la tendencia cada vez
más generalizada de fraccionar el período vacacional en varios períodos de más corta
duración y el aprovechamiento de los fines de semana para realizar viajes, está
promoviendo un cambio sustancial en los destinos turísticos tradicionales. Así, al
turismo de “sol y playa” le está surgiendo una cierta competencia en nuevas alternativas
turísticas, como el turismo de naturaleza, el turismo rural o el agroturismo. Estas nuevas
formas de practicar turismo conllevan asimismo cambios sustanciales en las
características, exigencias y motivaciones de la demanda turística. A título meramente
indicativo, el practicante de turismo rural es mucho más activo y tiene unas exigencias
culturales mucho más elevadas que el turista de sol y playa. Por último, se está
detectando en los últimos años un alargamiento del período estival de vacaciones hacia
los meses de la primavera y del otoño, circunstancia motivada, entre otras razones, por
la aparición de un turismo de la tercera edad y por la mayor flexibilidad en los horarios
de trabajo. Este proceso de alargamiento de la que tradicionalmente se ha denominado
“temporada alta” provoca no sólo una mayor diversidad en el destino turístico elegido,
sino también matices específicos en las características socioeconómicas de los turistas
según la época del año de que se trate.
Estos argumentos, y otros muchos que podrían mencionarse aquí, justifican la
necesidad de estudiar la demanda turística como paso previo a la definición de políticas
- 21 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
de actuación en materia turística. En otras palabras, el desarrollo turístico de un país o
de una región depende en gran medida del conocimiento que se tenga de su demanda
turística.
1.2. ESTUDIOS SOBRE LA DEMANDA TURÍSTICA ESPAÑOLA.
La demanda turística se puede definir, desde el punto de vista de la Teoría
Económica, como la cantidad de producto o servicio turístico que los individuos están
dispuestos a adquirir a un precio concreto en un momento determinado. Sin embargo, el
interés de este trabajo no se centra en el concepto puramente económico de demanda
turística, es decir, no se plantea el análisis de la demanda turística como función de un
conjunto de variables explicativas, como podrían ser el precio de los productos o
servicios turísticos, el tipo de cambio de la moneda, la renta per cápita del consumidor,
etc. Más bien al contrario, con esta investigación se pretende avanzar en el conocimiento
de los consumidores de productos y servicios turísticos, es decir, de los demandantes
de turismo. Es más, no nos planteamos analizar desde un punto de vista cuantitativo a
estos demandantes, sino caracterizarlos desde un punto de vista cualitativo,
incidiendo, entre otras cosas, en sus preferencias, en su grado de satisfacción, en sus
motivaciones, etc.
No será, pues, objeto de esta investigación la cuantificación de la demanda
turística ( en este sentido, consideramos que tanto el Instituto Nacional de Estadística
- 22 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
como otros organismos nacionales y autonómicos elaboran estadísticas que permiten
conocer los flujos turísticos registrados durante un período de tiempo determinado en
una zona concreta ), sino la profundización en el conocimiento de su comportamiento
ante las vacaciones.
En consecuencia, y en lo sucesivo, se empleará el término “demanda turística”
para hacer referencia al universo de individuos que consumen productos o servicios
turísticos en una zona geográfica concreta durante un período de tiempo determinado.
Hecha esta aclaración, cabe mencionar que la investigación sobre la demanda
turística en España se ha concentrado especialmente a lo largo de los últimos 10 o 12
años. Aunque existen algunas experiencias sobre investigación de la demanda turística
anteriores a 1985, lo cierto es que es a partir de este año cuando empiezan a proliferar
los estudios sobre demanda turística, estudios que se han visto intensificados a partir de
principios de los noventa.
Siguiendo a Esteban Talaya ( 1996b ), la investigación sobre la demanda turística
española presenta unas características muy definidas que, citando literalmente a esta
autora, pasamos a enumerar brevemente:
- “La investigación realizada sobre esta materia se ha enfocado desde un punto
de vista eminentemente global, en el sentido de que los análisis efectuados se refieren a
un ámbito nacional, con escasa o nula incidencia en la desagregación a nivel regional.
- 23 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- La mayor parte de los estudios realizados no llevan a cabo un análisis
individuo a individuo, sino que generalmente las conclusiones obtenidas se basan en la
información agregada.
- Se ha analizado fundamentalmente la demanda turística en el punto de destino
( demanda real ), mientras que el análisis de la misma en el punto de origen ( demanda
potencial ) ha centrado muy poco la atención de los investigadores.
- La investigación sobre demanda turística tiene en España un carácter
eminentemente institucional, ya que buena parte de los estudios realizados han sido
llevados a cabo por la Dirección General de Política Turística del Ministerio de
Economía y Hacienda, ocupando la investigación privada un lugar anecdótico en el
conjunto de los estudios realizados.
- La práctica totalidad de las investigaciones realizadas ( como se comentará
más tarde con mayor detenimiento ) se limita a un mero análisis descriptivo de los
resultados obtenidos. Por el contrario, son verdaderamente escasos los estudios que
van más allá de la descripción de la información básica del mismo y emplean técnicas
estadísticas econométricas para detectar relaciones entre variables y explicar el tipo de
relación que, en cada caso, exista entre dichas variables”.
Las investigaciones sobre demanda turística realizadas en España podrían
agruparse en los tres bloques temáticos siguientes:
- 24 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
a) Estudios de previsión.
b) Estudios sobre el grado de satisfacción del turista.
c) Estudios sobre el comportamiento de los españoles ante las vacaciones.
Con un carácter muy general, los objetivos que persiguen estos tres grandes
bloques temáticos son los que se mencionan a continuación.
a) Estudios de previsión:
El trabajo más sobresaliente dentro de este bloque temático es, sin ningún género
de dudas, la tesis doctoral “Análisis de la demanda: aplicación a la actividad
turística de las técnicas de predicción” ( Esteban Talaya, 1987 ). El objetivo esencial
de este trabajo fue la creación de un marco de análisis de la evolución futura de la
demanda turística y demostrar la potencialidad de la combinación y complementación
de diversos enfoques predictivos. En esta tesis se describen las principales técnicas de
predicción ( subjetivas, causales y de series temporales ) y se analizan las experiencias
empíricas sobre predicción de la demanda turística mediante la utilización de las citadas
técnicas. Pero la principal aportación de este trabajo es la estimación de modelos
econométricos de la demanda turística española y su aplicación a la predicción de la
misma a corto, medio y largo plazo. En concreto, se proponen modelos econométricos
para las variables “visitantes extranjeros entrados por fronteras”, “pernoctaciones en
establecimientos hoteleros”, “visitantes extranjeros entrados por aeropuertos” e
“ingresos por turismo”. De igual forma, se proponen modelos del enfoque Box-Jenkins
- 25 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
para las variables “visitantes extranjeros entrados por fronteras” e “ingresos por
turismo”. Se trata, en definitiva, de uno de los trabajos más serios y con más rigor
científico de los realizados para el conocimiento más profundo de la demanda turística
nacional, hasta el punto de que la necesidad de utilizar técnicas estadísticas y
econométricas para el estudio de la demanda turística queda sobradamente justificada en
el rigor científico de sus conclusiones.
A pesar de las interesantes aportaciones de este trabajo, no se trata, sin embargo,
del primer estudio que hace uso de la herramienta estadística para analizar la demanda
turística. En realidad, el primer trabajo que basó su metodología en la utilización de
técnicas econométricas se remonta a 1966, fue realizado por Pulido San Román y su
título es “Introducción a un análisis econométrico del turismo”. En esta
investigación se realizó por primera vez un análisis econométrico de la demanda
turística española y se propusieron algunos modelos de predicción.
Con bastante posterioridad, en la década de los ochenta empiezan a proliferar
trabajos que realizan previsiones sobre la demanda turística española. Sin ánimo
exhaustivo, y con la única pretensión de mencionar los trabajos más relevantes, podrían
citarse el artículo “Técnicas de previsión y análisis de comportamiento de la
demanda turística” realizado por Figuerola Palomo y Esteban Talaya ( 1984 ); el
estudio denominado “Modelos de Demanda Turística Española” elaborado en 1986
por el Instituto de Estudios Turísticos; y, más recientemente, el estudio “Modelos de
previsión de las series del turismo español y análisis de coyuntura” realizado por la
- 26 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Secretaría General de Turismo en 1990 y el artículo titulado “Previsiones turísticas:
metodología y resultados” realizado por la doctora Agueda Esteban Talaya ( 1993 ) en
el que se presenta una metodología científica para la elaboración de modelos de
predicción de la demanda turística.
En síntesis, los estudios de predicción de la demanda turística española se han
prodigado de forma sustancial a partir de la segunda mitad de los ochenta, siendo
Esteban Talaya uno de los investigadores que ha abordado con mayor profundidad esta
temática.
En cualquier caso, las técnicas que se presentan en este trabajo guardan poca
relación con las empleadas para predecir la demanda turística, razón por la cual los
comentarios anteriores se han limitado a referenciar brevemente algunos de los trabajos
de investigación sobre predicción de la demanda turística en España en los últimos años,
pretendiendo ser la anterior enumeración un mero botón de muestra de lo investigado
sobre el tema.
b) Estudios sobre el grado de satisfacción del turista:
Dentro de este bloque temático se han realizado algunos estudios a nivel
nacional, principalmente en la década de los ochenta. De ellos citaremos brevemente las
características esenciales de los que mayor trascendencia han tenido. Así, puede citarse
el “Estudio sobre el nivel de satisfacción y deseos del turismo extranjero respecto al
- 27 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
producto español” iniciado por la Dirección General de Política Turística del
Ministerio de Economía y Hacienda en 1984 y desarrollado durante varios años
sucesivos. Refiriendo los comentarios al estudio realizado en 1986, cabe comentar que
los objetivos principales de estos estudios han sido, fundamentalmente, los tres
siguientes:
a) Medir el nivel global de satisfacción de los turistas extranjeros.
b) Conocer la adecuación entre las prestaciones recibidas y las expectativas
previas de dichos turistas.
c) Conseguir los elementos necesarios para rediseñar el producto turístico
español.
Sobre una muestra operativa de 5.407 encuestas, el plan de muestreo se diseñó
en función de la estacionalidad, de la zona turística, de los municipios turísticos de la
zona, de la nacionalidad del turista y del tipo de alojamiento empleado. A partir de la
información obtenida, se analizan, en primer lugar, los factores que más influyen sobre
el turista extranjero para decidir pasar sus vacaciones en España. También se realiza un
análisis de los aspectos generales de la oferta turística española que satisfacen más y
menos, respectivamente, al turismo extranjero. Finalmente, se realiza un amplio estudio
tanto del nivel de satisfacción como del grado de importancia concedida a diversos
aspectos relacionados con los servicios de hostelería, de restauración, de la oferta
complementaria de la zona y del entorno público.
- 28 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Con los mismos objetivos que los apuntados en el estudio de 1986, la Secretaría
General de Turismo llevó a cabo en 1990 otro estudio titulado “Estudio sobre el grado
de satisfacción de la Demanda Turística Nacional y Extranjera en relación con el
Producto Turístico Español”. En este trabajo, a diferencia de años anteriores, se
introdujo una muestra de turistas españoles con el fin de analizar el grado de
satisfacción alcanzado por los mismos. Otro objetivo adicional de este estudio fue
comparar los resultados obtenidos con los correspondientes a la encuesta de 1986 al
objeto de conocer las variaciones en el grado de satisfacción de la demanda en función
de las diferentes fases de la encuestación, de la nacionalidad de los turistas encuestados,
etc. La recogida de datos se llevó a cabo en cuatro fases, obteniéndose una muestra
operativa de 7.147 encuestas. Las variables analizadas en el estudio fueron,
principalmente, las siguientes:
- Edad.
- Lugar de residencia.
- Visitas anteriores a España ( sólo extranjeros ).
- Medio de transporte utilizado.
- Factores que influyen en la elección del destino turístico.
- Modalidad de organización del viaje.
- Opinión respecto a diferentes aspectos del entorno.
- Hobby o afición que no pudo desarrollar.
- Servicios deficientes en la localidad.
- Satisfacción y opinión sobre distintos aspectos del alojamiento.
- 29 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Coste global de la estancia.
- Grado de satisfacción respecto a sus vacaciones.
- Intención de volver a España ( sólo extranjeros ).
- Otras ofertas turísticas de España.
- Profesión.
- Nivel de estudios y de ingresos.
- Duración de la estancia.
- Composición y tamaño del grupo.
- Aspectos a mejorar en el alojamiento.
El estudio recoge no sólo los resultados globales del análisis tanto para turistas
españoles como para extranjeros, sino que también ofrece resultados desagregados
correspondientes a las cuatro fases del estudio y lleva a cabo una segmentación de la
encuesta cruzando algunas variables ( edad, nacionalidad, nivel de estudios, etc. ) con el
resto de variables de la misma.
Además de los dos trabajos monográficos antes citados, en otros estudios sobre
la demanda turística española se incluyen apartados relativos al grado de satisfacción.
Así, a título ilustrativo, podemos citar el estudio “Movimientos turísticos en
fronteras” realizado por la Secretaría General de Turismo entre Junio de 1993 y Junio
de 1994. Uno de los objetivos de este trabajo fue conocer el grado de satisfacción del
turista extranjero con el viaje realizado a España y, en particular, con los siguientes
aspectos:
- 30 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Alojamiento.
- Comidas.
- Ocio y diversión.
- Afluencia de gentes.
- Transportes y desplazamientos.
- Relación precios/servicios.
- Condiciones medioambientales.
- Seguridad ciudadana.
- Atención y trato recibido.
Asimismo, en los informes periódicos sobre las “Vacaciones de los españoles”,
que viene realizando la Secretaría General de Turismo, se incluyen preguntas relativas al
grado de satisfacción del turista español sobre los aspectos anteriormente apuntados y
otros relacionados con su período de vacaciones.
Obviamente, existen otros muchos trabajos que analizan el grado de satisfacción
del turista tanto nacional como extranjero con respecto al producto turístico español,
pero se debe tener presente que el objetivo de este epígrafe no es realizar una
enumeración exhaustiva de todos los trabajos publicados a nivel nacional sobre esta
temática, sino simplemente mencionar los más representativos.
- 31 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
c) Estudios sobre el comportamiento de los turistas ante las vacaciones:
Este tipo de estudios ha sido, posiblemente, el que con mayor frecuencia ha
realizado la Dirección General de Política Turística del Ministerio de Economía y
Hacienda. Partiendo del convencimiento de que la definición de una política turística
correcta debe basarse en un conocimiento previo de la demanda, esta Dirección General
viene desarrollando desde mediados de los ochenta diversos estudios que persiguen
como objetivo primordial el conocimiento de la estructura de la demanda turística y la
profundización en múltiples aspectos de los viajes realizados por la misma.
Sin duda alguna, el estudio emblemático dentro de este tercer bloque es el que,
bajo el título genérico de “Vacaciones de los españoles”, ha realizado de forma
periódica la Dirección General de Política Turística, siendo los años 1985, 1987, 1990,
1992 y meses posteriores a Marzo de 1993 los períodos de tiempo a los que se refiere el
citado estudio. En realidad, las “Vacaciones de los españoles” no es el primer estudio
que sobre características, motivaciones y comportamiento de la demanda turística
nacional se lleva a cabo en España, ya que los trabajos pioneros sobre esta temática son
los estudios relativos al “comportamiento vacacional y turístico de los españoles”
correspondientes al verano de 1977, a los meses de Enero a Septiembre de 1979 y al año
1980, con tamaños muestrales de 2.393, 2.487 y 4.968 entrevistas, respectivamente.
Junto a estos tres estudios, pueden citarse también como precursores de las “Vacaciones
de los españoles” los trabajos sobre “comportamiento vacacional y turístico de los
- 32 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
extranjeros” realizados en los períodos de Diciembre de 1980 y Enero de 1981 ( 1.534
entrevistas ) y de Julio y Agosto de 1981 ( 4.645 entrevistas ).
Entre los múltiples objetivos del estudio “Las vacaciones de los españoles”
cabe destacar los siguientes:
- Determinar el porcentaje de la población española que realizó al menos un
viaje de vacaciones durante el período analizado.
- Conocer la distribución de los destinos vacacionales de los españoles, tanto en
el viaje principal como, en su caso, en el viaje secundario de vacaciones.
- Estimar el gasto realizado durante el viaje principal y, en su caso, durante el
viaje secundario de vacaciones.
- Conocer el tipo de alojamiento y el medio de transporte empleado en el viaje
principal, en el viaje secundario y en puentes y fines de semana.
A efectos operativos, estos estudios han considerado exclusivamente los viajes
realizados por motivo de vacaciones, ocio o turismo, clasificándolos en tres grandes
grupos:
- 33 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Viaje principal: se considera como tal el viaje más largo de los realizados
durante el período de análisis con una duración de cuatro o más noches.
- Viaje secundario: es el siguiente viaje de mayor duración después del viaje
principal de entre todos los efectuados durante el período de análisis con una duración
mínima de cuatro noches.
- Viaje de fines de semana: es el viaje realizado con una duración inferior a
cuatro noches, con independencia de los días de la semana en que se realice.
Por otra parte, dado el interés que para esta investigación tienen estos estudios
sobre las vacaciones de los españoles, se recoge en el Cuadro 1.1 las características
principales de cada uno de ellos. Además de analizar el comportamiento vacacional de
los españoles, el estudio correspondiente al año 1992 incluye dos epígrafes relativos a
los acontecimientos culturales celebrados en España durante ese año ( Juegos Olímpicos
de Barcelona, Exposición Universal de Sevilla y Capitalidad Europea de la Cultura de
Madrid ) y a la influencia que las condiciones medioambientales ejercen sobre la actitud
de los españoles ante las vacaciones. Respecto a los acontecimientos culturales, el
análisis se centró principalmente en la Exposición Universal de Sevilla ( por ser la que
mayor número de visitantes extranjeros atrajo ), obteniéndose información sobre el
número de visitas realizadas a la citada Exposición, sobre la duración en días de cada
visita, sobre el tipo de alojamiento empleado, sobre el gasto medio por persona y visita,
etc.
- 34 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Cuadro 1.1
Principales características técnicas de los estudios sobre “vacaciones de los españoles”
Ambito
geográfico
Vacaciones de los Municipios
españoles en 1985 españoles con más
de 5.000
habitantes, excepto
Ceuta, Melilla y
Canarias
Vacaciones de los Municipios
españoles en 1987 españoles con más
de 10.000
habitantes, excepto
Ceuta y Melilla
Vacaciones de los Municipios
españoles en 1990 españoles con más
de 5.000
habitantes, excepto
Ceuta y Melilla
Ambito
poblacional
Tipo de
muestreo
Individuos con
edad entre 16 y 65
años
Muestreo estratificado
por zonas geográficas,
tamaño del municipio,
edad, nivel económico
y sexo del individuo
Individuos mayores Muestreo aleatorio por
de 15 años
puntos de arranque y
seguimiento de rutas
por el método
“random-route”
Individuos mayores Muestreo aleatorio
de 16 años
estratificado con
( 30.884.000
afijación proporcional
personas )
a la población existente
por Comunidades
Autónomas y hábitats
de residencia
Vacaciones de los Municipios de más Individuos con 16 y Muestreo por
conglomerados
españoles en 1992 de 5.000 habitantes más años
de todo el territorio ( 33.030.347
polietápico con
nacional, excepto
personas )
estratificación de las
Ceuta y Melilla
unidades de primera
etapa
( municipios )
Vacaciones de los Municipios de todo Individuos de 16 y Muestreo por
más años
conglomerados
españoles en 1993 el territorio
nacional, excepto
( 30.577.930
polietápico con
(*)
Ceuta y Melilla
personas: I.N.E.
estratificación de las
1991 )
unidades de primera
etapa
( secciones censales )
Vacaciones de los Municipios de todo Individuos de 16 y Muestreo por
más años
conglomerados
españoles en 1994 el territorio
nacional, excepto
( 30.577.930
polietápico con
Ceuta y Melilla
personas: I.N.E.
estratificación de las
1991 )
unidades de primera
etapa
( secciones censales )
Vacaciones de los Municipios de todo Individuos de 15 y Muestreo por
más años
conglomerados
españoles en 1995 el territorio
nacional, excepto
( 31.200.000
polietápico con
Ceuta y Melilla
personas: I.N.E.
estratificación de las
1991 )
unidades de primera
etapa
( secciones censales )
Muestreo bietápico por
Comportamiento Municipios de todo Hogares que son
viviendas
conglomerados con
turístico de los el territorio
habituales de
submuestreo y
españoles: verano nacional, excepto
residentes en
estratificación de las
de 1996. Encuesta Ceuta y Melilla
España
unidades de primera
FAMILITUR
etapa
( secciones censales )
(*) Desde Marzo de 1993 este estudio se realiza con periodicidad mensual.
- 35 -
Tamaño
muestral
Error muestral
máximo
2.000 entrevistas
± 2,2 % a un
95,45 % de
confianza
5.140 entrevistas
± 1,4 % a un
95 % de
confianza
6.680 entrevistas
± 1,2 % a un
95,5 % de
confianza
6.637 entrevistas
± 1,2 % a un
95 % de
confianza
24.185 entrevistas
( mínimo 2.000
mensuales )
Para el tamaño
muestral mensual,
± 2,2 % a un
95 % de
confianza
30.043 entrevistas
( mínimo 2.000
mensuales )
Para el tamaño
muestral mensual,
± 2,2 % a un
95 % de
confianza
30.790 entrevistas
( mínimo 2.000
mensuales )
Para el tamaño
muestral mensual,
± 2,2 % a un
95 % de
confianza
3.200 unidades
muestrales en cada
oleada ( 5 oleadas
anuales )
± 1,73 % a un
95 % de
confianza en cada
oleada
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
En cuanto a la incidencia de las condiciones medioambientales, el análisis se
orientó hacia el estudio de los problemas relacionados con el medio ambiente ( suciedad
de las aguas, residuos, basuras y vertederos, etc. ) detectados en el lugar de vacaciones,
hacia la influencia de las condiciones medioambientales en la elección del destino
vacacional, hacia el grado de aceptación de propuestas para reducir los problemas
medioambientales, etc.
Finalmente, el estudio de las vacaciones de los españoles que se viene realizando
con periodicidad mensual desde Marzo de 1993 introduce un pequeño cambio en el
objeto de análisis de las encuestas realizadas, ya que si hasta entonces el estudio se
refería exclusivamente a viajes motivados por vacaciones, a partir de la mencionada
fecha se amplía el análisis a cualquier viaje de turismo con independencia de su
motivación ( laboral, de salud, religiosa, etc. ).
Además de los estudios sobre las vacaciones de los españoles, la Dirección
General de Política Turística ha llevado a cabo otros estudios dirigidos a obtener un
mejor conocimiento de la demanda turística tanto nacional como extranjera. Así, el
estudio “Los viajes de los españoles al extranjero en 1987” pretende, entre otros
objetivos, estimar el porcentaje de españoles que viajaron al extranjero a lo largo de
1987, conocer los destinos más frecuentes de éstos así como la duración del viaje, el
tipo de alojamiento y el medio de transporte empleado, etc. Este estudio se estructuró en
dos fases: una primera fase de determinación de la proporción de viajeros entre la
población española, sobre una base de 34.000 encuestas; y una segunda fase de
- 36 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
descripción de aspectos más relevantes de los viajes al extranjero, a partir de una
muestra de 1.600 individuos, seleccionados aleatoriamente de los 2.811 encuestados que
viajaron al extranjero durante el año 1987.
Otro estudio realizado por la Dirección General de Política Turística a finales de
los ochenta para determinar el volumen del gasto turístico de los turistas residentes en
España fue el denominado “El gasto en turismo de los españoles”. Este estudio
pretendía básicamente estimar el gasto medio por turista y viaje, con desagregación de
dicho gasto por capítulos tales como alojamiento, alimentación, transporte y gasolina,
compra de bienes y recuerdos, etc. A partir de una muestra formada por 647 entrevistas
en hogares, se analizaron las diferencias más significativas en el gasto turístico en
función de un conjunto de variables de control, tales como el nivel socio-profesional, el
tamaño del hábitat, el destino y duración del viaje, el alojamiento y el medio de
transporte utilizado, etc.
Más recientemente, la Secretaría General de Turismo ha iniciado una serie de
estudios dirigidos a aportar información sobre el comportamiento de los visitantes
extranjeros a España. El interés de estos estudios se justifica en el hecho de que el sector
turístico español, como cualquier otro sector económico, no es ajeno a los cambios
sociales y económicos que se están produciendo, especialmente en los países de la
Europa del Este, de forma que dichos cambios pueden afectar tanto a la composición del
turismo extranjero que nos visita como a sus características. El estudio se ha dividido en
dos segmentos, correspondientes a turistas y a excursionistas. Por lo que respecta al
- 37 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
segmento turistas, la información de base se obtuvo a partir de 14.659 encuestas
realizadas en 29 puntos fronterizos de ferrocarril, carretera, aeropuertos y puertos, y el
análisis se centró en aspectos tales como el motivo del viaje a España, las razones para
elegir nuestro país como punto de destino, el tipo de alojamiento principal, el medio de
transporte utilizado, la edad del individuo y el tamaño del grupo, la organización del
viaje y el grado de cumplimiento de las expectativas creadas.
Por su parte, el informe sobre el segmento excursionistas2 se plantea como un
análisis complementario al del segmento turistas, ya que en un principio no estaba
previsto estudiar el comportamiento de los primeros. Transcurridos algunos meses desde
el inicio de la investigación, se consideró que podría aprovecharse la misma para tener
un mejor conocimiento de los excursionistas y para determinar el porcentaje de
visitantes que se consideraban como tales. De esta forma, además de las preguntas
relativas a nacionalidad y a motivaciones del viaje, que ya se venían realizando a los
turistas, se incluyeron otras cuestiones adicionales relacionadas con el gasto, el medio
de transporte utilizado, el grupo de viaje y la profesión del excursionista.
En una línea muy similar, la Secretaría General de Turismo comenzó a realizar
en Junio de 1993 un estudio mensual denominado “Movimientos turísticos en
fronteras”, cuyo objetivo fue alcanzar un conocimiento más completo tanto de los
movimientos turísticos de entrada a España como de los de salida de nuestro país. Más
2
Según la definición dada en este trabajo, se considera excursionista a todo aquel “visitante procedente
del extranjero que entra en nuestro país y no pernocta en él”. En consecuencia, excursionista es todo aquel
visitante que permanece en territorio español menos de un día.
- 38 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
concretamente, para los movimientos de entrada se pretendía fundamentalmente conocer
el país de residencia y la condición de excursionista o turista ( y, en este último caso, la
estancia prevista y la Comunidad Autónoma y provincia que constituía el destino del
viaje ) de las personas que entran en España. Por su parte, los objetivos planteados para
los movimientos de salida eran considerablemente más ambiciosos, ya que además de
conocer el país de residencia y el motivo principal del viaje de las personas que salen de
España, se pretendía con el estudio recabar la siguiente información:
a) Para los residentes fuera de España:
- Duración de la estancia.
- Motivos de elección de España.
- Zona principal de estancia.
- Tipo de alojamiento y medio de transporte.
- Grupo de viaje.
- Organización del viaje.
- Grado de satisfacción con el viaje.
- Gasto del viaje, tanto en España como fuera de ella.
b) Para los residentes en España:
- Destino del viaje.
- Duración prevista de la estancia.
- Motivos de elección del país de destino.
-Tipo de alojamiento previsto.
- 39 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Medio de transporte utilizado.
- Grupo de viaje.
- Organización del viaje.
Puesto que el diseño muestral de este estudio dependió, entre otros factores, de
los días de la semana y del tramo horario del día ( 3 tramos de 8 horas cada uno ), el
tamaño de la muestra mensual era variable, estableciéndose, no obstante, un número
mínimo mensual por cada vía de entrada y por cada vía de salida. A título indicativo,
entre Enero y Junio de 1994 se realizaron 16.857 encuestas a la entrada en nuestro país y
18.078 encuestas a la salida, siendo el número estimado de encuestas para un año
completo de unas 80.000, aproximadamente.
Finalmente, en los últimos años están proliferando las investigaciones
relacionadas con el análisis de la demanda de turismo rural en España. Como botón de
muestra de estos estudios, podría citarse la tesis doctoral “La Demanda de Turismo
Rural en España: especial referencia a la provincia de Málaga”, realizada en 1994
por Rafael Fuentes García. En este trabajo se analizan exhaustivamente las
características generales de la demanda turística en espacios rurales españoles. Sobre
una base empírica de 1.466 encuestas ( error muestral máximo de ± 2,9 % al 97,5 % de
confianza ), se presentan resultados relativos a las cuestiones siguientes:
- 40 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Marco general de la práctica de turismo en espacio rural ( lugares visitados,
distancia recorrida, medio de transporte empleado, etc. ).
- Conocimiento del destino turístico.
- Motivaciones para practicar turismo en espacio rural.
- Estacionalidad de este tipo de turismo.
- Tipo de alojamiento empleado.
- Grado de satisfacción del turista rural.
- Características socioeconómicas del turista rural ( edad, ingresos mensuales,
región de origen, etc. ).
En cualquier caso, este estudio no es ni el primero ni el último que aborda el
análisis de la demanda de turismo rural en España. De hecho, el doctor Bote Gómez,
que pasa por ser uno de los especialistas más reconocidos en el estudio del turismo en el
medio rural en España, ha realizado algunos trabajos ciertamente interesantes sobre esta
materia. De entre todos ellos podría citarse un estudio sobre la “Importancia de la
demanda turística en espacio rural en España”, realizado a partir de una muestra de
1.500 hogares que pasaron sus vacaciones principales en el medio rural en el año 1983 y
en el que se pretendía analizar los destinos vacacionales de estos turistas, la duración
media de sus vacaciones, el tipo de alojamiento utilizado, el grado de satisfacción
logrado, etc. Más recientemente, este mismo autor ha realizado en 1995 un
interesantísimo trabajo titulado “La demanda turística española en espacio rural o de
interior: situación actual y potencial” en el que la información aportada por un total
de 6.836 encuestas sirve de base para extraer conclusiones sobre el perfil, las
- 41 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
motivaciones y el comportamiento de la población española demandante de turismo en
espacio rural, identificando las diferencias más acusadas entre este tipo de turistas según
el período vacacional considerado.
En suma, a lo largo de las páginas anteriores se ha realizado un recorrido por las
investigaciones sobre demanda turística llevadas a cabo en España durante los últimos
años en función de los objetivos de la investigación. Debe aclararse, en cualquier caso,
que la anterior enumeración no pretende ser una relación exhaustiva de todos los
trabajos realizados en nuestro país sobre este tema, sino que la intención del autor ha
sido únicamente poner de manifiesto la existencia de múltiples estudios sobre la
demanda turística, de los cuales se han nombrado algunos de los más importantes. Sobre
la base de estos estudios se articulará la crítica que realizamos en este trabajo.
1.3. TECNICAS PARA EL ANALISIS DE LA INFORMACION.
El procesamiento de la información recabada sobre la demanda turística nacional
ha sido abordado mediante el empleo de diferentes técnicas. Además del cálculo de las
medidas básicas de estadística descriptiva, se podría agrupar el conjunto de técnicas
empleadas para analizar la información obtenida en dos grandes grupos:
- Análisis de regresión.
- Análisis multivariante.
- 42 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
El análisis de regresión es una técnica que se ha utilizado ampliamente para
realizar predicciones sobre la demanda turística. Uno de los trabajos que aborda este
tipo de técnicas y demuestra su validez para el análisis de la demanda turística es la tesis
doctoral “Análisis de la demanda: aplicación a la actividad turística de las técnicas
de predicción” de Esteban Talaya ( 1987 ). En este trabajo se abordan detalladamente
las principales técnicas de predicción de la demanda, tanto subjetivas como causales y
de series temporales, y se demuestra la utilidad de modelos econométricos y del enfoque
Box-Jenkins para el análisis de series temporales en la predicción de la demanda
turística nacional. En cualquier caso, el primero en demostrar la validez de las técnicas
econométricas para el conocimiento de la demanda turística fue Antonio Pulido San
Román ( 1966 ) en su obra “Introducción a un análisis econométrico del turismo”,
donde, además de proponer modelos para la predicción de la demanda, analiza la
distribución del mercado turístico internacional e identifica flujos turísticos entre varios
países de origen y países de destino. Otros trabajos posteriores, como los titulados
“Modelos de Demanda Turística Española” de 1986 y “Modelos de previsión de las
series del turismo español y análisis de coyuntura” de 1990, realizados ambos por la
Secretaría General de Turismo, ofrecen un análisis predictivo de las principales series
macroeconómicas del turismo español. Finalmente, los trabajos realizados durante los
últimos años por Esteban Talaya vienen a confirmar la necesidad de utilizar métodos
econométricos para predecir la demanda turística, y a proponer una metodología que
facilite la elección de las variables explicativas y de la técnica a emplear para realizar
predicciones fiables a medio y largo plazo. Es evidente que los estudios referenciados
no son los únicos que hacen uso de técnicas econométricas para el estudio de la
- 43 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
demanda turística, pero sí son los que con mayor rigor científico han abordado esta
problemática, razón por la cual otros trabajos menos importantes ( aunque no menos
válidos ) no han sido comentados.
El otro gran grupo de técnicas empleadas para el procesamiento de la
información estadística es el análisis multivariante y, más concretamente, el análisis
factorial y el análisis cluster.
El análisis factorial se utiliza para describir la variación entre un conjunto de
variables, en términos de unas pocas variables aleatorias subyacentes e inobservadas
llamadas factores. De esta forma, las covarianzas entre las variables observadas serán
explicadas por lo que se denominan factores comunes, mientras que lo que no queda
explicado por estos factores comunes se asocia a términos de error, que se conocen con
el nombre de factores únicos, y de los que se supone que están mútuamente
incorrelacionados. A partir de estos conceptos básicos, el análisis factorial asume que la
matriz de correlación entre las variables puede dividirse en dos partes: una primera parte
generada por los factores comunes, y una segunda parte generada por los errores. El
análisis factorial también puede ser considerado como un procedimiento estadístico para
agrupar variables en conjuntos, de forma que las variables incluidas en un mismo
conjunto están altamente correlacionadas entre sí, mientras que las variables
pertenecientes a diferentes conjuntos están relativamente incorrelacionadas. Para más
información sobre esta técnica puede consultarse Jobson ( 1992, pp. 388-426 ).
- 44 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Por su parte, el análisis cluster es una técnica estadística que combina las
observaciones en grupos relativamente homogéneos, denominados clusters. El punto de
partida de este análisis es una matriz de proximidad que mide la similitud de los
individuos con respecto a las variables consideradas. Los elementos de la matriz de
proximidad determinan la medida de proximidad entre diferentes observaciones. Las
medidas de proximidad que pueden emplearse son muy diversas: distancia euclídea,
distancia de Mahalanobis, métrica Minkowski, etc. En cualquier caso, el análisis cluster
hace uso de una metodología exclusivamente exploratoria, en el sentido de que permite
clasificar a la población en diferentes segmentos o clusters, pero el resultado obtenido
en el análisis ( que dependerá, en gran medida, de la técnica empleada, de las variables
consideradas, etc. ) difícilmente puede ser validado. Esta circunstancia representa uno
de los mayores inconvenientes de esta técnica estadística. Para un tratamiento más
detallado del análisis cluster puede consultarse Jobson ( 1992, pp. 483-568 ).
Tanto el análisis factorial como el análisis cluster se han utilizado en la
investigación turística, especialmente en la elaboración de tipologías de la demanda
turística. Algunos de los trabajos más sobresalientes en este sentido se citan a
continuación.
En el estudio de “Las vacaciones de los españoles en 1992”, la empresa
Cuanter no se limita a exponer las conclusiones obtenidas a partir de un estudio
descriptivo básico, sino que además lleva a cabo una clasificación de la población
turística en función de la actitud de los españoles hacia los viajes y de sus opiniones
- 45 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
sobre las vacaciones ( pp. 106 y ss. ). Con respecto a la actitud de la demanda turística
hacia los viajes, la aplicación de la técnica cluster permitió clasificar a los turistas en
seis grupos homogéneos y, a partir de esta tipología, identificar las características
sociodemográficas ( edad, nivel de estudios, ocupación, status socieconómico, etc. ) más
significativas de cada uno de los seis grupos obtenidos. Por su parte, atendiendo a sus
opiniones sobre las vacaciones, la utilización del análisis de tipologías permitió agrupar
a los individuos en los siguientes cinco grandes grupos: turistas de segunda residencia,
turistas sociales, turistas recreativos, turistas con inquietudes viajeras y turistas por puro
entretenimiento. Estos cinco grupos también fueron caracterizados mediante las
variables sociodemográficas más significativas.
Otro trabajo que utilizó técnicas de análisis multivariante para analizar la
demanda turística fue el denominado “Análisis de la demanda actual y potencial del
Camino de Santiago” realizado en 1993 por Consultur para la Secretaría General de
Turismo. En el capítulo 10 de este estudio se emplean varias técnicas de análisis
multivariante al objeto de agrupar a la población en segmentos homogéneos. Para ello,
las variables que se tuvieron en cuenta en un principio para realizar la clasificación
fueron un total de once atributos relacionados con el Camino de Santiago y la valoración
de nueve aspectos relacionados también con dicho Camino. Puesto que el número de
variables empleadas era bastante elevado ( en total, veinte variables ), con carácter
previo a la realización del análisis cluster se efectuó un análisis factorial al objeto de
simplificar los resultados del cluster, pasándose de esta forma de las veinte variables
iniciales a trece variables. A partir de este conjunto de variables, se confeccionaron un
- 46 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
total de diez clusters, cuyas características tipológicas se recogen en las páginas 186 a
193 del mencionado estudio. Por último, el trabajo realiza un análisis de segmentación
en el que se seleccionan las variables independientes que mejor explican el
comportamiento de la variable dependiente “Intención de realizar el Camino de
Santiago”. Las variables independientes seleccionadas fueron la ciudad de residencia, el
hábito viajero, la realización del Camino, la clase social y el cluster. A partir de estas
cinco variables, se identificaron grupos de personas con un comportamiento homogéneo
respecto a la mayor o menor intención de realizar el Camino en un futuro.
Concretamente, la variable principal en la primera iteración fue “Haber realizado el
Camino”, a partir de la cual se definieron dos grandes grupos. A continuación, mediante
iteraciones sucesivas se fueron definiendo grupos homogéneos, hasta obtener un total de
veintisiete grupos. Según se recoge en el informe elaborado por Consultur ( pag. 207 ),
la principal conclusión del análisis es que las variables más válidas para explicar la
intención de realizar el Camino son: haber realizado el Camino, pertenecer a los clusters
8, 6, 1 y 4 y residir en el centro de España, mientras que las demás variables no se
consideraron suficientemente explicativas.
La referencia más reciente sobre el empleo de técnicas de análisis multivariante
para el estudio de la demanda turística es el trabajo realizado por Bote Gómez en 1995 y
titulado “La demanda turística española en espacio rural o de interior: situación
actual y potencial”. En este trabajo se utilizó, en primer lugar, el método de las
tabulaciones cruzadas para segmentar la demanda turística española en espacio rural.
Pero dadas las limitaciones de este método, la segmentación a priori se complementó
- 47 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
con técnicas de tipología y, más concretamente, con el análisis cluster. Para ello, se
empleó el procedimiento de k-means, en el que se parte de un número predeterminado
de grupos, para crear posteriormente, en pasos sucesivos, una nueva distribución de
grupos hasta alcanzar la solución óptima. Como paso previo a la determinación de la
tipología, se empleó un análisis de correspondencia múltiple para reducir el elevado
número de variables iniciales a aquellas variables independientes verdaderamente
significativas, es decir, a aquellas que debían ser consideradas en el análisis cluster.
Finalmente, se aplicó la técnica del análisis cluster con un total de quince variables
independientes, lo que arrojó como resultado la clasificación del mercado turístico rural
español en tres clusters o segmentos diferenciados.
Evidentemente, el análisis de regresión y el análisis multivariante no han sido las
únicas técnicas que se han utilizado para el análisis de la demanda turística. De hecho,
Esteban Talaya ( 1994 ) cita, en su artículo sobre la medición del turismo metropolitano,
múltiples técnicas para el análisis de la información obtenida de los mercados turísticos.
Así, esta autora clasifica este conjunto de técnicas de análisis en cuatro grandes grupos3:
a) Estadísticas y experimentación:
- Medidas de posición, dispersión, concentración y distribución.
- Relaciones entre variables, regresión y correlación.
3
Si bien las técnicas citadas en dicho artículo se plantean para el análisis del turismo metropolitano,
Esteban Talaya aclara, y en ello está plenamente de acuerdo el autor de esta investigación, que las mismas
se pueden generalizar al análisis de la demanda turística general, sea cual sea su naturaleza, motivación o
localización geográfica.
- 48 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Experimentación: niveles comerciales, unidades experimentales.
- Análisis de la varianza.
b) Análisis multivariante:
- Métodos factoriales: componentes principales y análisis de correspondencia.
- Análisis discriminante y análisis cluster.
- Escalas multidimensionales métricas y no métricas.
c) Previsión de la demanda4:
- Técnicas subjetivas: encuestas, consenso de grupo, impactos cruzados, análisis
morfológico y método Delphi.
- Técnicas causales: modelos de regresión, modelo Input-Output, Dinámica de
Sistemas y modelos econométricos.
- Técnicas de series temporales: alisado de series, método X-11, modelos
probabilísticos, análisis espectral y enfoque Box-Jenkins.
d) Segmentación de mercados:
- Segmentación a priori: Belson, chi-cuadrado, análisis de la varianza, análisis
discriminante.
- Segmentaciones óptimas: modelo de Canguilhem, modelos AID y MAID,
análisis cluster, análisis factorial.
4
El lector interesado en estas técnicas puede consultar la tesis “Análisis de la demanda: aplicación a la
actividad turística de las técnicas de previsión” ( Esteban Talaya, 1987 ), en la que, de una forma mucho
más completa y detallada, se abordan las mismas.
- 49 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Como fácilmente puede deducirse de la anterior clasificación, el análisis
econométrico y el análisis multivariante no son los únicos métodos válidos para
procesar la información relativa a la demanda turística, si bien, por la importancia y por
el volumen de los trabajos científicos realizados sobre demanda turística nacional a lo
largo de los últimos años, aquellos métodos han sido los más utilizados habitualmente,
sin perjuicio del rigor y de la validez de las demás técnicas mencionadas.
1.4. ANÁLISIS ESTADÍSTICO DE DATOS CATEGÓRICOS Y DEMANDA
TURÍSTICA.
Las técnicas econométricas comentadas en el punto anterior son de enorme
utilidad para realizar predicciones de la demanda turística cuando tanto las variables a
predecir ( número de visitantes, pernoctaciones en establecimientos hoteleros, ingresos
por turismo, etc. ) como las variables explicativas del modelo ( Producto Interior Bruto,
Indice de Precios al Consumo, tipos de cambio, etc. ) son de naturaleza cuantitativa. Sin
embargo, estas técnicas no son aplicables al análisis de la demanda turística nacional
cuando la información disponible sobre la misma es de naturaleza cualitativa, como
sucede con la gran mayoría de los estudios sobre comportamiento de la demanda
turística realizados en España en los últimos años, en los que la información solicitada a
los turistas se recoge en un cuestionario estructurado en varias preguntas cuyas
respuestas son, por regla general, de carácter cerrado, es decir, con respuestas
categorizadas.
- 50 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
La anterior circunstancia condiciona en gran medida el tipo de técnica a emplear
para el análisis de la demanda. De hecho, mientras los estudios de previsión han
proliferado en los últimos años gracias a las aportaciones, entre otras, de Esteban Talaya
y se ha demostrado su enorme potencialidad, las técnicas estadísticas para el análisis de
encuestas han sido escasamente empleadas para el estudio de la demanda turística
española.
En concreto, la práctica totalidad de los trabajos mencionados en los apartados b)
y c) del epígrafe 1.3, así como otros muchos estudios referenciados en la bibliografía de
esta tesis ( y consultados, al igual que los anteriores, en el Centro de Documentación
Turística de España ), se limitan a reflejar en forma de tablas ( para valores absolutos,
porcentajes horizontales y porcentajes verticales ) o a representar gráficamente los
resultados que arroja la encuesta para, finalmente, extraer conclusiones tras un
procesamiento de la información mediante herramientas analíticas muy básicas. En otros
muchos casos, el análisis ha consistido en cruzar las variables de interés con otras que
permitan caracterizar aquellas de una forma aproximada. A título ilustrativo, en el
estudio “Las vacaciones de los españoles en 1994” se realiza una completa
caracterización de los viajes realizados por los españoles según múltiples variables. Así,
por ejemplo, para caracterizar los viajes según el destino de los mismos se cruza esta
última variable ( que es categórica, con dos categorías claramente diferenciadas: España,
extranjero ) con las variables duración media, motivo principal, transporte, alojamiento,
organización y planificación, compañía, número de acompañantes, gasto total, gasto
medio por persona, satisfacción con el viaje, edad y status socioeconómico. De igual
- 51 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
modo, la caracterización de los viajes según su duración se realiza cruzando la variable
duración media ( con las categorías “cuatro y más noches” y “menos de cuatro noches” )
con las variables antes mencionadas. De forma similar, se logra también una
caracterización de los viajes según motivación, según el tipo de alojamiento, según las
características sociodemográficas de los individuos, etc.
Si se tiene presente que la mayor parte de las variables utilizadas en estas
caracterizaciones son variables categóricas ( a excepción del número de acompañantes,
del gasto total y del gasto medio por persona; variables que, a pesar de todo, siempre
serían susceptibles de discretización o categorización ), se coincidirá en la apreciación
de que la citada caracterización de los viajes según una serie de variables no es más que
el resultado de la interpretación descriptiva de varias tablas de contingencia
bidimensionales. Así, por ejemplo, al cruzar la variable destino turístico ( España,
extranjero ) con la variable motivo principal ( visita a familiares y amigos, trabajo, ocio,
otros motivos ) se obtiene una tabla de contingencia bidimensional de dimensión 2x4,
de forma que las frecuencias observadas de dicha tabla pondrán de manifiesto, entre
otras cosas, si las personas que viajan al extranjero lo hacen más para visitar a familiares
o amigos que por trabajo, o si los turistas que pasan sus vacaciones en España viajan
más por motivos de ocio que para visitar a familiares o amigos.
De todo lo anterior se desprende que las múltiples tablas de contingencia
bidimensionales resultantes de cruzar diferentes variables de la encuesta permiten
elaborar algunas conclusiones a partir de los porcentajes horizontales o verticales
- 52 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
calculados en dichas tablas. Sin embargo, se podrían plantear, entre otras, las siguientes
cuestiones al respecto:
- ¿ Son las variables categóricas incluidas en esas tablas estadísticamente
independientes o, por el contrario, las categorías de una variable condicionan la
distribución de las categorías de la otra variable ?.
- ¿ Cómo podría analizarse simultáneamente el grado de asociación entre un
conjunto de más de dos variables categóricas, por ejemplo, destino, motivo principal,
alojamiento y transporte ?. En otros términos, ¿ cómo deben analizarse las relaciones de
dependencia en una tabla de contingencia de dimensión IxJxKxL ?.
- ¿ Qué probabilidad existe de que un turista se sitúe en una categoría
determinada de una variable, sabiendo que se encuentra en tres categorías concretas de
otras tantas variables ?. Por ejemplo, ¿ cuál sería la probabilidad de que un turista, que
viaja por motivos de trabajo, que se aloja en establecimientos hoteleros y que utiliza un
medio de transporte colectivo, viaje al extranjero ?.
Estas y otras muchas preguntas pueden ser abordadas mediante determinadas
técnicas estadísticas que han experimentado un notable desarrollo a partir de mediados
de los años setenta en Estados Unidos y en el Norte de Europa. Así, técnicas como la
modelización logarítmico-lineal y el modelo logit para variables categóricas han sido
ampliamente utilizadas en campos como la psicología, la medicina o la biología, donde
- 53 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
han demostrado sus grandes potencialidades para el análisis multivariante de datos. Sin
embargo, con una única excepción5, las citadas técnicas no han sido trasladadas aún al
ámbito de la investigación de la demanda turística. Uno de los objetivos del presente
trabajo es, precisamente, demostrar la utilidad de dichas técnicas en este campo.
En cualquier caso, es preciso aclarar que el autor de esta tesis no está
sosteniendo con las afirmaciones anteriores la idea de que el análisis realizado en los
estudios de demanda turística en España sea de mala calidad. Más bien al contrario, el
coste temporal y económico de obtención de la información6 y la elaboración de datos
básicos que hagan posible una primera aproximación al problema exige un esfuerzo, que
es alabable per se. Así pues, lo que en realidad pretende plasmarse en estas líneas es que
los estudios sobre demanda turística en España hacen uso de la información
suministrada por las encuestas a un nivel de aprovechamiento muy reducido. De hecho,
el enorme caudal de información que aporta un proceso de encuestación permite
“infinitas” posibilidades de análisis que van más allá del mero estudio descriptivo de la
5
De todos los trabajos consultados por el autor de esta tesis, la única referencia sobre el uso de estas
técnicas que se ha encontrado es el análisis estadístico realizado por Cuanter en “Las vacaciones de los
españoles en 1992”, donde se hace uso de modelos log-lineales para conseguir los objetivos siguientes:
- Obtener las relaciones existentes entre las características sociodemográficas del turista y el acto
de viajar.
- Identificar las interrelaciones entre las características del viaje principal, la realización de viajes
secundarios y las características sociodemográficas del turista.
- Interrelacionar las características sociodemográficas, las características del viaje principal y los
grupos obtenidos en la aplicación de un análisis de tipologías.
Partiendo de nueve frases representativas de la actitud del turista ante sus vacaciones, se
identificaron en este trabajo las variables sociodemográficas que introducen diferencias significativas en
la opinión del turista ante las vacaciones. Para más información sobre las conclusiones de este trabajo,
puede consultarse el informe “Las vacaciones de los españoles en 1992 “ ( pp. 103-106 ).
6
No debe olvidarse que la elaboración de información de base para posteriores análisis científicos
representa uno de los problemas más importantes de la investigación moderna.
- 54 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
información. En suma, las técnicas estadísticas que se presentan en este trabajo
pretenden simplemente erigirse en herramientas al servicio de la investigación de la
demanda de turismo en España, que permitan “exprimir” y emplear de forma más
eficiente la costosa información contenida en las encuestas.
En otro orden de cosas, el análisis cluster se ha erigido en una de las
herramientas estadísticas más útiles para segmentar el mercado turístico, tal y como se
ha comentado con detalle en el epígrafe anterior. En relación a la segmentación de
mercados, y sin entrar en el concepto y en los requisitos de la segmentación,
Santesmases ( 1991, pag. 175 ) señala que los criterios de segmentación de mercados de
consumo pueden clasificarse en generales o específicos, siendo los primeros los que son
independientes del producto o del proceso de compra, y los segundos los que están
relacionados con el producto o con el proceso de compra. Tanto los criterios generales
como los específicos pueden, a su vez, ser objetivos ( los que están relacionados con
factores observables y de fácil medición ) o subjetivos ( los relacionados con aspectos
internos de los individuos y, por tanto, más difícilmente medibles ). De la combinación
de las dos clasificaciones anteriores se obtienen cuatro grandes grupos de criterios de
segmentación, de los cuales nos interesa destacar los criterios generales subjetivos y,
fundamentalmente, los criterios específicos subjetivos. Entre los primeros se
encuentran los criterios de personalidad ( liderazgo, autoridad, autonomía ) y los
criterios de estilo de vida ( actividades, opiniones, centros de interés, etc. ), mientras que
entre los segundos cabe mencionar los criterios relacionados con la ventaja o beneficio
buscado, los criterios de actitudes, los de percepciones y los de preferencias.
- 55 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
Por otra parte, y siguiendo la adaptación realizada por Esteban Talaya ( 1996a,
pag. 292 ) de la clasificación recogida en Santesmases ( 1992, pag. 184 ), los métodos
de segmentación pueden clasificarse en métodos a priori ( cuando el procedimiento
empleado parte de un número de grupos previamente establecido ) y en métodos
óptimos ( cuando el procedimiento empleado no parte de grupos preestablecidos, sino
que trata de determinar el número óptimo de grupos en que debe segmentarse el
mercado ). Según que las técnicas empleadas pretendan explicar uno o más
comportamientos en función de las características de cada grupo ( o segmento ) o, por el
contrario, se limiten exclusivamente a detectar la existencia de grupos ( o tipos )
homogéneos entre sí, pero sin explicar el comportamiento de los tipos identificados, la
literatura distingue entre segmentación propiamente dicha y tipología, respectivamente.
A partir de esta doble distinción entre las técnicas de segmentación, se puede establecer
la clasificación que recoge el Cuadro 1.2, que puede encontrarse en cualquier manual de
marketing. Para una descripción más detallada de las técnicas recogidas en el
mencionado cuadro pueden consultarse Santesmases ( 1992, pp. 184-187 ) o Esteban
Talaya ( 1996a, pp. 292-299 ).
Pues bien, el modelo de Análisis de Clases Latentes ( tanto el general como los
casos especiales derivados del mismo ) que se presenta en este trabajo se propone como
una técnica de segmentación ( propiamente dicha ) óptima que utiliza criterios
subjetivos, tanto generales como específicos, para identificar diferentes segmentos. Esta
técnica es muy válida para definir segmentos de población homogéneos entre sí sin
- 56 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
considerar previamente un determinado número de segmentos, por lo que habría que
encuadrarla en el grupo de técnicas óptimas.
Cuadro 1.2
Clasificación de las técnicas de segmentación
Diseño
Segmentación
A priori
- Método Belson
- Método χ 2
- Método Morgan-Sonsquit
- Tabulaciones cruzadas
- Análisis de la Varianza
- Análisis Discriminante
Optimización
- Automatic Interaction Detector ( AID )
- Multivariable Automatic Interaction
Detector ( MAID )
- Análisis Cluster
- Análisis Factorial
- Análisis multidimensional
Tipología
Fuente: Esteban Talaya ( 1996a, pag. 292 ).
La estimación de las probabilidades condicionadas correspondientes a cada
segmento permitirá caracterizar el comportamiento de cada uno de ellos, razón por la
que el modelo ACL debe considerarse como un método de segmentación propiamente
dicho. Por último, se comentó anteriormente que los criterios subjetivos de
segmentación no pueden ser, por lo general, cuantificados directamente debido a que
están relacionados con individuos. Esta dificultad ( y, en algunos casos, imposibilidad )
de medición explica, en parte, el hecho de que estos criterios sean menos utilizados para
segmentar que los criterios objetivos, a pesar de que aquellos podrían identificar
segmentos con diferencias significativas entre ellos con mayor precisión que éstos
últimos. En relación a este inconveniente, el modelo ACL permite emplear estos
- 57 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
criterios subjetivos para realizar segmentaciones, ya que la hipótesis de partida de este
modelo es que en el ámbito de la investigación social existen multitud de variables que
no pueden observarse directamente, sino únicamente a través de ciertas manifestaciones
de las mismas, motivo por el que se les conoce con el nombre de variables latentes. De
esta forma, si consideramos que las actitudes, las percepciones, las preferencias, etc., de
los consumidores ( en este caso, de los turistas ) son variables latentes, medibles
únicamente a través de sus múltiples manifestaciones, el modelo ACL podría ser
considerado como una técnica de segmentación óptima basada en criterios subjetivos
con una tremenda potencialidad en el ámbito de la investigación de la demanda turística
española, tal y como pretendemos demostrar en este trabajo.
Para finalizar, un sencillo ejemplo permitirá apreciar con más facilidad la esencia
del modelo ACL cuya metodología será ampliamente tratada en el Capítulo Quinto de
este trabajo. A partir de los datos de la Encuesta Social General de 1982 realizada en
Estados Unidos, McCutcheon ( 1987 ) se plantea la segmentación del mercado,
empleando como criterio la percepción del individuo sobre las entrevistas. Partiendo del
hecho de que esta percepción no puede observarse de forma directa, sino que deben
emplearse otras medidas o variables observadas, utilizó los siguientes cuatro
indicadores:
- Propósito: Consideración de las entrevistas como un método útil o como una
pérdida de tiempo ( tres categorías ).
- 58 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
- Precisión: Opinión sobre el grado de confianza que inspiran los resultados de
las encuestas ( dos categorías ).
- Cooperación: Conocimiento de la actitud amable u hostil del entrevistado ( tres
categorías ).
- Entendimiento: Conocimiento, por parte del entrevistado, del grado de
entendimiento de las preguntas de la encuesta ( dos categorías ).
Estos cuatro indicadores forman una tabla de contingencia de dimensión
3x2x3x2, para la que la aplicación del modelo ACL general arrojó la segmentación del
mercado en los tres grupos siguientes:
a) Individuos ideales: la mayoría considera muy útiles las encuestas, creen que
en prácticamente todos los casos los resultados de las mismas son fiables, prácticamente
todos ellos manifiestan una actitud amable e interesada ante el entrevistador y tienen un
entendimiento extraordinario de las preguntas de la encuesta.
b) Individuos partidarios: poseen un comportamiento similar a los individuos
ideales con respecto a los indicadores “propósito” y “precisión”. En su mayoría, se
mostraron amables durante la entrevista pero, a diferencia de los escépticos, tienen un
pobre entendimiento de las preguntas de la encuesta.
- 59 -
Capítulo Primero: La investigación de la demanda turística en España
____________________________________________________________________________________
c) Individuos escépticos: por lo general, consideran que las encuestas son una
pérdida de tiempo y de dinero. Piensan que en muy pocas ocasiones se puede confiar en
sus resultados. Un porcentaje significativo de ellos se mostró apático y hostil durante la
entrevista, a pesar de que la mayoría de los individuos de este segmento entienden bien
las preguntas de la encuesta.
Tras los comentarios generales realizados en este primer capítulo, emplazamos al
lector a los capítulos siguientes, en los que se tratarán con detalle las técnicas
estadísticas propuestas para el análisis de la demanda turística ( a saber, modelo loglineal, modelo logit para variables categóricas y modelo ACL ) y se intentará poner de
manifiesto, con la ayuda de una encuesta del Centro de Investigaciones Sociológicas,
sus grandes potencialidades.
- 60 -
CA PÍ T U L O S E G U N D O
FUNDAMENTOS PARA EL ANÁLISIS
DE TABLAS DE CONTINGENCIA
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
2.1. INTRODUCCIÓN.
El análisis de tablas de contingencia gravita en torno a las nociones de
independencia y de independencia condicionada de variables aleatorias. De hecho,
cuando se estudia la asociación existente entre variables, el proceso analítico se inicia
con la verificación de la independencia entre las mismas, continúa con la identificación
de otras variables que puedan condicionar esa independencia y finaliza con la
cuantificación de la interrelación, si ésta existe, entre las variables objeto de análisis.
Una de las formas de verificar la existencia de independencia o de cuantificar la
intensidad de la asociación entre dos variables es mediante el cálculo de un coeficiente
ampliamente utilizado en el análisis de tablas de contingencia. Este coeficiente recibe el
nombre de odds ratio ( o cociente de ventajas ).
Por su relación con las técnicas estadísticas que serán abordadas en capítulos
posteriores, la distribución de Bernoulli multidimensional ( obtenida al estudiar
conjuntamente dos o más variables aleatorias de Bernoulli ) y, más concretamente, la
expansión log-lineal de su función de probabilidad conjunta es otra noción fundamental
para el análisis de tablas de contingencia. La importancia de dicha expansión reside en
el hecho de que algunos de los términos obtenidos en la misma permitirán contrastar la
independencia entre las variables analizadas.
- 63 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Las nociones de independencia y de independencia condicionada tienen su
reflejo en la llamada teoría de grafos, de forma que la independencia, la independencia
condicionada o la asociación entre dos o más variables pueden representarse en un
gráfico que esquematiza las relaciones existentes en un vector aleatorio dado.
En suma, estas nociones, que son bastante elementales y ampliamente utilizadas,
constituyen el punto de partida para el análisis estadístico de tablas de contingencia. En
consecuencia, dedicaremos el presente capítulo a introducir estos fundamentos, los
cuales nos van a facilitar con posterioridad construir la teoría estadística sobre tablas de
contingencia que abordamos en este trabajo.
2.2. INDEPENDENCIA DE SUCESOS E INDEPENDENCIA DE VECTORES
ALEATORIOS.
2.2.1. Independencia de sucesos.
Sea ( Ω , ξ , P ) un espacio probalístico; sean A y B dos sucesos definidos sobre el
espacio muestral Ω ; y sea P una función que asigna una probabilidad a cada suceso del
espacio muestral.
Definición 2.2.1.1. Los sucesos A y B son independientes si y sólo si
P( A ∩ B) = P( A) × P( B) y se representa por A ⊗ B .
- 64 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
La relación de independencia entre sucesos no es reflexiva, porque A no es
independiente de A, ni transitiva, porque A ⊗ B y B ⊗ C no implica que A ⊗ C . Por
otra parte, la relación es simétrica ya que se verifica que A ⊗ B implica que B ⊗ A .
Además, la independencia entre los sucesos A y B también implica que A ⊗ B ,
donde B es el suceso complementario de B, verificándose igualmente que la
independencia de los sucesos A y B es equivalente a la independencia de los sucesos A
y B.
Considerando que la probabilidad condicionada de A dado B viene dada por
P( A B) = P( A ∩ B) P( B) y se define sólo si P( B) > 0 , una formulación equivalente
del concepto de independencia de sucesos es la siguiente:
Definición 2.2.1.2. Dos sucesos, A y B, serán independientes ( A ⊗ B ) si y sólo
si P( A B ) = P( A) .
En conexión con la definición anterior y considerando el suceso complementario
de B, también es posible afirmar que A ⊗ B si y sólo si P( A B) = P( A B ) .
Definición 2.2.1.3. Tres sucesos A, B y C son mútuamente independientes si y
sólo si cada par de sucesos son independientes y además se verifica que
P ( A ∩ B ∩ C ) = P ( A) × P ( B ) × P ( C ) .
- 65 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Sin embargo, aunque todos los pares de sucesos sean independientes, podría
ocurrir que los 3 sucesos no sean mútuamente independientes, es decir, las relaciones
A ⊗ B y A ⊗ C no implican que A ⊗ B ∩ C . Cuando deseemos indicar que A es
independiente tanto de B como de C, utilizaremos la expresión A ⊗ [ B, C] la cual
significa que A es independiente de cualquier suceso de la partición del espacio muestral
generada por B y C. En consecuencia:
A ⊗ [ B, C] ⇔
A ⊗ B ∩ C,
A ⊗ B∩C,
A ⊗ B ∩ C,
De igual forma, se puede demostrar que A ⊗ B,
A ⊗ C,
A⊗ B ∩C
A ⊗ B ∩ C implican
en conjunto que A ⊗ [ B, C] .
Una forma más provechosa de generalizar la relación entre dos sucesos a la
interrelación entre un conjunto de sucesos es la que viene determinada por la
independencia condicionada. Existe una definición “débil” y una definición “fuerte”
de independencia condicionada.
Definición 2.2.1.4. Definición débil de independencia condicionada. Los sucesos
A y B son condicionalmente independientes dado el suceso C si y sólo si
P( A ∩ B C ) = P( A C ) × P ( B C ) . Esta relación se representa como A ⊗ B C , y en la
misma se supondrá siempre que P( C ) > 0 .
- 66 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
En este caso, existe una relación simétrica entre los sucesos A y B, ya que
A ⊗ B C implica que B ⊗ A C y que A ⊗ B C . Sin embargo, no implica ni es
implicada por A ⊗ B C . En consecuencia, la expresión A ⊗ B C significa que los
sucesos A y B son independientes si ocurre el suceso C y que no se puede decir nada
sobre la relación entre A y B si el suceso C no ocurre.
Definición 2.2.1.5. Definición fuerte de independencia condicionada. Dados los
sucesos A, B, C y D, existirá independencia condicionada de los sucesos A y B si
A ⊗ B [C , D] , que significa que los sucesos A y B son independientes dado cualquier
suceso del espacio muestral generado por los sucesos C ∩ D , C ∩ D , C ∩ D y
C∩D.
Expresado en otros términos, esta definición fuerte implica que:
A ⊗ B [C , D] ⇔
A ⊗ B C ∩ D,
A ⊗ B C ∩ D,
A ⊗ B C ∩ D,
A⊗ B C ∩D
Como es obvio, esta definición se puede generalizar a una partición generada por
un número arbitrario de sucesos.
Como consecuencia de lo anterior, obsérvese que A ⊗ B [C] es una afirmación
más fuerte que A ⊗ B C , y que A ⊗ B [C , D] no implica que A ⊗ B C ni que
A ⊗ B C ∪ D.
- 67 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Proposición 2.2.1.1. Independencia por bloques de sucesos. Si P es una función
de probabilidad positiva en la partición generada por los sucesos A, B y C, entonces las
afirmaciones
(1)
A ⊗ [ B, C] y
(2)
A ⊗ [ B] [C] , A ⊗ [C ] [ B]
son equivalentes ( para demostración, véase Whittaker, 1990, pag. 29 ).
2.2.2. Odds y odds ratio.
Las relaciones entre dos sucesos pueden analizarse también a través de la noción
de odds ( ventaja ) y de odds ratio ( cociente de ventajas, también llamado ratio de
producto cruzado ).
Definición 2.2.2.1. Si A es un suceso con probabilidad P( A) , su odds se define
como el cociente P( A) P( A ) .
El odds de un suceso A permite saber si dicho suceso es más probable que su
contrario A , o si éste último es más probable que aquel. Como fácilmente puede
deducirse, el odds del suceso A sólo será igual a 1 cuando los sucesos A y A sean
equiprobables.
- 68 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Definición 2.2.2.2. El odds condicionado del suceso A dado el suceso B se
define como:
odds ( A B) =
P( A B )
P( A B)
Definición 2.2.2.3. El odds ratio, o ratio de producto cruzado, entre los sucesos
A y B se define de la siguiente forma:
rpc ( A, B) =
P( A ∩ B) × P( A ∩ B )
P( A ∩ B) × P( A ∩ B )
y representa una de los múltiples medidas de asociación entre los sucesos A y B.
El ratio de producto cruzado es igual a 1 si y sólo si los sucesos A y B son
independientes. Este coeficiente puede calcularse también a partir de las probabilidades
condicionadas de A y de A dados B y B de la siguiente forma:
rpc (A,B) =
P( A B) × P( A B )
P( A B) × P( A B )
Además, el ratio de producto cruzado también compara el odds condicionado del
suceso A dado B con el odds condicionado del suceso A dado B , ya que se verifica que:
- 69 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
rpc ( A, B) =
odds ( A B)
odds ( A B )
2.2.3. Independencia de vectores aleatorios.
Definición 2.2.3.1. Los vectores aleatorios X e Y son independientes si y sólo si
la función de probabilidad conjunta f XY ( x , y ) verifica que
f XY ( x , y ) = f X ( x ) × f Y ( y )
para todos los valores x e y de las variables X e Y. Esta relación se representa por
X ⊗Y .
Por tanto, X e Y son independientes si y sólo si la función de probabilidad
conjunta es igual al producto de las funciones de probabilidad marginales. La relación
de independencia entre dos variables es simétrica. Al igual que ocurría con sucesos,
también puede enunciarse la noción de independencia entre variables como sigue:
X ⊗Y
⇔
fX
Y
(x, y) =
f X ( x ) para todo x
es decir, que X ⊗ Y si y sólo si la función de probabilidad condicionada y la función de
probabilidad marginal coinciden.
- 70 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Proposición 2.2.3.1. Criterio de factorización para vectores aleatorios
independientes. Los vectores aleatorios X e Y son independientes si y sólo si existen dos
funciones g y h tales que:
f XY ( x , y ) = g( x ) × h( y ) para todo x e y
Proposición 2.2.3.2. Reducción: la independencia conjunta implica la
independencia marginal. Si (X,Y,Z) es un vector aleatorio, entonces X ⊗ (Y , Z ) implica
que X ⊗ Y y que X ⊗ Z .
Definición 2.2.3.2. Los vectores aleatorios Y y Z son condicionalmente
independientes dado X si y sólo si
f YZ
X
( y , z; x ) =
fY
X
( y; x ) ×
fZ
X
( z; x )
para todos los valores de Y y de Z y para todos aquellos valores de X que verifican
f X ( x ) > 0 . Esta relación se representa como Y ⊗ Z X .
La anterior definición es la equivalente a la definición fuerte de independencia
condicionada de sucesos, A ⊗ B [C] , y no a la definición débil A ⊗ B C . Además,
X ⊗ Y (Z ,W ) denota que X e Y son condicionalmente independientes dado el vector
aleatorio (Z,W).
- 71 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Las otras dos formulaciones equivalentes de la anterior definición serían:
fY
XZ
( y; x , z ) =
f XYZ ( x , y , z ) =
fY
X
( y; x )
y
f XY ( x , y ) × f XZ ( x , z)
f X (x)
La primera expresión representa el hecho de que la independencia condicionada
de Y dado Z significa que la variable Z puede ser descartada del vector que condiciona.
La segunda expresión significa que la independencia condicionada puede expresarse
enteramente en términos de funciones de probabilidad marginales.
Proposición
2.2.3.3. Criterio de factorización para la independencia
condicionada. Los vectores aleatorios Y y Z son condicionalmente independientes dado
X ( Y ⊗ Z X ) si y sólo si existen unas funciones g y h tales que
f XYZ ( x , y , z ) = g( x , y ) × h( x , z ) para todo y y z
y para todo x con f X ( x ) > 0 .
Proposición 2.2.3.4. Criterio de reducción. Si (X,Y,Z1,Z2) es un vector aleatorio,
entonces Y ⊗ (Z1 , Z2 ) X implica que Y ⊗ Z1 X .
- 72 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Proposición 2.2.3.5. Criterio de independencia por bloques. Si (X,Y,Z1,Z2) es un
vector aleatorio y f es una función positiva, entonces las siguientes afirmaciones son
equivalentes:
(a) Y ⊗ (Z1 , Z2 ) X y
(b) Y ⊗ Z1 ( X , Z2 ) y Y ⊗ Z2
( X , Z1 )
Combinando el criterio de reducción y el criterio de independencia por bloques
se deduce que si partimos de Y ⊗ Z1 ( X , Z2 ) y de Y ⊗ Z2
( X , Z1 ) , se puede utilizar la
independencia por bloques para demostrar que Y ⊗ (Z1 , Z2 ) X , y posteriormente aplicar
el criterio de reducción para concluir que Y ⊗ Z1 X .
Proposición 2.2.3.6. Si (X,Y,Z1,Z2) es un vector aleatorio, entonces las
siguientes afirmaciones son equivalentes:
(a) Y ⊗ (Z1 , Z2 ) X y
(b) Y ⊗ Z2
( X , Z1 ) y Y ⊗ Z1
X
El criterio de factorización para la independencia conduce a una medida de
dependencia. Particionemos el vector k-dimensional X = (X1, X2, ..., Xk) en (X1, X2, Xa),
donde a = {3, 4, ..., k}, de forma que Xa es el vector (X3, X4, ..., Xk), y X1 y X2 son dos
variables aleatorias unidimensionales. Dada la función de probabilidad conjunta
f 12 a ( x1 , x2 , xa ) , el criterio de factorización establece que la condición necesaria y
suficiente para la independencia condicionada de X 1 y de X 2 dado X a ( esto es,
- 73 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
X 1 ⊗ X 2 X a ) es la existencia de unas funciones g y h , tales que permitan que la
función de probabilidad conjunta se pueda factorizar de la siguiente forma:
log f 12 a ( x1 , x2 , xa ) = g( x1 , xa ) + h( x2 , xa )
de manera que si a es un conjunto vacío, estaremos ante la condición de independencia
marginal.
Proposición 2.2.3.7. La condición necesaria y suficiente para la independencia
condicionada entre las variables discretas X 1 y X 2 , dado X a ( X 1 ⊗ X 2 X a ) es que
i12 a ( x1 , x2 ; xa ) = 0 para todos los valores x1 y x2 , donde la diferencia parcial cruzada de
interacción condicionada i12 a ( x1 , x 2 ; x a ) viene dada por la expresión siguiente:
i12 a ( x1 , x 2 ; x a ) = ∇ 1∇ 2 log f 12 a ( x1 , x 2 ; x a )
siendo ∇1 y ∇ 2 las diferencias asociadas a las variables discretas X 1 y X 2 ,
respectivamente1.
Considérese ahora la diferencia parcial cruzada de interacción marginal i12 , la
cual viene dada por la expresión siguiente:
1
Dada una variable aleatoria discreta X, la diferencia ∇ se define de la siguiente forma:
∇g( x ) = g( x + 1) − g( x )
para
- 74 -
x = 0, 1, 2, !
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
i12 ( x1 , x2 ) = ∇1∇ 2 log f 12 ( x1 , x2 )
Se puede demostrar fácilmente que esta diferencia es la misma para la función de
probabilidad conjunta y para las dos funciones de probabilidad condicionadas, es decir:
i12 = ∇1∇ 2 log f 12 = ∇1∇ 2 log f 1 2 = ∇1∇ 2 log f 2 1
En consecuencia, i12 es una medida de interacción invariante al diseño muestral,
puesto que arroja el mismo resultado cuando se utiliza un esquema conjunto, o un
esquema retrospectivo donde X 2 es fijo y X 1 es observado, o un esquema prospectivo
donde X 1 es fijo y X 2 es observado.
2.2.4. Colapsabilidad de vectores aleatorios.
Definición 2.2.4.1. Si un conjunto de variables se particiona en tres vectores
X a , X b y X c , se dice que el vector ( X a , X b , X c ) es paramétricamente colapsable
sobre X a si la interacción entre X b y X c se puede estimar indistintamente a partir del
conjunto completo de datos o a partir del vector marginalizado sobre X a .
- 75 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Proposición 2.2.4.1. El vector ( X a , X b , X c ) es colapsable sobre X a si
X a ⊗ X b X c o si X a ⊗ X c X b .
2.3. EXPANSIÓN LOG-LINEAL DE LA DISTRIBUCIÓN DE BERNOULLI.
2.3.1. La distribución de Bernoulli.
Definición 2.3.1.1. Una variable aleatoria de Bernoulli es aquella que recoge el
resultado de un experimento aleatorio que puede dar lugar exclusivamente a dos
resultados, de forma que la variable X tomará el valor 1 con probabilidad p, si ocurre
un resultado, y el valor 0 con probabilidad 1-p, si ocurre el otro resultado y su función
de probabilidad es la siguiente:
f X ( x ) = p x (1 − p)
1− x
x = 0, 1 y
para
0< p<1
Esta distribución puede generalizarse al caso k-dimensional. En concreto, la
distribución bidimensional de Bernoulli viene definida por el vector aleatorio ( X 1 , X 2 ),
cuya función de probabilidad es:
p( x1 , x2 ) = p(0,0)
( 1− x1 ) ( 1− x 2 )
p(0,1)
( 1− x1 ) x 2
para x1 = 0, 1 y x2 = 0, 1 .
- 76 -
p(1,0) 1
x ( 1− x 2 )
p(1,1) 1
x x2
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
2.3.2. Expansión log-lineal para el caso bidimensional.
Si en la expresión anterior se toman logaritmos y se reducen términos en x1 y en
x2 se tendrá que:
log f 12 ( x1 , x2 ) = log p(0,0) + x1 log
p(1,0)
p(0,1)
p(1,1) × p(0,0)
+ x2 log
+ x1 x2 log
p(0,0)
p(0,0)
p(0,1) × p(1,0)
para todo ( x1 , x2 ) .
La expresión anterior es una forma bilineal, lineal tanto en x1 como en x2 . La
reparametrización de la parte derecha de la anterior expresión conduce a su expansión
log-lineal, que viene dada por:
log f 12 ( x1 , x2 ) = u0 + x1 u1 + x2 u2 + x1 x2 u12
El coeficiente u1 = log
para todo ( x1 , x2 )
p(1,0)
es el logaritmo del odds del suceso X 1 = 1 frente
p(0,0)
al suceso X 1 = 0 condicionado a que X 2 = 0 . Por su parte, el coeficiente u12 es el
logaritmo del ratio de producto cruzado, es decir:
u12 = log rpc( X 1 , X 2 )
Por tanto, la función de probabilidad f 12 puede expresarse en función de las
probabilidades conjuntas p( x1 , x2 ) o en función de los términos u, de forma que para
calcular dichos términos u a partir de las probabilidades p( x1 , x2 ) , bastará sustituir en la
- 77 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
expansión log-lineal
( x1 , x2 )
por los pares de valores (0,0), (0,1), (1,0) y (1,1),
obteniéndose de esta forma lo siguiente:
log p(0,0) = u0
log p(1,0) = u0 + u1
log p(0,1) = u0 + u2
log p(1,1) = u0 + u1 + u2 + u12
Proposición 2.3.2.1. Las variables aleatorias X 1 y X 2 serán independientes si
y sólo si u12 = 0 .
2.3.3. Expansión log-lineal para el caso tridimensional.
La distribución de Bernoulli puede también generalizarse al caso tridimensional,
dando lugar a la llamada distribución tridimensional de Bernoulli, que vendrá dada por
el vector aleatorio ( X 1 , X 2 , X 3 ) cuya función de probabilidad conjunta es la siguiente:
f 123 ( x1 , x2 , x3 ) = p123 ( x1 , x2 , x3 )
para x1 = 0, 1 ; x2 = 0, 1 y x3 = 0, 1 .
- 78 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
La expansión log-lineal de la anterior función de probabilidad se lleva a cabo de
forma similar al caso bidimensional. Así, la citada expansión vendrá dada por la
expresión siguiente:
log f ( x1 , x2 , x3 ) = u0 + x1 u1 + x2 u2 + x3 u3 + x1 x2 u12 + x1 x3 u13 + x2 x3 u23 + x1 x2 x3 u123
en la que se verifica que:
u23 = log rpc( X 2 , X 3 X 1 = 0)
u123 = log
rpc( X 2 , X 3 X 1 = 1)
rpc( X 2 , X 3 X 1 = 0)
Las expresiones de los términos u12 y u13 son equivalentes a la del término u23 .
El término u de mayor orden, u123 , mide la diferencia en el logaritmo del ratio de
producto cruzado condicionado entre X 2 y X 3 cuando X 1 cambia de 0 a 1. Además,
u123 es simétrico en X 1 , X 2 y X 3 y es una medida de interacción de dimensión tres
entre estas variables.
Además, la medida de interacción entre X 2 y X 3 , condicionada a X 1 , aisla los
coeficientes de los términos en x2 x3 en la expansión log-lineal, ya que se verifica que:
i23 1 ( x2 , x3 ; x1 ) = u23 + x1 u123 = log rpc( X 2 , X 3 X 1 = x1 )
para x1 = 0 y para x1 = 1 .
- 79 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Proposición 2.3.3.1. Si ( X 1 , X 2 , X 3 ) es un vector aleatorio que sigue una
distribución trivariante de Bernoulli, entonces las tres expresiones siguientes son
equivalentes:
a)
X 2 ⊗ X 3 X1
b)
u23 = 0 y u123 = 0
c)
rpc( X 2 , X 3 X 1 = x1 ) = 1 para
x1 = 0, 1
2.4. TEORÍA DE GRAFOS E INDEPENDENCIA.
Las definiciones que siguen no tienen como objetivo profundizar excesivamente
en la teoría de grafos, ya que éste no es un objetivo esencial de esta investigación, sino
únicamente introducir algunos términos elementales que, en capítulos posteriores,
permitirán interpretar correctamente las representaciones gráficas de modelos y
comprender sus implicaciones en términos de independencia.
Definición 2.4.1. Un gráfico G = ( ν, ε ) es una estructura formada por un
conjunto finito ν de vértices ( también llamados nodos ) y por un conjunto finito ε de
líneas ( también llamadas arcos ) entre los vértices.
En nuestro contexto, los vértices representan las variables que están siendo
analizadas. Por tanto, los vértices del gráfico serán designados con las letras que
- 80 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
identifiquen a las correspondientes variables ( X, Y, Z, ... ). Por su parte, una línea entre
los vértices X e Y se representará por [XY] o, de forma equivalente, por [YX].
Por otro lado, en los gráficos que nosotros consideraremos, cada par de vértices
puede estar unido o no entre sí mediante una línea. En todos los casos, las líneas que
unan dos vértices serán no direccionadas, esto es, en ningún caso incluirán una punta de
flecha que indique la dirección de la asociación que existe entre las variables
implicadas. Además, en función de que las variables representadas en el gráfico sean
discretas o sean continuas, los vértices se representarán mediante un punto o mediante
un círculo, respectivamente. Dada la naturaleza de las variables con las que
trabajaremos, representaremos los vértices del gráfico mediante puntos.
Definición 2.4.2. Dos vértices X , Y ∈ν son adyacentes, y se escribe X~Y, si
existe una línea entre ellos, es decir, si [ XY ] ∈ε .
Definición 2.4.3. Un gráfico es completo si existe una línea entre cada par de
vértices.
Por otra parte, cualquier subconjunto de vértices u ⊆ ν induce un subgráfico de
G. Este subgráfico es el gráfico Gu = (u,ψ ) cuyo conjunto de líneas ψ está formado por
aquellas líneas de ε que tienen ambos extremos en u.
- 81 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Definición 2.4.4. Un subconjunto u ⊆ ν es completo si induce un subgráfico
completo. En otros términos, si todos los vértices de u son mútuamente adyacentes,
entonces u será completo.
Definición 2.4.5. Un subconjunto u ⊆ ν es un clique si es un subconjunto
maximalmente completo, es decir, “u” es completo, y si u ⊂ w , entonces “w” no es
completo.
El concepto de clique es muy importante en la modelización gráfica, ya que a
menudo es necesario identificar los cliques existentes en un gráfico determinado.
Definición 2.4.6. Una secuencia de vértices X 0 , ..., X n , de forma que X i −1 ~ X i ,
para i = 1, ..., n constituye un path ( camino ) entre X 0 y X n . Se dice que un gráfico
está conectado si existe un path entre cada par de vértices.
¿ Cómo se relaciona la teoría de grafos con las nociones de independencia y de
independencia condicionada ?. La respuesta a esta pregunta la encontramos en las
llamadas propiedades parcial y global de Markov.
En la modelización gráfica, el interés se centra fundamentalmente en modelos en
los que se verifiquen relaciones de independencia condicionada de la forma
X ⊗ Y resto , donde por “resto” se entiende todas las demás variables del modelo. Para
este tipo de modelos, es posible construir un gráfico ( ν, ε ) , donde ν es el conjunto de
- 82 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
variables del modelo y donde ε está formado por las líneas entre pares de variables que
no son condicionalmente independientes dado el resto. Dicho en otros términos, para el
par ( X , Y ) tal que X ⊗ Y resto , la línea entre X e Y se omitirá; para los demás pares de
variables, se dibujará una línea entre ellas. De esta forma, del gráfico resultante se
desprende inmediatamente que si las dos variables no son adyacentes, entonces son
condicionalmente independientes dado el resto. Esta propiedad se conoce con el nombre
de propiedad parcial de Markov.
Pero la clave para interpretar gráficos de independencia está en la llamada
propiedad global de Markov, que se basa, a su vez, en la propiedad de separabilidad, la
cual establece lo siguiente:
Definición 2.4.7. Separabilidad: Dados tres subconjuntos “a”, “b” y “s” de ν ,
se dice que “s” separa a “a” y a “b” si todos los “caminos” de “a” a “b” cruzan “s”.
Teniendo en cuenta la anterior propiedad, la propiedad global de Markov
establece que si dos conjuntos de variables, “u” y “v”, están separados por un tercer
conjunto de variables “w”, entonces u ⊗ v w . Así, por ejemplo, si se consideran las
variables W, X, Y y Z, de forma que las variables W y Z están separadas por el conjunto
de variables
variables
( X ,Y )
( X ,W ) ,
y que las variables Y y Z están separadas por el conjunto de
entonces se verificará que W ⊗ Z ( X , Y ) y que Y ⊗ Z ( X ,W ) .En
consecuencia, en el gráfico asociado a esta situación, las líneas [WZ] y [YZ] estarán
ausentes del mismo.
- 83 -
Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia
____________________________________________________________________________________
Volveremos a la teoría de grafos en el capítulo dedicado al modelo logarítmicolineal, en el que estas nociones elementales y otras que se abordarán con mayor detalle
nos permitirán determinar cuándo un modelo es gráfico y valorar sus implicaciones.
- 84 -
C A PÍ T U L O T E R C E R O
TABLAS DE CONTINGENCIA
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
3.1. INTRODUCCIÓN.
Una tabla de contingencia1, también llamada tabla de clasificación cruzada, es la
forma más habitual de presentar las frecuencias observadas correspondientes a las
categorías de diferentes variables categóricas. Dichas tablas recogen la clasificación de
los individuos de una población o de una muestra en función de la categoría de cada
variable en la que queden encuadrados. Las diferentes categorías de las variables que se
representan en una tabla de contingencia han de ser exhaustivas y mútuamente
excluyentes. Es decir, el conjunto de categorías de una variable categórica debe ser
suficiente para clasificar a todos y a cada uno de los individuos que forman la población
o la muestra ( exhaustividad ). Además, cada categoría debe definirse de tal manera que
cada elemento de la población pertenezca a una, y exclusivamente a una, categoría de la
variable ( exclusión mútua ).
Cuando una tabla de contingencia recoge la clasificación cruzada de los
individuos de una población o de una muestra a partir de dos características categóricas
se estará ante una tabla de contingencia bidimensional. Si, por el contrario, la
clasificación cruzada se lleva a cabo a partir de más de dos características categóricas, se
estará ante una tabla de contingencia multidimensional.
1
El término “tabla de contingencia” fue acuñado por Karl Pearson en 1904.
- 87 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
En el caso más simple, una tabla de contingencia clasifica una muestra de N
observaciones con respecto a dos variables categóricas, que designaremos por A y B. Si
la variable A tiene I categorías y la variable B tiene J categorías, y dichas categorías se
colocan en filas y en columnas, respectivamente, se estará ante una tabla de
contingencia de dimensión IxJ, en la que el número de individuos pertenecientes a la
categoría i-ésima de la variable A y a la categoría j-ésima de la variable B, es decir , la
frecuencia de la casilla ij-ésima de la tabla, se representa por nij . El número total de
individuos muestreados pertenecientes a la categoría i-ésima de la variable A se
representa por ni. , mientras que el número total de individuos muestreados que se
encuadran en la categoría j-ésima de la variable B se representa por n. j . Estos valores
( ni. , n. j ) reciben el nombre de totales marginales, y se calculan de la siguiente forma:
J
ni . = ∑ nij
(3.1)
j =1
I
n. j = ∑ nij
(3.2)
i =1
I
J
I
J
i =1
j =1
N = ∑ ∑ nij = ∑ ni . = ∑ n. j
i =1 j =1
(3.3)
Hasta hace unos cuantos años, la inmensa mayoría de las técnicas estadísticas
empleadas para el análisis de tablas de contingencia se referían casi exclusivamente al
caso bidimensional. En este sentido, el empleo del estadístico chi-cuadrado y de otros
coeficientes para detectar la posible independencia entre dos variables categóricas es
correcto cuando el análisis se refiere a una tabla bidimensional. Sin embargo, cuando la
- 88 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
clasificación cruzada recogida en la tabla de contingencia hace referencia a más de dos
variables, la detección de independencia o asociación mediante esos mismos
coeficientes ya no es posible.
De hecho, hasta hace poco más de dos décadas, la mayoría de los investigadores
se limitaban a estudiar las tablas de contingencia multidimensionales mediante el
análisis de múltiples subtablas bidimensionales, es decir, examinaban simultáneamente
dos variables categóricas e ignoraban el resto de variables de la tabla. Esta práctica, que
empezó a generalizarse con la aparición de paquetes informáticos que calculaban
automáticamente estadísticos chi-cuadrado para todas las tablas marginales de
dimensión dos que se pueden obtener de una tabla multidimensional, no es en absoluto
recomendable, debido a los inconvenientes que conlleva. En primer lugar, se equivoca la
relación marginal que existe entre dos variables categóricas con la relación existente
entre dichas variables cuando otras variables diferentes ( que influyen, o pueden influir,
en la relación entre las dos primeras ) están presentes en la tabla de contingencia. En
segundo lugar, esta práctica no permite el enfoque simultáneo de las relaciones dos a
dos entre variables categóricas. Por último, se ignora la posible existencia de
interacciones de tercer orden o superior entre las variables que componen la tabla de
contingencia.
Para salvar este cúmulo de inconvenientes, surgieron durante la década de los
setenta una amplia gama de técnicas estadísticas para el análisis de tablas de
contingencia multidimensionales, que posibilitaron, entre otras cosas, estudiar las
- 89 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
relaciones de dependencia/independencia existentes en un conjunto de más de dos
variables categóricas. Entre estas nuevas técnicas se encuentran el modelo logarítmicolineal, el modelo logit para variables categóricas y el modelo de clases latentes. Este
trabajo de investigación se plantea, entre otros objetivos, presentar estas novedosas
técnicas y demostrar su utilidad en el análisis de la demanda turística española.
Fienberg ( 1978 ) data los primeros estudios relacionados con el análisis de
variables categóricas en los albores del presente siglo, cuando Pearson y Yule
formularon los primeros conceptos teóricos relacionados con estas técnicas. Además de
proponer el conocido test chi-cuadrado para detectar la independencia en tablas de
contingencia bidimensionales, Karl Pearson analizó las tablas de contingencia
presumiendo la existencia de una continuidad subyacente en toda variable categórica y
de una distribución normal multivariante asociada a los datos originalmente continuos.
Por su parte, Yule consideró las categorías de las variables como fijas y profundizó en el
análisis de la relación estructural existente entre las variables discretas que conforman
una tabla de contingencia. Ambos investigadores propusieron sendas medidas de
asociación para tablas de contingencia. Así, Pearson definió el coeficiente de correlación
tetracórico, mientras que Yule definió el estadístico Q a partir del “cociente de
ventajas”.
Los diferentes enfoques propuestos por ambos investigadores crearon una
polémica que se ha mantenido durante muchos años, si bien la literatura de los últimos
25 o 30 años parece indicar que la segunda posición es la más extendida. En cualquier
- 90 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
caso, deberían pasar 35 años hasta que, en 1935, Barlett abriera nuevos caminos en la
investigación al utilizar el cociente de ventajas de Yule para definir el concepto de
interacción de segundo orden en una tabla de dimensión 2x2x2. En 1945, Norton
extendió la idea inicial de Barlett a tablas de dimensión 2x2xK, mientras que en 1956
Roy y Kastenbaum definieron el concepto de interacción de segundo orden en una tabla
de contingencia de dimensión IxJxK. Estas aportaciones pueden considerarse el
auténtico embrión de las técnicas estadísticas para el análisis de variables categóricas.
Sólo unos años más tarde ( entre 1958 y 1965 ), Good empieza a utilizar
contrastes para definir todos los órdenes de las interacciones que existen en una tabla de
contingencia multidimensional. Las aportaciones realizadas por Good fueron asimiladas
por multitud de investigadores, como Darroch, Birch, Mosteller, Ku, Kullbach, Bishop,
Haberman y otros.
Pero, sin lugar a dudas, el discípulo más aventajado de Good fue Leo Goodman,
cuya prolífica y valiosa producción científica entre 1965 y 1987 ha revolucionado este
campo de la investigación estadística. En su obra “Analyzing Qualitative/Categorical
Data: Log-Linear Models and Latent-Structure Analysis” ( 1978 ) sienta las bases del
modelo logarítmico-lineal y del análisis de estructura latente, que, a partir de entonces,
fueron desarrollados por varios autores.
Los trabajos de Andersen ( 1990 ), Agresti ( 1990 ), Christensen ( 1990 ) y de
otros muchos investigadores abordan de forma detallada los últimos avances alcanzados
- 91 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
en el modelo log-lineal y en otros modelos asociados y esbozan las futuras líneas de
investigación en este campo.
3.2. MODELOS MUESTRALES PARA TABLAS DE CONTINGENCIA.
Las frecuencias recogidas en una tabla de contingencia pueden obtenerse
mediante diferentes modelos muestrales, aunque el más utilizado en la práctica es el
llamado modelo multinomial, en el cual se considera un tamaño muestral fijo N y se
clasifica a cada elemento de la muestra en función de la categoría de cada variable
categórica de la tabla a la que pertenezca el mismo. De esta forma, N ij es la variable
aleatoria que representa al número de individuos que pertenecen a la categoría i-ésima
de la variable A y a la categoría j-ésima de la variable B, mientras que nij es el valor
observado de dicha variable. Si la población es suficientemente grande, ( N11, N12, ...,
Nij, ..., NIJ ) seguirá una distribución multinomial de parámetros ( N, p11, p12, ..., pij, ...,
pIJ ), donde pij es la probabilidad de que un individuo de la muestra pertenezca a la
categoría i-ésima de la variable A y a la categoría j-ésima de la variable B, es decir:
( N11, N12, ..., Nij, ..., NIJ ) → Mult ( N, p11, p12, ..., pij, ..., pIJ )
Como puede observarse, en el modelo multinomial se fija el tamaño muestral N,
pero en ocasiones el muestreo se realiza de forma que lo que se fijan son los totales
marginales de filas ( ni. ) o los totales marginales de columnas ( n. j ). En este caso, el
- 92 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
modelo muestral será de tipo producto-multinomial, en el que para cada categoría de la
variable A se toma una muestra aleatoria de tamaño ni. y se clasifica a cada elemento de
la muestra en función de la categoría de la variable B a la que pertenezca dicho
elemento. Evidentemente, también es posible considerar una muestra aleatoria de
tamaño n. j para cada categoría de la variable B y clasificar a cada elemento de la
muestra en función de la categoría concreta de la variable A a la que pertenezca. En
definitiva, “se consideran muestras de I diferentes poblaciones, cada una de las cuales
se divide en J categorías. Se supone que las muestras de las diferentes poblaciones son
independientes y que cada muestra sigue una distribución multinomial” ( Christensen,
1990, pag. 33 ).
Por consiguiente, dado un tamaño de muestra ni. para cada categoría de la
variable A y si la población es suficientemente grande, ( Ni1, Ni2, ..., Nij, ..., NiJ ) seguirá
una distribución multinomial de parámetros ( ni. , p1 i , p2 i , ..., p j i , ..., p J i ), donde p j i
es la probabilidad de que un individuo de la población ( categoría ) i pertenezca a la
categoría j de la variable B.
Por último, se podría optar por no fijar a priori el número total de observaciones
ni los totales marginales de filas o columnas. En esta situación, se estaría ante un
modelo de Poisson, que consiste en observar un conjunto de IxJ procesos de Poisson,
uno por cada casilla de la tabla de contingencia, sin un conocimiento apriorístico sobre
el número de observaciones que deben tomarse. Cada proceso de Poisson dará lugar a
un valor esperado ( mij ) en cada casilla de la tabla y generará un conjunto de variables
- 93 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
aleatorias Nij ( i = 1, 2, ..., I; j = 1, 2, ..., J ), de forma que se asume que las Nij son
independientes entre sí ( Andersen, 1990 ) con
Nij → Ps ( λ ij ) , es decir, cada variable
aleatoria Nij sigue una distribución de Poisson de parámetro λ ij . En realidad, este
modelo muestral no es más que un caso particular del modelo multinominal cuando la
distribución de cada N ij se condiciona a n. . = N . Esto es, la distribución condicionada
de N11, N12, ..., Nij, ..., NIJ dado n. . = N es una distribución multinomial de parámetros N
y p11 =
I
J
λ
λ 11
λ
λ
, p12 = 12 , ..., pij = ij , ..., piJ = iJ , donde λ .. = ∑ ∑ λ ij . Incluso, y
λ ..
λ ..
λ ..
λ ..
i =1 j =1
dado que en el modelo producto-multinomial se está condicionando la distribución de
cada Nij a ni. , el modelo de Poisson se puede considerar un caso particular de este
último, ya que puede demostrarse que la distribución condicionada de ( Ni1, Ni2, ..., Nij,
..., NiJ ) dado ni. es, en realidad, una distribución multinomial de parámetros ni. y
p1 i =
λ
λ i1
λ
λ
, p2 i = i 2 , ..., p j i = ij , ..., p J i = iJ .
λ i.
λ i.
λ i.
λi.
Precisamente, como consecuencia de que el modelo de Poisson es, en realidad,
un caso particular del modelo multinomial o del modelo producto-multinomial, en
función de las condiciones que se verifiquen, en el análisis de tablas de contingencia se
trabaja en la mayoría de los casos con distribuciones multinomiales, siendo muy escasas
y poco relevantes las situaciones prácticas en las que se consideran distribuciones
independientes de Poisson. En cualquier caso, y dadas las interrelaciones existentes, los
tres modelos muestrales generan los mismos valores esperados estimados y el mismo
- 94 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
estadístico de bondad de ajuste, por lo que son equivalentes en lo que a estimación y
verificación de hipótesis se refiere.
A pesar de lo comentado, no se puede concluir que los tres modelos muestrales
anteriores sean los únicos que se utilizan para generar y analizar datos categóricos. De
hecho, Christensen ( 1990 ) menciona el modelo hipergeométrico para obtener tablas de
contingencia IxJ cuando se fijan tanto los totales de filas ( ni. ) como los totales de
columnas ( n. j ), el empleo de la estratificación2 y el muestreo cluster. Pero nuestro
interés por estos modelos es limitado, toda vez que requieren, por regla general, cambios
sustanciales en el análisis estadístico.
En cualquier caso, aunque teóricamente puedan considerarse diferentes modelos
muestrales, lo cierto es que, en la práctica, la mayoría de los procesos de encuestación
fijan el tamaño muestral y, a continuación, analizan la distribución de las variables
incluidas en la encuesta. De aquí que el modelo muestral más empleado en la práctica
sea el multinomial.
2
El muestreo estratificado en muestras de gran tamaño puede asimilarse al modelo producto-multinomial,
puesto que éste último consiste en extraer muestras independientes en un número determinado de
subpoblaciones. Sin embargo, mientras que en el muestreo estratificado los estratos permiten reducir la
variabilidad de los resultados globales, en el contexto del análisis de datos categóricos dichos estratos
carecen de interés para el análisis, puesto que éste se refiere al conjunto de categorías de las variables
discretas implicadas.
- 95 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
3.3.
INDEPENDENCIA
EN
TABLAS
DE
CONTINGENCIA
BIDIMENSIONALES.
Considérese una tabla de contingencia bidimensional en la que se representa la
clasificación cruzada de dos variables categóricas A y B, siendo I el número de
categorías de la variable A y J el número de categorías de la variable B y donde se
verifican también las relaciones dadas por (3.1), (3.2) y (3.3).
Pues bien, se define pij como la probabilidad de que un individuo pertenezca a
la categoría i-ésima de la variable A y a la categoría j-ésima de la variable B.
Considerando que únicamente se fija el tamaño muestral total N, nij será el valor
observado de una distribución multinomial con tamaño muestral N y probabilidad pij .
En consecuencia, el valor esperado de nij , que designaremos por mij , vendrá dado por:
mij = N pij
La estimación de las pij se realiza mediante el método de la máxima
verosimilitud. La función de verosimilitud en el caso de un esquema de muestreo
multinomial viene dada por la siguiente expresión3:
3
El modelo multinomial es el más comúnmente utilizado en tablas de contingencia. Sin embargo, en
determinadas circunstancias es aconsejable utilizar el modelo producto-multinomial o el modelo de
Poisson. En el primer caso, la función de verosimilitud viene dada por:
I
J

ni .!
n 
L( pij ) = ∏ 
p j i ij 
∏
i = 1  ni 1! ni 2! ... niJ! j = 1

- 96 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
L( pij ) =
I
J
N!
n
pij ij
∏
∏
n11! n12 ! ... nIJ! i =1 j =1
Los valores de pij que maximizan el logaritmo de la función de verosimilitud,
esto es, las estimaciones máximo-verosímiles de los parámetros pij , vienen dadas por:
p!ij =
nij
N
De la misma forma, las estimaciones MV de pi. y de p. j se calculan a través de
las dos expresiones siguientes:
p! i . =
ni .
N
p!. j =
n. j
N
A pesar de las diferentes formas funcionales de L( pij ) según el modelo de
muestreo empleado, estas estimaciones MV son siempre las mismas con independencia
de que el modelo muestral sea multinomial, producto-multinominal o de Poisson.
mientras que en segundo caso,
L( pij ) toma la siguiente forma:
I
L( pij ) = ∏
i =1
siendo
λ ij ij − λ ij
e
∏
j = 1 nij!
λ ij = pij × N .
- 97 -
J
n
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Por otra parte, las variables categóricas A y B serán independientes si y sólo si:
pij = pi . × p. j
∀i , j
donde pi. es la probabilidad de que un individuo pertenezca a la categoría i-ésima de la
variable A y p. j es la probabilidad de que un individuo pertenezca a la categoría j-ésima
de la variable B.
En consecuencia, el valor esperado mij en el supuesto de independencia de A y B
será igual a:
mij = N × pi . × p. j
Igualmente, el valor esperado de ni. ( mi. ) y el valor esperado de n. j ( m. j ) se
calculan, respectivamente, de la siguiente forma:
mi . = N × pi .
m. j = N × p. j
por lo que mij también se puede expresar de la siguiente forma:
mij =
mi . × m. j
N
Para probar la hipótesis de independencia H 0 : pij = pi . × p. j , para i = 1, 2, ..., I y
para j = 1, 2, ..., J se emplea el conocido test estadístico de Pearson:
I
( nij − m! ij( 0) ) 2
m! ij( 0)
j =1
J
X 2 = ∑∑
i =1
- 98 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
donde m! ij( 0) es una estimación de mij basada en la asunción de independencia entre las
variables A y B. Considerando que m! i. = ni . y que m! . j = n. j , el valor de m! ij( 0) será igual a:
m! ij( 0) =
m! i . × m! . j ni . × n. j
=
N
N
Por tanto, el test de Pearson puede expresarse también de la siguiente forma:
I
J
X 2 = ∑∑
ni . n. j 2
)
N
ni . n. j
N
( nij −
i =1 j =1
Si H 0 es cierta y N es suficientemente grande, se puede demostrar, como
consecuencia del Teorema Central del Límite, que el estadístico X 2 de Pearson sigue
una distribución chi-cuadrado asintótica ( Agresti, 1990, pp. 433-434 ):
X 2 ≈ χ 2( I −1) ( J −1)
donde I es el número de categorías de la variable A, mientras que J es el número de
categorías de la variable B.
Comparando el valor
X2
con el valor tabulado
χ 12−α , ( I −1)( J − 1) , podrá
determinarse a un nivel de significación α si la hipótesis de independencia puede
asumirse como válida ( si X 2 > χ 12− α ,( I −1)( J − 1) deberá rechazarse la hipótesis de
independencia a un nivel α ).
- 99 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Otro test estadístico que se emplea con bastante frecuencia para detectar la
posible independencia entre las dos variables categóricas que forman la tabla de
contingencia ( o, en su caso, para determinar la bondad de ajuste de un modelo concreto
a los datos observados ) es el llamado test de la razón de verosimilitud, el cual viene
dado por la siguiente expresión:
I
J
 n 
G 2 = 2 ∑ ∑ nij log  (ij0) 
 m! ij 
i =1 j =1
Wilks ( 1935, 1938 ) demostró que cuando N → ∞, G 2 se aproxima a una
distribución chi-cuadrado con (I-1)(J-1) grados de libertad:
G 2 ≈ χ 2( I −1) ( J −1)
De esta forma, para un nivel de significación α, la hipótesis H 0 será rechazada si
y sólo si:
G 2 > χ 1-2 α , (I-1) (J -1)
En principio, para tamaños de muestra suficientemente grandes, los valores de
X 2 y de G 2 deben ser asintóticamente equivalentes, de forma que la diferencia X 2 - G 2
converge a 0 en probabilidad cuando N → ∞ ( Agresti, 1990, pag. 434 ). Sin embargo,
para tamaños de muestra más pequeños, X 2 normalmente converge más rápidamente a
una distribución chi-cuadrado que G 2 . Así, la aproximación del test G 2 es
relativamente pobre cuando N < 5IJ. Por el contrario, y según han demostrado Agresti y
- 100 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Yang ( 1987 ), el estadístico X 2 es adecuado4 cuando N > IJ. Sin embargo, es bastante
más aconsejable el empleo del estadístico G 2 cuando se desean analizar tablas de
contingencia tridimensionales o de una dimensión superior, puesto que es posible
particionar el valor G 2 para comparar diferentes modelos asociados a dichas tablas.
De aquí que, en lo sucesivo, se empleará de forma casi exclusiva el test
estadístico de la razón de verosimilitud para analizar tablas de contingencia
multidimensionales en las que el tamaño muestral N sea suficientemente grande.
Además, la comparación entre los valores observados nij y los valores esperados
estimados m! ij( 0 ) permitirá identificar las casillas de la tabla que contribuyen de forma
significativa al rechazo, en su caso, de la hipótesis de independencia. Una forma muy
simple de realizar esta comparación es la que consiste en inspeccionar los residuos, que
se definen como la diferencia entre las frecuencias observadas y las frecuencias
esperadas estimadas, es decir, nij − m! ij( 0 ) . Al objeto de evaluar adecuadamente la forma
en que los valores m! ij( 0) predicen a los nij , se emplean los residuos estandarizados, eij ,
que vienen dados por:
eij =
4
nij − m! ij( 0 )
m! ij( 0 )
Siempre y cuando la tabla no contenga frecuencias esperadas muy pequeñas ni excesivamente grandes.
- 101 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Cuando el modelo de independencia se verifica, los eij son asintóticamente
normales con media 0 ( Agresti, 1990, pag. 432 ). Sin embargo, sus varianzas asintóticas
son menores que 1.0, especialmente cuando el modelo que se contrasta es relativamente
complejo. Para salvar este inconveniente, Haberman ( 1973 ) definió los residuos
ajustados como el cociente entre los residuos estandarizados y sus errores estándar
estimados. La estimación de la varianza de los eij viene dada por:
v!ij = ( 1 −
n
ni .
) ( 1 − .j )
N
N
En consecuencia, la expresión de los residuos ajustados para un modelo de
independencia en una tabla bidimensional es la siguiente:
rij =
nij − m! ij( 0)
n 
n 

m! ij( 0)  1 − i .   1 − . j 

N 
N 
Haberman ( 1973 ) demostró que, cuando las variables que forman la tabla de
contingencia son independientes, los rij siguen una distribución normal estándar
asintótica. De esta forma, comparando los residuos ajustados con los valores de la
normal estándar a un nivel α del 5 % ( ≈ ± 2.0 ), se pueden identificar las casillas de la
tabla de contingencia responsables del mal ajuste de los datos al modelo en cuestión.
Así, valores de rij mayores que +2 indicarán unos valores observados
significativamente mayores de lo que cabría esperar en el supuesto de independencia, de
- 102 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
la misma forma que valores de rij menores que -2 pondrán de manifiesto valores
observados significativamente menores que los correspondientes valores esperados si
las variables que forman la tabla de contingencia fueran estadísticamente
independientes.
3.4.
OTRAS
MEDIDAS
DE
ASOCIACIÓN
PARA
TABLAS
BIDIMENSIONALES.
Cuando se está analizando la relación entre dos variables categóricas nominales
en una tabla de contingencia de dimensión IxJ, se pueden emplear diferentes índices
para medir la intensidad de la asociación existente entre dichas variables. Aunque se han
propuesto multitud de medidas de asociación, lo cierto es que ninguna parece ser
plenamente satisfactoria. Algunas de estas medidas están basadas en el estadístico χ 2 ,
aunque, dado que este estadístico depende del tamaño muestral N, presentan el
inconveniente de que no pueden ser empleadas para comparar diferentes tablas. Otra
dificultad añadida de las medidas basadas en el estadístico χ 2 es que no tienen una
interpretación probabilística como la tiene, por ejemplo, el coeficiente de correlación.
Con el objeto de construir medidas con una interpretación más sencilla, Goodman y
Kruskal diseñaron entre 1954 y 1972 un conjunto de medidas basadas en la capacidad
predictiva de una variable sobre la otra.
- 103 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
A continuación, se enumerarán brevemente algunas de estas medidas, sin detallar
excesivamente las ventajas e inconvenientes de cada una de ellas, puesto que el objetivo
de este trabajo no se limita únicamente a analizar la relación de dependencia entre dos
variables categóricas, sino que su interés se centra principalmente en el análisis de la
asociación existente entre un conjunto formado por más de dos variables categóricas.
3.4.1. Medidas de asociación para tablas 2x2.
1º) Test de corrección de continuidad de Yates:
X =
2
N
(n
11
× n22 − n12 × n21 − 0,5 N )
2
n1. × n2. × n.1 × n.2
Este test sigue una distribución χ 2 con 1 grado de libertad y su campo de
variación va desde 0 hasta ∞. Si el test arroja un valor superior a 3,84 se podrá admitir a
un nivel de significación del 5 % que las variables dicotómicas que forman la tabla de
contingencia no son estadísticamente independientes.
2º) Test exacto de Fisher:
Cuando las frecuencias observadas en la tabla son pequeñas ( por ejemplo,
menores que 5 ), la aproximación del test X 2 a una distribución chi-cuadrado no es, por
regla general, válida. En estos casos, es posible, cuando se fijan los totales marginales
- 104 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
de filas y de columnas y bajo la hipótesis de independencia, calcular la probabilidad de
ocurrencia de la configuración observada de la tabla de contingencia mediante la
siguiente expresión:
P=
n1.! × n2 .! × n.1! × n.2!
n11! × n12! × n21! × n22! × N!
La esencia de este test consiste en considerar las configuraciones más extremas
de los datos que podrían haber ocurrido y calcular el valor de P para cada una de dichas
configuraciones. La suma de las probabilidades de ocurrencia de la configuración
observada y de aquellas otras más extremas será el valor PT, que se comparará con el
nivel de significación α. De esta forma, si PT es mayor que α se concluye que no hay
evidencia de asociación entre las variables que forman la tabla de contingencia. Por el
contrario, si PT es menor o igual que α deberá rechazarse la hipótesis de independencia
entre las variables.
3º) Ratio de producto cruzado:5
Este ratio es un cociente entre dos “ventajas”. Para la categoría 1 de la variable
5
El ratio de producto cruzado y otras medidas relacionadas con el mismo ( Q de Yule, Y de Yule,
coeficiente τ de Goodman y Kruskal y coeficiente de incertidumbre ) son funciones de las probabilidades
pij asociadas a la tabla de contingencia. Como es sabido, estas probabilidades son desconocidas, pero
pueden ser estimadas mediante
nij
N
. Por esta razón, las expresiones de las medidas anteriores son, en
realidad, las estimaciones de las medidas originales que, obviamente, son desconocidas.
- 105 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
A de una tabla de contingencia 2x2 se define la ventaja de que un individuo se encuadre
en la categoría 1 de la variable B en lugar de encuadrarse en la categoría 2 de dicha
variable ( Ω1 ) como el cociente entre la probabilidad de que un individuo, que se sitúa
en la categoría 1 de la variable A, se ubique en la categoría 1 de la variable B ( p1 1 ) y la
probabilidad de que un individuo encuadrado en la categoría 1 de la variable A se
encuadre en la categoría 2 de la variable B ( p2 1 ), es decir:
Ω1 =
p1 1
p2 1
p11
p
p
= 1. = 11
p12
p12
p1.
Este cociente de probabilidades es un número real no negativo, de forma que un
valor de Ω1 mayor que 1 indicará que la probabilidad de encuadrarse en la categoría 1
de la variable B es mayor que la probabilidad de encuadrarse en la categoría 2 de dicha
variable, condicionado a que el individuo en cuestión se sitúe en la categoría 1 de la
variable A; mientras que ocurrirá lo contrario si Ω1 es menor que 1. Por último, un
valor de Ω1 igual a 1 será sinónimo de equiprobabilidad entre las categorías 1 y 2 de la
variable B, dado que el individuo se encuadra en la categoría 1 de la variable A.
De la misma forma, se define la ventaja para la categoría 2 de la variable A
como:
- 106 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Ω2 =
p1 2
p2 2
p21
p
p
= 2. = 21
p22 p22
p2.
A partir de estos dos conceptos, se define el ratio de producto cruzado6 como
el cociente entre Ω1 y Ω 2 , es decir:
α=
p11 p12 p11 × p22
=
p21 p22 p12 × p21
El ratio de producto cruzado es también un número real no negativo, de manera
que si α > 1 los individuos situados en la categoría 1 de la variable A tendrán una
probabilidad mayor de encuadrarse en la categoría 1 de la variable B que en la categoría
2 de dicha variable, mientras que un valor de α menor que 1 implica justamente la
6
Según el modelo muestral empleado, la expresión del ratio de producto cruzado será diferente, aunque
su significado bajo la hipótesis de independencia sea el mismo en los tres modelos muestrales y aunque el
procedimiento de contrastación de la hipótesis de independencia sea idéntico en todos los modelos. Así, la
expresión del ratio de producto cruzado será la siguiente según el modelo muestral empleado:
- Modelo de Poisson:
α=
λ 11 × λ 22
λ 12 × λ 21
- Modelo multinomial:
α=
p11 × p22
p12 × p21
- Modelo producto-multinomial:
α=
p1 1 × p2 2
p1 2 × p2 1
- 107 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
interpretación contraria. Finalmente, si las variables A y B son independientes, el ratio
de producto cruzado será igual a 1, ya que se verifica lo siguiente7:
α=
p11 × p22
p × p.1 × p2. × p.2
= 1.
=1
p12 × p21 p1. × p.2 × p2. × p.1
En definitiva, para probar si dos variables categóricas A y B en una tabla 2x2 son
independientes, basta con contrastar la hipótesis:
H 0: α = 1

H1: α ≠ 1
si bien la formulación de H0 más comúnmente empleada es la que expresa el ratio de
producto cruzado en forma de logaritmos, es decir:
H 0 : log α = 0 

H1: log α ≠ 0
Dado que α es un parámetro desconocido ( puesto que se define en función de
las probabilidades desconocidas pij ), es necesario obtener la estimación máximoverosímil de α, la cual vendrá dada por:
7
Así, la independencia entre las variables A y B implica que la probabilidad de que un individuo se
encuadre en la categoría 1 de la variable B es la misma tanto si dicho individuo ha quedado encuadrado en
la categoría 1 de la variable A como si se ha encuadrado en la categoría 2 de dicha variable. En otras
palabras, la variable A no condiciona a la variable B.
- 108 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
α! =
p!11 × p! 22
p!12 × p! 21
y puesto que la estimación MV de cada pij es:
p!ij =
nij
N
tendremos que la expresión del valor observado o empírico de α será la siguiente:
α! =
n11 × n22
n12 × n21
con lo que:
 n × n22 
log α! = log  11

 n12 × n21 
Puede demostrarse que la estimación de la desviación estándar asintótica de
log α! es la siguiente:
S!log α! =
1
1
1
1
+
+
+
n11 n12 n21 n22
- 109 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
y que E( log α! ) = log α .
En el supuesto de independencia entre las variables categóricas A y B, puede
demostrarse que para tamaños de muestra suficientemente grandes, log α!
es
2
asintóticamente normal con media log α y con varianza S!log
α! , es decir:
Zα! ≅
log α! − log α log α!
=
≈ N (0;1)
S!log α!
S!log α!
De esta forma, comparando el valor de Zα! con los correspondientes valores
tabulados de la N(0;1) ( ± 1,96 para un α = 0,05 ), es posible contrastar la hipótesis de
independencia de las variables categóricas dicotómicas que forman la tabla de
contingencia 2x2.
4º) Test Q de Yule:
! = n11 × n22 − n12 × n21 = α! − 1
Q
n11 × n22 + n12 × n21 α! + 1
! = 0 ( es
Este test toma valores comprendidos entre -1 y +1, de forma que si Q
decir, α! = 1 ), las dos variables categóricas en cuestión serán independientes.
- 110 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
5º) Coeficiente Y de Yule:
! =
Y
α! − 1
α! + 1
El campo de variación de este test está comprendido entre -1 y +1. Al igual que
! = 0 ( esto es, α! = 1 ), podrá admitirse que las dos
ocurre con el test anterior, si Y
variables categóricas son estadísticamente independientes.
3.4.2. Medidas de asociación para tablas IxJ.
1º) Coeficiente Φ:
Φ=
X2
N
El valor de este coeficiente no depende del tamaño muestral N, por lo que puede
ser empleado para comparar diferentes tablas. X 2 es el valor del test estadístico de
Pearson para tablas IxJ. Este test jamás toma valores negativos y será igual a 0 cuando
las variables categóricas sean independientes. En consecuencia, cuanto mayor sea el
valor del coeficiente Φ, mayor será también el grado de asociación entre las variables.
El principal inconveniente de este test es que puede tomar valores mayores que 1.
- 111 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
2º) Coeficiente de contingencia:
C=
X2
X2 + N
Para salvar el inconveniente del test anterior, Pearson propuso en 1904 el
llamado coeficiente de contingencia, el cual tomará siempre valores comprendidos entre
0 y 1, de forma que cuando las dos variables categóricas sean independientes, C tomará
el valor 0. Este coeficiente puede utilizarse también para comparar diferentes tablas.
3º) Test V de Cràmer:
V=
X2
N min ( I − 1, J − 1)
El campo de variación de V va de 0 a 1, de forma que dicho test sólo será igual a
0 cuando las variables A y B ( con I y J categorías, respectivamente ) sean
independientes. Posiblemente V sea el mejor coeficiente para comparar distintas tablas.
4º) Ratio de producto cruzado:
El ratio de producto cruzado puede emplearse igualmente para contrastar la
hipótesis de independencia entre variables en una tabla IxJ. Así, dada la variable
categórica A con I categorías y la variable categórica B con J categorías, puede
- 112 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
demostrarse que si estas dos variables son independientes ( pij = pi . × p. j
∀i , j ), todos
los posibles ratios de producto cruzado serán iguales a 1, es decir:
pij × pi ′j ′ pi . × p. j × pi ′ . × p. j ′
=
=1
pij ′ × pi ′j pi . × p. j ′ × pi ′ . × p. j
para todo i, i ′ = 1, 2, ..., I y para todo j, j ′ = 1, 2, ..., J.
Además, la implicación contraria también se verifica, ya que si todos los ratios
de producto cruzado son iguales a 1, entonces las variables categóricas son
independientes entre sí ( Christensen, 1990, pag. 38 ). Si para todo i, i ′ , j y j ′ , los ratios
de producto cruzado son iguales a 1, se verifica que pij × pi ′j ′ = pij ′ × pi ′j . Así, y
I
J
teniendo en cuenta que p.. = ∑ ∑ pi ′j ′ = 1, se verifica que:
i ′ =1 j ′ =1
I
J
I
J
I
J
I
J
i ′ =1
j ′ =1
pij = pij × p.. = pij × ∑ ∑ pi ′j ′ = ∑ ∑ pij × pi ′j ′ = ∑ ∑ pij ′ × pi ′j = ∑ pi ′j ∑ pij ′ = pi . × p. j
i ′ =1 j ′ =1
i ′ =1 j ′ =1
i ′ =1 j ′ =1
Es evidente que las probabilidades pij se desconocen, por lo que las
estimaciones de las mismas ( p!ij ) permiten obtener los ratios de producto cruzado
estimados:
p!ij × p!i ′j ′ nij × ni ′j ′
=
p!ij ′ × p!i ′j nij ′ × ni ′j
para todo i, i ′ , j y j ′
- 113 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Normalmente, se suele utilizar el logaritmo del ratio de producto cruzado
estimado para contrastar la hipótesis de independencia:

 pij × pi ′j ′ 
 = 0 
H 0 : log 
 pij ′ × pi ′j 


 pij × pi ′j ′ 

 ≠ 0
H 1 : log 
 pij ′ × pi ′j 

Puede demostrarse que el valor esperado del logaritmo de cada ratio de producto
cruzado estimado es:
  p! × p!i ′j ′  
 p × pi ′j ′ 
  = log  ij

E log  ij
 pij ′ × pi ′j 
  p!ij ′ × p!i ′j  
Asimismo, es posible demostrar que, para tamaños de muestra suficientemente
grandes, la desviación típica del logaritmo de cada ratio de producto cruzado estimado
es igual a:

 p! × p!i ′j ′  
 =
d.e. log  ij
 p!ij ′ × p!i ′j  

1
1
1
1
+
+
+
nij nij ′ ni ′j ni ′j ′
De esta forma, la distribución asintótica del logaritmo de cada ratio de producto
cruzado estimado es normal, verificándose lo siguiente:
- 114 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
ZV =
 nij × ni ′j ′ 

log 
n
n
×
 ij ′
i ′j 
≈ N (0;1)
1
1
1
1
+
+
+
nij nij ′ ni ′j ni ′j ′
lo que nos va a permitir contrastar la hipótesis H 0 , comparando ZV con los valores
tabulados de la N(0;1).
5º) Coeficiente τ de Goodman y Kruskal:
I
τ! B A =
J
2
J
n
2
N ∑ ∑ ij − ∑ n. j
i = 1 j = 1 ni .
j =1
J
N 2 − ∑ n. j
2
j =1
Este coeficiente es una de las medidas de reducción proporcional del error
predictivo, que se basan en la mejora de la capacidad para predecir la clasificación de
una variable a partir del conocimiento de la otra variable. El coeficiente τ! B A trata a las
dos variables categóricas A y B de forma asimétrica, puesto que expresa la reducción de
la probabilidad del error de predicción de la variable B como consecuencia del
conocimiento de la clasificación de los individuos de acuerdo con la variable A. El
campo de variación de τ! B A oscila entre 0 y 1, de forma que si las variables categóricas A
- 115 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
y B son independientes, el coeficiente τ! B A tomará el valor cero8.
6º) Coeficiente de incertidumbre:
I
 N × nij 

log 
 ni . × n. j 
j =1
J
n 
n. j log  . j 
∑
 N
j =1
J
∑∑n
ij
U! B A = −
i =1
Este coeficiente, propuesto por Theil en 1970, está muy relacionado con el
anterior, ya que expresa, en términos de probabilidad, la reducción en la incertidumbre
sobre la variable B que se produce como consecuencia de conocer la clasificación de los
individuos de acuerdo con la variable A. Por su propia definición, el campo de variación
8
En cualquier caso, también podría calcularse la reducción en la probabilidad del error de predicción de
la variable A a partir del conocimiento de la clasificación de la variable B mediante el siguiente índice:
I
N
τ! A B =
J
2
I
nij
−
∑1 ∑1 n ∑1 ni.2
i= j=
i=
.j
I
N 2 − ∑ ni .
2
i =1
Obviamente, los coeficientes
τ! B A y τ! A B están diseñados para su utilización en la situación
asimétrica en la que están claramente definidas la variable respuesta y la variable explicativa. En cualquier
caso, existe también un coeficiente para la situación simétrica en la que ninguna variable se designa para
predecir a la otra. Dicho coeficiente viene dado por:
2
I
J
J
 I J n2
n  I 2
2
N ∑ ∑ ij + ∑ ∑ ij  − ∑ ni . − ∑ n. j
j =1
 i = 1 j = 1 n. j i = 1 j = 1 ni .  i =1
τ! = 
I
J
2
2
2 N 2 − ∑ ni . − ∑ n. j
i =1
j =1
y expresa la reducción en la probabilidad del error de predicción de cualquier variable cuando se pasa de
desconocer a conocer la clasificación de la otra variable. Como resulta evidente, τ! siempre tomará
valores comprendidos entre los correspondientes valores de
- 116 -
τ! B A y de τ! A B .
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
de U! B A oscila entre 0 y 1, de forma que cuando este coeficiente toma el valor 0, se puede
admitir que existe independencia entre las dos variables categóricas que forman la tabla
de contingencia.
3.5. INDEPENDENCIA EN TABLAS TRIDIMENSIONALES.
Consideremos a continuación una tabla de contingencia tridimensional que
refleja la clasificación cruzada de tres variables categóricas, que denominaremos A, B y
C, de forma que cada una de ellas posee I, J y K categorías, respectivamente. En dicha
tabla, las frecuencias observadas se representarán por nijk , para i = 1, 2, ..., I; j = 1, 2, ...,
J; k = 1, 2, ..., K y en la que los totales marginales se calcularán de la siguiente forma:
J
K
nij . = ∑ nijk
I
ni .k = ∑ nijk
k =1
n. jk = ∑ nijk
j =1
J
K
i =1
J
K
j =1
k =1
I
K
i =1
k =1
I
J
i =1
j =1
ni .. = ∑ ∑ nijk = ∑ nij . = ∑ ni.k
j =1 k =1
I
K
n. j . = ∑ ∑ nijk = ∑ nij . = ∑ n. jk
i =1 k =1
I
J
n..k = ∑ ∑ nijk = ∑ ni .k = ∑ n. jk
i =1 j =1
I
J
K
n... = ∑ ∑ ∑ nijk
i =1 j =1 k =1
- 117 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Los valores nij. definen una tabla marginal IxJ, de la misma forma que los
valores ni .k definen una tabla marginal IxK y los valores n. jk definen una tabla marginal
JxK.
Las tablas de contingencia tridimensionales añaden un grado de dificultad a la
interpretación de un modelo producto-multinomial, ya que podríamos tener muestras
procedentes de I poblaciones independientes y clasificar cada muestra en JxK
categorías, o bien podríamos tener muestras procedentes de IxJ poblaciones
independientes y clasificar cada muestra en K categorías.
En cualquier caso, e independientemente del modelo muestral utilizado, es
patente la necesidad de trabajar con tablas tridimensionales, ya que el simple análisis de
cada una de las tres tablas bidimensionales marginales resultantes no conduce
generalmente a resultados fiables. E incluso, en algunos casos, pueden obtenerse
conclusiones contradictorias, dando lugar a lo que se conoce como paradoja de
Simpson, que se produce como consecuencia de que las tablas marginales otorgan
ponderaciones inadecuadas a cada una de las poblaciones, circunstancia que en ningún
caso se produce si se analizan las relaciones conjuntas de todas las variables categóricas
que forman la tabla de contingencia. En definitiva, se impone la necesidad de trabajar
con tablas tridimensionales, ya que, con carácter general, unas conclusiones fiables no
son posibles examinando cada una de las tres tablas bidimensionales que se derivan de
aquellas. De hecho, es muy habitual que las conclusiones obtenidas a partir de tablas
marginales bidimensionales sean rebatidas por las conclusiones alcanzadas en el análisis
- 118 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
tridimensional. La conclusión a la que nos conduce la paradoja de Simpson es que no se
debe confiar excesivamente en las conclusiones alcanzadas a partir de tablas
marginales y que generalmente es necesario considerar todas las dimensiones de la
tabla.
Pasando al análisis de la independencia en tablas tridimensionales, y a diferencia
de lo que ocurría en una tabla bidimensional ( en la que existía únicamente un modelo
de interés: la independencia entre la variable A y la variable B ), son varios los modelos
de independencia que pueden formularse. Los modelos de independencia de mayor
interés en una tabla de contingencia tridimensional son el modelo de independencia
completa, los modelos con una variable independiente de las dos restantes y el modelo
de independencia condicionada.
1º) Modelo de independencia completa:
En términos de probabilidad, el modelo de independencia completa implica que:
M ( 0 ) : pijk = pi .. × p. j . × p..k
(3.4)
A partir de las nociones básicas sobre teoría de grafos introducidas en el capítulo
anterior, el modelo de independencia completa se representará gráficamente de la
siguiente forma:
- 119 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
A
C
B
B
La estimación por máxima verosimilitud de las pijk bajo el anterior modelo
vienen dadas por:
p!ijk( 0) = p!i .. × p!. j . × p!..k =
ni .. n. j . n..k
×
×
n... n... n...
y puesto que mijk = n... × pijk , la estimación por máxima verosimilitud de mijk es la
siguiente:
m! ijk( 0 ) = n... × p!ijk( 0) =
ni .. × n. j. × n..k
n...2
El estadístico chi-cuadrado de Pearson para medir la bondad de ajuste del
modelo viene dado por:
I
J
K
X 2 = ∑∑∑
(n
i =1 j = 1 k = 1
- 120 -
ijk
− m! ijk( 0)
m! ijk( 0)
)
2
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
mientras que el test de la razón de verosimilitud será:
I
J
K
G 2 = 2 ∑ ∑ ∑ nijk × log
i =1 j =1 k =1
nijk
m! ijk( 0)
La hipótesis de independencia mútua de las tres variables será rechazada a un
nivel de significación α si X 2 ( o G 2 ) es mayor que χ 12−α , IJK − I − J − K + 2 .
Al igual que en el caso bidimensional, se pueden emplear los residuos ajustados
para identificar las casillas que contribuyen significativamente a la falta de ajuste del
modelo:
rijk =
nijk − m! ijk( 0 )
m! ijk( 0 ) × ν! ijk
Finalmente, en el modelo de independencia completa también puede ocurrir que
una o varias variables sean equiprobables. Así, las categorías de la variable A serán
1
equiprobables si se verifica que pi.. = . De la misma forma, las categorías de las
I
variables B y C serán equiprobables si se verifica que p. j . =
respectivamente.
- 121 -
1
1
y que p..k = ,
J
K
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
2º) Modelos con una variable independiente de las dos restantes:
Si se están analizando tres variables categóricas, es posible formular tres
modelos en los que una variable es independiente de las otras dos. Estos modelos son
los siguientes:
M (1) : pijk = pi .. × p. jk
(3.5)
M ( 2 ) : pijk = p. j . × pi .k
(3.6)
M ( 3) : pijk = p..k × pij .
(3.7)
Se puede observar que este tipo de modelos, al no especificarse la relación
existente entre las dos variables que son independientes de la tercera9, incluyen el
modelo de independencia completa M ( 0) , ya que si las dos variables independientes de
la tercera son a su vez independientes, se estará ante el modelo de independencia
completa. De hecho, siempre que se verifique el modelo M ( 0) se verificarán también los
modelos M (1) , M ( 2 ) y M (3) .
El modelo M (1) es equivalente a la independencia en una tabla bidimensional
Ix(JK), donde las columnas de dicha tabla son todas las posibles combinaciones de las
9
(1)
Por ejemplo, el modelo M implica la independencia de la variable A con las variables B y C, pero no
indica nada sobre la posible dependencia o independencia entre las variables B y C.
- 122 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
variables B y C de la tabla de contingencia tridimensional. La representación gráfica del
modelo M (1) sería la siguiente:
A
C
B
La estimación por máxima verosimilitud de las pijk bajo el modelo M (1) vendrán
dadas por:
p!ijk(1) = p!i .. × p!. jk =
ni .. n. jk
×
n... n...
de donde la estimación por máxima verosimilitud de mijk será:
m! ijk(1) = n... × p!ijk(1) = n... ×
ni .. n. jk ni .. × n. jk
×
=
n... n...
n...
De esta forma, el estadístico chi-cuadrado de Pearson para medir la bondad de
ajuste del modelo M (1) viene dado por:
- 123 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
I
J
K
X = ∑∑∑
2
(n
i =1 j =1 k =1
ijk
− m! ijk(1)
)
2
m! ijk(1)
mientras que el test de la razón de verosimilitud será:
I
J
K
G 2 = 2 ∑ ∑ ∑ nijk × log
i =1 j =1 k =1
nijk
m! ijk(1)
En ambos casos, la hipótesis que establece el modelo M (1) será rechazada a un
nivel de significación α si X 2 ( o G 2 ) es mayor que χ 12−α , ( I −1)( JK −1) .
El planteamiento de los modelos M ( 2 ) y M (3) es similar al del modelo M (1) ,
siendo sus respectivas representaciones gráficas las siguientes:
Para el modelo M ( 2 ) :
A
C
B
- 124 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Para el modelo M (3) :
A
C
B
3º) Modelos de independencia condicionada:
Podría ocurrir que, dada una categoría determinada de una variable, las otras dos
variables fuesen independientes. A partir de la definición de probabilidad condicionada,
la probabilidad asociada a la categoría i de la variable A y a la categoría j de la variable
B, dada la categoría k de la variable C, vendría dada por:
pij k =
pijk
p..k
Pues bien, la independencia condicionada de las variables A y B para cada
categoría de la variable C, significa, para todo i, j y k, que:
pij k =
pi .k p. jk
×
p..k
p..k
- 125 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
A partir de las dos expresiones anteriores, el modelo de independencia
condicionada de las variables A y B, dada cada categoría de la variable C, puede
escribirse como sigue:
pijk =
pi .k × p. jk
p..k
Pero la independencia condicionada entre las variables A y B puede depender o
no de cada categoría concreta de la variable C. Si las variables A, B y C son
mútuamente independientes, entonces:
pij k =
pijk pi .. × p. j . × p..k
=
= pi.. × p. j .
p..k
p..k
Por el contrario, si la variable A es independiente de las variables B y C se
verificará que:
pij k =
pijk pi .. × p. jk
=
p..k
p..k
De igual forma, si la variable B es independiente de las variables A y C, se
tendrá que:
- 126 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
pij k =
pijk pi .k × p. j .
=
p..k
p..k
Cuando dos variables categóricas son independientes, dada una categoría
determinada de una tercera variable, surgen los tres modelos de independencia
condicionada siguientes:
a) Las variables A y B son independientes dada una categoría determinada de la
variable C:
M ( 4 ) : pijk =
pi .k × p. jk
p..k
(3.8)
cuya representación gráfica es:
A
C
B
b) Las variables A y C son independientes dada una categoría determinada de la
variable B:
- 127 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
M (5) : pijk =
pij . × p. jk
p. j .
(3.9)
siendo su representación gráfica la siguiente:
A
C
B
c) Las variables B y C son independientes dada una categoría determinada de la
variable A:
M ( 6) : pijk =
pij . × pi .k
pi ..
La representación gráfica del modelo M ( 6) será la siguiente:
A
C
B
- 128 -
(3.10)
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Las estimaciones por máxima verosimilitud de pijk para el modelo M ( 4 ) vendrán
dadas por:
( 4)
p!ijk
=
p!i .k × p!. jk
p!..k
ni.k n. jk
×
n × n. jk
n...
n...
=
= i .k
n..k
n..k × n...
n...
En consecuencia, la estimación por máxima verosimilitud de mijk vendría dada,
en este caso, por:
( 4)
( 4)
m! ijk
= n... × p!ijk
= n... ×
ni .k × n. jk ni .k × n. jk
=
n..k × n...
n..k
Los tests estadísticos para medir la bondad de ajuste del modelo M ( 4 ) serán:
I
J
K
X = ∑∑∑
2
(n
ijk
i =1 j =1 k =1
( 4)
− m! ijk
)
2
( 4)
m! ijk
y
I
J
K
G 2 = 2 ∑ ∑ ∑ nijk × log
i =1 j =1 k =1
nijk
m! ijk( 4 )
En ambos casos, se rechazará el modelo M ( 4 ) a un nivel de significación α
cuando X 2 o G 2 sea mayor que χ 12− α , ( I −1)( J −1) K .
- 129 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
Finalmente, los modelos M (5) y M ( 6) son similares al modelo M ( 4 ) en términos
de independencia estadística.
Así pues, y como síntesis de lo expuesto hasta ahora, para una tabla de
contingencia tridimensional pueden formularse un total de siete modelos de
independencia ( modelos M ( 0) a M ( 6) ), a diferencia del caso bidimensional, en el que
sólo puede plantearse un único modelo de independencia. Como fácilmente puede
observarse, la generalización de los modelos de independencia a una tabla formada por
más de tres variables es inmediata y no plantea absolutamente ningún problema
conceptual ni metodológico.
Ahora bien, de la misma forma que para el caso bidimensional se define un
conjunto de medidas estadísticas que permiten contrastar la validez del modelo de
independencia, cuando se trabaja con una tabla de contingencia de dimensión tres o
superior, la contrastación de los múltiples modelos de independencia asociados a la
misma no es posible a través de las medidas de asociación utilizadas en tablas
bidimensionales. Surge entonces la necesidad de instrumentar una técnica que permita
verificar estadísticamente este conjunto de modelos. Esta técnica es el denominado
modelo logarítmico-lineal, que consiste básicamente en la descomposición del
logaritmo de las frecuencias esperadas de la tabla de contingencia en una serie de
términos que representan, además del efecto global y de los efectos primarios de las
variables de la tabla, los efectos de interacción entre las mismas. La contrastación de la
- 130 -
Capítulo Tercero: Tablas de Contingencia
____________________________________________________________________________________
significatividad estadística de estos efectos de interacción permitirá al investigador
verificar si un modelo de independencia determinado puede o no ser aceptado. Dada la
importancia que esta técnica estadística tiene para este trabajo de investigación, el
Capítulo Cuarto se dedicará íntegramente a presentar el modelo log-lineal, a interpretar
estadísticamente sus parámetros, a comentar los métodos de estimación de dichos
parámetros y los criterios de selección de modelos, etc.
- 131 -
CA PÍ T U L O CU A R T O
EL MODELO LOG-LINEAL GENERAL
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.1. INTRODUCCIÓN.
Desde la introducción por K. Pearson ( 1895 ) del estudio de familias de
distribuciones de probabilidad continuas univariantes a partir de una ecuación
diferencial, han sido numerosos los autores que, siguiendo la línea marcada por este
autor, han desarrollado sistemas de familias de distribuciones multivariantes. Entre estos
autores, destacan Van Uven ( 1947 ), Ork ( 1967 ), Elderton y Johnson ( 1969 ),
Herrerías ( 1975, 1976 ), Fajardo ( 1985 ) y Callejón ( 1994 ), cuyos objetivos eran
obtener nuevas distribuciones teóricas que pudieran servir de modelo para los diversos
fenómenos que ocurren en las Ciencias Sociales, así como la obtención de las
propiedades inherentes a las mismas.
En la última década, y de forma similar a los estudios anteriores, se han generado
modelos de distribuciones de probabilidad discretas mediante el desarrollo del logaritmo
de la función de probabilidad conjunta en función de términos τ . Estos modelos son
conocidos con el nombre de modelos log-lineales, los cuales son de aplicación general a
tablas de contingencia, en las que las relaciones entre las variables pueden modelizarse a
partir de estos términos τ . De estas relaciones, destacan especialmente las de
independencia, ya tratadas anteriormente por algunos autores ( véase Fajardo, 1985 ).
El origen de estos nuevos modelos se encuentra en la incapacidad de las
herramientas estadísticas presentadas en el capítulo anterior para contrastar la
independencia o la asociación entre variables cuando el análisis se generaliza a tres o
- 135 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
más variables. Se impone, en consecuencia, la necesidad de buscar un nuevo
instrumento estadístico que posibilite la contrastación de estas y de otras muchas
hipótesis de independencia de una forma sencilla y fiable.
En una primera aproximación, el modelo logarítmico-lineal puede considerarse
una técnica análoga al Análisis de la Varianza, pero referida exclusivamente a variables
categóricas. Esta analogía entre la ANOVA y el modelo log-lineal se plasma, entre otras
cosas, en la terminología propia de este último ( se hablará de interacción, en lugar de
asociación, para hacer referencia a la relación existente entre dos o más variables
categóricas de la tabla de contingencia ) y en la descomposición de las frecuencias
esperadas de la tabla multidimensional ( al igual que en la ANOVA se descompone la
suma total de cuadrados para detectar las fuentes de variación, en el modelo log-lineal
las frecuencias esperadas se descomponen para identificar la independencia o la
asociación entre dos o más factores de la tabla ).
Otra característica esencial del modelo log-lineal, que lo diferencia del modelo
de regresión clásico, es que la totalidad de variables que intervienen en el mismo
interactúan entre sí, en el sentido de que una variable A puede influir sobre una variable
B, pero, a su vez, esta última puede también influir sobre aquella. Esto significa que el
modelo log-lineal no distingue entre variables explicativas y variables dependientes,
como ocurre en el modelo de regresión, sino que todas las variables analizadas son
tratadas como variables explicativas de las demás o como variables explicadas por las
demás. En otros términos, a diferencia de la relación asimétrica que se establece entre
- 136 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
las variables en un modelo de regresión, en un modelo log-lineal se presume que las
relaciones existentes entre las variables categóricas objeto de análisis son de naturaleza
simétrica.
Al objeto de delimitar conceptualmente toda la problemática generada en torno
al modelo log-lineal, se estructurará el presente Capítulo en tres partes claramente
diferenciadas.
En la primera parte, se introducirá el modelo log-lineal general, tanto para una
tabla bidimensional como para una tabla tridimensional ( la generalización a más
variables es inmediata ), se formularán las hipótesis que implican los diferentes modelos
log-lineales que pueden proponerse y se interpretará el significado de cada modelo loglineal en términos de independencia y de independencia condicionada.
En la segunda parte del capítulo, se abordará toda la problemática relativa a la
estimación de los parámetros del modelo y a la selección del modelo óptimo haciendo
uso, para ello, de las herramientas gráficas presentadas en el Capítulo Segundo.
Finalmente, en la tercera parte se presenta el modelo logit para variables
categóricas como una reparametrización del modelo log-lineal, a partir de la cual se
podrán estimar las probabilidades asociadas a las categorías de la variable respuesta,
considerando tanto el caso en el que dicha variable es dicotómica como la problemática
que se plantea cuando la misma posee más de dos categorías.
- 137 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.2. MODELIZACIÓN LOGARÍTMICO-LINEAL.
4.2.1. Tablas bidimensionales.
Según se comentó en el capítulo precedente, las dos variables categóricas de una
tabla de contingencia bidimensional serán estadísticamente independientes si y sólo si se
verifica que todas las probabilidades conjuntas pij se pueden factorizar como producto
de las probabilidades marginales pi. y p. j , es decir:
pij = pi . × p. j
∀i , j
(4.1)
lo que permitiría expresar las frecuencias esperadas mij de la siguiente forma:
mij =
mi . × m. j
N
(4.2)
Tomando logaritmos neperianos en la expresión (4.2), se tendrá que:
( )
( )
ln mij = ln(mi . ) + ln m. j − ln( N )
(4.3)
Sea τ 0 la media de todos los logaritmos de las frecuencias esperadas, es decir,
τ0 =
1
IJ
∑ ∑ ln(m ) .
I
J
ij
Sumando la expresión (4.3) respecto a i y respecto a j y
i =1 j =1
dividiendo entre IJ, se tendrá que:
- 138 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
τ0 =
1 I
1
ln(mi . ) +
∑
I i =1
J
∑ ln(m ) − ln( N )
J
(4.4)
.j
j =1
Por otra parte, sea τiA la diferencia entre la media de los logaritmos de las
frecuencias esperadas en las J casillas para la categoría i de la variable A y la media de
todos los logaritmos de las frecuencias esperadas:
τiA =
1
J
de forma que τiA + τ 0 =
∑ ln(m ) − IJ ∑ ∑ ln(m ) = J ∑ ln(m ) − τ
J
1
I
J
1
ij
j =1
1
J
J
ij
ij
i =1 j =1
0
j =1
∑ ln(m ) .
J
ij
j =1
Sumando la expresión (4.3) con respecto a j y dividiendo entre J, se tendrá que:
τiA + τ 0 = ln(mi . ) +
1
J
∑ ln(m ) − ln( N )
J
.j
j =1
y restando (4.4) de esta expresión
τiA = ln(mi. ) −
1 I
∑ ln(mi. )
I i =1
(4.5)
Sea τ Bj la diferencia entre la media de los logaritmos de las frecuencias
esperadas en las I casillas para la categoría j de la variable B y la media de todos los
logaritmos de las frecuencias esperadas:
- 139 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
τ Bj =
1
I
de forma que τ Bj + τ 0 =
∑ ln(m ) − IJ ∑ ∑ ln(m ) = I ∑ ln(m ) − τ
I
1
I
J
ij
ij
i =1
1
I
I
1
ij
i =1 j =1
0
i =1
∑ ln(m ) .
I
ij
i =1
Sumando la expresión (4.3) con respecto a i y dividiendo entre I, tendremos que:
( )
τ + τ 0 = ln m. j
B
j
1 I
+ ∑ ln(mi . ) − ln( N )
I i =1
y restando la expresión (4.4) de la expresión anterior se obtiene que:
( )
τ Bj = ln m. j −
1
J
∑ ln(m )
J
(4.6)
.j
j =1
A continuación, y a partir de las expresiones (4.5) y (4.6), podemos sustituir
( )
ln(mi . ) y ln m. j en la expresión (4.3), los que nos conducirá a:
( )
1 I
1
ln mij = τ + ∑ ln(mi. ) + τ Bj +
I i =1
J
A
i
∑ ln(m ) − ln( N )
J
.j
j =1
lo cual, y considerando la expresión (4.4), nos conduce finalmente a:
( )
ln mij = τ 0 + τiA + τ Bj
- 140 -
(4.7)
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
La expresión anterior se conoce como “modelo log-lineal” para las
frecuencias esperadas mij , bajo la hipótesis de que las variables A y B son
independientes.
Algunos comentarios sobre este modelo pondrán de manifiesto sus analogías con
el Análisis de la Varianza. Así, a partir de las expresiones (4.5) y (4.6) se demuestra que
I
∑ τiA = 0 y que
i =1
J
∑τ
B
j
= 0 . También por analogía con el Análisis de la Varianza
j =1
designaremos a los términos τiA y τ Bj como efectos primarios de las categorías en la
tabla bidimensional. El conjunto de efectos primarios τiA ( i = 1, 2, ..., I ) recoge las
diferencias en los valores marginales de las filas de la tabla, mientras que el conjunto de
efectos τ Bj ( j = 1, 2, ..., J ) recoge las diferencias en los valores marginales de las
columnas de la tabla.
El modelo (4.7) se ha obtenido suponiendo que las variables A y B son
independientes, y que la variación en los τiA y en los τ Bj es la única variación posible en
la tabla cuando se impone esta restricción. Si las variables A y B no son independientes,
habrá alguna asociación entre las mismas, lo que implica que las frecuencias esperadas
de la tabla se verán afectadas por los valores de las combinaciones (i,j) de las variables
A y B. Volviendo a la terminología del Análisis de la Varianza, podríamos decir que
existirá una interacción entre las categorías de la variable A y las categorías de la
variable B. Si la expresión (4.7) representa un modelo para los datos de la tabla en
- 141 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
ausencia de interacción, parece razonable postular que el modelo completo se plantee de
la siguiente forma:
( )
ln mij = τ 0 + τiA + τ Bj + τijAB
(4.8)
donde τijAB representa el término de interacción para las categorías (i,j) de las variables
A y B. La expresión del término τijAB se obtiene de forma similar a como se han
deducido las expresiones de los términos τ 0 , τiA y τ Bj , teniendo en cuenta únicamente
que, cuando las dos variables de la tabla están asociadas, la probabilidad conjunta pij
debe factorizarse como pij = pi . × p. j × kij , donde kij cuantifica el efecto conjunto de la
categoría i-ésima de la variable A y de la categoría j-ésima de la variable B. De esta
forma, y mediante un desarrollo similar al anteriormente expuesto, el efecto de
interacción τijAB vendrá dado por la siguiente expresión:
( )
τijAB = ln mij −
( )
1 I
1
ln mij −
∑
I i =1
J
∑ ln(m ) + IJ ∑ ∑ ln(m )
J
1
I
J
ij
j =1
ij
(4.9)
i =1 j =1
Continuando con las analogías con el Análisis de la Varianza, estos términos de
interacción deben satisfacer las siguientes restricciones:
I
∑τ
i =1
J
AB
ij
= ∑ τijAB = 0
j =1
- 142 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Debido a estas restricciones, y a las anteriores referidas a los τiA y a los τ Bj , el
modelo (4.8) contiene un total de 1+(I-1)+(J-1)+(I-1)(J-1) = IJ parámetros desconocidos.
Si este modelo se ajusta a una tabla IxJ de frecuencias observadas, estos IJ parámetros
desconocidos deberán estimarse a partir de IJ casillas, lo que implica la existencia de un
ajuste perfecto de dicho modelo a los datos. Este es el motivo por el que al modelo (4.8)
también se le conoce con el nombre de modelo saturado o modelo completo. En
consecuencia, puede definirse al modelo saturado como aquel que incluye todos los
efectos primarios y todos los efectos de interacción existentes entre el conjunto de
variables que forman la tabla de contingencia.
Para probar la hipótesis nula de no asociación entre las variables A y B, bastará
contrastar si en el modelo (4.8) se verifica la hipótesis H 0 : τijAB = 0 , para todo i y para
todo j. De esta forma, se podrían ajustar sucesivamente el modelo (4.8) y el modelo
(4.7) a los datos, de forma que si el ajuste de este último es significativamente peor que
el ajuste del primero, la hipótesis nula se rechazará, mientras que en caso contrario dicha
hipótesis será aceptada.
Llegados a este punto, podemos afirmar que si en una tabla de contingencia
bidimensional se verifica que pij = pi . × p. j , para todo i y para todo j, las relaciones
entre las dos variables categóricas de la tabla puede modelizarse a través del modelo
( )
log-lineal ln mij = τ 0 + τiA + τ Bj . En otros términos, la independencia entre las variables
A y B implica el anterior modelo log-lineal. Además, la implicación contraria también
se verifica, la cual es, a juicio de Christensen ( 1990, pp. 48-49 ), más importante que la
- 143 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
primera implicación. Este autor demuestra, a partir de un modelo de muestreo
( )
multinomial, que si el modelo ln mij = τ 0 + τiA + τ Bj se verifica, entonces pij = pi . × p. j ,
para todo i y para todo j, lo que nos da pie a concluir afirmando que:
pij = pi . × p. j
( )
⇔ ln mij = τ 0 + τiA + τ Bj
4.2.2. Tablas tridimensionales.
La metodología expuesta para el análisis bidimensional puede extenderse a
tablas de dimensión superior. Ilustraremos esta extensión para tablas tridimensionales.
El modelo log-lineal saturado para estas tablas, en las que se recoge la clasificación
cruzada de las variables A, B y C ( que poseen i, j y k categorías, respectivamente ), es el
formado por todos los efectos primarios y por todos los efectos de interacción que
puedan establecerse para estas tres variables. En consecuencia, la expresión de dicho
modelo será la siguiente1:
ABC
log mijk = τ 0 + τiA + τ Bj + τ Ck + τ ijAB + τ ikAC + τ BC
jk + τ ijk
(4.10)
donde τ 0 es el efecto global; τiA , τ Bj y τ Ck son los efectos primarios; τijAB , τikAC y τ BC
jk
1
En lo sucesivo, se designará por log mi al logaritmo neperiano de las frecuencias esperadas mi . Por
consiguiente, todos los logaritmos considerados en este y en posteriores capítulos son logaritmos en base
e.
- 144 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
reciben el nombre de efectos de interacción de segundo orden; y τijkABC se conoce con el
nombre de efecto de interacción de tercer orden.
El modelo (4.10) verifica las siguientes restricciones:
I
∑τ
J
K
j =1
k =1
= ∑ τ Bj = ∑ τ Ck = 0
A
i
i =1
I
∑ τijAB =
i =1
I
∑τ
=
AC
ik
i =1
J
=
BC
jk
j =1
∑ τijkABC =
i =1
∑τ
AB
ij
=0
AC
ik
=0
BC
jk
=0
j =1
K
∑τ
k =1
∑τ
I
J
K
∑τ
k =1
J
∑ τijkABC =
j =1
K
∑τ
ABC
ijk
=0
k =1
El efecto de interacción de tercer orden τijkABC vendrá dado por la siguiente
expresión:
( ) ∑ log (m ) ∑ log m
I
τ
ABC
ijk
( )
= log mijk −
I
+
∑ log mijk
i =1
I
J
−
j =1
−
J
ijk
k =1
K
∑ ∑ log (m )
I
K
ijk
J
ijk
+
i =1 j =1
IJ
+
( ) ∑ ∑ log (m ) ∑ ∑ ∑ log (m )
k
∑ ∑ log mijk
i =1 k =1
IK
J
k
I
J
K
ijk
+
j =1 k =1
JK
- 145 -
ijk
−
i =1 j =1 k =1
IJK
(4.11)
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
mientras que los efectos de interacción de segundo orden vendrán dados por:
( )
K
τ ijAB =
∑ log mijk
k =1
K
( )
J
τ
AC
ik
=
∑ log mijk
j =1
J
( )
I
τ
BC
jk
=
∑ log mijk
i =1
I
J
−
∑ ∑ log mijk
j =1 k =1
JK
J
−
( )
K
∑ ∑ log mijk
j =1 k =1
JK
I
−
( ) ∑ ∑ log (m ) ∑ ∑ ∑ log (m )
K
( )
K
∑ ∑ log mijk
i =1 k =1
IK
I
−
ijk
i =1 k =1
IK
I
−
J
K
ijk
+
i =1 j =1 k =1
IJK
(4.12)
( ) ∑ ∑ ∑ log (m )
J
∑ ∑ log mijk
i =1 j =1
IJ
I
−
I
K
I
J
K
ijk
+
i =1 j =1 k =1
(4.13)
IJK
( ) ∑ ∑ ∑ log (m )
J
∑ ∑ log mijk
i =1 j =1
IJ
I
J
K
ijk
+
i =1 j = 1 k = 1
IJK
(4.14)
A diferencia de lo que ocurría en el caso bidimensional, cuando la tabla de
contingencia es de dimensión tres son varios los modelos de independencia que podrían
formularse. Así, se podría postular un modelo en el que el efecto de interacción de tercer
orden τijkABC estuviese ausente, lo que implicaría que cada efecto de interacción de
segundo orden no está afectado por cada categoría de la tercera variable. Estaríamos en
este caso ante un modelo de asociación parcial entre cada par de variables. Otro
modelo que podría formularse sería aquel en el que, además del efecto de interacción de
tercer orden, uno de los tres efectos de segundo orden fuese igual a cero. Este modelo,
del que existirían tres versiones ( resultantes de eliminar los efectos τijAB , τikAC y τ BC
jk ,
respectivamente ), recibe el nombre de modelo de independencia condicionada.
Podría ocurrir también que fuesen nulos el efecto de tercer orden y dos de los tres
efectos de segundo orden del modelo saturado, lo que daría lugar al llamado modelo de
independencia parcial, del que también existirían tres versiones. Finalmente, podría
- 146 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
suceder que todos los efectos de interacción del modelo saturado ( tanto el de tercer
orden como los de segundo orden ) estuvieran ausentes del mismo. En este caso
particular, estaríamos ante un modelo que incluiría únicamente el efecto global y los tres
efectos primarios de las variables recogidas en la tabla de contingencia. Dicho modelo
recibe el nombre de modelo de independencia completa.
Como se ha puesto de manifiesto en el Capítulo anterior, cada uno de estos
modelos ( que son casos particulares del modelo saturado (4.10) ) implican una
hipótesis determinada que podría expresarse en términos de probabilidad según se
muestra en el esquema siguiente:
Modelo
Modelo IC
Hipótesis
Efectos de interacción nulos
pijk = pi .. × p. j . × p..k
∀ i, j,k
τ ijkABC = τ ijAB = τ ikAC = τ BC
jk = 0
Modelo IP1
pijk = pi .. × p. jk
τ ijkABC = τ ijAB = τ ikAC = 0 ∀ i , j , k
Modelo IP2
pijk = p. j . × pi .k
τijkABC = τijAB = τ BC
∀ i, j,k
jk = 0
Modelo IP3
pijk = p..k × pij .
∀ i, j,k
τijkABC = τ ikAC = τ BC
jk = 0
Modelo ICO2
pi .k × p. jk
p..k
p × pi .k
pijk = ij .
p. j .
Modelo ICO3
pijk =
Modelo ICO1
Modelo AP
pijk =
pij . × p. jk
pi ..
-
τ ijkABC = τ ijAB = 0 ∀ i , j , k
τ ijkABC = τ BC
∀ i, j,k
jk = 0
τijkABC = τikAC = 0 ∀ i , j , k
τ ijkABC = 0 ∀ i , j , k
- 147 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
En consecuencia, de acuerdo con el anterior esquema y teniendo presente que
cada una de las hipótesis planteadas implica que determinados parámetros del modelo
saturado son nulos, los modelos log-lineales asociados a cada una de las anteriores
hipótesis de independencia son los que vienen dados por las expresiones siguientes:
Modelo de independencia completa:
log mijk = τ 0 + τiA + τ Bj + τ Ck
Modelo IC:
( M(0) )
Modelos de independencia parcial:
Modelo IP1:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC
jk
( M(1) )
Modelo IP2:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τikAC
( M(2) )
Modelo IP3:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τijAB
( M(3) )
Modelos de independencia condicionada:
Modelo ICO1:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ikAC + τ BC
jk
( M(4) )
Modelo ICO2:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τ BC
jk
( M(5) )
Modelo ICO3:
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τikAC
( M(6) )
Modelo de asociación parcial:
Modelo AP:
log mijk = τ 0 + τiA + τ Bj + τ Ck + τijAB + τikAC + τ BC
jk
- 148 -
( M(7) )
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.2.3. Jerarquía, notación abreviada e interpretación de modelos loglineales.
Una de las condiciones que deben verificar los modelos log-lineales ( tanto los
asociados a tablas bidimensionales como a tablas tridimensionales o de dimensión
superior ) es que deben ser jerárquicos. Un modelo es jerárquico si incluye todos los
efectos de interacción de orden inferior y todos los efectos primarios que puedan
obtenerse a partir de un determinado efecto de interacción de orden superior. Así, por
ejemplo, si el efecto de interacción τijkABC está incluido en el modelo, también deberán
estar incluidos en el mismo los efectos de interacción de segundo orden τijAB , τikAC y τ BC
jk
y los efectos primarios τiA , τ Bj y τ Ck . Todos los modelos log-lineales que serán tratados
en el presente capítulo son modelos jerárquicos. De acuerdo con el concepto de
jerarquía, es evidente que algunos de los términos incluidos en los modelos log-lineales
anteriormente enumerados son totalmente redundantes.
Así, en el modelo ICO3 los parámetros τijAB y τikAC son suficientes para
representar las relaciones de dependencia entre las tres variables categóricas de la tabla
de contingencia, puesto que la inclusión de estos dos parámetros implica necesariamente
la inclusión de los restantes parámetros τiA , τ Bj y τ Ck , dada la necesaria condición de
jerarquía de todo modelo log-lineal. En consecuencia, el modelo ICO3 puede
expresarse, empleando una notación abreviada, como [AB][AC]. De forma similar, el
modelo IP1 puede representarse simplemente mediante los parámetros τiA y τ BC
jk , dado
- 149 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
que la presencia de estos dos parámetros implica necesariamente la existencia del resto
de parámetros de dicho modelo. Por tanto, el modelo IP1 se expresaría abreviadamente
como [A][BC]. En el esquema siguiente se muestra la notación abreviada de los ocho
modelos anteriores:
Modelo
Modelo IC
Notación abreviada
[A][B][C]
Modelo IP1
[A][BC]
Modelo IP2
[B][AC]
Modelo IP3
[C][AB]
Modelo ICO1
[AC][BC]
Modelo ICO2
[AB][AC]
Modelo ICO3
[AB][BC]
Modelo AP
[AB][AC][BC]
La notación abreviada no sólo identificará a cada modelo log-lineal, sino
también a las tablas de contingencia marginales que deberán ajustarse para obtener las
estimaciones máximo-verosímiles de los parámetros del modelo.
Por otro lado, todos y cada uno de los modelos anteriores pueden expresarse en
términos de independencia, de independencia condicionada o de distribución uniforme
de las categorías de una variable categórica.
Para ello, se expresará la independencia entre las variables A y B de forma
simbólica como A ⊗ B ; la independencia condicionada entre las variables A y B, dada
- 150 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
la variable C, como A ⊗ B C ; y la distribución uniforme2 de las categorías de la
variable A como A = u .
Además de lo anterior, un grupo de variables puede ser independiente de otra
variable o de otro conjunto de variables. Así, la expresión A ⊗ (B,C) significa que la
variable A es independiente tanto de B como de C.
De acuerdo con esta nomenclatura, el modelo IC, cuya notación abreviada es
[A][B][C], y que implica la independencia mútua entre las variables A, B y C, sería
equivalente a la siguiente expresión:
A ⊗ B⊗ C
De forma similar, los restantes modelos considerados pueden expresarse en
términos de independencia, de independencia condicionada o de distribución uniforme
de la forma que refleja la Tabla 4.1.
En cualquier caso, los modelos de independencia completa, de independencia
parcial y de independencia condicionada no son los únicos que pueden formularse en
2
Una variable categórica A posee una distribución uniforme cuando el efecto primario
decir:
τiA = 0 ; ∀i = 1, 2, ..., I ⇒ A = u
- 151 -
τiA es nulo, es
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
una tabla de contingencia tridimensional. De hecho, es posible proponer otros modelos
log-lineales, cuyas hipótesis e interpretación se muestran en la Tabla 4.2.
Tabla 4.1
Interpretación en términos de independencia de modelos log-lineales
Modelo
Interpretación
A ⊗ B⊗ C
Modelo IC
Modelo IP1
A ⊗ (B,C)
Modelo IP2
B ⊗ (A,C)
Modelo IP3
C ⊗ (A, B)
Modelo ICO1
A⊗B C
Modelo ICO2
A⊗C B
Modelo ICO3
B⊗ C A
Modelo AP
-3
Tabla 4.2
Hipótesis e interpretación en términos de independencia de otros modelos log-lineales
Modelo
Hipótesis
Interpretación
[ABC]
[BC]
[AC]
[AB]
1
pijk = × p. jk
I
1
pijk = × pi .k
J
1
pijk = × pij .
K
A ⊗ (B,C) ; A = u
B ⊗ (A,C) ; B = u
C ⊗ (A,B) ; C = u
Continúa ...
Tanto el modelo [ABC] ( modelo saturado ) como el modelo [AB][AC][BC] no tienen ninguna
interpretación en términos de independencia ni de independencia condicionada, puesto que ambos
modelos implican la dependencia mútua entre todas las variables que forman la tabla. La única diferencia
entre los dos modelos es que en el modelo saturado las tres variables interactúan conjuntamente, mientras
que en el modelo [AB][AC][BC] cada par de variables interactúa mútuamente. En definitiva, los modelos
[ABC] y [AB][AC][BC] no equivalen a ningún tipo de hipótesis de independencia.
3
- 152 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
... viene de la página anterior
Modelo
[A][B]
[A][C]
[B][C]
[A]
[B]
[C]
-4
Hipótesis
1
pijk = pi .. × p. j . ×
K
1
pijk = pi .. × × p..k
J
1
pijk = × p. j . × p..k
I
1 1
pijk = pi .. × ×
J K
1
1
pijk = × p. j . ×
I
K
1 1
pijk = × × p..k
I J
1
pijk =
I×J×K
Interpretación
A ⊗ B⊗ C;C= u
A ⊗ B⊗ C; B= u
A ⊗ B⊗ C;A = u
A ⊗ B⊗ C; B= C = u
A ⊗ B⊗C;A = C= u
A ⊗ B⊗C;A = B= u
A ⊗ B⊗C;A = B= C= u
Finalmente, el carácter jerárquico de los modelos log-lineales presentados hace
posible una esquematización gráfica que recoja el conjunto completo de modelos loglineales jerárquicos. Dicha esquematización es un retículo ordenado de modelos que va
desde el saturado hasta el que sólo incluye el efecto global, pasando por el modelo de
asociación parcial, por los modelos de independencia condicionada, por los modelos de
independencia parcial, por el modelo de independencia completa y, finalmente, por los
modelos de equiprobabilidad condicionada. Este esquema es el que aparece recogido en
la página siguiente.
4
El modelo log-lineal en el que las tres variables son mútuamente independientes y además sus categorías
siguen una distribución uniforme no tiene notación abreviada.
- 153 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Modelo saturado
ABC
Asociacion
parcial
AB, AC, BC
Independencia
condicionada
AB, AC
Independencia
condicionada
AB, BC
Independencia
condicionada
AC, BC
Independencia parcial
AB, C
Independencia parcial
AC, B
Independencia parcial
BC, A
Independencia completa
A, B, C
Equiprobabilidad condicionada
AB
Equiprobabilidad condicionada
AC
Equiprobabilidad condicionada
BC
Independencia
A, B
Independencia
A, C
Independencia
B, C
Un solo efecto primario
A
Un solo efecto primario
B
Un solo efecto primario
C
Só lo efecto
global
4.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO.
Los parámetros de un modelo log-lineal cualquiera ( esto es, efecto global,
efectos primarios y efectos de interacción ) son funciones del logaritmo de mij ( en el
caso bidimensional ) o de mijk ( en el caso tridimensional ). En consecuencia, la
- 154 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
estimación de los parámetros de cualquier modelo log-lineal ( y, por tanto, la estimación
de las probabilidades asociadas a las casillas de la tabla de contingencia ) pasa por la
estimación de las frecuencias esperadas mijk , para lo cual se utilizará el método de la
máxima verosimilitud.
Teniendo presente que las estimaciones máximo-verosímiles de las mijk son
siempre las mismas con independencia del modelo muestral utilizado ( Christensen,
1990, pag. 368 ), empleando un modelo de Poisson y considerando una tabla de
contingencia IxJxK5, se tendrá que el logaritmo de la función de verosimilitud6 vendrá
dado por la siguiente expresión:
I
J
K
I
J
K
log L = ∑ ∑ ∑ nijk log mijk − ∑ ∑ ∑ mijk
i =1 j =1 k =1
i =1 j =1 k =1
Si se considera el modelo log-lineal saturado [ABC]
ABC
log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τikAC + τ BC
jk + τ ijk
el logaritmo de la función de verosimilitud será igual a:
5
La estimación de los parámetros de los modelos log-lineales asociados a una tabla de contingencia IxJ
no es más que un caso particular del desarrollo aquí expuesto.
6
Excluyendo de la misma aquellos términos que no incluyan las
- 155 -
mijk .
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
I
J
K
i =1
j =1
k =1
I
J
log L = n... × τ 0 + ∑ ni .. × τiA + ∑ n. j . × τ Bj + ∑ n..k × τ Ck + ∑ ∑ nij. × τ ijAB +
I
K
J
K
I
J
i =1 j =1
K
ABC
+ ∑ ∑ ni .k × τ ikAC + ∑ ∑ n. jk × τ BC
−
jk + ∑ ∑ ∑ nijk × τ ijk
i = 1 k =1
I
J
j =1 k =1
K
i =1 j =1 k =1
{
ABC
− ∑ ∑ ∑ exp τ 0 + τiA + τ Bj + τ Ck + τijAB + τikAC + τ BC
jk + τ ijk
i = 1 j =1 k = 1
}
(4.15)
De esta forma, los valores estimados m! ijk para un modelo log-lineal concreto se
obtendrán solucionando un conjunto de ecuaciones de verosimilitud. A partir de la
expresión (4.15), la función log L para cada modelo log-lineal se obtendrá
considerando simplemente que algunos de los parámetros de la misma son iguales a
cero, lo que la simplifica considerablemente. Así, por ejemplo, en el modelo log-lineal
[AC][BC] los parámetros τijAB y τijkABC son iguales a cero, por lo que la función log L
quedaría reducida a la siguiente expresión:
I
J
K
j =1
k =1
I
K
log L = n... × τ 0 + ∑ ni .. × τiA + ∑ n. j . × τ Bj + ∑ n..k × τ Ck + ∑ ∑ ni .k × τikAC +
i =1
J
K
I
J
K
{
i =1 k =1
A
B
C
AC
BC
+ ∑ ∑ n. jk × τ BC
jk − ∑ ∑ ∑ exp τ 0 + τ i + τ j + τ k + τ ik + τ jk
j =1 k =1
i =1 j =1 k =1
}
(4.16)
En este último caso, las ecuaciones de verosimilitud se obtendrán calculando las
derivadas parciales de la función log L con respecto a cada parámetro del modelo e
igualando dichas derivadas parciales a cero, es decir:
- 156 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
∂ log L
=0
∂ τ0
⇒
m! ... = n...
(4.17)
∂ log L
=0
∂ τiA
⇒
m! i.. = ni .. para todo i
(4.18)
∂ log L
=0
∂ τ Bj
⇒
m! . j . = n. j . para todo j
(4.19)
∂ log L
=0
∂ τ Ck
⇒
m! ..k = n..k para todo k
(4.20)
∂ log L
=0
∂ τikAC
⇒
m! i.k = ni .k
para todo i y k
(4.21)
∂ log L
=0
∂ τ BC
jk
⇒
m! . jk = n. jk para todo j y k
(4.22)
Sin embargo, las cuatro primeras ecuaciones de verosimilitud pueden obtenerse
en realidad a partir de las expresiones (4.21) y (4.22) sumando simplemente con
respecto a i, a j o a k ( según el caso ), de forma que puede concluirse que ni .k y n. jk
constituyen las estimaciones máximo-verosímiles necesarias para estimar el modelo
[AC][BC]. A los valores ni .k y n. jk se les conoce con el nombre de estadísticos
suficientes mínimos.
Si el modelo [AC][BC] implica que pijk =
mijk =
pi .k × p. jk
( o, equivalentemente, que
p..k
mi .k × m. jk
), es evidente que las estimaciones máximo-verosímiles de las mijk
m..k
vendrán dadas por:
- 157 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
m! ijk =
m! i.k × m! . jk ni .k × n. jk
=
m! ..k
n..k
(4.23)
A partir de los valores estimados m! ijk , la estimación de los parámetros del
modelo log-lineal [AC][BC] es inmediata.
Como puede observarse en la expresión (4.23), las estimaciones máximoverosímiles m! ijk son funciones directas de los estadísticos suficientes mínimos7. Esta
circunstancia ocurre en la mayoría de los modelos log-lineales asociados a una tabla de
contingencia IxJxK.
Tabla 4.3
Modelo
( notación abreviada )
Estadísticos suficientes
mínimos
[A]
ni..
[B]
n. j .
[C]
n..k
[A][B]
ni.. , n. j .
[A][C]
ni.. , n..k
[B][C]
n. j . , n..k
Valor estimado
1 1
m! ijk = ni .. × ×
J K
1
1
m! ijk = × n. j . ×
I
K
1 1
m! ijk = × × n..k
I J
1
m! ijk = ni .. × n. j . ×
K
1
m! ijk = ni .. × × n..k
J
1
m! ijk = × n. j . × n..k
I
Continúa ...
7
Andersen ( 1990, pag. 188 ) indica que existirá una solución explícita a las ecuaciones de verosimilitud y
los valores esperados estimados serán funciones directas de los estadísticos suficientes mínimos si, y sólo
si, el modelo es descomponible, concepto que será introducido con posterioridad.
- 158 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
... viene de la página anterior
Modelo
( notación abreviada )
Estadísticos suficientes
mínimos
[AB]
nij.
[AC]
ni .k
[BC]
n. jk
[A][B][C]
ni.. , n. j . , n..k
[A][BC]
ni.. , n. jk
[B][AC]
n. j . , ni .k
[C][AB]
n..k , nij.
[AB][BC]
nij . , n. jk
[AB][AC]
nij . , ni .k
[AC][BC]
ni .k , n. jk
Valor estimado
1
m! ijk = × nij .
K
1
m! ijk = × ni .k
J
1
m! ijk = × n. jk
I
n × n. j . × n..k
m! ijk = i ..
N2
n × n. jk
m! ijk = i ..
N
n × ni .k
m! ijk = . j .
N
n × nij .
m! ijk = ..k
N
n × n. jk
m! ijk = ij .
ni ..
n × ni .k
m! ijk = ij .
n. j .
n × n. jk
m! ijk = i .k
n..k
[ABC]
nijk
m! ijk = nijk
La Tabla 4.3 recoge los estadísticos suficientes mínimos y las estimaciones
máximo-verosímiles de mijk para todos aquellos modelos log-lineales de una tabla de
contingencia tridimensional para los cuales las m! ijk son funciones directas de los
estadísticos suficientes mínimos.
En la tabla anterior están incluidos todos los posibles modelos log-lineales que
- 159 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
pueden considerarse en una tabla de contingencia IxJxK, a excepción del modelo
[AB][AC][BC], para el que las estimaciones de las frecuencias esperadas mijk no son
funciones directas de los estadísticos suficientes mínimos. En estos casos, la estimación
por máxima verosimilitud de las mijk debe realizarse haciendo uso de métodos
iterativos. Los dos métodos más comúnmente utilizados son el Ajuste Iterativo
Proporcional y el Algoritmo de Newton-Raphson.
Ajuste Iterativo Proporcional:
Este método, debido a Deming y Stephan ( 1940 ), consiste en partir de un valor
inicial de las m! ijk ( que denominaremos m! ijk( 0) ) e ir modificando sucesivamente dicho
valor inicial para que las estimaciones m! ijk se igualen a cada una de las tablas de
contingencia
marginales
del
conjunto
de
estadísticos
suficientes
mínimos.
( 0)
Generalmente, el valor inicial de m! ijk suele ser 1 ( m! ijk
= 1 ) y el proceso iterativo
finalizará cuando la diferencia entre dos estimaciones sucesivas esté suficientemente
próxima a cero.
Para el modelo log-lineal [AB][AC][BC], y teniendo presente que sus
estadísticos suficientes mínimos son nij . , ni .k y n. jk , la primera iteración de este proceso
de ajuste constaría de los tres pasos siguientes:
- 160 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
nij .
m! ij( 0. )
(1.1)
( 0)
m! ijk
= m! ijk
×
(1.2 )
(1.1)
m! ijk
= m! ijk
×
ni .k
m! i(.1k.1)
(1.3)
(1.2 )
m! ijk
= m! ijk
×
n. jk
m! .(jk1.2)
La segunda iteración estaría formada por los tres pasos siguientes:
( 2.1)
(1.3)
= m! ijk
×
m! ijk
nij.
!
mij(1. .3)
( 2 .2 )
( 2 .1)
m! ijk
= m! ijk
×
ni .k
!
mi(.2k .1)
( 2.3)
( 2 .2 )
= m! ijk
×
m! ijk
n. jk
m! .(jk2.2 )
Los pasos que incluiría la tercera iteración serían:
( 3.1)
( 2.3)
= m! ijk
×
m! ijk
nij .
!
mij( 2. .3)
m! ijk( 3.2 ) = m! ijk( 3.1) ×
ni .k
m! i(.3k.1)
m! ijk( 3.3) = m! ijk( 3.2) ×
n. jk
m! .(jk3.2 )
- 161 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Realizando sucesivas iteraciones, la r-ésima iteración del proceso vendría dada
por:
( r .1)
( r − 1.3)
m! ijk
= m! ijk
×
n
ij .
( r −1.3)
ij .
m!
( r .2 )
( r .1)
m! ijk
= m! ijk
×
ni .k
m! i(.rk.1)
( r .3)
( r .2 )
m! ijk
= m! ijk
×
n. jk
m! .(jkr.2 )
. ( r .1) . ( r .2) . ( r .3)
( r − 1.3)
Si se verifica que m! ijk
= m! ijk
= m! ijk = m! ijk , el proceso iterativo finalizaría y
( r .3)
las estimaciones máximo-verosímiles de las mijk vendrían dadas por las m! ijk
.
Algoritmo de Newton-Raphson:
Sea n ( n1 , n2 , ..., nS ) el vector de frecuencias observadas de una tabla de
contingencia y sea m ( m1 , m2 , ..., mS ) el vector de frecuencias esperadas de dicha tabla,
S
de forma que el tamaño muestral total verifica que N = ∑ ni . Por motivos de
i =1
simplicidad se utilizará un índice simple, aunque realmente la tabla de contingencia es
multidimensional. De acuerdo con esta nomenclatura, cualquier modelo log-lineal puede
expresarse en forma matricial como log m = Xβ
β, expresión en la que log m es un vector
columna q x 1 ( donde q = IxJxK en el caso de una tabla tridimensional ) de parámetros
- 162 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
desconocidos; X es una matriz q x p ( que, por lo general, suele estar formada por ceros
y unos ), donde p es el número total de parámetros log-lineales a estimar; y β es un
vector columna p x 1, en el que se recogen todos los términos τ que deben estimarse.
Así, por ejemplo, en una tabla de contingencia 2x3x2, el modelo log-lineal
log mijk = τ 0 + τiA + τ Bj + τ Ck puede expresarse en forma matricial tal y como se ha
apuntado anteriormente, siendo log m un vector columna de dimensión 12 x 1; X es una
matriz de orden8 12 x 8, y β es un vector columna de orden 8 x 1. Si, por el contrario, el
modelo a estimar fuese log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC
jk , el vector log m sería un
vector columna con un total de 12 filas ( al igual que antes ), pero en este caso X es una
matriz con 12 filas y 14 columnas, siendo β un vector de orden9 14 x 1.
En el supuesto de un modelo de Poisson, en el logaritmo de la función de
verosimilitud se incluirán los parámetros del modelo log-lineal log mi = ∑ xih βh de la
h
siguiente forma:
L( m ) = ∑ ni log (mi ) − ∑ mi = ∑ ni ( ∑ xih β h ) −
i
8
i
i
h
En este caso, los parámetros log-lineales que deben estimarse son
∑ exp ( ∑ xih βh )
i
h
τ 0 , τ1A , τ 2A , τ1B , τ 2B , τ 3B , τ1C y
τ C2 .
9
Ya que además de estimar los anteriores parámetros log-lineales, en este caso habrá que obtener también
estimaciones de los efectos de interacción
BC
BC
BC
BC
BC
BC
τ11
, τ12 , τ 21 , τ 22 , τ 31 y τ 32 .
- 163 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Puesto que mi = exp ( ∑ xij β j ) , se verifica que:
j
qj =
∂L( m )
= ∑ ( ni − mi ) xij
∂β j
i
∂2 L( m )
h jk =
= − ∑ mi xij xik
∂β j ∂β k
i
El método de Newton-Raphson se basa en el desarrollo de series de Taylor y
requiere una estimación inicial para los valores que maximizan la función de
verosimilitud. A continuación, dicha función se aproxima en un entorno de la
mencionada estimación inicial mediante un polinomio de segundo grado, de forma que
la segunda estimación será aquella que arroje el máximo valor del polinomio. La
función de verosimilitud se vuelve a aproximar en un entorno de la segunda estimación,
obteniéndose la tercera estimación como el valor que maximiza el polinomio, y así
sucesivamente. A través de este procedimiento se van generando una secuencia de
estimaciones, de forma que, finalmente, las estimaciones convergerán en el máximo,
siempre y cuando la función sea apropiada y/o la estimación inicial sea buena.
Si se verifican las condiciones anteriores, la estimación de orden t vendrá dada
por:
q (j t ) = ∑ ( ni − mi( t ) ) xij
i
h(jkt ) = − ∑ mi( t ) xij xik
i
- 164 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
! , que llamaremos
A continuación, la aproximación de orden t para el vector m
! ( t ) = exp  X β(t )  , donde β( t ) es un
m ( t ) , se obtendrá a partir de β( t ) mediante m


vector columna p x 1, en el que se recogen las estimaciones de orden t de la totalidad de
! ( t ) , la obtención de
parámetros log-lineales que deban estimarse. Una vez obtenido m
β( t +1) se realizará de la siguiente forma:
[
( )
] (
(t )
β(t +1) = β(t ) + X′ Diag m
X
(
−1
X′ n − m
(t )
)
)
donde la matriz Diag m ( t ) tiene los elementos mi( t ) en la diagonal principal. A su vez,
β( t +1) se emplea para obtener m ( t + 1) , y así sucesivamente.
A medida que t se incrementa, m ( t ) y β( t ) suelen converger rápidamente a las
! y β! , siendo la matriz de covarianzas estimadas
estimaciones máximo-verosímiles m
del vector β! la siguiente:
[
( )
]
−1
! ( β! ) = X′ Diag m
! X
Cov
Para mayores detalles sobre este método de estimación puede consultarse
Andersen ( 1990, pp. 74 y ss. ) o Christensen ( 1990, pp. 380 y ss. ).
- 165 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
La principal ventaja del método de ajuste iterativo proporcional es su
simplicidad, mientras que el método de Newton-Raphson es bastante más complejo,
puesto que requiere solucionar un sistema de ecuaciones en cada paso, lo que explica
que algunos paquetes informáticos encuentren grandes dificultades para utilizar este
método cuando el modelo log-lineal se refiere a una tabla de contingencia que contenga
múltiples variables categóricas.
Sin embargo, el método de ajuste iterativo proporcional también presenta
algunos inconvenientes. Así, es aplicable principalmente a modelos para los que las
ecuaciones de verosimilitud igualan las frecuencias observadas y esperadas para ciertas
tablas marginales, mientras que el método de Newton-Raphson es un método mucho
más general que permite resolver sistemas de ecuaciones de verosimilitud mucho más
complejas. Otros inconvenientes importantes son que el método de ajuste iterativo
proporcional converge bastante más lentamente que el método de Newton-Raphson y
que no calcula la matriz de covarianzas estimadas de las estimaciones máximoverosímiles de los parámetros del modelo log-lineal.
A diferencia de lo que ocurre con una tabla de contingencia IxJxK ( donde
[AB][AC][BC] es el único modelo log-lineal en el que las estimaciones m! ijk no son
funciones directas de los estadísticos suficientes mínimos ), cuando se trabaja con una
tabla de contingencia de dimensión cuatro, el número de modelos que no tienen
estimaciones directas se incrementa de forma considerable. Y, aunque en la práctica no
es necesario conocer qué modelos poseen estimaciones directas y cuáles no ( puesto que
- 166 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
los métodos iterativos de estimación anteriormente mencionados pueden emplearse para
ambas clases de modelos ), en la Tabla 4.4 se recogen los tipos de modelos asociados a
una tabla de contingencia de dimensión cuatro que poseen estimaciones directas.
Tabla 4.4
Modelo10
( notación abreviada )
Estadísticos suficientes
mínimos
[A]
ni...
[A][B]
ni... , n. j..
[A][B][C]
ni... , n. j.. , n..k .
[A][B][C][D]
ni... , n. j.. , n..k . , n...l
[AB][C][D]
nij.. , n..k . , n...l
[AB][AC][D]
nij.. , ni . k . , n...l
[AB][CD]
nij.. , n..kl
[AB][AC][BD]
nij.. , ni . k . , n. j .l
[AB][AC][AD]
nij.. , ni . k . , ni ...l
[ABC][D]
nijk . , n....l
[ABC][AD]
nijk . , ni ...l
[ABC][ABD]
nijk . , nij ..l
10
Valor estimado
n
m! ijkl = i ...
JKL
n × n. j ..
m! ijkl = i ...
NKL
n × n. j .. × n.. k .
m! ijkl = i ...
N2 L
n × n. j .. × n.. k . × n...l
m! ijkl = i ...
N3
n × n.. k . × n...l
m! ijkl = ij..
N2
n × ni .k . × n...l
m! ijkl = ij ..
ni ... × N
n × n..kl
m! ijkl = ij ..
N
n × ni .k . × n. j.l
m! ijkl = ij ..
ni ... × n. j ..
n × ni . k . × ni ..l
m! ijkl = ij ..
(ni ... )2
n × n...l
m! ijkl = ijk .
N
n × ni ..l
m! ijkl = ijk .
ni ...
n × nij .l
m! ijkl = ijk .
nij ..
El resto de modelos de cada uno de los siguientes tipos se obtiene simplemente por simetría. Así, por
ejemplo, los restantes modelos del tipo [AB][C][D] que también poseen estimaciones directas son los
modelos [AC][B][D], [AD][B][C], [BC][A][D], [BD][A][C] y [CD][A][B].
- 167 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
En definitiva, los parámetros de todos los posibles modelos log-lineales que
pueden plantearse en una tabla de contingencia de dimensión cuatro y que no se
encuadren en alguno de los tipos de modelos reflejados en la citada Tabla 4.4, deberán
ser estimados empleando alguno de los métodos iterativos de estimación mencionados
con anterioridad. Algunos de los modelos que precisan la utilización de estas técnicas
iterativas son [ABC][ABD][ACD], [ABC][ACD][BCD], [ABD][ACD][BCD], etc.
4.4. CONTRASTACIÓN DE MODELOS LOG-LINEALES.
Para determinar cuál es el modelo log-lineal que explica de forma más adecuada
las relaciones de dependencia entre un conjunto de variables categóricas, se suelen
comparar las frecuencias observadas en la tabla de contingencia ( nijk ) con las
frecuencias esperadas estimadas ( m! ijk ), para lo cual se puede utilizar indistintamente el
estadístico X 2 de Pearson:
X =
2
I
J
K
∑∑∑
(n
ijk
i = 1 j =1 k =1
− m! ijk
)
2
m! ijk
(4.24)
o bien el test estadístico de la razón de verosimilitud:
I
J K
n 
G 2 = 2 ∑ ∑ ∑ nijk log  ijk 
 m! ijk 
i =1 j =1 k =1
- 168 -
(4.25)
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
En realidad, el ajuste de un modelo log-lineal es simplemente una contrastación
de dicho modelo contra el modelo saturado, para el cual se verifica que las estimaciones
máximo-verosímiles de mijk son iguales a las frecuencias observadas en la tabla de
contingencia11.
En consecuencia, la contrastación del modelo log-lineal M(r) contra el modelo
log-lineal saturado M(s) se llevará a efecto empleando indistintamente uno de los dos
tests siguientes:
I
J
K
X = ∑∑∑
2
( m!
( s)
ijk
i =1 j = 1 k = 1
I
J K
G 2 = 2 ∑ ∑ ∑ m! ijk( s )
i =1 j =1 k =1
− m! ijk( r )
)
2
m! ijk( r )
 m! ijk( s ) 
log  ( r ) 
 m! ijk 
Esta contrastación de modelos puede generalizarse para el caso en el que desee
contrastarse un modelo log-lineal cualquiera contra otro modelo log-lineal estrictamente
mayor que el primero12. Así, el modelo IP1 log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC
jk podría ser
11
Por este motivo, el modelo log-lineal saturado siempre se ajusta perfectamente a los datos. Para el
modelo saturado, tanto
X 2 como G 2 son siempre iguales a cero.
12
No es necesario, por tanto, que el modelo mayor sea el modelo saturado. Se entiende que un modelo es
estrictamente mayor que otro cuando el primero incluye los parámetros τ del segundo y algunos otros
parámetros τ adicionales, de forma que sólo si un modelo es estrictamente mayor que otro, la
contrastación entre dichos modelos será factible. Así, por ejemplo, el modelo M(1) no podría ser
contrastado contra el modelo M(5), puesto que el primero contiene el efecto de interacción
τ BC
jk que, sin
embargo, no está presente en el modelo M(5). En este caso, se dice que los modelos M(1) y M(5) no son
comparables.
- 169 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
contrastado contra el modelo ICO1 log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ikAC + τ BC
de la
jk
siguiente forma:
2
(
X M
( 4)
M
(1)
) = ∑∑∑
I
J
K
( m!
i =1 j =1 k =1
(4)
ijk
− m! ijk(1)
)
2
m! ijk(1)
o bien:
I J K
 m! ( 4 ) 
G 2 M ( 4 ) M (1) = 2 ∑ ∑ ∑ m! ijk( 4 ) log  ijk(1) 
i =1 j =1 k =1
 m! ijk 
(
)
Como fácilmente puede observarse, el modelo IP1 es un caso especial del
modelo ICO1, puesto que aquel se obtiene cuando en éste último el efecto de interacción
τikAC es igual a cero. En consecuencia, la contrastación del modelo IP1 contra el modelo
ICO1 es equivalente a probar la siguiente hipótesis:
H 0 : τikAC = 0

H1: τikAC ≠ 0 
i = 1, 2, ..., I
k = 1, 2, ..., K
Cuando un modelo es un caso especial de otro, se dice que ambos modelos están
anidados. Según se observa fácilmente, el modelo IP1 y el modelo ICO1 son modelos
anidados, de manera que cuando el modelo IP1 se verifique, necesariamente también se
verificará el modelo ICO1.
- 170 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Según demuestra Agresti ( 1990, pag. 211 ), si M1 y M2 son modelos anidados,
de forma que M2 es un caso especial de M1, y v1 y v2 son los grados de libertad de
ambos modelos13, respectivamente ( donde v1 < v2 , al ser M2 más simple que M1 ),
entonces el valor del test de la razón de verosimilitud para el modelo M2, G 2 ( M 2 ) ,
puede ser particionado de la siguiente forma:
G 2 ( M 2 ) = G 2 ( M 1 ) + G 2 ( M 2 M1 )
donde G 2 ( M1 ) es el valor del test de la razón de verosimilitud para el modelo M1,
mientras que G 2 ( M 2 M1 ) es el valor del test de la razón de verosimilitud cuando se
contrasta el modelo M1 contra el modelo M2. Considerando que G 2 ( M1 ) y G 2 ( M 2 )
seguirán una distribución chi-cuadrado asintótica con v1 y v2 grados de libertad,
respectivamente, se demuestra igualmente que G 2 ( M 2 M1 ) sigue también una
distribución chi-cuadrado asintótica con v2 − v1 grados de libertad.
Esta propiedad de particionabilidad de G 2 aconseja el uso de dicho test, en
lugar del test de Pearson14, para contrastar modelos log-lineales.
13
Los grados de libertad de un modelo log-lineal coinciden con el total de parámetros
iguales a cero en dicho modelo.
14
La diferencia
τ que se fijan
X 2 ( M 2 ) − X 2 ( M1 ) para modelos anidados no tiene porqué seguir una distribución
chi-cuadrado asintótica. Incluso, en algunos casos, esta diferencia podría ser negativa.
- 171 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
De acuerdo con lo anterior, los grados de libertad15 correspondientes al modelo
M(1) son (I-1)(J-1)+(I-1)(K-1)+(I-1)(J-1)(K-1), mientras que los grados de libertad para
el modelo M(4) son (I-1)(J-1)+(I-1)(J-1)(K-1). En consecuencia, los grados de libertad
del test G 2 ( M 4 M1 ) vendrán dados por la diferencia entre los grados de libertad del
modelo M(1) y los grados de libertad del modelo M(4) , es decir, (I-1)(K-1).
Puesto que en el modelo saturado ningún parámetro se fija igual a cero, la
contrastación de cualquier modelo log-lineal mediante las expresiones (4.24) o (4.25) se
realizará aproximando a una distribución χ 2 cuyos grados de libertad coincidirán con el
número de parámetros τ que se fijen iguales a cero en el modelo log-lineal en cuestión.
15
Para determinar los grados de libertad de un modelo, es preciso considerar que los grados de libertad de
los diferentes parámetros de los modelos log-lineales, en el caso de una tabla de contingencia IxJxK, son
los siguientes:
Término
Grados de libertad
1
τ0
τiA
τ Bj
(I-1)
(J-1)
τ Ck
(K-1)
τijAB
(I-1)(J-1)
τikAC
(I-1)(K-1)
τ BC
jk
(J-1)(K-1)
τijkABC
(I-1)(J-1)(K-1)
- 172 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.5. CEROS ESTRUCTURALES Y CEROS ALEATORIOS.
Cuando el número de observaciones con el que se construye una tabla de
contingencia es pequeño, o es suficientemente grande pero el número de casillas de la
tabla es elevado como consecuencia de la inclusión en la misma de muchas variables o
de variables ( aunque sean pocas ) que poseen múltiples categorías, puede ser
relativamente frecuente encontrar en dichas tablas una o varias casillas con frecuencia
observada nula. Cuando esto ocurre, se estará ante un cero aleatorio si el valor
observado en dicha casilla es cero pero el valor esperado de la misma es positivo.
En otras casillas de la tabla de contingencia pueden aparecer lo que se
denominan ceros estructurales, cuya presencia es independiente del tamaño muestral,
del número de variables de la tabla y del número de categorías de las mismas. Estos
ceros estructurales surgen en aquellas casillas en las que es teóricamente imposible
obtener observaciones, es decir, en las que se sabe a priori que dicha casilla contendrá
un valor nulo, puesto que el valor esperado de la misma es cero. Las tablas de
contingencia que contienen uno o varios ceros estructurales se conocen con el nombre
de tablas incompletas.
En realidad, es imposible incluir ceros estructurales en un modelo log-lineal,
puesto que si la frecuencia esperada mi de una casilla en la que aparece un cero
estructural debe ser igual a cero, es evidente que log mi no podría definirse, por lo que
será necesario excluir previamente de la tabla todos los ceros estructurales que contenga
- 173 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
para poder estimar cualquier modelo log-lineal asociado a ella. Si las estimaciones
máximo-verosímiles de los parámetros del modelo se obtienen empleando el
procedimiento de ajuste iterativo proporcional, hay que tener presente que dicho
procedimiento se basa en el hecho de que todas las posibles combinaciones de las
categorías de las variables están definidas. Para solucionar este problema, debe
asignarse el valor “0” a los valores iniciales de las estimaciones afectadas, en lugar de
asignarles el valor “1”, con lo que se garantizará que todas las estimaciones sucesivas en
el proceso iterativo también sean iguales a cero, lo cual asegura a su vez que la
estimación de la frecuencia esperada de dicha casilla sea nula.
Si, por el contrario, se emplea el algoritmo de Newton-Raphson para estimar los
parámetros del modelo, la eliminación de los ceros estructurales del proceso de
estimación no plantea ningún problema, puesto que el citado algoritmo tiene en cuenta
el hecho de que, en determinadas circunstancias, podrían no considerarse todas las
posibles combinaciones de las categorías de las variables que conforman la tabla de
contingencia.
En cualquier caso, la existencia de ceros estructurales en una tabla de
contingencia no tiene realmente ninguna influencia sobre la validez de las propiedades
asintóticas de los estimadores máximo-verosímiles, siempre y cuando los valores
observados en las otras casillas de la tabla sean grandes.
- 174 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Por su parte, los ceros aleatorios generan mayores problemas a la hora de
estimar los parámetros de un modelo log-lineal, puesto que aquellos parámetros que se
vean afectados por un cero aleatorio no podrán ser estimados, aunque dichos parámetros
realmente existan16. Así, por ejemplo, si en una tabla IxJxK, algunos valores observados
nijk son ceros aleatorios, resulta evidente que algunos términos de interacción τijkABC no
aparecerán en la función de verosimilitud y, por tanto, no podrán ser estimados. Pero,
además, algunos términos de interacción de orden inferior pueden también desaparecer
de la función de verosimilitud si el correspondiente valor marginal resulta ser también
cero. Así, si n122 = n222 = n322 = " = nI 22 = 0 , se verificará que n.22 = 0 , por lo que el
BC
tampoco podría ser estimado.
efecto de interacción τ 22
En cualquier caso, y dado que en todo modelo log-lineal, las ecuaciones de
verosimilitud se obtienen igualando los estadísticos suficientes mínimos con sus valores
esperados respectivos y considerando asimismo que los valores observados iguales a
cero quedarán excluidos de la función de verosimilitud, resulta bastante evidente que las
citadas ecuaciones de verosimilitud serán las mismas tanto si la tabla contiene ceros
estructurales como si contiene ceros aleatorios. Por consiguiente, desde un punto de
vista teórico, el problema de la estimación es el mismo en ambos casos.
16
En este matiz reside la diferencia fundamental entre los ceros estructurales y los ceros aleatorios. Si una
casilla contiene un cero estructural, el correspondiente parámetro log-lineal no existe, mientras que si se
trata de un cero aleatorio, dicho parámetro sí que existe, pero no puede estimarse a partir del conjunto de
datos observados.
- 175 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Cuando el número total de observaciones es suficientemente grande, los tests de
Pearson ( X 2 ) y de la razón de verosimilitud ( G 2 ) no experimentan ninguna
alteración como consecuencia de la existencia de ceros estructurales o de ceros
aleatorios en una tabla de contingencia, ya que las frecuencias observadas ( ni ) y las
frecuencias esperadas estimadas ( m! i ) son ambas iguales a cero, por lo cual su
diferencia siempre será nula.
Ahora bien, si además de contener ceros aleatorios o estructurales, las
frecuencias observadas en las restantes casillas de la tabla son pequeñas ( esto es, el
número total de observaciones es escaso ), las aproximaciones asintóticas de los
estadísticos X 2 y G 2 a una distribución chi-cuadrado podrían no ser válidas. En este
sentido, algunas investigaciones recientes se han orientado a la consecución de otras
aproximaciones asintóticas diferentes cuando surge este problema. En este sentido,
Agresti ( 1990, pag. 249 ) indica que Koehler y Larntz comprobaron en 1980 que una
versión estandarizada de G 2 se aproximaba a una distribución normal al emplearse con
tablas que poseían frecuencias esperadas muy pequeñas. Por su parte, Koehler ( 1986 )
presentó distribuciones normales límites para G 2 para contrastar modelos que tengan
estimaciones máximo-verosímiles directas, siempre que dichos modelos verifiquen una
serie de condiciones ( véase Agresti, 1990, pag. 249 ). Otros autores, como McCullagh,
Cressie y Read y otros han propuesto estadísticos alternativos para probar la bondad de
ajuste de modelos log-lineales en estas circunstancias.
- 176 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
En otras ocasiones, los investigadores suelen añadir una constante ( que
habitualmente es el valor 1 2 ) a todas las casillas de la tabla de contingencia antes de
estimar cualquier modelo log-lineal, evitando, de esta forma, los problemas de
inexistencia de las estimaciones máximo-verosímiles de algunos parámetros log-lineales
y de aproximación asintótica a una distribución chi-cuadrado. Si bien este método es
válido para modelos saturados, lo cierto es que para modelos no saturados, esta técnica
suele afectar de forma considerable a la distribución de muestreo de los datos, razón por
la que es aconsejable realizar un análisis de sensibilidad probando con diferentes
constantes para que el efecto sobre las estimaciones de los parámetros y sobre los
estadísticos de bondad de ajuste sea el menor posible.
En cualquier caso, el problema más frecuente en la contrastación de hipótesis
cuando aparecen ceros aleatorios o ceros estructurales es la determinación del número
de grados de libertad del test correspondiente para que la contrastación se efectúe de
manera correcta. Andersen ( 1990, pag. 214 ) señala que, para determinar los grados de
libertad del test estadístico en estos casos, se puede aplicar la siguiente regla: Sea H la
hipótesis formulada en términos de los parámetros log-lineales que son iguales a cero, y
sean:
N 0 : número de casillas de la tabla con frecuencia observada mayor que cero.
N 1( H ) : número de parámetros log-lineales bajo la hipótesis H en una tabla de
contingencia completa.
- 177 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
N 2 ( H ) : número de parámetros log-lineales bajo la hipótesis H para los que los
correspondientes estadísticos marginales suficientes son iguales a cero.
Los grados de libertad para contrastar la hipótesis H contra el modelo saturado
vienen dados por N 0 − N 1 ( H ) + N 2 ( H ) . Bajo el modelo saturado, el número de
parámetros log-lineales que pueden ser estimados es igual al número de casillas, N 0 ,
cuyas frecuencias observadas son mayores que cero. Por otro lado, el número de
parámetros que pueden ser estimados bajo la hipótesis H será la diferencia entre el
número de parámetros de un modelo log-lineal determinado en una tabla de
contingencia completa, N 1 ( H ) , y el número de valores marginales iguales a cero bajo la
hipótesis H , N 2 ( H ) .
4.6. CRITERIOS DE SELECCIÓN DE MODELOS LOG-LINEALES.
La elección del modelo log-lineal que mejor explica la asociación existente entre
un conjunto de variables categóricas es un proceso que se complica considerablemente
cuando el número de variables es superior a tres, debido a que el número de posibles
interacciones entre las mismas se incrementa de forma muy acusada. De hecho, es poco
aconsejable intentar estimar todos los posibles modelos log-lineales cuando el número
de variables excede de tres, siendo, en su lugar, recomendable fijar criterios que
permitan seleccionar el modelo más adecuado de una forma racional. Estos criterios
pretenden, por una parte, identificar un modelo que sea lo suficientemente complejo
- 178 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
como para proporcionar un ajuste aceptable a los datos y, por otra parte, que sea lo
suficientemente simple como para permitir una interpretación clara.
Christensen ( 1990, pag. 115 ) señala que estos procedimientos de selección se
pueden clasificar en tres grupos:
- Selección progresiva ( forward selection ): que consiste en añadir términos de
interacción a un modelo inicial pequeño.
- Eliminación regresiva ( backward elimination ): que consiste en eliminar
términos de interacción de un modelo inicial grande.
- Métodos compuestos ( composite methods ): en los que los términos de
interacción pueden ser añadidos o eliminados de un modelo inicial.
Cualquiera de las técnicas anteriores requiere previamente la búsqueda de un
modelo inicial, para lo cual se pueden emplear diferentes procedimientos, algunos de los
cuales se exponen a continuación.
a) Todos los efectos de un mismo nivel:
La forma más simple de elegir un modelo inicial es considerar aquel que incluye
todos los posibles efectos de un mismo nivel. Así, y considerando una tabla de
- 179 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
contingencia formada por cuatro variables categóricas, el modelo inicial podría ser el
que incluye todos los efectos primarios ( [A][B][C][D] ); o todos los efectos de segundo
orden ( [AB][AC][AD][BC][BD][CD] ); o todos los efectos de interacción de tercer
orden ( [ABC][ABD][ACD][BCD] ); o todos los efectos de cuarto orden ( [ABCD] ).
En realidad, el modelo inicial sería el más pequeño de estos modelos que se ajuste a los
datos o el más grande de los mismos que no se ajuste a los mismos.
b) Análisis individual de cada término:
Este procedimiento consiste en examinar cada término en el modelo saturado y
considerar únicamente aquellos que sean significativamente distintos de cero. Para ello,
los métodos más empleados son los tests de asociación marginal y de asociación parcial,
propuestos por Brown en 1976. El test de asociación marginal17 consiste en contrastar
el modelo más simple que incluya el término en cuestión contra el mayor submodelo
que no incluya dicho término. Así, por ejemplo, para probar si el efecto de interacción
τijkABC en una tabla de contingencia IxJxKxL es significativamente distinto de cero habrá
que contrastar el modelo [ABC] ( que incluye el término mencionado ) contra el modelo
[AB][AC][BC] ( que es el mayor submodelo que excluye ese término de interacción ).
De igual forma, el test de asociación marginal para el término τ CD
se llevará a cabo
kl
contrastando el modelo [A][B][CD] contra el modelo [A][B][C][D]. Como se puede
17
Este test puede emplearse para contrastar cualquier efecto de interacción, pero no se aplica a los efectos
primarios.
- 180 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
observar con facilidad, los grados de libertad del test de asociación marginal son los
correspondientes al término que se está contrastando ( esto es, (I-1)(J-1)(K-1) en el caso
18
del término τijkABC y (K-1)(L-1) en el caso del término τ CD
kl ) .
Por su parte, el test de asociación parcial dependerá del número de variables
incluidas en el término de interacción que deba contrastarse, de forma que si el término
contiene “s” variables, dicho test contrastará el modelo log-lineal que contenga todos los
términos de interacción de orden “s” contra el modelo reducido en el que se ha
eliminado el término en cuestión. Así, el test de asociación parcial para τ BCD
se realizará
jkl
contrastando el modelo [ABC][ABD][ACD][BCD] contra el modelo reducido
[ABC][ABD][ACD], de forma que los grados de libertad para aplicar este test
coincidirán de nuevo con los grados de libertad correspondientes al término de
interacción τ BCD
jkl , es decir, (J-1)(K-1)(L-1). De igual forma, el test de asociación parcial
para el término τilAD se calculará contrastando el modelo [AB][AC][AD][BC][BD][CD]
contra el modelo [AB][AC][BC][BD][CD], siendo los grados de libertad para efectuar
dicho test igual a (I-1)(L-1).
18

 AB AC BC
2
El test de asociación marginal G 2  [ ][ ][ ]
[ABC]  sigue una distribución χ asintótica con

(I-1)(J-1)(K-1) grados de libertad, de forma que si G 2 > χ 2(1−α ), ( I −1)( J −1)( K −1) se rechazará la hipótesis de

 A B C D
ABC
que τijk
= 0 . De forma similar, el test de asociación marginal G 2  [ ][ ][ ][ ]
[A][B][CD]  seguirá

una distribución χ 2 asintótica con (K-1)(L-1) grados de libertad, rechazándose la hipótesis de que
2
2
τ CD
kl = 0 en el caso de que G > χ (1− α ), ( K − 1)( L − 1) .
- 181 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Los tests de asociación marginal y de asociación parcial coinciden para el
término de interacción de mayor orden del modelo ( en el caso de una tabla de
dimensión cuatro, los resultados que arrojan ambos tests son idénticos para el término
ABCD
).
τijkl
Una vez conocida la significatividad individual de todos y cada uno de los
términos mediante los tests de asociación marginal y de asociación parcial, la elección
del modelo inicial puede realizarse de diversas formas:
a) Incluyendo todos los términos cuyos tests de asociación marginal sean
significativos.
b) Incluyendo aquellos términos cuyos tests de asociación parcial sean
significativos.
c) Incluyendo aquellos términos para los que sea significativo el test de
asociación marginal o bien el test de asociación parcial.
d) Incluyendo únicamente aquellos términos para los que sean significativos
tanto el test de asociación marginal como el test de asociación parcial.
Si se emplea el método d) se obtendrá el modelo inicial más pequeño, el cual
podría emplearse para la selección progresiva. Si, por el contrario, se utiliza el método
c) se obtendrá el modelo inicial más grande, que se podría utilizar para seleccionar el
modelo log-lineal más adecuado empleando el procedimiento de eliminación regresiva.
- 182 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Una vez seleccionado el modelo inicial, podrán utilizarse a continuación uno de
los tres procedimientos principales de selección anteriormente mencionados. Partiendo
del modelo inicial, y considerando términos de interacción formados por “s” variables,
la selección progresiva consiste en añadir el término de interacción de orden “s” que no
esté incluido en el modelo y que arroje el test estadístico más significativo. A
continuación, se seguirán añadiendo términos hasta que ninguno de los no incluidos
alcance un nivel de significación mínimo predeterminado.
Por su parte, la eliminación regresiva parte del modelo inicial y elimina el
término de interacción de orden “s” que arroje el test estadístico menos significativo de
entre todos los términos de orden “s” que están incluidos en el modelo inicial, teniendo
en cuenta que sólo podrán eliminarse determinados términos, ya que por la condición de
jerárquico de todo modelo log-lineal, algunos términos deben permanecer en el modelo
debido a la presencia en el mismo de efectos de interacción de orden superior. Así, si el
modelo inicial es [ABC][BD][CD], no sería posible eliminar los términos de interacción
τijAB , τikAC o τ BC
jk , puesto que la presencia de estos términos en el modelo está forzada por
la inclusión en el mismo del término de interacción τijkABC . En este caso, los términos que
podrían ser eliminados del modelo inicial ( en una tabla de dimensión cuatro ) serían
CD
τijkABC , τ BD
jl o τ kl .
Este proceso continuará eliminando términos hasta que todos los que se
mantengan en el modelo posean un nivel de significación mínimo predeterminado.
- 183 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Finalmente, los métodos compuestos utilizan tanto la regla de la selección
progresiva como la regla de la eliminación regresiva.
Hay, sin embargo, una alternativa a la consideración exclusiva de términos de
orden “s” ( como ocurre en la selección progresiva y en la eliminación regresiva ) y es la
incorporación o la eliminación tanto de efectos simples como de efectos múltiples al/del
modelo inicial. Así, la incorporación de un efecto simple consiste en añadir un efecto
que no implica la incorporación simultánea de otros efectos. Así, para una tabla de
contingencia IxJxKxL, en la que el modelo inicial es [ABC][CD], los únicos efectos
simples que podrían añadirse al modelo serían τilAD y τ BD
jl . Si, por el contrario, se
considera la eliminación de efectos simples del modelo inicial [ABC][CD], sólo podrán
eliminarse del mismo aquellos que no conlleven la eliminación simultánea de otros
efectos. En este caso, los efectos simples que podrían ser eliminados del modelo inicial
serían únicamente τijkABC y τ CD
kl , puesto que la exclusión de cualquier otro término del
modelo inicial obligaría a excluir, además, a otros términos adicionales del mismo.
Por el contrario, la incorporación de un efecto múltiple implica la consideración
de otros efectos que no estaban incluidos en el modelo inicial. Así, si al modelo inicial
[ABC][CD] se le añade el término τijlABD , será necesario incluir también en aquel los
términos τilAD y τ BD
jl .
En la selección progresiva pueden añadirse tanto efectos simples como
múltiples, siendo generalmente preferible añadir efectos múltiples, puesto que los
- 184 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
mismos implican la consideración de una variedad más amplia de efectos adicionales.
Por el contrario, el procedimiento que debe seguirse en la eliminación regresiva es la
exclusión de efectos simples del modelo inicial.
4.7. MODELOS LOG-LINEALES GRÁFICOS.
Cuando una tabla de contingencia recoge la clasificación cruzada de más de tres
variables categóricas, el análisis de las relaciones de dependencia entre las mismas
mediante modelos log-lineales se complica de forma considerable, ya que el número
total de posibles modelos que pueden definirse se incrementa de forma espectacular19.
Esta circunstancia genera graves inconvenientes, puesto que, además de dificultarse la
interpretación de modelos de dimensión superior, muchos de los modelos que se pueden
definir requieren la utilización de métodos iterativos para obtener las estimaciones
máximo-verosímiles de sus parámetros.
En estos casos, es absurdo intentar estimar todos los modelos log-lineales
posibles, siendo mucho más razonable seleccionar únicamente algunos de ellos para,
posteriormente, analizarlos. Se trata, en definitiva, de considerar exclusivamente
aquellos modelos que sean fácilmente interpretables y que sean consistentes con los
datos observados. A partir de los modelos seleccionados, el objetivo será elegir el
19
Por ejemplo, en una tabla de dimensión cuatro se pueden definir 113 modelos log-lineales que incluyen
todos los efectos primarios. Si la tabla de contingencia es de dimensión cinco se podrían definir varios
miles de modelos diferentes.
- 185 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
modelo más pequeño que se ajuste a los datos de forma satisfactoria. Como ya es
sabido, cualquier modelo log-lineal puede ser interpretado en términos de independencia
o de independencia condicionada entre las variables que forman la tabla de
contingencia. Sin embargo, la interpretación en términos de independencia de un
modelo puede ser igualmente válida para otros modelos de mayor dimensión. Así, por
ejemplo, el modelo [AB][AC][AD][BC] implica que la variable D es condicionalmente
independiente de las variables B y C, dada la variable categórica A, circunstancia que
puede representarse como D ⊗ B,C A . Por su parte, el modelo [ABC][AD] implica
exactamente la misma interpretación, con la única diferencia de que este último modelo
incluye el término de interacción τijkABC , mientras que en el primer modelo este término
está ausente.
Pues bien, de la misma forma que para este último modelo se verifica que su
notación abreviada implica su interpretación en términos de independencia y que, al
mismo tiempo, la interpretación del modelo implica su notación abreviada, no ocurre lo
mismo con el primer modelo, ya que, si bien su notación abreviada implica su
interpretación, su interpretación no implica la notación abreviada del mismo20.
Esta circunstancia, que ocurre con otros muchos modelos, se puede generalizar
afirmando que de todos los posibles modelos log-lineales que tengan la misma
20
La interpretación D ⊗ B, C A no permite saber si el término de interacción
τijkABC es igual a cero. Por
lo tanto, de la misma forma que puede afirmarse que la anterior interpretación corresponde al modelo
[ABC][AD], no puede asegurarse que dicha interpretación sea la correspondiente al modelo
[AB][AC][BC][AD].
- 186 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
interpretación en términos de independencia o de independencia condicionada, habrá
únicamente uno de ellos para el que la interpretación del modelo implique su notación
abreviada ( circunstancia que no ocurrirá con los restantes modelos que tengan la misma
interpretación ). Al modelo log-lineal que verifica la condición anterior se le conoce con
el nombre de modelo gráfico. De esta forma, cualquier modelo gráfico que contenga los
términos de interacción τijAB , τikAC y τ BC
jk deberá incluir necesariamente el término de
interacción τijkABC . Como complemento a esta idea, si un modelo gráfico incluye los
BD
y τ CD
términos τijAB , τikAC , τ BC
jk , τ jl
kl , dicho modelo deberá incluir también el término
BCD
τijkABC ( por la presencia de los términos τijAB , τikAC y τ BC
( como
jk ) y el término τ jkl
BD
consecuencia de la inclusión de los términos τ BC
y τ CD
). Finalmente, un modelo
jk , τ jl
kl
ABCD
gráfico deberá contener el término de interacción τijkl
si en el mismo se incluyen los
seis términos de interacción de segundo orden que pueden formarse a partir de las cuatro
variables21.
En consecuencia, el modelo [ABC][AD] anteriormente mencionado es un
modelo gráfico, mientras que, por el contrario, el modelo [AB][AC][AD][BC] no es un
modelo gráfico. Una definición genérica de modelo gráfico es la dada por Christensen (
1990, pag. 103 ) cuando dice que “un modelo es gráfico si, cuando un modelo contiene
todos los efectos de interacción de segundo orden generados por una interacción de
orden superior, dicho modelo también contiene esa interacción de orden superior”.
21
De lo que se deduce, por tanto, que todo modelo saturado será un modelo gráfico.
- 187 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Por otra parte, Goodman ( 1971 ) y Haberman ( 1974 ) introdujeron el concepto
de modelos log-lineales descomponibles. Un modelo es descomponible si y sólo si las
estimaciones máximo-verosímiles de las frecuencias esperadas mi son funciones
directas de los estadísticos suficientes mínimos, de forma que dicho modelo tendrá una
interpretación simple en términos de independencia o de independencia condicionada.
En una tabla de dimensión IxJxK, todos los posibles modelos log-lineales son
descomponibles, a excepción del modelo [AB][AC][BC], como ya se puso de
manifiesto en el apartado 4.3. Sin embargo, en una tabla IxJxKxL, el número de
modelos no descomponibles aumenta considerablemente. A título ilustrativo, en la
Tabla 4.4 se muestran todos los modelos descomponibles asociados a una tabla de
contingencia de dimensión cuatro.
Darroch, Lauritzen y Speed ( 1980 ) demostraron que todos los modelos
descomponibles son también modelos gráficos, con lo que la totalidad de los modelos
log-lineales asociados a una tabla IxJxK ( a excepción del citado [AB][AC][BC] ) y los
modelos asociados a una tabla de contingencia de dimensión IxJxKxL que se enumeran
en la Tabla 4.4 son modelos gráficos22. De esta forma, Christensen ( 1990, pag. 104 )
señala que cualquier modelo log-lineal está integrado en un modelo gráfico, lo cual
resulta evidente si se considera que el modelo saturado es el modelo gráfico que
contiene todos los posibles efectos de interacción de segundo orden. Por consiguiente,
22
Además de los modelos incluidos en la Tabla 4.4, hay que precisar que, para una tabla de dimensión
cuatro, sólo hay un modelo que no es descomponible y que, sin embargo, es un modelo gráfico. Se trata
del modelo [AB][AC][BD][CD] y sus modelos equivalentes.
- 188 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
para interpretar un modelo log-lineal concreto, deberá buscarse siempre el modelo
gráfico más pequeño que contenga a ese modelo concreto.
Al objeto de identificar los modelos gráficos asociados a una tabla de
contingencia de dimensión cuatro o superior, Andersen ( 1990, pag. 187 ) propone
gráficos de asociación para representar a los modelos log-lineales. Estos gráficos de
asociación se basan en las nociones de la teoría de grafos que fueron esbozadas en el
Capítulo Segundo. Recordemos que cada variable categórica se representará mediante
un punto ( el cual será reemplazado por un asterisco en el caso de que la variable en
cuestión siga una distribución uniforme ). Si el efecto de interacción de segundo orden
entre dos variables categóricas es distinto de cero, los puntos que representan ambas
variables estarán unidos entre sí mediante una línea. Por el contrario, si dichas variables
son independientes, no existirá ninguna línea que una los dos puntos que las
representan. Así, para una tabla IxJxK, tanto el modelo saturado [ABC] como el modelo
[AB][AC][BC] se representarían gráficamente de la siguiente forma:
A
C
B
Por su parte, si las variables A y B son condicionalmente independientes dada la
variable C, el modelo log-lineal que refleja esta situación ( [AC][BC] ) se representaría
gráficamente de la siguiente forma:
- 189 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
A
B
C
Finalmente, si la variable A es independiente tanto de la variable B como de la
variable C ( esto es, [BC][A] ), el modelo log-lineal se representaría de forma gráfica
como sigue23:
A
B
C
Para el caso de una tabla de contingencia IxJxKxL, Andersen ( 1990; pp. 184 y
185 ) recoge en una tabla la representación gráfica de todos los posibles modelos loglineales que pueden definirse a partir de una tabla de contingencia de dimensión cuatro.
Existe una correspondencia mútua entre modelos log-lineales gráficos y sus
representaciones gráficas, de forma que cada modelo log-lineal implica una única
23
Si, además, la variable A siguiera una distribución uniforme ( es decir, A = u ), en la representación
gráfica del modelo se colocaría un asterisco junto al nombre de esta variable para indicar esta
circunstancia.
- 190 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
representación gráfica y, recíprocamente, dicha representación gráfica implica un único
modelo gráfico.
Al objeto de identificar los modelos gráficos a partir de las representaciones
gráficas de todos los modelos log-lineales asociados a una tabla de contingencia de
cualquier dimensión, Lauritzen ( 1982 ) introduce la noción de clique. Para asimilar este
concepto se considerará el siguiente ejemplo. La representación gráfica del modelo loglineal [ABCD][BDE][CF], definido a partir de una tabla de contingencia de dimensión
seis, es la siguiente:
F
A
B
C
D
E
Se puede observar que las variables A, B, C y D están todas conectadas entre sí
mediante líneas24, de forma que el conjunto {A,B,C,D} constituye un conjunto
completo25. Es evidente que en la anterior representación gráfica existen otros conjuntos
completos, como son, por ejemplo, {A,B,C}, {A,B,D}, {A,C,D} o {B,C,D}. Sin
24
Circunstancia que no ocurre, por ejemplo, con las variables A, B, D y E o con las variables A, B, C y F.
25
Según la definición dada por Lauritzen ( 1982, pag. 11 ), un conjunto completo es un conjunto de
variables en las que todas ellas, sin excepción, están conectadas entre sí mediante líneas. Es decir, un
conjunto completo es aquel que está formado por un grupo de variables para el que se verifica que para
todos los posibles subgrupos de dos variables que puedan formarse, las dos variables implicadas en cada
subgrupo son estadísticamente dependientes.
- 191 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
embargo, la presencia de cualquiera de los cuatro conjuntos completos anteriores ya está
forzada en el modelo [ABCD][BDE][CF] debido a la existencia en el mismo del
conjunto completo {A,B,C,D}. De esta forma, el conjunto {A,B,C,D} es un conjunto
completo máximo, es decir, es un conjunto completo que no está contenido en ningún
otro conjunto completo. Pues bien, un clique es un conjunto completo máximo.
La importancia de los cliques estriba en que determinan los modelos log-lineales
gráficos. En la representación gráfica anterior, además del clique {A,B,C,D} existen
también los cliques {B,D,E} y {C,F}. Se observa que existe una correspondencia obvia
entre los cliques y la notación abreviada del modelo, de manera que sólo si existe dicha
correspondencia el modelo log-lineal en cuestión será un modelo gráfico ( como ocurre
en este caso ).
En consecuencia, a partir de la representación gráfica de cada modelo, la
identificación de los cliques existentes en la misma permitirá determinar si el modelo es
o no gráfico al comparar los cliques con la notación abreviada del mismo.
Por otra parte, de la misma forma que se indicó anteriormente que todo modelo
descomponible es, a su vez, un modelo gráfico, Lauritzen ( 1982, pag. 32 ) demostró
que un modelo gráfico es también descomponible siempre y cuando se cumpla una de
las dos condiciones siguientes:
a) Que el modelo no incluya un ciclo de longitud 4 o superior.
- 192 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
b) Que el modelo que incluya un ciclo de longitud 4 o superior contenga al
menos un chord.
Un ciclo es ( Lauritzen, 1982, pag. 32 ) una secuencia de vértices α 0 , α1 , ..., α n
en la que se verifica que α 0 = α n y en la que la variable categórica representada en cada
vértice es estadísticamente dependiente de la variable representada en el vértice
siguiente26, de manera que n es la longitud del ciclo. Lauritzen también define un chord
como dos vértices no consecutivos en los que las dos variables representadas en los
mismos son estadísticamente dependientes. Es decir, los vértices αi y α j formarán un
chord si αi ∼ α j y j ≠ i − 1, i + 1 . De esta forma, Lauritzen demuestra que el modelo
gráfico más simple que no es un modelo descomponible es el modelo
[AB][BD][CD][AC]. En efecto, como fácilmente puede apreciarse en su representación
gráfica,
A
B
C
D
este modelo contiene un ciclo de longitud 4 ( A-B-D-C-A ) y no incluye ningún chord,
por lo que este modelo gráfico no es descomponible. Sin embargo, el modelo gráfico
26
Esto es, las dos variables están conectadas entre sí mediante una línea (
- 193 -
αi ∼ αi +1 ).
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
[ABC][BCD] cuya representación gráfica es
A
B
C
D
es también descomponible, puesto que aunque también contiene un ciclo de longitud 4,
incluye el chord ( B-C ).
De la misma forma que el modelo gráfico [AB][BC][CD][AD] y sus
equivalentes son los únicos modelos no descomponibles en una tabla de dimensión
cuatro, Lauritzen ( 1982, pag. 46 ) enumera los modelos gráficos no descomponibles
asociados a una tabla de dimensión cinco. Estos modelos son los siguientes:
Modelo
[AB][AE][BC][CD][DE]
[AB][BC][CE][DE][BD]
[AB][AE][BC][CDE]
[AC][AE][BC][BE][CD][DE]
Ciclos
{A,B,C,D,E}
{B,C,D,E}
{A,B,C,E}
{A,C,D,E}
{B,C,D,E}
{A,B,C,E}
{A,C,D,E}
{B,C,D,E}
{A,B,C,D}
[ABC][ABE][CD][DE]
[ABE][ADE][BCE]
Como corolario a todo lo expuesto, se puede concluir afirmando que:
- 194 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
- Todos los modelos descomponibles son también modelos gráficos, aunque
no todos los modelos gráficos son descomponibles.
- Todos los modelos no gráficos son también modelos no descomponibles,
aunque no todos los modelos no descomponibles son modelos no gráficos.
Finalmente, el número de modelos jerárquicos que son modelos gráficos y el
número de estos últimos que, a su vez, son modelos descomponibles no puede
determinarse en función de la dimensión de la tabla de contingencia. En cualquier caso,
en la siguiente tabla se muestra el número de modelos jerárquicos, gráficos y
descomponibles asociados a una tabla de dimensión n, para n = 2, 3, 4, 5.
Dos
Modelos jerárquicos
5
Modelos gráficos
5
Modelos descomponibles
5
Fuente: Lauritzen ( 1982, pag. 47 ).
Dimensión de la tabla de contingencia
Tres
Cuatro
Cinco
19
167
7.580
18
113
1.450
18
110
1.233
4.8. SELECCIÓN DE MODELOS LOG-LINEALES ENTRE MODELOS
DESCOMPONIBLES Y MODELOS GRÁFICOS.
La selección de un modelo log-lineal inicial considerando todos los efectos de
interacción de un orden determinado o incluyendo sólo aquellos efectos para los que el
test de asociación marginal y/o el test de asociación parcial sea(-n) estadísticamente
significativo(-s) plantea como principal inconveniente el hecho de que, por lo general, el
- 195 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
modelo inicial seleccionado no es un modelo gráfico, por lo que la interpretación de este
modelo en términos de independencia y de independencia condicionada resulta bastante
compleja.
Por esta razón, Edwards y Kreiner ( 1983 ) proponen un método alternativo para
elegir el modelo log-lineal que mejor se ajusta a los valores observados de la tabla de
contingencia. Este método, diseñado originalmente por Wermuth27 en 1976, consiste
básicamente en tomar como modelo inicial el modelo gráfico de mayor tamaño, es decir,
el modelo saturado.
A continuación, el método propuesto por estos autores contrasta la
significatividad estadística de cada una de las líneas que unen cada par de variables en la
representación gráfica del modelo saturado, es decir, se contrasta la significatividad de
cada término de interacción de segundo orden28. Llegados a este punto, pueden
adoptarse tres opciones diferentes:
Opción I: en primer lugar, se puede eliminar el efecto menos significativo de
todos ( que será aquel que arroje el mayor valor de p, siempre que este valor exceda del
27
La única diferencia entre el procedimiento empleado por esta autora y el propuesto por Edwards y
Kreiner es que Wermuth no emplea representaciones gráficas como técnica de apoyo al procedimiento de
selección y considera únicamente modelos descomponibles.
28
La principal ventaja de eliminar efectos de interacción de segundo orden en el modelo saturado es que
en cada etapa del proceso se está realizando un test de independencia condicionada.
- 196 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
nivel de significación29 α ), y examinar después, uno a uno, los restantes efectos de
segundo orden. El efecto menos significativo de estos últimos se eliminará, y así
sucesivamente. El proceso continuará hasta que todos los valores p sean menores que
α.
Opción II: es una simple variante de la opción I y consiste en eliminar
inicialmente el efecto de segundo orden menos significativo. A continuación, se procede
a contrastar todos aquellos efectos de segundo orden no significativos encontrados en
este primer paso, y se elimina el menos significativo de todos. Se vuelven a contrastar
todos los efectos no significativos encontrados en el segundo paso y se elimina el que
sea menos significativo, y así sucesivamente. Esta opción implica ajustar menos
modelos que la primera y respeta el principio de que si un modelo debe rechazarse,
también deben ser rechazados todos sus submodelos.
Opción III: esta alternativa, propuesta por Havránek en 1984, parte de todos los
efectos de interacción de segundo orden que hayan resultado ser no significativos en el
primer paso ( aquellos que arrojen un valor de p mayor que α ). A continuación, se
29
Es preciso aclarar que, tanto en esta Opción I como en las dos restantes, la contrastación de cada efecto
de segundo orden se realiza a partir de las diferencias en los tests de la razón de verosimilitud de dos
modelos sucesivos, puesto que se trata de determinar si el paso realizado es admisible o no, no siendo de
interés en este caso examinar la bondad de ajuste del modelo resultante. Por tanto, el valor p se calculará
de la siguiente forma:
[
p = P χ 2( v r − v s ) > G 2 ( M r M s )
]
siendo G 2 ( M r M s ) = G 2 ( M r ) − G 2 ( M s ) , donde G 2 ( M r ) es el test de la razón de verosimilitud del
modelo gráfico que incluye un efecto de interacción de segundo orden determinado ( modelo M r ) y
G 2 ( M s ) es el test de la razón de verosimilitud del mayor submodelo gráfico de M r que no incluya el
citado efecto de segundo orden ( modelo M s ).
- 197 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
generan todos los posibles modelos formados a partir de la eliminación de pares de
efectos encontrados no significativos en el primer paso. Posteriormente, se generan
todos los modelos posibles obtenidos mediante la eliminación de tríos de efectos
definidos a partir de los pares de efectos que hayan resultado no significativos en el
segundo paso, y así sucesivamente. De esta forma, se respeta también el principio de
que el rechazo de un modelo implica el rechazo de todos sus submodelos. A título
ilustrativo, considérese que de los diez efectos de interacción de segundo orden
asociados a una tabla de contingencia de dimensión cinco han resultado no
significativos en el primer paso los siguientes: AB, AD, BE, CE. A partir de estos cuatro
efectos se pueden definir los siguientes pares de efectos: [AB,AD], [AB,BE], [AB,CE],
[AD,BE], [AD,CE] y [BE,CE]. El paso siguiente consistirá en contrastar si estos seis
pares de efectos son o no significativos. Si, por ejemplo, los pares [AB,AD], [AB,BE] y
[BE,CE] resultasen ser no significativos, deberá procederse a probar si el trío de efectos
[AB,BE,CE] es o no estadísticamente significativo30, y así sucesivamente.
La diferencia fundamental entre estas tres opciones es que las dos primeras
seleccionan un único modelo, mientras que la tercera puede identificar varios modelos.
Además, la tercera opción presenta dos inconvenientes importantes. Por una parte, no
genera secuencias jerárquicas de modelos. Por otro lado, se pierde la interpretación de
cada test como un contraste de independencia condicionada, circunstancia que no ocurre
con las dos primeras opciones. Por todo lo anteriormente comentado, será preferible
A pesar de que a partir de los pares de efectos citados pueden definirse también los tríos [AB,AD,BE] y
[AD,BE,CE], estos últimos no podrán ser contrastados, ya que el par [AD,BE] es estadísticamente
significativo.
30
- 198 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
utilizar una de las dos primeras opciones, y aunque la opción II requiere ajustar un
número considerablemente menor de modelos ( por lo que parecería razonable
considerarla como la opción óptima ), hay que tener presente que esta opción enmascara
un peligro potencial y es que aquellos efectos que se han encontrado significativos en
una etapa previa ( y, por tanto, no procederá eliminarlos ) podrían resultar no
significativos si se contrastasen en una etapa posterior. De aquí que Edwards y Kreiner
recomienden fijar un bajo nivel de significación ( por ejemplo, de un 1 % ) para
determinar qué efectos no necesitarán ser contrastados más tarde, y un nivel de
significación más elevado ( por ejemplo, de un 5 % ) para decidir qué efectos son no
significativos y, por tanto, pueden ser eliminados.
Este procedimiento de elección del modelo log-lineal más adecuado presenta
grandes similitudes con el método propuesto inicialmente por Wermuth. Sin embargo,
existe una diferencia fundamental entre ambos, y es que mientras el método de Edwards
considera en el primer paso todos los posibles efectos de segundo orden entre las
variables que forman la tabla de contingencia, Wermuth tiene en cuenta única y
exclusivamente aquellos efectos que formen parte de un clique. En concreto, esta autora
parte del modelo saturado y contrasta la significatividad de cada efecto de segundo
orden de dicho modelo. Por tanto, el método de Wermuth se inicia con el clique
formado por la totalidad de las variables. Pero la eliminación de cualquier efecto de
segundo orden genera dos cliques que contienen, cada uno, todas las variables de la
tabla menos una. En consecuencia, en cualquier etapa del método de Wermuth existirán
siempre dos o más cliques. Pues bien, todos aquellos efectos de segundo orden que
- 199 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
estén presentes en más de un clique no podrán ser eliminados. La trascendencia de este
detalle radica en que, según demuestra Christensen ( 1990, pag. 147 ), los modelos
gráficos obtenidos al eliminar efectos de segundo orden presentes en más de un clique
no son modelos descomponibles. De aquí que pueda concluirse que el método de
Wermuth es un procedimiento de búsqueda entre modelos descomponibles, mientras
que el método de Edwards y Kreiner es un procedimiento de búsqueda entre modelos
gráficos ( algunos de los cuales no son descomponibles ). Cuando la tabla de
contingencia es de dimensión cuatro, la única diferencia entre ambos métodos estriba en
el segundo paso del proceso, ya que, en este caso, hay un único modelo gráfico que no
es descomponible. Sin embargo, para tablas con más de cuatro variables, la diferencia
entre ambos métodos puede ser sustancial, debido a que, como se ha apuntado en
apartados anteriores, el número de modelos gráficos no descomponibles se incrementa
notablemente.
Para más detalles sobre la comparación de ambos métodos, puede consultarse
Christensen ( 1990, pp. 143-149 ).
4.9. CRITERIOS DE SELECCIÓN DEL MODELO FINAL.
Una vez que se ha seleccionado un modelo gráfico determinado empleando una
de las opciones anteriormente comentadas, Edwards y Kreiner recomiendan continuar el
análisis examinando otros modelos no gráficos, es decir, estudiando otros modelos
jerárquicos que sean consistentes con el modelo gráfico elegido.
- 200 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
La última fase de la selección del modelo log-lineal que mejor explica la relación
entre las variables categóricas de una tabla de contingencia consistirá en evaluar este
conjunto de modelos candidatos, empleando para ello medidas diferentes a sus tests
estadísticos. De esta evaluación, deberá salir el modelo final que será considerado en
análisis estadísticos posteriores. Christensen ( 1990, pag. 149 ) propone tres medidas
para llevar a cabo esta evaluación:
- El coeficiente R 2 .
- El coeficiente R 2 ajustado.
- El criterio de información de Akaike.
Coeficiente R 2 :
Al igual que en el análisis de regresión, el coeficiente R 2 mide la proporción de
la variación total que es explicada por el modelo. Para un modelo log-lineal cualquiera,
el coeficiente R 2 viene dado por la siguiente expresión:
R2 =
G2 ( M0 ) − G2 ( Mr )
G2 ( M0 )
En la expresión anterior, el test G 2 juega un papel muy similar a la suma de los
residuos al cuadrado del análisis de regresión, de forma que G 2 ( M r ) y G 2 ( M 0 ) son,
respectivamente, el test estadístico de la razón de verosimilitud del modelo que se está
analizando ( M r ) y el test de la razón de verosimilitud del modelo de independencia
- 201 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
completa ( M 0 ), resultantes de contrastar los citados modelos contra el modelo
saturado. Se deduce fácilmente que G 2 ( M 0 ) mide la variabilidad total de los datos y
que G 2 ( M 0 ) − G 2 ( M r ) representa la variabilidad explicada por el modelo M r , por lo
que R 2 es la proporción de la variabilidad total que es explicada por el modelo loglineal M r . De acuerdo con lo anterior, el coeficiente R 2 para el modelo log-lineal más
pequeño ( es decir, el modelo de independencia completa ) siempre será igual a 0,
mientras que el valor de R 2 para el modelo log-lineal más grande ( el modelo saturado )
es siempre 1, ya que en este último caso los datos se ajustan perfectamente al modelo.
R 2 ajustado:
Utilizando una expresión similar al coeficiente empleado en el análisis de
regresión, la expresión del R 2 ajustado para modelos log-lineales es la siguiente:
R2 = 1−
q − r0
1 − R2
q−r
(
)
G2 ( Mr )
q−r
= 1− 2
G ( M0 )
q − r0
donde q es el número de casillas de la tabla de contingencia, mientras que r0 es el
número de parámetros log-lineales que deben estimarse en el modelo de independencia
completa, y r es el número de parámetros que hay que estimar en el modelo M r . En
consecuencia,
( q − r0 )
es el número de grados de libertad del contraste del modelo
- 202 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
M 0 contra el modelo saturado, mientras que
(q−r )
es el número de grados de
libertad del contraste del modelo M r contra el modelo saturado. Obviamente, cuanto
mayor sea el valor de R 2 , mejor será el ajuste del modelo M r .
Criterio de información de Akaike:
Partiendo del estadístico Cp de Mallow para la selección de un modelo de
regresión, Akaike propuso un criterio que permitiese elegir el modelo log-lineal que
maximizase la información contenida en dicho modelo. El criterio de información de
Akaike ( CIA ) implica elegir el modelo que minimice el siguiente valor:
AX = G 2 ( M r ) − [q − 2r ]
siendo G 2 ( M r ) el test de la razón de verosimilitud del modelo log-lineal M r ; q el
número de casillas de la tabla de contingencia, y r el número de parámetros a estimar
en el modelo M r . De forma alternativa, este criterio también puede escribirse de la
siguiente forma:
AX − q = G 2 ( M r ) − 2(q − r )
- 203 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Dado que q es una constante, la minimización de ( AX − q ) es equivalente a la
minimización de AX .
A pesar de todo lo comentado anteriormente, no siempre el modelo log-lineal
que arroje un mayor valor del R 2 ajustado o un menor valor del CIA es la elección más
adecuada, ya que en ocasiones la interpretabilidad del modelo y la consistencia del
mismo pueden aconsejar la elección de un modelo con un R 2 ajustado alto o un CIA
bajo, sin que dicho valor sea el más alto ( más bajo ) de todos.
Por otro lado, la elección del mejor modelo log-lineal no es, en opinión de
Christensen ( 1990, pag. 154 ), el final del análisis, sino, más bien al contrario, el punto
de partida para análisis estadísticos más profundos. En este sentido, la colapsación de
algunas variables de la tabla puede permitir estudiar con bastante mayor profundidad las
interrelaciones detectadas entre las variables analizadas mediante las tablas marginales
calculadas mediante la colapsación. Así, por ejemplo, si en una tabla de dimensión
cinco, el modelo log-lineal elegido es [ABC][CE], se puede colapsar sobre las variables
D y E para analizar las interrelaciones entre las variables A, B y C recogidas en la tabla
marginal de dimensión tres obtenida a tal efecto. También se podría colapsar sobre las
variables A, B y D para profundizar en el análisis de la asociación entre las variables C y
E mediante la tabla bidimensional obtenida al colapsar las tres variables anteriores.
- 204 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.10. RESIDUOS ESTANDARIZADOS Y RESIDUOS ESTANDARIZADOS
AJUSTADOS PARA UN MODELO LOG-LINEAL.
De la misma forma que en el análisis de regresión se pueden emplear los
residuos para comprobar si se verifican las asunciones del modelo y para detectar la
presencia de observaciones que influyan sustancialmente en el mejor o peor ajuste del
modelo, los errores o residuos pueden utilizarse también en el modelo log-lineal para
identificar frecuencias atípicas que sean responsables de una hipotética falta de ajuste
del modelo.
Empleando la notación matricial introducida en un apartado anterior, y siendo n
! el vector de frecuencias esperadas estimadas,
el vector de frecuencias observadas y m
!
Christensen ( 1990, pag. 226 ) demuestra que, para muestras grandes, el vector n − m
va a seguir la siguiente distribución de probabilidad aproximada:
! ≅ N( 0 ; Diag(m) ( I − A )
n−m
)
donde Diag( m ) es una matriz diagonal, cuyos elementos son las frecuencias esperadas
de la tabla de contingencia y donde A se define de la siguiente forma:
A = X [X′ Diag(m) X] X −1 Diag(m)
−1
siendo X una matriz q x p, donde q es el número de modalidades de respuesta asociadas
a la tabla de contingencia ( en el caso de una tabla de dimensión cuatro, q = IxJxKxL ),
y p es el número de parámetros que deben estimarse en un modelo log-lineal.
- 205 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Dado que los elementos del vector m son desconocidos, será preciso proceder a
su estimación, con lo que se verificará que:
! ≅ N( 0 ; Diag(m
! ) ( I − A (m
! ))
n−m
)
! ) es la estimación de la matriz Diag( m ) y donde A ( m
! ) vendrá definida
donde Diag( m
como sigue:
! ) = X [X′ Diag( m
! ) X] X −1 Diag( m
!)
A(m
−1
El residuo o error se define simplemente como la diferencia entre las frecuencias
observadas y las frecuencias esperadas estimadas, es decir:
e!i = ni − m! i
Dada la necesidad de estandarizar estos residuos, se plantean dos formas
alternativas de realizar esta operación:
! ) . En este caso, el vector n − m
!
a) Ignorando la existencia de la matriz A ( m
seguiría la siguiente distribución aproximada:
! ≅ N( 0 ; Diag(m
!)
n−m
)
y la estandarización de los errores daría lugar a los llamados residuos estandarizados
que vendrán dados por:
- 206 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
n − m! i
r~i = i
m! i
Estos residuos, también conocidos como residuos de Pearson ( ya que la suma
de los cuadrados de todos ellos es precisamente el test de Pearson para determinar la
bondad de ajuste de un modelo log-lineal ), presentan la ventaja de que no requieren el
! ) , pero su gran inconveniente
cálculo de los elementos de la diagonal de la matriz A ( m
es que la estandarización no se realiza utilizando la verdadera distribución aproximada
de los residuos.
b) Considerando la auténtica distribución aproximada para muestras grandes del
! , es decir:
vector n − m
! ≅ N( 0 ; Diag(m
! ) ( I − A (m
! ))
n−m
)
En este caso, el proceso de estandarización conduciría a lo que se denominan
residuos estandarizados ajustados, cuya expresión es la siguiente:
r!i =
ni − m! i
m! i (1 − a!ii )
! ).
donde a!ii es el elemento de la diagonal i-ésima de la matriz cuadrada A ( m
- 207 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Es evidente que, a pesar de la dificultad que entraña el cálculo de la matriz
! ) , estos residuos ajustados constituyen los auténticos residuos estandarizados de un
A(m
modelo log-lineal.
Una vez que se ha demostrado que los residuos ajustados están asintóticamente
distribuidos según una N(0;1), será posible contrastar si dichos residuos tienen
verdaderamente media igual a cero. En la medida en que el valor de un residuo ajustado
en valor absoluto sea significativamente mayor que cero, la frecuencia observada
correspondiente a dicho residuo será una frecuencia atípica. Con carácter general, puede
afirmarse que una frecuencia es atípica si a un nivel de significación α se verifica que
r!i > Z1− α 2 . Así, a un nivel de significación del 5 %, todos aquellos residuos superiores
en valor absoluto a 1,96 identificarán frecuencias atípicas, que serán posiblemente las
responsables de la falta ( o de la escasa bondad, en su caso ) de ajuste de un modelo loglineal cualquiera.
Finalmente, una tercera medida para detectar la presencia de frecuencias atípicas
es la llamada distancia de Cook. Empleando de nuevo la notación matricial, la
expresión de la distancia de Cook para modelos log-lineales es la siguiente:
′
Cq
β! − β! )
(
=
(q)
(
! ) X β! − β! ( q )
X′ Diag( m
)
p
En la expresión anterior, p es el número de grados de libertad del modelo log-
- 208 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
lineal, mientras que β! ( q ) es el vector de estimaciones máximo-verosímiles de los
parámetros del modelo log-lineal cuando se ha eliminado de la tabla de contingencia la
modalidad de respuesta q.
Es evidente que el cálculo de las estimaciones de los elementos del vector β! ( q )
requiere procedimientos de estimación iterativos, tales como el algoritmo de NewtonRaphson. Dado que la obtención de dichos valores es un proceso bastante complejo, es
factible efectuar únicamente el primer paso del algoritmo de Newton-Raphson para
obtener una primera aproximación del vector β! ( q ) , que se denotará por β! 1( q ) . De esta
forma, una aproximación a la distancia de Cook sería la dada por la siguiente expresión:
Cq1 =
(
′
! ) X β! − β! 1( q )
β! − β! 1( q ) X′ Diag( m
)
(
)
p
Operando algebráicamente en la expresión anterior, Cq1 puede también escribirse
de la siguiente forma:
Cq1 =
donde r!q =
1 2 a!qq
r!q
p 1 − a!qq
nq − m! q
es el error estandarizado de la casilla q de la tabla de contingencia y
m! q
! ).
a!qq es la diagonal q-ésima de la matriz cuadrada A ( m
- 209 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
En el supuesto de un modelo de Poisson, el valor Cq1 debe compararse con el
valor correspondiente de una distribución χ 2 con p grados de libertad dividida entre sus
grados de libertad. Así, si
χ 2(1−α ), p
C >
p
1
q
se podrá concluir que la casilla q tiene una influencia sustancial sobre los valores de los
parámetros estimados y, en consecuencia, sobre el ajuste del modelo log-lineal a los
datos de la tabla de contingencia.
A pesar de que esta medida presenta como principal inconveniente el hecho de
que se obtiene a partir de una primera aproximación de las estimaciones de los
parámetros del modelo mediante el algoritmo de Newton-Raphson, no es menos cierto
que arroja un valor que orienta con claridad sobre la posible presencia de frecuencias
atípicas en el modelo estudiado.
En cualquier caso, la significatividad estadística de los residuos estandarizados
ajustados y la distancia de Cook tienen un interés más teórico que práctico. En este
sentido, una vez contrastada la significatividad global de un modelo log-lineal dado, el
interés del investigador aplicado se dirigirá, posiblemente, a contrastar la
significatividad individual de cada uno de los parámetros del modelo elegido.
Una inspección de los efectos de interacción estimados puede revelar, por
- 210 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
ejemplo, la razón por la que la independencia teórica entre dos variables no se
materializa en la práctica, o viceversa. La forma de evaluar correctamente la
significatividad de un efecto de interacción es estandarizando dicho efecto. Así, por
ejemplo, la estimación estandarizada del efecto de interacción τijAB vendrá dada por la
siguiente expresión:
ω! ijAB =
τ! ijAB
( )
! τ! ijAB
Var
( )
! τ! ijAB es la varianza estimada de la estimación τ! ijAB .
donde Var
La mayoría de los programas informáticos, especialmente aquellos que utilizan
el algoritmo de Newton-Raphson como método de estimación, proporcionan
aproximaciones válidas de las estimaciones estandarizadas.
Según constata Andersen ( 1990, pag. 45 ), las estimaciones estandarizadas de
los parámetros de un modelo log-lineal son asintóticamente normales con media 0 y
varianza 1, por lo que, en este caso, podrá afirmarse que:
ω! ijAB ≅ N(0;1)
De esta forma, si se verifica que ω! ijAB ≤ 196
. , podremos concluir que la hipótesis
τijAB = 0 ( ∀i , j ) no puede ser rechazada a un nivel de significación del 5 %, lo que
- 211 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
implicaría que dichos efectos de interacción no son estadísticamente significativos.
Por el contrario, si ω! ijAB > 196
. , se podrá admitir a un 5 % de nivel de
significación que los términos τijAB son significativamente distintos de cero.
4.11. COLAPSABILIDAD DE TABLAS DE CONTINGENCIA.
Una tabla de contingencia organiza los datos de tal forma que éstos sean
fácilmente entendidos e interpretados. Sin embargo, y a pesar del carácter simplificador
de una tabla, es evidente que una tabla de dimensión 2x4 es más fácil de entender que
una tabla de dimensión 2x4x3 y que si las conclusiones del análisis son las mismas en
uno y en otro caso siempre será preferible trabajar con tablas de menor dimensión. En
esta sección se indicarán las condiciones necesarias para que una tabla de contingencia
pueda ser colapsada.
En primer lugar, hay que tener presente que colapsar una tabla no siempre es
posible, entre otras razones porque la paradoja de Simpson, a la que se ha hecho
referencia con anterioridad, es precisamente el resultado de colapsar una tabla que, en
realidad, no puede colapsarse.
Con carácter general, “si un modelo log-lineal no posee un efecto de interacción
de tercer orden y si todos los efectos de interacción de segundo orden existen, no es
- 212 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
correcto obtener conclusiones sobre las interacciones de segundo orden a partir de las
correspondientes tablas bidimensionales marginales” ( Christensen, 1990, pag. 113 ).
La colapsabilidad de tablas de contingencia de dimensión tres puede sintetizarse
en el siguiente teorema:
Teorema 4.11.1:
a) Si el modelo [AC][BC] se verifica, entonces la relación entre las variables B y
C puede ser examinada en la tabla marginal n. jk y la relación entre las variables A y C
puede ser examinada en la tabla marginal ni .k .
b) Si el modelo [AC][BC] o el modelo [AB][BC] se verifica, entonces la
relación entre las variables B y C puede ser examinada en la tabla marginal n. jk .
c) Si el modelo [A][BC] se verifica, entonces la relación entre las variables B y
C puede ser examinada en la tabla marginal n. jk .
La extensión de las condiciones de colapsabilidad a tablas de dimensión superior
es inmediata y se basa en la noción de independencia condicionada. Así, con carácter
general, si una variable es condicionalmente independiente de las demás variables de la
tabla, dicha tabla puede colapsarse con respecto a aquella variable, ya que, en este caso,
las conclusiones obtenidas del análisis de la tabla completa y del análisis de la tabla
- 213 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
marginal coincidirán.
Para finalizar este apartado, comentaremos, aunque de forma breve, la
importancia que la colapsabilidad tiene en el análisis de segmentación, especialmente en
el llamado algoritmo CHAID. Este algoritmo trabaja directamente sobre tablas
marginales, de forma que sólo en el caso de que la tabla de datos original pueda ser
colapsada, será posible la utilización de esta técnica de segmentación, ya que, en caso
contrario, se podrían obtener resultados contradictorios, en virtud de la conocida
Paradoja de Simpson. Uno de los trabajos más brillantes sobre el algoritmo CHAID y la
colapsabilidad es el realizado por la doctora Dorado Díaz ( 1998 ) en el que se efectúa,
entre otras cosas, un detallado análisis de colapsabilidad para las condiciones del
CHAID en tablas de contingencia con tres y cuatro factores.
4.12. EL MODELO LOGIT PARA VARIABLES CATEGÓRICAS.
En múltiples ocasiones, el interés del análisis de una tabla de contingencia se
centra esencialmente en una de las variables que forman dicha tabla. Cuando esto
ocurre, las restantes variables de la tabla y sus relaciones de dependencia se tendrán en
consideración especialmente por su capacidad para ayudar a explicar el comportamiento
de la variable categórica de interés ( denominada, en lo sucesivo, variable respuesta ).
A diferencia de lo que ocurría con el modelo log-lineal, en el que existía una relación
- 214 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
simétrica31 entre todas las variables que formaban la tabla de contingencia, cuando se
pretende analizar el comportamiento de una variable categórica a partir de las demás
variables de la tabla, las relaciones existentes entre la totalidad de las variables debe
entenderse de una forma asimétrica, en el sentido de que, de forma similar a como
ocurre en el modelo de regresión clásico, una variable dependiente o variable respuesta
es explicada por un conjunto de variables independientes o explicativas.
La técnica estadística que se emplea para explicar el comportamiento de una
variable categórica a partir de las restantes variables categóricas de la tabla recibe el
nombre de modelo logit. El número de categorías de la variable respuesta condiciona en
cierta manera la metodología a emplear, puesto que la formulación del modelo logit
presenta matices diferenciales según que la variable respuesta posea únicamente dos
categorías o posea más de dos categorías. Pasaremos a continuación a abordar ambas
situaciones.
4.12.1. Variable respuesta dicotómica.
Cuando se considera una variable respuesta, en lugar de modelizar el logaritmo
de las frecuencias esperadas ( como ocurre en el modelo log-lineal ), el interés del
análisis estadístico recae en la modelización del logaritmo de las múltiples ventajas que
31
Es decir, no existe una variable explicada y un conjunto de variables explicativas, sino que cada una de
las variables consideradas en el modelo log-lineal explica, o puede explicar, el comportamiento de las
demás variables, sin que existan, por tanto, “variables explicadas” según la terminología utilizada en el
modelo de regresión clásico.
- 215 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
pueden definirse a partir de la variable respuesta. Si esta última posee únicamente dos
categorías, la modelización se simplifica de forma considerable, dado que existe una
sola forma de definir la “ventaja”. Así, si p1 es la probabilidad asociada a la primera
categoría de la variable respuesta y p2 la probabilidad asociada a la segunda categoría,
es evidente que la ventaja asociada a considerar la primera categoría sobre la segunda
será
p1
p
, mientras que la ventaja de considerar la segunda sobre la primera será 2 .
p2
p1
Pues bien, partiendo del logaritmo de la ventaja asociada a considerar la primera
p1
), la transformación logit consistirá en tomar una probabilidad “ p ”
p2
 p 
entre 0 y 1 y transformarla en log 
 . De esta forma, la transformación logit
 1 − p
categoría ( log
consistirá en lo siguiente:
 p 
logit ( p) = log 

 1 − p
Se considerará que se designan por 1 y 2 los niveles de la variable respuesta, de
forma que p1 jkl"r será la probabilidad condicionada de que un individuo se encuadre en
la categoría 1 de la variable respuesta dado que está situado en la categoría j de la
variable B, en la categoría k de la variable C, en la categoría l de la variable D, ..., y en
la categoría r de la variable Z, mientras que p2
jkl "r
representará la probabilidad
condicionada de que el mismo se encuadre en la categoría 2 de la variable respuesta
- 216 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
dado que dicho individuo se ha situado en las categorías j, k, l, ..., r de las variables
categóricas B, C, D, ..., Z, respectivamente.
Teniendo presente que p1 jkl"r + p2
jkl "r
= 1 , y que p1 jkl"r =
p1 jkl"r
, la
p1 jkl"r + p2 jkl"r
transformación logit tendría, en este caso, la siguiente forma:
(
)
logit p1 jkl"r = log
p1 jkl"r
p2
jkl "r
= log
p1 jkl"r
p2 jkl"r
(4.26)
La función logit es una función monótona con rango (-∞;+∞). Es evidente que el
logit tomará valores positivos elevados cuando los niveles j, k, l, ..., r de las variables
categóricas B, C, D, ..., Z tengan mayor probabilidad de ocurrir con el valor 1 que con el
valor 2 de la variable respuesta, mientras que si la combinación j, k, l, ..., r tiene una
mayor probabilidad de ocurrencia con el valor 2 que con el valor 1 de la variable
respuesta, el logit tomará un alto valor negativo. De aquí que la mayor o menor
probabilidad de ocurrencia de cada combinación de niveles de las variables explicativas
con cada una de las dos categorías de la variable respuesta convierta al modelo logit en
una importante herramienta estadística para analizar la influencia de las variables
explicativas sobre la variable respuesta.
Según demuestra Andersen ( 1990, pag. 241 ), existe una clara correspondencia
entre el modelo logit y el modelo log-lineal. Para verificar esta correspondencia, se
supondrá que se quiere estudiar el comportamiento de una variable respuesta dicotómica
A mediante tres variables explicativas B, C y D. Si el modelo log-lineal que mejor
- 217 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
explica las relaciones de dependencia entre las cuatro variables categóricas es el
siguiente:
CD
BD
ABC
log mijkl = τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ ijAB + τ ikAC + τ BC
+ τ BCD
jk + τ kl + τ jl + τ ijk
jkl
la transformación logit vendrá dada por:
log
(
) (
) (
)
p1 jkl
m
AC
= log 1 jkl = log m1 jkl − log m2 jkl = τ1A − τ 2A + τ1ABj − τ 2ABj + τ1AC
+
k − τ2k
p2 jkl
m2 jkl
(
ABC
+ τ1ABC
jk − τ 2 jk
)
Dado que se verifica que:
2
A
∑ τi = 0 ;
i =1
2
2
AB
∑ τij = 0 ;
2
AC
∑ τik = 0 ;
i =1
ABC
∑ τijk = 0
i =1
i =1
es evidente que la transformación logit vendría dada por la siguiente expresión:
g jkl = log
[
p1 jkl
ABC
= 2 τ1A + τ1ABj + τ1AC
k + τ1 jk
p2 jkl
]
lo que viene a poner de manifiesto las dos propiedades esenciales del modelo logit:
1ª) El modelo logit dependerá exclusivamente del efecto primario de la variable
respuesta y de los efectos de interacción entre la variable respuesta y las variables
explicativas.
- 218 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
2ª) El logit es igual a dos veces la suma de aquellos parámetros no nulos del
modelo log-lineal que impliquen a la variable respuesta.
Por otra parte, una reparametrización del modelo logit para el caso que está
siendo tratado, considerando que:
β0 = 2 τ1A ;
β Bj = 2 τ1ABj ;
βCk = 2 τ1AC
k ;
ABC
β BC
jk = 2 τ1 jk
permite expresar dicho modelo de la siguiente forma:
g jkl = β0 + β Bj + β Ck + β BC
jk
(4.27)
que, a su vez, podría expresarse simplificadamente como [BC].
A modo de ilustración, se presentan en la Tabla 4.5 algunos modelos log-lineales
y los correspondientes modelos logit en los que la variable A se considera la variable
respuesta.
Por otra parte, a partir de g jkl = log
p1 jkl
p2
, se verifica que:
jkl
g
p1 jkl
e jkl
=
g
1 + e jkl
- 219 -
(4.28)
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
expresión que posibilita analizar el efecto de las variables explicativas sobre la
probabilidad asociada a la categoría 1 de la variable respuesta, dados los niveles j, k y l
de las variables explicativas.
Tabla 4.5
Correspondencia entre algunos modelos log-lineales y modelos logit para una
tabla de contingencia IxJxKxL
Modelo log-lineal
Modelo logit
[ABC][ABD][ACD]
[BC][BD][CD]
[ABC][ABD]
[BC][BD]
[ABC][ACD]
[BC][CD]
[ABD][ACD]
[BD][CD]
[ABC][AD]
[BC][D]
[ABD][AC]
[BD][C]
[ACD][AB]
[CD][B]
[ABC]
[BC]
[ABD]
[BD]
[ACD]
[CD]
[AB][AC][AD]
[B][C][D]
[AB][AC]
[B][C]
[AB][AD]
[B][D]
[AC][AD]
[C][D]
- 220 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
Así, y a partir de la expresión anterior, se deduce que el modelo logit mide
mediante g jkl la ventaja relativa de observar la categoría 1 de la variable respuesta en
lugar de observar la categoría 2 de dicha variable. De esta forma, si para una
determinada combinación de los niveles j, k y l, las probabilidades de observar la
variable respuesta en la categoría 1 y en la categoría 2 coinciden ( p1 jkl = p2 jkl ),
entonces g jkl = 0 . Por el contrario, g jkl > 0 en el caso de que p1 jkl > p2 jkl , mientras que
g jkl < 0 cuando p1 jkl < p2 jkl . En consecuencia, se puede concluir que cuanto mayor sea
el valor de g jkl , mayor será la ventaja relativa de observar la categoría 1 de la variable
respuesta.
En otro orden de cosas, dado que el modelo logit es una mera reformulación del
modelo log-lineal, es obvio que la determinación de la bondad de ajuste del modelo
logit, la estimación de los parámetros del modelo y la contrastación de la
significatividad estadística de los mismos se llevará a cabo empleando las herramientas
estadísticas introducidas en el modelo log-lineal.
Así, la estimación del modelo logit anteriormente presentado
g jkl = β0 + β Bj + β Ck + β BC
jk
es inmediata si se tienen presentes las siguientes relaciones:
β! 0 = 2 τ! 1A ;
β! Bj = 2 τ! 1ABj ;
β! Ck = 2 τ! 1AC
k ;
- 221 -
! ABC
β! BC
jk = 2 τ 1 jk
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
donde τ! 1A , τ! 1ABj , τ! 1kAC y τ! 1ABC
representan, respectivamente, las estimaciones máximojk
verosímiles de los parámetros τ1A , τ1ABj , τ1kAC y τ1ABC
jk del modelo log-lineal [ABC][BCD].
Por su parte, la determinación de la bondad de ajuste del anterior modelo logit se
efectuará mediante los conocidos tests chi-cuadrado de Pearson y de razón de
verosimilitud:
2
J
K
L
X 2 = ∑∑∑∑
(n
i =1 j =1 k =1 l =1
ijkl
− m! ijkl
m! ijkl
)
2
2
J
K L
n 
G 2 = 2 ∑ ∑ ∑ ∑ nijkl log  ijkl 
 m! ijkl 
i =1 j =1 k =1 l =1
donde m! ijkl son las frecuencias esperadas estimadas correspondientes, en este caso, al
modelo log-lineal [ABC][BCD].
Finalmente, si se desea contrastar la significatividad individual de cada
parámetro del modelo logit bastará contrastar el modelo log-lineal que contenga el
parámetro asociado al correspondiente parámetro logit contra el modelo log-lineal que
no lo incluya. Así, para contrastar la hipótesis H 0 : β BC
jk = 0 , bastará contrastar el modelo
log-lineal [ABC][BCD] ( que contiene el parámetro τ1ABC
) contra el modelo
jk
). Si las frecuencias
[AB][AC][BCD] ( que no incluye el parámetro log-lineal τ1ABC
jk
esperadas estimadas y el test de la razón de verosimilitud para los modelos
- 222 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
(a)
y G2 ( Ma ) y
[ABC][BCD] y [AB][AC][BCD] vienen dados, respectivamente, por m! ijkl
(b)
y G 2 ( Mb ) , entonces la constrastación de la hipótesis anterior se efectuará
por m! ijkl
mediante el siguiente test estadístico:
2
J
K
L
(b )
G ( Mb M a ) = 2 ∑ ∑ ∑ ∑ m! ijkl
log
2
i =1 j =1 k =1 l =1
(b )
m! ijkl
= G 2 ( Mb ) − G 2 ( M a )
(a)
m! ijkl
Si el valor que arroje el test G 2 ( M b M a ) es superior al valor tabulado
χ (21− α ), ( I − 1)( J − 1)( K − 1) se rechazará la anterior hipótesis nula a un nivel de significación α .
De forma similar, la contrastación de la hipótesis H 0 : β Ck = 0 se llevará a cabo
calculando la diferencia en el test de la razón de verosimilitud para los dos modelos loglineales que incluyen y excluyen, respectivamente, al parámetro τ1kAC . Así, si el test de la
razón de verosimilitud que arroje el modelo log-lineal [AB][BC][CD][BD], que no
incluye el citado término τ1kAC , viene dado por G 2 ( M d ) y el test de la razón de
verosimilitud asociado al modelo [AB][BC][CD][BD][AC], que incluye el término τ1kAC ,
viene dado por G 2 ( M c ) , la anterior hipótesis será rechazada a un nivel de significación
α si el valor del test estadístico G 2 ( M d M c ) = G 2 ( M d ) − G 2 ( M c ) es superior al valor
tabulado χ (21−α ), ( I −1)( K − 1) .
- 223 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
4.12.2. Variable respuesta policotómica.
Cuando la variable respuesta posee más de dos categorías, el análisis logit se
complica sustancialmente, puesto que, a diferencia de lo que ocurre cuando la variable
respuesta es dicotómica, el número de modelos que pueden definirse en este caso es
bastante elevado. Christensen ( 1990, pag. 46 y ss. ) sugiere algunas soluciones a esta
problemática.
Así, suponiendo que la variable respuesta posee R categorías o niveles
diferentes, podrían plantearse las siguientes alternativas:
a) Comparar cada categoría de la variable respuesta con la siguiente categoría de
la misma mediante la formulación del siguiente logit:
 m 
log  ijkl 
 mi + 1 jkl 
i = 1, 2, ", R − 1
En este supuesto, el logit determinará la ventaja relativa de observar la categoría
i frente a observar la categoría i+1 de la variable respuesta.
b) Comparar cada categoría de la variable respuesta con otra categoría concreta
de dicha variable, lo que se instrumentaría mediante el siguiente logit:
- 224 -
Capítulo Cuarto: El modelo log-lineal general
____________________________________________________________________________________
 m 
log  ijkl 
 mi ′ jkl 
∀i , i ′ = 1, 2, ", R ∀i ≠ i ′
Este modelo logit cuantificará la ventaja relativa de observar la categoría i frente
a observar otra categoría cualquiera de dicha variable respuesta.
c) Comparar cada categoría de la variable respuesta con el resto de categorías de
la misma, en cuyo caso la formulación del modelo logit sería la siguiente:


 mijkl 
log 

 ∑ mi ′ jkl 
 i ′ ≠i

i = 1, 2, ", R
Este modelo logit determina la ventaja relativa de observar la categoría i frente a
no observar dicha categoría de la variable respuesta.
En definitiva, y dada la naturaleza de la transformación logit, cuando la variable
respuesta posee más de dos categorías, cualquiera de las alternativas presentadas las
estructura de forma que sólo se comparen dos categorías ( o agrupaciones de ellas ) al
mismo tiempo.
- 225 -
C A PÍ T U L O QU I N T O
MODELOS DE VARIABLES LATENTES
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
5.1. INTRODUCCIÓN.
En el ámbito de las ciencias sociales, dentro del cual se encuentra la Ciencia
Económica, multitud de conceptos que juegan un papel crucial en teorías sociales y de
comportamiento no pueden ser directamente observados. Así, es imposible inferir
directamente cómo es la inteligencia de una persona, cómo es el status socioeconómico
de una familia o qué actitud tiene un turista ante sus vacaciones. El conocimiento
empírico sobre estos conceptos sólo puede adquirirse identificando otras variables que
puedan ser observadas directamente y que contengan información relevante sobre esos
conceptos teóricos. De esta forma, la inteligencia se puede medir mediante el
planteamiento de problemas concretos que se resuelven mediante un razonamiento
abstracto, ya que se supone que los individuos más inteligentes tendrán una mayor
habilidad para resolver estos problemas de forma correcta. Algo similar ocurre con el
status socioeconómico de una familia, que puede medirse, entre otras variables, a través
del nivel de ingresos del cabeza de familia.
Por razones obvias, el anterior proceso de medición se denomina en ocasiones
observación indirecta, en la que aquellas variables teóricas que no son directamente
observables reciben el nombre de variables latentes, mientras que aquellas otras
variables que se observan directamente y que contienen información sobre las variables
latentes se conocen con el nombre de variables manifiestas o indicadores.
- 229 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
El análisis de la asociación entre las variables latentes y las variables manifiestas
es posible gracias a los llamados modelos de variables latentes. Bajo esta
denominación genérica se agrupa una amplia variedad de modelos, que se diferencian
entre sí por la naturaleza tanto de las variables latentes como de los indicadores. Así,
según que los indicadores y las variables latentes sean continuas, discretas nominales o
discretas ordinales se puede considerar una amplia tipología de modelos de variables
latentes. Es evidente que un tratamiento exhaustivo de todos estos tipos de modelos
excede los objetivos de esta investigación, de forma que centraremos nuestro
planteamiento en el modelo de Análisis de Clases Latentes ( modelo ACL, en lo
sucesivo ) que surge cuando tanto la variable latente como las variables manifiestas son
variables discretas de naturaleza nominal, aplazándose el análisis de otros modelos de
variables latentes ( como son el modelo ACL para datos tasados, el modelo ACL con
clases ordenadas, el modelo de respuesta graduada, el modelo de crédito parcial, etc. )
para una fase de investigación postdoctoral.
La utilidad del modelo ACL no reside únicamente en su capacidad para
identificar variables inobservadas a partir de un conjunto de indicadores de las mismas,
sino también, y especialmente, en su potencialidad para segmentar la población objeto
de estudio. Como más tarde se comentará, el modelo ACL clasifica a los individuos
analizados en varios grupos que vendrán identificados por las clases que posea la
variable latente, de forma que todos los individuos pertenecientes a un mismo grupo
poseen las mismas características, a diferencia de lo que ocurre con individuos de
grupos distintos, que presentan características diferenciadas.
- 230 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Las primeras nociones del modelo ACL fueron introducidas a principios de los
años cincuenta por Lazarsfeld ( 1950 ) y sus colaboradores ( sobre todo, Henry, 1968 ).
Con posterioridad, Goodman ( 1974 ) y Habermann ( 1979 ) realizaron importantes
contribuciones al modelo, especialmente en lo relativo a la utilización de algoritmos
para probar la validez del modelo y para estimar sus parámetros. Las aportaciones más
recientes se deben principalmente a autores como Clogg ( 1981 ), Formann ( 1985 ),
McCutheon ( 1987 ), Hagenaars ( 1993 ), Langeheine ( 1988 ) y Rost ( 1985 ).
En un modelo ACL, la relación entre la variable latente y las variables
manifiestas no es determinística, sino probabilística, de forma que todas las variables
observadas tienen en común el hecho de que son indicadores de una misma variable
latente. Una asunción básica del modelo ACL ( aunque también de otros modelos de
variables latentes ) es que no existen relaciones directas entre las variables manifiestas.
Es decir, los indicadores están correlacionados entre sí, pero esta correlación desaparece
cuando la variable latente se mantiene constante. En otros términos, la asociación
existente entre las variables manifiestas es debida únicamente a la asociación directa
existente entre ellas y la variable latente. Se asume, por tanto, la existencia de
independencia condicionada entre los indicadores, dada la variable latente.
La anterior asunción se conoce con el nombre de independencia local que se
formaliza, para cualquier modelo de variables latentes, de la siguiente forma:
- 231 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Supóngase que se están analizando “n” variables manifiestas diferentes que se
considerarán, por motivos expositivos, dicotómicas. Se supondrá asimismo la existencia
de una variable latente θ , que puede ser continua o discreta, de forma que si dicha
variable es continua, el valor latente para el individuo i-ésimo se denotará por θi ,
mientras que si es discreta, el número de categorías de dicha variable ( también llamadas
clases latentes ) será igual a T y una categoría concreta se representará por t. De esta
forma, θ t designará una clase latente determinada.
Denotando mediante el símbolo ν al número de modalidades de respuesta a las
n variables manifiestas1, la probabilidad condicionada de que el individuo i-ésimo con
valor latente θi se sitúe en el nivel 1 de la variable “j” se representará como p j1 θ i . Si la
variable latente es discreta, la probabilidad condicionada de que un individuo “i” que
pertenece a la clase latente θ t se sitúe en el valor 1 de la variable “j” se denotará por
p j1 θ t . De acuerdo con esta notación, la probabilidad condicionada de observar la
modalidad de respuesta ν dado que el individuo se sitúa en el valor latente θi o en la
clase latente θ t vendrá dada por pν θ i o por pν θ t , respectivamente. Por último, se
considerará un conjunto de variables auxiliares X νj , de forma que X νj = 1 si en la
modalidad de respuesta ν el individuo “i” se sitúa en la categoría 1 de la variable “j”,
mientras que, en caso contrario, X νj = 0 .
1
En el supuesto de que todas las variables manifiestas sean dicotómicas,
- 232 -
ν será igual a 2 n .
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Pues bien, puesto que la asunción de independencia local supone que las
variables manifiestas son estadísticamente independientes para los individuos que
tengan la misma posición en la variable latente, la probabilidad condicionada de
observar la modalidad de respuesta ν podrá expresarse como el producto de las
probabilidades de respuesta condicionadas para cada una de las diferentes variables
manifiestas, esto es:
n
(
) (1 − p )
(
) (1 − p )
pν θ i = ∏ p j1 θ i
j =1
n
pν θ t = ∏ p j1 θ t
j =1
1− X νj
X νj
j1 θ i
1− X νj
X νj
j1 θ t
cuando θ es continua y
cuando θ es discreta.
Según han demostrado algunos autores ( Clogg, 1988 ), si la independencia local
se verifica para el conjunto de variables manifiestas, también se verificará para cualquier
subconjunto de estos indicadores. De igual forma, el hecho de colapsar las categorías de
las variables manifiestas tampoco afectará al principio de independencia local. Ahora
bien, lo contrario no es necesariamente cierto, ya que si se verifica la independencia
local para variables que tienen algunas de sus categorías colapsadas, la independencia
local no tiene por qué verificarse necesariamente para las variables manifiestas
originales.
Aunque el hecho de colapsar las categorías de las variables observadas no
influye
sobre la asunción de independencia local, no es posible, sin embargo,
generalizar esta idea cuando se colapsan los valores de la variable latente. Con carácter
general, si la asunción de independencia local se verifica para una variable latente
- 233 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
continua θ , no será posible agrupar los valores de dicha variable sin que dicho
agrupamiento distorsione el concepto de independencia local2.
5.2. EL MODELO DE ANÁLISIS DE CLASES LATENTES GENERAL.
Este modelo supone que la población de individuos se divide en un determinado
número de clases latentes que deben ser excluyentes y exhaustivas, de forma que cada
individuo pertenecerá única y exclusivamente a una clase latente. La asunción de
independencia local implica, en este caso, que, dentro de cada clase latente, las variables
manifiestas son estadísticamente independientes. En otras palabras, la independencia
local implica en esta situación que la relación entre los indicadores viene explicada por
la pertenencia de cada individuo a una clase latente concreta, teniendo presente que cada
clase latente tendrá probabilidades condicionadas de respuesta a las variables
manifiestas diferentes a las probabilidades condicionadas asociadas a otra clase latente
distinta, y que los individuos que pertenecen a la misma clase latente tendrán la misma
probabilidad de responder a las variables manifiestas en cualquier combinación de
categorías de las mismas.
2
En cualquier caso, Clogg (1988) sostiene que, en ocasiones, es posible discretizar el espacio latente en
un conjunto de clases latentes discretas, consiguiéndose, por regla general, que la independencia local se
mantenga.
- 234 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Si se designa por Π tX a la probabilidad de que un individuo pertenezca a la clase
latente “t” de la variable latente X y se consideran tres variables manifiestas A, B y C, se
tendrá que la probabilidad de que un individuo se sitúe en la casilla i de la variable A, en
la casilla j de la variable B, en la casilla k de la variable C y en la clase t de la variable
ABCX
latente X, probabilidad de que se designará por Πijkt
, vendrá dada por el producto de
las probabilidades condicionadas de que se responda a cada variable manifiesta en un
nivel determinado de la misma dado que dicho individuo pertenece a la clase t de la
variable latente X por la probabilidad de que se encuadre en dicha clase de la variable
latente, es decir:
ABCX
CX
X
Π ijkt
= ΠitAX × Π BX
jt × Π kt × Π t
(5.1)
donde:
ΠitAX es la probabilidad condicionada de que un individuo que pertenece a la clase t de
la variable latente X responda en el nivel i de la variable A.
es la probabilidad condicionada de que un individuo que pertenece a la clase t de
Π BX
jt
la variable latente X responda en el nivel j de la variable B.
Π CktX es la probabilidad condicionada de que un individuo que pertenece a la clase t de
la variable latente X responda en el nivel k de la variable C.
De acuerdo con esta notación, la probabilidad de que un individuo responda en el
nivel i de la variable A, en el nivel j de la variable B y en el nivel k de la variable C, la
- 235 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
ABCX
cual se designará por ΠijkABC , vendrá dada por la suma de las probabilidades Πijkt
para
todas y cada una de las clases latentes de la variable X, es decir:
T
ABCX
ΠijkABC = ∑ Π ijkt
t =1
En realidad, el modelo ACL puede expresarse de forma equivalente en términos
del modelo log-lineal, ya que la probabilidad conjunta de que un individuo pertenezca a
la clase t de la variable latente X y responda en los niveles i, j y k de las variables
manifiestas A, B y C, respectivamente, puede descomponerse de la siguiente forma:
ABCX
CX
= τ 0 + τ iA + τ Bj + τ Ck + τ tX + τitAX + τ BX
log Πijkt
jt + τ kt
(5.2)
es decir, las variables A, B y C son condicionalmente independientes dada una categoría
concreta de la variable latente X. Gráficamente, esta situación podría representarse de la
siguiente forma:
A
B
C
X
- 236 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
De la exposición anterior se deduce que los parámetros del modelo ACL son las
probabilidades condicionadas ΠitAX , Π BX
y Π CktX y las probabilidades de clase latente
jt
Π tX .
Las probabilidades de clase latente determinarán la distribución de las diferentes
clases de la variable latente, de forma que, puesto que las T clases de la variable latente
deben ser excluyentes y exhaustivas, deberá verificarse siempre que:
T
∑Π
X
t
=1
(5.3)
t =1
Una variable latente deberá tener como mínimo dos clases, puesto que una
variable con un única clase latente implica la independencia entre las variables
manifiestas.
Si se designa por mijkt al número medio de individuos que responderán a las
variables A, B y C en los niveles i, j y k, respectivamente, y que pertenecen a la clase t
de la variable latente X, y siendo N el tamaño total de la muestra, es evidente que la
probabilidad de clase latente Π tX vendrá dada por:
I
J
K
∑∑∑m
ijkt
Π =
X
t
i =1 j =1 k =1
N
- 237 -
=
m...t
N
(5.4)
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
El valor de cada probabilidad de clase latente proporcionará importante
información sobre la población que está siendo analizada. Así, si todas las
probabilidades Π tX arrojan valores similares, se tendrá una población de individuos
homogéneamente distribuida, mientras que si algunas probabilidades son grandes y otras
son pequeñas, se estará ante una población con una distribución heterogénea en la que se
conjugan segmentos altamente representativos con otros segmentos minoritarios. Los
valores de Π tX son también muy útiles para comparar las estructuras latentes
subyacentes en dos o más poblaciones. Así, si dos poblaciones poseen probabilidades de
clase latente muy similares, dichas poblaciones presentarán estructuras latentes
semejantes, mientras que si las probabilidades de clase latente difieren de forma
considerable, las poblaciones que se están comparando poseerán estructuras latentes
diferenciadas.
Por su parte, las probabilidades condicionadas permitirán identificar las
características de los tipos de individuos definidos mediante las diferentes clases de la
variable latente, ya que todos los individuos pertenecientes a una misma clase latente
tendrán la misma probabilidad de responder en las categorías i, j y k a los indicadores A,
B y C.
Dentro de cada clase latente, las probabilidades condicionadas para cada una de
las variables manifiestas deben sumar 1, es decir:
- 238 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
I
∑Π
AX
it
=1
(5.5)
BX
jt
=1
(5.6)
CX
kt
=1
(5.7)
i =1
J
∑Π
j =1
K
∑Π
k =1
Puesto que para cada categoría de las variables observadas existirá una
probabilidad condicionada por cada clase latente de la variable X, es evidente que si la
variable A posee I categorías, la variable B posee J categorías y la variable C posee K
categorías, y si la variable latente X posee un total de T clases latentes, el número total
de probabilidades condicionadas del modelo ACL general sería IT+JT+KT = T(I+J+K).
Sin embargo, puesto que la suma de las probabilidades condicionadas para cada variable
manifiesta debe sumar 1 dentro de cada clase latente, existirá una probabilidad
condicionada para cada variable manifiesta y en cada clase latente que podrá calcularse
T −1
a partir de las anteriores ( por ejemplo, ΠiTAX = 1 − ∑ ΠitAX ), por lo cual el número de
t =1
probabilidades condicionadas que deben estimarse en el modelo ACL general sería igual
a (I-1)T+(J-1)T+(K-1)T = T [ (I-1)+(J-1)+K-1) ].
Por otra parte, cada probabilidad condicionada puede obtenerse de la siguiente
forma:
- 239 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
ΠitAX =
pi ..t mi ..t
=
Π tX m...t
Π BX
jt =
p. j .t
Π CktX =
(5.8)
m. j .t
m...t
(5.9)
p..kt m..kt
=
Π tX m...t
(5.10)
Π
X
t
=
5.3. ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL MODELO ACL GENERAL.
En este apartado se considerarán las técnicas más comúnmente utilizadas para
obtener las estimaciones de las probabilidades de clase latente y de las probabilidades
condicionadas del modelo ACL. En general, estas técnicas presentan grandes similitudes
con las empleadas para el modelo log-lineal, ya que las ecuaciones de verosimilitud son
similares, existe también un algoritmo de ajuste iterativo proporcional, y existe incluso
una variante del algoritmo de Newton-Raphson, llamado “algoritmo de escala”. Sin
embargo, a pesar de las citadas semejanzas, la estimación de los parámetros del modelo
ACL es más complicada que la correspondiente estimación del modelo log-lineal. En
este sentido, para la estimación del modelo ACL, los valores iniciales necesarios para
los cálculos iterativos no son fáciles de elegir, pueden existir múltiples soluciones a las
ecuaciones de verosimilitud e incluso los cálculos iterativos se efectúan con mayor
lentitud que en el caso del modelo log-lineal.
- 240 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Un método ampliamente utilizado para obtener las estimaciones máximoverosímiles de las probabilidades condicionadas y de clase latente es el llamado
algoritmo EM. Este algoritmo, propuesto por Goodman ( 1974 ), y desarrollado
posteriormente por Dempster, Laird y Rubin ( 1977 ), es una adaptación simple del
método de ajuste iterativo proporcional del modelo log-lineal.
Este método define, en primer lugar, la probabilidad estimada por máxima
verosimilitud de que un individuo pertenezca a la clase t de la variable latente X
condicionada a que dicho individuo haya respondido en los niveles i, j y k de las
variables manifiestas A, B y C, respectivamente, de la siguiente forma:
! ABCX
! ABCX = Πijkt
Π
ijkt
!
Π
ijk
(5.11)
! ABCX es la estimación por máxima verosimilitud de la probabilidad conjunta de
donde Π
ijkt
que un individuo responda a las variables A, B y C en las categorías i, j y k,
! representa
respectivamente, y pertenezca a la clase t de la variable X; mientras que Π
ijk
la probabilidad estimada de que un individuo responda en los niveles i, j y k,
respectivamente, a los indicadores A, B y C, de forma que dicha probabilidad se
calculará de la siguiente forma:
T
! = Π
Π
∑ ! ijktABCX
ijk
t =1
- 241 -
(5.12)
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
! ABCX expresa la probabilidad estimada de que los individuos
En definitiva, Π
ijkt
situados en la casilla ( i, j, k ) de la tabla de contingencia se sitúen en el nivel t de la
variable latente.
Si se considera una tabla de contingencia de dimensión IxJxK de variables
observadas y una variable latente con un total de T clases, y se supone un modelo
muestral multinomial, el logaritmo de la función de verosimilitud3 vendrá dado por:
I
J
K
T
I
J
K
i =1
j =1
k =1
ACBX
CX
log L = ∑ ∑ ∑ ∑ nijkt log Π ijkt
= ∑ ni ..t log ΠitAX + ∑ n. j .t log Π BX
jt + ∑ n.. kt log Π kt +
i = 1 j =1 k =1 t =1
T
+ ∑ n...t log Π tX
t =1
donde nijkt es el número de individuos que responden en la casilla ( i, j, k ) a las
variables manifiestas A, B y C, respectivamente, y pertenecen a la clase t de la variable
X, mientras que ni ..t , n. j.t , n..kt y n...t son valores marginales calculados a partir de nijkt
mediante sumatorio respecto a determinados índices.
Goodman ( 1974 ) señala que si pijk designa la proporción observada de
individuos situados en la casilla ( i, j, k ) de la tabla de contingencia, se demuestra que
las estimaciones máximo-verosímiles de las probabilidades condicionadas y de clase
latente satisfacen el siguiente sistema de ecuaciones obtenidas al maximizar la función
3
Obviando en dicha función aquellos términos de la misma que no dependan de las probabilidades
condicionadas o de las probabilidades de clase latente.
- 242 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
de verosimilitud:
I
J
K
!X =
Π
∑ ∑ ∑ pijk Π! ijktABCX
t
(5.13)
i = 1 j =1 k = 1
J
! AX =
Π
it
∑∑ p
ijk
(5.14)
!X
Π
t
K
∑∑ p
ijk
i =1 k =1
I
! CX =
Π
kt
! ABCX
Π
ijkt
j =1 k =1
I
! BX =
Π
jt
K
! ABCX
Π
ijkt
(5.15)
!X
Π
t
J
∑∑ p
ijk
! ABCX
Π
ijkt
i =1 j =1
!X
Π
t
(5.16)
Así, a través de un proceso iterativo, el anterior sistema de ecuaciones permite
obtener estimaciones máximo-verosímiles de las probabilidades de clase latente y de las
probabilidades condicionadas. El proceso iterativo comienza con unos valores iniciales
de las probabilidades condicionadas y de clase latente, que se designarán por Π tX ( 0) ,
( 0)
y Π CktX ( 0) . A partir de estos valores iniciales, es posible calcular un valor
ΠitAX ( 0 ) , Π BX
jt
! ABCX :
inicial para la probabilidad Π
ijkt
( 0)
ABCX ( 0 )
Πijkt
= Π tX ( 0) × ΠitAX ( 0 ) × Π BX
× Π CktX ( 0)
jt
- 243 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
! , esto
Con el anterior valor, se puede calcular a su vez un valor inicial para Π
ijk
es:
T
( 0)
ABCX ( 0 )
Πijk
= ∑ Πijkt
t =1
! ABCX :
lo que permitirá obtener un primer valor de Π
ijkt
ABCX ( 0 )
Π ijkt
=
ABCX ( 0 )
Π ijkt
( 0)
Πijk
Empleando a continuación las proporciones observadas pijk , es posible obtener
!X:
un nuevo valor para Π
t
I
J
K
ABCX ( 0 )
Π tX (1) = ∑ ∑ ∑ pijk Π ijkt
i =1 j =1 k =1
! BX y
! AX , Π
Conocido el valor anterior, pueden obtenerse nuevos valores para Π
it
jt
! C X , es decir:
Π
kt
J
! AX (1) =
Π
it
K
∑∑ p
ijk
! ABCX ( 0)
Π
ijkt
j =1 k =1
! X (1)
Π
t
- 244 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
I
! BX (1) =
Π
jt
ijk
i =1 k =1
I
! C X (1) =
Π
kt
K
∑∑ p
! ABCX ( 0 )
Π
ijkt
! X (1)
Π
t
J
∑∑ p
ijk
! ABCX ( 0)
Π
ijkt
i =1 j =1
! X (1)
Π
t
El proceso iterativo continuaría obteniendo a continuación, y de forma sucesiva,
ABCX (1)
(1)
(2)
ABCX (1)
Πijkt
, Πijk
y Πijkt
, que permitirán calcular Π tX ( 2 ) , ΠitAX ( 2 ) , Π BX
y Π CktX ( 2 ) ,
jt
valores con los que dará comienzo la tercera iteración, y así sucesivamente.
Este proceso iterativo de estimación finalizará cuando se alcance un número
predeterminado de iteraciones o cuando la diferencia entre las estimaciones máximoverosímiles de una iteración y las de la iteración inmediatamente anterior sea menor a
una cantidad fijada previamente y denominada nivel de tolerancia. El principal
inconveniente del primer método es que las estimaciones máximo-verosímiles pueden
estar cambiando todavía de forma sustancial de una iteración a otra cuando el proceso
iterativo se interrumpa.
En cualquier caso, es preciso hacer constar que este método de estimación
presenta algunos inconvenientes. Así, por ejemplo, puede existir más de una solución al
sistema de ecuaciones máximo-verosímiles, debido al hecho de que las estimaciones
MV de las probabilidades condicionadas y de clase latente pueden ser un máximo local,
en lugar de un máximo global. No obstante, este problema no resulta especialmente
- 245 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
grave en la práctica, ya que bastará considerar varios conjuntos de valores iniciales y
comprobar si los mismos conducen a las mismas estimaciones finales, como suele ser,
por otra parte, lo habitual.
Otro problema que suele presentar la estimación de los parámetros del modelo
ACL es que dicho modelo debe estar identificado, circunstancia que en ocasiones no
ocurre. Es decir, a veces los parámetros del modelo no están unívocamente
determinados. Una condición necesaria para que exista identificabilidad en el modelo es
que el número de grados de libertad del test empleado para su contrastación no sea
negativo. Dichos grados de libertad se calculan como la diferencia entre el número de
casillas de la tabla de contingencia menos 1 y el número total de parámetros a estimar en
el modelo. En el caso de una tabla de contingencia IxJxK en la que se asuma que la
asociación entre las variables que la forman está explicada por una variable latente con
T clases, los grados de libertad para contrastar el correspondiente modelo serían:
G.L. = (IJK-1) - [ (T-1) + T(I-1) + T(J-1) + T(K-1) ] = (IJK-1) - [ (I+J+K-2)T -1 ] =
= IJK - (I+J+K-2)T
En consecuencia, sólo en el caso de que los grados de libertad sean positivos,
podrá estimarse y contrastarse el citado modelo.
Sin embargo, la condición anterior, aunque necesaria, no es suficiente, puesto
que puede ocurrir que el modelo no esté identificado a pesar de que el número de grados
de libertad no sea negativo. Goodman ( 1974 ) formuló una condición suficiente para
- 246 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
que exista identificabilidad local. Este autor señala que el modelo ACL estará
! de estimaciones máximo-verosímiles de las probabilidades
identificado si el vector Π
! a través del
Πijk queda únicamente determinado por las probabilidades estimadas Π
ijk
!
! queda únicamente determinado por las Π
algoritmo EM. Si el vector Π
ijk en un
entorno del vector Π , el modelo estará localmente identificado. En caso contrario,
existirán varias estimaciones asociadas a una solución determinada, es decir, podría
existir más de una estimación para las probabilidades Πijk , con lo que el modelo no
estaría identificado.
El método propuesto por Goodman es una condición necesaria y suficiente para
determinar la identificabilidad local de un modelo ACL. Este método consiste en
obtener las derivadas parciales de las funciones Πijk con respecto a todos y cada uno de
los parámetros del modelo y construir una matriz con estas derivadas parciales, que
tendrá IJK-1 filas y (I+J+K-2)T-1 columnas. Así, en las columnas correspondientes a las
derivadas parciales con respecto a Π tX se recogerán los siguientes valores:
∂Πijk
CX
AX
BX
CX
= ΠitAX × Π BX
jt × Π kt − Π iT × Π jT × Π kT
X
∂Π t
para t = 1, 2, ..., T
Por otra parte, en las columnas correspondientes a las derivadas parciales con
respecto a las probabilidades condicionadas se recogerán los siguientes valores si se
considera la probabilidad condicionada ΠitAX :
- 247 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
∂Π ijk
∂ΠitAX
CX
Π tX × Π BX
jt × Π kt

CX
= − Π tX × Π BX
jt × Π kt
0

para i = s
para i = I
en otro caso
donde s = 1, 2, ..., I-1. Expresiones similares se obtendrán para las derivadas parciales
con respecto a las probabilidades condicionadas Π BX
y Π CktX .
jt
Una vez construida la matriz, Goodman ( 1974 ) señala que el modelo ACL
estará localmente identificado si el rango de dicha matriz es igual al número de
columnas, es decir, coincide con el número de parámetros a estimar en el modelo. En
otros términos, no pueden existir columnas linealmente dependientes.
Cuando el modelo no está localmente identificado, se pueden imponer
restricciones sobre determinados parámetros para lograr la identificabilidad local del
mismo, ya que, cuando se imponen restricciones, el número total de parámetros a
estimar ( en este caso, (I+J+K-2)T-1 ) disminuye.
Dada la correspondencia existente entre un modelo de clases latentes y un
modelo log-lineal, Goodman ( 1974 ) define ciertas magnitudes que permiten calcular
tanto los efectos primarios de las variables observadas y de las variables latentes como
los efectos de interacción existentes entre cada uno de los indicadores y la variable
latente X.
- 248 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Así, y considerando el caso más simple en el que las variables A, B, C y D son
dicotómicas y la variable latente X sólo posee 2 clases, Goodman define a Ω.Ajklt como la
ventaja relativa de que un individuo se sitúe en el nivel 1 de la variable A en lugar de
hacerlo en el nivel 2 de dicha variable, dado que se sitúa en el nivel j de la variable B, en
el nivel k de la variable C, en el nivel l de la variable D y en la clase t de la variable
ABCDX
latente X. Esta ventaja puede definirse en términos de las probabilidades Π ijklt
de la
siguiente forma:
Ω.Ajklt =
Π1ABCDX
jklt
Π 2ABCDX
jklt
Como consecuencia de la hipótesis de independencia local, la anterior expresión
puede reescribirse de la siguiente forma:
Ω.Ajklt =
Π1AX
t
AX
Π2t
que significa que las ventajas relativas Ω.Ajklt correspondientes a la variable A están
afectadas únicamente por el nivel t de la variable X, pero no por los niveles ( j, k, l ) de
las restantes variables ( B, C, D ).
Goodman define a Ω.Ajklt como la “ventaja esperada”, al estar dicha cantidad en
- 249 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
ABCDX
función de las probabilidades esperadas4 Π ijklt
. De la misma forma, define la ventaja
de que un individuo se sitúe en el nivel 1 de la variable A en lugar de situarse en el nivel
2 de dicha variable, dado que dicho individuo pertenece a la clase t de la variable latente
X, de la siguiente forma:
Ω.tAX =
Π1AX
t
Π 2AXt
En consecuencia, se verifica que:
Ω.Ajklt = Ω.AX
t
Goodman demuestra que Ω.Ajklt puede expresarse también de la siguiente forma:
Ω.Ajklt = γ A × γ .AX
t
donde:
AX
γ A = Ω.AX
1 × Ω .2
γ .1AX = γ AX
γ .2AX =
4
1
γ AX
γ AX =
Ω.AX
1
Ω.AX
2
Goodman utiliza el término “ventaja esperada” para distinguir esta cantidad de la “ventaja observada”,
que depende de las proporciones observadas, aunque aclara también que, en sentido estricto, no existen
estas proporciones observadas, puesto que no es posible observar la proporción de individuos situados en
la clase t de la variable X y, por tanto, tampoco podrá observarse la proporción de individuos que se
sitúan en el nivel ( i, j, k, l, t ) de la variable conjunta ( A, B, C, D, X ). En este contexto, el término
“esperado” tiene el mismo significado que el que subyace en la proporción esperada Π ijkl o en la
frecuencia esperada
mijkl bajo determinadas hipótesis.
- 250 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Teniendo en cuenta las expresiones anteriores γ AX , que Goodman define como
el “efecto primario” de la variable X sobre la ventaja esperada Ω.Ajklt , el efecto de
interacción entre la variable observada A y la variable latente X vendrá dado por la
siguiente expresión:
γ AX =
AX
Π11AX × Π 22
AX
Π 21
× Π12AX
Por su parte, el efecto primario de la media global ( γ A ) podría expresarse en
función de las probabilidades condicionadas de la siguiente forma:
γA =
Π11AX × Π12AX
AX
AX
Π 21
× Π 22
Los valores estimados de las magnitudes γ A y γ AX se obtienen sustituyendo las
probabilidades condicionadas ΠitAX ( i = 1, 2; t = 1, 2 ) por las correspondientes
! AX ).
estimaciones máximo-verosímiles de las mismas ( Π
it
Finalmente, las cantidades γ A y γ AX pueden expresarse también en forma
aditiva tomando logaritmos. Así, los valores β A = log γ A y β AX = log γ AX representarán
el efecto primario y el efecto de interacción entre las variables A y X, respectivamente,
expresados en forma logarítmica.
- 251 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Las magnitudes estimadas β! AX pueden incluirse en las representaciones gráficas
de los modelos de clases latentes al objeto de cuantificar la intensidad de la asociación
entre la variable latente X y cada uno de los indicadores, tal y como muestra la Figura
5.1:
A
β! AX
B
β! BX
X
β! C X
β! D X
C
D
Figura 5.1
5.4. CONTRASTACIÓN DE LA BONDAD DE AJUSTE DEL MODELO ACL
GENERAL.
Al igual que el modelo log-lineal, la bondad de ajuste del modelo ACL puede
determinarse a través del test estadístico de Pearson ( X 2 ) o mediante el test estadístico
de la razón de verosimilitud ( G 2 ), pero, por las razones expuestas en capítulos
anteriores, se preferirá este último test al primero. En consecuencia, el modelo ACL
general se contrastará utilizando el siguiente test:
- 252 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
I
J
K
G 2 = 2 ∑ ∑ ∑ nijk log
i = 1 j = 1 k =1
nijk
m! ijk
donde nijk y m! ijk representan la frecuencia observada y la frecuencia esperada estimada,
respectivamente, de la casilla ( i, j, k ) de la tabla de contingencia. Como es sabido, G 2
sigue una distribución chi-cuadrado asintótica, siendo los grados de libertad de dicho
test, como se ha mencionado anteriormente, igual a IJK - [ (I+J+K-2)T-1 ].
En consecuencia, si G 2 ≤ χ (21− α ), IJK −[ ( I + J + K − 2 ) T −1 ] , se podrá admitir a un nivel de
significación α que el modelo ACL se ajusta de manera satisfactoria a los datos de la
tabla de contingencia, lo que equivale a admitir la hipótesis de la existencia de una clase
latente responsable de la asociación entre las variables manifiestas representadas en la
tabla. Si, por el contrario, G 2 > χ 2(1− α ), IJK −[ ( I + J + K − 2 ) T −1 ] , deberá rechazarse el modelo
ACL propuesto a un nivel de significación α , lo que implica afirmar que no es
necesaria ninguna variable latente para explicar las relaciones entre las variables
manifiestas de la tabla, puesto que, en este caso, éstas no estarían interrelacionadas.
Sin embargo, algunos problemas pueden plantearse cuando se contrasta la
bondad de ajuste del modelo ACL mediante el test G 2 . Así, cuando determinadas
estimaciones de los parámetros se encuentran en el límite de su espacio paramétrico5,
podría ocurrir que los correspondientes parámetros del modelo se encontrasen también
en dicho límite. En tal circunstancia, el test de la razón de verosimilitud ya no se
5
Es decir, las probabilidades estimadas son iguales a 0 o iguales a 1.
- 253 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
aproxima a una distribución chi-cuadrado, de forma que lo que habitualmente se hace en
estos casos es asumir que el parámetro cuyo valor estimado se encuentra en el límite de
su espacio paramétrico se restringe a ese valor a priori, con lo que se liberará un grado
de libertad que aumenta el número de grados de libertad del estadístico G 2 .
Otro problema es el que se plantea cuando se quieren contrastar hipótesis
relativas al número de clases de la variable latente. Así, para contrastar si el modelo que
mejor explica la relación entre las variables observadas es el modelo de dos o de tres
clases latentes, podría pensarse en calcular la diferencia entre los respectivos tests de
razón de verosimilitud y probar este estadístico con la diferencia entre los grados de
libertad asociados a los dos modelos. Sin embargo, esta práctica no es posible porque la
diferencia entre los dos valores G 2 no se distribuye asintóticamente como una chicuadrado, ya que el modelo de dos clases latentes puede considerarse en realidad como
una versión restringida del modelo de tres clases en el que una de las probabilidades de
clase latente es igual a 0, es decir, se supone que un parámetro del modelo tomará un
valor situado en el límite de su espacio paramétrico, con lo que se estaría en el caso
anteriormente comentado.
En cualquier caso, esto no significa que no sea posible contrastar determinadas
restricciones sobre los parámetros. Así, es factible probar si ciertos parámetros se
pueden restringir a un determinado valor, o si, por el contrario, dichos parámetros
pueden variar libremente.
- 254 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
5.5. ASIGNACIÓN DE INDIVIDUOS A CLASES LATENTES.
La razón de ser del modelo ACL es clasificar a los individuos estudiados en
diferentes tipos o clases al objeto de poder analizarlos con mayor profundidad y poder
establecer las posibles analogías y diferencias existentes entre los mismos. Puesto que
los individuos que poseen la misma modalidad de respuesta a las variables observadas
deben pertenecer a la misma clase latente, la asignación de individuos a dichas clases se
llevará a cabo modalidad a modalidad. En este sentido, la probabilidad de que un
individuo pertenezca a la clase t de la variable X, dado que ha respondido a las variables
categóricas observadas A, B y C en los niveles i, j y k, respectivamente, se calculará de
la siguiente forma:
ABCX
Π ijkt
=
ABCX
Π ijkt
T
∑Π
t =1
(5.17)
ABCX
ijkt
A partir de la anterior expresión, se calcula la contribución diferencial de cada
clase latente a cada una de las casillas de la tabla de contingencia, de manera que a los
individuos incluidos en una casilla determinada se les asignará aquella clase latente con
ABCX
la mayor probabilidad condicionada Πijkt
asociada a dicha modalidad de respuesta.
Por consiguiente, puesto que la asignación de clases se realiza en función de la
probabilidad modal, se puede afirmar que la asignación de los individuos a cada clase
latente tiene un carácter probabilístico, lo que supone la existencia de un cierto error en
- 255 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
este procedimiento. Por este motivo, algunos autores, como Clogg ( 1979, 1981 ), han
propuesto algunas medidas que calculan el error cometido al asignar clases latentes a los
individuos. Al mismo tiempo, estas medidas también permiten determinar el grado de
asociación entre la variable latente y las variables observadas. En concreto, las dos
medidas propuestas por Clogg ( 1979, 1981 ) fueron la “proporción correctamente
clasificada” y el coeficiente λ . La primera de estas medidas se calcula de la siguiente
forma:
I
J
K
(
ABCX
E1 = ∑ ∑ ∑ Πijkt
× pijk
*
i =1 j =1 k =1
)
ABCX
es la probabilidad modal de la casilla ( i, j, k ) de la tabla ( es decir,
donde Πijkt
*
ABCX
ABCX
, para t = 1, 2, ..., T ) y pijk es la proporción de individuos de la
Π ijkt
= max Π ijkt
*
t
población que se encuadra en dicha casilla. Cuanto mayor sea el valor de E1 , es decir,
cuanto más próximo a 1 se encuentre el mismo, más fuerte será la relación entre la
variable latente y el conjunto de variables observadas, lo que implica que a medida que
el valor de E1 es mayor, la asignación de clases a los individuos será más correcta.
Por su parte, el coeficiente λ se define de la siguiente forma:
λ=
E2 − E3
E2
donde E2 = 1 − Π tX′ es el porcentaje de error que resultaría de asignar todos los
individuos a la clase latente ( t ′ ) cuya probabilidad sea más alta, mientras que E3 es la
- 256 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
proporción de individuos incorrectamente clasificados, es decir:
I
J
K
(
)
ABCX
E3 = ∑ ∑ ∑ 1 − Πijkt
pijk = 1 − E1
*
i =1 j =1 k =1
Al igual que E1 , cuanto mayor sea el valor del coeficiente λ , mayor será la
intensidad de la relación entre la variable latente y las variables observadas.
Sustituyendo en las expresiones anteriores los parámetros poblacionales por sus
ABCX
! ABCX
estimaciones máximo-verosímiles ( esto es, sustituyendo Πijkt
por Π
; pijk por
*
ijkt *
p!ijk y Π tX′ por Π! tX′ ), se pueden obtener estimaciones muestrales tanto de la proporción
correctamente clasificada como del coeficiente λ , lo que permitirá tener una idea
aproximada del mayor o menor acierto en la asignación de clases latentes a los
individuos estudiados.
5.6.
ANÁLISIS
DE
CLASE
LATENTE
EXPLORATORIO
Y
CONFIRMATORIO.
El modelo ACL puede ser empleado como un método exploratorio cuando no
existe una teoría explícita sobre la naturaleza de los diferentes tipos o clases en que
puede clasificarse una población de individuos. Este análisis exploratorio debe
comenzar con la contrastación del modelo de independencia completa. Si dicho modelo
- 257 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
es aceptado, no existirá ningún tipo de interrelación entre las variables observadas, lo
que equivale a considerar que el modelo ACL posee únicamente una clase latente,
circunstancia que impediría, a su vez, definir una tipología de individuos en la
población. Si, por el contrario, el modelo de independencia completa se rechaza, será
posible identificar diferentes tipos o clases que proporcionen información relativa a la
conveniencia o inconveniencia de definir una teoría relativa a la población estudiada.
El número de clases latentes del modelo estará condicionado al hecho que el
número de grados de libertad necesarios para contrastar el modelo no sea negativo, es
decir, debe verificarse, en el supuesto de una tabla de contingencia IxJxKxL, que:
IJKL > ( I+J+K+L-3 )T
Así, por ejemplo, si las cuatro variables de la tabla de contingencia poseen tres
categorías ( I = J = K = L = 3 ), el modelo de clases latentes podrá definirse con un
mínimo de dos clases y con un máximo de ocho, ya que si T > 8 el modelo no estaría
identificado. Si las dos primeras variables son dicotómicas ( I = J = 2 ) y las dos
restantes variables poseen tres categorías ( K = L = 3 ), el número máximo de clases
latentes que pueden definirse será cinco. Finalmente, si todas las variables observadas
son dicotómicas, sólo podrá definirse el modelo ACL con dos o con tres clases latentes.
El análisis exploratorio no impone ningún tipo de restricciones sobre los valores
de los parámetros del modelo. Sin embargo, podrían contrastarse determinadas hipótesis
- 258 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
relativas tanto a las probabilidades condicionadas como a las probabilidades de clase
latente, imponiendo restricciones sobre dichos parámetros. En este caso, el análisis de
clase latente tendría un carácter confirmatorio, ya que permitiría al investigador
contrastar hipótesis relativas a la naturaleza de la variable latente6.
Con carácter general, pueden imponerse dos tipos de restricciones sobre los
parámetros del modelo: restricciones de igualdad y restricciones de valor. Las primeras
se utilizan para contrastar si dos o más probabilidades condicionadas o de clase latente
toman el mismo valor, mientras que las segundas contrastan si una probabilidad
condicionada o de clase latente es igual a un valor fijado a priori.
Así, ejemplos de restricciones de igualdad serían los derivados de postular las
siguientes hipótesis:
AX
AX
AX
H (1)
0 : Π i 1 = Π i 2 = " = Π iT
H (02 ) : ΠiX = Π Xj
para i , j = 1, 2, " , T i ≠ j
X
X
X
H (3)
0 : Π1 = Π 2 = " = Π T
Este tipo de restricciones no exige especificar previamente un valor de las
probabilidades condicionadas, como ocurre con las restricciones de valor, puesto que
6
En cualquier caso, hay que tener presente que las restricciones que se impongan al modelo ACL podrían
tener influencia sobre el propio modelo, por lo que el investigador debe tener cuidado de que las
probabilidades condicionadas no restringidas sigan sumando 1 y que ninguna casilla de la tabla tenga una
probabilidad esperada igual a 0 para todas y cada una de las clases de la variable latente.
- 259 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
aquellas simplemente pretenden contrastar la hipótesis de que la variable observada no
discrimina entre las diferentes clases de la variable latente. Sin embargo, estas
restricciones de igualdad no pueden afectar a todas las probabilidades condicionadas de
todas las clases latentes definidas en la población, puesto que en este caso lo que se
estaría contrastando en realidad sería que todas las clases latentes son idénticas, es decir,
que sólo existe una clase, y no varias. Como ya se ha apuntado con anterioridad, esta
hipótesis queda adecuadamente contrastada a través del modelo de independencia
completa.
La hipótesis H (01) establece que la probabilidad de que un individuo, que
pertenece a una clase determinada de la variable latente, responda en el nivel i de la
variable A es la misma para todas y cada una de las clases latentes.
La hipótesis H (02 ) indica que dos clases latentes diferentes de la variable X tienen
el mismo tamaño, por lo que la probabilidad de que un individuo pertenezca a una u otra
clase latente es la misma.
Finalmente, la hipótesis H (03) presupone la equiprobabilidad de todas las clases
de la variable latente, es decir, todas las clases latentes son del mismo tamaño. En este
caso, aunque se trata de una restricción de igualdad, la hipótesis debe contrastarse en
realidad imponiendo una restricción de valor a una de las probabilidades de clase latente
X
( por ejemplo, H (4)
0 : Π T = 0,2 ) y contrastando las siguientes restricciones de valor:
- 260 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
H (0m) : ΠiX = 0,2 ∀i = 1, 2, 3, 4
La necesidad de operar de esta forma se justifica por el hecho de que, al sumar 1
todas las probabilidades de clase latente, las restricciones de igualdad sobre las mismas
deben efectuarse únicamente sobre T-1 probabilidades de clase latente, ya que la última
probabilidad de clase latente se obtendrá a partir de los valores de las restantes T-1
probabilidades. Por otra parte, no podría plantearse esta hipótesis de la
forma
H (05) : Π1X = Π 2X = " = Π TX−1 , puesto que, en este caso, se estaría contrastando si la
totalidad de clases latentes a excepción de una son equiprobables, pero ello no garantiza
que la última probabilidad de clase latente ( Π TX ) sea igual a las T-1 probabilidades de
clase latente anteriores7.
Por su parte, las restricciones de valor permiten contrastar hipótesis
previamente definidas y relacionadas, por ejemplo, con la importancia de una variable
observada sobre las clases latentes, o con el tamaño relativo de una clase latente
concreta. En el primer caso, la restricción de valor se contrastraría mediante la siguiente
hipótesis:
H (06) : Π itAX = p donde 0 ≤ p ≤ 1
Así, en un modelo con T = 5 clases latentes, puede ocurrir que Π1X = Π 2X = Π 4X = Π 5X = 0,10 , lo que
significa que las clases 1, 2, 4 y 5 son equiprobables. Sin embargo, las 5 clases del modelo no tienen el
mismo tamaño, puesto que, en este caso, Π 3X = 0,60 .
7
- 261 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
es decir, suponiendo a priori que la probabilidad de que un individuo que pertenece a la
clase t de la variable latente X se sitúe en nivel i de la variable A será igual a un valor
determinado comprendido entre 0 y 1. Sin embargo, en la mayor parte de los casos este
tipo de restricciones suele plantearse de una de las dos formas siguientes:
a) H (07 ) : ΠitAX = 0
b) H (07 ) : ΠitAX = 1
En el caso a) sólo se está imponiendo una restricción, ya que las restantes
probabilidades condicionadas no están sometidas a ninguna restricción. Es decir, si se
desea contrastar si Π1AX
t = 0 , es evidente que las restantes I-1 probabilidades
condicionadas de la clase t de la variable X ( Π 2tAX , Π 3tAX , ..., Π ItAX ) no tendrán que
verificar ninguna restricción: simplemente la suma de todas ellas deberá ser igual a 1, es
I
decir,
∑Π
AX
it
= 1 . Por contra, en el caso b) se estará imponiendo una restricción de
i=2
valor a la totalidad de probabilidades condicionadas de la clase t referidas a la variable
observada A. En efecto, si se impone la restricción de que Π1AX
t = 1 , se estarán en
realidad imponiendo las restricciones siguientes:
AX
Π 2AXt = 0 ; Π 3AX
t = 0 ; ...; Π It = 0
Finalmente, este primer tipo de restricciones de valor se emplea también cuando
se quiere contrastar si, dentro de una clase latente determinada, las categorías de una
- 262 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
variable son equiprobables. Esto es, cuando se desea verificar si un individuo, que
pertenece a la clase t, tiene igual probabilidad de situarse en cualquier categoría del
indicador A, se podría plantear la siguiente hipótesis:
AX
AX
H (08) : Π1AX
t = Π 2 t = " = Π It
La anterior hipótesis, que en realidad es una hipótesis de igualdad, plantea los
mismos problemas que H (03) , con lo que la hipótesis de equiprobabilidad de las
categorías de una variable manifiesta debe efectuarse imponiendo las siguientes I
restricciones de valor:
H (09 ) : ΠitAX =
1
I
para i = 1, 2, " , I
El segundo tipo de restricciones de valor ( relacionadas con el tamaño relativo de
una clase latente concreta ) tiene menor utilidad en el ámbito de la investigación
económica, puesto que uno de los objetivos fundamentales del modelo ACL es
precisamente definir el número de clases subyacentes en la población e identificar el
tamaño relativo de cada una. Por tanto, puede afirmarse que las probabilidades de clase
latente tienen un carácter más exploratorio que confirmatorio. Por otro lado, hay que
considerar igualmente que no tiene ningún sentido plantear restricciones de valor sobre
las probabilidades de clase latente como las siguientes:
- 263 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
a) H (010) : Π tX = 0
b) H (011) : Π tX = 1
ya que el primer caso equivale a un modelo ACL en el que una de las clases realmente
no existe, es decir, el modelo ACL posee en realidad T-1 clases latentes. En
consecuencia, la contrastación de la hipótesis H (010 ) puede realizarse sin más que probar
la bondad de ajuste del modelo con T-1 clases a los datos recogidos en la tabla de
contingencia. El segundo caso equivale a un modelo ACL con una sola clase latente, por
lo que contrastar la hipótesis H (011) es lo mismo que probar el modelo de independencia
completa.
Tanto si se imponen restricciones de valor como si se imponen restricciones de
igualdad, el procedimiento de estimación por máxima verosimilitud quedará afectado
por el hecho de que uno o varios parámetros del modelo se fijan a priori, por lo que no
será necesario estimarlos. Esto provoca que en el proceso de estimación se liberen tantos
grados de libertad como parámetros se restrinjan. Estos grados de libertad liberados se
emplearán para determinar si el ajuste del modelo ACL mejora de forma sustancial al
introducir restricciones. Para ello, bastará comparar el ajuste del modelo ACL no
restringido mediante el estadístico G 2 con el ajuste del modelo ACL restringido
mediante el correspondiente estadístico G 2 que, en este caso, tendrá tantos grados de
libertad como parámetros no restringidos haya en el modelo. Si el incremento en el
valor de G 2 es pequeño en relación al incremento de los grados de libertad, podrá
admitirse que las restricciones impuestas al modelo han mejorado el ajuste del mismo a
- 264 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
los datos. Así, al contrastar la hipótesis H (01) se liberarán T grados de libertad, de forma
que si el estadístico G(21) posee IJK - ( I+J+K-2 )T para el modelo no restringido8, el
correspondiente valor para el modelo en el que se impone la hipótesis H (01) tendrá un
total de IJK - ( I+J+K-2 )T - T = IJK - ( I+J+K-1 )T grados de libertad. De esta forma, si
[
] [
P χ 2IJK − ( I + J + K − 2 ) T > G(21) < P χ 2IJK − ( I + J + K − 1) T > G(22 )
]
podrá admitirse que el modelo
restringido ha mejorado la bondad de ajuste del modelo, lo que llevaría a la aceptación
de la hipótesis H (01) .
5.7. ANÁLISIS DE ESTRUCTURA LATENTE SIMULTÁNEO.
Uno de los avances más recientes en los modelos de análisis latente ha sido la
utilización de los mismos en la comparación de varios grupos de individuos. Esta
variante del modelo ACL, bautizada por Clogg y Goodman ( 1985 ) como análisis de
estructura latente simultáneo permite comparar las estructuras latentes de diferentes
grupos de individuos cuando se pretende medir la misma magnitud en todos los grupos.
Como resulta obvio, esta misma técnica puede emplearse para estudiar la tendencia de la
estructura latente de una población cuando se consideran a los grupos como muestras
aleatorias independientes de una misma población, pero extraídas en diferentes períodos
de tiempo.
8
Y considerando una tabla de contingencia de dimensión IxJxK.
- 265 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Cuando se comparan dos grupos diferentes de individuos puede ocurrir que las
estructuras latentes de dichos grupos sean absolutamente heterogéneas, en el caso de que
las clases latentes de un grupo difieran no sólo en naturaleza sino también en número de
las clases latentes del otro grupo. Es evidente que, en este caso, las estructuras latentes
de dichos grupos son radicalmente diferentes.
El mayor interés en la comparación de estructuras latentes de diferentes grupos
recae en aquella situación en la que el número de clases latentes de los distintos grupos
es la misma y ninguna de las probabilidades condicionadas y de clase latente están
restringidas. En este último caso se estaría ante lo que Clogg y Goodman han
denominado el modelo heterogéneo no restringido de T clases, y su principal utilidad
consiste en determinar si el tamaño relativo de las clases latentes es el mismo en los
diferentes grupos y si las probabilidades condicionadas de una clase concreta son
similares en los diferentes grupos analizados.
Si se imponen restricciones de igualdad sobre algunas probabilidades
condicionadas de diversos grupos, Clogg y Goodman establecen que las estructuras
latentes de los grupos son parcialmente homogéneas, pero si estas restricciones de
igualdad se imponen sobre todos los parámetros de cada uno de los diferentes grupos
estudiados, se podrá afirmar que las estructuras latentes de los diferentes grupos son
homogéneas.
- 266 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Para introducir el modelo de estructura latente simultáneo, se considerará que se
observan tres variables categóricas ( que se designarán por A, B y C ) en más de un
grupo. Por otra parte, se definirá también una variable de grupo, a la que llamaremos G,
de forma que dicha variable tendrá tantas categorías como grupos se analicen. Se
supondrá también que se pretende confirmar la existencia de una única variable latente
X con T clases en todos y cada uno de los grupos estudiados.
Considerando que la variable G posee un total de S categorías, los datos iniciales
de este análisis podrán representarse en S tablas de contingencia de dimensión IxJxK, de
forma que en cada una de ellas se recogerá el número observado de individuos que se
sitúan en los niveles i, j y k de las variables categóricas A, B y C, respectivamente, en
cada uno de los S grupos considerados.
De esta forma, la proporción de individuos de la población encuadrados en el
grupo s se puede calcular sumando las probabilidades asociadas a todas las modalidades
de respuesta ( i, j, k ) de la s-ésima tabla de contingencia, es decir:
I
J
K
ABCG
Π Gs = ∑ ∑ ∑ Π ijks
(5.18)
i =1 j =1 k =1
ABCG
representa la probabilidad de que un individuo se sitúe en los niveles i, j y
donde Πijks
k de las variables A, B y C, y pertenezca al grupo s. De otra parte, debe también
verificarse lo siguiente:
- 267 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
S
∑Π
=1
G
s
(5.19)
s =1
por lo que la probabilidad condicionada de que un individuo, que pertenece al grupo s,
se sitúe en la casilla ( i, j, k ) de la tabla de contingencia vendrá dada por:
Π
ABC G
ijks
=
ABCG
Π ijks
(5.20)
Π Gs
Esta probabilidad puede calcularse también como la suma de las probabilidades
condicionadas de situarse en el nivel ( i, j, k, t ) de las variables observadas y de la
variable latente para todas las clases de la variable X, es decir:
T
ABC G
ABC GX
Πijks
= ∑ Πijkst
(5.21)
t =1
siendo
ABC GX
Π ijkst
= ΠistAGX × Π BGX
× Π CkstGX × Π GX
jst
st , donde
Π istAGX
es la probabilidad
condicionada de que un individuo perteneciente al grupo s y encuadrado en la clase t de
la variable latente, se sitúe en el nivel i de la variable observada A9, mientras que Π GX
st
es la probabilidad de clase latente condicionada de que un individuo, que pertenece al
grupo s, se sitúe en la clase t de la variable latente.
Es evidente que, dentro de cada grupo, la suma de todas las probabilidades de
clase latente condicionadas debe ser igual a 1, es decir:
9
Las probabilidades condicionadas
C GX
AGX
Π BGX
y Π kst se definen de forma similar a Π ist .
jst
- 268 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
T
∑ Π GX
st
=1
t =1
De igual forma, dentro de cada clase latente y de cada uno de los grupos, la suma
de todas las probabilidades condicionadas asociadas a cada una de las variables
observadas también es igual a 1:
I
∑Π
i =1
AGX
ist
=1
J
∑Π
BGX
jst
K
∑Π
=1
j =1
C GX
kst
=1
k =1
En cada uno de los S grupos considerados habrá que estimar (T-1)
probabilidades de clase latente y T(I-1) + T(J-1) + T(K-1) probabilidades condicionadas,
por lo que el número total de parámetros a estimar en el modelo heterogéneo no
restringido de T clases será S [ (T-1) + T(I-1) + T(J-1) + T(K-1) ] = S [ (I+J+K-2)T - 1].
Expresado en otros términos, el modelo de estructura latente simultáneo requiere
la estimación de S(T-1) clases latentes y de S(T-1) probabilidades condicionadas para
cada nivel de las variables observadas10. Con carácter general, cuando se estima un
Las estimaciones máximo-verosímiles de las probabilidades de clase latente condicionadas ( Π GX
) se
st
obtendrán mediante la siguiente expresión:
! GX
! GX
! GX = Π st = Π st
Π
st
T
!G
Π
s
! GX
Π
st
10
∑
t =1
! GX es la estimación máximo-verosímil de la probabilidad ( de clase latente ) de que un individuo
donde Π
st
! G es la estimación por máxima
pertenezca al grupo s y a la clase t de la variable X, mientras que Π
s
verosimilitud de la proporción de individuos que pertenecen al grupo s.
- 269 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
modelo de estructura latente simultáneo de T clases para un total de S grupos, el primer
conjunto de T clases latentes ( 1, 2, ..., T ) se refiere al primer grupo; el siguiente
conjunto de T clases latentes ( T+1, T+2, ..., 2T ) se refiere al segundo grupo, y así
sucesivamente hasta el último conjunto de T clases [ (S-1)T+1, (S-1)T+2, ..., ST ], el
cual se referirá al grupo s-ésimo.
Para obtener las ecuaciones de verosimilitud, Clogg y Goodman ( 1984 )
proponen una reformulación del modelo de estructura latente simultáneo, que lo
transforma en un modelo de clases latentes general. En concreto, estos autores definen
una variable Y = G x X, que es, en realidad, la clasificación cruzada de la variable de
grupo ( G ) y de la variable latente ( X ). Puesto que la variable X es latente, la variable
Y también lo será, de manera que esta última tendrá un total de U = ST niveles. De
acuerdo con lo anterior, la relación entre el nivel u de la variable Y y los niveles ( s, t )
de la variable G x X será la siguiente:
u = ( s − 1)T + t
Si se agrupa toda la información recogida en las S tablas de contingencia de
dimensión IxJxK en una única tabla de dimensión IxJxKxS, podría definirse el siguiente
modelo de clases latentes general:
U
ABCG
ABCGY
Π ijks
= ∑ Π ijksu
u =1
- 270 -
(5.22)
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
donde:
ABCGY
CY
GY
Πijksu
= ΠYu × ΠiuAY × Π BY
ju × Π ku × Π su
(5.23)
ABCGY
siendo Πijksu
la probabilidad conjunta de que un individuo se sitúe en los niveles i, j y
k, respectivamente, de las variables observadas A, B y C; pertenezca al grupo s y se sitúe
en el nivel u de la variable latente Y; ΠYu es la probabilidad de que un individuo
pertenezca a la categoría u de la variable Y; ΠiuAY es la probabilidad condicionada de
que un individuo, que se sitúa en el nivel u de Y, responda a la variable A en la
CY
); y Π GsuY es la probabilidad
categoría i ( de forma similar se definen Π BY
ju y Π ku
condicionada de que un individuo, que se encuadra en la categoría u de Y, pertenezca al
grupo s.
El modelo de U clases latentes se relaciona con el modelo de estructura latente
simultáneo mediante las siguientes restricciones, las cuales son una consecuencia de la
relación entre las variables G e Y ( Y = G x X ):
Π GsuY = 1 para u = ( s − 1)T + t
t = 1, 2, " , T
Π GsuY = 0 en otro caso
(5.24)
Estas restricciones implican que los individuos del primer conjunto de T clases
latentes ( u = 1, 2, ..., T ) tendrán un 100 % de probabilidad de pertenecer al primer
grupo y un 0 % de probabilidad de pertenecer a otro grupo; los individuos del segundo
- 271 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
conjunto de T clases ( u = T+1, T+2, 2T ) tendrán un 100 % de probabilidad de
pertenecer al segundo grupo; y así sucesivamente hasta el último grupo, de forma que
los individuos del último conjunto de T clases ( u = (S-1)T+1, (S-1)T+2, ..., ST )
tendrán una probabilidad del 100 % de pertenecer al grupo S-ésimo.
El anterior conjunto de restricciones hace posible que se verifique la siguiente
equivalencia entre el modelo de estructura latente simultáneo y este modelo general de
U clases latentes:
ΠiuAY = ΠistAGX
(5.25)
BGX
Π BY
ju = Π jst
(5.26)
Π CkuY = Π CkstGX
(5.27)
G
Π Yu = Π GX
st × Π s
(5.28)
Las probabilidades ΠYu anteriores verifican además las restricciones siguientes:
sT
∑Π
Y
u
u = ( s − 1) T + 1
= Π Gs
para s = 1, 2, ", S
(5.29)
Así pues, en síntesis, un modelo de estructura latente simultáneo con T clases
para S grupos y con “m” variables observadas puede expresarse como un modelo
general de ST clases latentes asociado a una tabla de contingencia (m+1)-dimensional,
teniendo en cuenta simplemente las restricciones determinísticas dadas por (5.24), las
- 272 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
relaciones dadas por las expresiones (5.25) a (5.28) y las restricciones sobre las
proporciones de clases latentes dadas por (5.29).
! BY y
!Y, Π
! AY , Π
Partiendo de esta reformulación del modelo, designando por Π
u
iu
ju
! C Y a las estimaciones máximo-verosímiles de los parámetros del modelo, y definiendo
Π
ku
a pijks como la proporción observada de individuos en la casilla ( i, j, k, s ) de la tabla de
contingencia de dimensión IxJxKxS, Clogg y Goodman ( 1984 ) demuestran que las
anteriores estimaciones máximo-verosímiles satisfacen el siguiente sistema de
ecuaciones:
J
K
S
∑∑∑ p
ijks
! AY =
Π
iu
! ABCGY
Π
ijksu
j = 1 k = 1 s =1
!Y
Π
u
I
K
S
∑∑∑ p
ijks
! BY =
Π
ju
i =1 k =1 s =1
I
J
!Y
Π
u
S
∑∑∑ p
ijks
! CY =
Π
ku
! ABCGY
Π
ijksu
! ABCGY
Π
ijksu
i = 1 j = 1 s =1
!Y
Π
u
I
J
K
S
! Y = ∑∑∑∑ p Π
! ABCGY
Π
u
ijks
ijksu
i =1 j =1 k =1 s =1
sT
∑ Π!
Y
u
u = ( s − 1) T + 1
!G
=Π
s
! ABCGY es la probabilidad condicionada estimada de que un individuo, que se ha
donde Π
ijksu
situado en la casilla ( i, j, k, s ) de la tabla de contingencia, se encuadre en la categoría u
de la variable Y, la cual viene dada por la siguiente expresión:
- 273 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
! ABCGY Π
!Y ×Π
! AY × Π
! BY × Π
! CY × Π
! GY
Π
ijksu
u
iu
ju
ku
su
ABCGY
!
Π ijksu = ! ABCG =
U
Πijks
ABCGY
∑ Π! ijksu
u =1
! G es la estimación máximo-verosímil de la proporción de individuos que
y donde Π
s
pertenecen al grupo s, de forma que se verifica lo siguiente:
I
J
K
! G = ∑∑∑ p = p
Π
... s
s
ijks
i =1 j =1 k =1
siendo p...s la proporción observada de individuos en el grupo s-ésimo.
Empleando el mismo proceso iterativo que para el modelo ACL general ( esto es,
! BY , Π
! AY , Π
! CY y Π
! G Y ( y, de
el algoritmo EM ), se pueden obtener las estimaciones Π
iu
ju
ku
su
! BGX , Π
! AGX , Π
! C GX y Π
! GX ) al solucionar el anterior sistema de
forma equivalente, Π
ist
jst
kst
st
ecuaciones de verosimilitud.
Para determinar la identificabilidad local del modelo, se puede definir un vector
P de parámetros no redundantes del modelo y un vector Π de probabilidades asociadas
a las casillas de la tabla de contingencia. Definiendo una matriz M en la que el elemento
( v, w ) de la misma es la derivada parcial del v-ésimo elemento del vector Π con
respecto al w-ésimo elemento del vector P, una condición necesaria para que exista
identificabilidad local es que S( IJK-1 ) ≥ S [ (I+J+K-2)T-1 ], mientras que la condición
- 274 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
necesaria y suficiente para que exista identificabilidad local es que el rango de la matriz
! 11 coincida con el número de columnas de la misma, es decir:
M
! ) = S [(I + J + K - 2)T -1]
r( M
Por otro lado, cuando en el modelo de estructura latente simultáneo se imponen
restricciones de homogeneidad, las anteriores ecuaciones de verosimilitud también se
verifican aunque, en este caso, habrá que introducir restricciones adicionales. De hecho,
imponer restricciones sobre los parámetros de un modelo de estructura latente
simultáneo plantea realmente los mismos problemas que la imposición de restricciones
sobre el modelo general de clases latentes asociado a la tabla (m+1)-dimensional.
Simplemente habría que tener en cuenta que las restricciones impuestas a los parámetros
Π Gst X pueden convertirse en restricciones sobre los parámetros ΠYu . Así, por ejemplo, la
restricción Π
GX
11
=Π
GX
21
Π1Y ΠYT + 1
es equivalente a la restricción G = G .
Π1
Π2
Por otra parte, cuando se imponen “r” restricciones sobre el modelo, hay que
tener en cuenta, a la hora de determinar la identificabilidad local del mismo, que el
vector P se modifica, eliminándose aquellos elementos que sean redundantes, de forma
que el número de columnas de la matriz M también quedará reducido. En consecuencia,
la condición de identificabilidad local sería en este caso la siguiente:
Puesto que los elementos de los vectores P y Π y, por consiguiente, los de la matriz M, son
desconocidos, será necesario sustituir dichos elementos por sus estimaciones máximo-verosímiles,
! y la matriz M
! .
obteniéndose de esta forma los vectores P! , Π
11
- 275 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
! ) = S[(I + J + K - 2)T - 1] − r
r (M
de forma que cuando los parámetros del modelo están localmente identificados, el
número de grados de libertad necesarios para contrastar la bondad del mismo vendrá
dado por S[ IJK - (I+J+K-2)T ] + r. Si, por el contrario, los parámetros del modelo no
! para
están localmente identificados, se podría utilizar el rango de la matriz M
determinar el número de restricciones adicionales que hay que imponer para conseguir
que el modelo en cuestión esté localmente identificado.
En otro orden de cosas, en relación a la dimensión de los grupos analizados hay
que considerar que si estos grupos son de distinto tamaño ( esto es, cuando
Π1G ≠ Π G2 ≠ " ≠ Π GS ), por lo general las probabilidades de clase latente condicionadas
son más adecuadas para establecer comparaciones entre grupos sobre la
Π GX
st
distribución relativa de los individuos en cada una de las T clases, que las
probabilidades de clase latente Π GX
st . Sin embargo, a pesar de que tanto las
C GX
) como las probabilidades de clase
probabilidades condicionadas ( Π istAGX , Π BGX
jst , Π kst
latente condicionadas ( Π GX
) sean muy similares, el modelo de estructura latente
st
simultáneo no permite afirmar con total certeza que las clases de un grupo ( tanto en
naturaleza como en tamaño ) sean iguales a las clases de otro grupo. En este caso, será
necesario imponer determinadas restricciones de igualdad intergrupales sobre las
probabilidades condicionadas o sobre las probabilidades de clase latente condicionadas,
dando lugar a lo que Clogg y Goodman ( 1984 ) han denominado modelos de
homogeneidad.
- 276 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
5.8. MODELOS DE HOMOGENEIDAD.
A partir del modelo de estructura latente simultáneo, se pueden imponer
cualquier tipo de restricciones sobre sus parámetros, de forma que dichas restricciones
pueden establecerse dentro de un mismo grupo o entre diferentes grupos. Así, ejemplos
de restricciones intragrupales podrían ser las siguientes:
GX
GX
GX
H (12)
0 : Π s1 = Π s 2 = " = Π sT
AGX
AGX
= Π1AGX
H (13)
0 : Π1s1
s 2 = " = Π1sT
AGX
AGX
= Π 2AGX
H (14)
0 : Π1s1
s1 = " = Π Is1
H (12)
establece que las probabilidades de clase latente condicionadas son iguales
0
para todas las clases latentes del grupo s, es decir, que las clases latentes del grupo s son
todas de igual tamaño. H (13)
significa que la probabilidad condicionada de que un
0
individuo perteneciente al grupo s se sitúe en el nivel 1 de la variable observada A es la
implica
misma para todas y cada una de las clases latentes del grupo s. Por último, H (14)
0
que la probabilidad condicionada de que un individuo, que pertenece al grupo s y que se
encuadra en una clase latente determinada ( clase 1 ), se sitúe en un nivel particular de la
variable A es la misma para la totalidad de niveles de la citada variable.
Por su parte, los siguientes ejemplos representan restricciones intergrupales:
- 277 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
GX
GX
GX
H (15)
0 : Π11 = Π 21 = " = Π S 1
AGX
AGX
AGX
H (16)
0 : Π 212 = Π 222 = " = Π 2 S 2
significa que las probabilidades de clase latente condicionadas asociadas a
H (15)
0
una clase concreta ( clase 1 ) son iguales para los S grupos analizados, esto es, que el
tamaño relativo de la clase latente 1 es el mismo en todos los grupos. H (16)
indica que la
0
probabilidad condicionada de que un individuo que pertenece a una clase latente
determinada ( clase 2 ) se sitúe en el nivel 2 de la variable observada A es idéntica para
los S grupos objeto de análisis.
Podrían incluso definirse modelos que incluyan combinaciones de restricciones
intragrupales y de restricciones intergrupales.
Clogg y Goodman ( 1984 ) denominan a las restricciones intergrupales como
restricciones de homogeneidad, mientras que a las restricciones intragrupales las
denominan simplemente restricciones. Cuando en un modelo de estructura latente
simultáneo no se establece ninguna restricción de homogeneidad, Clogg y Goodman
hablan de un modelo de heterogeneidad completa. Sin embargo, cuando una o varias
restricciones de homogeneidad se imponen en el modelo simultáneo aparece el modelo
de homogeneidad parcial o el modelo de homogeneidad completa.
- 278 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Un modelo de homogeneidad parcial es aquel en el que se imponen restricciones
únicamente sobre determinados parámetros del modelo simultáneo. Así, podrían
formularse, entre otros muchos, los siguientes modelos de homogeneidad parcial:
- Modelo de homogeneidad parcial M1 ( homogeneidad en clases latentes ): se
obtiene cuando la hipótesis H (15)
se establece para la totalidad de clases latentes de la
0
variable X, es decir:
GX
GX
Π1GX
t = Π 2 t = " = Π St
para t = 1, 2, " , T
(5.30)
Este modelo significa que las T probabilidades de clase latente condicionadas
son homogéneas entre los S grupos considerados.
- Modelo de homogeneidad parcial M2 ( homogeneidad en probabilidades
se impone para todas las categorías de
condicionadas ): surge cuando la hipótesis H (16)
0
la variable A y para todas las clases latentes de la variable X, esto es:
AGX
= Π iAGX
= " = ΠiSt
ΠiAGX
1t
2t
para i = 1, 2, " , I ; t = 1, 2, " , T
(5.31)
Según señalan Clogg y Goodman, este modelo de homogeneidad parcial
significa que la variable categórica A es un indicador de la variable latente X igualmente
fiable en cada grupo.
- 279 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
- Modelo de homogeneidad parcial M3: este modelo es similar al anterior, pero
referido, en este caso, a la variable observada B:
BGX
Π BGX
= Π BGX
j 1t
j 2 t = " = Π jSt
para j = 1, 2, " , J ; t = 1, 2, " , T
(5.32)
- Modelo de homogeneidad parcial12 M4: se define igual que M2, pero referido,
en esta ocasión, a la variable categórica C:
C GX
C GX
Π Ck 1GX
t = Π k 2 t = " = Π kSt
para k = 1, 2, ", K ; t = 1, 2, ", T
(5.33)
En cualquier caso, cualquier combinación o subconjunto de las restricciones de
homogeneidad impuestas en cada uno de los modelos M1 a M4 daría lugar igualmente a
nuevos modelos de homogeneidad parcial.
Por su parte, un modelo de homogeneidad completa sólo es posible cuando las
restricciones de homogeneidad se imponen a todas las probabilidades condicionadas y a
todas las probabilidades de clase latente condicionadas del modelo simultáneo. En el
caso que nos ocupa, este modelo de homogeneidad completa exige imponer
12
Además del modelo de homogeneidad parcial que incluye restricciones de homogeneidad sobre las
probabilidades de clase latente condicionadas ( modelo M1 ), se han definido tantos modelos de
homogeneidad parcial con restricciones sobre las probabilidades condicionadas como variables
categóricas observadas se consideren ( en este caso, las tres variables observadas A, B y C generan la
existencia de los modelos de homogeneidad parcial M2, M3 y M4 ). En consecuencia, si se considerasen
cinco variables observadas, podrían definirse cinco modelos de homogeneidad parcial que incluyan
restricciones sobre las probabilidades condicionadas; se podrían definir seis modelos si se considerasen
seis variables observadas, y así sucesivamente.
- 280 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
simultáneamente las restricciones (5.30) a (5.33). La aceptación de este modelo
significaría admitir que las estructuras latentes de todos los grupos es idéntica, ya que no
sólo serán iguales los tamaños relativos de las clases latentes para todos los grupos
analizados ( esto es, iguales probabilidades de clase latente condicionadas ) sino que
también la naturaleza de cada clase es idéntica para la totalidad de grupos ( es decir,
probabilidades condicionadas iguales ). En consecuencia, este modelo implica
homogeneidad tanto en las clases latentes como en las probabilidades condicionadas.
Designando por G 2 ( M 0 ) al valor del test estadístico de la razón de verosimilitud
del modelo de estructura latente simultáneo ( que podría representarse por M 0 ) y por
G 2 ( M1 ) , G 2 ( M 2 ) , G 2 ( M 3 ) y G 2 ( M 4 ) al valor del estadístico de la razón de
verosimilitud de los modelos restringidos M1, M2, M3 y M4, respectivamente, se puede
contrastar
la
validez
de
las
restricciones
impuestas
calculando
el
test
G 2 ( Mi M 0 ) = G 2 ( Mi ) − G 2 ( M 0 ) ( para i = 1, 2, 3, 4 ) y comparando la probabilidad
[
]
P χ 2ui > G 2 ( Mi M 0 ) = p , donde ui es la diferencia entre los grados de libertad de los
tests G 2 ( Mi ) y G 2 ( M 0 ) , dado un nivel de significación α . Si p > α , podrá admitirse
que la inclusión de restricciones en el modelo simultáneo ha contribuido a la mejora del
ajuste de dicho modelo, lo que implicaría, en consecuencia, la aceptación de las
hipótesis que representan las restricciones impuestas.
Hay que tener presente, en cualquier caso, que cuando se imponen
simultáneamente varias restricciones se liberan varios grados de libertad, lo que podría
- 281 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
llevar a una mejora sustancial del ajuste y a la consiguiente aceptación de la totalidad de
las restricciones impuestas, cuando en realidad esta mejora del ajuste puede estar
ocultando restricciones inaceptables. En estos casos, es mucho más conveniente
reestimar el modelo inicial con un menor número de restricciones, para garantizar que
todas y cada una de las restricciones impuestas son aceptables a nivel individual.
5.9. MODELOS CON MÚLTIPLES VARIABLES LATENTES.
Hasta el momento, se ha supuesto que las relaciones entre un conjunto de
variables observadas o manifiestas pueden ser explicadas mediante una única variable
latente discreta. Sin embargo, el modelo ACL se puede generalizar al caso en el que las
relaciones entre las variables sean explicadas por más de una variable latente. Para
modelos con múltiples variables latentes, es necesario imponer determinadas
restricciones adicionales a las probabilidades condicionadas al objeto de definir
correctamente las relaciones entre las variables latentes y los indicadores.
La formulación de este tipo de modelos es debida a Goodman ( 1974 ), el cual
demostró cómo se estiman los parámetros de un modelo con dos variables latentes. Para
introducir este tipo de modelos, se considerarán un total de cuatro variables observadas,
A, B, C y D que poseen I, J, K y L categorías, respectivamente, y dos variables latentes
Y y Z, de forma que la variable Y posee G clases, mientras que la variable Z posee un
total de R clases latentes. La relación de dependencia entre estas cuatro variables
- 282 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
observadas y las dos variables latentes puede representarse mediante la Figura 5.2, que
establece que la relación entre las variables A y C está explicada por la variable latente
Y, y que las variables B y D están relacionadas entre sí a través de la variable latente Z,
de forma que las cuatro variables manifiestas no interactúan entre sí, sino que están
asociadas a la variable latente respectiva. Sin embargo, existe una dependencia
estadística entre las dos variables latentes.
Z
Y
A
C
B
D
Figura 5.2
Representación gráfica de un modelo ACL con cuatro variables observadas
y dos variables latentes
Sea ΠYg la probabilidad de que un individuo pertenezca a la clase g de la variable
latente Y ( g = 1, 2, ..., G ) y sea Π rZ la probabilidad de que un individuo pertenezca a la
clase r de la variable latente Z ( r = 1, 2, ..., R ). Podría también definirse ΠYZ
gr como la
probabilidad de que un individuo se sitúe en el nivel (g,r) de la variable conjunta (Y,Z),
de forma que las probabilidades ΠYg y Π rZ podrían obtenerse a partir de ΠYZ
gr de la
siguiente forma:
R
Π Yg = ∑ ΠYZ
gr
r =1
- 283 -
(5.34)
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
G
Π rZ = ∑ Π YZ
gr
g =1
(5.35)
Dado que un individuo está situado en el nivel (g,r) de la variable conjunta
AYZ
(Y,Z), Πigr
representará la probabilidad condicionada de que dicho individuo se sitúe
en el nivel i de la variable observada A. Por su parte, las probabilidades condicionadas
DYZ
se definen de forma similar.
Π BjgrYZ , Π CkgrYZ y Π lgr
AYZ
y Π CkgrYZ dependen únicamente
Puesto que las probabilidades condicionadas Π igr
del nivel g de la variable Y ( pero no del nivel r de la variable Z ) y que las
DYZ
probabilidades condicionadas Π BjgrYZ y Π lgr
dependen exclusivamente del nivel r de la
variable Z ( pero no del nivel g de la variable Y ), es necesario imponer las siguientes
restricciones adicionales:
AYZ
AYZ
AY
ΠigAYZ
1 = Π ig 2 = " = Π igr = Π ig
para i = 1, 2, " , ( I − 1) ; g = 1, 2, " , G
Π CkgYZ1 = Π CkgYZ2 = " = Π CkgrYZ = Π CkgY
para k = 1, 2, " , ( K − 1) ; g = 1, 2, " , G
BZ
Π Bj1YZr = Π Bj 2YZr = " = Π BYZ
jgr = Π jr
para j = 1, 2, " , ( J − 1) ; r = 1, 2, " , R
DYZ
D YZ
DZ
Π lDYZ
1r = Π l 2 r = " = Π lgr = Π lr
para l = 1, 2, ", ( L − 1) ; r = 1, 2, ", R
Las dos primeras restricciones establecen que la probabilidad de responder a las
variables A y C en las categorías i y k, respectivamente, es la misma para todas las
clases de la variable latente Z, dada la condición de que la variable latente Y se
- 284 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
mantiene constante. Por su parte, las dos últimas restricciones señalan que la
probabilidad de responder a las variables B y D en las categorías j y l, respectivamente,
es la misma para todas las clases de la variable latente Y, dada la condición de que la
variable latente Z se mantiene constante. En suma, las restricciones anteriores vienen a
garantizar que las probabilidades condicionadas correspondientes a las variables A y C
varíen únicamente con la variable latente Y, y que las probabilidades condicionadas
correspondientes a las variables B y D varíen únicamente con la variable latente Z. De
esta forma, un modelo con dos variables latentes puede reformularse combinando las
dos variables latentes Y y Z en una nueva variable latente X con un total de GxR clases,
con lo que cada probabilidad de clase latente ΠYZ
gr equivaldrá a la probabilidad de clase
latente Π tX donde t = 1, 2, ..., GR.
En consecuencia, si las anteriores restricciones de igualdad se imponen sobre la
nueva variable latente conjunta X de forma adecuada, el modelo con dos variables
latentes puede estimarse como un modelo de clases latentes restringido. Para reformular
las citadas restricciones de igualdad, bastará considerar que a la clase t de la variable X
le corresponde el nivel (g,r) de la variable latente conjunta (Y,Z) mediante la siguiente
relación: t = ( g − 1) R + r . Así, si tanto la variable Y como la variable Z poseen
únicamente dos clases latentes cada una ( G = R = 2 ), la nueva variable X tendrá un
total de cuatro clases latentes, de forma que se asociará t = 1 al par de valores (1,1); t = 2
al par (1,2); t = 3 al par (2,1) y, finalmente, t = 4 al par (2,2). En este caso particular, las
restricciones anteriores deberán reformularse de la siguiente forma:
- 285 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
AX
i1
Π
=Π
Π
CX
k1
=Π
CX
k2
Π
BX
j1
=Π
AX
i2
para g = 1
para i = 1, 2, " , ( I − 1)
Π
para g = 2
para i = 1, 2, " , ( I − 1)
AX
i3
=Π
= Π Ck 4X
para k = 1, 2, " , ( K − 1)
=Π
BX
j4
para r = 2
para j = 1, 2, " , ( J − 1)
DX
Π lDX
2 = Πl 2
para l = 1, 2, " , ( L − 1)
para k = 1, 2, " , ( K − 1)
Π
CX
k3
BX
j3
para r = 1
para j = 1, 2, " , ( J − 1)
Π
BX
j2
DX
Π lDX
1 = Πl 3
para l = 1, 2, " , ( L − 1)
AX
i4
A partir de este caso particular, la generalización de las restricciones de igualdad
que deben imponerse en el modelo con dos variables latentes al caso en el que tanto G
como R sean mayor que dos es, como fácilmente puede comprobarse, inmediata.
Un modelo con dos variables latentes puede formularse de forma alternativa en
términos de un modelo log-lineal en el que algunas de las variables no son observadas
de una forma directa. Así, el modelo representado en la Figura 5.2 podría expresarse en
términos del modelo log-lineal de la siguiente forma:
ABCDYZ
BZ
DZ
YZ
log mijklgr
= τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ Yg + τ rZ + τ igAY + τ CY
kg + τ jr + τ lr + τ gr (5.36)
En esta formulación, es fundamental que el efecto de interacción entre las dos
variables latentes, es decir, τYZ
gr sea significativamente distinto de cero, puesto que si
dicho efecto fuese nulo, se estaría ante dos modelos con una sola variable latente cada
uno, y no ante un modelo con dos variables latentes. Pues bien, de forma similar a la
estimación del efecto de interacción entre la variable latente y cada una de las variables
- 286 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
observadas en un modelo con una sola variable latente, es posible estimar aquí el efecto
de interacción entre las variables Y y Z. Así, si tanto la variable Y como la variable Z
poseen dos clases latentes cada una ( G = R = 2 ), el efecto de interacción estimado entre
ambas variables se calcularía a través de la siguiente expresión:
 Π
! YZ × Π
! YZ
11
22
β! YZ = log γ! YZ = log 
YZ
YZ
!
!
Π
×
Π

12
21



De esta forma, sólo si β! YZ es significativamente distinto de cero, podrá admitirse
un modelo con dos variables latentes.
La generalización del modelo con dos variables latentes a situaciones en las que
existan más de dos variables latentes es inmediata, pero en este caso debe asumirse que
todas las variables latentes interactúan mútuamente, lo que implica la existencia de un
modelo log-lineal saturado13 asociado a la tabla de contingencia marginal formada por
todas las variables latentes del modelo.
Un ejemplo de la anterior generalización es el modelo representado en la Figura
5.3, donde se observan un total de cuatro variables latentes ( V, X, Y, Z ) y ocho
variables manifiestas ( Ai, i = 1, 2, ..., 8 ). Cada variable latente se relaciona únicamente
13
O, al menos, que incluya todos los efectos de interacción existentes entre las variables latentes del
modelo.
- 287 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
con dos variables observadas, pero las cuatro variables latentes están mútuamente
relacionadas.
A1
V
A5
X
A2
A6
A3
A7
Y
A4
Z
A8
Figura 5.3
Otra forma de generalizar un modelo con dos variables latentes es considerar que
una o varias variables observadas dependen de más de una variable latente, situación
que recoge la Figura 5.4, en la que el indicador B depende tanto de la variable latente Y
como de la variable latente Z.
Y
A
Z
B
C
Figura 5.4
El modelo anterior podría expresarse en términos logarítmicos de la siguiente
forma:
BZ
CZ
YZ
log mijkgr = τ 0 + τiA + τ Bj + τ Ck + τYg + τ rZ + τ igAY + τ BY
jg + τ jr + τ kr + τ gr
- 288 -
(5.37)
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
La mayor dificultad de este tipo de modelos estriba en su formulación mediante
probabilidades condicionadas, aunque Hagenaars ( 1990 ) ha demostrado cómo se
pueden estimar estos modelos utilizando la formulación empleada por Goodman, es
decir, la formulación en términos de probabilidades condicionadas.
En otro orden de cosas, en múltiples ocasiones el análisis estadístico no
finalizará detectando una posible estructura latente, sino que será conveniente extender
dicho análisis a las relaciones entre las variables latentes teóricamente relevantes del
modelo y a otras variables externas al mismo. Si estas variables externas son latentes, se
estará ante los modelos de estructura latente anteriormente abordados, pero si dichas
variables externas son observadas, surgirán estructuras latentes distintas a las
comentadas.
Así, cuando se pretende medir una variable latente X mediante cuatro variables
observadas A, B, C y D, y se supone la existencia de una variable externa E que
interactúa con la variable latente X ( véase la Figura 5.5 ), dicho modelo puede
expresarse en forma logarítmica como sigue:
ABCDXE
CX
DX
log mijklte
= τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ tX + τ eE + τitAX + τ BX
+ τ teXE
jt + τ kt + τ lt
(5.38)
Como puede observarse, aunque la variable E posee un status conceptualmente
diferente al del resto de las variables observadas ( ya que la variable E no se ha
empleado para medir la variable latente X ), el término τ teXE es, desde un punto de vista
- 289 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
técnico, equivalente a los restantes efectos de interacción entre cada una de las variables
manifiestas y la variable latente.
X
E
A
B
C
D
Figura 5.5
Especial interés tiene el anterior modelo cuando la variable E es una variable que
define diferentes grupos de individuos, puesto que en este supuesto el modelo en
cuestión no será otro que el modelo de estructura latente simultáneo.
Todos estos modelos y otros relacionados con estructuras latentes han sido
abordados en profundidad por autores como Goodman ( 1974 ) o Hagenaars ( 1990 ).
- 290 -
Capítulo Quinto: Modelos de variables latentes
____________________________________________________________________________________
Finaliza de este modo este recorrido global por una serie de técnicas estadísticas
que se erigen en una alternativa metodológica para el análisis de las variables que
caracterizan el comportamiento turístico. Para argumentar la defensa de esta nueva
metodología, en la Segunda Parte de este trabajo se llevará a cabo un análisis empírico
dirigido a cuantificar la asociación existente entre un conjunto de variables turísticas y
dos grupos diferenciados de variables auxiliares, y a segmentar la demanda turística
española. Confiamos en que los resultados de este análisis empírico corroboren nuestra
propuesta metodológica, que no pretende otra cosa que contribuir a mejorar la calidad
del estudio moderno del comportamiento de la demanda turística.
- 291 -
SEGUNDA PARTE:
Análisis empírico y conclusiones
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
1. INTRODUCCIÓN.
En el Capítulo Primero de esta Tesis se ha argumentado que la inmensa mayoría
de los estudios sobre demanda turística realizados en España durante los últimos años se
han limitado a realizar un mero análisis descriptivo de la información estadística
disponible. Nuestro propósito es demostrar que los datos recogidos en estudios como
“Las vacaciones de los españoles”, “Movimientos turísticos en fronteras”, “Encuesta
Familitur”, etc. son susceptibles de ser tratados estadísticamente al objeto de elaborar
unas conclusiones más elaboradas que las obtenidas de un mero análisis descriptivo de
la información. Se pretende, en definitiva, “exprimir” los datos existentes para optimizar
el análisis relacional entre variables turísticas de interés.
Partiendo del hecho de que un porcentaje importante de las preguntas incluidas
en los cuestionarios en torno a los cuales se articulan los estudios de demanda turística
plantean respuestas cerradas, es decir, constituyen variables de naturaleza categórica,
el objetivo del presente análisis es poner de manifiesto que las técnicas estadísticas
descritas en la Primera Parte de este trabajo son herramientas de gran potencialidad para
el análisis de la demanda turística española.
La información que va a ser procesada corresponde a un estudio realizado por el
Centro de Investigaciones Sociológicas en 1995 sobre el comportamiento de los
españoles ante las vacaciones. Dada la coincidencia temporal entre este trabajo y el
estudio “Las vacaciones de los españoles en 1995”, reproducimos a continuación
- 295 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
algunos de los principales resultados de este último estudio, realizado por Cuanter S.A.
para la Secretaría General de Turismo:
- El principal alojamiento utilizado en los viajes de 1995 ha sido la “casa de
familiares y amigos”, con una cuota del 39,7 %. La categoría Hotel ( que engloba a
Hoteles, Hostales y Paradores ) supone una cuota del 22,5 %, con una estimación
aproximada de 10.303 millones de viajes y 65.639 millones de estancias.
- Entre los motivos principales que han originado los viajes de 1995 destacan el
“ocio, recreo y vacaciones”, con una cuota del 51,0 %, y “visitar a la familia y/o
amistades”, con una cuota del 29,4 %.
- La mayor parte de los viajes ( un 83,3 % ) se organiza por cuenta propia. La
cuota de las agencias de viajes es de un 8,5 %. Entre los viajes de cuatro y más noches,
la cuota de las agencias de viajes es del 12,6 %.
- El medio de transporte más utilizado es el vehículo propio ( 68,9 % ). Según la
duración del viaje, se constata una mayor utilización del avión en los viajes de larga
duración ( 14,1 % ).
- El 8 % de los viajes realizados en 1995 tuvo un destino fuera de nuestras
fronteras, lo que supone aproximadamente 3.648.000 viajes.
- 296 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
A partir de estas y de otras muchas conclusiones obtenidas del análisis
descriptivo de la información procesada se podrían plantear algunas cuestiones
interesantes, especialmente las relacionadas con las circunstancias personales del turista.
Como botón de muestra, sirvan las siguientes reflexiones:
- ¿ Cómo influye el tamaño del hábitat en el que reside el turista en la
elección de un determinado tipo de alojamiento ?. ¿ Son los turistas que residen en
las ciudades más pequeñas los que utilizan con mayor frecuencia la casa de los
familiares o amigos como alojamiento ?. ¿ Utilizan más los hoteles los residentes en
grandes ciudades o los turistas que viven en ciudades de menor tamaño ?. ¿ Es el
tamaño del habitat independiente de la elección de alojamiento por parte del
turista ?.
- ¿ Qué efectos tiene la edad del turista sobre los motivos que le llevan a
salir de vacaciones ?. ¿ Podrá admitirse que los individuos más jóvenes prefieren el
ocio y la diversión y que los más ancianos viajan principalmente para visitar a la
familia ?. ¿ Tendrá el turista la misma propensión a elegir un motivo vacacional
determinado dependiendo del segmento de edad al que pertenezca ?.
- ¿ Qué probabilidad hay de que un turista con estudios superiores organice
por su cuenta sus vacaciones ?. ¿ Será igual, mayor o menor a la de un turista que
sólo posee estudios primarios o que no tenga estudios ?.
- 297 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- ¿ Cómo condiciona el número de miembros del hogar familiar la elección
del medio de transporte ?. Sería interesante determinar si las familias con un
número elevado de miembros utilizan los medios de transporte colectivos y las
familias con un número reducido de miembros emplean en mayor medida el medio
de transporte privado por excelencia, esto es, el vehículo particular.
- ¿ Cuál es la probabilidad de que un turista con ingresos medios viaje al
extranjero ?. ¿ Será mayor esta probabilidad si el turista percibe ingresos altos o,
por el contrario, el hecho de viajar fuera de nuestras fronteras es independiente del
nivel de ingresos del turista ?.
Como es obvio, las diferentes circunstancias personales del turista ( edad, nivel
de estudios, nivel de ingresos, etc. ) pueden condicionar las anteriores variables
turísticas ( y no sólo la variable explicativa mencionada en cada pregunta ), lo que
permite sostener que el tipo de alojamiento elegido, el motivo vacacional, la forma de
organizar el viaje, el medio de transporte empleado, el destino del viaje, etc., son
variables turísticas condicionadas por un cúmulo de circunstancias personales del
turista. El objetivo final de este análisis empírico es cuantificar la intensidad de la
asociación entre unas variables y otras, para lo cual se combinará la modelización
logarítmico-lineal con la formulación logit para variables categóricas.
Por otro lado, en el estudio “Las vacaciones de los españoles en 1992”, la
empresa Cuanter realizó un análisis de tipologías con el objeto de establecer una
- 298 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
clasificación de la población turística a partir de las opiniones expresadas sobre las
vacaciones por los individuos encuestados. Los resultados del análisis se reproducen a
continuación:
Grupo 1: Turista de Segunda Residencia ( 19,9 % ).
No les importa pasar las vacaciones en casa pero cuando salen evitan los viajes
organizados y les gusta acudir a lugares poco frecuentados, compartiendo las
costumbres de la zona de destino. Prefieren pasar las vacaciones en un único sitio y
estar sin hacer nada.
Grupo 2: Turista Social ( 13,5 % ).
No le estimula el cambio de actividades en vacaciones aunque tampoco le gusta
pasar las vacaciones en casa. Opta por los viajes organizados y le gustan los lugares
poco frecuentados, más aún compartir las costumbres de la gente de la zona. No le
atrae la diversión como elemento fundamental de las vacaciones - posicionamiento
indiferente -. A diferencia del grupo anterior, no le gusta pasar sus vacaciones sin
hacer nada en un único sitio.
Grupo 3: Turista Recreativo (31,4 % ).
En general le gusta realizar actividades diferentes a las habituales y no le gusta
quedarse en casa durante las vacaciones. A diferencia del grupo dos, no le importa
utilizar viajes organizados, pasar las vacaciones en un sitio y estar sin hacer nada.
- 299 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Grupo 4: Turista con inquietudes/viajero (31,4 %).
Efectivamente, viajar y conocer lugares nuevos es una de las cosas que más le
gustan y esta pasión le diferencia enormemente del resto de viajeros/as. Durante las
vacaciones busca hacer cosas distintas a las habituales, pasárselo bien y moverse de un
sitio a otro. Le resulta indiferente acudir en viaje organizado o no.
Grupo 5: Turista por puro entretenimiento (3,8 % ).
Realmente viajar no le apasiona aunque tampoco le gusta quedarse en casa o
estar sin hacer nada. Sí aprecia el cambio de actividades durante las vacaciones, los
lugares frecuentados, la diversión y evita los viajes organizados.
Esta clasificación se completa con una caracterización de cada grupo según la
edad, el nivel de estudios, la ocupación, el status, el tamaño del hábitat y el número de
viajes realizados.
Pues bien, en relación a esta clasificación, podríamos plantearnos varias
preguntas, algunas de las cuales reflejamos a continuación:
- Si los grupos 3 y 4 parecen ser del mismo tamaño ( 31,4 % ), ¿ cómo puede
contrastarse estadísticamente que, en efecto, ambos grupos son iguales ?.
- Tanto los turistas del grupo 1 como los del grupo 2 evitan los viajes
organizados y prefieren lugares poco frecuentados. Pero, ¿ hasta qué punto se
- 300 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
puede admitir que la actitud de estos dos grupos ante estas dos cuestiones ( frases 4
y 5 de un total de nueve frases utilizadas ) es idéntica ?. ¿ De qué forma podría
contrastarse que las preferencias de los turistas de estos dos grupos ante las frases
4 y 5 son diferentes, aunque similares ?.
- A los turistas de los grupos 3, 4 y 5 les gusta realizar durante sus
vacaciones actividades distintas a las habituales ( frase 2 ). Pero, ¿ esta actitud es
idéntica en los tres grupos ?, es decir, ¿ qué grupo de turistas tiene mayor
probabilidad de realizar actividades diferentes ?. ¿ Se puede admitir que esta
probabilidad es la misma para los tres grupos ?.
- Al caracterizar cada uno de los grupos, se observa que las edades de los
turistas en los cinco grupos propuestos presentan diferencias significativas. ¿ Sería
posible considerar un número determinado de intervalos de edad y proponer una
clasificación de los turistas dentro de cada intervalo, al objeto de establecer
comparaciones, analogías y diferencias entre los turistas en función de su edad ?.
Estas y otras muchas cuestiones que podríamos plantearnos a la luz de las
conclusiones del análisis realizado por Cuanter pueden ser resueltas gracias al modelo
de análisis de clases latentes general ( tanto restringido como no restringido ) y por el
análisis de estructura latente simultáneo ( con y sin restricciones ).
- 301 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Reconociendo el mérito y la validez del análisis realizado por Cuanter y
concibiendo las técnicas estadísticas propuestas como un complemento útil para el
análisis realizado, pretendemos poner de manifiesto en esta Segunda Parte la
potencialidad de los modelos log-lineal, logit y ACL.
2. ANÁLISIS DE INTERDEPENDENCIAS ENTRE VARIABLES TURÍSTICAS.
Ante la imposibilidad de disponer de la información del estudio “Las vacaciones
de los españoles” desagregada individuo a individuo, el estudio que se utilizará para
analizar la asociación entre diferentes variables turísticas de interés será el estudio
número 2.193 del Centro de Investigaciones Sociológicas correspondiente a Octubre
de 1995 y denominado “Comportamiento de los españoles ante las vacaciones (III)”.
Una vez comparados los cuestionarios utilizados por el C.I.S. y por Cuanter ( año 1995 )
para estudiar el comportamiento de la demanda turística española, se ha constatado que
ambos cuestionarios son extraordinariamente similares y que las cuestiones relativas a
las variables turísticas que se analizarán en este trabajo se formulan igual en uno y en
otro, verificándose incluso que las respuestas posibles a estas preguntas son también
coincidentes.
En consecuencia, tanto las técnicas utilizadas en este trabajo como las
conclusiones alcanzadas en el mismo son perfectamente extrapolables a los estudios
- 302 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
realizados por la Secretaría General de Turismo y designados bajo la denominación
genérica de “Las vacaciones de los españoles”.
La ficha técnica del estudio número 2.193 del C.I.S. es la siguiente:
Ambito:
Nacional. Se incluyen las provincias insulares y se excluyen Ceuta y Melilla.
Universo:
El estudio consta de 3 muestras, relacionadas entre sí, cuyos universos son
los siguientes:
Muestra general:
Población española de ambos sexos de 18 años y más.
Muestra “van de vacaciones”:
Todos los entrevistados en la muestra general que han ido o van a ir de
vacaciones a lo largo de 1995.
Muestra “no van de vacaciones”:
Un 30 % de los entrevistados en la muestra general que no han ido ni van a
ir de vacaciones a lo largo de 1995.
- 303 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tamaño de la muestra:
Se desea obtener una muestra aleatoria de alrededor de 2.500 personas que
han ido o van a ir de vacaciones a lo largo de 1995 y otra de alrededor de
1.300 personas que no han salido ni van a salir de vacaciones en el mismo
período. Para ello, y partiendo de estudios anteriores, se ha diseñado una
muestra de 6.500 entrevistas que ha dado origen a otras dos muestras. A la
muestra de 6.500 entrevistas, muestra general, se aplica un cuestionario
reducido del que debe salir la estimación de la población que va y de la que
no va de vacaciones, así como la estructura básica de una y otra. A todas las
personas que van de vacaciones se les aplica otro cuestionario más amplio,
lo mismo que a una parte de los que no van de vacaciones. El resultado de
este planteamiento es el siguiente diseño muestral:
Muestra general:
Diseñada: 6.500 entrevistas.
Realizada: 6.483 entrevistas.
Muestra “van de vacaciones”:
Prevista: 2.500 entrevistas.
Realizada: 2.581 entrevistas.
Muestra “no van de vacaciones”:
Prevista: 1.300 entrevistas.
Realizada: 1.182 entrevistas.
- 304 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Afijación:
La muestra general es proporcional a la población de los diferentes
estratos.
La muestra “van de vacaciones” también es proporcional, en este caso a la
población de los diferentes estratos que ha ido o va a ir de vacaciones.
La muestra “no van de vacaciones” no es proporcional y, además, se ha
hecho con afijación distinta según los tamaños del hábitat. A la vista de los
resultados de la encuesta se han calculado los coeficientes de ponderación
de esta muestra. Estos coeficientes transforman las 1.182 entrevistas
realizadas en 3.882, que es la población que en la muestra general no había
ido de vacaciones. Igualan, además, las tasas de muestreo en los diferentes
estratos.
Procedimiento de muestreo:
Polietápico, estratificado por conglomerados, con selección de las unidades
primarias ( municipios ) y de las unidades secundarias ( secciones ) de forma
aleatoria proporcional. Los estratos se han formado por el cruce de las 17
regiones autonómicas con el tamaño del hábitat, dividido en 7 categorías.
Los cuestionarios se han aplicado mediante entrevista personal en los
domicilios.
La selección de las unidades últimas de muestreo ( individuos ) ha sido
realizada de la siguiente manera. En la muestra general por rutas aleatorias
y cuotas de sexo y edad. En la muestra “van de vacaciones” se ha
- 305 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
entrevistado a todos los que en la muestra general aseguran que han ido o
van a ir de vacaciones en 1995. En la muestra “no van de vacaciones” la
selección se ha hecho según el tamaño del municipio. En los municipios de
menos de 50.000 habitantes se ha seleccionado, aleatoriamente, un número
de individuos que no han ido de vacaciones igual al de los que han ido; en
los municipios mayores de 50.000 habitantes se ha seleccionado,
aleatoriamente, un individuo que no ha ido de vacaciones por cada dos que
han ido de vacaciones.
Error muestral:
Para un nivel de confianza del 95,5 % ( dos sigmas ), y para P=Q, el error es
de ± 1,24 para la muestra general, y en el supuesto de muestreo aleatorio
simple. El error en la muestra “van de vacaciones” es de ± 1,96 y en la
muestra “no van de vacaciones” es de ± 2,90.
Fecha de realización:
8-15 de Octubre de 1995.
Por otra parte, las variables turísticas de este estudio que han sido analizadas en
el presente trabajo han sido las siguientes:
- Propensión a viajar.
- Destino turístico.
- 306 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Lugar de vacaciones.
- Transporte empleado.
- Alojamiento utilizado.
- Organización del viaje.
- Duración del viaje.
- Forma de viajar.
- Fraccionamiento vacacional.
El análisis de asociación de las variables anteriores se ha realizado con las
siguientes variables de carácter socioeconómico:
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
- Nivel de ingresos.
- Status económico ( sólo para la propensión a viajar ).
- Temporada vacacional ( para todas las variables excepto para la propensión a
viajar ).
- Número de miembros que componen el hogar familiar.
En relación al primer conjunto de variables, las categorías que se han
considerado para cada una de ellas han sido las siguientes:
- 307 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Propensión a viajar:
- Categoría 1: el entrevistado ha viajado o va a viajar a lo largo del año 1995.
- Categoría 2: el entrevistado no ha viajado o no va a viajar durante 1995.
Destino turístico:
- Categoría 1: el entrevistado pasó sus vacaciones en España.
- Categoría 2: el entrevistado pasó sus vacaciones en el extranjero.
Lugar de vacaciones:
- Categoría 1: el entrevistado pasa sus vacaciones en una ciudad o pueblo costero
o próximo a la costa.
- Categoría 2: el entrevistado pasa sus vacaciones en un pueblo o ciudad de
interior, campo o montaña.
Transporte empleado:
- Categoría 1: el entrevistado utiliza un medio de transporte privado ( vehículo
particular ).
- Categoría 2: el entrevistado utiliza un medio de transporte colectivo o público
( tren, autocar, avión regular, vuelo charter, barco, etc. ).
Alojamiento utilizado1:
- Categoría 1: el entrevistado se aloja en establecimientos hoteleros.
- Categoría 2: el entrevistado se aloja en otros establecimientos colectivos.
1
A efectos de esta categorización, se entiende por establecimientos hoteleros a hoteles, Paradores y
hostales. Otros establecimientos colectivos incluyen pensiones, casas de huéspedes o fondas,
establecimientos especializados ( campamentos, balnearios, barcos, etc. ), campings, caravanas y otros
alojamientos colectivos y acampada libre. Finalmente, dentro de los establecimientos privados se
enmarcan chalets, apartamentos o pisos tanto propios como alquilados ( a particulares, a organizaciones o
a agencias ), casas de familiares y/o amigos, habitaciones alquiladas en casas particulares y otros
alojamientos.
- 308 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Categoría 3: el entrevistado se aloja en establecimientos privados.
Organización del viaje:
- Categoría 1: el entrevistado realiza su viaje por cuenta propia.
- Categoría 2: el entrevistado viaja a través de una agencia de viajes, de una
organización profesional, asociación, club, etc.
Duración del viaje:
- Categoría 1: la duración del viaje ha sido de 7 días o menos ( viaje corto ).
- Categoría 2: la duración del viaje ha sido de entre 8 y 15 días ( viaje de
duración media ).
- Categoría 3: la duración del viaje ha sido superior a 15 días ( viaje largo ).
Forma de viajar:
- Categoría 1: el entrevistado viaja solo.
- Categoría 2: el entrevistado viaja con su familia.
- Categoría 3: el entrevistado viaja con un grupo de amigos o con un grupo
organizado.
Fraccionamiento vacacional:
- Categoría 1: el entrevistado disfruta sus vacaciones de forma continuada, sin
fraccionarlas.
- Categoría 2: el entrevistado fracciona sus vacaciones en dos o más períodos.
Con respecto al segundo conjunto de variables ( variables explicativas ), la
categorización que se ha utilizado es la que se detalla a continuación:
- 309 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tamaño del hábitat:
- Categoría 1: el entrevistado reside en un municipio de menos de 100.000
habitantes ( ciudad pequeña ).
- Categoría 2: el entrevistado reside en un municipio de entre 100.000 y 400.000
habitantes ( ciudad media o mesópolis ).
- Categoría 3: el entrevistado reside en una ciudad con más de 400.000
habitantes ( ciudad grande ).
Edad:
- Categoría 1: el entrevistado tiene 24 años o menos ( persona joven ).
- Categoría 2: el entrevistado tiene entre 25 y 44 años ( persona menos joven ).
- Categoría 3: el entrevistado tiene una edad comprendida entre 45 y 64 años
( persona de edad madura ).
- Categoría 4: el entrevistado tiene 65 años o más ( persona anciana ).
Nivel de estudios2:
- Categoría 1: el entrevistado no posee instrucción o sólo tiene estudios
primarios.
- Categoría 2: el entrevistado posee estudios secundarios.
- Categoría 3: el entrevistado posee estudios superiores.
2
A efectos de esta categorización, se han considerado individuos sin instrucción o con estudios primarios
a los que son analfabetos, sólo saben leer y escribir, poseen algunos años de estudios primarios ( sin
completar ) o están en posesión de estudios primarios o del Bachillerato Elemental ( antiguo ), E.G.B.,
Graduado Escolar o Certificado de Escolaridad. En la categoría de estudios secundarios, se han incluido
todos aquellos individuos que poseen el Bachillerato Superior ( antiguo ), B.U.P., Formación Profesional
I y otras enseñanzas técnico-profesionales o Formación Profesional II. Finalmente, en la categoría de
estudios superiores tienen cabida los arquitectos e ingenieros técnicos, los Diplomados en Escuelas
Universitarias, Facultades o Colegios Universitarios, los que poseen estudios superiores de 2 o 3 años no
equivalentes a Diplomaturas, los arquitectos e ingenieros superiores, los que han realizado los Cursos de
Doctorado y los que poseen estudios de Postgrado o de Especialización para Licenciados.
- 310 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Nivel de ingresos:
- Categoría 1: el entrevistado percibe menos de 150.000 pesetas al mes ( ingresos
bajos ).
- Categoría 2: el entrevistado percibe unos ingresos comprendidos entre 150.000
y 400.000 pesetas al mes ( ingresos medios ).
- Categoría 3: el entrevistado percibe más de 400.000 pesetas al mes ( ingresos
altos ).
Status económico:
- Categoría 1: el entrevistado trabaja.
- Categoría 2: el entrevistado está desempleado.
- Categoría 3: el entrevistado es una persona no activa económicamente.
- Categoría 4: el entrevistado está jubilado o es pensionista.
Temporada vacacional:
- Categoría 1: el entrevistado disfruta de sus vacaciones durante los meses de
Julio y/o Agosto ( temporada alta ).
- Categoría 2: el entrevistado disfruta de sus vacaciones durante los restantes
meses del año ( temporada baja ).
Número de miembros del hogar familiar:
- Categoría 1: el entrevistado pertenece a una familia compuesta por 1 o 2
miembros ( familia sin hijos ).
- Categoría 2: el entrevistado pertenece a una familia formada por 3 o 4
miembros ( familia con 1 o 2 hijos ).
- 311 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Categoría 3: el entrevistado pertenece a una familia compuesta por más de 4
miembros ( familia numerosa ).
La categorización anteriormente descrita se ha realizado atendiendo, de la forma
más estricta posible, a las recomendaciones de la Organización Mundial del Turismo y,
más concretamente, a los conceptos, definiciones y clasificaciones de las estadísticas de
Turismo de dicho organismo ( O.M.T., 1995 ).
La metodología que se ha seguido en el presente análisis ha consistido en
estudiar las interdependencias de cada una de las variables turísticas del primer conjunto
antes citado con el tamaño del hábitat, la edad y el nivel de estudios ( en lo sucesivo, se
designará a estas tres variables como Grupo A de variables ), por un lado, y las
interrelaciones de aquellas mismas variables con el nivel de ingresos, la temporada
vacacional3 y el número de miembros del hogar familiar ( en lo sucesivo, a estas tres
variables se les denominará Grupo B ), por otro lado.
El motivo por el cual no se ha planteado el estudio de las variables turísticas
presentadas considerando conjuntamente todas las variables explicativas ( esto es, sin
distinguir entre el Grupo A y el Grupo B de variables ) es que las tablas de contingencia
3
En el estudio de la propensión a viajar se ha utilizado como variable explicativa el status económico
del entrevistado en lugar de la temporada vacacional porque se ha considerado que la primera variable
posee un mayor poder discriminatorio que la segunda y, por tanto, mayor capacidad explicativa en el
análisis de la propensión de los españoles a viajar. Por el contrario, para el resto de variables turísticas
analizadas se ha creído conveniente considerar la temporada vacacional en lugar del status económico del
entrevistado.
- 312 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
obtenidas de esta forma son de dimensión siete, con un total de 1.296 modalidades de
respuesta si la variable turística respuesta posee dos categorías, y 1.944 modalidades si
dicha variable posee tres categorías. Como puede suponerse, los inconvenientes
derivados de trabajar con una tabla de dimensión tan elevada son evidentes. Por un lado,
el número de posibles modelos log-lineales asociados a esta tabla es de varios miles, con
la tremenda dificultad que este hecho añade a la búsqueda del modelo óptimo. Por otro
lado, el número de ceros aleatorios se incrementa sustancialmente, con el evidente
handicap que supone el debilitamiento de las propiedades asintóticas de los estimadores
y, como consecuencia de ello, la menor robustez de las estimaciones realizadas y la
considerablemente menor fiabilidad de las conclusiones alcanzadas.
Una vez realizadas estas consideraciones previas, pasaremos a desarrollar los
análisis logarítmico-lineal y logit efectuados con cada una de las variables turísticas
citadas con anterioridad y a comentar las conclusiones más relevantes que se derivan de
los mismos.
a) PROPENSIÓN A VIAJAR.
El estudio de esta variable turística se ha realizado considerando la muestra
general de la encuesta del C.I.S. Se ha partido, pues, de la información contenida en las
3.781 entrevistas del estudio número 2.193. Posteriormente, han sido eliminadas
aquellas encuestas en las que el entrevistado no se ha pronunciado ( no sabe, no
contesta, respuesta incongruente ) sobre una o varias de las variables explicativas
- 313 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
consideradas en este trabajo4, lo que arrojó una muestra operativa de 3.720 entrevistas
para el Grupo A de variables y de 2.632 entrevistas para el Grupo B.
Grupo A de variables:
La tabla de contingencia que refleja la clasificación cruzada de las variables
propensión a viajar, tamaño del hábitat, edad y nivel de estudios es la que se muestra en
la página siguiente bajo el título de Tabla 1:
Como se podrá observar, no existe en esta tabla ningún cero aleatorio ni ningún
cero estructural.
A partir de la citada tabla de contingencia, el análisis se iniciará con el estudio de
las medidas de asociación correspondientes a las tres tablas marginales IxJ resultantes
de considerar las variables “propensión a viajar” y “tamaño del hábitat”, por un lado; las
variables “propensión a viajar” y “edad”, por otro lado; y, finalmente, las variables
“propensión a viajar” y “nivel de estudios”. En las tres tablas marginales se ha
considerado la variable “propensión a viajar” porque dicha variable será la que centre el
interés del análisis y la que se considere como variable respuesta en la posterior
modelización logit. En consecuencia, la elección de la variable respuesta es realizada, en
este caso, por el investigador, en función del objetivo de la investigación, a diferencia de
4
Como es fácilmente comprensible, la ausencia de posicionamiento del entrevistado en relación a la
pregunta formulada no arroja información útil para el análisis, razón por la que estas entrevistas deben ser
excluidas del mismo.
- 314 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 1
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
- 315 -
PROPENSIÓN
A VIAJAR
Sí viaja
No viaja
68
49
117
43
24
6
209
98
205
163
171
44
116
28
492
235
212
210
27
16
39
12
278
238
118
156
7
3
8
2
133
161
25
9
78
18
26
7
129
34
99
38
94
21
83
16
276
75
149
68
36
3
22
2
207
73
75
45
6
1
13
1
94
47
25
10
79
14
34
7
138
31
76
29
106
23
112
19
294
71
112
51
33
8
46
8
191
67
81
35
12
2
15
4
108
41
Total
117
160
30
307
368
215
144
727
422
43
51
516
274
10
10
294
34
96
33
163
137
115
99
351
217
39
24
280
120
7
14
141
35
93
41
169
105
129
131
365
163
41
54
258
116
14
19
149
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
lo que ocurre con otras técnicas, como el algoritmo CHAID, en el que la colapsabilidad
se erige en una herramienta básica para determinar cuál o cuáles de las variables
analizadas puede ser considerada como variable respuesta.
Las medidas de asociación consideradas para las tablas marginales citadas
arrojaron los valores que se muestran en la Tabla 2.
Tabla 2
Variable dependiente: Propensión a viajar (V)
HABITAT
(H)
2
115,512
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
116,611
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,176
Coeficiente de contingencia
0,174
Test V de Cràmer
0,176
!
Coeficiente τV i de
0,031
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U!
V i
0,025
EDAD
(E)
70,897
3
0,0000
ESTUDIOS
(S)
203,642
2
0,0000
69,958
3
0,0000
0,138
0,137
0,138
211,439
2
0,0000
0,234
0,228
0,234
0,019
0,055
0,015
0,046
para i = H, E, S
De los valores reflejados en la tabla anterior se deduce que la propensión a viajar
del español está condicionada tanto por el tamaño del hábitat como por la edad y el nivel
de estudios del mismo. La asociación más fuerte se produce con la variable “nivel de
- 316 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
estudios”, mientras que la asociación más débil corresponde a la variable “edad”. En
cualquier caso, poco puede afirmarse sobre la asociación entre la propensión a viajar y
las demás variables a partir de este simple estudio de asociación marginal, ya que la
presencia de otras variables puede afectar sustancialmente a la misma, lo que nos podría
conducir a conclusiones radicamente opuestas ( Paradoja de Simpson ).
Por ello, la mejor forma de detectar la presencia de una fuerte asociación entre
variables, así como la posible existencia de independencia condicionada, es la búsqueda
del modelo log-lineal que mejor se ajuste a los datos de la anterior tabla de contingencia.
Para seleccionar dicho modelo, optaremos por el método de selección propuesto
por Edwards y Kreiner ( 1983 ), que parte del modelo saturado y va eliminando
progresivamente efectos de interacción de segundo orden de la representación gráfica
del citado modelo hasta encontrar el más satisfactorio. En este caso, y partiendo del
modelo saturado VSEH, la eliminación de cada uno de los efectos de segundo orden
presentes en el modelo saturado arrojó los resultados que se muestran a continuación5:
Modelo
VEH, SEH
VSH,SEH
VSE,SEH
VSH,VEH
VSE,VEH
VSE,VSH
Efecto
eliminado
VS
VE
VH
SE
SH
EH
g.l.
24
27
24
36
32
36
5
Diferencia de verosimilitud entre cada
modelo y el modelo saturado
p
p
G2
X2
0,0000
125,46
0,0000
131,48
0,3334
29,58
0,3145
29,99
0,0000
100,81
0,0000
102,70
0,0000
808,96
0,0000
828,99
0,0000
133,10
0,0000
130,00
0,0166
56,35
0,0137
57,22
Todos los cálculos relativos a estimaciones de modelos log-lineales han sido realizados con el programa
BMDP versión 7.0.
- 317 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Seguidamente, deberá procederse a la eliminación del efecto de interacción que
sea menos significativo, es decir, de aquel que arroje un mayor valor de p, siempre que
éste sea mayor que α = 0,05. En este caso, el único efecto no significativo es VE ( lo
que implica la independencia condicionada entre la propensión a viajar y la edad del
turista ), el cual, por tanto, deberá ser eliminado del modelo saturado. En consecuencia,
el modelo gráfico que se tomará como modelo base en el paso siguiente será VSH, SEH.
A continuación, en el siguiente paso se eliminarán cada uno de los restantes
efectos de interacción de segundo orden del modelo base VSH, SEH al objeto de
comprobar si existe algún otro efecto no significativo. La determinación de efectos no
significativos se basará ( en el primer paso también se hizo así ) en las diferencias en
grados de libertad y en los tests de la razón de verosimilitud entre modelos sucesivos, en
lugar de basar el procedimiento en los grados de libertad y en los tests de bondad de
ajuste de cada modelo gráfico. La razón de operar así reside en el hecho de que el
objetivo que se persigue es determinar si el efecto eliminado del modelo gráfico en
cuestión es o no estadísticamente significativo, y no tanto examinar la bondad de ajuste
resultante de realizar dicha eliminación. Dicho en otros términos, el interés recae
fundamentalmente en contrastar los modelos gráficos resultantes de eliminar un efecto
del modelo base contra el propio modelo base, y no contra el modelo saturado6.
6
A excepción, como es obvio, del primer paso de este proceso de selección, en el que el modelo base
inicial es el propio modelo saturado.
- 318 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Por otra parte, dada la propiedad de particionabilidad del test G 2 y la posible no
verificación de la misma en el test χ 2 de Pearson, en la presente y sucesivas etapas la
diferencia entre los valores de los tests de bondad de ajuste se realizará únicamente para
el test G 2 .
Teniendo en cuenta este conjunto de premisas, los resultados de esta etapa son
los que se muestran en el cuadro siguiente:
Modelo base: [VSH]][SEH]]
G 2 = 29,99
27 g.l.
Modelo
SEH, VH
SEH, VS
VS, VH, SE, EH
VSH, EH
VSH, SE
Diferencia de verosimilitud entre cada
modelo y el modelo base7
g.l.
p
G2
0,0000
178,87
6
0,0000
84,04
6
0,0000
118,03
20
0,0000
876,37
18
0,0032
38,57
18
Efecto
eliminado
VS
VH
SH
SE
EH
De los valores anteriores se desprende que no existe ningún otro efecto de
segundo orden que no sea significativo, por lo que no procede eliminar ninguno de ellos
del modelo base a un nivel de significación del 5 %.
Así pues, el procedimiento empleado nos indica que el modelo gráfico que se
7
A título ilustrativo, designando por M 0 al modelo base y por M1 al modelo SEH,VH, los 6 grados de
libertad asociados a este último modelo se han calculado como g.l. ( M1 ) − g.l. ( M 0 ) = 33 - 27 = 6;
mientras que el valor G 2 se ha obtenido como G 2 ( M1 M 0 ) = G 2 ( M1 ) − G 2 ( M 0 ) = 208,86 - 29,99 =
178,87.
- 319 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
ajusta de forma más satisfactoria a los datos es el modelo VSH, SEH, que posee 27
grados de libertad, que arroja un valor del test G 2 de 29,99 ( p = 0,3145 ) y un valor del
test χ 2 de 29,58 ( p = 0,3334 ) y cuya representación gráfica es la siguiente:
V
S
E
H
A pesar de que este modelo gráfico arroje un ajuste a los valores observados
bastante aceptable, siguiendo las recomendaciones de Edwards y Kreiner ( 1983 )
procederemos a continuación a estimar otros modelos no gráficos asociados ( esto es,
jerárquicos ) al modelo gráfico elegido. En el caso que nos ocupa, los modelos no
gráficos asociados al modelo VSH, SEH son VSH, SE, EH; SEH, VS, VH y VS, VH,
SH, SE, EH. Los grados de libertad, el valor del test G 2 , el coeficiente de determinación
y el criterio de información de Akaike de estos tres modelos no gráficos, así como del
modelo gráfico VSH, SEH, se muestran a continuación:
Modelo
VSH, SEH
VSH, SE, EH
SEH, VS, VH
VS, VH, SH, SE, EH
V, S, E, H8
g.l.
27
39
31
43
63
G2
29,99
48,22
35,14
53,37
1.320,12
8
p
0,3145
0,1479
0,2782
0,1335
0,0000
R2
0,977282
0,963473
0,973381
0,959572
0,000000
AX − q
R2
0,946992 - 24,01
0,940995 - 29,78
0,945903 - 26,86
0,940768 - 32,63
0,000000 1.194,12
Los valores que arroja el modelo de independencia completa ponen de manifiesto que este modelo debe
rechazarse claramente, por lo que no podrá admitirse que la “propensión a viajar” de los españoles sea
independiente del tamaño del hábitat, de la edad y del nivel de estudios.
- 320 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Como fácilmente puede comprobarse, ninguno de los modelos no gráficos
mejora el ajuste del modelo gráfico VSH, SEH, razón por la que puede concluirse que el
modelo que mejor explica la asociación entre las variables categóricas V ( propensión a
viajar ), S ( nivel de estudios ), E ( edad ) y H ( tamaño del hábitat ) es el modelo VSH,
SEH, el cual puede sintetizarse en las siguientes cifras:
Mejor modelo: VSH, SEH
27 g.l.
Valor de G 2 = 29,99 ( p = 0,3145 )
Valor de χ 2 = 29,58 ( p = 0,3334 )
Representación gráfica:
S
V
H
E
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,977282
Coeficiente de determinación ajustado: R 2 = 0,946992
Criterio de información de Akaike: AX − q = - 24,01
La interpretación del modelo VSH, SEH implica que la “propensión a viajar” es
condicionalmente independiente de la edad del individuo, fijada una categoría
determinada de las variables “tamaño del hábitat” y “nivel de estudios”. Es decir,
considerando únicamente los individuos que viven en ciudades pequeñas, se puede
afirmar que su propensión a viajar es independiente de la edad. Lo mismo podría
- 321 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
afirmarse respecto a aquellos españoles que residen en ciudades medianas y en ciudades
grandes.
De igual forma, si se consideran únicamente aquellos sujetos que no tienen
instrucción o que sólo poseen estudios primarios, la propensión de los mismos a salir de
viaje es independiente de su edad. Este mismo comentario sería aplicable tanto a los
individuos con estudios secundarios como a aquellos que poseen estudios superiores.
Por el contrario, la “propensión a viajar” está condicionada tanto por el tamaño
del hábitat como por el nivel de estudios. Para cuantificar esta asociación, deberemos
proceder a estimar los parámetros del modelo:
VH
SE
SH
EH
VSH
log mijkl = τ 0 + τVi + τ Sj + τ kE + τ lH + τVS
+ τ SEH
ij + τ il + τ jk + τ jl + τ kl + τ ijl
jkl
De todas las estimaciones del anterior modelo, las correspondientes a los
son las que más nos interesan. Sin embargo, y puesto que no es el
parámetros τVSH
ijl
objetivo de este análisis investigar la asociación entre el tamaño del hábitat y el nivel de
estudios, centraremos nuestros comentarios en las estimaciones de los efectos de
VH
interacción de segundo orden τVS
ij y τ il , que son, en definitiva, los que mejor reflejan la
asociación directa que existe entre la propensión a viajar y el nivel de estudios, por un
lado, y la propensión a viajar y el tamaño del hábitat, por otro lado. Las estimaciones
- 322 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
máximo-verosímiles9 de los efectos τVS
ij son las que se representan en el Gráfico 1.A y
se reproducen también a continuación:
Nivel de
estudios
Sin/sólo est. primarios
Propensión a viajar
Sí viaja
No viaja
- 0,318
0,318
Con est. secundarios
0,120
- 0,120
Con est. superiores
0,198
- 0,198
Las anteriores estimaciones constatan que cuanto mayor es el nivel de estudios
del sujeto, mayor es también su propensión a viajar. Los individuos con estudios
primarios o sin instrucción viajan sensiblemente menos de lo que cabría esperar en el
caso de que el nivel de estudios y la propensión a viajar fueran independientes. Por el
contrario, los individuos con estudios secundarios y, especialmente, aquellos que poseen
estudios superiores, viajan más de lo esperado en el supuesto de independencia entre
estas dos variables.
son las
Por su parte, las estimaciones máximo-verosímiles de los parámetros τVH
il
que se muestran en la página siguiente y se representan en el Gráfico 1.A , en el que se
observa que la propensión a viajar del entrevistado es menor cuanto más pequeño
es el municipio en el que reside habitualmente. Así, los individuos que viven en
El programa BMDP Versión 7.0. calcula los valores de las estimaciones estandarizadas ω! de los
parámetros log-lineales τ . Si no se hace mención expresa, se entenderá que el efecto de interacción τ es
estadísticamente significativo a un 5 %. Sólo en el caso de que el parámetro en cuestión no sea
estadísticamente distinto de cero se hará constar dicha circunstancia tanto en el texto como en el Anexo 1.
9
- 323 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 1.A
Asociación entre las categorías de la variable “propensión a viajar” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Propensión a viajar" y "Tamaño del hábitat"
-0,178
0,085
No viaja
Sí viaja
0,093
Ciudad pequeña
Ciudad mediana
Ciudad grande
INTERACCION "Propensión a viajar" y "Nivel de estudios"
-0,318
Sí viaja
0,12
No viaja
0,198
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Gráfico 1.B
Diferencias en la probabilidad de “viajar” ( logit: Sí viaja vs No viaja )
en función del tamaño del hábitat y del nivel de estudios
con independencia de la edad
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 324 -
Ciudad grande
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
ciudades medianas o grandes viajan más de lo que sería esperable si el tamaño del
hábitat fuese independiente de la inclinación a viajar, siendo más acusada esta tendencia
entre los residentes en grandes ciudades que entre los que residen en ciudades de tamaño
medio. El fenómeno contrario se produce con los entrevistados residentes en municipios
de menos de 100.000 habitantes.
Tamaño del
hábitat
Ciudad pequeña
Propensión a viajar
Sí viaja
No viaja
- 0,178
0,178
Ciudad mediana
0,085
- 0,085
Ciudad grande
0,093
- 0,093
Pero, sin lugar a dudas, la mayor eficacia de la modelización logarítmico-lineal
en el análisis de las interrelaciones entre variables turísticas se alcanza al estimar las
probabilidades asociadas a las distintas categorías de la variable respuesta condicionadas
a las múltiples combinaciones de categorías de las variables explicativas. La obtención
de estas probabilidades estimadas es posible gracias al modelo logit para variables
categóricas.
En la Tabla 3 se recoge la probabilidad estimada de que un individuo viaje,
condicionada a su nivel de estudios y al tamaño del hábitat en el que reside10. A partir
10
Como ha quedado demostrado previamente, la edad del entrevistado no condiciona la tendencia del
mismo a viajar.
- 325 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
de los valores de esta tabla se ha elaborado también el Gráfico 1.B, al objeto de poder
apreciar de forma gráfica las diferencias en probabilidad entre las categorías de las
variables explicativas.
Tabla 3
Probabilidades estimadas de “viajar” condicionadas a cada categoría
de las variables explicativas
Nivel de estudios
Sin instrucción o
con
estudios primarios
Con estudios
secundarios
Con estudios
superiores
Edad
Joven
Menos joven
Maduro
Anciano
Joven
Menos joven
Maduro
Anciano
Joven
Menos joven
Maduro
Anciano
Tamaño del hábitat
C. pequeña C. mediana
C. grande
0,5105
0,6848
0,7018
0,5105
0,6848
0,7018
0,5105
0,6848
0,7018
0,5105
0,6848
0,7018
0,7521
0,8326
0,8303
0,7521
0,8326
0,8303
0,7521
0,8326
0,8303
0,7521
0,8326
0,8303
0,7961
0,8471
0,8450
0,7961
0,8471
0,8450
0,7961
0,8471
0,8450
0,7961
0,8471
0,8450
La tabla desvela que la probabilidad de que un individuo viaje es la misma para
los diferentes tramos de edad, pero existen diferencias apreciables en función del nivel
de estudios y del tamaño del hábitat en el que reside habitualmente el entrevistado.
La mayor probabilidad de viajar corresponde a los individuos con estudios
superiores que residen en ciudades con más de 100.000 habitantes, y se cifra en torno a
un 84 %. Se constata también que no existen diferencias apreciables en la probabilidad
de viajar entre los que poseen estudios secundarios y los que tienen estudios superiores,
- 326 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
mientras que las probabilidades correspondientes a los individuos sin instrucción o sólo
con estudios primarios son sensiblemente inferiores al resto de encuestados. Así, la
probabilidad que un individuo con estudios primarios y residente en una ciudad pequeña
tiene de viajar se cifra en un 51 % ( frente a algo más del 75 % del resto ). Finalmente,
existen diferencias mínimas y poco importantes en la probabilidad de viajar entre los
individuos que residen en ciudades medianas y los que lo hacen en ciudades grandes,
siendo sólo sensiblemente inferior a estos valores la probabilidad correspondiente a los
residentes en ciudades pequeñas.
Grupo B de variables:
La tabla de contingencia obtenida al cruzar las variables categóricas “propensión
a viajar”, “nivel de ingresos”, “status económico” y “número de miembros del hogar
familiar” es la que se reproduce en la página siguiente ( Tabla 4 ). En esta tabla, que
aglutina un total de 2.632 observaciones válidas, existen ocho ceros aleatorios. Para el
tratamiento de estos ceros aleatorios se seguirán las recomendaciones que hace
Christensen ( 1990, pag. 341 ). Es decir, identificaremos en primer lugar aquellas
casillas de la tabla que contengan ceros aleatorios, para los cuales no existirán
estimaciones máximo-verosímiles. Estas casillas se eliminarán de los modelos loglineales a estimar y se obtendrán las estimaciones MV de las restantes casillas. Esta
estrategia equivale a tratar estas casillas como ceros estructurales, por lo que los grados
de libertad de la tabla vendrán dados por el número total de casillas de la misma menos
- 327 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 4
NIVEL DE
INGRESOS
STATUS
ECONOMICO
Trabajador
Desempleado
Ingresos
bajos
No activo
económicamente
Jubilado o
pensionista
Trabajador
Desempleado
Ingresos
medios
No activo
económicamente
Jubilado o
pensionista
Trabajador
Desempleado
Ingresos
altos
No activo
económicamente
Jubilado o
pensionista
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
- 328 -
PROPENSIÓN
A VIAJAR
Sí viaja
No viaja
84
45
164
96
47
22
295
163
22
17
51
52
20
21
93
90
62
55
117
91
54
34
233
180
173
124
56
45
6
11
235
180
103
12
259
67
69
22
431
101
6
0
36
11
8
10
50
21
15
1
90
25
56
18
161
44
41
7
21
8
7
2
69
17
32
2
117
8
39
4
188
14
2
0
3
0
5
0
10
0
3
0
26
4
17
0
46
4
1
1
2
0
3
0
6
1
Total
129
260
69
458
39
103
41
183
117
208
88
413
297
101
17
415
115
326
91
532
6
47
18
71
16
115
74
205
48
29
9
86
34
125
43
202
2
3
5
10
3
30
17
50
2
2
3
7
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
el número de ceros aleatorios. En nuestro caso, los grados de libertad de la tabla serán
64.
En consecuencia, los grados de libertad de los modelos log-lineales que se
estimen a partir de los datos recogidos en la anterior tabla de contingencia estarán
minorados en 8, como consecuencia de la pérdida de grados de libertad que se produce
cuando no hay información disponible sobre determinados parámetros. Alertamos, en
cualquier caso, contra la práctica generalizada de añadir una constante a todas las
casillas de la tabla para resolver este problema.
La primera parte del análisis consistirá, como en el caso anterior, en calcular las
principales medidas de asociación de las tres tablas marginales IxJ resultantes de cruzar
la variable “propensión a viajar” con el “nivel de ingresos”, el “status económico” y el
“número de miembros”, respectivamente. Los valores que arrojaron estas medidas se
muestran en la Tabla 5.
Lo más significativo de los valores de esta tabla es que los tests χ 2 de Pearson y
razón de verosimilitud permiten aceptar a un nivel de significación del 5 % la hipótesis
de independencia entre la propensión a viajar y el número de miembros del hogar
familiar, lo que nos conduce a afirmar que la inclinación a viajar de un individuo será la
misma sea cual sea el número de miembros que posea la familia a la que pertenezca.
Esta hipótesis de independencia queda también plenamente confirmada a través de los
- 329 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
demás coeficientes calculados, ya que todos arrojan valores lo suficientemente próximos
a cero como para admitir la citada hipótesis.
Tabla 5
Variable dependiente: Propensión a viajar (V)
NIVEL DE
INGRESOS
(I)
2
197,579
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
217,810
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,274
Coeficiente de contingencia
0,264
Test V de Cràmer
0,274
Coeficiente τ! V i de
0,075
Kruskal-Goodman
para i = I, S, N
Coeficiente de incertidumbre
U!V i
0,067
STATUS
ECONÓMICO
(S)
66,121
3
0,0000
NUMERO DE
MIEMBROS
(N)
1,595
2
0,4504
66,430
3
0,0000
0,158
0,157
0,158
1,587
2
0,4523
0,025
0,025
0,025
0,025
0,001
0,020
0,000
para i = I, S, N
Por el contrario, parece dedudirse una clara asociación entre la propensión a
viajar y el nivel de ingresos, por un lado, y entre la propensión a viajar y el status
económico, por otro lado; siendo, en cualquier caso, y a tenor de los valores de los
coeficientes, más intensa esta asociación entre las dos primeras variables que entre las
dos segundas.
- 330 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Para seleccionar el modelo log-lineal que mejor explica la relación entre estas
cuatro variables, se procederá a eliminar cada uno de los efectos de interacción de
segundo orden del modelo saturado, obteniéndose los siguientes resultados:
Modelo
VSI, NSI
VNI, NSI
VNS, NSI
VNI, VSI
VNS, VSI
VNS, VNI
Efecto
eliminado
VN
VS
VI
NS
NI
SI
g.l.
17
19
16
29
25
28
Diferencia de verosimilitud entre cada
modelo y el modelo saturado
p
p
G2
X2
0,0952
24,98
0,0737
26,04
0,0139
35,01
0,0336
31,72
0,0000
147,19
0,0000
159,45
0,0000
395,45
0,0000
389,99
0,0000
118,53
0,0000
110,50
0,0000
250,00
0,0000
261,80
Confirmando los comentarios anteriores, el efecto VN es el menos significativo
de todos, razón que llevará a su eliminación del modelo saturado. La supresión del
efecto VN equivale a aceptar la independencia ( condicionada o no ) entre las variables
“propensión a viajar” y “número de miembros del hogar familiar”.
En el siguiente paso, contrastaremos el modelo base VSI, NSI contra los cinco
modelos gráficos resultantes de eliminar cada efecto de segundo orden del anterior
modelo base. De esta forma, se podrá comprobar si existe algún otro efecto no
significativo. Los resultados obtenidos fueron los siguientes:
Modelo base: [VSI]][NSI]]
G 2 = 26,04
17 g.l.
Modelo
NSI, VI
VS, VI, NS, NI
VSI, NS
VSI, NI
NSI, VS
Diferencia de verosimilitud entre cada
modelo y el modelo base
g.l.
p
G2
0,0049
21,99
8
0,0000
263,65
23
0,0000
92,14
16
0,0000
376,89
18
0,0000
141,45
7
Efecto
eliminado
VS
SI
NI
NS
VI
- 331 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Los valores de p confirman que no procede eliminar ningún otro efecto del
modelo VSI, NSI a un nivel de significación del 5 %, por lo que podemos concluir que
el mejor modelo gráfico es precisamente VSI, NSI, cuya representación gráfica es la
siguiente:
V
N
S
I
En cualquier caso, estimaremos otros modelos no gráficos asociados al anterior,
al objeto de verificar si alguno de estos contribuyera a mejorar el ajuste del modelo
inicialmente seleccionado. De esta forma, el valor del test G 2 , los coeficientes de
determinación y el valor del criterio de información de Akaike para los modelos no
gráficos VSI, NS, NI; NSI, VS, VI y VS, VI, SI, NS, NI ( que son los tres modelos no
gráficos asociados al anterior modelo gráfico ) se muestran en el cuadro siguiente:
Modelo
VSI, NSI
VSI, NS, NI
NSI, VS, VI
VS, VI, SI, NS, NI
V, N, S, I
g.l.
17
29
22
34
55
G2
26,04
54,97
30,21
58,15
1.068,99
p
0,0737
0,0025
0,1136
0,0061
0,0000
R2
0,975641
0,948578
0,971740
0,945603
0,000000
R2
0,921190
0,902475
0,929349
0,912005
0,000000
AX − q
- 7,96
- 3,03
- 13,79
- 9,85
968,99
En este caso concreto, el modelo no gráfico NSI, VS, VI no sólo presenta un
mejor ajuste a los datos que el modelo gráfico VSI, NSI, sino que además tanto el
coeficiente de determinación ajustado como el criterio de información de Akaike de
- 332 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
aquel son mejores que los de éste. Todos los indicios apuntan, pues, a optar por el
modelo no gráfico NSI, VS, VI en detrimento del modelo gráfico VSI, NSI. La
interpretabilidad del modelo no gráfico anterior no cambia sustancialmente, ya que la
única diferencia entre los dos modelos considerados es que en el modelo no gráfico se
excluye el efecto de interacción de tercer orden τVSI
ikl que, por el contrario, aparece en el
modelo gráfico. Pero la interpretación del modelo NSI, VS, VI es similar a la del
modelo VSI, NSI, ya que ambos modelos significan que la propensión a viajar está
condicionada por el status económico y por el nivel de ingresos del individuo, pero es
condicionalmente independiente del número de miembros del hogar familiar.
En otros términos, la preferencia del modelo NSI, VS, VI sobre el modelo VSI,
NSI implica la aceptación de que todos los efectos de interacción τVSI
ikl ( i = 1, 2; k = 1, 2,
3, 4; l = 1, 2, 3 ) son iguales a cero. Para confirmar la veracidad de esta hipótesis,
llevaremos a cabo el siguiente contraste:

H 0 : τVSI
ikl = 0
 ∀ i , k , l.
H1: τVSI
ikl ≠ 0 

Para ello, simplemente habría que contrastar el modelo NSI, VS, VI contra el
modelo VSI, NSI, para lo cual se obtendrán las diferencias en verosimilitud y en grados
de libertad de ambos modelos:
G 2 (NSI, VS, VI NSI, VSI) = G 2 (NSI, VS,VI) − G 2 (NSI, VSI ) = 30,21 − 26,04 = 4,17
- 333 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
g.l.(NSI, VS, VI) − g.l.(NSI, VSI) = 22 − 17 = 5
El valor 4,17 es un valor de una variable χ52 que deja a su derecha una
probabilidad acumulada de p = 0,5252. Puesto que p > α, no se podrá rechazar la
hipótesis nula a un nivel de significación del 5 %. En consecuencia, se puede admitir
que los efectos de interacción τVSI
ikl son todos nulos.
De esta forma, el modelo seleccionado puede sintetizarse en el cuadro que se
muestra a continuación:
Mejor modelo: NSI, VS, VI
22 g.l.
Valor de G 2 = 30,21 ( p = 0,1136 )
Valor de χ 2 = 30,89 ( p = 0,0985 )
Representación gráfica:
V
N
S
I
Modelo NO gráfico
Modelo NO descomponible
Coeficiente de determinación: R 2 = 0,971740
Coeficiente de determinación ajustado: R 2 = 0,929349
Criterio de información de Akaike: AX − q = - 13,79
Tras seleccionar el modelo, procederemos seguidamente a estimar sus
VI
parámetros. Especial interés tienen las estimaciones de los parámetros τVS
ik y τ il , puesto
- 334 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
que representan la asociación entre la propensión a viajar y las dos variables explicativas
de las que depende: el status económico y el nivel de ingresos. Las estimaciones de los
efectos de interacción τVS
ik ( véase también el Gráfico 2.A ) han sido las siguientes:
Status
económico
Trabajador
Propensión a viajar
Sí viaja
No viaja
0,147
- 0,147
- 0,149
0,149
No activo económicamente
0,000(*)
0,000(*)
Jubilado/pensionista
0,002(*)
- 0,002(*)
Desempleado
(*)
No significativos a un 5 % ( véase la nota nº 9 ).
La estimaciones anteriores ponen de manifiesto la influencia que el status
económico del individuo tiene en su tendencia a viajar. Se observa claramente que
aquellos que trabajan viajan mucho más que el resto de individuos, y que los efectos de
interacción correspondientes a las categorías “no activo económicamente” y
“jubilado/pensionista” no son estadísticamente significativos a un 5 %, por lo que no es
posible determinar si los sujetos pertenecientes a estos dos status viajan o no lo hacen.
Por su parte, las estimaciones máximo-verosímiles de los efectos τ VI
( que
il
figuran representadas también en el Gráfico 2.A han sido las que se muestran en la
página siguiente. Como era previsible, se detecta una clara asociación entre el acto de
viajar y el nivel de ingresos del que viaja. Así, a mayor nivel de ingresos, mayor
propensión a viajar, ya que los individuos con ingresos altos viajan más de lo que cabría
- 335 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
esperar en el supuesto de independencia entre las dos variables analizadas, mientras que
los sujetos con ingresos bajos viajan menos de lo esperado en caso de independencia.
Por su parte, los efectos de interacción entre la propensión a viajar y la categoría
“ingresos medios” no son significativos a un 5 %.
Nivel de
ingresos
Ingresos bajos
(*)
Propensión a viajar
Sí viaja
No viaja
- 0,470
0,470
Ingresos medios
- 0,008(*)
Ingresos altos
0,478
0,008(*)
- 0,478
No significativos a un 5 %.
La última fase del análisis empírico consistirá en estimar las probabilidades
asociadas al acto de viajar condicionadas a la pertenencia del entrevistado a una
categoría determinada de las tres variables explicativas consideradas.
Gracias a la modelización logit, se han calculado las probabilidades estimadas
recogidas en la Tabla 6, en la que se puede observar que la propensión a viajar es la
misma sea cual sea el número de miembros de la unidad familiar, siendo el nivel de
ingresos y el status económico las variables que condicionan el acto de viajar. Así, los
trabajadores con un nivel elevado de ingresos tienen una probabilidad muy alta de
- 336 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 2.A
Asociación entre las categorías de la variable “propensión a viajar” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden11 )
INTERACCION "Propensión a viajar" y "Nivel de ingresos"
-0,47
Sí viaja
-0,008
No viaja
0,478
Ingresos bajos
Ingresos medios (NS)
Ingresos altos
INTERACCION "Propensión a viajar" y "Status económico"
0,147
-0,149
No viaja
Sí viaja
0
0,002
Trabajador
Desempleado
No activo (NS)
Jubilado/pensionista (NS)
Gráfico 2.B
Diferencias en la probabilidad de “viajar” ( logit: Sí viaja vs No viaja )
en función del nivel de ingresos y del status económico
con independencia del número de miembros del hogar familiar
Trabajador
Desempleado
No activo
Jubilado/pensionista
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Probabilidad
Ingresos bajos
Ingresos medios
11
Ingresos altos
En aquellas categorías de las variables explicativas en las que el efecto de interacción con la variable
respuesta no sea significativo al 5 %, se hará constar tal circunstancia con las letras NS.
- 337 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
viajar, que se sitúa en un 92,20 %. En el extremo opuesto se sitúan los desempleados
con ingresos bajos, cuya probabilidad de viajar no llega ni siquiera a un 50 %. De la
Tabla 6 se desprende también que cuanto más elevado sea el nivel de ingresos del
entrevistado, mayor será también la probabilidad que éste tiene de viajar.
Tabla 6
Probabilidades estimadas de “viajar” condicionadas a cada categoría
de las variables explicativas
Número miembros
hogar familiar
Familia sin
hijos
Familia con
1 o 2 hijos
Familia
numerosa
Status
económico
Trabajador
Desempleado
No activo
Jubilado/pensionista
Trabajador
Desempleado
No activo
Jubilado/pensionista
Trabajador
Desempleado
No activo
Jubilado/pensionista
Bajos
0,6397
0,4955
0,5695
0,5705
0,6397
0,4955
0,5695
0,5705
0,6397
0,4955
0,5695
0,5705
Nivel de ingresos
Medios
0,8173
0,7122
0,7692
0,7699
0,8173
0,7122
0,7692
0,7699
0,8173
0,7122
0,7692
0,7699
Altos
0,9220
0,8674
0,8980
0,8984
0,9220
0,8674
0,8980
0,8984
0,9220
0,8674
0,8980
0,8984
Así pues, el análisis logarítmico-lineal y la modelización logit para variables
categóricas nos ha permitido obtener las siguientes conclusiones sobre la propensión a
viajar, que difícilmente podrían haberse alcanzado mediante un simple estudio
descriptivo de la información disponible:
1º) La tendencia a viajar de los españoles es condicionalmente independiente
de su edad, una vez fijada una categoría determinada tanto del nivel de estudios como
del tamaño del hábitat.
- 338 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
2º) Se detecta la existencia de independencia condicionada entre la inclinación
a viajar y el número de miembros del hogar familiar cuando se considera un nivel
concreto del “status económico” y del “nivel de ingresos” del entrevistado.
3º) Los españoles que tienen una mayor probabilidad de viajar son los que
residen en grandes ciudades y poseen estudios superiores, por un lado, y los que
trabajan y poseen unos niveles elevados de ingresos, por otro lado.
4º) La probabilidad de viajar de los españoles sin instrucción o con estudios
primarios y residentes en pequeñas ciudades se cifra únicamente en un 51 %. En
valores muy similares ( 49,55 % ) se sitúan aquellos que están desempleados y
perciben ingresos bajos. Estos colectivos son los que, con diferencia, menos salen de
vacaciones.
Como síntesis de lo expuesto sobre el análisis de esta primera variable turística y
combinando los dos grupos de variables explicativas, podríamos llegar a definir un
perfil general de los españoles que viajan y de aquellos que no lo hacen. Este perfil ha
sido posible gracias a la metodología logarítmico-lineal y es el que se reproduce en la
página siguiente:
- 339 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Perfil del español que viaja
Perfil del español que no viaja
a) Según el tamaño del hábitat:
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad pequeña (0,178)
1º) Residentes en una ciudad grande (0,093)
2º) Residentes de una ciudad mediana (0,085)
b) Según su nivel de estudios:
1º) Con estudios superiores (0,198)
2º) Con estudios secundarios (0,120)
b) Según su nivel de estudios:
1º) Con estudios primarios (0,318)
c) Según su nivel de ingresos:
1º) Con ingresos altos (0,478)
c) Según su nivel de ingresos:
1º) Con ingresos bajos (0,470)
d) Según su status económico:
1º) Trabajadores (0,147)
d) Según su status económico:
1º) Desempleados (0,149)
Probabilidades máximas de viajar:
Probabilidades máximas de no viajar:
Grupo A:
Grupo A:
1º) Residentes en ciudades medianas y con 1º) Residentes en ciudades pequeñas, sin
instrucción/con estudios primarios ( 48,95 % )
estudios superiores ( 84,71 % )
2º) Residentes en ciudades grandes y con 2º) Residentes en ciudades medianas, sin
instrucción/con estudios primarios ( 31,52 % )
estudios superiores ( 84,50 % )
3º) Residentes en ciudades medianas y con 3º) Residentes en ciudades grandes, sin
instrucción/con estudios primarios ( 29,82 % )
estudios secundarios ( 83,26 % )
Grupo B:
1º) Trabajadores con ingresos altos
( 92,20 % )
2º) Jubilados o pensionistas con ingresos
altos ( 89,84 % )
3º) No activos económicamente con ingresos
altos ( 89,80 % )
Grupo B:
1º) Desempleados con ingresos bajos
( 50,45 % )
2º) No activos económicamente con ingresos
bajos ( 43,05 % )
3º) Jubilados o pensionistas con ingresos
bajos ( 42,95 % )
b) DESTINO TURÍSTICO.
Para el análisis de las restantes variables turísticas se considerará la submuestra
“van de vacaciones”, consistente en un total de 2.581 encuestas. Como en el análisis de
la propensión a viajar, de este total deberán eliminarse aquellas encuestas en las que el
entrevistado no manifieste su opinión ( no sabe o no contesta ) respecto a las variables
involucradas en el análisis.
- 340 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Por otra parte, dado que el proceso de selección y el cálculo de las
probabilidades estimadas es idéntico en todos los casos, obviaremos los pasos seguidos
y nos limitaremos a reflejar en el Anexo 1 los datos más relevante de los modelos
estimados, para centrar nuestra atención en la interpretación de resultados y en la
elaboración de conclusiones.
Grupo A de variables ( D, H, E, S ):
El modelo óptimo, en este caso, es SEH, DS, que indica que el destino turístico
sólo depende de forma directa del nivel de estudios de los turistas. Las estimaciones de
los parámetros τijDS ( véase el Gráfico 3.A ) ponen claramente de manifiesto que
mientras los turistas sin instrucción o que sólo poseen estudios primarios se inclinan
más a quedarse en España a pasar sus vacaciones, los turistas con estudios superiores
prefieren, generalmente, viajar al extranjero. Por su parte, las variables edad y tamaño
del hábitat son condicionalmente independientes del destino turístico, dada la variable
nivel de estudios.
Las probabilidades calculadas mediante la modelización logit señalan que, con
independencia de la edad del turista y del tamaño del hábitat en el que resida, cuanto
menor sea el nivel educativo del turista mayor será la probabilidad de que no salga al
extranjero a pasar sus vacaciones ( Gráfico 3.B ). En concreto, se estima en un 94,63 %
la probabilidad de que los individuos sin instrucción o con estudios primarios pasen sus
- 341 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 3.A
Asociación entre las categorías de la variable “destino turístico” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Destino turístico" y "Nivel de estudios"
0,289
Extranjero
España
0,092
-0,381
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Gráfico 3.B
Diferencias en la probabilidad de “pasar las vacaciones en España”
( logit: España vs Extranjero ) en función del nivel de estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
0%
10%
20%
30%
40%
50%
60%
Probabilidad
- 342 -
70%
80%
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
vacaciones en España, mientras que esta probabilidad es de un 92,24 % para aquellos
que poseen estudios secundarios y de un 82,20 % para los turistas que poseen estudios
superiores.
Grupo B de variables ( D, I, T, N ):
El destino turístico está condicionado tanto por el número de miembros del
hogar familiar como por el nivel de ingresos del turista, ya que el modelo que mejor
explica la asociacion entre las variables de este grupo es el modelo gráfico DNI, NTI.
Este modelo también confirma que no existen diferencias significativas entre viajar
dentro de España y hacerlo por el extranjero cuando la variable considerada es la
temporada vacacional.
Las estimaciones del modelo seleccionado ( Gráfico 4.A ) revelan que las
familias sin hijos son las que más viajan al extranjero, mientras que las familias
numerosas se inclinan claramente a pasar sus vacaciones en territorio español. De forma
similar, el nivel de ingresos condiciona de forma sustancial el destino turístico, ya que
mientras los entrevistados con ingresos medios o bajos viajan más por territorio
nacional, se detecta una significativa tendencia a salir al extranjero por parte de aquellos
que poseen niveles elevados de ingresos.
Estas relaciones quedan plenamente confirmadas con el análisis de las
probabilidades estimadas de pasar las vacaciones en España condicionadas a las
- 343 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 4.A
Asociación entre las categorías de la variable “destino turístico” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Destino turístico" y "Nivel de ingresos"
0,266
0,253
Extranjero
España
-0,519
Ingresos bajos
Ingresos medios
Ingresos altos
INTERACCION "Destino turístico" y "Numero de miembros del hogar
familiar"
-0,373
España
0,061
Extranjero
0,312
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Gráfico 4.B
Diferencias en la probabilidad de “pasar las vacaciones en España”
( logit: España vs Extranjero ) en función del nivel de ingresos y del número de
miembros del hogar familiar con independencia de la temporada vacacional
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Probabilidad
Ingresos bajos
Ingresos medios
- 344 -
Ingresos altos
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
variables estadísticamente significativas del modelo DNI, NTI, esto es, al nivel de
ingresos y al número de miembros de la familia. Así, la probabilidad de quedarse en
España es muy elevada en todos los casos ( véase el Gráfico 4.B ), pero muy
especialmente entre las familias numerosas con ingresos medios ( 98,23 % ) y las
familias numerosas con ingresos bajos ( 96,39 % ). Por el contrario, son las familias sin
hijos con ingresos elevados las que poseen una mayor probabilidad de viajar al
extranjero ( 38,70 % ), seguidas a gran distancia de las familias numerosas cuyos
ingresos son elevados ( 18,18 % ).
A partir de los Gráficos 3.A, 3.B, 4.A y 4.B y de los demás datos relativos al
destino turístico recogidos en el Anexo 1, podemos concluir el análisis de esta variable
ofreciendo un perfil aproximado del turista español que viaja por territorio nacional y
del que sale al extranjero de vacaciones, y que se recoge en el cuadro de la página
siguiente:
- 345 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Perfil del turista que viaja por España
Perfil del turista que sale al extranjero
a) Según su nivel de estudios:
1º) Sin/sólo estudios primarios (0,289)
2º) Con estudios secundarios (0,092)
a) Según su nivel de estudios:
1º) Con estudios superiores (0,381)
b) Según su nivel de ingresos:
1º) Con ingresos bajos (0,266)
2º) Con ingresos medios (0,253)
b) Según su nivel de ingresos:
1º) Con ingresos altos (0,519)
c) Según el número de miembros de la familia: c) Según el número de miembros de la familia:
1º) Familias sin hijos (0,373)
1º) Familias numerosas (0,312)
2º) Familias con 1-2 hijos ( 0,061 )
Probabilidades máximas de viajar por España:
Probabilidades máximas de salir al extranjero:
Grupo A:
Grupo A:
1º) Turistas sin instrucción o con estudios 1º) Turistas con estudios superiores
( 17,80 % )
primarios ( 94,63 % )
Grupo B:
1º) Familias numerosas con ingresos medios
( 98,23 % )
2º) Familias numerosas con ingresos bajos
( 96,39 % )
Grupo B:
1º) Familias sin hijos con ingresos altos
( 38,70 % )
2º) Familias sin hijos con ingresos medios
( 15,63 % )
c) LUGAR DE VACACIONES.
Grupo A de variables ( L, H, E, S ):
En este caso, el mejor modelo log-lineal es LSH, SEH. Este modelo gráfico
desvela que el lugar en el que el turista pasa sus vacaciones está influenciado por su
nivel de estudios y por el tamaño del hábitat en el que reside. Sin embargo, la edad no es
un factor que discrimine de forma significativa el lugar elegido para pasar las
vacaciones. Se puede afirmar que los turistas con estudios superiores son los que más se
- 346 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 5.A
Asociación entre las categorías de la variable “lugar de vacaciones” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Lugar de vacaciones" y "Tamaño del hábitat"
0,113
Interior
Costa
-0,062
-0,051
Ciudad pequeña
Ciudad mediana
Ciudad grande
INTERACCION "Lugar de vacaciones" y "Nivel de estudios"
-0,071
Costa
-0,007
Interior
0,077
Sin/sólo est. primarios
Con est. secundarios (NS)
Con est. superiores
Gráfico 5.B
Diferencias en la probabilidad de “pasar las vacaciones en la costa”
( logit: Costa vs Interior ) en función del tamaño del hábitat y del nivel de estudios
con independencia de la edad
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 347 -
Ciudad grande
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
inclinan a viajar a la costa, mientras que los que poseen estudios primarios manifiestan
una mayor inclinación hacia el interior ( véase el Gráfico 5.A ).
Además, los turistas que residen en ciudades pequeñas se manifiestan claramente
partidarios de pasar sus vacaciones en la costa, mientras que aquellos que residen en
ciudades que superan los 100.000 habitantes manifiestan su preferencia por el interior.
En este sentido, las estimaciones de los parámetros τilLH confirman la tendencia, iniciada
en los últimos años, hacia un mayor desarrollo del turismo de interior en perjuicio del
turismo de costa, especialmente en las ciudades con mayor población.
Si se comparan las probabilidades estimadas de disfrutar las vacaciones en la
costa con las de hacerlo en el interior ( Gráfico 5.B ), se podrá observar que no existen
diferencias acusadas entre las distintas categorías de las dos variables que influyen sobre
la elección del lugar de vacaciones, es decir, el tamaño del hábitat y el nivel de estudios.
Así, la mayor probabilidad de pasar el período vacacional en la costa corresponde a los
que residen en ciudades pequeñas y se cifra en torno a un 66 %, siendo esta probabilidad
muy parecida en los tres niveles de estudios considerados en el análisis. En el caso de
ciudades medianas y de ciudades grandes sí es posible apreciar diferencias más
importantes. Así, mientras en las mesópolis los turistas sin instrucción o sólo con
estudios primarios tienen un 53,54 % de probabilidad de preferir la costa, esta
probabilidad se eleva a un 65 % para los turistas con estudios superiores que residen en
ciudades que superan los 400.000 habitantes.
- 348 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Grupo B de variables ( L, I, T, N ):
Al relacionar el lugar de vacaciones con el nivel de ingresos, con la temporada
vacacional y con el número de miembros del hogar familiar, se puede concluir que el
modelo más adecuado para estudiar estas asociaciones es el modelo NT, NI, TI, LI. La
interpretación de este modelo nos lleva a concluir que el lugar elegido por el turista para
pasar sus vacaciones sólo depende directamente de su nivel de ingresos, ya que la
temporada vacacional y el número de miembros que integran la unidad familiar son
condicionalmente independientes del lugar de vacaciones. En virtud de ello, se puede
afirmar que, entre los turistas cuyos ingresos mensuales superan las 400.000 pesetas, la
elección costa/interior se realizará con independencia de que se esté en temporada alta o
en temporada baja y de que el número de miembros de la unidad familiar sea mayor o
sea menor. Esto mismo ocurrirá tanto con los turistas que poseen ingresos medios como
con aquellos cuyos ingresos mensuales no llegan a las 100.000 pesetas.
Los efectos de interacción estimados entre las variables “lugar de vacaciones” y
“nivel de ingresos” ( Gráfico 6.A ) desvelan que son los turistas con ingresos medios los
que más se inclinan por la costa, mientras que los que poseen los ingresos más bajos
prefieren pasar sus vacaciones en el interior. Estas relaciones pueden cuantificarse
mediante las correspondientes probabilidades estimadas ( representadas en el Gráfico
6.B ), de manera que los turistas con ingresos medios poseen una probabilidad algo
superior al 65 % de pasar las vacaciones en la costa, mientras que para los turistas con
ingresos bajos esta probabilidad no alcanza siquiera un 56 %.
- 349 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 6.A
Asociación entre las categorías de la variable “lugar de vacaciones” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Lugar de vacaciones" y "Nivel de ingresos"
-0,117
Interior
0,082
Costa
0,035
Ingresos bajos
Ingresos medios
Ingresos altos
Gráfico 6.B
Diferencias en la probabilidad de “pasar las vacaciones en la costa”
( logit: Costa vs Interior ) en función del nivel de ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
0%
10%
20%
30%
40%
50%
60%
Probabilidad
- 350 -
70%
80%
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Los resultados obtenidos al aplicar la metodología log-lineal y logit al análisis
del lugar de vacaciones puede resumirse en el cuadro siguiente, que ilustra el perfil del
turista según pase sus vacaciones en la costa o en el interior:
Perfil del turista que pasa sus vacaciones
en la costa
Perfil del turista que pasa sus vacaciones
en el interior
a) Según el tamaño del hábitat:
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad pequeña (0,113) 1º) Residentes en una ciudad mediana (0,062)
2º) Residentes en una ciudad grande (0,051)
b) Según su nivel de estudios:
1º) Con estudios superiores (0,077)
b) Según su nivel de estudios:
1º) Con estudios primarios (0,071)
c) Según su nivel de ingresos:
1º) Con ingresos medios (0,082)
2º) Con ingresos altos (0,035)
c) Según su nivel de ingresos:
1º) Con ingresos bajos (0,117)
Probabilidades máximas de pasar las
vacaciones en la costa:
Probabilidades máximas de pasar las
vacaciones en el interior:
Grupo A:
1º) Residentes en ciudades pequeñas, sin
instrucción/con estudios primarios ( 67,26 % )
2º) Residentes en ciudades pequeñas, con
estudios secundarios ( 66,69 % ) o con
estudios superiores ( 66,46 % ).
Grupo A:
1º) Residentes en ciudades grandes, sin
instrucción/con estudios primarios ( 46,65 % )
2º) Residentes en ciudades medianas, sin
instrucción/con estudios primarios ( 46,46 % )
Grupo B:
1º) Turistas con ingresos medios ( 65,34 % )
Grupo B:
1º) Turistas con ingresos bajos ( 44,13 % )
- 351 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
d) TRANSPORTE EMPLEADO.
Grupo A de variables ( T, H, E, S):
La selección del modelo no gráfico TSE, TEH, SEH nos autoriza a afirmar que
el medio de transporte utilizado por el turista desde su lugar de origen hasta su destino
vacacional está condicionado tanto por el tamaño del hábitat como por el nivel de
estudios y por la edad del turista. El análisis de los parámetros estimados del anterior
modelo ( véase el Gráfico 7.A ) demuestra que los turistas con estudios superiores tienen
una mayor inclinación al uso de medios privados de transporte, a diferencia de lo que
ocurre con los turistas cuyo nivel de estudios es inferior, que prefieren optar por
transportes públicos. Además, los valores estimados de los parámetros τikTE demuestran
que los individuos más jóvenes y los de más edad utilizan más los transportes públicos
que los privados, y que la situación contraria se produce con los turistas que tienen entre
25 y 44 años y, en menor medida, con aquellos que tienen más de 45 y menos de 65
años. Por último, los turistas residentes en las grandes urbes utilizan con más frecuencia
los medios privados que los públicos. Por el contrario, son los turistas que viven en
ciudades con menos de 100.000 habitantes los que con mayor habitualidad hacen uso de
medios públicos de transporte.
Las probabilidades estimadas ( representadas en el Gráfico 7.B ) vienen a señalar
que los turistas con estudios superiores, con una edad comprendida entre los 45 y los 64
años y residentes tanto en ciudades de tamaño medio ( 84,63 % ) como en ciudades
- 352 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 7.A
Asociación entre las categorías de la variable “transporte empleado” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Transporte empleado" y "Tamaño del hábitat"
-0,125
Privado
0,03
Público
0,095
Ciudad pequeña
Ciudad mediana
Ciudad grande
INTERACCION "Transporte empleado" y "Edad"
-0,149
0,219
Público
Privado
0,155
-0,224
I. joven
I.menos joven
I. maduro
I. anciano
INTERACCION "Transporte empleado" y "Nivel de estudios"
-0,016
-0,029
0,045
Público
Sin/sólo est. primarios
Con est. secundarios
- 353 -
Privado
Con est. superiores
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 7.B
Diferencias en la probabilidad de “utilizar transporte privado”
( logit: Privado vs Público ) en función del tamaño del hábitat, de la edad y
del nivel de estudios
A) Sin instrucción o sólo con estudios primarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
B) Con estudios secundarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
C) Con estudios superiores:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 354 -
Ciudad grande
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
grandes ( 83,06 % ); y los turistas sin instrucción o con estudios primarios, que tienen
entre 25 y 44 años y que residen tanto en ciudades pequeñas ( 83,70 % ) como en
grandes ciudades ( 82,26 % ) son los que poseen las probabilidades más elevadas de
utilizar un medio de transporte privado para desplazarse de su residencia habitual a su
lugar de vacaciones.
Por el contrario, los que mayor probabilidad tienen de utilizar el transporte
público son los turistas mayores de 65 años, residentes en ciudades con menos de
100.000 habitantes, tanto sin instrucción o con estudios primarios ( 64,52 % ) como con
estudios secundarios ( 60,68 % ).
Grupo B de variables ( T, I, E, N ):
La elección del medio de transporte también está condicionada por las tres
variables explicativas consideradas en este segundo grupo. A la vista de las
estimaciones de los parámetros del modelo óptimo ( TNE, TEI, NEI ), representadas en
el Gráfico 8.A, se pueden efectuar los comentarios siguientes:
- Los turistas con ingresos medios son los que recurren más al automóvil
particular que a otros medios de transporte, mientras que los turistas con ingresos
inferiores a 100.000 pesetas emplean con más frecuencia los transportes públicos.
- 355 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 8.A
Asociación entre las categorías de la variable “transporte empleado” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Transporte empleado" y "Nivel de ingresos"
-0,171
0,171
Público
Privado
0
Ingresos bajos
Ingresos medios
Ingresos altos (NS)
INTERACCION "Transporte empleado" y "Temporada vacacional"
Público
0,246
-0,246
Privado
Temporada alta
Temporada baja
INTERACCION "Transporte empleado" y "Numero de miembros del
hogar familiar"
-0,18
0,23
Público
Familia sin hijos
Privado
-0,051
Familia con 1-2 hijos
- 356 -
Familia numerosa
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 8.B
Diferencias en la probabilidad de “utilizar transporte privado”
( logit: Privado vs Público ) en función del nivel de ingresos, de la temporada vacacional
y del número de miembros del hogar familiar
A) Familia sin hijos:
Temporada alta
Temporada baja
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Probabilidad
Ingresos bajos
Ingresos medios
Ingresos altos
B) Familia con 1-2 hijos:
Temporada alta
Temporada baja
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Probabilidad
Ingresos bajos
Ingresos medios
Ingresos altos
C) Familia numerosa:
Temporada alta
Temporada baja
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Probabilidad
Ingresos bajos
Ingresos medios
- 357 -
Ingresos altos
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Durante los meses de Julio y Agosto el turista utiliza más frecuentemente el
coche como medio de transporte que fuera de estos dos meses, ya que en temporada baja
el nivel de utilización de los medios públicos de transporte es considerablemente mayor
que durante la temporada alta.
- Entre las familias compuestas por 3 o 4 miembros se detecta una clara
preferencia por los medios privados de transporte, a diferencia de las familias sin hijos y
de las familias numerosas, que se desplazan con más frecuencia con medios de
transporte públicos.
Para finalizar este análisis del medio de transporte empleado, podemos decir que
los turistas con un nivel medio de ingresos y que viajan en temporada alta son los que
poseen la mayor probabilidad de viajar en automóvil ( Gráfico 8.B ), la cual se cifra en
un 84,53 % para las familias con 1 o 2 hijos; en un 82,78 % para las familias numerosas;
y en un 74,15 % para las familias sin hijos.
Por el contrario, las mayores probabilidades de utilizar medios de transporte
privados se registran en temporada baja entre los turistas con ingresos más bajos, tanto
en el caso de que la familia a la que pertenece el turista sea numerosa como en el
supuesto de que se trate de una familia sin hijos. En ambos casos, esta probabilidad
estimada se cifra en un 66,83 %.
- 358 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Como síntesis de lo recogido en los Gráficos 7.A, 7.B, 8.A y 8.B, el siguiente
cuadro muestra los aspectos más relevantes del perfil del turista según utilice su
vehículo particular o medios públicos de transporte:
Perfil del turista que utiliza
medios de transporte privados
Perfil del turista que utiliza
medios de transporte públicos
a) Según el tamaño del hábitat:
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad pequeña (0,125)
1º) Residentes en una ciudad grande (0,095)
2º) Residentes de una ciudad mediana (0,030)
b) Según la edad del turista:
1º) Con edad entre 25 y 44 años (0,219)
2º) Con edad entre 45 y 64 años (0,155)
b) Según la edad del turista:
1º) Con 65 años o más (0,224)
2º) Con 24 años o menos (0,149)
c) Según su nivel de estudios:
1º) Con estudios superiores (0,045)
c) Según su nivel de estudios:
1º) Con estudios secundarios (0,029)
2º) Sin/sólo estudios primarios (0,016 )
d) Según su nivel de ingresos:
1º) Con ingresos medios (0,171)
d) Según su nivel de ingresos:
1º) Con ingresos bajos (0,171)
e) Según la temporada vacacional:
1º) En temporada alta (0,246)
e) Según la temporada vacacional:
1º) En temporada baja (0,246)
f) Según el número de miembros de la familia:
1º) Familias con 1-2 hijos (0,230)
f) Según el número de miembros de la familia:
1º) Familias sin hijos (0,180)
2º) Familias numerosas (0,051)
Probabilidades máximas de utilizar medios de Probabilidades máximas de utilizar medios de
transporte privados:
transporte públicos:
Grupo A:
1º) Residentes en ciudades medianas, con
estudios superiores y con una edad
comprendida entre 45 y 64 años ( 84,63 % )
2º) Residentes en ciudades pequeñas, sin
instrucción/con estudios primarios y con una
edad comprendida entre 25 y 44 años
( 83,70 % )
Grupo A:
1º) Residentes en ciudades pequeñas, sin
instrucción/con estudios primarios y con 65
años o más ( 64,52 % )
2º) Residentes en ciudades pequeñas, con
estudios secundarios y con 65 años o más
( 60,68 % )
Grupo B:
1º) Familias con 1-2 hijos, con ingresos
medios y en temporada alta ( 84,53 % )
2º) Familias numerosas, con ingresos medios
y en temporada alta ( 82,78 % )
Grupo B:
1º) Familias sin hijos o numerosas, con
ingresos bajos y en temporada baja ( 66,83 % )
2º) Familias sin hijos o numerosas, con
ingresos altos y en temporada baja ( 51,70 % )
- 359 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
e) ALOJAMIENTO EMPLEADO.
Grupo A de variables ( A, H, E, S):
En esta ocasión, el modelo que mejor explica la asociación entre estas cuatro
variables es el modelo gráfico ASE, ASH, que determina que el tipo de alojamiento
elegido por el turista durante su período vacacional está condicionado por las tres
variables explicativas restantes. Así, y en primer lugar, el nivel de estudios del turista
determina la elección de un determinado tipo de alojamiento, tal y como evidencian las
estimaciones de los parámetros τijAS ( véase el Gráfico 9.A ). De acuerdo con estas
estimaciones, los turistas que no tienen instrucción o que sólo poseen estudios primarios
se muestran partidarios de los alojamientos privados. Más acusada es aún la tendencia
de los turistas con estudios secundarios hacia otros alojamientos colectivos. Finalmente,
los turistas con estudios superiores hacen uso de forma casi indistinta de alojamientos
hoteleros y de alojamientos privados, si bien se inclinan ligeramente hacia estos últimos.
En segundo lugar, la elección del alojamiento también está condicionada por la
edad. Así, los menores de 24 años manifiestan su inclinación hacia otros alojamientos
colectivos, mientras que los turistas que tienen entre 25 y 44 años prefieren tanto
alojamientos hoteleros como otros alojamientos colectivos, aunque con una ligera
inclinación hacia los primeros. Por último, los turistas cuya edad está comprendida en el
rango 45-64 años y aquellos otros que superan los 65 años muestran unas preferencias
- 360 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 9.A
Asociación entre las categorías de la variable “alojamiento empleado” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Alojamiento empleado” y “Tamaño del hábitat”
Ciudad mediana
Ciudad pequeña
Ciudad grande
Hotelero (0,064)
Hotelero (0,007)
(NS)
Colectivo (0,158)
Privado (0,027)
Privado (0,195)
INTERACCION “Alojamiento empleado” y “Edad”
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Colectivo (0,485)
Hotelero (0,070)
Hotelero (0,229)
Hotelero (0,210)
Privado (0,025)
Colectivo (0,058)
Privado (0,050)
Privado (0,054)
INTERACCION “Alojamiento empleado” y “Nivel de estudios”
Sin/sólo estudios primarios
Con estudios secundarios
Colectivo (0,123)
Privado (0,027)
Con estudios superiores
Hotelero (0,043)
Privado (0,055)
- 361 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
muy similares, ya que optan por alojamientos hoteleros, en primer lugar, y por
alojamientos privados, en segundo lugar.
En tercer lugar, el tamaño del hábitat es otro factor que ayuda a explicar la mayor
o menor inclinación de los turistas hacia un determinado tipo de alojamiento. Las
estimaciones de los parámetros asociados a estas dos dos variables evidencian que los
residentes en ciudades pequeñas se muestran partidarios de otros alojamientos
colectivos y, en bastante menor medida, de alojamientos hoteleros. Por su parte, los
turistas que residen en grandes ciudades manifiestan una fuerte tendencia hacia los
alojamientos privados, circunstancia que se observa también entre los residentes en
ciudades de tamaño medio, aunque de una forma mucho menos acusada.
Cuando en un modelo logit la variable respuesta posee más de dos categorías,
como ocurre en este caso con la variable “alojamiento empleado”, el cálculo de las
probabilidades condicionadas puede realizarse desde distintas ópticas, en función de la
categoría de la variable respuesta que se tome como referencia. De todas las posibles
combinaciones, hemos optado por comparar cada una de las dos primeras categorías de
la variable “alojamiento empleado” con la tercera categoría. Surgen de esta forma dos
tablas de probabilidades condicionadas ( que se recogen en el Anexo 1 ): una primera
tabla obtenida al comparar los alojamientos hoteleros con los alojamientos privados; y
una segunda tabla, resultante de la comparación entre otros alojamientos colectivos y los
alojamientos privados. De aquí que los comentarios derivados de este análisis deban
hacer referencia a ambas tablas. Este mismo procedimiento es el que se ha empleado
- 362 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
para el cálculo de probabilidades condicionadas asociadas a las variables turísticas
“duración del viaje” y “forma de viajar”, que serán analizadas con posterioridad.
Del análisis comparativo entre alojamientos hoteleros y alojamientos privados se
desprende, en virtud del Gráfico 9.B, lo siguiente:
a) La mayor preferencia por los alojamientos hoteleros corresponde a turistas con
estudios secundarios, con una edad comprendida entre 45 y 64 años y residentes en
ciudades con menos de 100.000 habitantes. La probabilidad estimada de utilizar
alojamientos hoteleros de estos individuos se cifra en un 48,75 %. Junto a ellos, también
presentan una alta probabilidad de preferir alojamientos hoteleros en lugar de
alojamientos privados:
- Los residentes en ciudades medianas, que tienen entre 45 y 64 años y estudios
secundarios ( 41,99 % ).
- Los mayores de 65 años, residentes en ciudades pequeñas y sin instrucción o
con estudios primarios ( 41,44 % ).
b) Por el contrario, las mayores probabilidades de optar por alojamientos
privados se da entre los turistas con estudios secundarios, menores de 24 años y
residentes en grandes ciudades ( 92,39 % ). Probabilidades de elegir alojamientos
privados comprendidas entre un 81 y un 88 % se alcanzan entre los turistas menores de
24 años, sin instrucción o con estudios primarios y residentes en ciudades con más de
- 363 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 9.B
Diferencias en la probabilidad de “utilizar alojamientos hoteleros”
( Logit: Hotelero vs Privado ) en función del tamaño del hábitat, de la edad y
del nivel de estudios
A) Sin instrucción o sólo con estudios primarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
B) Con estudios secundarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
C) Con estudios superiores:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Continúa en la página siguiente ...
- 364 -
Ciudad grande
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 9.B
( continuación )
Diferencias en la probabilidad de “utilizar alojamientos colectivos”
( Logit: Colectivo vs Privado ) en función del tamaño del hábitat, de la edad y
del nivel de estudios
A) Sin instrucción o sólo con estudios primarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
B) Con estudios secundarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
C) Con estudios superiores:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 365 -
Ciudad grande
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
100.000 habitantes ( un 81,82 % para ciudades medianas y un 82,30 % para ciudades
grandes ); entre los individuos más jóvenes, con estudios superiores y residentes en
grandes urbes ( 83,93 % ); y entre aquellos turistas que, siendo menores de 24 años,
poseen estudios secundarios y residen en ciudades de tamaño medio ( 88,08 % ).
Pasando a la comparación entre otros alojamientos colectivos y los alojamientos
privados ( Gráfico 9.B ), cabe destacar principalmente que la mayoría de los
entrevistados se inclina por este último tipo de alojamiento, como lo prueba el hecho de
que las probabilidades estimadas no superan, en el mejor de los casos, el 25 %. Por otro
lado, se observa con claridad que los residentes en grandes ciudades son los que menor
probabilidad tienen de alojarse en otros establecimientos privados, circunstancia que se
acusa especialmente entre los turistas con estudios superiores. Dentro de este último
colectivo, se detectan ligeras diferencias en función de la edad, aunque, en cualquier
caso, la probabilidad de optar por otros alojamientos colectivos en este grupo de turistas
oscila entre el 3,41 % de los turistas con una edad comprendida entre los 45 y los 64
años y el 7,64 % de los turistas mayores de 65 años.
En el extremo opuesto, los turistas que tienen una mayor probabilidad de
hospedarse en otros alojamientos colectivos durante sus vacaciones son los de menor
edad y, dentro de ellos, los residentes en ciudades pequeñas. Así, los entrevistados
menores de 24 años y residentes en ciudades con menos de 100.000 habitantes tienen
una probabilidad estimada de un 25,98 % de optar por alojamientos colectivos si no
tienen estudios o sólo poseen estudios primarios, y de un 23,83 % si poseen estudios
- 366 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
secundarios. También destaca la probabilidad de elegir alojamientos colectivos entre los
turistas con estudios secundarios, entre 25 y 44 años y residentes en ciudades pequeñas,
la cual se sitúa en un valor estimado del 24,92 %.
Grupo B de variables ( A, I, T, N ):
La elección de un determinado tipo de alojamiento depende del número de
miembros que forman la unidad familiar y de la temporada vacacional, mientras que
dicha elección es condicionalmente independiente del nivel de ingresos, según
demuestra el modelo gráfico no descomponible AN, AT, NI, TI. Para analizar cómo
condicionan las variables “número de miembros del hogar familiar” y “temporada
vacacional” a la elección de alojamiento se interpretarán las estimaciones de los
parámetros τijAN y τikAT , que se recogen en el Gráfico 10.A. Los valores estimados de los
efectos de interacción de segundo orden τijAN ponen claramente de manifiesto que las
familias sin hijos tienen una preferencia bastante acusada por los alojamientos hoteleros,
mientras que las familias con hijos suelen optar más por otros tipos de alojamiento. En
concreto, las familias con 1 o 2 hijos se manifiestan ligeramente partidarias de otros
alojamientos colectivos, mientras que las familias numerosas se inclinan de una forma
bastante más diáfana por los alojamientos privados.
También la temporada vacacional introduce diferencias en la elección de un
determinado tipo de alojamiento, según constatan los valores estimados de los
parámetros τikAT . Durante la temporada baja, se produce una clara preferencia por los
- 367 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 10.A
Asociación entre las categorías de la variable “alojamiento empleado” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Alojamiento empleado” y “Temporada vacacional”
Temporada alta
Temporada baja
Colectivo (0,148)
Hotelero (0,387)
Privado (0,240)
INTERACCION “Alojamiento empleado” y “Número de miembros del hogar familiar”
Familia con 1-2 hijos
Familia sin hijos
Hotelero (0,320)
Familia numerosa
Colectivo (0,063)
Colectivo (0,054)
Privado (0,056)
Privado (0,147)
Gráfico 10.B
Diferencias en la probabilidad de “utilizar alojamientos hoteleros”
( Logit: Hotelero vs Privado ) en función de la temporada vacacional y del número de
miembros del hogar familiar con independencia del nivel de ingresos
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
Probabilidad
Temporada alta
Temporada baja
Continúa en la página siguiente ...
- 368 -
90% 100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 10.B
( continuación )
Diferencias en la probabilidad de “utilizar alojamientos colectivos”
( Logit: Colectivo vs Privado ) en función de la temporada vacacional y del número de
miembros del hogar familiar con independencia del nivel de ingresos
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Temporada alta
Temporada baja
_________________________
alojamientos hoteleros en perjuicio de los demás, mientras que durante los meses de
Julio y Agosto los alojamientos más demandados son los englobados en “otros
alojamientos colectivos” y en “alojamientos privados”.
Continuando con el análisis de las probabilidades condicionadas estimadas
correspondientes a la comparación entre alojamientos hoteleros y alojamientos privados,
( Gráfico 10.B ) lo más destacable es lo siguiente:
- Durante los meses de Julio y Agosto, la probabilidad de hospedarse en
alojamientos hoteleros frente a hacerlo en alojamientos privados es siempre menor que
durante el resto del año.
- 369 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- La mayor probabilidad de elegir un alojamiento hotelero corresponde a las
familias sin hijos, con independencia de su nivel de ingresos, ya que para este colectivo
de turistas dicho valor se sitúa en un 62,69 % en temporada baja y en un 32,41 %
durante la temporada alta.
- Las familias numerosas que viajan en temporada alta son las que mayor
probabilidad tienen de hospedarse en alojamientos privados ( 83,29 % ). En temporada
baja, esta probabilidad se reduce drásticamente hasta un 58,71 %.
Por su parte, la comparación entre otros alojamientos colectivos y los
alojamientos privados permite extraer las siguientes lecturas:
- Aunque también existe una mayor probabilidad de utilizar otros alojamientos
colectivos frente a los alojamientos privados en temporada baja que en temporada alta,
esta diferencia es mucho menos acusada.
- Las diferencias en probabilidad dependiendo del número de miembros que
forman la familia son escasamente apreciables, ya que oscilan entre el 13,11 % de las
familias con más de 2 hijos que viajan en temporada alta y el 17,83 % de las familias sin
hijos que realizan su viaje en temporada baja.
A la vista de los resultados que arroja el análisis del tipo de alojamiento utilizado
a partir de estos dos grupos de variables, podemos ofrecer el siguiente perfil del turista
- 370 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
español:
Perfil del turista que utiliza alojamientos hoteleros
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad grande (0,064)
b) Según la edad del turista:
1º) Con edad entre 45 y 64 años (0,229)
2º) Con 65 años o más (0,210)
3º) Con edad entre 25 y 44 años (0,070)
c) Según su nivel de estudios:
1º) Con estudios superiores (0,043)
d) Según la temporada vacacional:
1º) En temporada baja (0,387)
Probabilidades máximas de utilizar
alojamientos hoteleros ( en comparación con
los alojamientos privados ):
Grupo A:
1º) Residentes en ciudades pequeñas, con
estudios secundarios y con una edad
comprendida entre 45 y 64 años ( 48,75 % )
2º) Residentes en ciudades medianas, con
estudios secundarios y con una edad
comprendida entre los 45 y los 64 años
( 41,99 % )
Grupo B:
e) Según el número de miembros de la familia: 1º) Familias sin hijos en temporada baja
1º) Familias sin hijos (0,320)
( 62,69 % )
2º) Familias con 1-2 hijos en temporada baja
( 45,54 % )
Perfil del turista que utiliza otros alojamientos colectivos
a) Según el tamaño del hábitat:
Probabilidades máximas de utilizar otros
1º) Residentes en una ciudad pequeña (0,158) alojamientos colectivos ( en comparación con
los alojamientos privados ):
b) Según la edad del turista:
1º) Con 24 años o menos (0,485)
Grupo A:
2º) Con edad entre 25 y 44 años (0,058)
1º) Residentes en ciudades pequeñas, sin
instrucción/sólo estudios primarios y con 24
c) Según su nivel de estudios:
años o menos ( 25,98 % )
1º) Con estudios secundarios (0,123)
2º) Residentes en ciudades pequeñas, con
estudios secundarios y con una edad
d) Según la temporada vacacional:
comprendida entre los 25 y los 44 años
1º) En temporada alta (0,148)
( 24,92 % )
e) Según el número de miembros de la familia: Grupo B:
1º) Familias con 1-2 hijos (0,063)
1º) Familias sin hijos en temporada baja
2º) Familias numerosas (0,054)
( 17,83 % )
2º) Familias con 1-2 hijos en temporada baja
( 16,70 % )
- 371 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Perfil del turista que utiliza alojamientos privados
a) Según el tamaño del hábitat:
Probabilidades máximas de utilizar
1º) Residentes en una ciudad grande (0,195)
alojamientos privados ( en comparación con
2º) Residentes en una ciudad mediana (0,027) los alojamientos hoteleros ):
b) Según la edad del turista:
1º) Con 65 años o más (0,054)
2º) Con edad entre 45 y 64 años (0,050)
3º) Con 24 años o menos (0,025)
Grupo A:
1º) Residentes en ciudades grandes, con
estudios secundarios y con 24 años o menos
( 92,39 % )
c) Según su nivel de estudios:
1º) Con estudios superiores (0,055)
2º) Sin/sólo estudios primarios (0,027)
Grupo B:
1º) Familias numerosas en temporada alta
( 83,29 % )
d) Según la temporada vacacional:
1º) En temporada alta (0,240)
Probabilidades máximas de utilizar
alojamientos privados ( en comparación con
otros alojamientos colectivos ):
e) Según el número de miembros de la familia:
1º) Familias numerosas (0,147)
Grupo A:
2º) Familias con 1-2 hijos (0,056)
1º) Residentes en ciudades grandes, con
estudios superiores y con una edad
comprendida entre los 45 y los 64 años
( 96,59 % )
Grupo B:
1º) Familias numerosas en temporada alta
( 86,89 % )
f) ORGANIZACIÓN DEL VIAJE.
Grupo A de variables ( O, H, E, S):
Las relaciones entre estas cuatro variables están explicadas por el modelo gráfico
y descomponible OEH, SEH, según el cual la forma de organizar el viaje difiere según
la edad del turista y según el tamaño del hábitat en el que resida. Sin embargo, la
- 372 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
organización del viaje es condicionalmente independiente del nivel de estudios, dadas
las dos variables anteriormente citadas.
En el Gráfico 11.A se observa, en primer lugar, una clara tendencia de los
turistas más jóvenes a organizar las vacaciones por su cuenta, mientras que el resto de
turistas prefieren viajar a través de una agencia de viajes o de otra institución que les
organice sus vacaciones. Esta inclinación hacia el viaje organizado se hace
especialmente patente entre los turistas con más de 65 años. También se observa que los
turistas que viven en ciudades que superan los 100.000 habitantes suelen organizar el
viaje por su cuenta, circunstancia que se constata, sobre todo, en las ciudades con una
población superior a 400.000 habitantes. Por otra parte, en las ciudades más pequeñas
los turistas acuden más a las agencias de viajes a solicitar vacaciones organizadas.
El análisis del Gráfico 11.B indica claramente que la mayor probabilidad de
organizar el viaje por cuenta propia corresponde a los turistas residentes en grandes
ciudades y menores de 24 años, la cual supera el 90 %, mientras que los que tienen una
menor probabilidad de organizar por su cuenta las vacaciones son los turistas mayores
de 65 años residentes en ciudades pequeñas, puesto que esta probabilidad se sitúa en
torno a un 62 %.
- 373 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 11.A
Asociación entre las categorías de la variable “organización del viaje” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Organización del viaje" y "Tamaño del hábitat"
-0,25
Cuenta propia
0,067
Organizada
0,183
Ciudad pequeña
Ciudad mediana
Ciudad grande
INTERACCION "Organización del viaje" y "Edad"
0,169
-0,003
Organizada
Cuenta propia
-0,013
-0,152
I. joven
I. menos joven (NS)
I. maduro
I. anciano
Gráfico 11.B
Diferencias en la probabilidad de “organizar el viaje por cuenta propia”
( logit: Cuenta propia vs Organizada ) en función del tamaño del hábitat y de la edad
con independencia del nivel de estudios
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 374 -
Ciudad grande
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Grupo B de variables ( O, I, T, N ):
De acuerdo con los resultados del análisis estadístico realizado, la organización
del viaje está condicionada por la temporada vacacional y por el número de miembros
de la familia, siendo, además, condicionalmente independiente del nivel de ingresos del
turista. Las estimaciones de los parámetros τ ijON del modelo no gráfico NTI, ON, OT
desvelan ( véase el Gráfico 12.A ) que son las familias sin hijos las que suelen preferir
los viajes organizados, y las familias con hijos las que optan en mayor medida por
organizar su tiempo de descanso por su cuenta.
En cuanto a la temporada vacacional, se observa una clara tendencia de los
turistas a realizar viajes organizados en la temporada baja y a organizar por su propia
cuenta las vacaciones cuando éstas tienen lugar durante los meses de Julio o Agosto.
En términos probabilísticos, destaca principalmente ( Gráfico 12.B ) el hecho de
que la probabilidad de organizar el viaje por cuenta propia es mayor en la temporada
alta que en la temporada baja, siendo la diferencia entre ambos períodos de tiempo
menos acusada cuando se trata de familias con 1 o 2 hijos. Por contra, cuando la familia
no tiene hijos se produce la mayor diferencia en probabilidad entre la temporada alta y la
temporada baja.
Con carácter general, la mayor probabilidad de organizar las vacaciones por
cuenta propia corresponde a las familias con 1 o 2 hijos durante la temporada alta, y se
- 375 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 12.A
Asociación entre las categorías de la variable “organización del viaje” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Organización del viaje" y "Temporada vacacional"
Organizada
0,286
-0,286
Cuenta propia
Temporada alta
Temporada baja
INTERACCION "Organización del viaje" y "Numero de miembros del
hogar familiar"
-0,15
0,099
0,051
Organizada
Familia sin hijos
Familia con 1-2 hijos
Cuenta propia
Familia numerosa
Gráfico 12.B
Diferencias en la probabilidad de “organizar el viaje por cuenta propia”
( logit: Cuenta propia vs Organizada ) en función de la temporada vacacional y del
número de miembros del hogar familiar con independencia del nivel de ingresos
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
Probabilidad
Temporada alta
Temporada baja
- 376 -
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
cifra en un 89,26 %. Por el contrario, la mayor probabilidad de optar por viajes
organizados corresponde a las familias sin hijos que viajan durante la temporada baja, la
cual se estima en un 38,32 %.
Realizado este breve análisis, es posible discernir las características de los
turistas según la forma de organizar su viaje de vacaciones. Prueba de ello es el
siguiente esquema:
Perfil del turista que organiza
las vacaciones por su cuenta
Perfil del turista que viaja
a través de agencias de viajes
a) Según el tamaño del hábitat:
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad pequeña (0,250)
1º) Residentes en una ciudad grande (0,183)
2º) Residentes de una ciudad mediana (0,067)
b) Según la edad del turista:
1º) Con 24 años o menos (0,169)
b) Según la edad del turista:
1º) Con 65 años o más (0,152)
2º) Con una edad entre 45 y 64 años (0,013)
c) Según la temporada vacacional:
1º) En temporada alta (0,286)
c) Según la temporada vacacional:
1º) En temporada baja (0,286)
d) Según el número de miembros de la familia: d) Según el número de miembros de la familia:
1º) Familias sin hijos (0,150)
1º) Familias con 1-2 hijos (0,099)
2º) Familias numerosas (0,051)
Probabilidades máximas de viajar a través de
agencias de viajes:
Probabilidades máximas de organizar las
vacaciones por cuenta propia:
Grupo A:
Grupo A:
1º) Residentes en ciudades grandes y con 24 1º) Residentes en ciudades pequeñas y con
años o menos ( 91,98 % )
65 años o más ( 37,38 % )
2º) Residentes en ciudades grandes y con 65 2º) Residentes en ciudades pequeñas y con
años o más ( 90,41 % )
una edad entre 45 y 64 años ( 23,04 % )
Grupo B:
1º) Familias con 1-2 hijos en temporada alta
( 89,26 % )
2º) Familias numerosas en temporada alta
( 88,31 % )
Grupo B:
1º) Familias sin hijos en temporada baja
( 38,32 % )
2º) Familias numerosas en temporada baja
( 29,36 % )
- 377 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
g) DURACIÓN DEL VIAJE.
Grupo A de variables ( D, H, E, S):
El modelo gráfico y descomponible DSE, DSH determina que la mayor o menor
duración del viaje vacacional está condicionada por las tres variables restantes. En
primer lugar, el tamaño del hábitat es un factor determinante en la duración del viaje. Si
se interpretan las estimaciones de los efectos de interacción τilDH , que se recogen en el
Gráfico 13.A, se podrá apreciar que en las ciudades más pequeñas hay una clara
tendencia a realizar viajes de duración corta y una preferencia menos acusada por los
viajes de duración media. También se constata que cuanto mayor es el tamaño de la
ciudad, más se alarga también la duración media del viaje. Así, en las ciudades que
superan los 400.000 habitantes, los turistas optan de forma contundente por realizar
viajes de larga duración.
También la edad del individuo condiciona la duración del viaje. Al igual que
ocurría con el tamaño del hábitat, el modelo log-lineal seleccionado constata que cuanto
más avanzada es la edad del turista, mayor es la duración del viaje. Así, los individuos
más jóvenes se muestran claramente partidarios de realizar viajes de corta duración;
aquellos que tienen entre 25 y 44 años también optan por viajes cortos, pero no
descartan la posibilidad de realizar viajes con una duración de 8 a 15 días. Por su parte,
los turistas que tienen entre 45 y 64 años efectúan generalmente viajes de larga
duración, aunque en ocasiones también realizan viajes de duración media; siendo,
- 378 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 13.A
Asociación entre las categorías de la variable “duración del viaje” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Duración del viaje” y “Tamaño del hábitat”
Ciudad mediana
Ciudad pequeña
Ciudad grande
Viaje corto (0,161)
Viaje corto (0,020)
Viaje medio (0,123)
Viaje largo (0,009)
(NS)
Viaje largo (0,275)
INTERACCION “Duración del viaje” y “Edad”
Individuo joven
Individuo menos joven
Viaje corto (0,274)
Individuo maduro
Individuo anciano
Viaje corto (0,100)
Viaje medio (0,050)
Viaje medio (0,080)
Viaje largo (0,107)
Viaje largo (0,248)
INTERACCION “Duración del viaje” y “Nivel de estudios”
Sin/sólo estudios primarios
Con estudios secundarios
Viaje corto (0,063)
Viaje medio (0,182)
Viaje largo (0,025)
- 379 -
Con estudios superiores
Viaje largo (0,106)
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
finalmente, los turistas con 65 años o más los que, con diferencia, mayor número de días
dedican a su período vacacional.
La tercera variable que explica las diferencias en la duración del viaje es el nivel
de estudios. En relación a esta variable, se observan dos tendencias bastante claras: la de
aquellos que no tienen instrucción o sólo poseen estudios primarios, que optan
claramente por viajes de duración media; y la de los turistas con estudios superiores, que
se decantan por viajes de más de 15 días de duración. En una posición intermedia se
encuentran los individuos con estudios secundarios, que reparten sus preferencias entre
viajes cortos y viajes largos.
El análisis de las probabilidades condicionadas ( véanse el Anexo 1 y el Gráfico
13.B ) requiere de nuevo hacer una pequeña matización: se han calculado las
probabilidades de realizar un viaje corto y las probabilidades de realizar un viaje de
duración media, en ambos casos con respecto a las probabilidades asociadas a la tercera
categoría de la variable respuesta, esto es, a la realización de un viaje largo. Ello explica
la existencia de dos tablas de probabilidades.
En la comparación entre viajes cortos y viajes largos, sólo los turistas sin
instrucción o con estudios primarios que residen en ciudades pequeñas y que no superan
los 45 años de edad tienen una mayor probabilidad de realizar un viaje corto que de
realizar un viaje largo ( 57,71 % y 55,33 % ). Para el resto de turistas, la probabilidad de
realizar un viaje largo es claramente superior a la de realizar un viaje corto.
- 380 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 13.B
Diferencias en la probabilidad de “realizar un viaje corto”
( Logit: Viaje corto vs Viaje largo ) en función del tamaño del hábitat, de la edad y
del nivel de estudios
A) Sin instrucción o sólo con estudios primarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
B) Con estudios secundarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
C) Con estudios superiores:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Continúa en la página siguiente ...
- 381 -
Ciudad grande
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 13.B
( continuación )
Diferencias en la probabilidad de “realizar un viaje medio”
( Logit: Viaje medio vs Viaje largo ) en función del tamaño del hábitat, de la edad y
del nivel de estudios
A) Sin instrucción o sólo con estudios primarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
B) Con estudios secundarios:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
C) Con estudios superiores:
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Ciudad pequeña
Ciudad mediana
- 382 -
Ciudad grande
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Concretamente, los turistas con mayor probabilidad de optar por un viaje de más
de 15 días de duración son los residentes en grandes urbes, tanto aquellos que superan
los 65 años y tienen un bajo nivel de estudios ( 90,53 % ) como aquellos otros que
tienen entre 45 y 64 años y poseen estudios superiores ( 90,10 % ).
Si se comparan las probabilidades asociadas a un viaje de duración media y a un
viaje largo, se podrá constatar que la primera va disminuyendo conforme el tamaño del
hábitat aumenta y conforme el nivel de instrucción del entrevistado se eleva. De hecho,
los turistas que tienen una escasa formación educativa y que residen en ciudades que no
superan los 100.000 habitantes son los que más claramente prefieren un viaje de
duración media a uno de duración larga, ya que la probabilidad de elegir la primera de
estas opciones oscila entre un 56 % y un 68 %. En el extremo opuesto, los turistas con
estudios superiores que residen en las grandes urbes acaparan las probabilidades más
bajas de realizar viajes de duración media, ya que las mismas oscilan entre el 23,49 %
de aquellos que tienen entre 45 y 64 años y el 35,92 % de los que tienen entre 25 y 44
años.
Grupo B de variables ( D, I, T, N):
El análisis de la asociación entre estas cuatro variables determina que, si bien el
nivel de ingresos, el número de miembros de la familia y la temporada vacacional están
interrelacionadas, la duración del viaje sólo tiene relación directa con ésta última.
- 383 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 14.A
Asociación entre las categorías de la variable “duración del viaje” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Duración del viaje” y “Temporada vacacional”
Temporada alta
Temporada baja
Viaje largo (0,296)
Viaje corto (0,196)
Viaje medio (0,100)
Gráfico 14.B
Diferencias en la probabilidad de “realizar un viaje corto”
( Logit: Viaje corto vs Viaje largo ) en función de la temporada vacacional
Temporada baja
Temporada alta
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Probabilidad
Diferencias en la probabilidad de “realizar un viaje medio”
( Logit: Viaje medio vs Viaje largo ) en función de la temporada vacacional
Temporada baja
Temporada alta
0%
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
Probabilidad
- 384 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Efectivamente, el modelo gráfico NTI, DT significa que tanto el nivel de
ingresos como el número de miembros del hogar familiar son condicionalmente
independientes de la duración del viaje, y que ésta sólo está condicionada por la
temporada vacacional. La forma en que se relacionan estas dos variables viene
determinada por las estimaciones de los parámetros τikDT del anterior modelo ( Gráfico
14.A ). Según los valores que arrojan las mismas, es durante la temporada alta ( meses
de Julio y Agosto ) cuando se realizan viajes largos, mientras que en temporada baja
predominan sobre todo los viajes de menos de 8 días de duración y , en menor medida,
los viajes de duración media.
De acuerdo con lo anterior, la probabilidad de realizar un viaje corto ( o un viaje
de duración media ) en lugar de un viaje de más de 15 días de duración sólo variará en
función de la época del año que se considere. Así, según se observa en el Gráfico 14.B,
sea cual sea tanto el nivel de ingresos como el número de miembros que forman la
unidad familiar, la probabilidad de realizar un viaje corto es superior a la de realizar un
viaje largo en temporada baja ( 54,54 % frente a 45,46 % ), pero es claramente inferior
durante los meses de Julio y Agosto ( 30,96 % frente a 69,04 % ).
Sin embargo, cuando se comparan viajes de duración media con viajes largos,
siempre se prefieren aquellos a éstos, circunstancia que ocurre tanto en temporada alta
( 52,42 % frente a 57,48 % ) como en temporada baja ( 70,87 % frente a 29,13 % ).
- 385 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Finaliza el análisis de la duración del viaje con el cuadro resumen que se muestra
a continuación, en el que se definen las características esenciales del turista en función
de la mayor o menor duración de su período vacacional:
Perfil del turista que realiza viajes de corta duración
a) Según el tamaño del hábitat:
Probabilidades máximas de realizar un viaje de
1º) Residentes en una ciudad pequeña (0,161) corta duración ( en comparación con
2º) Residentes de una ciudad mediana (0,020) realizar un viaje largo ):
b) Según la edad del turista:
1º) Con 24 años o menos (0,274)
2º) Con edad entre 25 y 44 años (0,100)
c) Según su nivel de estudios:
1º) Con estudios secundarios (0,063)
d) Según la temporada vacacional:
1º) En temporada baja (0,196)
Grupo A:
1º) Residentes en ciudades pequeñas, sin
instrucción/sólo estudios primarios y con 24
años o menos ( 57,71 % )
2º) Residentes en ciudades pequeñas, sin
instrucción/sólo estudios primarios y con una
edad comprendida entre los 25 y los 44 años
( 55,33 % )
Grupo B:
1º) En temporada baja ( 54,54 % )
Perfil del turista que realiza viajes de duración media
a) Según el tamaño del hábitat:
Probabilidades máximas de realizar un viaje de
1º) Residentes en una ciudad pequeña (0,123) duración media ( en comparación con
realizar un viaje largo ):
b) Según la edad del turista:
1º) Con edad entre 25 y 44 años (0,080)
Grupo A:
2º) Con edad entre 45 y 64 años (0,050)
1º) Residentes en ciudades pequeñas, sin
instrucción/sólo estudios primarios y con 24
c) Según su nivel de estudios:
años o menos ( 68,40 % )
1º) Sin/sólo estudios primarios (0,182)
2º) Residentes en ciudades pequeñas, sin
instrucción/sólo estudios primarios y con una
d) Según la temporada vacacional:
edad comprendida entre los 25 y los 44 años
1º) En temporada baja (0,100)
( 63,09 % )
Grupo B:
1º) En temporada baja ( 70,87 % )
- 386 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Perfil del turista que realiza viajes de larga duración
a) Según el tamaño del hábitat:
1º) Residentes en una ciudad grande (0,275)
b) Según la edad del turista:
1º) Con 65 años o más (0,248)
2º) Con edad entre 45 y 64 años (0,107)
Probabilidades máximas de realizar un viaje de
larga duración ( en comparación con
realizar un viaje de corta duración ):
Grupo A:
1º) Residentes en ciudades grandes, sin
instrucción/sólo estudios primarios y con 65
años o más ( 90,53 % )
c) Según su nivel de estudios:
1º) Con estudios superiores (0,106)
2º) Con estudios secundarios (0,025)
Grupo B:
1º) En temporada alta ( 69,04 % )
d) Según la temporada vacacional:
1º) En temporada alta (0,296)
Probabilidades máximas de realizar un viaje de
larga duración ( en comparación con
realizar un viaje de duración media ):
Grupo A:
1º) Residentes en ciudades grandes, con
estudios secundarios y con 65 años o más
( 81,43 % )
Grupo B:
1º) En temporada alta( 47,58 % )
h) FORMA DE VIAJAR.
Grupo A de variables ( F, H, E, S ):
Si nos atenemos al modelo gráfico FEH, SEH, la forma de viajar del turista está
influenciada por el tamaño del hábitat y por la edad del individuo, pero no por su nivel
de estudios, el cual es condicionalmente independiente de la variable respuesta. Si se
profundiza en la asociación existente entre la forma de viajar y el tamaño del hábitat
( Gráfico 15.A ), podrá deducirse que mientras en las ciudades pequeñas existe una
- 387 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 15.A
Asociación entre las categorías de la variable “forma de viajar” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Forma de viajar” y “Tamaño del hábitat”
Ciudad mediana
Ciudad pequeña
Ciudad grande
En grupo (0,216)
Solo (0,032)
Solo (0,069)
En familia (0,046)
En familia (0,068)
INTERACCION “Forma de viajar” y “Edad”
Individuo joven
Individuo menos joven
Individuo maduro
Solo (0,102)
En familia (0,087)
En grupo (0,478)
En grupo (0,109)
Individuo anciano
En familia (0,416)
Solo (0,177)
En familia (0,078)
Gráfico 15.B
Diferencias en la probabilidad de “viajar solo”
( Logit: Solo vs En grupo ) en función del tamaño del hábitat y de la edad
con independencia del nivel de estudios
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
Probabilidad
Ciudad pequeña
Ciudad mediana
Continúa en la página siguiente ...
- 388 -
Ciudad grande
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 15.B
( continuación )
Diferencias en la probabilidad de “viajar en familia”
( Logit: En familia vs En grupo ) en función del tamaño del hábitat y de la edad
con independencia del nivel de estudios
I. joven
I. menos joven
I. maduro
I. anciano
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Probabilidad
Ciudad pequeña
Ciudad mediana
Ciudad grande
_________________________
fuerte tendencia a viajar en grupo, en las ciudades que superan los 100.000 habitantes, el
turista opta más por viajar solo o en familia.
Por otra parte, los individuos más jóvenes ( menores de 45 años ) son los que
más claramente partidarios se manifiestan de viajar en grupo. Sin embargo, los sujetos
que tienen entre 45 y 64 años generalmente viajan en familia, de la misma forma que los
turistas menores de 24 años y los mayores de 65 son los que optan de forma más clara
por viajar solos.
Si se confrontan las opciones de viajar solo y de viajar en grupo desde una óptica
probabilística ( Gráfico 15.B ), se comprobará que la segunda de ellas es mucho más
probable que la primera, ya que ninguna de las probabilidades de viajar solo supera el
- 389 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
50 %. De hecho, los individuos que mayor probabilidad tienen de viajar sin compañía
son aquellos que superan los 65 años, tanto si residen en ciudades grandes ( 40,30 % )
como si lo hacen en ciudades que nos superan los 100.000 habitantes ( 34,21 % ). En el
extremo opuesto se encuentran los turistas con menos de 24 años y los que tienen una
edad comprendida entre los 25 y los 44 años, residentes en ambos casos en ciudades
pequeñas, cuyas probabilidades de viajar en grupo se cifran en un 89,02 % y en un 86,97
%, respectivamente.
Más revelador es posiblemente el análisis comparativo entre viajar en familia y
hacerlo en grupo, ya que en el mismo se pone claramente de manifiesto que disfrutar las
vacaciones acompañado de la familia es la opción más frecuente entre los turistas
españoles. De hecho, la probabilidad de viajar en familia se incrementa con la edad del
turista, hasta el punto de que alcanza valores del 92 % entre los turistas mayores de 45
años, especialmente entre los residentes en ciudades con más de 100.000 habitantes. Por
contra, los individuos que no superan los 24 años de edad ostentan las probabilidades
más elevadas de viajar en grupo, especialmente cuanto menor sea el tamaño de la ciudad
en la que residen habitualmente ( 42,87 % en ciudades pequeñas; 33,92 % en ciudades
medianas y 29,82 % en ciudades grandes ).
- 390 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Grupo B de variables ( F, I, T, N ):
El modelo log-lineal que explica de forma más adecuada la asociación que existe
entre estas cuatro variables es el modelo gráfico FNT, NTI, según el cual la forma de
viajar es la misma sea cual sea el nivel de ingresos del turista, pero cambiará en función
del número de miembros de la familia y de la temporada vacacional.
En el Gráfico 16.A se observa que el turista que pertenece a una familia sin hijos
( puede tratarse de un individuo casado, pero también de un soltero, de un viudo o de un
divorciado ) es el que manifiesta una tendencia más clara a viajar solo. Sin embargo, el
turista perteneciente a una familia con 1 o 2 hijos suele viajar en familia, como es, por
otra parte, lógico.
Con respecto a la temporada vacacional, se constata que los viajes familiares
proliferan más en los meses de Julio y Agosto, mientras que durante el resto del año el
turista viaja o bien solo o bien en grupo.
Cuando se calcula la probabilidad de viajar solo frente a la probabilidad de viajar
en grupo, condicionada al número de miembros de la familia y a la temporada
vacacional, se observa ( Gráfico 16.B ) que la probabilidad de viajar solo generalmente
es mayor en temporada alta que en temporada baja en las familias sin hijos y en las
familias numerosas, y es inferior en temporada alta en las familias con 1 o 2 hijos. A
pesar de ello, en todos los casos es bastante más probable viajar en grupo que hacerlo
- 391 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 16.A
Asociación entre las categorías de la variable “forma de viajar” y las categorías
de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION “Forma de viajar” y “Temporada vacacional”
Temporada alta
Temporada baja
En familia (0,315)
Solo (0,177)
En grupo (0,138)
INTERACCION “Forma de viajar” y “Número de miembros del hogar familiar”
Familia con 1-2 hijos
Familia sin hijos
Familia numerosa
En familia (0,343)
Solo (0,221)
Solo (0,072)
En grupo (0,068)
Gráfico 16.B
Diferencias en la probabilidad de “viajar solo”
( Logit: Solo vs En grupo ) en función de la temporada vacacional y del número
de miembros del hogar familiar con independencia del nivel de ingresos
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
Probabilidad
Temporada alta
Temporada baja
Continúa en la página siguiente ...
- 392 -
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 16.B
( continuación )
Diferencias en la probabilidad de “viajar en familia”
( Logit: En familia vs En grupo ) en función de la temporada vacacional y del número
de miembros del hogar familiar con independencia del nivel de ingresos
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
0%
10%
20%
30%
40%
50%
60%
70%
80%
90% 100%
Probabilidad
Temporada alta
Temporada baja
_________________________
solo, ya que ninguna de las probabilidades calculadas supera el 50 %.
Sin embargo, al comparar el viaje en familia con el viaje en grupo, se llega a la
conclusión de que la probabilidad asociada a la primera de estas dos opciones es
claramente superior a la de la segunda. De hecho, la probabilidad de viajar en familia
frente a hacerlo en grupo fluctúa entre el 57,15 % de las familias numerosas en
temporada baja y el 87,18 % de las familias con 1 o 2 hijos en temporada alta. En
cualquier caso, sea cual sea el número de miembros del hogar familiar, la probabilidad
de viajar en familia es siempre mayor en temporada alta que en temporada baja.
- 393 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Así pues, el perfil del turista español según viaje solo, lo haga en familia o lo
haga en grupo es el que refleja sintéticamente el siguiente esquema:
Perfil del turista que viaja solo
a) Según el tamaño del hábitat:
Probabilidades máximas de viajar solo
1º) Residentes en una ciudad grande (0,069)
( en comparación con viajar en grupo ):
2º) Residentes en una ciudad mediana (0,032)
Grupo A:
b) Según la edad del turista:
1º) Residentes en ciudades grandes y con 65
1º) Con 65 años o más (0,177)
años o más ( 40,30 % )
2º) Con 24 años o menos (0,102)
2º) Residentes en ciudades pequeñas y con
65 años o más ( 34,21 % )
c) Según la temporada vacacional:
1º) En temporada baja (0,177)
Grupo B:
1º) Familias sin hijos en temporada alta
d) Según el número de miembros de la familia: ( 24,64 % )
1º) Familias sin hijos (0,221)
2º) Familias con 1-2 hijos en temporada baja
2º) Familias numerosas (0,072)
( 21,17 % )
Perfil del turista que viaja en familia
a) Según el tamaño del hábitat:
Probabilidades máximas de viajar en familia
1º) Residentes en una ciudad grande (0,068)
( en comparación con viajar en grupo ):
2º) Residentes en una ciudad mediana (0,046)
Grupo A:
b) Según la edad del turista:
1º) Residentes en ciudades medianas y con
1º) Con edad entre 45 y 64 años (0,416)
una edad comprendida entre los 45 y los 64
2º) Con edad entre 25 y 44 años (0,087)
años ( 92,86 % )
3º) Con 65 años o más (0,078)
2º) Residentes en ciudades grandes y con una
edad comprendida entre los 45 y los 64 años
c) Según la temporada vacacional:
( 92,35 % )
1º) En temporada alta (0,315)
Grupo B:
d) Según el número de miembros de la familia: 1º) Familias con 1-2 hijos en temporada alta
1º) Familias con 1-2 hijos (0,343)
( 87,18 % )
2º) Familias numerosas en temporada alta
( 84,79 % )
- 394 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Perfil del turista que viaja en grupo
a) Según el tamaño del hábitat:
Probabilidades máximas de viajar en grupo
1º) Residentes en una ciudad pequeña (0,216) ( en comparación con viajar solo ):
b) Según la edad del turista:
1º) Con 24 años o menos (0,478)
2º) Con edad entre 25 y 44 años (0,109)
Grupo A:
1º) Residentes en ciudades pequeñas y con
24 años o menos ( 89,02 % )
c) Según la temporada vacacional:
1º) En temporada baja (0,138)
Grupo B:
1º) Familias con 1-2 hijos en temporada alta
( 90,25 % )
e) Según el número de miembros de la familia:
1º) Familias numerosas (0,068)
Probabilidades máximas de viajar en grupo
( en comparación con viajar en familia ):
Grupo A:
1º) Residentes en ciudades pequeñas y con
24 años o menos ( 42,87 % )
Grupo B:
1º) Familias numerosas en temporada baja
( 42,85 % )
i) FRACCIONAMIENTO VACACIONAL.
Grupo A de variables ( F, H, E, S ):
El modelo óptimo es, en este caso, el modelo gráfico y descomponible SEH, FS,
que determina que el hecho de disfrutar las vacaciones de forma continuada o de
fraccionarlas en dos o más períodos dependerá únicamente del nivel de estudios del
turista. Las otras dos variables del modelo, la edad del individuo y el tamaño del hábitat
en el que reside, son condicionalmente independientes del fraccionamiento vacacional.
En consecuencia, a partir de las estimaciones de los parámetros que relacionan el
- 395 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 17.A
Asociación entre las categorías de la variable “fraccionamiento vacacional” y las
categorías de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Fraccionamiento vacacional" y "Nivel de estudios"
0,262
Sí fracciona
No fracciona
-0,033
-0,229
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Gráfico 17.B
Diferencias en la probabilidad de disfrutar de las vacaciones “de forma continuada”
( logit: No fracciona vs Sí fracciona ) en función del nivel de estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
0%
10%
20%
30%
40%
50%
60%
Probabilidad
- 396 -
70%
80%
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
fraccionamiento vacacional con el nivel de estudios ( Gráfico 17.A ), se puede concluir
que los turistas sin instrucción o que sólo poseen estudios primarios suelen disfrutar de
sus vacaciones de forma continuada, a diferencia de aquellos que poseen unos niveles de
estudios más elevados, que optan por fraccionar sus vacaciones, circunstancia que queda
FS
claramente patente en los turistas con estudios superiores ( τ! 23
= - 0,229 ).
Por otra parte, al depender únicamente del nivel de estudios, las probabilidades
asociadas a disfrutar las vacaciones en un solo período o a hacerlo en dos o más veces
diferirán únicamente en función de que el nivel formativo del individuo sea mayor o
menor. En el Gráfico 17.B se observa que mientras los turistas sin instrucción o con
estudios primarios tienen una probabilidad de un 88,12 % de no fraccionar sus
vacaciones, en los turistas con estudios superiores esta probabilidad desciende a un
80,44 %. De igual manera, es a los turistas con estudios superiores a los que les
corresponde la probabilidad más baja de salir de vacaciones en un único período de
tiempo ( 73,54 % ).
Grupo B de variables ( F, I, T, N ):
La única variable que introduce diferencias significativas en la mayor o menor
inclinación del turista hacia una de las dos opciones que plantea la variable
fraccionamiento turístico es el nivel de ingresos, ya que el modelo que mejor reproduce
las relaciones entre estas cuatro variables es NTI, FI. En concreto, los sujetos con
niveles de renta mensuales inferiores a 100.000 pesetas optan por un agrupamiento de
- 397 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Gráfico 18.A
Asociación entre las categorías de la variable “fraccionamiento vacacional” y las
categorías de las variables explicativas consideradas en el análisis
( Estimación de los efectos de interacción de segundo orden )
INTERACCION "Fraccionamiento vacacional" y "Nivel de ingresos"
0,243
Sí fracciona
No fracciona
0,005
-0,248
Ingresos bajos
Ingresos medios (NS)
Ingresos altos
Gráfico 18.B
Diferencias en la probabilidad de disfrutar de las vacaciones “de forma continuada”
( logit: No fracciona vs Sí fracciona ) en función del nivel de ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
0%
10%
20%
30%
40%
50%
60%
Probabilidad
- 398 -
70%
80%
90%
100%
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
sus vacaciones en un solo período ( véase el Gráfico 18.A ). Prácticamente esta misma
FI
FI
inclinación, pero esta vez en sentido opuesto ( τ! 11
= 0,243; τ! 13
= - 0,248 ) se observa
entre los que perciben mayores niveles de renta, que se manifiestan claramente
partidarios de fraccionar sus vacaciones en dos o más períodos.
La probabilidad estimada de fraccionar las vacaciones para un turista cuyo nivel
de ingresos sea elevado es de un 28,41 % ( Gráfico 18.B ). Esta probabilidad se va
reduciendo a medida que disminuye el nivel de ingresos del entrevistado, ya que se cifra
en un 19,31 % para aquellos que perciben un nivel medio de ingresos, y desciende hasta
un 12,94 % para los turistas que obtienen ingresos mensuales bajos.
Como epílogo al análisis de este conjunto de nueve variables turísticas,
reproducimos en el siguiente esquema lo más destacado del turista que fracciona sus
vacaciones y de aquel que no lo hace.
Perfil del turista que no fracciona
sus vacaciones
Perfil del turista que fracciona
sus vacaciones en dos o más períodos
a) Según su nivel de estudios:
1º) Sin/sólo estudios primarios (0,262)
a) Según su nivel de estudios:
1º) Con estudios superiores (0,229)
2º) Con estudios secundarios (0,033)
b) Según su nivel de ingresos:
1º) Con ingresos bajos (0,243)
b) Según su nivel de ingresos:
1º) Con ingresos altos (0,248)
Probabilidades máximas de no fraccionar las
vacaciones:
Probabilidades máximas de fraccionar las
vacaciones:
Grupo A:
1º) Sin instrucción/sólo estudios primarios
( 88,12 % )
Grupo A:
1º) Con estudios superiores ( 26,46 % )
Grupo B:
1º) Turistas con ingresos bajos ( 87,06 % )
Grupo B:
1º) Turistas con ingresos altos ( 28,41 % )
- 399 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
3. SEGMENTACIÓN DE LA POBLACIÓN ESPAÑOLA SEGÚN SU ACTITUD
ANTE LAS VACACIONES.
Como complemento al análisis de las variables turísticas realizado en el apartado
anterior, nos planteamos a continuación demostrar la potencialidad del modelo de
Análisis de Clases Latentes como técnica de segmentación de mercados. En concreto,
nos proponemos clasificar a la demanda turística española tomando como criterio su
actitud ante las vacaciones. Los datos utilizados para llevar a cabo esta segmentación
han sido nuevamente los del estudio nº 2.193 de Centro de Investigaciones Sociológicas
sobre el “comportamiento de los españoles ante las vacaciones”. Uno de los objetivos
de este estudio era conocer en qué consisten las vacaciones ideales para el ciudadano
español. Para la consecución de este objetivo, se proponían, en la pregunta 37 del
cuestionario, una serie de frases contrapuestas, al objeto de que el entrevistado se
manifestase sobre cuál de ellas se identificaba más con su forma de pensar.
Pues bien, de las doce series de frases contrapuestas que se recogen en la citada
pregunta, hemos seleccionado cinco de ellas, que constituirán la base sobre la cual se
llevará a cabo la segmentación. En este proceso de selección se han eliminado las frases
menos significativas y se optado por incluir en el análisis aquellas otras frases que,
recogiendo diferentes aspectos del comportamiento del turista, pueden ser indicadores
claros de la actitud de los españoles ante las vacaciones.
- 400 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Las cinco series seleccionadas, que designaremos en lo sucesivo como variables
A, B, C, D y E, respectivamente, son las siguientes:
Variable A: en relación al lugar elegido para pasar las vacaciones:
Categoría 1: Prefiero ir a un sitio y quedarme en él ( estático ).
Categoría 2: Prefiero recorrer diversos lugares, ir de un sitio a otro
( dinámico ).
Variable B: en relación al carácter rural o urbano del lugar elegido:
Categoría 1: Me gustan los espacios abiertos, estar en contacto con la
naturaleza ( ecologista ).
Categoría 2: Prefiero los lugares urbanizados, tener todos los servicios
( cosmopolita ).
Variable C: en relación a la forma de organizar las vacaciones:
Categoría 1: Me gusta organizar las vacaciones por mi cuenta, a mi manera
( independiente ).
Categoría 2: Prefiero ir en un grupo organizado y no preocuparme de nada
( despreocupado ).
Variable D: en relación a los gastos durante las vacaciones:
Categoría 1: Cuido mucho mis gastos durante las vacaciones, tratando de no
pasarme de lo previsto ( ahorrador ).
- 401 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Categoría 2: no me preocupo de los gastos en vacaciones y hago lo que me
apetece ( derrochador ).
Variable E: en relación al carácter más o menos social del turista:
Categoría 1: Prefiero ir de vacaciones a lugares donde hay mucha gente, a
sitios animados ( marchoso ).
Categoría 2: Prefiero ir a un sitio tranquilo donde no haya mucha gente
( tranquilo ).
A partir de estas cinco variables, se puede elaborar una tabla de contingencia de
dimensión 2x2x2x2x2, en la que se recoge la clasificación cruzada de las mismas. Dicha
tabla es la que se muestra a continuación:
Tabla 7
VARIABLE A
VARIABLE B
VARIABLE C
Independiente
Ecologista
Despreocupado
Estático
Independiente
Cosmopolita
Despreocupado
Independiente
Ecologista
Despreocupado
Dinámico
Independiente
Cosmopolita
Despreocupado
Tamaño muestral: 3.217 entrevistas
VARIABLE D
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
- 402 -
VARIABLE E
Marchoso
Tranquilo
124
611
57
160
38
104
9
25
81
140
53
34
33
70
8
6
269
473
134
190
88
108
38
33
82
57
61
30
36
31
25
9
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
En principio, podría admitirse que las cinco variables seleccionadas pueden ser
indicadores de una variable que no puede ser directamente observada, como podría ser
el comportamiento turístico de los españoles que, en lo sucesivo, designaremos como
Variable X. El principio de independencia local implicaría en este caso admitir que las
variables elegidas están correlacionadas entre sí, pero que esta correlación desaparece
cuando se fija un nivel ( o clase ) de la variable X. Según la terminología logarítmicolineal, se podría afirmar que cada una de las cinco variables seleccionadas es
condicionalmente independiente de las demás, dadas las diferentes categorías de la
variable X. Esto significa que en el supuesto de que existiese un modelo ACL que
explicase la asociación existente entre las variables manifiestas y la variable latente X,
dicho modelo podría expresarse, en términos log-lineales, como AX, BX, CX, DX, EX.
En el razonamiento anterior, hemos supuesto la existencia de una variable
latente. Sin embargo, esta hipótesis de partida debe ser contrastada, ya que la ausencia
de la misma significaría la imposibilidad de segmentar la población considerada. La
forma de verificar si esta hipótesis inicial es admisible es contrastar el modelo de
independencia completa ( que vendría expresado, según la terminología log-lineal, por
A, B, C, D, E, X ), que es equivalente a un modelo ACL en el que la variable latente
posee una sola clase. Así, si el modelo de independencia completa fuese admitido,
estaríamos aceptando que las variables observadas A, B, C, D y E están
incorrelacionadas y que, por consiguiente, no sería necesaria una variable latente para
explicar la asociación entre las variables observadas, ya que áquella no existe. En caso
contrario, se podrá admitir la existencia de la variable latente comportamiento
- 403 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
turístico, lo que nos daría pie a utilizar el modelo ACL para realizar la segmentación de
la demanda turística española.
Pues bien, la estimación del modelo de independencia completa para los datos de
la Tabla 7 arrojó los siguientes resultados:
Modelo
Independencia completa
G2
p
χ2
p
g.l.
416,241600
0,0000
422,580800
0,0000
26
A la vista de los valores de los tests de Pearson y de razón de verosimilitud, el
modelo de independencia completa debe ser rechazado tanto a un 1 % como a un 5 % de
nivel de significación. En consecuencia, podemos admitir la existencia de la variable
latente comportamiento turístico como origen de las interdependencias existentes entre
las cinco variables manifiestas que están siendo consideradas en el análisis.
Admitida la posibilidad de segmentar la demanda turística española mediante un
modelo ACL, el siguiente paso consistirá en determinar en cuántas clases o segmentos
deberá dividirse la población objeto de análisis. Para ello, habrá que tener en cuenta que
el número de clases latentes del modelo está condicionado por el hecho de que el
número de grados de libertad necesarios para contrastar el modelo no sea negativo, es
decir, que el modelo esté identificado, para lo cual deberá verificarse, para una tabla de
contingencia de dimensión cinco como la que nos ocupa, lo siguiente:
IJKLM > (I+J+K+L+M-4)T
- 404 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
siendo I, J, K, L y M las categorías de las variables observadas A, B, C, D y E,
respectivamente, y T el número de clases de la variable latente X. Dado que, en este
caso, todas las variables observadas son dicotómicas, deberá verificarse que 32 > 6T.
Esto significa que el modelo ACL podrá definirse con un mínimo de T=2 clases latentes
y con un máximo de T=5 clases latentes, ya que si T ≥ 6, el modelo resultante no estaría
identificado, por lo que no podría ser estimado ni contrastado estadísticamente.
Para determinar cuál es el número óptimo de clases latentes, hemos procedido a
estimar el modelo ACL con T clases latentes ( para T = 2, 3, 4, 5 ). El programa
utilizado para realizar estas estimaciones es la versión 4.0 del MLLSA, desarrollado
inicialmente por C. Clogg y posteriormente mejorado por S. Eliason. Este programa
utiliza el algoritmo EM para obtener las estimaciones máximo-verosímiles de las
probabilidades de clase latente y de las probabilidades condicionadas. En todos los
cálculos realizados, se ha fijado un nivel de tolerancia de 10-7 y un máximo de 500.000
iteraciones. Teniendo en cuenta todo lo anterior, el resultado de la estimación de los
correspondientes modelos ACL es el que se muestra a continuación:
p
g.l.
Nº
iteraciones
162,111100
0,0000
21
4.072
0,0000
49,912310
0,0000
15
5.821
11,668670
0,3078
11,859270
0,2946
10
12.121
4,453214
0,6156
4,436327
0,6178
6
13.845
p
χ
153,135800
0,0000
Modelo ACL con 3 clases latentes
48,663290
Modelo ACL con 4 clases latentes
Modelo ACL con 5 clases latentes
Modelo
G
Modelo ACL con 2 clases latentes
2
- 405 -
2
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Como se podrá observar, el modelo con cinco clases latentes es el que se ajusta
de forma más satisfactoria a los datos observados. Por tanto, nuestro análisis
exploratorio nos conduce a proponer una segmentación de la demanda turística española
en cinco segmentos o clases. Las características de cada una de estas clases vendrán
definidas por las probabilidades asociadas a cada clase latente y por las probabilidades
condicionadas. Las estimaciones máximo-verosímiles de las probabilidades de clase
latente y de las probabilidades condicionadas son las que se muestran en la siguiente
tabla:
Tabla 8
Probabilidades condicionadas y probabilidades de clase latente
para el modelo ACL con cinco clases latentes
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Clase 1
0.0000
1.0000
0.5059
0.4941
0.7228
0.2772
0.5705
0.4295
0.7466
0.2534
0.164341
Clase 2
0.2597
0.7403
1.0000
0.0000
0.8205
0.1795
0.7192
0.2808
0.3537
0.6463
0.375545
Clase 3
0.7597
0.2403
0.4155
0.5845
0.0000
1.0000
0.9437
0.0563
0.2976
0.7024
0.060655
Clase 4
1.0000
0.0000
0.3356
0.6644
0.8970
0.1030
0.5919
0.4081
0.9937
0.0063
0.066721
Clase 5
0.8188
0.1812
0.7775
0.2225
0.9249
0.0751
0.8066
0.1934
0.0398
0.9602
0.332737
A la vista de los resultados obtenidos en el análisis exploratorio, podemos
constatar que algunas de las probabilidades condicionadas alcanzan los valores extremos
0 o 1. También se puede observar en la tabla anterior la gran similitud existente entre
algunas probabilidades condicionadas y entre algunas probabilidades de clase latente. La
contrastación de esos valores extremos y de la igualdad entre probabilidades nos
- 406 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
conduce al análisis confirmatorio mediante la imposición de determinadas restricciones
al modelo ACL estimado.
En primer lugar, impondremos las siguientes restricciones de valor específico:
AX
H (1)
0 : Π11 = 0
AX
H (2)
0 : Π 24 = 0
BX
H (3)
0 : Π 22 = 0
CX
H (4)
0 : Π 13 = 0
EX
H (5)
0 : Π 24 = 0
Las cinco restricciones anteriores tienen por objeto verificar si las probabilidades
condicionadas asociadas a ellas son iguales a 0. Para ello, estimaremos el modelo ACL
con las citadas restricciones y compararemos el valor de su test de razón de
verosimilitud con el correspondiente del modelo no restringido mediante la diferencia
de verosimilitudes. Si esta diferencia no es estadísticamente significativa, el modelo
restringido mejorará el ajuste a los valores observados de la tabla de contingencia, por lo
que las restricciones impuestas podrán ser admitidas. En caso contrario, si la diferencia
es estadísticamente significativa ( p < 0.05 ), las restricciones de igualdad deberán ser
rechazadas, puesto que, en este caso, no mejoran sustancialmente el ajuste del modelo.
- 407 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Pues bien, en este caso, los resultados obtenidos han sido los siguientes:
Modelo ACL general
Modelo restringido nº 1
( Modelo no restringido )
( Restricciones de valor específico )
2
G 2 = 4.453510
G = 4.453214
χ 2 = 4.436327
χ 2 = 4.437214
6 g.l.
7 g.l.
Nº de iteraciones: 13.845
Nº de iteraciones: 4.628
Diferencia de verosimilitud:
G 2 = 4.453510 - 4.453214 = 0.000296
Diferencia en grados de libertad:
7 - 6 = 1 g.l.
Valor de p:
p = 0.9863
Decisión:
Aceptación de las restricciones de valor específico
En consecuencia, a un nivel de significación del 5 % se puede sostener que las
cinco restricciones de valor específico anteriores contribuyen de forma significativa a
mejorar el ajuste del modelo ACL general ( no restringido ).
Las estimaciones de los parámetros del modelo restringido nº 1 se muestran en la
Tabla 9. Un análisis de estos valores permite apreciar que las probabilidades
condicionadas asociadas a la variable C son muy similares para los individuos de la
clase 4 ( Independiente: 89,71 %; Despreocupado: 10,29 % ) y para los indviduos de la
clase 5 ( Independiente: 92,46 %; Despreocupado: 7,54 % ). Algo similar ocurre con las
probabilidades condicionadas correspondientes a la variable D para los individuos
pertenecientes a la clase 1 ( Ahorrador: 57,03 %; Derrochador: 42,97 % ) y para
aquellos que se encuadran en la clase 4 ( Ahorrador: 59,16 %; Derrochador: 40,84 % ).
- 408 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 9
Probabilidades condicionadas y probabilidades de clase latente
para el modelo restringido nº 1
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Clase 1
0.0000
1.0000
0.5055
0.4945
0.7228
0.2772
0.5703
0.4297
0.7472
0.2528
0.164016
Clase 2
0.2573
0.7427
1.0000
0.0000
0.8204
0.1796
0.7192
0.2808
0.3540
0.6460
0.374274
Clase 3
0.7594
0.2406
0.4162
0.5838
0.0000
1.0000
0.9434
0.0566
0.2980
0.7020
0.060747
Clase 4
1.0000
0.0000
0.3372
0.6628
0.8971
0.1029
0.5916
0.4084
1.0000
0.0000
0.066336
Clase 5
0.8187
0.1813
0.7775
0.2225
0.9246
0.0754
0.8059
0.1941
0.0407
0.9593
0.334626
Dada la similitud observada entre estos dos grupos de probabilidades
condicionadas, la aceptación o el rechazo de la igualdad entre las mismas podría llevarse
a cabo proponiendo un modelo restringido en el que, además de las anteriores
restricciones de valor específico, se impongan las siguientes restricciones de igualdad
sobre las probabilidades condicionadas:
CX
CX
H (6)
0 : Π14 = Π15
DX
DX
H (7)
0 : Π11 = Π14
La comparación entre este nuevo modelo restringido ( modelo nº 2 ) y el modelo
restringido nº 1 se muestra a continuación:
- 409 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Modelo restringido nº 1
Restricciones:
-Valor específico
Modelo restringido nº 2
Restricciones:
-Valor específico
-Igualdad de probabilidades condicionadas
G 2 = 4.784949
χ 2 = 4.762189
9 g.l.
Nº de iteraciones: 3.659
G 2 = 4.453510
χ 2 = 4.437214
7 g.l.
Nº de iteraciones: 4.628
Diferencia de verosimilitud:
G 2 = 4.784949 - 4.453510 = 0.331439
Diferencia en grados de libertad:
9 - 7 = 2 g.l.
Valor de p:
p = 0.8473
Decisión:
Aceptación de las restricciones de igualdad de probabilidades condicionadas
A la vista de los resultados obtenidos, podemos concluir a un nivel de
significación del 5 % que las restricciones de igualdad impuestas contribuyen a mejorar
el ajuste del modelo restringido nº 1. En consecuencia, el modelo restringido nº 2 es el
que, hasta el momento, proporciona la mejor segmentación posible de la demanda
turística española, cuyos parámetros estimados aparecen recogidos en la Tabla 10.
Tabla 10
Probabilidades condicionadas y probabilidades de clase latente
para el modelo restringido nº 2
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Clase 1
0.0000
1.0000
0.5048
0.4952
0.7238
0.2762
0.5724
0.4276
0.7467
0.2533
0.162515
Clase 2
0.2298
0.7702
1.0000
0.0000
0.8200
0.1800
0.7169
0.2831
0.3558
0.6442
0.356944
- 410 -
Clase 3
0.7575
0.2425
0.4110
0.5890
0.0000
1.0000
0.9410
0.0590
0.3251
0.6749
0.060424
Clase 4
1.0000
0.0000
0.3394
0.6606
0.9145
0.0855
0.5724
0.4276
1.0000
0.0000
0.063482
Clase 5
0.8173
0.1827
0.7841
0.2159
0.9145
0.0855
0.8043
0.1957
0.0606
0.9394
0.356636
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Un nuevo análisis de las estimaciones presentadas en la Tabla 10 desvela que las
probabilidades de clase latente ( que son las que, en definitiva, determinan el tamaño de
cada uno de los segmentos identificados ) correspondientes a las clases 3 y 4 son muy
similares ( 6,04 % para la clase 3; 6,35 % para la clase 4 ). Esta misma circunstancia se
observa también con las clases 2 y 5 ( 35,69 % para la clase 2; 35,66 % para la clase 5 ).
En definitiva, parece ser que en la tipología obtenida, los segmentos 3 y 4 poseen el
mismo tamaño relativo, y que los segmentos 2 y 5 son también de igual tamaño. Al
objeto de determinar si puede admitirse la igualdad de tamaño entre estos dos pares de
segmentos, impondremos las siguientes restricciones de igualdad sobre las
probabilidades de clase latente del modelo restringido nº 2:
X
X
H (8)
0 : Π3 = Π4
X
X
H (9)
0 : Π2 = Π5
Al estimar el modelo restringido obtenido al añadir las anteriores restricciones a
las que se han impuesto previamente obtendremos un nuevo modelo restringido, que
denominaremos modelo restringido nº 3. Si comparamos la verosimilitud de este
modelo con la del modelo nº 2, podremos constatar que las dos restricciones que hemos
impuesto contribuyen de forma sustancial a la mejora del ajuste del modelo restringido
nº 2, razón por la que podemos concluir que, a un nivel de significación del 5 %, los
segmentos 3 y 4, por un lado, y los segmentos 2 y 5, por otro lado, son del mismo
tamaño.
- 411 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Modelo restringido nº 2
Restricciones:
-Valor específico
-Igualdad de probabilidades condicionadas
Modelo restringido nº 3
Restricciones:
-Valor específico
-Igualdad de probabilidades condicionadas
-Igualdad de probabilidades de clase
latente
G 2 = 4.804116
χ 2 = 4.785797
11 g.l.
Nº de iteraciones: 1.502
G 2 = 4.784949
χ 2 = 4.762189
9 g.l.
Nº de iteraciones: 3.659
Diferencia de verosimilitud:
G 2 = 4.804116 - 4.784949 = 0.019167
Diferencia en grados de libertad:
11 - 9 = 2 g.l.
Valor de p:
p = 0.9905
Decisión:
Aceptación de las restricciones de igualdad de probabilidades de clase latente
Tras este proceso de imposición sucesiva de restricciones de valor específico y
de igualdad sobre las probabilidades condicionadas y de restricciones de igualdad sobre
las probabilidades de clase latente, hemos alcanzado, finalmente, el modelo que
proporciona una segmentación óptima de la demanda turística española. En lo sucesivo,
denominaremos a este modelo nº 3 como modelo definitivo. Las probabilidades
condicionadas y de clase latente estimadas correspondientes a este modelo se muestran
en la Tabla 11. Este modelo definitivo arroja un valor del test de la razón de
verosimilitud de G 2 = 4,804116 ( p = 0,9403 ) y del test de Pearson de χ 2 = 4,785797
( p = 0,9411 ) con un total de 11 grados de libertad. Como podrá advertirse por los
valores de p obtenidos en ambos casos, este modelo final se ajusta de una forma
extraordinariamente satisfactoria a los valores observados recogidos en la tabla de
contingencia inicial. De hecho, si se consulta el Anexo 2 se podrá comprobar cómo las
- 412 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
diferencias entre las frecuencias observadas y las frecuencias esperadas estimadas son
mínimas, hasta el punto de que una buena parte de los residuos estandarizados del
modelo alcanzan valores absolutos muy próximos a cero.
Tabla 11
Probabilidades condicionadas y probabilidades de clase latente
para el modelo definitivo
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Clase 1
0.0000
1.0000
0.5018
0.4982
0.7244
0.2756
0.5709
0.4291
0.7488
0.2512
0.160783
Clase 2
0.2301
0.7699
1.0000
0.0000
0.8198
0.1802
0.7159
0.2841
0.3573
0.6427
0.357525
Clase 3
0.7550
0.2450
0.4172
0.5828
0.0000
1.0000
0.9378
0.0622
0.3245
0.6755
0.062083
Clase 4
1.0000
0.0000
0.3308
0.6692
0.9172
0.0828
0.5709
0.4291
1.0000
0.0000
0.062083
Clase 5
0.8153
0.1847
0.7842
0.2158
0.9172
0.0828
0.8044
0.1956
0.0634
0.9366
0.357525
La asignación de los turistas a una de las clases latentes definidas se realizará en
función de la probabilidad modal. Es decir, para cada una de las 32 modalidades de
respuesta posibles ( véase la Tabla 7 ), se calcula la probabilidad de pertenecer a cada
una de las cinco clases, asignándose a cada modalidad aquella clase a la que se asocie
mayor probabilidad. El proceso de asignación de los turistas a las cinco clases
identificadas se muestra en la Tabla 12, en la que, además de indicarse la clase asociada
a cada modalidad de respuesta, se reproduce entre paréntesis la probabilidad modal
correspondiente.
- 413 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 12
Asignación de los turistas a las cinco clases latentes definidas y
probabilidades modales ( entre paréntesis )
VARIABLE A
VARIABLE B
VARIABLE C
Independiente
Ecologista
Despreocupado
Estático
Independiente
Cosmopolita
Despreocupado
Independiente
Ecologista
Despreocupado
Dinámico
Independiente
Cosmopolita
Despreocupado
VARIABLE D
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
VARIABLE E
Marchoso
Tranquilo
2 ( 0.4457 )
5 ( 0.8359 )
4 ( 0.4611 )
5 ( 0.7573 )
3 ( 0.5095 )
5 ( 0.4261 )
2 ( 0.5255 )
5 ( 0.4956 )
4 ( 0.8809 )
5 ( 1.0000 )
4 ( 0.9581 )
5 ( 1.0000 )
3 ( 0.7885 )
3 ( 0.8152 )
(
0.7054
)
4
3 ( 0.5462 )
2 ( 0.6781 )
2 ( 0.7016 )
2 ( 0.5419 )
2 ( 0.7331 )
2 ( 0.5213 )
2 ( 0.6862 )
1 ( 0.5778 )
2 ( 0.7243 )
(
0.9738
)
1
5 ( 0.5419 )
1 ( 0.9914 )
1 ( 0.7232 )
1 ( 0.7739 )
3 ( 0.5807 )
1 ( 0.9734 )
1 ( 0.8016 )
Por otra parte, al objeto de determinar el error cometido al asignar las clases
latentes a los turistas, se han calculado también las dos medidas más utilizadas para este
fin: la proporción correctamente clasificada y el coeficiente λ . Para el caso que nos
ocupa, la proporción correctamente clasificada ( E1 ) es igual a 0,7288388. Este valor se
encuentra relativamente próximo al valor 1, lo que significa que existe una relación
bastante fuerte entre las variables manifiestas y la variable latente definida X, de lo que
se puede inferir que la asignación de clases realizada es bastante correcta. Por su parte,
el coeficiente λ es igual a 0,57794, lo que conduce a los mismos comentarios que los
realizados para el coeficiente E1 .
Tras el proceso de obtención de una segmentación de la demanda turística
española, pasaremos a comentar las características esenciales de los cinco segmentos
- 414 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
identificados. Estas características vienen dadas por los valores estimados de las
probabilidades condicionadas y de las probabilidades de clase latente del modelo ACL,
que han sido representadas en la Tabla 11. De esta forma, todo este proceso de análisis
conduce a la siguiente propuesta de segmentación de la demanda turística española:
- Turista social ( clase 1) ( 16,08 % de la población ):
Se trata de un turista que jamás pasa sus vacaciones en un único lugar, sino que
siempre recorre diferentes lugares, lo que permite considerarlo como un individuo con
grandes inquietudes viajeras y con un gran afán por conocer sitios nuevos. Prefiere pasar
sus vacaciones en lugares bulliciosos y es el grupo de turistas que, junto a los de la clase
4, menos repara en gastos durante sus vacaciones, ya que tiene una probabilidad de un
43 % de hacer todo aquello que le apetezca sin preocuparse en absoluto por los gastos
que ello conlleve. Además, al igual que la mayoría de los segmentos identificados, casi
siempre organiza las vacaciones por su cuenta ( 72 % ). Finalmente, no tiene una
posición definida sobre los espacios abiertos o sobre los lugares urbanizados, ya que no
se inclina claramente por uno de estos dos ambientes.
- Turista ecológico ( clase 2 ) ( 35,75 % de la población ):
Su característica más destacable es que siempre busca los espacios abiertos
durante sus vacaciones, manifestándose, de esta forma, como un gran amante de la
naturaleza. No posee un carácter tan dinámico como el turista social, pero se manifiesta
claramente partidario ( 77 % ) de visitar diferentes lugares en su destino vacacional. A
diferencia del turista social, el turista ecológico suele buscar lugares tranquilos, que no
- 415 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
estén excesivamente masificados, para pasar sus vacaciones. Se trata de un individuo
que, en la mayor parte de los casos, cuida sus gastos durante las vacaciones, procurando
que los mismos no sobrepasen lo inicialmente previsto. Finalmente, también se
manifiesta claramente partidario de organizar por su cuenta las vacaciones.
- Turista pasivo ( clase 3 ) ( 6,21 % de la población ):
Sin duda, la característica más llamativa de este tercer segmento es que nunca
organiza las vacaciones por su cuenta, ya que tiene una probabilidad del 100 % de
pasarlas con un grupo organizado, generalmente a través de una agencia de viajes. Se
trata de un individuo totalmente despreocupado por la preparación de sus vacaciones, lo
que invita a calificarlo como turista pasivo. Otra característica muy definida de este tipo
de turista es que es, con gran diferencia, el que más se preocupa de sus gastos durante
las vacaciones, ya que tiene una probabilidad cercana al 94 % de no sobrepasar el
presupuesto destinado a tal fin. A diferencia del turista social y del turista ecológico, el
turista pasivo se manifiesta claramente partidario de permanecer en un solo lugar
durante todas sus vacaciones, ya que la probabilidad de moverse de un sitio a otro
durante dicho período es tan solo de un 25 %. Por último, es un individuo al que no le
gustan los destinos turísticos muy masificados ( 32,45 % ), aunque prefiere aquellas
zonas turísticas que pongan a su disposición todos los servicios que aquellas que ofertan
un contacto directo con la naturaleza.
- 416 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Turista por entretenimiento puro ( clase 4 ) ( 6,21 % de la población ):
Aunque el tamaño de este segmento es el mismo que el de los turistas pasivos,
las diferencias existentes entre ambos segmentos son bastante acusadas. Así, el turista
por entretenimiento puro busca siempre sitios animados, donde pueda relacionarse con
mucha gente, hasta el punto de que jamás busca lugares aislados o poco concurridos, a
diferencia de lo que ocurría con el turista pasivo. Otra característica destacada de este
tipo de turistas es que es el segmento más estático de todos los definidos, ya que jamás
visitará diferentes lugares durante sus vacaciones, sino que, más bien al contrario,
elegirá un destino turístico y pasará todas sus vacaciones en él. Por otra parte, es el tipo
de turista al que, junto al turista social, menos le preocupan los gastos que les ocasionen
sus vacaciones. Además, es el que más claro tiene ( junto a la quinta y última clase ) que
las vacaciones debe organizarlas el propio turista, diseñándolas a su manera ( 91,72 % ).
Por último, tiene una probabilidad de un 67 % de elegir lugares urbanizados con un
nivel de servicios aceptable para pasar sus vacaciones.
- Turista recreativo ( clase 5 ) ( 35,75 % de la población ):
Aunque se trata del segmento de mayor tamaño junto al de turistas ecológicos,
existen algunas diferencias dignas de mención con respecto a estos últimos. Así, el
turista recreativo es el que mayor probabilidad tiene de elegir para sus vacaciones
lugares tranquilos y poco concurridos ( 93,66 % ), mientras que los turistas ecológicos,
aun cuando también prefieren las zonas poco frecuentadas a las zonas turísticas
masificadas, tan sólo tienen un 64,27 % de probabilidad de decantarse por las primeras.
Se trata, por otra parte, de una clase de turista que otorga una gran importancia al
- 417 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
control de sus gastos ( 80,44 % ). Otra característica digna de mención es, al igual que
los turistas por entretenimiento puro, su espíritu eminentemente estático, ya que la
probabilidad de que los turistas de este segmento se muevan por diferentes lugares no
alcanza ni siquiera un 19 %. Son, junto a los turistas ecológicos, los que más interés
muestran por los espacios abiertos y más importancia otorgan al contacto con la
naturaleza ( 78,42 % ). Finalmente, suelen ser muy autodidactas en la organización de
sus vacaciones, ya que la probabilidad de que estos turistas diseñen las vacaciones por sí
mismos es, junto a la de los turistas por entretenimiento puro, la más elevada de todos
los segmentos definidos ( 91,72 % ).
Una vez realizada esta segmentación de la demanda turística española, podría
resultar sumamente interesante caracterizar de forma algo más completa los segmentos
definidos, analizando para ello otras variables auxiliares como la Comunidad Autónoma
de residencia, el tamaño del hábitat, la edad, el nivel de estudios, el nivel de ingresos, el
status económico, el número de miembros del hogar familiar, el sexo o el estado civil.
De esta forma, la distribución de los cinco tipos de turistas definidos en función de las
variables citadas se recoge en la Tabla 13. A partir de los valores recogidos en la misma,
se pueden realizar los siguientes comentarios:
a) Comunidad Autónoma:
- La mayor presencia de turistas madrileños se registra entre los turistas
ecológicos ( 19,75 % ) y entre los turistas recreativos ( 16,53 % ). Muy similar es la
- 418 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
participación de los turistas catalanes en estos tipos de turistas, aunque destaca
especialmente su liderazgo entre los turistas recreativos, ya que representan la quinta
parte de este colectivo.
- Frente a los turistas madrileños y catalanes, los turistas de Andalucía tienen su
mayor protagonismo entre los turistas sociales ( 18,15 % del total ) y entre los turistas
pasivos ( 16,85 % ), especialmente entre estos últimos, ya que la presencia de los
turistas andaluces en este tercer segmento es la más elevada de todas las Comunidades
Autónomas. Un comportamiento similar al de los turistas andaluces se observa en los
turistas de la Comunidad Valenciana.
- También es digna de mención la presencia de turistas castellano-leoneses entre
los turistas pasivos ( segmento en el que ostentan una participación relativa del 14,04 %,
sólo superada por los turistas andaluces y catalanes ) y entre los turistas por
entretenimiento puro ( donde los turistas de esta Comunidad Autónoma representan el
14,07 % del total, situándose tras los turistas catalanes y al mismo nivel que los turistas
madrileños ).
b) Tamaño del hábitat:
- Aunque los turistas residentes en ciudades de menos de 100.000 habitantes son
mayoría en prácticamente todos los grupos, destaca especialmente la presencia de estos
turistas entre el segmento de turistas pasivos ( 62,36 % ).
- 419 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 13
Distribución de los cinco segmentos identificados según diferentes variables auxiliares
Comunidad Autónoma:
Andalucía
Aragón
Asturias ( Principado de )
Baleares ( Islas )
Canarias
Cantabria
Castilla La Mancha
Castilla y León
Cataluña
Comunidad Valenciana
Extremadura
Galicia
Madrid ( Comunidad de )
Murcia ( Región de )
Navarra ( Comunidad Foral )
País Vasco
Rioja ( La )
Tamaño del hábitat:
Ciudad pequeña
Ciudad mediana
Ciudad grande
Edad:
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Nivel de estudios:
Sin instrucción/est. primarios
Con estudios secundarios
Con estudios superiores
NS/NC
Nivel de ingresos:
Ingresos bajos
Ingresos medios
Ingresos altos
NS/NC
Status económico:
Trabajador
Desempleado
No activo económicamente
Jubilado o pensionista
NS/NC
Continúa ...
Turista
Social
Turista
Ecológico
Turista
pasivo
Turista
entret. puro
Turista
recreativo
18,15 %
4,27 %
3,56 %
1,42 %
3,56 %
0,36 %
4,27 %
7,83 %
12,81 %
12,81 %
2,13 %
5,70 %
13,17 %
2,13 %
1,07 %
6,05 %
0,71 %
13,38 %
3,15 %
1,82 %
0,98 %
3,43 %
0,42 %
3,57 %
6,72 %
18,14 %
11,35 %
1,12 %
5,39 %
19,75 %
2,03 %
1,82 %
6,44 %
0,49 %
16,85 %
2,81 %
3,93 %
1,69 %
1,12 %
1,12 %
5,62 %
14,04 %
14,61 %
12,36 %
2,81 %
5,06 %
9,55 %
2,81 %
1,69 %
3,93 %
0,00 %
12,56 %
5,02 %
5,02 %
3,52 %
1,01 %
0,50 %
5,53 %
14,07 %
15,58 %
5,53 %
4,52 %
3,52 %
14,07 %
3,52 %
2,01 %
4,02 %
0,00 %
10,52 %
3,80 %
2,39 %
1,15 %
2,48 %
0,27 %
2,56 %
7,07 %
20,60 %
11,41 %
1,50 %
5,31 %
16,53 %
2,65 %
1,06 %
10,52 %
0,18 %
50,53 %
26,62 %
23,85 %
48,39 %
25,00 %
26,61 %
62,36 %
19,66 %
17,98 %
55,78 %
20,60 %
23,62 %
46,77 %
25,73 %
27,50 %
32,03 %
42,35 %
18,50 %
7,12 %
22,69 %
44,47 %
23,74 %
9,10 %
10,11 %
15,17 %
34,83 %
39,89 %
24,63 %
42,71 %
26,13 %
6,53 %
7,96 %
35,72 %
34,92 %
21,40 %
44,84 %
34,87 %
19,93 %
0,36 %
48,18 %
30,60 %
20,03 %
1,19 %
82,02 %
13,48 %
4,50 %
-
48,74 %
31,16 %
19,60 %
0,50 %
64,72 %
19,36 %
15,21 %
0,71 %
34,52 %
28,11 %
11,03 %
26,34 %
37,61 %
26,26 %
8,54 %
27,59 %
57,87 %
17,98 %
1,12 %
23,03 %
28,64 %
29,65 %
5,03 %
36,68 %
42,71 %
22,81 %
6,45 %
28,03 %
48,40 %
11,74 %
28,82 %
10,68 %
0,36 %
47,27 %
12,05 %
27,59 %
12,25 %
0,84 %
24,16 %
6,18 %
32,58 %
36,52 %
0,56 %
54,27 %
8,54 %
29,15 %
7,54 %
0,50 %
41,03 %
8,40 %
26,70 %
22,99 %
0,88 %
- 420 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Viene de la página anterior ...
Nº miembros hogar familiar:
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
NS/NC
Sexo:
Hombre
Mujer
Estado civil:
Soltero
Casado
Separado
Divorciado
Viudo
NS/NC
Turista
Social
Turista
Ecológico
Turista
pasivo
Turista
entret. puro
Turista
recreativo
25,62 %
54,80 %
19,22 %
0,36 %
24,51 %
51,82 %
22,76 %
0,91 %
55,06 %
31,46 %
13,48 %
-
25,13 %
56,28 %
18,09 %
0,50 %
28,65 %
51,81 %
18,30 %
1,24 %
43,77 %
56,23 %
48,74 %
51,26 %
32,58 %
67,42 %
53,77 %
46,23 %
48,89 %
51,11 %
46,26 %
49,47 %
0,71 %
1,07 %
2,49 %
-
37,40 %
56,65 %
1,61 %
0,42 %
3,78 %
0,14 %
22,47 %
61,80 %
1,13 %
0,56 %
13,48 %
0,56 %
36,68 %
56,78 %
2,01 %
3,52 %
1,01 %
15,21 %
75,42 %
0,80 %
0,35 %
7,87 %
0,35 %
- La importancia relativa de los turistas que residen en mesópolis está bastante
equilibrada en los cinco segmentos, aunque cabe señalar su mayor presencia entre los
turistas sociales y recreativos.
- Los turistas residentes en grandes urbes son algo más abundantes entre los
turistas recreativos ( 27,50 % ) y entre los turistas ecológicos ( 26,61 % ) que en el resto
de segmentos identificados.
c) Edad:
- La mayor presencia de los turistas menores de 24 años se produce entre los
turistas sociales ( 32,03 % ), aunque lo más llamativo es su escasez entre los turistas
recreativos ( 7,96 % ) y entre los turistas pasivos ( 10,11 % ).
- 421 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- El comportamiento de los turistas que tienen entre 25 y 44 años es similar al de
los turistas anteriores, ya que su mayor protagonismo se alcanza entre los turistas
ecológicos, sociales y de entretenimiento puro, mientras que en los dos segmentos
restantes su presencia es considerablemente menor, en especial en el segmento de
turistas pasivos ( sólo representan un 15,17 % del total ).
- La nota más destacada de los turistas cuya edad se sitúa en la franja de 45-64
años y de aquellos otros que superan los 65 años es su liderazgo entre los turistas
pasivos ( 39,89 % los segundos y 34,83 % los primeros ) y entre los turistas recreativos
( 34,92 % los primeros y 21,40 % los segundos ).
d) Nivel de estudios:
- La presencia de individuos sin instrucción o sólo con estudios primarios es
abrumadora entre los turistas pasivos ( 82,02 % ) y entre los recreativos ( 64,72 % ).
- El mayor nivel de instrucción corresponde a los turistas sociales, donde un
34,87 % posee estudios secundarios y un 19,93 % posee estudios superiores.
- Los segmentos de turistas ecológicos y de turistas por entretenimiento puro
poseen una distribución, en función del nivel de estudios, prácticamente idéntica: en
torno a un 48 % de individuos sin instrucción o sólo con estudios primarios, algo más
- 422 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
del 30 % de turistas con estudios secundarios, y en torno al 20 % de turistas con estudios
superiores.
e) Nivel de ingresos:
- Los individuos con un bajo nivel de ingresos son mayoría entre los turistas
pasivos ( 57,87 % ) y representan un porcentaje sobre el total bastante importante entre
los turistas recreativos ( 42,71 % ).
- Los segmentos en los que los individuos con ingresos medios tienen una mayor
presencia son los correspondientes a los turistas sociales ( 28,11 % ) y a los turistas por
entretenimiento puro ( 29,65 % ).
- La presencia de turistas con ingresos elevados es muy escasa entre los turistas
pasivos ( sólo representan un 1,12 % del total ), entre los turistas por entretenimiento
puro ( 5,03 % ) y entre los turistas recreativos ( 6,45 % ). El segmento de turistas
sociales es en el que los individuos con ingresos más elevados alcanzan una mayor
representatividad ( 11,03 % ).
- El elevado porcentaje de individuos que no se manifiestan en relación a su
nivel de ingresos hace que los comentarios anteriores deban ser tomados con suma
prudencia.
- 423 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
f) Status económico:
- Los turistas que trabajan son mayoría en todos los segmentos, a excepción del
corespondiente a los turistas pasivos. Destaca especialmente su presencia entre los
turistas por entretenimiento puro ( 54,27 % ) y entre los turistas sociales ( 48,40 % ).
- Los jubilados y pensionistas tienen una escasa presencia entre los turistas
sociales, ecológicos y por entretenimiento puro, pero, por el contrario, son los que
mayor peso tienen entre los turistas pasivos ( 36,52 % ).
- La presencia de desempleados en todos los segmentos definidos es poco
representativa, y oscila entre un 6,18 % entre los turistas pasivos y un 12,05 % entre los
turistas ecológicos.
- Los individuos no activos económicamente son, después de los trabajadores, el
grupo más frecuente en cuatro de los cinco segmentos, siendo en el segmento de turistas
pasivos donde alcanzan un mayor protagonismo, toda vez que representan el 32,58 %
del total, sólo superados ligeramente por los jubilados y pensionistas.
g) Número de miembros del hogar familiar:
- Con carácter general, las familias con 1 o 2 hijos son las que predominan en la
mayoría de los segmentos. En algunos segmentos, como en el de los turistas por
- 424 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
entretenimiento puro, llegan a alcanzar el 56,28 % del total. Por el contrario, son poco
representativas entre el segmento de turistas pasivos, donde sólo 31 de cada 100 turistas
pertenecen a familias con 1 o 2 hijos.
- Las familias sin hijos son mayoría entre los turistas pasivos, ya que representan
en 55,06 % del total. En los restantes segmentos, su participación relativa se sitúa en
torno al 25 %.
- Las familias numerosas son las que menor presencia tienen en todos los
segmentos, aunque destaca su elevada participación entre los turistas ecológicos,
segmento en el que se sitúan prácticamente al nivel de las familias sin hijos, y su escaso
peso entre los turistas pasivos, ya que sólo 13 de cada 100 de estos turistas pertenecen a
familias numerosas.
h) Sexo:
- No existen diferencias significativas entre hombres y mujeres en los segmentos
de turistas ecológicos y de turistas recreativos.
- Destaca la mayor presencia de mujeres en los segmentos de turistas pasivos y
de turistas sociales, en los cuales representan el 67,42 % y el 56,23 % del total de
individuos.
- 425 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- El único segmento en el que la presencia de hombres es mayor que la de
mujeres es en el de turistas por entretenimiento puro, donde los primeros representan el
53,77 % del total.
i) Estado civil:
- Los turistas casados son mayoría en todos los segmentos, llegando a representar
las tres cuartas del total en el segmento de turistas recreativos y un porcentaje
ligeramente superior al 60 % entre los turistas pasivos.
- Tras ellos, los turistas solteros alcanzan una presencia similar, si bien
ligeramente inferior, a la de los turistas casados en el segmento de turistas sociales,
mientras que en otros segmentos, en especial en el de turistas pasivos y en el de turistas
recreativos, su participación es escasamente representativa ( 22,47 % y 15,21 %,
respectivamente ).
- La presencia de separados y divorciados en los cinco segmentos se puede
considerar como puramente anecdótica.
- También es muy escasa la presencia de individuos viudos en todos los
segmentos, con la excepción del correspondiente al de los turistas pasivos, ya que, en
este segmento, los viudos llegan a alcanzar el 13,48 % del total.
- 426 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
En la distribución de los cinco segmentos identificados según diferentes
variables, hemos podido constatar que, en el análisis de la variable edad, los turistas
menores de 45 años ( individuos jóvenes: 24 años o menos; e individuos menos jóvenes:
25-44 años ) tienen un mayor protagonismo entre los turistas sociales, los turistas
ecológicos y los turistas por entretenimiento puro, que tienen en común una alta
probabilidad de recorrer diferentes lugares durante sus vacaciones ( los dos primeros
segmentos ) y de preferir lugares concurridos ( el primero y último de estos tres
segmentos ). Esto parece indicar que los turistas con menos de 45 años tienen un
carácter más “dinámico” y “marchoso” que el resto de turistas.
Por su parte, se observa una presencia preponderante de los turistas de 45 años o
más ( individuos maduros: 45-64 años; e individuos ancianos: 65 años o más ) entre los
turistas pasivos y los turistas recreativos, que se caracterizan, entre otras cosas, por
permanecer en un único sitio durante sus vacaciones y por elegir lugares tranquilos que
no estén excesivamente masificados. En definitiva, parece ser que los turistas con 45 o
más años son más “estáticos” y más “tranquilos” que el resto de turistas.
De estos comentarios se puede deducir que la variable edad11 podría introducir
diferencias apreciables en la segmentación de la demanda turística española, que
podrían quedar ocultas en la segmentación global que se ha realizado. Dicho en otros
términos, podría estar ocurriendo que tanto el tamaño de cada segmento como las
11
El análisis estadístico que se va a realizar tomando como referencia la variable edad, podría realizarse
también a partir de las demás variables auxiliares, siempre que exista indicio de que las mismas pueden
estar ocultando diferencias importantes en la segmentación.
- 427 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
características de cada uno de ellos fuesen diferentes en función de que la segmentación
se lleve a cabo considerando únicamente a los turistas menores de 45 años o a los
turistas con 45 o más años.
Al objeto de detectar si existen o no diferencias en la segmentación según la
edad del turista, recurriremos al análisis de estructura latente simultáneo. Para ello,
vamos a diferenciar dos grupos claramente diferenciados: por un lado, el grupo de
turistas menores de 45 años, y por otro lado, el grupo de turistas con 45 años o más.
Uitilizando las mismas variables manifiestas de la segmentación global, la
clasificación cruzada de las mismas para los dos grupos establecidos se muestra en las
Tablas 14.A y 14.B. Al igual que en la segmentación global, supondremos la existencia
de una variable latente, el comportamiento turístico, que explicará la asociación
existente entre los indicadores considerados para ambos grupos.
El proceso de segmentación de los dos grupos definidos se inicia, al igual que en
la segmentación global, con la contrastación del modelo de independencia completa, ya
que si este modelo no fuese rechazado a un nivel de significación α , la variable latente
en cuestión sólo poseería una clase, lo que significaría que ni el grupo de turistas
menores de 45 años ni el grupo de turistas con 45 años o más podría ser objeto de
segmentación, lo que nos conduciría, a su vez, a concluir el análisis, ya que no sería
posible ningún tipo de comparación entre estos dos grupos.
- 428 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 14.A
Turistas menores de 45 años
VARIABLE A
VARIABLE B
VARIABLE C
Independiente
Ecologista
Despreocupado
Estático
Independiente
Cosmopolita
Despreocupado
Independiente
Ecologista
Despreocupado
Dinámico
Independiente
Cosmopolita
Despreocupado
Tamaño muestral: 1.841 entrevistas
VARIABLE D
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
VARIABLE E
Marchoso
Tranquilo
84
265
44
97
14
27
6
12
46
49
41
13
8
10
3
3
211
300
110
143
42
43
32
20
66
10
49
23
18
31
17
4
Tabla 14.B
Turistas con 45 años o más
VARIABLE A
VARIABLE B
VARIABLE C
Independiente
Ecologista
Despreocupado
Estático
Independiente
Cosmopolita
Despreocupado
Independiente
Ecologista
Despreocupado
Dinámico
Independiente
Cosmopolita
Despreocupado
Tamaño muestral: 1.376 entrevistas
VARIABLE D
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
Ahorrador
Derrochador
- 429 -
VARIABLE E
Marchoso
Tranquilo
40
346
13
63
24
77
3
13
35
91
12
21
25
60
5
3
58
173
24
47
46
65
6
13
16
26
12
7
18
21
8
5
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Al estimar el modelo de independencia completa, se han obtenido los resultados
siguientes:
Modelo
Independencia completa
G2
p
χ2
p
g.l.
848,642000
0,0000
945,948500
0,0000
57
A la vista de estos resultados, podemos rechazar el modelo de independencia
completa, tanto a un nivel de significación del 1 % como del 5 %. Esto significa que los
dos grupos establecidos pueden ser segmentados, ya que la asociación entre las variables
manifiestas en ambos grupos está explicada por una misma variable latente: el
comportamiento turístico. En consecuencia, la comparación de las segmentaciones
obtenidas en ambos grupos permitirá verificar si el comportamiento turístico de los
mismos presenta diferencias dignas de mención.
El siguiente paso consistirá en determinar el número óptimo de clases latentes en
cada grupo. Para ello, bastará estimar un modelo heterogéneo no restringido de T
clases, teniendo presente que, en este caso, T deberá ser un número par, ya que se están
considerando dos grupos. Es decir, dado que el número de clases latentes de cada grupo
debe ser el mismo para que las comparaciones entre ellos sean posibles, el mínimo valor
de T será 4 ( 2 clases en el primer grupo y 2 clases en el segundo, lo que resulta en un
total de 4 clases latentes ). Si se segmentara cada grupo en 3 clases, T sería igual a 6; si
se segmentara en 4 clases, T sería igual a 8, etc.
- 430 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Teniendo en cuenta lo anterior, la estimación del modelo heterogéneo para
diferentes valores de T arrojó los resultados que se muestran a continuación:
Modelo
G
2
p
χ
2
p
g.l.
Nº
iteraciones
Modelo heterogéneo con 4 clases
( 2 clases cada grupo )
142,065800
0,0000
143,589700
0,0000
41
1.248
Modelo heterogéneo con 6 clases
( 3 clases cada grupo )
48,949380
0,0159
46,207660
0,0297
30
2.327
Modelo heterogéneo con 8 clases
( 4 clases cada grupo )
20,067170
0,5788
20,048470
0,5800
22
4.874
Modelo heterogéneocon 10 clases
( 5 clases cada grupo )
8,225187
0,9419
8,272391
0,9403
16
15.776
A la vista de estos resultados, podemos concluir que el modelo heterogéneo de
10 clases latentes es el que proporciona un mejor ajuste. Por consiguiente, cada uno de
los dos grupos considerados se puede segmentar en cinco clases. La estimación de las
probabilidades condicionadas, de las probabilidades de clase latente y de las
probabilidades de clase latente condicionadas nos permitirá comparar tanto el tamaño
relativo de las cinco clases en los dos grupos como las singularidades de uno y de otro
grupo. Estas estimaciones se muestran en las Tablas 15.A y 15.B.
Si se analizan detenidamente las estimaciones obtenidas para los dos grupos
considerados, se podrá observar que existen algunos valores bastante similares, tanto si
se considera un solo grupo como si se comparan ambos grupos. Al objeto de verificar si
se puede admitir la igualdad entre estos valores, efectuaremos los siguientes análisis:
- 431 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 15.A
Probabilidades condicionadas, probabilidades de clase latente
y probabilidades de clase latente condicionadas para el modelo heterogéneo
Grupo: turistas menores de 45 años
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1491
0.8509
0.6976
0.3024
0.7810
0.2190
0.5619
0.4381
0.7302
0.2698
0.235055
Clase 2
0.5017
0.4983
1.0000
0.0000
0.9071
0.0929
1.0000
0.0000
0.1914
0.8086
0.213103
Clase 3
0.8422
0.1578
0.0000
1.0000
0.8404
0.1596
0.8609
0.1391
0.4071
0.5929
0.039158
Clase 4
1.0000
0.0000
0.4678
0.5322
1.0000
0.0000
0.0814
0.9186
1.0000
0.0000
0.017511
Clase 5
0.4740
0.5260
0.9708
0.0292
0.9096
0.0904
0.0026
0.9974
0.0000
1.0000
0.067446
0.410739
0.372380
0.068425
0.030599
0.117856
Tabla 15.B
Probabilidades condicionadas, probabilidades de clase latente
y probabilidades de clase latente condicionadas para el modelo heterogéneo
Grupo: turistas con 45 años o más
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1868
0.8132
0.7577
0.2423
0.0000
1.0000
0.8616
0.1384
0.4506
0.5494
0.053973
Clase 2
0.1118
0.8882
1.0000
0.0000
1.0000
0.0000
0.7139
0.2861
0.4019
0.5981
0.055569
Clase 3
1.0000
0.0000
0.2994
0.7006
0.3542
0.6458
1.0000
0.0000
0.2840
0.7160
0.041240
Clase 4
0.7602
0.2398
0.8345
0.1655
0.8706
0.1294
0.8398
0.1602
0.0748
0.9252
0.233532
Clase 5
0.5354
0.4646
0.2438
0.7562
0.7461
0.2539
0.5742
0.4258
0.7235
0.2765
0.043414
0.126185
0.129917
0.096416
0.545982
0.101499
- 432 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
a) Análisis intragrupal:
a.1.) Para el grupo de turistas menores de 45 años:
Se observa que la probabilidad de que el turista organice las vacaciones por su
cuenta es muy similar para las clases 2 ( 90,71 % ) y 5 ( 90,96 % ). Para contrastar si
estas dos probabilidades son iguales, impondremos la siguiente restricción de igualdad:
C GX
C GX
H (10)
0 : Π112 = Π115
De forma similar al proceso de segmentación global, para contrastar la anterior
hipótesis bastará estimar el modelo heterogéneo en el que se ha impuesto dicha
restricción contra el modelo heterogéneo no restringido, comparando los valores del test
de la razón de verosimilitud de ambos modelos. El resultado de esta comparación es el
que se muestra en la página siguiente. Como se puede observar, la hipótesis de igualdad
de probabilidades condicionadas correspondiente a la variable C para las clases 2 y 5 del
grupo de turistas menores de 45 años no puede rechazarse ni a un 1 % ni a un 5 % de
nivel de significación.
Las estimaciones del modelo heterogéneo restringido nº 1 aparecen recogidas en
el Anexo 3.
- 433 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Modelo heterogéneo no restringido
G 2 = 8.225187
χ 2 = 8.272391
16 g.l.
Nº de iteraciones: 15.776
Diferencia de verosimilitud:
G 2 = 8.232835 - 8.225187 = 0.007648
Diferencia en grados de libertad:
17 - 16 = 1 g.l.
Valor de p:
p = 0.9303
Decisión:
Aceptación de la hipótesis H (10)
0 .
Modelo heterogéneo restringido nº 1
Restricciones:
-Intragrupal 1.
G 2 = 8.232835
χ 2 = 8.280670
17 g.l.
Nº de iteraciones: 17.013
a.2.) Para el grupo de turistas con 45 años o más:
Tanto en el modelo no restringido como en el modelo restringido nº 1 ( véase el
Anexo 3 ) se observa que las probabilidades de clase latente ( y, por tanto, las
probabilidades de clase latente condicionadas ) de las clases 1 y 2, por un lado, y de las
clases 3 y 5, por otro lado, son muy similares. Esta circunstancia parece ser un síntoma
de que las clases 1 y 3 poseen el mismo tamaño relativo que las clases 2 y 5,
respectivamente. Para contrastar esta hipótesis, impondremos al modelo restringido nº 1
las dos siguientes restricciones de igualdad, las cuales darán lugar al que llamaremos
modelo restringido nº 2:
GX
GX
H (11)
0 : Π 21 = Π 22
GX
GX
H (12)
0 : Π 23 = Π 25
- 434 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Al comparar los modelos restringidos números 1 y 2 se han obtenido los
siguientes resultados:
Modelo heterogéneo restringido nº 1
Restricciones:
-Intragrupal 1.
G 2 = 8.232835
χ 2 = 8.280670
17 g.l.
Nº de iteraciones: 17.013
Diferencia de verosimilitud:
G 2 = 8.242198 - 8.232835 = 0.009363
Diferencia en grados de libertad:
19 - 17 = 2 g.l.
Valor de p:
p = 0.9953
Decisión:
Aceptación de las hipótesis H (11)
y H (12)
.
0
0
Modelo heterogéneo restringido nº 2
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
G 2 = 8.242198
χ 2 = 8.296893
19 g.l.
Nº de iteraciones: 17.013
A la vista de estos resultados, podemos admitir, tanto a un 1 % como a un 5 %
de nivel de significación, que en el grupo de turistas con 45 años o más, las clases 1 y 3
tienen el mismo tamaño relativo que las clases 2 y 5, respectivamente. Las estimaciones
de este modelo restringido nº 2 se encuentran también en el Anexo 3.
Por otra parte, debemos advertir que tanto el modelo restringido nº 1 como el
modelo restringido nº 2 son modelos de heterogeneidad completa, puesto que las
restricciones que hasta el momento se han impuesto son de naturaleza intragrupal.
- 435 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
b) Análisis intergrupal:
Si se comparan las probabilidades estimadas para los dos grupos considerados
una vez impuestas las anteriores restricciones intragrupales ( estimaciones del modelo
restringido nº 2 recogidas en el Anexo 3 ), se aprecia que la probabilidad de clase latente
de la clase 1 del grupo de turistas menores de 45 años es prácticamente igual a la
probabilidad de clase latente de la clase 4 del grupo de turistas con 45 años o más. Algo
parecido ocurre con la probabilidad de la clase 3 del grupo de turistas menores de 45
años y con la probabilidad de la clase 3 del grupo de turistas con 45 años o más ( ambas
probabilidades se sitúan en torno al 4 % ). Este hecho hace sospechar que las clases 1 y
3 del primer grupo de turistas sean del mismo tamaño que las clases 4 y 3,
respectivamente, del segundo grupo de turistas ( lo que no significa necesariamente que
el tamaño relativo de las clases que están siendo comparadas tenga por qué ser igual en
los dos grupos ). Para verificar esta hipótesis, se impondrán las siguientes restricciones
de homogeneidad, que darán origen a un nuevo modelo ( modelo restringido nº 3 ), que
será ya un modelo de homogeneidad parcial, y al que denominaremos modelo M 0 :
GX
GX
H (13)
0 : Π11 = Π 24
GX
GX
H (14)
0 : Π13 = Π 23
Para determinar si las dos restricciones anteriores contribuyen de forma
significativa a la mejora del ajuste del modelo restringido nº 2, calcularemos la
- 436 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
diferencia de verosimilitud entre este último modelo y el modelo de homogeneidad
parcial M 0 :
Modelo heterogéneo restringido nº 2
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
G 2 = 8.242198
χ 2 = 8.296893
19 g.l.
Nº de iteraciones: 17.013
Diferencia de verosimilitud:
G 2 = 8.269212 - 8.242198 = 0.027014
Diferencia en grados de libertad:
20 - 19 = 1 g.l.
Valor de p:
p = 0.8694
Decisión:
Aceptación de las hipótesis H (13)
y H (14)
.
0
0
Modelo restringido nº 3 ( M 0 )
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
La comparación entre estos dos modelos restringidos pone de manifiesto que
tampoco pueden rechazarse las dos restricciones intergrupales anteriores, tanto a un
nivel de significación del 1 % como del 5 %. Por consiguiente, el modelo que, por el
momento, arroja una segmentación óptima de los dos grupos considerados, es el modelo
de homogeneidad parcial M 0 .
c) Modelos de homogeneidad parcial y global:
Siguiendo a Clogg y a Goodman ( 1985 ), se pueden imponer varios conjuntos
de restricciones de homogeneidad sobre el modelo M 0 , que dan lugar a diferentes
- 437 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
modelos de homogeneidad. A continuación, formularemos algunos de estos modelos y
procederemos a verificar si alguno ( o varios ) de ellos contribuye de forma significativa
a mejorar el ajuste del citado modelo M 0 .
c.1.) Modelo de homogeneidad parcial M 1 :
Surge cuando se imponen las siguientes restricciones de homogeneidad12:
GX
GX
H 0(15) : Π11
= Π 21
GX
Π12
= Π G22X
GX
Π13
= Π G23X
GX
Π14
= Π G25X
GX
Π15
= Π G24X
La hipótesis H 0(15) es una hipótesis de homogeneidad en clases latentes, que
establece que las cinco clases definidas poseen el mismo tamaño en los dos grupos.
12
En todas las hipótesis de homogeneidad que serán formuladas, se identifican las clases 1, 2 y 3 del
grupo de turistas menores de 45 años con las clases 1, 2 y 3, respectivamente, del grupo de turistas con 45
años o más, ya que en ambos grupos, como más tarde se podrá constatar, la clase 1 corresponde a los
turistas sociales, la clase 2 a los turistas ecológicos y la clase 3 a los turistas pasivos. Por el contrario, la
clase 4 del primer grupo de turistas se identifica con la clase 5 del segundo grupo, puesto que estas dos
clases son las correspondientes a turistas por entretenimiento puro en ambos grupos. De forma similar, se
identificará la clase 5 del grupo de turistas menores de 45 años con la clase 4 del grupo de turistas con 45
años o más, ya que estas dos clases representan a los turistas recreativos en cada uno de los dos grupos
considerados.
- 438 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
La contrastación de este modelo ha arrojado los siguientes resultados:
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 82.466350 - 8.269212 = 74.197138
Diferencia en grados de libertad:
21 - 20 = 1 g.l.
Valor de p:
p = 0.0000
Decisión:
Rechazo de la hipótesis H 0(15) .
Modelo homogéneo M1
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en clases latentes.
G 2 = 82.466350
χ 2 = 81.506300
21 g.l.
Nº de iteraciones: 14.248
A la vista de los resultados obtenidos, deberemos rechazar la hipótesis de
homogeneidad en clases latentes, tanto a un 1 % como a un 5 % de nivel de
significación. En consecuencia, podemos admitir que los segmentos definidos tienen
distinto tamaño en los dos grupos estudiados, de forma que el tamaño relativo de la
clase 1 es diferente en el grupo de turistas menores de 45 años que en el grupo de los
que superan esta edad, siendo este comentario válido para las restantes clases de ambos
grupos.
- 439 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
c.2.) Modelo de homogeneidad parcial M 2 :
Este modelo de homogeneidad aparece cuando se imponen las siguientes
restricciones sobre el modelo M 0 :
AGX
AGX
= Π121
H 0(16) : Π111
AGX
AGX
Π112
= Π122
AGX
AGX
Π113
= Π123
AGX
AGX
Π114
= Π125
AGX
AGX
Π115
= Π124
Como puede observarse, la hipótesis H 0(16) conjetura la homogeneidad en las
probabilidades condicionadas asociadas a la variable manifiesta A, lo que significa que
la probabilidad de que un turista de la clase t ( para t = 1, 2, 3, 4, 5 ) prefiera un único
lugar para pasar las vacaciones o prefiera recorrer diferentes lugares es la misma en el
grupo de turistas menores de 45 años que en el grupo de turistas con 45 años o más.
Para verificar si esta hipótesis es admisible se han realizado los cálculos que se muestran
en el cuadro de la página siguiente.
Estos resultados ponen de manifiesto que debe rechazarse la hipótesis de
homogeneidad en las probabilidades condicionadas asociadas a la variable A a un nivel
de significación del 1 % o del 5 %. Por consiguiente, el modelo de homogeneidad
- 440 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
parcial M 2 no contribuye de forma sustancial a mejorar el ajuste del modelo M 0 . Las
mismas restricciones de homogeneidad que se han impuesto sobre la variable A pueden
formularse sobre las restantes variables observadas del modelo, dando lugar, de esta
forma, a los modelos de homogeneidad parcial M 3 , M 4 , M 5 y M 6 , que pasaremos a
contrastar a continuación.
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 32.200120 - 8.269212 = 23.930908
Diferencia en grados de libertad:
21 - 20 = 1 g.l.
Valor de p:
p = 0.0000
Decisión:
Rechazo de la hipótesis H 0(16) .
Modelo homogéneo M2
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en probabilidades
condicionadas de la variable A.
G 2 = 32.200120
χ 2 = 32.163890
21 g.l.
Nº de iteraciones: 3.134
c.3.) Modelo de homogeneidad parcial M 3 :
Se podría conjeturar que para la clase t del grupo de turistas menores de 45 años
la probabilidad de elegir espacios abiertos que permitan un contacto directo con la
naturaleza es la misma para la clase t ( teniendo presente los comentarios realizados en
- 441 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
la nota a pie de página nº 13 ) del grupo de turistas con 45 años o más. Esta conjetura se
traduce en la siguiente hipótesis de homogeneidad parcial:
BGX
BGX
H 0(17) : Π111
= Π121
BGX
BGX
Π112
= Π122
BGX
BGX
Π113
= Π123
BGX
BGX
Π114
= Π125
BGX
BGX
Π115
= Π124
Para contrastar la anterior hipótesis, calcularemos la diferencia de verosimilitud
entre el modelo inicial M 0 y el nuevo modelo M 3 :
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 18.154320 - 8.269212 = 9.885108
Diferencia en grados de libertad:
22 - 20 = 2 g.l.
Valor de p:
p = 0.0071
Decisión:
Rechazo de la hipótesis H 0(17) .
Modelo homogéneo M3
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en probabilidades
condicionadas de la variable B.
G 2 = 18.154320
χ 2 = 18.282130
22 g.l.
Nº de iteraciones: 16.449
- 442 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Los valores anteriores confirman que la hipótesis de homogeneidad en las
probabilidades condicionadas asociadas a la variable B tampoco mejora sustancialmente
el ajuste del modelo M 0 .
c.4.) Modelo de homogeneidad parcial M 4 :
Las restricciones de homogeneidad impuestas sobre el modelo M 0 se refieren,
en este caso, a la variable observada C:
C GX
C GX
H 0(18) : Π111
= Π121
C GX
C GX
Π112
= Π122
C GX
C GX
Π113
= Π123
C GX
C GX
Π114
= Π125
C GX
C GX
Π115
= Π124
La contrastación de la hipótesis H 0(18) se ha realizado a partir de los cálculos que
se reproducen en la siguiente página.
Al igual que en los casos anteriores, procede el rechazo del modelo de
homogeneidad parcial M 4 , tanto a un 1 % como a un 5 % de nivel de significación, lo
que significa admitir que la probabilidad de que un turista perteneciente a la clase
latente t organice las vacaciones por su cuenta o, por el contrario, sea partidario de
- 443 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
realizar viajes organizados es diferente según pertenezca al grupo de turistas menores de
45 años o al grupo de turistas con 45 años o más.
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 49.144040 - 8.269212 = 40.874828
Diferencia en grados de libertad:
25 - 20 = 5 g.l.
Valor de p:
p = 0.0000
Decisión:
Rechazo de la hipótesis H 0(18) .
Modelo homogéneo M4
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en probabilidades
condicionadas de la variable C.
G 2 = 49.144040
χ 2 = 52.810960
25 g.l.
Nº de iteraciones: 5.125
c.5.) Modelo de homogeneidad parcial M 5 :
¿ Podrá admitirse en la segmentación que propone el modelo M 0 que la
probabilidad de que un turista, encuadrado en la clase t, controle sus gastos durante su
vacaciones para no superar el presupuesto dedicado a las mismas es diferente según se
considere el grupo de turistas menores de 45 años o el grupo de turistas que superan esta
edad ?. Para responder a esta cuestión, contrastaremos estadísticamente la siguiente
hipótesis:
- 444 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
D GX
DGX
= Π121
H 0(19) : Π111
D GX
DGX
Π112
= Π122
D GX
DGX
Π113
= Π123
D GX
DGX
Π114
= Π125
D GX
DGX
Π115
= Π124
Según se constata en el cuadro inferior, el modelo M5 no mejora la bondad de
ajuste del modelo inicial M 0 , lo que equivale a rechazar la hipótesis H 0(19) de
homogeneidad en las probabilidades condicionadas asociadas a la variable manifiesta D.
En consecuencia, y en respuesta a la pregunta formulada, tanto a un 1 % como a un 5 %
de nivel de significación, la probabilidad asociada a cada categoría de la variable D
condicionada a la clase latente t es diferente en los dos grupos.
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 29.032800 - 8.269212 = 20.763588
Diferencia en grados de libertad:
24 - 20 = 4 g.l.
Valor de p:
p = 0.0003
Decisión:
Rechazo de la hipótesis H 0(19) .
Modelo homogéneo M5
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en probabilidades
condicionadas de la variable D.
G 2 = 29.032800
χ 2 = 27.542440
24 g.l.
Nº de iteraciones: 6.299
- 445 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
c.6.) Modelo de homogeneidad parcial M 6 :
El último modelo de homogeneidad parcial conjetura que las probabilidades
condicionadas asociadas a la variable E son homogéneas en ambos grupos, dada la
pertenencia del individuo a la clase t de cada uno de dichos grupos. En definitiva, el
modelo M 6 equivale a imponer las siguientes restricciones de homogeneidad:
EGX
EGX
H (20)
0 : Π111 = Π121
EGX
EGX
Π112
= Π122
EGX
EGX
Π113
= Π123
EGX
EGX
Π114
= Π125
EGX
EGX
Π115
= Π124
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 26.377130 - 8.269212 = 18.107918
Diferencia en grados de libertad:
23 - 20 = 3 g.l.
Valor de p:
p = 0.0004
Decisión:
.
Rechazo de la hipótesis H (20)
0
Modelo homogéneo M6
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en probabilidades
condicionadas de la variable E.
G 2 = 26.377130
χ 2 = 26.794300
23 g.l.
Nº de iteraciones: 8.719
- 446 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
La comparación entre los tests G 2 de los modelos M 0 y M 6 nos permite
concluir que, al igual que en los casos anteriores, la hipótesis H (20)
debe rechazarse,
0
tanto a un 1 % como a un 5 % de nivel de significación. Por tanto, la hipótesis de
homogeneidad parcial impuesta sobre la variable E no mejora el ajuste del modelo de
homogeneidad inicial M 0 , que sigue siendo el que proporciona la segmentación óptima
de los dos grupos considerados simultáneamente.
c.7.) Modelo de homogeneidad completa M 7 :
Este modelo surge cuando se introducen simultáneamente en el modelo M 0
todas las restricciones de homogeneidad en clases latentes y en probabilidades
condicionadas asociadas a las variables observadas impuestas anteriormente, es decir, si
se imponen al mismo tiempo las restricciones dadas por las hipótesis H (15)
a H (20)
0
0 . Este
modelo de homogeneidad completa establece que la estructura latente en los dos grupos
estudiados es idéntica, ya que significa que las clases definidas en cada grupo son del
mismo tamaño y de la misma naturaleza. En definitiva, admitir este modelo equivaldría
a considerar que el proceso de segmentación conduce a los mismos resultados en los dos
grupos, por lo que no podrían establecerse diferencias entre los mismos. Por
consiguiente, si este modelo fuese estadísticamente aceptable no tendría ningún sentido
diseccionar la demanda turística española en dos grupos en función de la edad, ya que,
en este caso, hubiera sido suficiente la segmentación de la población global, que sería
- 447 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
igualmente valida para los turistas menores de 45 años y para aquellos otros que tienen
45 años o más.
Para contrastar este modelo de homogeneidad completa, volveremos de nuevo a
calcular la diferencia de verosimilitud entre el modelo que hemos tomado como
referencia, el modelo M 0 , y el modelo que se desea contrastar estadísticamente, el
modelo M 7 . Los resultados, que se muestran en la parte inferior de esta página,
evidencian un claro rechazo de la hipótesis de homogeneidad completa, lo que nos lleva
a afirmar que las estructuras latentes en el grupo de turistas menores de 45 años y en el
de 45 años o más son claramente diferentes, lo que otorga pleno sentido a la
consideración de dos grupos en función de la edad del turista.
Modelo homogéneo M0
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
Modelo homogéneo M7
Restricciones:
-Intragrupal 1.
-Intragrupal 2.
-Intergrupales.
-Homogeneidad en clases latentes.
-Homogeneidad en probabilidades
condicionadas de las variables
A, B, C, D y E.
G 2 = 506.650400
χ 2 = 480.014500
39 g.l.
Nº de iteraciones: 2.616
G 2 = 8.269212
χ 2 = 8.334830
20 g.l.
Nº de iteraciones: 13.943
Diferencia de verosimilitud:
G 2 = 506.650400 - 8.269212 = 498.381188
Diferencia en grados de libertad:
39 - 20 = 19 g.l.
Valor de p:
p = 0.0000
Decisión:
Rechazo simultáneo de las hipótesis H (15)
a H (20)
.
0
0
- 448 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
En definitiva, ninguno de los modelos de homogeneidad propuestos mejora la
segmentación resultante del modelo M 0 . Por consiguiente, será este modelo el que sirva
de base, a partir de las estimaciones de sus parámetros, para comparar las estructuras
latentes de los dos grupos objeto de análisis.
Antes de proceder a dicha comparación, debemos indicar que el mencionado
modelo arroja un valor del test G 2 de 8,269212 ( p = 0,9899 ) y del test χ 2 de Pearson
de 8,334830 ( p = 0,9894 ), con 20 grados de libertad en ambos casos. Los valores de p
asociados a ambos coeficientes confirman que el ajuste de este modelo final a las
frecuencias observadas de las Tablas 14.A y 14.B es extraordinariamente satisfactorio,
lo que garantiza que las conclusiones alcanzadas en la comparación de las estructuras
latentes de los dos grupos tendrán una gran fiabilidad.
Obviando la asignación de los individuos estudiados a las clases definidas y
otros coeficientes asociados al modelo, como la proporción correctamente clasificada o
el coeficiente λ ( esta información puede consultarse en el Anexo 4 ), el análisis
comparativo de los valores estimados de las probabilidades de clase latente y
condicionadas de ambos grupos nos permitirá resaltar las diferencias más notables entre
los mismos. Las estimaciones en las que se basa este análisis comparativo se muestran
en las Tablas 16.A y 16.B, de forma que a partir de los valores que reflejan las mismas
se podrá concluir que:
- 449 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
Tabla 16.A
Probabilidades condicionadas, probabilidades de clase latente
y probabilidades de clase latente condicionadas del modelo homogéneo final M 0
Grupo: turistas menores de 45 años
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
Clase 2
Clase 3
Pasivo
0.8435
0.1565
0.0001
0.9999
0.8427
0.1573
0.8563
0.1437
0.4173
0.5827
0.040060
Clase 4
Entretenim.
puro
1.0000
0.0000
0.4736
0.5264
1.0000
0.0000
0.0393
0.9607
1.0000
0.0000
0.016644
Social
0.1486
0.8514
0.6977
0.3023
0.7810
0.2190
0.5610
0.4390
0.7278
0.2722
0.235241
Ecológico
0.5025
0.4975
1.0000
0.0000
0.9079
0.0921
1.0000
0.0000
0.1941
0.8059
0.213544
0.410892
0.372994
Clase 5
Recreativo
0.4751
0.5249
0.9738
0.0262
0.9079
0.0921
0.0023
0.9977
0.0000
1.0000
0.067024
0.069972
0.029072
0.117070
Tabla 16.B
Probabilidades condicionadas, probabilidades de clase latente
y probabilidades de clase latente condicionadas del modelo homogéneo final M 0
Grupo: turistas con 45 años o más
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
Clase 2
Clase 3
Clase 4
Social
0.2114
0.7886
0.7566
0.2434
0.0000
1.0000
0.8598
0.1402
0.4535
0.5465
0.056064
Ecológico
0.1350
0.8650
1.0000
0.0000
1.0000
0.0000
0.7063
0.2937
0.4182
0.5818
0.056064
Pasivo
1.0000
0.0000
0.2764
0.7236
0.3644
0.6356
1.0000
0.0000
0.2791
0.7209
0.040060
Recreativo
0.7534
0.2466
0.8356
0.1644
0.8710
0.1290
0.8399
0.1601
0.0759
0.9241
0.235241
Clase 5
Entretenim.
puro
0.5353
0.4647
0.1990
0.8010
0.7495
0.2505
0.5706
0.4294
0.7309
0.2691
0.040060
0.131147
0.131147
0.093710
0.550286
0.093710
- 450 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
a) Los turistas sociales ( 41,09 % ) y los turistas ecológicos ( 37,30 % ) son,
con gran diferencia, los dos segmentos más importantes en el grupo de turistas
menores de 45 años, mientras que en el grupo de turistas con 45 años o más estos
dos segmentos tienen un peso relativo muy inferior, ya que cada uno de ellos
representa solamente el 13,11 % de los turistas de dicho grupo.
b) Tanto los turistas por entretenimiento puro ( 2,91 % ) como los turistas
pasivos ( 6,99 % ) tienen una presencia que se puede calificar de meramente
anecdótica en el grupo de turistas menores de 45 años. Por contra, el tamaño de
estos segmentos en el grupo de turistas con 45 años o más es algo superior y se sitúa
en torno al 9,37 % del total.
c) El segmento más importante en el grupo de turistas con 45 años o más es,
con mucha diferencia, el de los turistas recreativos, que acapara algo más del 55 %
de la población. Sin embargo, la presencia de este segmento en el grupo de turistas
menores de 45 años es muchísimo menor, puesto que al mismo sólo pertenece el
11,70 % del total de turistas de este grupo.
d) Además de los diferentes tamaños de los segmentos en ambos grupos, se
detectan también aspectos diferenciales en las características propias de los citados
segmentos. Así, los turistas sociales son algo más estáticos y controlan más sus
gastos vacacionales en el grupo de turistas de 45 años o más que en el grupo de
turistas menores de 45 años. Por contra, en este último grupo, los turistas sociales
- 451 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
son mucho más partidarios de elegir lugares concurridos y masificados y valoran
menos el contacto con la naturaleza que los turistas de este mismo segmento en el
grupo de 45 años o más. En cualquier caso, la diferencia más acusada entre los
turistas sociales de ambos grupos estriba en el hecho de que en el primero de ellos
los turistas tienen una alta probabilidad ( 78,10 % ) de organizar por su cuenta las
vacaciones, mientras que en el segundo los turistas siempre viajan en grupos
organizados.
e) Respecto a los turistas ecológicos, destaca su carácter eminentemente
dinámico entre los turistas con 45 años o más y su carácter algo más estático entre
los turistas menores de 45 años. Además, en este último grupo el turista ecológico
controla muchísimo más sus gastos y se manifiesta de forma más contundente en
contra de la masificación que en el grupo de turistas con 45 años o más.
g) El comportamiento de los turistas pasivos también presenta matices
diferentes en los dos grupos considerados. Así, mientras que en el grupo de mayor
edad, el turista pasivo jamás recorre diferentes lugares durante sus vacaciones ni
está dispuesto a admitir un exceso de gastos, en el grupo de turistas más jóvenes, el
turista pasivo se manifiesta algo más receptivo, aunque sea de forma minoritaria, a
la movilidad durante las vacaciones y a la realización de todo lo que le apetezca, sin
reparar en gastos. Llama también la atención el carácter exclusivamente
cosmopolita de este segmento entre los turistas menores de 45 años ( carácter
mucho menos acusado en el grupo de turistas con 45 años o más ), así como la
- 452 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
inclinación mayoritaria hacia lugares tranquilos y poco concurridos de este
segmento entre los turistas con 45 años o más ( característica que se manifiesta con
bastante menos intensidad entre los turistas menores de 45 años ).
h) Las diferencias más significativas entre los turistas recreativos de ambos
grupos se detectan en las variables A y D. Así, mientras en el grupo de turistas
menores de 45 años se produce un reparto casi equitativo entre los que pasan sus
vacaciones en un único lugar y los que recorren diferentes lugares, en el grupo de
turistas de mayor edad son mayoría ( 75,34 % ) los que optan por pasar sus
vacaciones en un único sitio. Por otra parte, la actitud de los turistas de este
segmento respecto al control del gasto es radicalmente diferente en un grupo y en
otro, ya que mientras los turistas menores de 45 años se despreocupan siempre de
los gastos que conlleva el descanso vacacional, los turistas de más edad son
fundamentalmente ahorradores, ya que tienen una probabilidad de un 84 % de
cuidar sus gastos vacacionales. Por lo demás, el comportamiento de los turistas
recreativos en relación a las tres variables restantes es, aunque con pequeñas
diferencias, muy similar en ambos grupos.
i) Por último, los turistas por entretenimiento puro son, posiblemente, el
segmento que mayores diferencias presenta en los dos grupos objeto de análisis. En
concreto, en el grupo de turistas menores de 45 años se observa que estos turistas
son mucho más extremos ( radicales ) que en el otro grupo. Así, estos turistas
jamás recorren diferentes lugares durante sus vacaciones, siempre organizan el
- 453 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
viaje por su cuenta y en el 100 % de los casos buscan lugares masificados para
pasar sus vacaciones. Por contra, este segmento se comporta de forma algo
diferente cuando el turista tiene 45 años o más, ya que no se manifiesta
rotundamente partidario ni de un único lugar ni de varios lugares para pasar sus
vacaciones; aunque mayoritariamente organiza sus vacaciones por su cuenta, tiene
una probabilidad de un 25 % de viajar en un grupo organizado; y admite una
mayor disposición a lugares tranquilos y poco concurridos, a pesar de que cifra la
probabilidad de la opción contraria en un 73 %. Finalmente, las variables B y D
también hacen aflorar diferencias entre ambos grupos en el mismo segmento. Si
entre los turistas menores de 45 años se opta de forma prácticamente indistinta por
la naturaleza y por la ciudad, entre los turistas más jóvenes hay una inclinación
bastante acusada ( 80,10 % ) por los lugares urbanizados que dispongan de todos
los servicios. También contrasta el carácter marcadamente derrochador de los
turistas menores de 45 años ( 96,07 % ) con el carácter abiertamente más
ahorrador de los turistas con 45 años o más ( 57,06 % ).
4. CONCLUSIONES FINALES.
Dado el carácter tanto metodológico como puramente empírico de este trabajo,
hemos creído oportuno distinguir en este último apartado las aportaciones
metodológicas de las técnicas abordadas de las principales conclusiones obtenidas del
análisis de la demanda turística española.
- 454 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
1º) Conclusiones metodológicas:
En relación a la modelización log-lineal y logit, citaremos como principales
ventajas las siguientes:
a) El modelo logarítmico-lineal es una técnica que avanza de forma sustancial en
el análisis de asociación entre variables categóricas, ya que supera el enfoque marginal
para pasar a detectar relaciones de dependencia entre variables desde una óptica global.
b) La técnica log-lineal también permite contrastar estadísticamente cualquier
hipótesis ( de independencia o asociación ) relativa a más de dos variables, circunstancia
que no es posible con los métodos tradicionales empleados para el análisis de tablas de
contingencia.
c) Dado el carácter inferencial de la expansión en términos τ de las frecuencias
esperadas de una tabla, el análisis de la información estadística conduce a unas
conclusiones más rigurosas que las derivadas de un simple análisis descriptivo.
d) La interpretación de los modelos log-lineales en términos de independencia y
de independencia condicionada se facilita de forma considerable a través de las
representaciones gráficas, siempre y cuando el modelo sea “gráfico”.
- 455 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
e) Gracias al modelo logit, se puede reconducir el análisis estadístico hacia una
variable de interés ( variable respuesta ). Entre las ventajas de esta técnica se encuentra
la comparación de las probabilidades correspondientes a las diferentes categorías de esa
variable de interés.
En cualquier caso, y aunque no llegan a eclipsar a las ventajas anteriores, los
modelos log-lineal y logit también presentan algunos inconvenientes. Entre ellos
destacamos los siguientes:
a) En la mayoría de los casos, la aplicación de estas técnicas exige tamaños
muestrales muy elevados, lo que hace desaconsejable su uso cuando se dispone de pocas
observaciones. De hecho, las propiedades asintóticas de los tests de bondad de ajuste del
modelo están garantizadas sólo en el caso de muestras suficientemente grandes. En caso
contrario, no sólo pueden no verificarse estas propiedades asintóticas, sino que la mayor
presencia de ceros aleatorios podría poner en peligro la fiabilidad de los resultados
obtenidos.
b) Aun cuando supera el análisis marginal de tablas de contingencia, la
modelización log-lineal está fuertemente condicionada por el número de variables
consideradas. En este sentido, el número de variables que analiza simultáneamente el
modelo log-lineal con una fiabilidad aceptable suele ser cuatro o, a lo sumo, cinco.
Trabajar con tablas de dimensión seis o superior conlleva grandes dificultades de
selección del modelo óptimo, como consecuencia del número extraordinariamente
- 456 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
elevado de modelos log-lineales asociados. Además, la interpretación en términos de
independencia o de independencia condicionada se complica muchísimo cuando el
modelo involucra un gran número de variables.
c) La modelización logit, que resulta bastante elemental cuando la variable
respuesta es dicotómica, se complica cuando la variable de interés posee más de dos
categorías. El hecho de que sólo puedan compararse simultáneamente dos categorías o
dos conjuntos de categorías obliga a un cálculo de probabilidades parcial que puede
llevar a perder la percepción global del análisis de la variable respuesta.
Con respecto al modelo ACL, se puede concluir que es una técnica de
segmentación mucho más potente que otras ( principalmente, el análisis cluster ) por las
razones siguientes:
a) La norma de asignación de los individuos a los segmentos es única ( la
probabilidad modal ), lo que conducirá siempre a un único resultado, a diferencia de la
técnica cluster, que puede generar diferentes soluciones para el mismo conjunto de datos
según que la medida de similaridad empleada sea una u otra.
b) La base estadística del modelo ACL lo convierte en una técnica de
segmentación con gran rigor científico. Por el contrario, el análisis cluster está basado
- 457 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
en procedimientos relativamente simples que no requieren, por lo general, un
razonamiento estadístico profundo.
c) Aunque el modelo ACL es también una técnica exploratoria ( para descubrir
una estructura en los datos que no puede detectarse mediante una simple inspección
visual ), su ventaja reside principalmente en su carácter confirmatorio. Así, el modelo
ACL permite contrastar cualquier hipótesis relativa al tamaño de los segmentos
establecidos, a la igualdad de tamaño entre dos o más segmentos, a la naturaleza de cada
segmento, etc. Por contra, y a pesar de que existen técnicas de validación del resultado
alcanzado, en el análisis cluster no es posible contrastar estadísticamente si dos o más
clusters son del mismo tamaño o presentan las mismas características.
d) El modelo ACL parte de una hipótesis inicial, que es la existencia de una
variable latente en la población estudiada, pero no presupone siempre que la población
es segmentable per se. Dicho en otros términos, el modelo ACL contrasta
estadísticamente la “segmentabilidad” de la población. Al contrario del procedimiento
empleado por el modelo ACL, el análisis cluster considera siempre que la población
puede ser segmentada, pero no contrasta estadísticamente esta hipótesis de partida.
e) La ventaja definitiva del modelo ACL sobre otras técnicas de segmentación es
que trabaja con una ( o varias ) variable(-s) imposible(-s) de observar directamente, lo
que lo convierte en una técnica ideal cuando la segmentación se basa en criterios
- 458 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
subjetivos. Por el contrario, las técnicas de segmentación tradicionales trabajan siempre
con variables observadas directamente.
f) Además de todo lo anterior, el modelo ACL permite considerar
simultáneamente dos o más poblaciones, establecer comparaciones ( que pueden ser
contrastadas estadísticamente ) entre las mismas y confirmar o desmentir la
homogeneidad parcial o completa de dichas poblaciones.
Sin embargo, tampoco son todo ventajas en el modelo ACL. Como toda técnica
estadística, también presenta algunos inconvenientes, algunos de los cuales se apuntan
a continuación:
a) El número de clases latentes ( y, por consiguiente, el número de segmentos )
está condicionado por el número de casillas de la tabla de contingencia y por el número
total de parámetros que deben estimarse en el modelo.
b) Cuanto mayor es el número de clases de una variable latente, menor es la
probabilidad modal de la clase asignada a cada modalidad de respuesta. Esto significa
que en un modelo ACL con un elevado número de clases latentes, la relación entre la
variable latente y las variables observadas será más débil, por lo que el proceso de
asignación de individuos a las clases puede ser poco fiable.
- 459 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
c) Los programas informáticos utilizados para estimar los parámetros del modelo
ACL son muy escasos y no están todavía suficientemente perfeccionados. Son
frecuentes los fallos del programa en la ejecución de los comandos que especifican las
diferentes opciones elegidas. Junto a esta circunstancia, el escaso conocimiento de estos
programas por parte de los investigadores aplicados y las estrictas normas de
programación pueden constituir un freno a la difusión de estas técnicas en otros ámbitos
de la investigación científica.
2º) Conclusiones empíricas:
Tras el análisis estadístico realizado, este sería el comportamiento turístico de los
españoles en función de las variables auxiliares de carácter socioeconómico que han
sido consideradas:
a) Según el tamaño del hábitat:
a.1.) Individuos residentes en una ciudad de menos de 100.000 habitantes:
- Disfrutan de su período vacacional en zonas costeras.
- Son partidarios de utilizar transportes públicos para desplazarse a su lugar de
destino.
- Utilizan preferentemente alojamientos colectivos ( no hoteleros ) y, con menor
frecuencia, alojamientos hoteleros.
- 460 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Suelen viajar a través de agencias de viajes u organizaciones similares.
- Realizan viajes que no superan generalmente los 15 días de duración.
- Les gusta viajar en grupo.
a.2.) Individuos residentes en una ciudad con una población comprendida entre
los 100.000 y los 400.000 habitantes:
- Optan por las vacaciones en un pueblo o ciudad de interior, en el campo o en
la montaña.
- Se desplazan desde su lugar de residencia al lugar elegido con sus vehículos
particulares.
- Durante sus vacaciones suelen hospedarse en alojamientos privados.
- Prefieren organizar las vacaciones por su cuenta.
- Suelen realizar viajes de corta duración.
- Viajan en familia o solos.
a.3.) Individuos residentes en una ciudad que supera los 400.000 habitantes:
- Se inclinan por descansar en zonas de interior durante su período de
vacaciones.
- Utilizan el vehículo particular como medio principal de transporte.
- Se manifiestan claramente partidarios de los alojamientos privados.
- También organizan las vacaciones por su cuenta.
- La duración de los viajes que realizan suele ser superior a los 15 días.
- Viajan indistintamente solos o en familia.
- 461 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
b) Según la edad:
b.1.) Individuos con 24 años o menos:
- Se desplazan al lugar elegido para pasar sus vacaciones mediante transporte
público.
- Durante su período vacacional se hospedan en alojamientos colectivos ( no
hoteleros ) y, con menor frecuencia, en alojamientos privados.
- Suelen organizar las vacaciones por su cuenta.
- Los viajes que realizan tienen una duración media inferior a 8 días.
- Viajan en grupo o en solitario.
b.2.) Individuos con una edad comprendida entre los 25 y los 44 años:
- Utilizan principalmente el vehículo particular.
- Se hospedan indistintamente en alojamientos hoteleros y en otros alojamientos
colectivos.
- Realizan viajes de duración corta o media.
- Suelen viajar en grupo y, en menor medida, en familia.
b.3.) Individuos con una edad comprendida entre los 45 y los 64 años:
- Hacen uso del vehículo particular como medio de transporte.
- Son clientes principalmente de alojamientos hoteleros y con mucha menos
frecuencia de alojamientos privados.
- Se manifiestan claramente partidarios de viajar a través de agencias de viajes.
- 462 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Prefieren realizar viajes largos y, en menor medida, viajes de duración media.
- Viajan casi siempre en familia.
b.4.) Individuos con 65 años o más:
- Utilizan medios públicos de transporte para llegar a su destino vacacional.
- Se hospedan fundamentalmente en alojamientos hoteleros.
- Manifiestan una clara preferencia por los viajes organizados.
- Dada su mayor disponibilidad de tiempo libre, generalmente realizan viajes
que superan los 15 días de duración.
- Viajan solos o en familia.
c) Según el nivel de estudios:
c.1.) Individuos sin instrucción o sólo con estudios primarios:
- Disfrutan de sus vacaciones dentro del territorio nacional.
- Eligen como destino turístico una zona de interior.
- Utilizan transportes públicos para desplazarse hasta su punto de destino
turístico.
- Durante sus vacaciones se hospedan en alojamientos privados.
- Realizan viajes cuya duración oscila entre los 8 y los 15 días.
- No fraccionan sus vacaciones.
- 463 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
c.2) Individuos con estudios secundarios:
- No salen de España durante su período vacacional.
- Prefieren viajar en transportes públicos.
- Son clientes, preferentemente, de alojamientos colectivos.
- Prefieren realizar viajes de corta duración y, en menor medida, viajes de más
de 15 días de duración.
- Fraccionan sus vacaciones en dos o más períodos.
c.3.) Individuos con estudios superiores:
- Viajan por el extranjero durante sus vacaciones.
- Son partidarios del turismo de sol y playa.
- Utilizan medios de transporte privados para llegar a su punto de destino.
- Optan, de forma prácticamente indistinta, por alojamientos hoteleros y por
alojamientos privados.
- Sus viajes suelen tener una duración superior a los 15 días.
- Disfrutan de sus vacaciones en dos o más períodos de tiempo.
d) Según el nivel de ingresos:
d.1.) Individuos con ingresos bajos:
- No salen de España durante sus vacaciones.
- Practican turismo de interior.
- Se decantan por la utilización de medios públicos de transporte.
- 464 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- No fraccionan sus vacaciones.
d.2.) Individuos con un nivel medio de ingresos:
- Disfrutan de sus vacaciones en territorio español.
- Son partidarios del turismo de sol y playa.
- Suelen viajar en sus vehículos particulares.
d.3.) Individuos con ingresos altos:
- Viajan al extranjero durante su período vacacional.
- Eligen destinos turísticos ubicados en la costa o próximos a ella.
- Es manifiesta su tendencia a fraccionar las vacaciones.
e) Según la temporada vacacional:
e.1.) En temporada alta:
- Se utilizan de forma mayoritaria los vehículos particulares.
- Los turistas prefieren los alojamientos privados y, en menor medida, los
alojamientos colectivos.
- El viaje de vacaciones se organiza por cuenta propia.
- Se realizan viajes de larga duración.
- Se viaja principalmente en familia.
- 465 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
e.2.) En temporada baja:
- Existe un uso más extendido de los medios públicos de transporte.
- El turista demanda principalmente alojamientos hoteleros.
- Se viaja más de forma organizada a través de agencias de viajes u organismos
similares.
- Los viajes suelen ser de duración corta o media.
- Los turistas viajan más solos o en grupo.
f) Según el número de miembros del hogar familiar:
f.1.) Individuos pertenecientes a una familia sin hijos:
- Salen al extranjero durante sus vacaciones.
- Se desplazan utilizando medios públicos de transporte.
- Demandan principalmente alojamientos hoteleros.
- Acuden a las agencias de viajes para organizar sus vacaciones.
- Suelen viajar solos ( cuando se trata de individuos que no viven en familia, es
decir, cuando son solteros, viudos o separados ).
f.2.) Individuos pertenecientes a una familia con 1 o 2 hijos:
- Disfrutan sus vacaciones en territorio nacional.
- Utilizan sus vehículos particulares para desplazarse hasta el lugar donde
pasarán sus vacaciones.
- Demandan indistintamente alojamientos colectivos y alojamientos privados.
- 466 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
- Prefieren planificar las vacaciones por su cuenta.
- Viajan en familia.
f.3.) Individuos pertenecientes a una familia numerosa:
- Es acusada su inclinación a pasar las vacaciones en España.
- Son ligeramente partidarios de utilizar transportes públicos.
- Se hospedan principalmente en alojamientos privados y, en menor medida, en
otros alojamientos colectivos.
- Les gusta planificar el viaje por su cuenta.
- Viajan tanto solos como en grupo.
Además de estos comentarios generales sobre el comportamiento turístico de los
españoles, el empleo de modelo ACL general posibilita un análisis tanto exploratorio
como confirmatorio de la actitud de los españoles ante las vacaciones. Como resultado
del mismo, se ha llegado a una segmentación de la demanda turística española, cuyos
aspectos más significativos son los que se enumeran a continuación:
a) La demanda turística española puede segmentarse en cinco grandes
segmentos: turistas sociales, turistas ecológicos, turistas pasivos, turistas por
entretenimiento puro y turistas recreativos. Los dos segmentos más importantes son el
de turistas ecológicos y el de turistas recreativos, que representan, cada uno de ellos, el
35,75 % de la población estudiada.
- 467 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
b) Los turistas sociales se caracterizan principalmente por su talante
eminentemente dinámico y por controlar muy poco los gastos que les ocasionan sus
vacaciones.
c) Los turistas ecológicos presentan como rasgo característico más acusado su
búsqueda continua de lugares abiertos y en contacto directo con la naturaleza, de la que
son grandes amantes. Su carácter les lleva a seleccionar para sus vacaciones lugares
tranquilos y no muy masificados.
d) Lo más llamativo de los turistas pasivos es que prefieren viajar siempre que
pueden mediante un programa previamente establecido a través de agencias de viajes o
touroperadores turísticos. Junto a esta característica, poseen un carácter muy estático y
se preocupan mucho por el control de sus gastos durante las vacaciones.
e) Los turistas por entretenimiento puro son, con diferencia, los más estáticos de
todos los segmentos identificados. Además, no les gusta en absoluto los lugares aislados
o poco concurridos y están plenamente convencidos de que las vacaciones se deben
organizar personalmente.
f) Finalmente, los turistas recreativos se caracterizan por su espíritu estático ( ya
que no suelen moverse del lugar que eligen para sus vacaciones ) y por su huida de las
zonas turísticas masificadas.
- 468 -
Aplicación de la modelización estadística de tablas de contingencia
al análisis de la demanda turística española
____________________________________________________________________________________
g) Cada uno de los cinco segmentos identificados pueden caracterizarse además
mediante otras variables auxiliares de naturaleza socieconómica, como la edad, el nivel
de ingresos, el nivel de estudios, etc. Así, destacan los individuos mayores de 45 años,
con un bajo nivel de instrucción y con ingresos bajos entre los turistas pasivos y
recreativos. Por el contrario, la mayor presencia de individuos jóvenes, con una
instrucción elevada y con un alto nivel de ingresos se registra entre los turistas sociales y
ecológicos.
h) La edad del turista influye de forma sustancial en la segmentación efectuada.
La comparación entre dos grupos de turistas en función de la edad ( menores de 45 años
y mayores de 45 años ) mediante el análisis de estructura latente simultáneo ha
generado, entre otros, los siguientes resultados:
h.1.) Los turistas sociales y ecológicos tienen un protagonismo indudable en el
grupo de turistas menores de 45 años ( ambos segmentos aglutinan el 78 % de la
población ), mientras que, en este grupo, los turistas por entretenimiento puro y los
turistas pasivos tienen un papel meramente anecdótico.
h.2.) Los turistas recreativos son el segmento más significativo en el grupo de
turistas mayores de 45 años, ya que acaparan al 55 % de la población. Sin embargo, la
presencia de turistas sociales y ecológicos en este grupo es mucho menos significativa
que en el grupo de turistas menores de 45 años.
- 469 -
F U T U R A S L ÍN E A S DE
I N V E S T I G A C I ÓN
Futuras líneas de investigación
____________________________________________________________________________________
El presente trabajo no constituye, ni mucho menos, el final de una investigación
aplicada. Más bien al contrario, las técnicas que en el mismo se presentan son el punto
de partida para futuras investigaciones en un campo tan novedoso y atractivo como es el
análisis de variables categóricas. Efectivamente, tomando como referencia el modelo
logarítmico-lineal, se nos abre un amplio abanico de posibilidades. A continuación,
enumeraremos algunas de las líneas de investigación que pretendemos abordar en un
futuro:
Modelos log-lineales ordinales:
El modelo log-lineal presentado en este trabajo presupone que las categorías de
las variables analizadas no están sujetas a ninguna ordenación. Sin embargo, en
múltiples ocasiones nos veremos obligados a trabajar con variables ordinales, cuyas
categorías aparecerán ordenadas según un criterio determinado. Puesto que tanto las
estimaciones como los tests estadísticos del modelo log-lineal general son invariantes
ante una ordenación de las categorías, no será posible detectar los efectos que dicha
ordenación tiene sobre la propia interpretación del modelo. En consecuencia, la
existencia de variables ordinales en una tabla de contingencia multidimensional obliga a
reformular el modelo log-lineal general para evitar la pérdida de información estadística
relevante. Surge de este modo el modelo log-lineal ordinal, cuyas diferentes variantes,
como el modelo de efectos de fila, el modelo de efectos de columna, el modelo de
- 473 -
Futuras líneas de investigación
____________________________________________________________________________________
asociación RC o el modelo de asociación uniforme, permiten abordar el problema que se
plantea de forma plenamente satisfactoria.
Tablas de cambio:
El modelo log-lineal general detecta y cuantifica la asociación existente entre dos
o más variables categóricas, pero no se detiene en el análisis de esta asociación. El
conocimiento de la estructura de los efectos de interacción resulta especialmente útil
cuando se estudia una tabla de contingencia en la que se recoge la distribución de una
sola variable categórica en dos o más períodos de tiempo. Esta forma especial de tabla
de contingencia, conocida con el nombre de tabla de cambio, requiere para su análisis de
técnicas estadísticas específicas. En concreto, los modelos de simetría, de cuasi-simetría
o de homogeneidad marginal ponen a disposición del investigador unas herramientas
tremendamente útiles para el análisis de tablas de cambio.
Modelos con errores de medición:
Las posibilidades del modelo ACL, tanto general como restringido, no terminan
en la segmentación de una población o en la comparación de las estructuras latentes de
dos o más poblaciones. Cuando las variables manifiestas empleadas en el análisis
guardan un cierto orden en su “nivel de dificultad”, el modelo ACL puede ser válido
para indagar en la escalabilidad de estas variables. A partir de los planteamientos
iniciales de Guttman e imponiendo restricciones específicas a los parámetros del modelo
- 474 -
Futuras líneas de investigación
____________________________________________________________________________________
ACL, los llamados modelos con errores de medición ( modelo de Proctor, modelos de
porcentaje de error específico, modelo de distancia latente de Lazarsfeld, etc. ) permiten
situar a cada individuo en una posición de escala determinada. Estos modelos
específicos y los modelos con dos o más variables latentes constituyen nuestras dos
líneas básicas de investigación futura en el ámbito del análisis de clases latentes.
Modelos causales:
Las representaciones gráficas de los modelos tratados en este trabajo son de
naturaleza “no dirigida”, lo que significa que la asociación entre dos variables se
representa mediante una línea que, en cualquier caso, no implica ninguna relación de
causalidad entre las mismas. Sin embargo, existe un tipo de modelo gráfico “dirigido”,
en el que una o más variables son causa directa de otras variables, denominadas
variables respuesta. El calificativo “dirigido” procede del hecho de que las líneas que
unen a variables asociadas se sustituyen por flechas que parten de la variable “causa” y
llegan hasta la variable respuesta. Estos modelos, conocidos en la literatura como
modelos causales recursivos, admiten, por tanto, múltiples variables respuesta, de
manera que una variable puede ser, al mismo tiempo, un factor respuesta y una variable
causal de otras. En realidad, un modelo causal recursivo no es más que una conjunción
de modelos log-lineales. De aquí que la metodología logarítmico-lineal pueda ser
utilizada también para establecer relaciones de causalidad entre variables.
- 475 -
Futuras líneas de investigación
____________________________________________________________________________________
Colapsabilidad de tablas de elevada dimensión:
El concepto de colapsabilidad no solamente es útil para determinar la validez del
algoritmo CHAID, sino que también puede ser empleado para reducir la dimensión de
tablas de contingencia y facilitar su estudio. El análisis empírico que se ha realizado en
este trabajo ha consistido en cuantificar la asociación existente entre un máximo de
cuatro variables. A pesar de ello, somos plenamente conscientes de que uno de los
mayores inconvenientes de la modelización log-lineal es su dificultad de aplicación en
tablas de elevada dimensión. De aquí que el análisis de la colapsabilidad de dichas
tablas podría contribuir a paliar, en la medida de lo posible, este grave inconveniente.
- 476 -
BIBLIOGRAFÍA
Bibliografía
____________________________________________________________________________________
- AGRESTI, A. (1984): Analysis of Ordinal Categorical Data. Ed. John Wiley
& Sons, Inc. New York.
- AGRESTI, A. (1990): Categorical Data Analysis. Ed. John Wiley & Sons, Inc.
New York.
- AGRESTI, A. y YANG, M. (1987): “An empirical investigation of some
effects of sparseness in contingency tables”. Comput. Statistical Data Analysis, nº 5, pp.
9-21.
- ALDENDERFER, M.S. y BLASHFIELD, R.K. (1984): Cluster Analysis. Sage
University Paper series on Quantitative Applications in the Social Sciences, 07-044.
Beverly Hills: Sage Pubns.
- ANDERSEN, A.H. (1974): “Multidimensional Contingency Tables”.
Scandinavian Journal of Statistics, nº 1, pp. 115-127.
- ANDERSEN, E.B. (1977): “Sufficient statistics and latent trait models”.
Psychometrika, vol. 42, pp. 69-81.
- ANDERSEN, E.B. (1980): “Comparing latent distributions”. Psychometrika,
vol. 45, pp. 121-134.
- ANDERSEN, E.B. (1982): “Latent Trait Models and Ability Parameter
Estimation”. Applied Psychological Measurement, vol. 6, nº 4, pp. 445-461.
- ANDERSEN, E.B. (1990): The Statistical Analysis of Categorical Data.
Tercera Edición. Ed. Springer-Verlag. Berlín.
- ANDERSEN, E.B. (1992): “Diagnostics in Categorical Data Analysis”.
Journal of the Royal Statistical Society, vol. 54, nº 3, pp. 781-791.
- ANDERSEN, E.B. (1993): “Latent Structure Models in Measuring Social Life
Feelings”. En New Directions in Attitude Measurement, pp. 255-265. Ed. Walter de
Gruyter. Berlín.
- ANDERSON, S. y otros (1980): Statistical Methods for Comparative Studies,
pp. 161-198. Ed. John Wiley & Sons, Inc. New York.
- ANDRICH, D. (1979): “A Model for Contingency Tables Having an Ordered
Response Classification”. Biometrics, nº 35, pp. 403-415.
- ASMUSSEN, S. y EDWARDS, D. (1983): “Collapsibility and response
variables in contingency tables”. Biometrika, vol. 70, nº 3, pp. 567-578.
- 479 -
Bibliografía
____________________________________________________________________________________
- BARTHOLOMEW, D.J. (1987): Latent Variable Models and Factor Analysis.
Charles Griffin & Company Ltd. London.
- BHAPKAR, V.P. (1979): “On Tests of Marginal Symmetry and QuasiSymmetry in Two and Three-Dimensional Contingency Tables”. Biometrics, nº 35, pp.
417-426.
- BIRCH, M.W. (1963): “Maximum Likelihood in Three-Way Contingency
Tables”. Journal of the Royal Statistical Society, Serie B, nº 25, pp. 220-233.
- BISHOP, Y.M.M. (1971): “Effects of collapsing multidimensional contingency
tables”. Biometrics, nº 27, pp. 545-562.
- BISHOP, Y.M.M. y FIENBERG, S.E. (1969): “Incomplete two-dimensional
contingency tables”. Biometrics, nº 25, pp. 119-128.
- BISHOP, Y.M.M., FIENBERG, S.E. y HOLLAND, P.W. (1975): Discrete
Multivariate Analysis: Theory and Practice. Massachusetts Institute of Technology
Press. Massachusetts.
- BOTE, V. (1987): “Importancia de la demanda turística en espacio rural en
España”. Estudios Turísticos, nº 93, pp. 79-91.
- BOTE, V. (1995): La demanda turística española en espacio rural o de
interior: situación actual y potencial. Instituto de Economía y Geografía del Consejo
Superior de Investigaciones Científicas. Madrid.
- BROWN, M.B. (1976): “Screening effects in multidimensional contingency
tables”. Applied Statistics, nº 25, pp. 37-46.
- BRYANT, B.E. (1980): “Segmentación del mercado de viajes e
implementación de estrategias de mercado”. Journal of Travel Desearcher, volumen
XVII, nº 3.
- BULL, A. (1994): La economía del sector turístico. Alianza Editorial, S.A.
Madrid.
- CALLEJON, J. (1994): Un nuevo método para generar distribuciones de
probabilidad. Problemas asociados y aplicaciones. Tesis Doctoral. Universidad de
Granada.
- CARDENAS, F. (1991): La segmentación del mercado turístico:
comercialización y venta. Editorial Trillas. Méjico.
- CENTRO DE INVESTIGACIONES SOCIOLOGICAS: Comportamiento de
los españoles ante las vacaciones (III). Estudio 2.193. Octubre 1995.
- 480 -
Bibliografía
____________________________________________________________________________________
- CLOGG, C.C. (1977): Unrestricted and restricted maximun likelihood latent
structure analysis: a manual for users. Working Paper 1977-09. University Park, PA:
Population Issues Research Office.
- CLOGG, C.C. (1979): “Some latent structure models for the analysis of Likerttype data”. Social Science Research, nº 8, pp. 287-301.
- CLOGG, C.C. (1981): “New developments in latent structure analysis”. En
D.M. Jackson y E.F. Borgotta. Factor Analysis and Meaurement, pp. 215-246. Beverly
Hills, CA: Sage.
- CLOGG, C.C. (1982): “Some Models for the Analysis of Association in
Multiway Cross-Classifications Having Ordered Categories”. Journal of the American
Statistical Association, vol. 77, nº 380, pp. 803-815.
- CLOGG, C.C. (1988): “Latent class models for measuring”. En Latent trait and
latent structure models, pp. 173-205. R. Langeheine & Rost. New York. Plenum Press.
- CLOGG, C.C. y GOODMAN, L.A. (1984): “Latent Structure Analysis of a set
of multidimensional contingency tables”. Journal of the American Statistical
Association, vol. 79, pp. 762-771.
- CLOGG, C.C. y GOODMAN, L.A. (1985): Simultaneous latent structure
analysis in several groups. En N.B. Tuma, Sociological Methodology. San Francisco:
Josey-Bass.
- CLOGG, C.C. y GOODMAN, L.A. (1986): “On scaling models applied to data
from several groups”. Psychometrika, nº 51, pp. 123-135.
- CHEN T. y FIENBERG, S.E. (1976): “The analysis of contingency tables with
incompletely classified data”. Biometrics, nº 32, pp. 133-144.
- CHOULAKIAN, V. (1988): “Exploratory analysis of contingency tables by
loglinear formulation and generalizations of correspondence analysis”. Psychometrika,
vol. 53, nº 2, pp. 235-250.
- CHRISTENSEN, R. (1990): Log-linear models. Springer Texts in Statistics.
Ed. Springer-Verlag, New York, Inc.
- DARROCH, J.N., LAURITZEN, S.L. y SPEED, T.P. (1980): “Markov fields
and log-linear interaction models for contingency tables”. Annals of Statistics, vol 8, nº
3, pp. 522-539.
- 481 -
Bibliografía
____________________________________________________________________________________
- DEMARIS, A. (1992): Logit modeling: practical applications. Sage University
Paper series on Quantitative Applications in the Social Sciences, 07-086, Newbury Park,
CA: Sage Pubns.
- DEMING, W.E. y STEPHAN, F.F. (1940): “On a least squares adjustment of a
sampled frecuency table when the expected marginal tables are known”. Annals of
Mathematical Statistics, nº 11, pp. 427-444.
- DEMPSTER, A.P., LAIRD, N.M. y RUBIN, D.B. (1977): “Maximum
likelihood from incomplete data via the EM-algorithm”. Journal of the Royal Statistical
Society, Serie B, nº 1, pp. 1-38.
- DIACONIS, P. y EFRON, B. (1985): “Testing for independence in a two-way
table: new interpretations of the chi-square statistic”. The Annals of Statistics, vol. 13, nº
3, pp. 845-874.
- DIRECCION GENERAL DE POLITICA TURISTICA (1981): Dinámica de la
distribución de la demanda turística en el territorio español. Estudio realizado por
Metra-Seis para la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1986a): Estudio de la
demanda extrahotelera en España. Tres volúmenes. Estudio realizado por Consultur
para la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1986b): Las
vacaciones de los españoles en 1985. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1987a): Encuesta
sobre el grado de satisfacción de la demanda turística extranjera en relación con el
producto turístico español en 1986. Estudio realizado por Consultur para la Secretaría
General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1987b): Estudio sobre
el nivel de satisfacción y deseos del turismo extranjero respecto al turismo español.
Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1987c): La demanda
en los campamentos de turismo. Estudio realizado por el Instituto DYM para la
Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1988a): Las
vacaciones de los españoles en 1987. Informe. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1988b): Los viajes de
los españoles al extranjero en 1987. Dos volúmenes. Secretaría General de Turismo.
Madrid.
- 482 -
Bibliografía
____________________________________________________________________________________
- DIRECCION GENERAL DE POLITICA TURISTICA (1989a): Los viajes de
vacaciones de los españoles de la tercera edad. Estudio realizado por Delphi
Consultores Internacionales para la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1989b): “El gasto en
turismo de los españoles ( informe )”. Estudios Turísticos, nº 102, pp. 113-138.
- DIRECCION GENERAL DE POLITICA TURISTICA (1990a): Estudio sobre
el grado de satisfacción de la Demanda Turística Nacional y Extranjera en relación
con el Producto Turístico Español. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1990b): Modelos de
previsión de las series del turismo español y análisis de coyuntura. Secretaría General
de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1991a): Demanda y
situación económico-financiera del sector de campamentos de turismo. Estudio
realizado por Inmark para la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1991b): Las
vacaciones de los españoles en 1990. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1992): Encuesta a
visitantes no residentes. Año 1992. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1993a): Análisis de la
demanda actual y potencial del Camino de Santiago. Estudio realizado por Consultur
para la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1993b): Las
vacaciones de los españoles en 1992. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1993c): Los
movimientos turísticos en fronteras: 1993. Estudio realizado por Eco Consulting para la
Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1994a): Las
vacaciones de los españoles en 1993. Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1994b): Los
movimientos turísticos en fronteras: 1994. Estudio realizado por ECO Consulting para
la Secretaría General de Turismo. Madrid.
- DIRECCION GENERAL DE POLITICA TURISTICA (1995): Las vacaciones
de los españoles en 1994. Secretaría General de Turismo. Madrid.
- 483 -
Bibliografía
____________________________________________________________________________________
- DIRECCION GENERAL DE POLITICA TURISTICA (1996): Las vacaciones
de los españoles en 1995. Secretaría General de Turismo. Madrid.
- DORADO, A. (1998): Métodos de búsqueda de variables relevantes en
análisis de segmentación: aportaciones desde una perspectiva multivariante. Tesis
Doctoral. Universidad de Salamanca.
- EDWARDS, D. (1995): Introduction to Graphical Modelling. Editorial
Springer-Verlag, New York, Inc.
- EDWARDS, D. y HAVRANEK, T. (1985): “A fast procedure for model search
in multidimensional contingency tables”. Biometrika, nº 72, pp. 339-351.
- EDWARDS, D. y KREINER, S. (1983): “The analysis of contingency tables by
graphical models”. Biometrika, vol. 70, nº 3, pp. 553-565.
- ELDERTON, W.P. y JOHNSON, N.L. (1969): System of frecuency curves.
Cambridge University Press.
- ESTEBAN, A. (1987): Análisis de la demanda: aplicación a la actividad
turística de las técnicas de predicción. Tesis Doctoral 70/87. Editorial de la Universidad
Complutense. Madrid.
- ESTEBAN, A. (1993): “Previsiones turísticas: metodología y resultados”.
Estudios Turísticos, nº 118, pp. 51-71.
- ESTEBAN, A. (1994): “La medición del turismo metropolitano: la
coordinación estadística”. Estudios Turísticos, nº 124, pp. 5-14.
- ESTEBAN, A. (1996a): Principios de marketing. ESIC Editorial. Madrid.
- ESTEBAN, A. y REINARES, E. (1996b): “La investigación de la demanda
turística en España: recopilación y análisis”. Estudios Turísticos, nº 129, pp. 81-104.
- EVERITT, B.S. (1977): The Analysis of Contingency Tables. Monographs on
Applied Probability and Statistics. Ed. Chapman and Hall, Ltd.
- FAJARDO, M.A. (1985): Generalizaciones de los sistemas pearsonianos
discretos. Tesis Doctoral. Universidad de Extremadura.
- FIENBERG, S.E. (1968): The Estimation of Cell Probabilities in Two-Way
Contingency Tables. Ph. D. Thesis. Department of Statistics. Harvard University.
- FIENBERG, S.E. (1970): “Quasi-Independence and Maximum Likelihood
Estimation in Incomplete Contingency Tables”. Journal of the American Statistical
Association, vol. 65, nº 332, pp. 1610-1616.
- 484 -
Bibliografía
____________________________________________________________________________________
- FIENBERG, S.E. (1972): “The analysis of incomplete multi-way contingency
tables”. Biometrics, nº 28, pp. 177-202.
- FIENBERG, S.E. (1978): The Analysis of Cross-Classified Categorical Data.
Segunda Edición. Cambridge, Massachusetts: MIT Press.
- FIENBERG, S.E. (1979): “The use of chi-squared statistics for categorical data
problems”. Journal of the Royal Statistical Society, Serie B, nº 41, pp. 54-64.
- FIGUEROLA, M. (1985): Teoría Económica del Turismo. Alianza Editorial,
S.A. Madrid.
- FIGUEROLA, M. y ESTEBAN, A. (1984): “Técnicas de previsión y análisis
de comportamiento de la demanda turística”. Estudios Turísticos, nº 84, pp. 3-16.
- FINGLETON, B. (1984): Models of Category Counts. Cambridge University
Press. England.
- FORMANN, A.K. (1985): “Constrained latent class analysis”. British Journal
of Mathematical and Statistical Psychology, nº 38, pp. 87-111.
- FORMANN, A.K. (1988): “Latent Class Models for Nonmonotone
Dichotomous Items”. Psychometrika, vol. 53, nº 1, pp. 45-62.
- FORMANN, A.K. (1992): “Linear Logistic Latent Class Analysis for
Polytomous Data”. Journal of the American Statistical Association, vol. 87, nº 418, pp.
476-486.
- FREEMAN, D.H. (1987): Applied Categorical Data Analysis. Ed. Marcel
Dekker, Inc. New York.
- FUENTES, R. (1995): “Análisis de las principales características de la
demanda de turismo rural en España”. Estudios Turísticos, nº 127, pp. 19-52.
- GABINETE DE INVESTIGACION TURISTICA T.H.R. e INSTITUTO DYM
(1986): Las vacaciones de los españoles en 1985. Madrid.
- GILCHRIST, R. (1982): GLIM 82: Proceedings of the International
Conference on Generalised Linear Models, pp. 98-108. Ed. Springer-Verlag. New York.
- GILULA, Z. (1984): “On some similarities between canonical correlation
models and latent class models for two-way contingency tables”. Biometrika, vol. 71, nº
3, pp. 523-529.
- 485 -
Bibliografía
____________________________________________________________________________________
- GILULA, Z. (1986): “Grouping and Association in Contingency Tables: An
Exploratory Canonical Correlation Approach”. Journal of the American Statistical
Association, vol. 81, nº 395, pp. 773-779.
- GLESER, L.J. y MOORE, D.S. (1985): “The effect of positive dependence on
chi-squared tests for categorical data”. Journal of the Royal Statistical Society, vol. 47,
nº 3, pp. 459-465.
- GOKHALE, D.V. y KULLBACK, S. (1978): The Information in Contingency
Tables. Ed. Marcel Dekker, Inc. New York.
- GONZALEZ, A. (1995): “Tendencias de la segmentación por variables
psicográficas del mercado turístico”. Actas del 5º Congreso Nacional de Economía de
las Palmas de Gran Canaria, pp. 297-310.
- GOOD, P. (1994): Permutation Tests. Ed. Springer-Verlag Inc. New York.
- GOODMAN, L.A. (1968): “The analysis of cross-clasified data: Independence,
quasi-independence and interactions in contingency tables with and without missing
entries”. Journal of the American Statistical Association, vol. 63, pp. 1091-1131.
- GOODMAN, L.A. (1970): “The multivariate analysis of qualitative data:
interaction among multiple classifications”. Journal of the American Statistical
Association, vol. 65, pp. 226-256.
- GOODMAN, L.A. (1971): “Partitioning of chi-square, analysis of marginal
contingency tables and estimation of expected frecuencies in multidimensional tables”.
Journal of the American Statistical Association, vol. 66, pp. 339-344.
- GOODMAN, L.A. (1973a): “Guided and Unguided Methods for the Selection
of Models for a Set of T Multidimensional Contingency Tables”. Journal of the
American Statistical Association, vol. 68, nº 341, pp. 165-175.
- GOODMAN, L.A. (1973b): “The analysis of multidimensional contingency
tables when some variables are posterior to others: a modified path analysis approach”.
Biometrika, vol. 60, nº 1, pp. 179-192.
- GOODMAN, L.A. (1974): “Exploratory latent structure analysis using both
identifiable and unidentifiable models”. Biometrika, vol. 61, nº 2, pp. 215-231.
- GOODMAN, L.A. (1978): Analyzing Qualitative/Categorical Data: LogLinear Models and Latent Structure Analysis. Ed. Addison and Wesley. London.
- GOODMAN, L.A. (1979): “Simple Models for the Analysis of Association in
Cross-Classifications Having Ordered Categories”. Journal of the American Statistical
Association, vol. 4, nº 367, pp. 537-552.
- 486 -
Bibliografía
____________________________________________________________________________________
- GOODMAN, L.A. (1981a): “Association Models and Canonical Correlation in
the Analysis of Cross-Classifications Having Ordered Categories”. Journal of the
American Statistical Association, vol. 76, nº 374, pp. 320-334.
- GOODMAN, L.A. (1981b): “Association models and the bivariate normal for
contingency tables with ordered categories”. Biometrika, vol. 68, nº 2, pp. 347-355.
- GOODMAN, L.A. (1983): “The Analysis of Dependence in CrossClassifications Having Ordered Categories, Using Log-Linear Models for Frequencies
and Log-Linear Models for Odds”. Biometrics, nº 39, pp. 149-160.
- GOODMAN, L.A. (1984): The Analysis of Cross-Classified Data having
ordered categories. Harvard University Press. Massachusetts.
- GOODMAN, L.A. (1985): “The analysis of cross-classified data having
ordered and/or unordered categories: association models, correlation models, and
asymmetry models for contingency tables with and without missing entries”. The Annals
of Statistics, vol. 13, nº 1, pp. 10-69.
- GOODMAN, L.A. (1986): “Some Useful Extensions of the Usual
Correspondence Analysis Approach and the Usual Log-Linear Models Approach in the
Analysis of Contingency Tables”. International Statistical Review, vol. 54, nº 3, pp.
243-309.
- GOODMAN, L.A. y KRUSKAL, W.H. (1979): Measures of Association for
Cross Classifications. Ed. Springer-Verlag. New York.
- GREEN, B.F. (1951): “A general solution for the latent class model of latent
structure analysis”. Psychometrika, vol. 16, nº 2, pp. 161-166.
- HABERMAN, S.J. (1973): “The analysis of residuals in cross-classified
tables”. Biometrics, nº 29, pp. 205-220.
- HABERMAN, S.J. (1974): The Analysis of Frecuency Data. Chicago:
University of Chicago Press.
- HABERMAN, S.J. (1977): “Log-linear models and frecuency tables with small
expected cell counts”. The Annals of Statistics, vol. 5, pp. 1148-1169.
- HABERMAN, S.J. (1978): Analysis of Qualitative Data. Volumen I. New
York: Academic Press.
- HABERMAN, S.J. (1979): Analysis of Qualitative Data. Volumen II. New
York: Academic Press.
- 487 -
Bibliografía
____________________________________________________________________________________
- HAGENAARS, J.A. (1990): Categorical Longitudinal Data: Log-linear panel,
Trend y Cohort Analysis. Ed. Sage Publications, Newbury Park, California.
- HAGENAARS, J.A. (1993): Loglinear Models with Latent Variables. Sage
University Paper series on Quantitative Applications in the Social Sciences, 07-094.
Newbury Park, CA: Sage Pubns.
- HAVRANEK, T. (1984): “A procedure for model search in multidimensional
contingency tables”. Biometrics, nº 40, pp. 95-100.
-HEINEN, T. (1992): Discrete Latent Variable Models. Work and Organization
Research Centre.
- HERRERIAS, R. (1975): Sobre las estructuras estadísticas de Pearson y
exponenciales, problemas asociados. Facultad de Ciencias. Granada.
- HERRERIAS, R. (1976): “Extensión del sistema de distribuciones discretas de
Pearson”. Cuadernos de Estadística Matemática, Serie A, nº 3, pp. 30-36. Facultad de
Ciencias. Granada.
- HOLM, S. (1979): “A simple sequentially rejective multiple test procedure”.
Scandinavian Journal of Statistics, nº 6, pp. 65-70.
- HOMMEL, G. (1988): “A stagewise rejective multiple test procedure based on
a modified Bonferroni test”. Biometrika, vol. 75, nº 2, pp. 383-386.
- IMREY, P.B., KOCH, G.G. y STOKES, M.E. (1981): “Categorical Data
Analysis: Some reflections on the Log Linear Model and Logistic Regression. Part I:
Historical and Methodological Overview”. International Statistical Review, nº 49, pp.
265-283.
- IMREY, P.B., KOCH, G.G. y STOKES, M.E. (1982): “Categorical Data
Analysis: Some reflections on the Log Linear Model and Logistic Regression. Part II:
Data Analysis”. International Statistical Review, nº 50, pp. 35-63.
- INSTITUTO DE ESTUDIOS TURISTICOS (1986): Modelos de Demanda
Turística Española. Madrid.
- INSTITUTO ESPAÑOL DE TURISMO (1979): “Estudio de motivaciones para
el turismo en España”. Estudios Turísticos, nº 63-64, pp. 5-358.
- INSTITUTO ESPAÑOL DE TURISMO (1980): “Comportamiento vacacional
y turístico de los españoles: enero-septiembre 1979”. Estudios Turísticos, nº 66, pp. 17110.
- 488 -
Bibliografía
____________________________________________________________________________________
- INSTITUTO ESPAÑOL DE TURISMO (1981): “Comportamiento vacacional
y turístico de los extranjeros: encuesta a extranjeros que visitaron algunas zonas de
España, diciembre de 1980 y enero de 1981”. Estudios Turísticos, nº 70-71, pp. 179334.
- INSTITUTO ESPAÑOL DE TURISMO (1982a): “Comportamiento vacacional
y turístico de los españoles, 1980”. Estudios Turísticos, nº 73-74, pp. 125-233.
- INSTITUTO ESPAÑOL DE TURISMO (1982b): “Comportamiento vacacional
y turístico de los extranjeros: encuesta a extranjeros que visitaron algunas zonas de
España, julio y agosto de 1981”. Estudios Turísticos, nº 75-76, pp. 89-214.
- INSTITUTO ESPAÑOL DE TURISMO (1983): “Vacaciones y turismo en la
tercera edad: encuesta realizada a nivel nacional”. Estudios Turísticos, nº 77-78, pp. 7105.
- ISHII-KUNTZ, M. (1994): Ordinal Log-Linear Models. Sage University Paper
series on Quantitative Applications in the Social Sciences, 07-097. Thousand Oaks, CA:
Sage.
- JOBSON, J.D. (1992): Applied Multivariate Data Analysis. Volumen II:
Categorical and Multivariate Methods. Ed. Springer-Verlag, New York, Inc.
- KENDALL, M. (1975): Multivariate Analysis, pp. 171-195. Ed. Charles Griffin
& Company. London.
- KLEINBAUM, D.G. y KUPPER, L.L. (1978): Applied Regression Analysis
and Other Multivariable Methods, pp. 447-485. Duxbury Press. Massachusetts.
- KNOKE, D. y BURKE, P.J. (1980): Log-linear models. Sage University Paper
series on Quantitative Applications in the Social Sciences, 07-020, Beverly Hills: Sage
Publications.
- KOEHLER, K. (1986): “Goodness-of-fit tests for log-linear models in sparse
contingency tables”. Journal of the American Statistical Association, vol. 81, pp. 483493.
- KOTZE, T.J. y HAWKINS, D.M. (1984): “The identification of Outliers in
Two-way Contingency Tables using 2x2 Subtables”. Applied Statistics, vol. 33, nº 2, pp.
215-223.
- KRZANOWSKI, W.J. (1988): Principles of Multivariate Analysis, pp. 265285. Oxford University Press.
- 489 -
Bibliografía
____________________________________________________________________________________
- LANGEHEINE, R. (1988): “New developments in latent class theory”. En
Langeheine & Rost, Latent trait and latent class models, pp. 77-108. New York.
Plenum Press.
- LAURITZEN, S.L. (1982): Lectures on contingency tables. Aalborg University
Press.
- LAZARSFELD, P.F. (1950a): “The logical and mathematical foundation of
latent structure analysis”. En S. Stouffer, Measurement and prediction, pp. 362-412.
Princeton, NJ: Princeton University Press.
- LAZARSFELD, P.F. (1950b): “The logical and mathematical foundation of
latent structure analysis”. En S. Stouffer, Measurement and prediction, pp. 413-472.
Princeton, NJ: Princeton University Press.
- LAZARSFELD, P.F. y HENRY, N.W. (1968): Latent structure analysis.
Boston: Houghton Mifflin Company.
- LIEBETRAU, A.M. (1983): Measures of Association. Sage University Paper
series on Quantitative Applications in the Social Sciences, 07-032. Beverly Hills, CA:
Sage Pubns.
- MARASCUILO, L.A. y McSWEENEY, M. (1977): Nonparametric and
Distribution-Free Methods of the Social Sciences, pp. 93-259. Ed. Wadsworth Publising
Company, Inc. California.
- MASTERS, G.N. (1985): “A comparison of latent trait and latent class
analyses of Likert-type data”. Psychometrika, vol. 50, nº 1, pp. 69-82.
- McCULLAGH, P. (1982): “Some applications of quasisymmetry”. Biometrika,
vol. 69, nº 2, pp. 303-308.
- McCUTHEON, A.L. (1987): Latent Class Analysis. Sage University Paper
series on Quantitative Applications in the Social Sciences, 07-064. Newbury Park, CA:
Sage Pubns.
- McHUGH, R.B. (1956): “Efficient estimation and local identification in latent
class analysis”. Psychometrika, vol. 21, nº 4, pp. 331-347.
- MOOIJAART, A. (1992): “The EM algorithm for latent class analysis with
equality constraints”. Psychometrika, vol 57, nº 2, pp. 261-269.
- MUÑOZ DE ESCALONA, F. (1992): Crítica de la Economía Turística.
Enfoque de oferta versus enfoque de demanda. Tesis Doctoral 104-92. Editorial de la
Universidad Complutense. Madrid.
- 490 -
Bibliografía
____________________________________________________________________________________
- MUTHEN, B. (1979): “A Structural Probit Model with Latent Variables”.
Journal of the American Statistical Association, vol. 74, nº 368, pp. 807-811.
- NAMBOODIRI, N.K., CARTER, L.F. y BLALOCK, H.M. (1975): Applied
Multivariate Analysis and Experimental Designs, pp. 356-395. Ed. McGraw-Hill, San
Francisco.
- ORD, J.K. (1967): “On a system of discrete distributions”. Biometrika, nº 54,
pp. 649-656.
- ORGANIZACION MUNDIAL DEL TURISMO (1995): Concepts, définitions
et classifications des statistiques du tourisme. Manuel technique nº 1. Madrid.
- PEARSON, K. (1895): “Memoir on skew variation in homogeneous material”.
Phil. Trans. Roy. Soc, Serie A, nº 186, pp. 343-414.
- PEDREÑO, A. y otros (1996): Introducción a la economía del turismo en
España. Editorial Civitas, S.A. Madrid.
- PULIDO, A. (1966): Introducción a un análisis econométrico del turismo.
Instituto de Estudios Turísticos. Madrid.
- READ, C.B. (1978): “Tests of symmetry in three-way contingency tables”.
Psychometrika, vol. 43, nº 3, pp. 409-420.
- READ, T.R.C. y CRESSIE, N.A.C. (1988): Goodness-of-Fit Statistics for
Discrete Multivariate Data, pp. 19-43. Ed. Springer-Verlag. New York.
- RETHERFORD, R.D. y CHOE, M.K. (1993): Statistical models for causal
analysis, pp. 119-165. Ed. John Wiley & Sons, Inc. New York.
- ROST, J. (1985): “A Latent Class Model for Rating Data”. Psychometrika, vol.
50, nº 1, pp. 37-49.
- ROST, J. (1988a): “Rating Scale Analysis with Latent Class Models”.
Psychometrika, vol. 53, nº 3, pp. 327-348.
- ROST, J. (1988b): “Test theory with qualitative and quantitative latent
variables”. En Langeheine & Rost, Latent trait and latent class models, pp. 147-171.
New York. Plenum Press.
- RUIZ, A. (1996): “Segmentación de mercados y política de precios en hoteles y
servicios turísticos”. En Turismo y promoción de destinos turísticos: implicaciones
empresariales, pp. 99-125. Servicio de Publicaciones de la Universidad de Oviedo.
- 491 -
Bibliografía
____________________________________________________________________________________
- SANTESMASES, M. (1991): Marketing: conceptos y estrategias. Ediciones
Pirámide. Madrid.
- SECRETARIA DE ESTADO DE COMERCIO, TURISMO Y PEQUEÑA Y
MEDIANA EMPRESA (1997): Comportamiento turístico de los españoles: verano 96.
Estadística de Movimientos Turísticos de los Españoles ( Familitur ). Madrid.
- SECRETARIA GENERAL DE TURISMO (1985a): Comportamiento turístico
del congresista y sus acompañantes: año 1995. Tres volúmenes. Estudio realizado por
Emopública para la Secretaría General de Turismo. Madrid.
- SECRETARIA GENERAL DE TURISMO (1985b): Turismo de balnearios:
encuesta en destino de los usuarios de los establecimientos balnearios. Año 1985.
Cuatro volúmenes. Estudio realizado por Emopública para la Secretaría General de
Turismo. Madrid.
- SECRETARIA GENERAL DE TURISMO (1990): Modelos de previsión de
las series del turismo español y análisis de coyuntura. Madrid.
- SPRENT, P. (1989): Applied Nonparametric Statistical Methods, pp. 165-195.
Ed. Chapman and Hall. London.
- UPTON, G.J.G. (1978): The Analysis of Cross-tabulated Data. Ed. John Wiley
& Sons, Inc. New York.
- UVEN, M.V. van (1947): “Extensions of Pearson´s probability distributions to
two variables”. Proceeding of the Royal Academy of Sciences, Amsterdam, volumen 50,
pp. 1063-1070 y 1252-1264.
- UVEN, M.V. van (1948): “Extensions of Pearson´s probability distributions to
two variables”. Proceeding of the Royal Academy of Sciences, Amsterdam, volumen 51,
pp. 41-52 y 191-196.
- WERMUTH, N. (1976): “Model search among multiplicative models”.
Biometrics, nº 32, pp. 253-263.
- WERMUTH, N. y LAURITZEN, S.L. (1983): “Graphical and recursive models
for contingency tables”. Biometrika, nº 70, pp. 537-552.
- WHITE, A.A., LANDIS, J.R. y COOPER, M.M. (1982): “A Note on the
Equivalence of Several Marginal Homogeneity Test Criteria for Categorical Data”.
International Statistical Review, nº 50, pp. 27-34.
- WHITTAKER, J. (1990): Graphical models in applied multivariate statistics.
Ed. John Wiley & Sons, Inc. New York.
- 492 -
Bibliografía
____________________________________________________________________________________
- WICKENS, T.D. (1989): Multiway Contingency Tables Analysis for the Social
Sciences. Ed. Lawrence Erlbaum Associates, Inc. New Jersey.
- WILKS, S.S. (1935): “The likelihood test of independence in contingency
tables”. Annals of Mathematical Statistics, nº 6, pp. 190-196.
- WILKS, S.S. (1938): “The large-sample distribution of the likelihood ratio for
testing composite hypotheses”. Annals of Mathematical Statistics, nº 9, pp. 60-62.
-WILLIAM, E.J. (1952): “Use of scores for the analysis of association in
contingency tables”. Biometrika, nº 39, pp. 274-289.
- WUNSCH, G. (1988): Causal Theory & Causal Modeling. Leuven University
Press. Bélgica.
- 493 -
ANEXOS
Anexo 1
Anexos
____________________________________________________________________________________
DESTINO TURÍSTICO
A) Análisis de asociación entre las variables:
- Destino turístico.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.515 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
DESTINO
TURÍSTICO
España
Extranjero
63
4
106
8
20
4
189
16
187
16
153
14
99
15
439
45
192
18
22
5
31
8
245
31
111
5
7
0
8
0
126
5
24
1
73
4
21
4
118
9
94
4
87
5
68
15
249
24
143
4
34
2
19
3
196
9
71
3
4
2
13
0
88
5
Total
67
114
24
205
203
167
114
484
210
27
39
276
116
7
8
131
25
77
25
127
98
92
83
273
147
36
22
205
74
6
13
93
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
DESTINO
TURÍSTICO
España
Extranjero
23
1
71
7
29
5
123
13
68
7
99
6
81
29
248
42
107
2
29
4
39
6
175
12
80
1
12
0
13
2
105
3
Total
24
78
34
136
75
105
110
290
109
33
45
187
81
12
15
108
Medidas de asociación
Variable respuesta: Destino turístico (D)
HABITAT
(H)
2
4,324
Test χ de Pearson
2
Grados de libertad
0,1151
Valor de p
Test razón de verosimilitud
4,468
Grados de libertad
2
Valor de p
0,1071
Coeficiente Φ
0,041
Coeficiente de contingencia
0,041
Test V de Cràmer
0,041
Coeficiente τ! D i de
0,002
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! D i
para i = H, E, S
0,003
EDAD
(E)
15,429
3
0,0015
ESTUDIOS
(S)
66,924
2
0,0000
17,128
3
0,0007
0,078
0,078
0,078
58,668
2
0,0000
0,163
0,161
0,163
0,006
0,027
0,012
0,040
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: SEH, DS
29 g.l.
Valor de G 2 = 37,29 ( p = 0,1389 )
Valor de χ 2 = 39,65 ( p = 0,0899 )
Representación gráfica:
D
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,946936
Coeficiente de determinación ajustado: R 2 = 0,892041
Criterio de información de Akaike: AX − q = - 20,71
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “destino turístico”
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Destino turístico
España
Extranjero
- 0,289
0,289
- 0,092
0,092
- 0,381
0,381
Tendencia
hacia ...
España
España
Extranjero
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de pasar las vacaciones en España
condicionadas a cada categoría de las variables explicativas
k = 1, 2, 3, 4
l = 1, 2 ,3
Sin/sólo est. primarios: p1 1kl = 0,9463
Con est. secundarios: p1 2 kl = 0,9224
Con est. superiores: p1 3kl = 0,8220
Anexos
____________________________________________________________________________________
DESTINO TURÍSTICO
B) Análisis de asociación entre las variables:
- Destino turístico.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.488 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
DESTINO
TURÍSTICO
España
Extranjero
147
9
216
14
85
2
448
25
96
10
95
7
22
2
213
19
78
13
254
12
95
1
427
26
30
7
74
9
16
1
120
17
16
9
86
14
30
3
132
26
3
3
16
2
6
5
25
10
Total
156
230
87
473
106
102
24
232
91
266
96
453
37
83
17
137
25
100
33
158
6
18
11
35
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Destino turístico (D)
NIVEL DE
INGRESOS
(I)
2
32,016
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
25,773
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,147
Coeficiente de contingencia
0,145
Test V de Cràmer
0,147
!
Coeficiente τ D i de
0,022
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! D i
para i = I, T, N
Test de Yates
Grados de libertad
Valor de p
Ratio de producto cruzado
Test Q de Yule
Test Y de Yule
TEMPORADA
VACACIONAL
(T)
7,119
1
0,0076
NÚMERO DE
MIEMBROS
(N)
12,560
2
0,0019
6,707
1
0,0096
0,069
0,069
0,069
12,109
2
0,0023
0,092
0,091
0,092
0,005
0,008
0,030
0,008
0,014
-
6,566
1
0,0104
1,680
0,254
0,129
-
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: DNI, NTI
9 g.l.
Valor de G 2 = 15,65 ( p = 0,0745 )
Valor de χ 2 = 18,01 ( p = 0,0351 )
Representación gráfica:
D
N
T
I
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,910083
Coeficiente de determinación ajustado: R 2 = 0,710268
Criterio de información de Akaike: AX − q = - 22,35
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “destino turístico”
Nivel de
ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
Destino turístico
España
Extranjero
- 0,266
0,266
- 0,253
0,253
- 0,519
0,519
Tendencia
hacia ...
España
España
Extranjero
Número de
miembros
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Destino turístico
España
Extranjero
- 0,373
0,373
- 0,061
0,061
- 0,312
0,312
Tendencia
hacia ...
Extranjero
España
España
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de pasar las vacaciones en España
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Familia
Temporada alta
0,9274
0,8437
sin hijos
Temporada baja
0,9274
0,8437
Familia con
Temporada alta
0,9367
0,9398
1-2 hijos
Temporada baja
0,9367
0,9398
Familia
Temporada alta
0,9639
0,9823
numerosa
Temporada baja
0,9639
0,9823
Altos
0,6130
0,6130
0,8646
0,8646
0,8182
0,8182
Anexos
____________________________________________________________________________________
LUGAR DE VACACIONES
A) Análisis de asociación entre las variables:
- Lugar de vacaciones.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.384 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
LUGAR DE
VACACIONES
Costa
Interior
42
22
75
40
14
8
131
70
130
61
107
51
66
34
303
146
131
66
16
7
24
13
171
86
79
37
4
3
7
1
90
41
15
9
38
39
15
11
68
59
49
47
53
34
49
28
151
109
81
65
25
8
13
8
119
81
36
36
1
4
11
2
48
42
Total
64
115
22
201
191
158
100
449
197
23
37
257
116
7
8
131
24
77
26
127
96
87
77
260
146
33
21
200
72
5
13
90
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
LUGAR DE
VACACIONES
Costa
Interior
17
7
36
39
15
17
68
63
37
36
65
32
59
26
161
94
51
58
18
13
25
15
94
86
46
31
8
4
12
2
66
37
Total
24
75
32
131
73
97
85
255
109
31
40
180
77
12
14
103
Medidas de asociación
Variable respuesta: Lugar de vacaciones (L)
HABITAT
(H)
2
21,983
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
22,109
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,096
Coeficiente de contingencia
0,096
Test V de Cràmer
0,096
Coeficiente τ! L i de
0,009
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! L i
para i = H, E, S
0,007
EDAD
(E)
4,971
3
0,1740
ESTUDIOS
(S)
3,936
2
0,1397
4,958
3
0,1749
0,046
0,046
0,046
3,963
2
0,1378
0,041
0,041
0,041
0,002
0,002
0,002
0,001
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: LSH, SEH
27 g.l.
Valor de G 2 = 39,18 ( p = 0,0610 )
Valor de χ 2 = 37,92 ( p = 0,0791 )
Representación gráfica:
L
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,940765
Coeficiente de determinación ajustado: R 2 = 0,861784
Criterio de información de Akaike: AX − q = - 14,82
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “lugar de vacaciones”
Tamaño del
hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
(*)
No significativos al 5 %.
Lugar de vacaciones
Costa
Interior
- 0,113
0,113
- 0,062
0,062
- 0,051
0,051
Tendencia
hacia ...
Costa
Interior
Interior
Lugar de vacaciones
Costa
Interior
- 0,071
0,071
(*)
- 0,007
0,007(*)
- 0,077
0,077
Tendencia
hacia ...
Interior
Costa
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de pasar las vacaciones en la costa
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,6726
0,5354
0,5335
Sin instrucción o con
Ind. menos joven
0,6726
0,5354
0,5335
estudios primarios
Ind. maduro
0,6726
0,5354
0,5335
Ind. anciano
0,6726
0,5354
0,5335
Ind. joven
0,6669
0,5793
0,5905
Con estudios
Ind. menos joven
0,6669
0,5793
0,5905
secundarios
Ind. maduro
0,6669
0,5793
0,5905
Ind. anciano
0,6669
0,5793
0,5905
Ind. joven
0,6646
0,6424
0,6489
Con estudios
Ind. menos joven
0,6646
0,6424
0,6489
superiores
Ind. maduro
0,6646
0,6424
0,6489
Ind. anciano
0,6646
0,6424
0,6489
Anexos
____________________________________________________________________________________
LUGAR DE VACACIONES
B) Análisis de asociación entre las variables:
- Lugar de vacaciones.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.402 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
LUGAR DE
VACACIONES
Costa
Interior
88
60
109
115
44
41
241
216
65
37
60
39
14
8
139
84
60
23
160
91
63
31
283
145
20
12
47
27
10
7
77
46
11
7
53
39
24
7
88
53
3
1
13
4
4
5
20
10
Total
148
224
85
457
102
99
22
223
83
251
94
428
32
74
17
123
18
92
31
141
4
17
9
30
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Lugar de vacaciones (L)
NIVEL DE
INGRESOS
(I)
2
11,963
Test χ de Pearson
2
Grados de libertad
0,0025
Valor de p
Test razón de verosimilitud
11,984
Grados de libertad
2
Valor de p
0,0025
Coeficiente Φ
0,092
Coeficiente de contingencia
0,092
Test V de Cràmer
0,092
!
Coeficiente τ L i de
0,009
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! L i
para i = I, T, N
Test de Yates
Grados de libertad
Valor de p
Ratio de producto cruzado
Test Q de Yule
Test Y de Yule
TEMPORADA
VACACIONAL
(T)
1,118
1
0,2903
NÚMERO DE
MIEMBROS
(N)
3,339
2
0,1884
1,124
1
0,2891
0,028
0,028
0,028
3,351
2
0,1872
0,049
0,049
0,049
0,001
0,002
0,006
0,001
0,002
-
0,992
1
0,3193
0,877
- 0,066
- 0,033
-
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: NT, NI, TI, LI
19 g.l.
Valor de G 2 = 24,48 ( p = 0,1784 )
Valor de χ 2 = 25,14 ( p = 0,1561 )
Representación gráfica:
L
N
T
I
Modelo no gráfico
Modelo no descomponible
Coeficiente de determinación: R 2 = 0,827350
Coeficiente de determinación ajustado: R 2 = 0,736482
Criterio de información de Akaike: AX − q = - 13,52
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “lugar de vacaciones”
Nivel de
ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
Lugar de vacaciones
Costa
Interior
- 0,117
0,117
- 0,082
0,082
- 0,035
0,035
Tendencia
hacia ...
Interior
Costa
Costa
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de pasar las vacaciones en la costa
condicionadas a cada categoría de las variables explicativas
j = 1, 2, 3
k = 1, 2
Ingresos bajos: p1 jk 1 = 0,5587
Ingresos medios: p1 jk 2 = 0,6534
Ingresos altos: p1 jk 3 = 0,6318
Anexos
____________________________________________________________________________________
TRANSPORTE EMPLEADO
A) Análisis de asociación entre las variables:
- Transporte empleado.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.439 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
TRANSPORTE
EMPLEADO
Privado
Público
44
23
62
47
10
14
116
84
162
37
123
36
88
21
373
94
130
73
18
8
28
10
176
91
38
75
3
4
5
1
46
80
16
8
50
27
16
9
82
44
80
14
65
24
49
28
194
66
103
39
26
8
18
2
147
49
39
34
3
3
9
4
51
41
Total
67
109
24
200
199
159
109
467
203
26
38
267
113
7
6
126
24
77
25
126
94
89
77
260
142
34
20
196
73
6
13
92
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
TRANSPORTE
EMPLEADO
Privado
Público
12
12
52
23
21
12
85
47
62
14
82
19
73
33
217
66
80
31
22
10
37
7
139
48
52
26
7
3
10
5
69
34
Total
24
75
33
132
76
101
106
283
111
32
44
187
78
10
15
103
Medidas de asociación
Variable respuesta: Transporte empleado (T)
HABITAT
(H)
2
5,839
Test χ de Pearson
2
Grados de libertad
0,0539
Valor de p
Test razón de verosimilitud
5,849
Grados de libertad
2
Valor de p
0,0537
Coeficiente Φ
0,049
Coeficiente de contingencia
0,049
Test V de Cràmer
0,049
Coeficiente τ! T i de
0,002
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! T i
para i = H, E, S
0,002
EDAD
(E)
92,950
3
0,0000
ESTUDIOS
(S)
2,767
2
0,2507
90,717
3
0,0000
0,195
0,192
0,195
2,769
2
0,2504
0,034
0,034
0,034
0,038
0,001
0,030
0,001
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: TSE, TEH, SEH 16 g.l.
Valor de G 2 = 19,43 ( p = 0,2469 )
Valor de χ 2 = 19,18 ( p = 0,2597 )
Representación gráfica:
T
S
E
H
Modelo no gráfico
Modelo no descomponible
Coeficiente de determinación: R 2 = 0,974497
Coeficiente de determinación ajustado: R 2 = 0,899583
Criterio de información de Akaike: AX − q = - 12,57
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “transporte empleado”
Tamaño del
hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Transporte empleado
Privado
Público
- 0,125
0,125
- 0,030
0,030
- 0,095
0,095
Tendencia
hacia ...
Público
Privado
Privado
Edad
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Transporte empleado
Privado
Público
- 0,149
0,149
- 0,219
0,219
- 0,155
0,155
- 0,224
0,224
Tendencia
hacia ...
Público
Privado
Privado
Público
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Transporte empleado
Privado
Público
- 0,016
0,016
- 0,029
0,029
- 0,045
0,045
Tendencia
hacia ...
Público
Público
Privado
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de utilizar transporte privado
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,5953
0,6713
0,6682
Sin instrucción o con
Ind. menos joven
0,8370
0,7977
0,8226
estudios primarios
Ind. maduro
0,6378
0,7361
0,7130
Ind. anciano
0,3548
0,5285
0,6461
Ind. joven
0,5847
0,6615
0,6584
Con estudios
Ind. menos joven
0,7905
0,7435
0,7731
secundarios
Ind. maduro
0,6566
0,7518
0,7295
Ind. anciano
0,3932
0,5691
0,6827
Ind. joven
0,5175
0,5982
0,5948
Con estudios
Ind. menos joven
0,7408
0,6870
0,7207
superiores
Ind. maduro
0,7766
0,8463
0,8306
Ind. anciano
0,5270
0,6942
0,7872
Anexos
____________________________________________________________________________________
TRANSPORTE EMPLEADO
B) Análisis de asociación entre las variables:
- Transporte empleado.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.392 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
TRANSPORTE
EMPLEADO
Privado
Público
91
55
170
54
63
20
324
129
30
60
53
40
7
13
90
113
66
21
212
41
74
15
352
77
16
16
60
19
9
6
85
41
14
9
77
19
22
10
113
38
3
1
11
4
4
7
18
12
Total
146
224
83
453
90
93
20
203
87
253
89
429
32
79
15
126
23
96
32
151
4
15
11
30
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Transporte empleado (T)
NIVEL DE
INGRESOS
(I)
2
35,678
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
36,125
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,160
Coeficiente de contingencia
0,158
Test V de Cràmer
0,160
!
Coeficiente τ T i de
0,026
Kruskal-Goodman
para i = I, E, N
Coeficiente de incertidumbre
U! T i
para i = I, E, N
Test de Yates
Grados de libertad
Valor de p
Ratio de producto cruzado
Test Q de Yule
Test Y de Yule
TEMPORADA
VACACIONAL
(E)
65,597
1
0,0000
NÚMERO DE
MIEMBROS
(N)
44,885
2
0,0000
62,510
1
0,0000
0,217
0,212
0,217
43,519
2
0,0000
0,180
0,177
0,180
0,047
0,032
0,021
0,037
0,026
-
64,513
1
0,0000
2,781
0,471
0,250
-
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: TNE, TEI, NEI
8 g.l.
Valor de G 2 = 3,97 ( p = 0,8602 )
Valor de χ 2 = 3,92 ( p = 0,8639 )
Representación gráfica:
T
N
E
I
Modelo no gráfico
Modelo no descomponible
Coeficiente de determinación: R 2 = 0,982351
Coeficiente de determinación ajustado: R 2 = 0,936022
Criterio de información de Akaike: AX − q = - 12,03
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “transporte empleado”
(*)
Nivel de
ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
Transporte empleado
Privado
Público
- 0,171
0,171
- 0,171
0,171
0,000(*)
0,000(*)
Tendencia
hacia ...
Público
Privado
-
Temporada
vacacional
Temporada alta
Temporada baja
Transporte empleado
Privado
Público
- 0,246
0,246
- 0,246
0,246
Tendencia
hacia ...
Privado
Público
Número de
miembros
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Transporte empleado
Privado
Público
- 0,180
0,180
- 0,230
0,230
- 0,051
0,051
Tendencia
hacia ...
Público
Privado
Público
No significativos al 5 %.
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de utilizar transporte privado
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Familia
Temporada alta
0,6281
0,7415
sin hijos
Temporada baja
0,3327
0,5354
Familia con
Temporada alta
0,7628
0,8453
1-2 hijos
Temporada baja
0,7831
0,7573
Familia
Temporada alta
0,7389
0,8278
numerosa
Temporada baja
0,3327
0,5354
Altos
0,6420
0,4830
0,7735
0,7167
0,7503
0,4830
Anexos
____________________________________________________________________________________
ALOJAMIENTO EMPLEADO
A) Análisis de asociación entre las variables:
- Alojamiento empleado.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.538 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
ALOJAMIENTO
EMPLEADO
Hotelero Colectivo
Privado
14
12
42
17
22
77
3
4
17
34
38
136
61
21
123
54
28
89
32
10
72
147
59
284
63
16
132
13
4
10
9
2
28
85
22
170
56
5
57
2
1
4
3
0
5
61
6
66
6
4
15
6
9
63
3
4
19
15
17
97
14
14
71
31
9
54
30
5
48
75
28
173
28
8
112
13
0
22
5
1
16
46
9
150
17
2
55
2
0
4
2
1
10
21
3
69
Total
68
116
24
208
205
171
114
490
211
27
39
277
118
7
8
133
25
78
26
129
99
94
83
276
148
35
22
205
74
6
13
93
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
ALOJAMIENTO
EMPLEADO
Hotelero Colectivo
Privado
4
5
16
4
12
63
7
1
26
15
18
105
17
9
50
19
12
75
29
4
78
65
25
203
19
5
86
11
2
20
11
2
32
41
9
138
14
2
65
3
0
9
4
1
10
21
3
84
Medidas de asociación
Variable respuesta: Alojamiento utilizado (A)
HABITAT
(H)
2
42,286
Test χ de Pearson
4
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
42,335
Grados de libertad
4
Valor de p
0,0000
Coeficiente Φ
0,129
Coeficiente de contingencia
0,128
Test V de Cràmer
0,091
Coeficiente τ! A i de
0,012
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! A i
para i = H, E, S
0,010
EDAD
(E)
76,942
6
0,0000
ESTUDIOS
(S)
18,641
4
0,0009
82,999
6
0,0000
0,174
0,172
0,123
18,070
4
0,0012
0,086
0,085
0,061
0,012
0,002
0,019
0,004
Total
25
79
34
138
76
106
111
293
110
33
45
188
81
12
15
108
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: ASE, ASH
50 g.l.
Valor de G 2 = 67,09 ( p = 0,0537 )
Valor de χ 2 = 67,07 ( p = 0,0538 )
Representación gráfica:
A
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,917023
Coeficiente de determinación ajustado: R 2 = 0,844004
Criterio de información de Akaike: AX − q = - 32,91
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “alojamiento empleado”
(*) No significativos al 5 %.
Tamaño del
hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Alojamiento empleado
Hotelero Colectivo Privado
- 0,222
0,064
0,158
0,007(*) - 0,034
0,027
- 0,124
- 0,071
0,195
Tendencia
hacia...
Hotelero/Colectivo
Privado
Privado
Edad
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Alojamiento empleado
Hotelero Colectivo Privado
- 0,510
0,485
0,025
- 0,128
0,070
0,058
- 0,279
0,229
0,050
- 0,264
0,210
0,054
Tendencia
hacia...
Colectivo/Privado
Hotelero/Colectivo
Hotelero/Privado
Hotelero/Privado
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Alojamiento empleado
Hotelero Colectivo Privado
- 0,002(*) - 0,025
0,027
- 0,041
- 0,083
0,123
- 0,098
0,043
0,055
Tendencia
hacia...
Privado
Colectivo
Hotelero/Privado
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de utilizar alojamientos hoteleros
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,3213
0,1818
0,1770
Sin instrucción o con
Ind. menos joven
0,3518
0,2031
0,1978
estudios primarios
Ind. maduro
0,3243
0,1839
0,1790
Ind. anciano
0,4144
0,2494
0,2432
Ind. joven
0,1510
0,1192
0,0761
Con estudios
Ind. menos joven
0,3891
0,3265
0,2279
secundarios
Ind. maduro
0,4875
0,4199
0,3060
Ind. anciano
0,3548
0,2950
0,2031
Ind. joven
0,1744
0,1908
0,1607
Con estudios
Ind. menos joven
0,3163
0,3405
0,2955
superiores
Ind. maduro
0,2488
0,2699
0,2309
Ind. anciano
0,2660
0,2880
0,2473
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir alojamientos hoteleros frente a preferir alojamientos privados.
Probabilidades estimadas de utilizar otros alojamientos colectivos
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,2598
0,2031
0,1820
Sin instrucción o con
Ind. menos joven
0,1803
0,1378
0,1224
estudios primarios
Ind. maduro
0,0968
0,0722
0,0636
Ind. anciano
0,0584
0,0431
0,0378
Ind. joven
0,2383
0,1243
0,1396
Con estudios
Ind. menos joven
0,2492
0,1309
0,1468
secundarios
Ind. maduro
0,1748
0,0877
0,0989
Ind. anciano
0,1380
0,0677
0,0766
Ind. joven
0,1725
0,1439
0,0722
Con estudios
Ind. menos joven
0,1210
0,0999
0,0489
superiores
Ind. maduro
0,0863
0,0708
0,0341
Ind. anciano
0,1823
0,1524
0,0764
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir otros alojamientos coletivos frente a preferir alojamientos privados.
Anexos
____________________________________________________________________________________
ALOJAMIENTO EMPLEADO
B) Análisis de asociación entre las variables:
- Alojamiento empleado.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.498 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
ALOJAMIENTO
EMPLEADO
Hotelero Colectivo
Privado
37
16
104
37
25
169
9
7
70
83
48
343
63
11
34
40
8
56
8
3
13
111
22
103
28
8
56
50
40
176
19
13
64
97
61
296
18
2
17
34
7
42
8
1
9
60
10
68
14
0
11
16
10
75
6
3
25
36
13
111
4
2
2
9
1
7
5
2
4
18
5
13
Total
157
231
86
474
108
104
24
236
92
266
96
454
37
83
18
138
25
101
34
160
8
17
11
36
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Alojamiento empleado (A)
NIVEL DE
INGRESOS
(I)
2
2,041
Test χ de Pearson
4
Grados de libertad
0,7282
Valor de p
Test razón de verosimilitud
2,026
Grados de libertad
4
Valor de p
0,7310
Coeficiente Φ
0,037
Coeficiente de contingencia
0,037
Test V de Cràmer
0,026
!
Coeficiente τ A i de
0,000
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! A i
0,001
TEMPORADA
VACACIONAL
(T)
104,846
2
0,0000
NÚMERO DE
MIEMBROS
(N)
40,147
4
0,0000
99,254
2
0,0000
0,265
0,256
0,265
38,734
4
0,0000
0,164
0,162
0,116
0,048
0,018
0,037
0,015
para i = I, T, N
Características principales del mejor modelo log-lineal
Mejor modelo: AN, AT, NI, TI
33 g.l.
Valor de G 2 = 42,98 ( p = 0,1145 )
Valor de χ 2 = 45,61 ( p = 0,0709 )
Representación gráfica:
A
N
T
I
Modelo gráfico
Modelo no descomponible
Coeficiente de determinación: R 2 = 0,831537
Coeficiente de determinación ajustado: R 2 = 0,770278
Criterio de información de Akaike: AX − q = - 23,02
Anexos
____________________________________________________________________________________
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “alojamiento empleado”
Temporada
vacacional
Temporada alta
Temporada baja
Alojamiento empleado
Hotelero Colectivo Privado
- 0,387
0,148
0,240
- 0,148
- 0,240
0,387
Tendencia
hacia...
Colectivo/Privado
Hotelero
Número de
miembros
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Alojamiento empleado
Hotelero Colectivo Privado
- 0,117
- 0,203
0,320
- 0,119
0,063
0,056
- 0,201
0,054
0,147
Tendencia
hacia...
Hotelero
Colectivo/Privado
Colectivo/Privado
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de utilizar alojamientos hoteleros
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Altos
Familia
Temporada alta
0,3241
0,3241
0,3241
sin hijos
Temporada baja
0,6269
0,6269
0,6269
Familia con
Temporada alta
0,1926
0,1926
0,1926
1-2 hijos
Temporada baja
0,4554
0,4554
0,4554
Familia
Temporada alta
0,1671
0,1671
0,1671
numerosa
Temporada baja
0,4129
0,4129
0,4129
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir alojamientos hoteleros frente a preferir alojamientos privados.
Probabilidades estimadas de utilizar otros alojamientos colectivos
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Altos
Familia
Temporada alta
0,1529
0,1529
0,1529
sin hijos
Temporada baja
0,1783
0,1783
0,1783
Familia con
Temporada alta
0,1430
0,1430
0,1430
1-2 hijos
Temporada baja
0,1670
0,1670
0,1670
Familia
Temporada alta
0,1311
0,1311
0,1311
numerosa
Temporada baja
0,1536
0,1536
0,1536
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir otros alojamientos colectivos frente a preferir alojamientos privados.
Anexos
____________________________________________________________________________________
ORGANIZACIÓN DEL VIAJE
A) Análisis de asociación entre las variables:
- Organización del viaje.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.492 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
ORGANIZACIÓN
DEL VIAJE
C. propia
Organizada
54
14
99
15
18
5
171
34
168
34
138
32
101
15
407
81
154
49
21
6
32
7
207
62
61
40
5
2
6
1
72
43
22
3
68
8
24
2
114
13
87
11
80
14
68
15
235
40
128
16
29
7
21
1
178
24
58
14
6
0
12
1
76
15
Total
68
114
23
205
202
170
116
488
203
27
39
269
101
7
7
115
25
76
26
127
98
94
83
275
144
36
22
202
72
6
13
91
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
ORGANIZACIÓN
DEL VIAJE
C. propia
Organizada
22
3
72
6
32
2
126
11
68
8
90
15
92
18
250
41
98
12
26
7
40
5
164
24
72
5
10
2
12
3
94
10
Total
25
78
34
137
76
105
110
291
110
33
45
188
77
12
15
104
Medidas de asociación
Variable respuesta: Organización del viaje (O)
HABITAT
(H)
2
28,504
Test χ de Pearson
2
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
28,334
Grados de libertad
2
Valor de p
0,0000
Coeficiente Φ
0,107
Coeficiente de contingencia
0,106
Test V de Cràmer
0,107
Coeficiente τ! O i de
0,011
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! O i
para i = H, E, S
0,013
EDAD
(E)
13,296
3
0,0040
ESTUDIOS
(S)
3,756
2
0,1529
12,915
3
0,0048
0,073
0,073
0,073
3,771
2
0,1518
0,039
0,039
0,039
0,005
0,002
0,006
0,002
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: OEH, SEH
23 g.l.
Valor de G 2 = 20,80 ( p = 0,5934 )
Valor de χ 2 = 20,91 ( p = 0,5864 )
Representación gráfica:
O
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,968671
Coeficiente de determinación ajustado: R 2 = 0,915548
Criterio de información de Akaike: AX − q = - 25,2
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “organización del viaje”
(*)
Tamaño del
Hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Organización del viaje
C. propia
Organizada
- 0,250
0,250
- 0,067
0,067
- 0,183
0,183
Tendencia
hacia ...
Organizada
C. Propia
C. propia
Edad
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Organización del viaje
C. propia
Organizada
- 0,169
0,169
(*)
- 0,003
0,003(*)
- 0,013
0,013
- 0,152
0,152
Tendencia
hacia ...
C. propia
Organizada
Organizada
No significativos al 5 %.
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de organizar el viaje por cuenta propia
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,8342
0,8977
0,9198
Sin instrucción o con
Ind. menos joven
0,8340
0,8547
0,8594
estudios primarios
Ind. maduro
0,7696
0,8812
0,8726
Ind. anciano
0,6262
0,8238
0,9041
Ind. joven
0,8342
0,8977
0,9198
Con estudios
Ind. menos joven
0,8340
0,8547
0,8594
secundarios
Ind. maduro
0,7696
0,8812
0,8726
Ind. anciano
0,6262
0,8238
0,9041
Ind. joven
0,8342
0,8977
0,9198
Con estudios
Ind. menos joven
0,8340
0,8547
0,8594
superiores
Ind. maduro
0,7696
0,8812
0,8726
Ind. anciano
0,6262
0,8238
0,9041
Anexos
____________________________________________________________________________________
ORGANIZACIÓN DEL VIAJE
B) Análisis de asociación entre las variables:
- Organización del viaje.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.464 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
ORGANIZACIÓN
DEL VIAJE
C. propia
Organizada
128
25
205
23
82
5
415
53
57
41
71
27
14
8
142
76
77
14
230
35
80
13
387
62
21
13
65
18
14
4
100
35
21
3
90
10
29
5
140
18
6
2
12
5
6
5
24
12
Total
153
228
87
468
98
98
22
218
91
265
93
449
34
83
18
135
24
100
34
158
8
17
11
36
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Organización del viaje (O)
NIVEL DE
INGRESOS
(I)
2
1,687
Test χ de Pearson
2
Grados de libertad
0,4301
Valor de p
Test razón de verosimilitud
1,694
Grados de libertad
2
Valor de p
0,4287
Coeficiente Φ
0,034
Coeficiente de contingencia
0,034
Test V de Cràmer
0,034
!
Coeficiente τ O i de
0,001
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! O i
para i = I, T, N
Test de Yates
Grados de libertad
Valor de p
Ratio de producto cruzado
Test Q de Yule
Test Y de Yule
TEMPORADA
VACACIONAL
(T)
73,340
1
0,0000
NÚMERO DE
MIEMBROS
(N)
16,737
2
0,0002
67,035
1
0,0000
0,224
0,218
0,224
15,937
2
0,0003
0,107
0,106
0,107
0,050
0,011
0,001
0,049
0,012
-
72,012
1
0,0000
3,275
0,532
0,288
-
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: NTI, ON, OT
14 g.l.
Valor de G 2 = 11,30 ( p = 0,6627 )
Valor de χ 2 = 10,81 ( p = 0,7007 )
Representación gráfica:
O
N
T
I
Modelo no gráfico
Modelo no descomponible
Coeficiente de determinación: R 2 = 0,937751
Coeficiente de determinación ajustado: R 2 = 0,871056
Criterio de información de Akaike: AX − q = - 16,7
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “organización del viaje”
Temporada
vacacional
Temporada alta
Temporada baja
Organización del viaje
C. propia
Organizada
- 0,286
0,286
- 0,286
0,286
Tendencia
hacia ...
C. propia
Organizada
Número de
miembros
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Organización del viaje
C. propia
Organizada
- 0,150
0,150
- 0,099
0,099
- 0,051
0,051
Tendencia
hacia ...
Organizada
C. propia
C. propia
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de organizar el viaje por cuenta propia
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Altos
Familia
Temporada alta
0,8348
0,8348
0,8348
sin hijos
Temporada baja
0,6168
0,6168
0,6168
Familia con
Temporada alta
0,8926
0,8926
0,8926
1-2 hijos
Temporada baja
0,7259
0,7259
0,7259
Familia
Temporada alta
0,8831
0,8831
0,8831
numerosa
Temporada baja
0,7064
0,7064
0,7064
Anexos
____________________________________________________________________________________
DURACIÓN DEL VIAJE
A) Análisis de asociación entre las variables:
- Duración del viaje.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.477 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
DURACIÓN
DEL VIAJE
V. corto
V. medio
V. largo
18
36
14
31
42
41
6
9
9
55
87
64
61
86
58
34
86
47
15
57
42
110
229
147
38
97
70
5
13
8
4
10
25
47
120
103
18
58
40
2
5
0
2
3
3
22
66
43
6
9
10
15
23
38
8
6
12
29
38
60
16
38
42
16
38
37
15
33
33
47
109
112
14
62
66
7
13
14
2
10
10
23
85
90
6
20
38
0
1
5
0
5
8
6
26
51
Total
68
114
24
206
205
167
114
486
205
26
39
270
116
7
8
131
25
76
26
127
96
91
81
268
142
34
22
198
64
6
13
83
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
DURACIÓN
DEL VIAJE
V. corto
V. medio
V. largo
4
9
11
13
30
34
4
7
22
21
46
67
16
32
28
18
28
59
12
32
63
46
92
150
10
39
59
3
10
18
5
11
29
18
60
106
1
33
43
0
2
10
0
5
8
1
40
61
Medidas de asociación
Variable respuesta: Duración del viaje (D)
HABITAT
(H)
2
90,200
Test χ de Pearson
4
Grados de libertad
0,0000
Valor de p
Test razón de verosimilitud
90,996
Grados de libertad
4
Valor de p
0,0000
Coeficiente Φ
0,191
Coeficiente de contingencia
0,187
Test V de Cràmer
0,135
Coeficiente τ! D i de
0,021
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! D i
para i = H, E, S
0,018
EDAD
(E)
37,606
6
0,0000
ESTUDIOS
(S)
20,206
4
0,0005
39,526
6
0,0000
0,123
0,122
0,087
20,053
4
0,0005
0,090
0,090
0,064
0,006
0,005
0,008
0,004
Total
24
77
33
134
76
105
107
288
108
31
45
184
77
12
13
102
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: DSE, DSH
49 g.l.
Valor de G 2 = 63,59 ( p = 0,0786 )
Valor de χ 2 = 62,56 ( p = 0,0924 )
Representación gráfica:
D
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,914415
Coeficiente de determinación ajustado: R 2 = 0,837562
Criterio de información de Akaike: AX − q = - 34,41
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “duración del viaje”
(*) No significativos al 5 %.
Tamaño del
hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Duración del viaje
V. corto V. medio V. largo
- 0,284
0,161
0,123
- 0,029
0,020
0,009(*)
- 0,181
- 0,094
0,275
Tendencia
hacia...
Corto/Medio
Corto
Largo
Edad
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Duración del viaje
V. corto V. medio V. largo
- 0,098
- 0,176
0,274
- 0,180
0,100
0,080
- 0,158
0,050
0,107
- 0,216
- 0,033
0,248
Tendencia
hacia...
Corto
Corto/Medio
Medio/Largo
Largo
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Duración del viaje
V. corto V. medio V. largo
- 0,051
- 0,131
0,182
- 0,087
0,063
0,025
- 0,012
- 0,095
0,106
Tendencia
hacia...
Medio
Corto/Largo
Largo
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de realizar un viaje corto
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,5771
0,3316
0,2884
Sin instrucción o con
Ind. menos joven
0,5533
0,3104
0,2689
estudios primarios
Ind. maduro
0,3516
0,1647
0,1387
Ind. anciano
0,2604
0,1134
0,0947
Ind. joven
0,4423
0,3210
0,2473
Con estudios
Ind. menos joven
0,4192
0,3009
0,2302
secundarios
Ind. maduro
0,3629
0,2535
0,1909
Ind. anciano
0,2172
0,1420
0,1031
Ind. joven
0,3298
0,3818
0,2113
Con estudios
Ind. menos joven
0,2635
0,3098
0,1630
superiores
Ind. maduro
0,1680
0,2021
0,0990
Ind. anciano
0,2600
0,3060
0,1606
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir un viaje corto frente a preferir un viaje largo.
Probabilidades estimadas de realizar un viaje de duración media
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,6840
0,5407
0,5330
Sin instrucción o con
Ind. menos joven
0,6309
0,4818
0,4740
estudios primarios
Ind. maduro
0,5873
0,4363
0,4287
Ind. anciano
0,5624
0,4114
0,4040
Ind. joven
0,5649
0,4229
0,3473
Con estudios
Ind. menos joven
0,6213
0,4808
0,4020
secundarios
Ind. maduro
0,5815
0,4395
0,3629
Ind. anciano
0,3576
0,2390
0,1857
Ind. joven
0,4182
0,3811
0,2449
Con estudios
Ind. menos joven
0,5540
0,5155
0,3592
superiores
Ind. maduro
0,4049
0,3682
0,2349
Ind. anciano
0,4900
0,4514
0,3024
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir un viaje de duración media frente a preferir un viaje largo.
Anexos
____________________________________________________________________________________
DURACIÓN DEL VIAJE
B) Análisis de asociación entre las variables:
- Duración del viaje.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.465 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
DURACIÓN
DEL VIAJE
V. corto
V. medio
V. largo
13
79
57
45
99
81
22
31
31
80
209
169
26
56
24
25
62
17
8
12
4
59
130
45
15
39
36
51
117
93
19
37
39
85
193
168
6
18
13
27
39
16
3
11
4
36
68
33
0
8
16
12
39
49
5
11
15
17
58
80
0
3
4
4
10
4
5
5
0
9
18
8
Total
149
225
84
458
106
104
24
234
90
261
95
446
37
82
18
137
24
100
31
155
7
18
10
35
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Duración del viaje (D)
NIVEL DE
INGRESOS
(I)
2
17,181
Test χ de Pearson
4
Grados de libertad
0,0018
Valor de p
Test razón de verosimilitud
16,905
Grados de libertad
4
Valor de p
0,0020
Coeficiente Φ
0,108
Coeficiente de contingencia
0,108
Test V de Cràmer
0,077
!
Coeficiente τ D i de
0,006
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! D i
0,006
TEMPORADA
VACACIONAL
(T)
45,044
2
0,0000
NÚMERO DE
MIEMBROS
(N)
11,655
4
0,0201
47,208
2
0,0000
0,175
0,173
0,175
12,058
4
0,0169
0,089
0,089
0,063
0,016
0,003
0,015
0,004
para i = I, T, N
Características principales del mejor modelo log-lineal
Mejor modelo: NTI, DT
29 g.l.
Valor de G 2 = 42,87 ( p = 0,0468 )
Valor de χ 2 = 42,55 ( p = 0,0501 )
Representación gráfica:
D
N
T
I
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,761727
Coeficiente de determinación ajustado: R 2 = 0,646699
Criterio de información de Akaike: AX − q = - 15,13
Anexos
____________________________________________________________________________________
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “duración del viaje”
Temporada
vacacional
Temporada alta
Temporada baja
Duración del viaje
V. corto V. medio V. largo
- 0,196
- 0,100
0,296
- 0,296
0,196
0,100
Tendencia
hacia...
Largo
Corto/Medio
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de realizar un viaje corto
condicionadas a cada categoría de las variables explicativas
j = 1, 2, 3
l = 1, 2 ,3
Temporada alta: p1 j1l = 0,3096
Temporada baja: p1 j 2 l = 0,5454
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir un viaje corto frente a preferir un viaje largo.
Probabilidades estimadas de realizar un viaje de duración media
condicionadas a cada categoría de las variables explicativas
j = 1, 2, 3
l = 1, 2 ,3
Temporada alta: p2
j 1l
= 0,5242
Temporada baja: p2
j2l
= 0,7087
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir un viaje de duración media frente a preferir un viaje largo.
Anexos
____________________________________________________________________________________
FORMA DE VIAJAR
A) Análisis de asociación entre las variables:
- Forma de viajar.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.493 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Solo
4
4
2
10
4
6
2
12
7
1
2
10
10
1
2
13
2
9
2
13
3
4
5
12
5
1
1
7
2
1
0
3
FORMA
DE VIAJAR
En familia En grupo
37
23
65
44
6
14
108
81
170
30
131
29
89
21
390
80
178
21
26
0
33
3
237
24
80
23
5
1
5
1
90
25
14
9
49
19
13
11
76
39
83
11
77
10
58
19
218
40
133
8
30
4
19
2
182
14
65
7
5
0
12
0
82
7
Total
64
113
22
199
204
166
112
482
206
27
38
271
113
7
8
128
25
77
26
128
97
91
82
270
146
35
22
203
74
6
12
92
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Solo
4
4
3
11
0
6
5
11
3
2
1
6
4
0
0
4
FORMA
DE VIAJAR
En familia En grupo
14
6
52
22
21
9
87
37
68
8
84
14
80
23
232
45
100
8
28
3
41
3
169
14
72
5
10
2
14
1
96
8
Medidas de asociación
Variable respuesta: Forma de viajar (F)
HABITAT
(H)
2
11,520
Test χ de Pearson
4
Grados de libertad
0,0213
Valor de p
Test razón de verosimilitud
11,423
Grados de libertad
4
Valor de p
0,0222
Coeficiente Φ
0,068
Coeficiente de contingencia
0,068
Test V de Cràmer
0,048
Coeficiente τ! F i de
0,003
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! F i
para i = H, E, S
0,004
EDAD
(E)
166,496
6
0,0000
ESTUDIOS
(S)
25,624
4
0,0000
155,597
6
0,0000
0,258
0,250
0,183
25,797
4
0,0000
0,101
0,101
0,072
0,053
0,008
0,050
0,008
Total
24
78
33
135
76
104
108
288
111
33
45
189
81
12
15
108
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: FEH, SEH
41 g.l.
Valor de G 2 = 37,57 ( p = 0,6237 )
Valor de χ 2 = 40,41 ( p = 0,4968 )
Representación gráfica:
F
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,952328
Coeficiente de determinación ajustado: R 2 = 0,894192
Criterio de información de Akaike: AX − q = - 44,43
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “forma de viajar”
Tamaño del
hábitat
Ciudad pequeña
Ciudad mediana
Ciudad grande
Edad
Individuo joven
Individuo menos joven
Individuo maduro
Individuo anciano
Solo
- 0,101
0,032
0,069
Forma de viajar
En familia
En grupo
- 0,115
0,216
- 0,078
0,046
- 0,138
0,068
Tendencia
hacia...
Grupo
Solo/Familia
Solo/Familia
Solo
0,102
- 0,196
- 0,084
0,177
Forma de viajar
En familia
En grupo
- 0,580
0,478
0,087
0,109
- 0,332
0,416
- 0,255
0,078
Tendencia
hacia...
Solo/Grupo
Familia/Grupo
Familia
Solo/Familia
Anexos
____________________________________________________________________________________
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de viajar solo
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,1098
0,2499
0,2292
Sin instrucción o con
Ind. menos joven
0,1303
0,2308
0,2518
estudios primarios
Ind. maduro
0,2705
0,3334
0,3001
Ind. anciano
0,3421
0,2823
0,4030
Ind. joven
0,1098
0,2499
0,2292
Con estudios
Ind. menos joven
0,1303
0,2308
0,2518
secundarios
Ind. maduro
0,2705
0,3334
0,3001
Ind. anciano
0,3421
0,2823
0,4030
Ind. joven
0,1098
0,2499
0,2292
Con estudios
Ind. menos joven
0,1303
0,2308
0,2518
superiores
Ind. maduro
0,2705
0,3334
0,3001
Ind. anciano
0,3421
0,2823
0,4030
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir viajar solo frente a preferir viajar en grupo.
Probabilidades estimadas de viajar en familia
condicionadas a cada categoría de las variables explicativas
Tamaño del hábitat
Nivel de estudios
Edad
C. pequeña C. mediana
C. grande
Ind. joven
0,5713
0,6608
0,7018
Sin instrucción o con
Ind. menos joven
0,8296
0,8450
0,8375
estudios primarios
Ind. maduro
0,8978
0,9286
0,9235
Ind. anciano
0,7826
0,9018
0,9232
Ind. joven
0,5713
0,6608
0,7018
Con estudios
Ind. menos joven
0,8296
0,8450
0,8375
secundarios
Ind. maduro
0,8978
0,9286
0,9235
Ind. anciano
0,7826
0,9018
0,9232
Ind. joven
0,5713
0,6608
0,7018
Con estudios
Ind. menos joven
0,8296
0,8450
0,8375
superiores
Ind. maduro
0,8978
0,9286
0,9235
Ind. anciano
0,7826
0,9018
0,9232
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir viajar en familia frente a preferir viajar en grupo.
Anexos
____________________________________________________________________________________
FORMA DE VIAJAR
B) Análisis de asociación entre las variables:
- Forma de viajar.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.469 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Solo
10
4
5
19
8
4
2
14
4
3
2
9
2
6
1
9
3
1
1
5
0
1
0
1
FORMA
DE VIAJAR
En familia En grupo
116
29
199
25
73
8
388
62
58
37
73
25
11
10
142
72
68
19
222
34
74
17
364
70
28
6
63
13
10
7
101
26
18
4
83
15
26
6
127
25
8
0
13
3
7
4
28
7
Total
155
228
86
469
103
102
23
228
91
259
93
443
36
82
18
136
25
99
33
157
8
17
11
36
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Forma de viajar (F)
NIVEL DE
INGRESOS
(I)
2
4,785
Test χ de Pearson
4
Grados de libertad
0,3100
Valor de p
Test razón de verosimilitud
4,784
Grados de libertad
4
Valor de p
0,3102
Coeficiente Φ
0,057
Coeficiente de contingencia
0,057
Test V de Cràmer
0,040
!
Coeficiente τ F i de
0,002
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! F i
0,003
TEMPORADA
VACACIONAL
(T)
35,980
2
0,0000
NÚMERO DE
MIEMBROS
(N)
27,632
4
0,0000
34,030
2
0,0000
0,157
0,155
0,157
27,001
4
0,0000
0,137
0,136
0,097
0,020
0,013
0,019
0,015
para i = I, T, N
Características principales del mejor modelo log-lineal
Mejor modelo: FNT, NTI
21 g.l.
Valor de G 2 = 17,46 ( p = 0,6829 )
Valor de χ 2 = 17,15 ( p = 0,7019 )
Representación gráfica:
F
N
T
I
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,903086
Coeficiente de determinación ajustado: R 2 = 0,801557
Criterio de información de Akaike: AX − q = - 24,54
Estimaciones de los efectos de interacción de segundo orden
del modelo seleccionado que tienen relación con la variable “forma de viajar”
Anexos
____________________________________________________________________________________
Temporada
vacacional
Temporada alta
Temporada baja
Número de
miembros
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Solo
- 0,177
0,177
Forma de viajar
En familia
En grupo
- 0,138
0,315
- 0,315
0,138
Tendencia
hacia...
Familia
Solo/Grupo
Solo
0,221
- 0,293
0,072
Forma de viajar
En familia
En grupo
- 0,204
- 0,018
- 0,050
0,343
- 0,140
0,068
Tendencia
hacia...
Solo
Familia
Solo/Grupo
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de viajar solo
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Altos
Familia
Temporada alta
0,2464
0,2464
0,2464
sin hijos
Temporada baja
0,1888
0,1888
0,1888
Familia con
Temporada alta
0,0975
0,0975
0,0975
1-2 hijos
Temporada baja
0,2117
0,2117
0,2117
Familia
Temporada alta
0,2051
0,2051
0,2051
numerosa
Temporada baja
0,1556
0,1556
0,1556
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir viajar solo frente a preferir viajar en grupo.
Probabilidades estimadas de viajar en familia
condicionadas a cada categoría de las variables explicativas
Número miembros
Temporada
Nivel de ingresos
hogar familiar
vacacional
Bajos
Medios
Altos
Familia
Temporada alta
0,7951
0,7951
0,7951
sin hijos
Temporada baja
0,6669
0,6669
0,6669
Familia con
Temporada alta
0,8718
0,8718
0,8718
1-2 hijos
Temporada baja
0,7843
0,7843
0,7843
Familia
Temporada alta
0,8479
0,8479
0,8479
numerosa
Temporada baja
0,5715
0,5715
0,5715
Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de
preferir viajar en familia frente a preferir viajar en grupo.
Anexos
____________________________________________________________________________________
FRACCIONAMIENTO VACACIONAL
A) Análisis de asociación entre las variables:
- Fraccionamiento vacacional.
- Tamaño del hábitat.
- Edad.
- Nivel de estudios.
Tabla de contingencia
( 2.540 observaciones )
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
pequeña
Individuo
maduro
Individuo
anciano
Individuo
joven
Individuo
menos joven
Ciudad
mediana
Individuo
maduro
Individuo
anciano
Continúa ...
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
FRACCIONAMIENTO
VACACIONAL
No fracciona Sí fracciona
55
12
97
20
20
4
172
36
174
28
137
34
91
25
402
87
187
24
21
6
29
9
237
39
95
23
7
0
6
2
108
25
21
4
62
16
20
6
103
26
92
7
77
16
56
27
225
50
128
21
27
9
17
5
172
35
71
4
6
0
9
4
86
8
Total
67
117
24
208
202
171
116
489
211
27
38
276
118
7
8
133
25
78
26
129
99
93
83
275
149
36
22
207
75
6
13
94
Anexos
____________________________________________________________________________________
... viene de la página anterior
TAMAÑO DEL
HABITAT
EDAD
Individuo
joven
Individuo
menos joven
Ciudad
grande
Individuo
maduro
Individuo
anciano
NIVEL DE
ESTUDIOS
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Total
FRACCIONAMIENTO
VACACIONAL
No fracciona Sí fracciona
24
1
69
10
24
10
117
21
72
3
83
23
78
34
233
60
101
10
25
8
32
14
158
32
71
10
7
5
13
2
91
17
Total
25
79
34
138
75
106
112
293
111
33
46
190
81
12
15
108
Medidas de asociación
Variable respuesta: Fraccionamiento vacacional (F)
HABITAT
(H)
2
0,320
Test χ de Pearson
2
Grados de libertad
0,8520
Valor de p
Test razón de verosimilitud
0,319
Grados de libertad
2
Valor de p
0,8528
Coeficiente Φ
0,011
Coeficiente de contingencia
0,011
Test V de Cràmer
0,011
Coeficiente τ! F i de
0,000
Kruskal-Goodman
para i = H, E, S
Coeficiente de incertidumbre
U! F i
para i = H, E, S
0,000
EDAD
(E)
3,773
3
0,2870
ESTUDIOS
(S)
59,148
2
0,0000
3,803
3
0,2835
0,039
0,039
0,039
57,831
2
0,0000
0,153
0,151
0,153
0,001
0,023
0,002
0,025
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: SEH, FS
31 g.l.
Valor de G 2 = 40,32 ( p = 0,1219 )
Valor de χ 2 = 38,90 ( p = 0,1557 )
Representación gráfica:
F
S
E
H
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,943344
Coeficiente de determinación ajustado: R 2 = 0,888515
Criterio de información de Akaike: AX − q = - 21,68
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “fraccionamiento vacacional”
Nivel de
estudios
Sin/sólo est. primarios
Con est. secundarios
Con est. superiores
Fraccionamiento vacacional
No fracciona Sí fracciona
- 0,262
0,262
- 0,033
0,033
- 0,229
0,229
Tendencia
hacia ...
No fracciona
Sí fracciona
Sí fracciona
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de tomar las vacaciones de forma continuada
condicionadas a cada categoría de las variables explicativas
k = 1, 2, 3, 4
l = 1, 2 ,3
Sin/sólo est. primarios: p1 1kl = 0,8812
Con est. secundarios: p1 2 kl = 0,8044
Con est. superiores: p1 3kl = 0,7354
Anexos
____________________________________________________________________________________
FRACCIONAMIENTO VACACIONAL
B) Análisis de asociación entre las variables:
- Fraccionamiento vacacional.
- Nivel de ingresos.
- Temporada vacacional.
- Número de miembros del hogar familiar.
Tabla de contingencia
( 1.497 observaciones )
NIVEL DE
INGRESOS
TEMPORADA
VACACIONAL
Temporada alta
Ingresos
bajos
Temporada baja
Temporada alta
Ingresos
medios
Temporada baja
Temporada alta
Ingresos
altos
Temporada baja
Nº DE MIEMBROS
HOGAR FAMILIAR
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
Familia sin hijos
Familia con 1-2 hijos
Familia numerosa
Total
FRACCIONAMIENTO
VACACIONAL
No fracciona Sí fracciona
140
18
200
30
74
13
414
61
91
17
93
10
20
4
204
31
70
22
222
43
79
16
371
81
27
10
63
20
15
3
105
33
15
10
72
29
28
6
115
45
6
2
13
5
7
4
26
11
Total
158
230
87
475
108
103
24
235
92
265
95
452
37
83
18
138
25
101
34
160
8
18
11
37
Anexos
____________________________________________________________________________________
Medidas de asociación
Variable respuesta: Fraccionamiento vacacional (F)
NIVEL DE
TEMPORADA
INGRESOS
VACACIONAL
(I)
(T)
2
27,791
0,245
Test χ de Pearson
2
1
Grados de libertad
0,0000
0,6208
Valor de p
Test razón de verosimilitud
26,541
0,243
Grados de libertad
2
1
Valor de p
0,0000
0,6221
Coeficiente Φ
0,136
0,013
Coeficiente de contingencia
0,135
0,013
Test V de Cràmer
0,136
0,013
!
Coeficiente τ F i de
0,019
0,000
Kruskal-Goodman
para i = I, T, N
Coeficiente de incertidumbre
U! F i
para i = I, T, N
Test de Yates
Grados de libertad
Valor de p
Ratio de producto cruzado
Test Q de Yule
Test Y de Yule
NÚMERO DE
MIEMBROS
(N)
0,380
2
0,8271
0,376
2
0,8285
0,016
0,016
0,016
0,000
0,019
0,000
0,000
-
0,175
1
0,6757
1,078
0,037
0,019
-
Anexos
____________________________________________________________________________________
Características principales del mejor modelo log-lineal
Mejor modelo: NTI, FI
15 g.l.
Valor de G 2 = 12,51 ( p = 0,6402 )
Valor de χ 2 = 12,58 ( p = 0,6346 )
Representación gráfica:
F
N
T
I
Modelo gráfico
Modelo descomponible
Coeficiente de determinación: R 2 = 0,911390
Coeficiente de determinación ajustado: R 2 = 0,828687
Criterio de información de Akaike: AX − q = - 17,49
Estimaciones de los efectos de interacción de segundo orden del modelo
seleccionado que tienen relación con la variable “fraccionamiento vacacional”
(*) No significativos al 5 %.
Nivel de
ingresos
Ingresos bajos
Ingresos medios
Ingresos altos
Fraccionamiento vacacional
No fracciona Sí fracciona
- 0,243
0,243
- 0,005(*)
0,005(*)
0,248
- 0,248
Tendencia
hacia ...
No fracciona
Sí fracciona
Tabla de probabilidades condicionadas
( modelo logit asociado )
Probabilidades estimadas de tomar las vacaciones de forma continuada
condicionadas a cada categoría de las variables explicativas
j = 1, 2, 3
k = 1, 2
Ingresos bajos: p1 jk 1 = 0,8706
Ingresos medios: p1 jk 2 = 0,8069
Ingresos altos: p1 jk 3 = 0,7159
Anexo 2
Anexos
____________________________________________________________________________________
ESTIMACIONES DEL MODELO RESTRINGIDO Nº 3
MODELO DEFINITIVO
a) Instrucciones y comandos del programa MLLSA:
____________________________________________________________________________________
TITLE
"Estructura latente 1995. Restricciones de valor espec¡fico, restricciones de
igualdad y restricciones de clases latentes"
TABLE 2 2 2 2 2
VARIABLE NAMES
'dinam' 'ecol' 'organ' 'econom' 'sociab'
VALUE LABELS
'estatico' 'dinamico'
'natural' 'ciudad'
'cuentpro' 'grupo'
'ahorro' 'derroch'
'marchoso' 'tranquil'
LCLASS 5
OPTIONS 1 2 4 6
DATA
124 269 81 82 38 88 33 36
57 134 53 61 9 38 8 25
611 473 140 57 104 108 70 31
160 190 34 30 25 33 6 9
LCPROB
0.16 0.15 0.27 0.27 0.15
CPROB
0 1 0.42 0.58 0.71 0.29 1 0 0.47 0.53
0.61 0.39 1 0 0.89 0.11 0.81 0.19 0.75 0.25
0.37 0.63 0.26 0.74 0 1 0.16 0.84 0.16 0.84
0.34 0.66 0.81 0.19 0.52 0.48 0.34 0.66 0.48 0.52
0.78 0.22 0.53 0.47 0.64 0.36 1 0 0.02 0.98
CREST
1 1 0 0 0 0 1 1 0 0
0 0 1 1 0 0 0 0 0 0
0 0 0 0 1 1 2 0 2 0
3 0 0 0 0 0 3 0 0 0
0 0 0 0 0 0 1 1 0 0
LCREST
0 4 5 5 4
TOLERANCE 0.0000001
ITERATIONS 500000
EXECUTE
FINISH
____________________________________________________________________________________
b) Valores iniciales de los parámetros del modelo:
____________________________________________________________________________________
START VALUES FOR LATENT CLASS PROBABILITIES:
.160000
.150000
.270000
.270000
.150000
START VALUES FOR CONDITIONAL PROBABILITIES:
.000000 1.000000 .420000
.610000 .390000 1.000000
.370000 .630000 .260000
.340000 .660000 .810000
.780000 .220000 .530000
.580000
.000000
.740000
.190000
.470000
.710000 .290000 1.000000
.890000 .110000 .810000
.000000 1.000000 .160000
.520000 .480000 .340000
.640000 .360000 1.000000
.000000
.190000
.840000
.660000
.000000
.470000
.750000
.160000
.480000
.020000
.530000
.250000
.840000
.520000
.980000
____________________________________________________________________________________
Anexos
____________________________________________________________________________________
c) Modelo de independencia:
____________________________________________________________________________________
MARGINALS:
1
2
3
4
5
1553.00
2461.00
2556.00
2345.00
1136.00
1664.00
756.00
661.00
872.00
2081.00
LIKELIHOOD RATIO CHI-SQUARE =
PEARSON CHI-SQUARE =
416.241600
422.580800
____________________________________________________________________________________
d) Restricciones impuestas al modelo:
____________________________________________________________________________________
RESTRICTIONS ON LATENT CLASS PROBABILITIES:
0
4
5
5
4
RESTRICTIONS ON THE CONDITIONAL PROBABILITIES
LATENT CLASS =
1
2
3
4
5
dinam
dinam
estatico
dinamico
1
1
0
0
0
0
1
1
0
0
ecol
ecol
natural
ciudad
0
0
1
1
0
0
0
0
0
0
organ
organ
cuentpro
grupo
0
0
0
0
1
1
2
0
2
0
econom
econom
ahorro
derroch
3
0
0
0
0
0
3
0
0
0
sociab
sociab
marchoso
tranquil
0
0
0
0
0
0
1
1
0
0
____________________________________________________________________________________
e) Valores observados, esperados y residuos estandarizados:
____________________________________________________________________________________
CELL
OBSERVED
1
124.0000
2
269.0000
3
81.0000
4
82.0000
5
38.0000
6
88.0000
7
33.0000
8
36.0000
9
57.0000
10
134.0000
11
53.0000
12
61.0000
13
9.0000
14
38.0000
Continúa en la página siguiente ...
EXPECTED
124.4806
273.8581
79.4547
81.9458
37.5709
78.3232
33.9159
39.2314
56.3894
136.0097
54.9046
60.4999
9.2156
39.7724
STDIZED RESID
-.0431
-.2936
.1734
.0060
.0700
1.0934
-.1573
-.5159
.0813
-.1723
-.2570
.0643
-.0710
-.2810
FREEMAN-TUKEY
-.0207
-.2795
.1999
.0334
.1097
1.0865
-.1148
-.4841
.1138
-.1513
-.2247
.0958
.0090
-.2432
Anexos
____________________________________________________________________________________
viene de la página anterior ...
15
8.0000
16
25.0000
17
611.0000
18
473.0000
19
140.0000
20
57.0000
21
104.0000
22
108.0000
23
70.0000
24
31.0000
25
160.0000
26
190.0000
27
34.0000
28
30.0000
29
25.0000
30
33.0000
31
6.0000
32
9.0000
6.7317
23.4418
607.9580
476.0294
139.8390
58.4445
107.6679
107.0137
68.2974
31.1095
163.1814
180.8161
34.0048
27.8239
22.5102
40.2433
6.7651
9.5498
.4888
.3218
.1234
-.1388
.0136
-.1890
-.3535
.0953
.2060
-.0196
-.2491
.6830
-.0008
.4125
.5248
-1.1418
-.2942
-.1779
.5439
.3642
.1333
-.1275
.0347
-.1569
-.3317
.1190
.2341
.0247
-.2304
.6922
.0415
.4480
.5575
-1.1514
-.2020
-.0986
____________________________________________________________________________________
f) Estimaciones finales:
____________________________________________________________________________________
FINAL LATENT CLASS PROBABILITIES:
.160783
.357525
.062083
.062083
.357525
FINAL CONDITIONAL PROBABILITIES:
LATENT CLASS =
1
2
3
4
5
dinam
estatico
.0000
.2301
.7550
1.0000
.8153
dinam
dinamico
1.0000
.7699
.2450
.0000
.1847
ecol
natural
.5018
1.0000
.4172
.3308
.7842
ecol
ciudad
.4982
.0000
.5828
.6692
.2158
organ
cuentpro
.7244
.8198
.0000
.9172
.9172
organ
grupo
.2756
.1802
1.0000
.0828
.0828
econom
ahorro
.5709
.7159
.9378
.5709
.8044
econom
derroch
.4291
.2841
.0622
.4291
.1956
sociab
marchoso
.7488
.3573
.3245
1.0000
.0634
sociab
tranquil
.2512
.6427
.6755
.0000
.9366
____________________________________________________________________________________
g) Asignación de individuos a clases latentes:
____________________________________________________________________________________
CELL
OBSERVED
EXPECTED
ASSIGN TO CLASS
1
124.00
124.48
2
2
269.00
273.86
2
3
81.00
79.45
4
4
82.00
81.95
1
Continúa en la página siguiente ...
MODAL PROBABILITY
.4457
.6781
.8809
.9738
Anexos
____________________________________________________________________________________
viene de la página anterior ...
5
38.00
6
88.00
7
33.00
8
36.00
9
57.00
10
134.00
11
53.00
12
61.00
13
9.00
14
38.00
15
8.00
16
25.00
17
611.00
18
473.00
19
140.00
20
57.00
21
104.00
22
108.00
23
70.00
24
31.00
25
160.00
26
190.00
27
34.00
28
30.00
29
25.00
30
33.00
31
6.00
32
9.00
37.57
78.32
33.92
39.23
56.39
136.01
54.90
60.50
9.22
39.77
6.73
23.44
607.96
476.03
139.84
58.44
107.67
107.01
68.30
31.11
163.18
180.82
34.00
27.82
22.51
40.24
6.77
9.55
3
2
3
1
4
2
4
1
2
1
4
1
5
2
5
5
5
2
3
3
5
2
5
1
5
2
3
1
PERCENT CORRECTLY ALLOCATED =
NUMBER CORRECTLY ALLOCATED =
LAMBDA =
72.88388
2344.67
.57794
NUMBER OF ESTIMATED PARAMETERS =
DEGREES OF FREEDOM IF IDENTIFIED =
20
11
COLUMN RANK =
DEGREES OF FREEDOM =
.5095
.5213
.7885
.7739
.4611
.5419
.9581
.9914
.5255
.5778
.7054
.9734
.8359
.7016
1.0000
.5419
.4261
.6862
.8152
.5807
.7573
.7331
1.0000
.7232
.4956
.7243
.5462
.8016
20
11
____________________________________________________________________________________
h) Bondad de ajuste del modelo:
____________________________________________________________________________________
FINAL LIKELIHOOD RATIO CHI-SQUARE =
FINAL PEARSON CHI-SQUARE =
INDEX OF DISSIMILARITY =
BAYESIAN INFO CRITERIA =
4.804116
4.785797
.010999
-84.034130
____________________________________________________________________________________
Anexo 3
Anexos
____________________________________________________________________________________
ESTIMACIONES DEL MODELO HETEROGÉNEO RESTRINGIDO Nº 1
Probabilidades condicionadas, probabilidades de clase latente y probabilidades
de clase latente condicionadas del modelo heterogéneo restringido nº 1
Grupo: turistas menores de 45 años
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1492
0.8508
0.6977
0.3023
0.7810
0.2190
0.5620
0.4380
0.7312
0.2688
0.234811
Clase 2
0.5015
0.4985
1.0000
0.0000
0.9076
0.0924
1.0000
0.0000
0.1911
0.8089
0.213095
Clase 3
0.8406
0.1594
0.0000
1.0000
0.8401
0.1599
0.8617
0.1383
0.4062
0.5938
0.039155
Clase 4
1.0000
0.0000
0.4671
0.5329
1.0000
0.0000
0.0843
0.9157
1.0000
0.0000
0.017579
Clase 5
0.4735
0.5265
0.9700
0.0300
0.9076
0.0924
0.0028
0.9972
0.0000
1.0000
0.067633
0.410313
0.372366
0.068420
0.03718
0.118183
Probabilidades condicionadas, probabilidades de clase latente y probabilidades
de clase latente condicionadas para el modelo heterogéneo restringido nº 1
Grupo: turistas con 45 años o más
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1868
0.8132
0.7577
0.2423
0.0000
1.0000
0.8616
0.1384
0.4506
0.5494
0.053974
Clase 2
0.1118
0.8882
1.0000
0.0000
1.0000
0.0000
0.7139
0.2861
0.4019
0.5981
0.055570
Clase 3
1.0000
0.0000
0.2993
0.7007
0.3542
0.6458
1.0000
0.0000
0.2840
0.7160
0.041240
Clase 4
0.7602
0.2398
0.8345
0.1655
0.8706
0.1294
0.8398
0.1602
0.0748
0.9252
0.233531
Clase 5
0.5354
0.4646
0.2438
0.7562
0.7461
0.2539
0.5742
0.4258
0.7235
0.2765
0.043413
0.126188
0.129919
0.096416
0.545980
0.101497
Anexos
____________________________________________________________________________________
ESTIMACIONES DEL MODELO HETEROGÉNEO RESTRINGIDO Nº 2
Probabilidades condicionadas, probabilidades de clase latente y probabilidades
de clase latente condicionadas del modelo heterogéneo restringido nº 2
Grupo: turistas menores de 45 años
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1492
0.8508
0.6977
0.3023
0.7810
0.2190
0.5620
0.4380
0.7312
0.2688
0.234811
Clase 2
0.5015
0.4985
1.0000
0.0000
0.9076
0.0924
1.0000
0.0000
0.1911
0.8089
0.213095
Clase 3
0.8406
0.1594
0.0000
1.0000
0.8401
0.1599
0.8617
0.1383
0.4062
0.5938
0.039155
Clase 4
1.0000
0.0000
0.4671
0.5329
1.0000
0.0000
0.0843
0.9157
1.0000
0.0000
0.017579
Clase 5
0.4735
0.5265
0.9700
0.0300
0.9076
0.0924
0.0028
0.9972
0.0000
1.0000
0.067633
0.410313
0.372366
0.068420
0.030718
0.118183
Probabilidades condicionadas, probabilidades de clase latente y probabilidades
de clase latente condicionadas para el modelo heterogéneo restringido nº 2
Grupo: turistas con 45 años o más
Clases latentes
Variables
manifiestas
Variable A
Estático
Dinámico
Variable B
Ecologista
Cosmopolita
Variable C
Independiente
Despreocupado
Variable D
Ahorrador
Derrochador
Variable E
Marchoso
Tranquilo
Probabilidades de clase latente
Probabilidades de clase latente
condicionadas
Clase 1
0.1798
0.8202
0.7561
0.2439
0.0000
1.0000
0.8617
0.1383
0.4510
0.5490
0.053473
Clase 2
0.0962
0.9038
1.0000
0.0000
1.0000
0.0000
0.7132
0.2868
0.4065
0.5935
0.053473
Clase 3
1.0000
0.0000
0.3080
0.6920
0.3595
0.6405
1.0000
0.0000
0.2858
0.7142
0.042609
Clase 4
0.7568
0.2432
0.8352
0.1648
0.8714
0.1286
0.8381
0.1619
0.0768
0.9232
0.235564
Clase 5
0.5325
0.4675
0.2463
0.7537
0.7460
0.2540
0.5688
0.4312
0.7301
0.2699
0.042609
0.125016
0.125016
0.099617
0.550733
0.099617
Anexo 4
Anexos
____________________________________________________________________________________
ESTIMACIONES DEL MODELO HOMOGÉNEO
MODELO DEFINITIVO
a) Instrucciones y comandos del programa MLLSA:
____________________________________________________________________________________
TITLE “Estructura latente simultánea. 5 clases latentes. Modelo definitivo”
TABLE 2 2 2 2 2 2
VARIABLE NAMES
'dinam' 'ecol' 'organ' 'econom' 'sociab' 'edad'
VALUE LABELS
'estatico' 'dinamico'
'natural' 'ciudad'
'cuentpro' 'grupo'
'ahorro' 'derroch'
'marchoso' 'tranquil'
'< 45' '>= 45'
LCLASS 10
OPTIONS 1 2 4 6
DATA
84 211 46 66 14 42 8 18 44 110 41 49 6 32 3 17
265 300 49 31 27 43 10 10 97 143 13 23 12 20 3 4
40 58 35 16 24 46 25 18 13 24 12 12 3 6 5 8
346 173 91 26 77 65 60 21 63 47 21 7 13 13 3 5
LCPROB
0.11 0.04 0.14 0.19 0.03 0.12 0.02 0.14 0.10 0.11
CPROB
0.17 0.83 0.42 0.58 0.71 0.29 0.99 0.01 0.47 0.53
0.21 0.79 0.37 0.63 0.53 0.47 0.88 0.12 0.24 0.76
0.61 0.39 0.94 0.06 0.89 0.11 0.81 0.19 0.75 0.25
0.43 0.57 0.71 0.29 0.16 0.84 0.90 0.10 0.12 0.88
0.37 0.63 0.26 0.74 0.09 0.91 0.29 0.71 0.16 0.84
0.19 0.81 0.26 0.74 0.47 0.53 0.82 0.18 0.64 0.36
0.57 0.43 0.81 0.19 0.52 0.48 0.34 0.66 0.48 0.52
0.76 0.24 0.22 0.78 0.15 0.85 0.89 0.11 0.23 0.77
0.78 0.22 0.53 0.47 0.64 0.36 0.77 0.23 0.02 0.98
0.95 0.05 0.14 0.86 0.61 0.39 0.56 0.44 0.51 0.49
1 0 1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1 0 1
LCREST
8 0 7 0 0 5 5 7 8 7
CREST
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 2 0 0 0 0 0 2 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
1 0 1 0 1 0 1 0 1 0
1 0 1 0 1 0 1 0 1 0
TOLERANCE 0.000001
ITERATIONS 500000
EXECUTE
FINISH
____________________________________________________________________________________
b) Valores iniciales de los parámetros del modelo:
____________________________________________________________________________________
START VALUES ENTERED FOR LATENT CLASS PROBABILITIES:
.110000
.040000
.140000
.190000
.030000
.120000
.020000
.140000
.100000
.110000
.010000
.470000
.530000
START VALUES ENTERED FOR CONDITIONAL PROBABILITIES:
.170000
.830000
.420000
.580000
.710000
.290000
.990000
Anexos
____________________________________________________________________________________
.210000 .790000 .370000 .630000 .530000 .470000 .880000 .120000 .240000 .760000
.610000 .390000 .940000 .060000 .890000 .110000 .810000 .190000 .750000 .250000
.430000 .570000 .710000 .290000 .160000 .840000 .900000 .100000 .120000 .880000
.370000 .630000 .260000 .740000 .090000 .910000 .290000 .710000 .160000 .840000
.190000 .810000 .260000 .740000 .470000 .530000 .820000 .180000 .640000 .360000
.570000 .430000 .810000 .190000 .520000 .480000 .340000 .660000 .480000 .520000
.760000 .240000 .220000 .780000 .150000 .850000 .890000 .110000 .230000 .770000
.780000 .220000 .530000 .470000 .640000 .360000 .770000 .230000 .020000 .980000
.950000 .050000 .140000 .860000 .610000 .390000 .560000 .440000 .510000 .490000
1.00000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000
.000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000
____________________________________________________________________________________
c) Modelo de independencia:
____________________________________________________________________________________
MARGINALS:
1
2
3
4
5
6
1553.00
2461.00
2556.00
2345.00
1136.00
1841.00
1664.00
756.00
661.00
872.00
2081.00
1376.00
LIKELIHOOD RATIO CHI-SQUARE =
PEARSON CHI-SQUARE =
848.642000
945.948500
____________________________________________________________________________________
d) Restricciones impuestas al modelo:
____________________________________________________________________________________
RESTRICTIONS ON LATENT CLASS PROBABILITIES:
8
0
7
0
0
5
5
7
8
7
RESTRICTIONS ON THE CONDITIONAL PROBABILITIES
LATENT CLASS =
1
2
3
4 . . .
dinam
estatico
0
0
0
0
0
0
0
0
0
0
dinam
dinamico
0
0
0
0
0
0
0
0
0
0
ecol
natural
0
0
0
0
0
0
0
0
0
0
ecol
ciudad
0
0
0
0
0
0
0
0
0
0
organ
cuentpro
0
2
0
0
2
0
0
0
0
0
organ
grupo
0
0
0
0
0
0
0
0
0
0
econom
ahorro
0
0
0
0
0
0
0
0
0
0
econom
derroch
0
0
0
0
0
0
0
0
0
0
sociab
marchoso
0
0
0
0
0
0
0
0
0
0
sociab
tranquil
0
0
0
0
0
0
0
0
0
0
edad
< 45
1
1
1
1
1
0
0
0
0
0
edad
>= 45
0
0
0
0
0
1
1
1
1
1
____________________________________________________________________________________
Anexos
____________________________________________________________________________________
e) Valores observados, esperados y residuos estandarizados:
____________________________________________________________________________________
CELL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
OBSERVED
84.0000
211.0000
46.0000
66.0000
14.0000
42.0000
8.0000
18.0000
44.0000
110.0000
41.0000
49.0000
6.0000
32.0000
3.0000
17.0000
265.0000
300.0000
49.0000
31.0000
27.0000
43.0000
10.0000
10.0000
97.0000
143.0000
13.0000
23.0000
12.0000
20.0000
3.0000
4.0000
40.0000
58.0000
35.0000
16.0000
24.0000
46.0000
25.0000
18.0000
13.0000
24.0000
12.0000
12.0000
3.0000
6.0000
5.0000
8.0000
346.0000
173.0000
91.0000
26.0000
77.0000
65.0000
60.0000
21.0000
63.0000
47.0000
21.0000
7.0000
13.0000
13.0000
3.0000
5.0000
EXPECTED
86.8532
203.6009
44.6792
68.1846
13.1899
46.3187
9.1478
18.5527
43.9409
112.1664
41.0496
49.6133
5.4911
31.4577
3.4035
13.8187
262.1269
303.9284
49.7661
31.7122
28.2675
40.4290
9.6661
8.0967
97.6817
141.7677
13.2704
22.2782
11.2201
21.8899
2.5670
5.6339
41.5454
58.4593
31.9549
16.6971
22.9147
44.4840
26.7045
18.7648
11.2601
23.6140
13.9891
11.6097
3.6591
8.0210
5.0806
6.0205
343.0345
170.8964
94.2065
26.2541
78.1163
66.6423
58.6040
21.1888
66.7544
47.7869
16.8632
8.1079
11.7034
11.5654
4.0996
4.6269
STDIZED RESID
-.3062
.5185
.1976
-.2646
.2231
-.6346
-.3795
-.1283
.0089
-.2046
-.0077
-.0871
.2172
.0967
-.2187
.8558
.1775
-.2253
-.1086
-.1265
-.2384
.4043
.1074
.6689
-.0690
.1035
-.0742
.1529
.2328
-.4039
.2703
-.6884
-.2398
-.0601
.5387
-.1706
.2267
.2273
-.3298
-.1765
.5185
.0794
-.5318
.1145
-.3446
-.7136
-.0358
.8067
.1601
.1609
-.3304
-.0496
-.1263
-.2012
.1824
-.0410
-.4595
-.1138
1.0074
-.3891
.3790
.4218
-.5431
.1735
FREEMAN-TUKEY
-.2811
.5308
.2321
-.2356
.2826
-.6101
-.3027
-.0709
.0462
-.1816
.0309
-.0517
.3031
.1395
-.0908
.8641
.1922
-.2116
-.0734
-.0824
-.1927
.4347
.1809
.7008
-.0437
.1240
-.0068
.2020
.2961
-.3559
.3753
-.6153
-.2022
-.0275
.5662
-.1103
.2730
.2613
-.2845
-.1196
.5619
.1288
-.4773
.1821
-.2223
-.6566
.0679
.8202
.1731
.1793
-.3067
-.0013
-.0982
-.1712
.2129
.0126
-.4340
-.0779
.9994
-.3078
.4325
.4725
-.4391
.2688
____________________________________________________________________________________
Anexos
____________________________________________________________________________________
f) Estimaciones finales:
____________________________________________________________________________________
FINAL LATENT CLASS PROBABILITIES:
.235241
.213544
.040060
.016644
.067024
.056064
.056064
.040060
.235241
.040060
FINAL CONDITIONAL PROBABILITIES:
LATENT CLASS =
1
2
3
4 . . .
dinam
estatico
.1486
.5025
.8435
1.0000
.4751
.2114
.1350
1.0000
.7534
.5353
dinam
dinamico
.8514
.4975
.1565
.0000
.5249
.7886
.8650
.0000
.2466
.4647
ecol
natural
.6977
1.0000
.0001
.4736
.9738
.7566
1.0000
.2764
.8356
.1990
ecol
ciudad
.3023
.0000
.9999
.5264
.0262
.2434
.0000
.7236
.1644
.8010
organ
cuentpro
.7810
.9079
.8427
1.0000
.9079
.0000
1.0000
.3644
.8710
.7495
organ
grupo
.2190
.0921
.1573
.0000
.0921
1.0000
.0000
.6356
.1290
.2505
econom
ahorro
.5610
1.0000
.8563
.0393
.0023
.8598
.7063
1.0000
.8399
.5706
econom
derroch
.4390
.0000
.1437
.9607
.9977
.1402
.2937
.0000
.1601
.4294
sociab
marchoso
.7278
.1941
.4173
1.0000
.0000
.4535
.4182
.2791
.0759
.7309
sociab
tranquil
.2722
.8059
.5827
.0000
1.0000
.5465
.5818
.7209
.9241
.2691
edad
< 45
1.0000
1.0000
1.0000
1.0000
1.0000
.0000
.0000
.0000
.0000
.0000
edad
>= 45
.0000
.0000
.0000
.0000
.0000
1.0000
1.0000
1.0000
1.0000
1.0000
____________________________________________________________________________________
g) Asignación de individuos a clases latentes:
____________________________________________________________________________________
CELL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
OBSERVED
EXPECTED
ASSIGN TO CLASS
84.00
86.85
2
211.00
203.60
1
46.00
44.68
3
66.00
68.18
1
14.00
13.19
1
42.00
46.32
1
8.00
9.15
3
18.00
18.55
1
44.00
43.94
4
110.00
112.17
1
41.00
41.05
4
49.00
49.61
1
6.00
5.49
1
32.00
31.46
1
3.00
3.40
1
17.00
13.82
1
265.00
262.13
2
300.00
303.93
2
49.00
49.77
3
31.00
31.71
1
27.00
28.27
2
43.00
40.43
2
10.00
9.67
3
10.00
8.10
1
97.00
97.68
5
143.00
141.77
5
13.00
13.27
3
Continúa en la página siguiente ...
MODAL PROBABILITY
.7003
.7042
.7326
.9109
.5321
.8681
.6676
.9389
.5544
1.0000
.6596
.9795
1.0000
1.0000
.6989
.9862
.9635
.8228
.9184
.7324
.9064
.6275
.8823
.8045
.9250
.7042
.5779
Anexos
____________________________________________________________________________________
viene de la página anterior ...
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
23.00
12.00
20.00
3.00
4.00
40.00
58.00
35.00
16.00
24.00
46.00
25.00
18.00
13.00
24.00
12.00
12.00
3.00
6.00
5.00
8.00
346.00
173.00
91.00
26.00
77.00
65.00
60.00
21.00
63.00
47.00
21.00
7.00
13.00
13.00
3.00
5.00
22.28
11.22
21.89
2.57
5.63
41.55
58.46
31.95
16.70
22.91
44.48
26.70
18.76
11.26
23.61
13.99
11.61
3.66
8.02
5.08
6.02
343.03
170.90
94.21
26.25
78.12
66.64
58.60
21.19
66.75
47.79
16.86
8.11
11.70
11.57
4.10
4.63
1
5
1
3
1
9
7
10
10
6
6
8
6
9
7
10
10
6
6
10
10
9
9
9
9
9
6
8
6
9
7
9
10
9
6
9
6
.8156
.8170
.5374
.5574
.9045
.6365
.7882
.5405
.8981
.4908
.9432
.6195
.7195
.4477
.8114
.9291
.9721
.5010
.8527
.8550
.6264
.9390
.6168
.6725
.7897
.6108
.7588
.7292
.7680
.9199
.5579
.7162
.5125
.7773
.7128
.4364
.5733
PERCENT CORRECTLY ALLOCATED =
NUMBER CORRECTLY ALLOCATED =
LAMBDA =
79.65117
2562.38
.73392
NUMBER OF ESTIMATED PARAMETERS =
DEGREES OF FREEDOM IF IDENTIFIED =
43
20
COLUMN RANK =
DEGREES OF FREEDOM =
43
20
____________________________________________________________________________________
h) Bondad de ajuste del modelo:
____________________________________________________________________________________
FINAL LIKELIHOOD RATIO CHI-SQUARE =
FINAL PEARSON CHI-SQUARE =
INDEX OF DISSIMILARITY =
8.269212
8.334830
.015082
____________________________________________________________________________________
Descargar