UNIVERSIDAD DE EXTREMADURA FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES TESIS DOCTORAL MODELIZACIÓN ESTADÍSTICA DE TABLAS DE CONTINGENCIA: APLICACIÓN AL ANÁLISIS DE LA DEMANDA TURÍSTICA ESPAÑOLA Doctorando: Marcelino SÁNCHEZ RIVERO Director: Dr. D. Miguel Angel FAJARDO CALDERA BADAJOZ, SEPTIEMBRE DE 1998 Edita: Universidad de Extremadura Servicio de Publicaciones c/ Pizarro, 8 Cáceres 10071 Correo e.: [email protected] http://www.pcid.es/public.htm UNIVERSIDAD DE EXTREMADURA FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES MODELIZACIÓN ESTADÍSTICA DE TABLAS DE CONTINGENCIA: APLICACIÓN AL ANÁLISIS DE LA DEMANDA TURÍSTICA ESPAÑOLA MEMORIA presentada por Marcelino Sánchez Rivero para optar al grado de Doctor. Fdo.: Marcelino Sánchez Rivero Vº Bº del Director de la Tesis: Fdo.: Miguel Angel Fajardo Caldera Catedrático de Universidad Economía Aplicada Badajoz, Septiembre de 1998 A Antonia y a mis padres, las únicas constantes entre tantas variables. Agradecimientos Cuando se culmina un trabajo de investigación de varios años, uno toma conciencia de la importancia que la ayuda, el apoyo y la comprensión de ciertas personas tienen en la consecución exitosa del mismo. Desde la perspectiva de quien comienza a dar sus primeros pasos en este apasionante mundo de la investigación aplicada, el agradecimiento a esas personas es la mínima expresión de la deuda contraída con ellas. En primer lugar, deseo expresar mi más sincero agradecimiento al Director de esta Tesis, el doctor D. Miguel Angel Fajardo Caldera, que también ha sido mi Tutor durante mis estudios de Tercer Ciclo. El fue quien me inició en el mundo de la investigación, quien resolvió muchas de mis dudas e indecisiones y quien, en definitiva, veló por la calidad del trabajo que ahora se presenta. Sus consejos, sus ideas y su constante dedicación a mí han tenido una importancia crucial en el desarrollo de esta Tesis. Quiero también agradecer a Antonia el ánimo que en todo momento ha sabido infundirme. Su apoyo incondicional en los peores momentos y las innumerables horas de compañía mútua que este trabajo nos ha robado merecen una recompensa mucho mayor de lo que estas breves palabras puedan transmitir. Mi padres también merecen toda mi gratitud en este momento. Y no sólo por la educación que durante años me han dado, y por la que estaré eternamente en deuda con ellos, sino también por el interés que en todo momento han demostrado por el proceso de elaboración de esta Tesis. Tampoco puedo olvidarme de mis compañeros de trabajo, los profesores de la Facultad de Ciencias Económicas y Empresariales de la Universidad de Extremadura. Algunos se han interesado por el estado de la investigación. Otros han demostrado de una forma mucho más activa su compañerismo, como Pedro Mora López, que me ha prestado una inestimable ayuda en el procesamiento informático de la información. Finalmente, quisiera mostrar mi gratitud hacia dos personas que también han aportado su granito de arena a este trabajo. Uno de ellos es Erling B. Andersen, que me asesoró tanto en la búsqueda bibliográfica como en el enfoque de la investigación, durante mi estancia en el Instituto de Estadística de la Universidad de Copenhagen en el verano de 1995. El otro es Scott R. Eliason, de la Universidad de Iowa ( E.E.U.U. ), que me ayudó a resolver algunos problemas de funcionamiento del programa MLLSA. En suma, gracias a todos los que, de una u otra forma, habéis facilitado mi tarea y me habéis prestado vuestra ayuda y comprensión cuando lo he necesitado. “Nuestras horas son minutos cuando esperamos saber, y siglos cuando sabemos lo que se puede aprender” Antonio Machado INDICE Página INTRODUCCIÓN 5 PRIMERA PARTE: PLANTEAMIENTO Y METODOLOGÍA CAPÍTULO PRIMERO LA INVESTIGACIÓN DE LA DEMANDA TURÍSTICA EN ESPAÑA 17 1.1. INTRODUCCIÓN ........................................................................................... 19 1.2. ESTUDIOS SOBRE LA DEMANDA TURÍSTICA ESPAÑOLA ................................ 22 1.3. TÉCNICAS PARA EL ANÁLISIS DE LA INFORMACIÓN...................................... 42 1.4. ANÁLISIS ESTADÍSTICO DE DATOS CATEGÓRICOS Y DEMANDA TURÍSTICA ................................................................................................... 50 CAPÍTULO SEGUNDO FUNDAMENTOS PARA EL ANÁLISIS DE TABLAS DE CONTINGENCIA 61 2.1. INTRODUCCIÓN ........................................................................................... 63 2.2. INDEPENDENCIA DE SUCESOS E INDEPENDENCIA DE VECTORES ALEATORIOS................................................................................................ 64 2.2.1. INDEPENDENCIA DE SUCESOS.......................................................... 64 2.2.2. ODDS Y ODDS RATIO ...................................................................... 68 2.2.3. INDEPENDENCIA DE VECTORES ALEATORIOS ................................... 70 2.2.4. COLAPSABILIDAD DE VECTORES ALEATORIOS................................. 75 Página 2.3. EXPANSIÓN LOG-LINEAL DE LA DISTRIBUCIÓN DE BERNOULLI .................... 76 2.3.1. LA DISTRIBUCIÓN DE BERNOULLI ................................................... 76 2.3.2. EXPANSIÓN LOG-LINEAL PARA EL CASO BIDIMENSIONAL ................ 77 2.3.3. EXPANSIÓN LOG-LINEAL PARA EL CASO TRIDIMENSIONAL .............. 78 2.4. TEORÍA DE GRAFOS E INDEPENDENCIA ........................................................ 80 CAPÍTULO TERCERO 85 TABLAS DE CONTINGENCIA 3.1. INTRODUCCIÓN ........................................................................................... 87 3.2. MODELOS MUESTRALES PARA TABLAS DE CONTINGENCIA .......................... 92 3.3. INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES ............. 96 3.4. OTRAS MEDIDAS DE ASOCIACIÓN PARA TABLAS BIDIMENSIONALES .......... 103 3.4.1. MEDIDAS DE ASOCIACIÓN PARA TABLAS 2X2 ............................... 104 3.4.2. MEDIDAS DE ASOCIACIÓN PARA TABLAS IXJ ................................ 111 3.5. INDEPENDENCIA EN TABLAS TRIDIMENSIONALES ...................................... 117 CAPÍTULO CUARTO EL MODELO LOG-LINEAL GENERAL 133 4.1. INTRODUCCIÓN ......................................................................................... 135 4.2. MODELIZACIÓN LOGARÍTMICO-LINEAL ..................................................... 138 4.2.1. TABLAS BIDIMENSIONALES ........................................................... 138 4.2.2. TABLAS TRIDIMENSIONALES ......................................................... 144 4.2.3. JERARQUÍA, NOTACIÓN ABREVIADA E INTERPRETACIÓN DE MODELOS LOG-LINEALES ............................................................. 149 4.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO....................................... 154 4.4. CONTRASTACIÓN DE MODELOS LOG-LINEALES .......................................... 168 4.5. CEROS ESTRUCTURALES Y CEROS ALEATORIOS ......................................... 173 4.6. CRITERIOS DE SELECCIÓN DE MODELOS LOG-LINEALES ............................. 178 Página 4.7. MODELOS LOG-LINEALES GRÁFICOS.......................................................... 185 4.8. SELECCIÓN DE MODELOS LOG-LINEALES ENTRE MODELOS DESCOMPONIBLES Y MODELOS GRÁFICOS .................................................. 195 4.9. CRITERIOS DE SELECCIÓN DEL MODELO FINAL .......................................... 200 4.10. RESIDUOS ESTANDARIZADOS Y RESIDUOS ESTANDARIZADOS AJUSTADOS PARA UN MODELO LOG-LINEAL............................................... 205 4.11. COLAPSABILIDAD DE TABLAS DE CONTINGENCIA .................................... 212 4.12. EL MODELO LOGIT PARA VARIABLES CATEGÓRICAS ................................ 214 4.12.1. VARIABLE RESPUESTA DICOTÓMICA ........................................... 215 4.12.2. VARIABLE RESPUESTA POLICOTÓMICA ....................................... 224 CAPÍTULO QUINTO MODELOS DE VARIABLES LATENTES 227 5.1. INTRODUCCIÓN ......................................................................................... 229 5.2. EL MODELO DE ANÁLISIS DE CLASES LATENTES GENERAL ......................... 234 5.3. ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL MODELO ACL GENERAL ................. 240 5.4. CONTRASTACIÓN DE LA BONDAD DE AJUSTE DEL MODELO ACL GENERAL................................................................................................... 252 5.5. ASIGNACIÓN DE INDIVIDUOS A CLASES LATENTES ..................................... 255 5.6. ANÁLISIS DE CLASE LATENTE EXPLORATORIO Y CONFIRMATORIO ............. 257 5.7. ANÁLISIS DE ESTRUCTURA LATENTE SIMULTÁNEO .................................... 265 5.8. MODELOS DE HOMOGENEIDAD.................................................................. 277 5.9. MODELOS CON MÚLTIPLES VARIABLES LATENTES ..................................... 282 Página SEGUNDA PARTE: ANÁLISIS EMPÍRICO Y CONCLUSIONES 1. INTRODUCCIÓN 295 2. ANÁLISIS DE INTERDEPENDENCIAS ENTRE VARIABLES TURÍSTICAS 302 A). PROPENSIÓN A VIAJAR 313 B). DESTINO TURÍSTICO 340 C). LUGAR DE VACACIONES 346 D). TRANSPORTE EMPLEADO 352 E). ALOJAMIENTO UTILIZADO 360 F). ORGANIZACIÓN DEL VIAJE 372 G). DURACIÓN DEL VIAJE 378 H). FORMA DE VIAJAR 387 I). FRACCIONAMIENTO VACACIONAL 395 3. SEGMENTACIÓN DE LA POBLACION ESPAÑOLA SEGÚN SU ACTITUD ANTE LAS VACACIONES 400 4. CONCLUSIONES FINALES 454 FUTURAS LÍNEAS DE INVESTIGACIÓN 471 BIBLIOGRAFÍA 477 ANEXOS 495 INTRODUCCIÓN Introducción ____________________________________________________________________________________ La investigación de cualquier actividad económica exige, en mayor o menor medida, información estadística. Esta necesidad informativa se hace especialmente patente en el estudio del Turismo, debido al gran cúmulo de circunstancias socioeconómicas que condicionan esta actividad. Hasta tal punto esto es así que el diseño de una política turística o la adopción de una decisión por parte de las autoridades políticas exige un conocimiento previo, fiable y detallado del comportamiento de la demanda turística, para lo cual, a su vez, es imprescindible la recopilación de información estadística. El profesor Manuel Figuerola apunta que “en la actualidad, la magnitud e importancia social alcanzada por la actividad turística hace insuficiente todo estudio que se apoye exclusivamente en valores representativos. Es evidente que se hace necesario realizar estudios de grupos diferenciados o llegar a la definición de tipologías en base a las modernas técnicas o modelos que existen al respecto”. ( Figuerola Palomo, 1985, pag. 204 ). En esta misma línea, Figuerola apunta también ( op. cit., pag. 218 ) la escasa importancia que se concede a la recopilación de información relativa a los caracteres sociales que modelan el turismo, y denuncia el escaso conocimiento sobre las motivaciones que inducen los desplazamientos, la estructura social de los visitantes, los rasgos demográficos y otras particularidades que definen la personalidad de quienes practican turismo. -7- Introducción ____________________________________________________________________________________ Consciente de esta necesidad informativa, la Secretaría General de Turismo ha puesto en marcha durante los últimos años una serie de estudios tendentes a la recopilación de información estadística y al posterior análisis de la misma. Entre estos estudios cabe citar, por ejemplo, las diferentes ediciones de “Las vacaciones de los españoles”, los “movimientos turísticos en fronteras” o, más recientemente, la encuesta Familitur. A pesar de que estos estudios han venido a paliar en gran medida la sequía de información estadística sobre la demanda turística en general, y sobre su comportamiento, en particular, se detecta en la mayoría de ellos una explotación insuficiente del gran caudal de información que atesoran. Dejando al margen los trabajos realizados por Esteban Talaya sobre técnicas econométricas aplicadas al análisis de previsión de la demanda turística, una consulta detallada de estos estudios constata, en la inmensa mayoría de los casos, un mero análisis descriptivo y una ausencia, casi generalizada, de técnicas estadísticas que profundicen en el análisis de la información disponible. Admitida la necesidad del análisis de información estadística básica y confirmada la escasez de técnicas estadísticas avanzadas para el análisis de la demanda turística, este trabajo se plantea como objetivo básico dar a conocer a los investigadores una serie de herramientas que analicen con mayor profundidad científica la información obtenida en procesos de encuestación de cualquier ámbito o naturaleza. Estas técnicas han sido investigadas por estadísticos y matemáticos de Norteamérica ( Estados Unidos -8- Introducción ____________________________________________________________________________________ y Canadá ) y del Norte de Europa ( Holanda, Suecia y Dinamarca ) y se han aplicado fundamentalmente al ámbito de la Medicina y de la Psicología. Sin embargo, la metodología utilizada por estas técnicas no ha sido aplicada a otros campos de la Ciencia, como podrían ser el caso de la Economía, en general, o del comportamiento de la demanda turística, en particular. En este sentido, la elaboración de conclusiones válidas sobre la demanda turística nacional a partir de información estadística básica mediante el empleo de estas técnicas puede considerarse una de las aportaciones originales de este trabajo. Los modelos que se describen en el presente texto permitirán al investigador alcanzar tres objetivos fundamentales: a) Profundizar en la dependencia estadística entre dos o más variables turísticas, superando el análisis de las mismas desde una perspectiva marginal y centrándolo en un enfoque simultáneo o conjunto. b) Cuantificar, en términos probabilísticos, la asociación detectada entre las variables analizadas. c) Segmentar mercados turísticos mediante una técnica que permite contrastar estadísticamente el número de segmentos, el tamaño de los mismos y cualquier aspecto que los caracterice. -9- Introducción ____________________________________________________________________________________ Al objeto de deslindar claramente los contenidos del presente trabajo, se ha estructurado el mismo en dos partes: una Primera Parte, que hemos titulado “Planteamiento y metodología”; y una segunda parte, denominada “Análisis empírico y conclusiones”. La Primera Parte plantea la cuestión, justifica la necesidad de emplear técnicas estadísticas avanzadas y aborda con detalle la metodología estadística que se utilizará para analizar la demanda turística española. Esta Primera Parte consta de un total de cinco Capítulos. El Capítulo Primero realiza un recorrido general por las investigaciones sobre demanda turística realizadas en España en los últimos 10 o 15 años, distinguiendo tres grandes bloques temáticos: estudios de previsión, estudios sobre el grado de satisfacción del turista y estudios sobre el comportamiento de los españoles ante las vacaciones. También se enumeran en este Capítulo, siguiendo a Esteban Talaya, algunas de las técnicas de análisis de la demanda turística. Por último, se relaciona el análisis estadístico de datos categóricos ( y en especial el modelo log-lineal y el modelo logit ) con la investigación de la demanda turística y se propone el modelo de Análisis de Clases Latentes como una posible técnica de segmentación óptima basada en criterios subjetivos. El Capítulo Segundo introduce una serie de conceptos estadísticos que constituyen el punto de partida de las técnicas que serán abordadas en capítulos posteriores. Con relativa brevedad, y mediante definiciones y proposiciones matemáticas, se abordan conceptos tan básicos como el de independencia estadística e - 10 - Introducción ____________________________________________________________________________________ independencia condicionada de sucesos y de variables aleatorias; el de ratio y odds ratio; la expansión log-lineal de la distribución de Bernoulli multidimensional; o la asociación entre la teoría de grafos y el concepto de independencia. Las nociones básicas abordadas en el Capítulo Segundo se trasladan, a lo largo del Capítulo Tercero, a las tablas de contingencia. Así, se define el concepto de tabla de contingencia, en torno al cual girará la mayor parte del contenido de este trabajo. Una de las nociones claves de este Capítulo es la independencia en tablas de contingencia bidimensionales y la cuantificación de la asociación entre variables mediante diversos coeficientes. Por último, en este Capítulo se pone de manifiesto la necesidad de medir la asociación entre variables en tablas de contingencia de dimensión superior a dos, lo que evidencia la escasa utilidad de los coeficientes hasta ahora empleados y reivindica el manejo de técnicas estadísticas más complejas que permitan abordar el problema. El tratamiento detallado de estas técnicas constituye el contenido del Capítulo Cuarto. En este Capítulo se describe el modelo logarítmico-lineal, poniendo especial énfasis en la interpretación tanto del modelo en términos de independencia como de los parámetros del mismo, en la estimación de sus efectos primarios y de interacción, en la selección del mejor modelo y en su representación gráfica. Como una mera extensión del modelo log-lineal, las últimas páginas de este Capítulo están dedicadas al modelo logit para variables categóricas, abordándose especialmente el cálculo de las probabilidades condicionadas correspondientes a las categorías de la variable respuesta. - 11 - Introducción ____________________________________________________________________________________ Sobre la base del modelo log-lineal, se introduce en el Capítulo Quinto una nueva técnica estadística, cuya aplicación a la segmentación de la demanda turística española constituye una de las aportaciones originales de este trabajo. La necesidad de trabajar en ocasiones con variables difícilmente observables ( o simplemente inobservables ) justifica el empleo de un modelo log-lineal algo peculiar, en el que una de las variables consideradas es una variable latente. Tras describir los parámetros del modelo ACL general, el contenido de este Capítulo gira en torno a la versatilidad del mismo tanto en un análisis exploratorio ( cuando se desea formular una teoría sobre la población estudiada ) como en un análisis confirmatorio ( cuando se desea contrastar la validez de una teoría previamente definida sobre la población objeto de análisis ). En la segunda mitad de este Capítulo Quinto, se constata la potencialidad del modelo ACL en la segmentación simultánea de dos o más grupos y se detallan las especificidades tanto de modelos heterogéneos como de modelos de homogeneidad. El tratamiento de modelos con múltiples variables latentes pone punto final al Capítulo Quinto y, con ello, a la Primera Parte de este trabajo. La Segunda Parte tiene un carácter eminentemente aplicado y su finalidad es poner en valor las potencialidades de las técnicas estadísticas tratadas en la Primera Parte. La información estadística utilizada ha sido la contenida en el estudio 2.193 del Centro de Investigaciones Sociológicas sobre el “comportamiento de los españoles ante las vacaciones”, realizado en Octubre de 1995. Esta Segunda Parte se ha estructurado en tres bloques. En el primer bloque, la modelización logarítmico-lineal se utiliza para detectar las interrelaciones existentes entre las variables turísticas propensión a viajar, - 12 - Introducción ____________________________________________________________________________________ destino turístico, lugar de vacaciones, transporte empleado, alojamiento utilizado, organización del viaje, duración del viaje, forma de viajar y fraccionamiento vacacional, y las variables de corte socioecónomico tamaño del hábitat, edad, nivel de estudios, nivel de ingresos, temporada vacacional y número de miembros del hogar familiar. Tras seleccionar el modelo log-lineal óptimo, en este primer bloque se estiman también las probabilidades asociadas a las diferentes categorías de las nueve variables turísticas citadas anteriormente, condicionadas a niveles concretos de las variables socioeconómicas consideradas en el análisis. En el segundo bloque se ha segmentado la demanda turística española en cinco segmentos, haciendo uso para ello del modelo ACL general sobre la base de la existencia de la variable latente “comportamiento vacacional”. Estos cinco segmentos son los correspondientes a turistas sociales, turistas ecológicos, turistas pasivos, turistas por entretenimiento puro y turistas recreativos. Una vez identificadas las características esenciales de cada segmento, se ha completado el análisis de cada uno de ellos con otras variables auxiliares, como la Comunidad Autónoma de residencia, la edad, el nivel de ingresos y de estudios, el estado civil, etc. Finalizado este análisis global, se ha constatado que la variable edad podría afectar a la segmentación obtenida, hasta el punto de que la segmentación de los turistas con menos de 45 años puede ser muy diferente a la de los turistas que superan esta edad. Con la ayuda del modelo de estructura latente simultáneo se ha procedido a comparar los dos grupos, obteniéndose como resultado del análisis algunas diferencias significativas entre los segmentos definidos en los dos grupos considerados. - 13 - Introducción ____________________________________________________________________________________ Finalmente, el tercer bloque de esta Segunda Parte está dedicado a la elaboración de conclusiones finales tanto sobre el comportamiento turístico de los españoles como sobre su actitud ante las vacaciones. El trabajo concluye con un breve esbozo de las futuras líneas de trabajo que se abren a raíz de esta investigación y en las que el autor centrará sus esfuerzos en los próximos años. - 14 - PRIMERA PARTE: Planteamiento y metodología CAPÍTULO PRIMERO LA INVESTIGACIÓN DE LA DEMANDA TURÍSTICA EN ESPAÑA Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ 1.1. INTRODUCCIÓN. El turismo constituye, a finales de los noventa, la primera industria mundial, hasta el punto de que la actividad turística se ha convertido en un componente fundamental del consumo de los países desarrollados. Además de ello, en opinión de los expertos, el turismo se puede erigir en uno de los sectores productivos que a medio y largo plazo puede sustentar la economía de algunos países, especialmente de aquellos que están en vías de desarrollo. A pesar del proceso de desaceleración de las tasas de crecimiento del turismo mundial durante la primera década de los 901, las previsiones de la O.M.T. para los próximos años ponen de manifiesto una indudable potencialidad de crecimiento. Así, se estima que en el período 1995-2000 se producirá un crecimiento medio anual de turistas a nivel mundial de un 4,4 %, mientras que las previsiones para el período 2000-2010 sitúan esta tasa de crecimiento en torno al 3,5 %. Las razones que podrían justificar estas expectativas son múltiples. En primer lugar, las mejoras tecnológicas de los medios de transporte y la creciente calidad de las vías de comunicación han propiciado una importante reducción en el tiempo de viaje entre el punto de origen y el de destino. En segundo lugar, la incorporación de nuevas tecnologías a múltiples sectores económicos ha provocado una disminución del número de horas trabajadas y, por consiguiente, un incremento del tiempo de ocio. En tercer 1 Téngase en cuenta que en el período 1990-1994, y según datos de la Organización Mundial del Turismo ( O.M.T. ), el crecimiento anual del turismo internacional se cifró en un 3,9 % en número de turistas y en un 6,5 % en ingresos por turismo, mientras que en el período 1985-1990 esta tasa de crecimiento anual se cifró en el 6,8 % y en el 17,6 %, respectivamente. - 19 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ lugar, y en conexión con la idea anterior, el creciente peso del sector terciario en la economía de los países más desarrollados está provocando no sólo más facilidades para viajar sino también para aumentar la frecuencia de los viajes realizados. En este sentido, en los últimos años se está observando una tendencia del turista a realizar un número cada vez mayor de viajes con una duración, por lo general, más corta que en años anteriores. La actual importancia del fenómeno turístico y sus previsiones de futuro justifican plenamente la necesidad de definir una política turística que permita garantizar un desarrollo turístico acorde con los objetivos globales de la economía y, por extensión, de la sociedad moderna. Sean cuales sean los objetivos de la política turística ( económicos, sociales, culturales, etc. ), es evidente que el conocimiento de la demanda turística es un paso previo fundamental en la definición de dicha política. Así, a título ilustrativo, difícilmente se podrá fomentar la participación en el turismo de determinados sectores de la sociedad ( jóvenes, tercera edad, etc. ) sin conocer antes cuál es su comportamiento y sus motivaciones ante el fenómeno turístico, de la misma forma que no podrá conocerse la necesidad de mejorar la calidad de la oferta turística sin analizar a priori el grado de satisfacción de la demanda con respecto a los productos y servicios turísticos ofertados. Esta necesidad de conocer las características y motivaciones de la demanda turística se confirma si se tienen en cuenta las transformaciones que se están produciendo en la misma durante los últimos años. Por un lado, la reducción de la - 20 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ población de menor edad y el crecimiento de la población de mediana edad está provocando que las menores obligaciones familiares y la mayor estabilidad económicolaboral de este último sector de la población otorguen al mismo una mayor capacidad de gasto y una mayor disponibilidad de tiempo de ocio. Por otro lado, la tendencia cada vez más generalizada de fraccionar el período vacacional en varios períodos de más corta duración y el aprovechamiento de los fines de semana para realizar viajes, está promoviendo un cambio sustancial en los destinos turísticos tradicionales. Así, al turismo de “sol y playa” le está surgiendo una cierta competencia en nuevas alternativas turísticas, como el turismo de naturaleza, el turismo rural o el agroturismo. Estas nuevas formas de practicar turismo conllevan asimismo cambios sustanciales en las características, exigencias y motivaciones de la demanda turística. A título meramente indicativo, el practicante de turismo rural es mucho más activo y tiene unas exigencias culturales mucho más elevadas que el turista de sol y playa. Por último, se está detectando en los últimos años un alargamiento del período estival de vacaciones hacia los meses de la primavera y del otoño, circunstancia motivada, entre otras razones, por la aparición de un turismo de la tercera edad y por la mayor flexibilidad en los horarios de trabajo. Este proceso de alargamiento de la que tradicionalmente se ha denominado “temporada alta” provoca no sólo una mayor diversidad en el destino turístico elegido, sino también matices específicos en las características socioeconómicas de los turistas según la época del año de que se trate. Estos argumentos, y otros muchos que podrían mencionarse aquí, justifican la necesidad de estudiar la demanda turística como paso previo a la definición de políticas - 21 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ de actuación en materia turística. En otras palabras, el desarrollo turístico de un país o de una región depende en gran medida del conocimiento que se tenga de su demanda turística. 1.2. ESTUDIOS SOBRE LA DEMANDA TURÍSTICA ESPAÑOLA. La demanda turística se puede definir, desde el punto de vista de la Teoría Económica, como la cantidad de producto o servicio turístico que los individuos están dispuestos a adquirir a un precio concreto en un momento determinado. Sin embargo, el interés de este trabajo no se centra en el concepto puramente económico de demanda turística, es decir, no se plantea el análisis de la demanda turística como función de un conjunto de variables explicativas, como podrían ser el precio de los productos o servicios turísticos, el tipo de cambio de la moneda, la renta per cápita del consumidor, etc. Más bien al contrario, con esta investigación se pretende avanzar en el conocimiento de los consumidores de productos y servicios turísticos, es decir, de los demandantes de turismo. Es más, no nos planteamos analizar desde un punto de vista cuantitativo a estos demandantes, sino caracterizarlos desde un punto de vista cualitativo, incidiendo, entre otras cosas, en sus preferencias, en su grado de satisfacción, en sus motivaciones, etc. No será, pues, objeto de esta investigación la cuantificación de la demanda turística ( en este sentido, consideramos que tanto el Instituto Nacional de Estadística - 22 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ como otros organismos nacionales y autonómicos elaboran estadísticas que permiten conocer los flujos turísticos registrados durante un período de tiempo determinado en una zona concreta ), sino la profundización en el conocimiento de su comportamiento ante las vacaciones. En consecuencia, y en lo sucesivo, se empleará el término “demanda turística” para hacer referencia al universo de individuos que consumen productos o servicios turísticos en una zona geográfica concreta durante un período de tiempo determinado. Hecha esta aclaración, cabe mencionar que la investigación sobre la demanda turística en España se ha concentrado especialmente a lo largo de los últimos 10 o 12 años. Aunque existen algunas experiencias sobre investigación de la demanda turística anteriores a 1985, lo cierto es que es a partir de este año cuando empiezan a proliferar los estudios sobre demanda turística, estudios que se han visto intensificados a partir de principios de los noventa. Siguiendo a Esteban Talaya ( 1996b ), la investigación sobre la demanda turística española presenta unas características muy definidas que, citando literalmente a esta autora, pasamos a enumerar brevemente: - “La investigación realizada sobre esta materia se ha enfocado desde un punto de vista eminentemente global, en el sentido de que los análisis efectuados se refieren a un ámbito nacional, con escasa o nula incidencia en la desagregación a nivel regional. - 23 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - La mayor parte de los estudios realizados no llevan a cabo un análisis individuo a individuo, sino que generalmente las conclusiones obtenidas se basan en la información agregada. - Se ha analizado fundamentalmente la demanda turística en el punto de destino ( demanda real ), mientras que el análisis de la misma en el punto de origen ( demanda potencial ) ha centrado muy poco la atención de los investigadores. - La investigación sobre demanda turística tiene en España un carácter eminentemente institucional, ya que buena parte de los estudios realizados han sido llevados a cabo por la Dirección General de Política Turística del Ministerio de Economía y Hacienda, ocupando la investigación privada un lugar anecdótico en el conjunto de los estudios realizados. - La práctica totalidad de las investigaciones realizadas ( como se comentará más tarde con mayor detenimiento ) se limita a un mero análisis descriptivo de los resultados obtenidos. Por el contrario, son verdaderamente escasos los estudios que van más allá de la descripción de la información básica del mismo y emplean técnicas estadísticas econométricas para detectar relaciones entre variables y explicar el tipo de relación que, en cada caso, exista entre dichas variables”. Las investigaciones sobre demanda turística realizadas en España podrían agruparse en los tres bloques temáticos siguientes: - 24 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ a) Estudios de previsión. b) Estudios sobre el grado de satisfacción del turista. c) Estudios sobre el comportamiento de los españoles ante las vacaciones. Con un carácter muy general, los objetivos que persiguen estos tres grandes bloques temáticos son los que se mencionan a continuación. a) Estudios de previsión: El trabajo más sobresaliente dentro de este bloque temático es, sin ningún género de dudas, la tesis doctoral “Análisis de la demanda: aplicación a la actividad turística de las técnicas de predicción” ( Esteban Talaya, 1987 ). El objetivo esencial de este trabajo fue la creación de un marco de análisis de la evolución futura de la demanda turística y demostrar la potencialidad de la combinación y complementación de diversos enfoques predictivos. En esta tesis se describen las principales técnicas de predicción ( subjetivas, causales y de series temporales ) y se analizan las experiencias empíricas sobre predicción de la demanda turística mediante la utilización de las citadas técnicas. Pero la principal aportación de este trabajo es la estimación de modelos econométricos de la demanda turística española y su aplicación a la predicción de la misma a corto, medio y largo plazo. En concreto, se proponen modelos econométricos para las variables “visitantes extranjeros entrados por fronteras”, “pernoctaciones en establecimientos hoteleros”, “visitantes extranjeros entrados por aeropuertos” e “ingresos por turismo”. De igual forma, se proponen modelos del enfoque Box-Jenkins - 25 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ para las variables “visitantes extranjeros entrados por fronteras” e “ingresos por turismo”. Se trata, en definitiva, de uno de los trabajos más serios y con más rigor científico de los realizados para el conocimiento más profundo de la demanda turística nacional, hasta el punto de que la necesidad de utilizar técnicas estadísticas y econométricas para el estudio de la demanda turística queda sobradamente justificada en el rigor científico de sus conclusiones. A pesar de las interesantes aportaciones de este trabajo, no se trata, sin embargo, del primer estudio que hace uso de la herramienta estadística para analizar la demanda turística. En realidad, el primer trabajo que basó su metodología en la utilización de técnicas econométricas se remonta a 1966, fue realizado por Pulido San Román y su título es “Introducción a un análisis econométrico del turismo”. En esta investigación se realizó por primera vez un análisis econométrico de la demanda turística española y se propusieron algunos modelos de predicción. Con bastante posterioridad, en la década de los ochenta empiezan a proliferar trabajos que realizan previsiones sobre la demanda turística española. Sin ánimo exhaustivo, y con la única pretensión de mencionar los trabajos más relevantes, podrían citarse el artículo “Técnicas de previsión y análisis de comportamiento de la demanda turística” realizado por Figuerola Palomo y Esteban Talaya ( 1984 ); el estudio denominado “Modelos de Demanda Turística Española” elaborado en 1986 por el Instituto de Estudios Turísticos; y, más recientemente, el estudio “Modelos de previsión de las series del turismo español y análisis de coyuntura” realizado por la - 26 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Secretaría General de Turismo en 1990 y el artículo titulado “Previsiones turísticas: metodología y resultados” realizado por la doctora Agueda Esteban Talaya ( 1993 ) en el que se presenta una metodología científica para la elaboración de modelos de predicción de la demanda turística. En síntesis, los estudios de predicción de la demanda turística española se han prodigado de forma sustancial a partir de la segunda mitad de los ochenta, siendo Esteban Talaya uno de los investigadores que ha abordado con mayor profundidad esta temática. En cualquier caso, las técnicas que se presentan en este trabajo guardan poca relación con las empleadas para predecir la demanda turística, razón por la cual los comentarios anteriores se han limitado a referenciar brevemente algunos de los trabajos de investigación sobre predicción de la demanda turística en España en los últimos años, pretendiendo ser la anterior enumeración un mero botón de muestra de lo investigado sobre el tema. b) Estudios sobre el grado de satisfacción del turista: Dentro de este bloque temático se han realizado algunos estudios a nivel nacional, principalmente en la década de los ochenta. De ellos citaremos brevemente las características esenciales de los que mayor trascendencia han tenido. Así, puede citarse el “Estudio sobre el nivel de satisfacción y deseos del turismo extranjero respecto al - 27 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ producto español” iniciado por la Dirección General de Política Turística del Ministerio de Economía y Hacienda en 1984 y desarrollado durante varios años sucesivos. Refiriendo los comentarios al estudio realizado en 1986, cabe comentar que los objetivos principales de estos estudios han sido, fundamentalmente, los tres siguientes: a) Medir el nivel global de satisfacción de los turistas extranjeros. b) Conocer la adecuación entre las prestaciones recibidas y las expectativas previas de dichos turistas. c) Conseguir los elementos necesarios para rediseñar el producto turístico español. Sobre una muestra operativa de 5.407 encuestas, el plan de muestreo se diseñó en función de la estacionalidad, de la zona turística, de los municipios turísticos de la zona, de la nacionalidad del turista y del tipo de alojamiento empleado. A partir de la información obtenida, se analizan, en primer lugar, los factores que más influyen sobre el turista extranjero para decidir pasar sus vacaciones en España. También se realiza un análisis de los aspectos generales de la oferta turística española que satisfacen más y menos, respectivamente, al turismo extranjero. Finalmente, se realiza un amplio estudio tanto del nivel de satisfacción como del grado de importancia concedida a diversos aspectos relacionados con los servicios de hostelería, de restauración, de la oferta complementaria de la zona y del entorno público. - 28 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Con los mismos objetivos que los apuntados en el estudio de 1986, la Secretaría General de Turismo llevó a cabo en 1990 otro estudio titulado “Estudio sobre el grado de satisfacción de la Demanda Turística Nacional y Extranjera en relación con el Producto Turístico Español”. En este trabajo, a diferencia de años anteriores, se introdujo una muestra de turistas españoles con el fin de analizar el grado de satisfacción alcanzado por los mismos. Otro objetivo adicional de este estudio fue comparar los resultados obtenidos con los correspondientes a la encuesta de 1986 al objeto de conocer las variaciones en el grado de satisfacción de la demanda en función de las diferentes fases de la encuestación, de la nacionalidad de los turistas encuestados, etc. La recogida de datos se llevó a cabo en cuatro fases, obteniéndose una muestra operativa de 7.147 encuestas. Las variables analizadas en el estudio fueron, principalmente, las siguientes: - Edad. - Lugar de residencia. - Visitas anteriores a España ( sólo extranjeros ). - Medio de transporte utilizado. - Factores que influyen en la elección del destino turístico. - Modalidad de organización del viaje. - Opinión respecto a diferentes aspectos del entorno. - Hobby o afición que no pudo desarrollar. - Servicios deficientes en la localidad. - Satisfacción y opinión sobre distintos aspectos del alojamiento. - 29 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Coste global de la estancia. - Grado de satisfacción respecto a sus vacaciones. - Intención de volver a España ( sólo extranjeros ). - Otras ofertas turísticas de España. - Profesión. - Nivel de estudios y de ingresos. - Duración de la estancia. - Composición y tamaño del grupo. - Aspectos a mejorar en el alojamiento. El estudio recoge no sólo los resultados globales del análisis tanto para turistas españoles como para extranjeros, sino que también ofrece resultados desagregados correspondientes a las cuatro fases del estudio y lleva a cabo una segmentación de la encuesta cruzando algunas variables ( edad, nacionalidad, nivel de estudios, etc. ) con el resto de variables de la misma. Además de los dos trabajos monográficos antes citados, en otros estudios sobre la demanda turística española se incluyen apartados relativos al grado de satisfacción. Así, a título ilustrativo, podemos citar el estudio “Movimientos turísticos en fronteras” realizado por la Secretaría General de Turismo entre Junio de 1993 y Junio de 1994. Uno de los objetivos de este trabajo fue conocer el grado de satisfacción del turista extranjero con el viaje realizado a España y, en particular, con los siguientes aspectos: - 30 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Alojamiento. - Comidas. - Ocio y diversión. - Afluencia de gentes. - Transportes y desplazamientos. - Relación precios/servicios. - Condiciones medioambientales. - Seguridad ciudadana. - Atención y trato recibido. Asimismo, en los informes periódicos sobre las “Vacaciones de los españoles”, que viene realizando la Secretaría General de Turismo, se incluyen preguntas relativas al grado de satisfacción del turista español sobre los aspectos anteriormente apuntados y otros relacionados con su período de vacaciones. Obviamente, existen otros muchos trabajos que analizan el grado de satisfacción del turista tanto nacional como extranjero con respecto al producto turístico español, pero se debe tener presente que el objetivo de este epígrafe no es realizar una enumeración exhaustiva de todos los trabajos publicados a nivel nacional sobre esta temática, sino simplemente mencionar los más representativos. - 31 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ c) Estudios sobre el comportamiento de los turistas ante las vacaciones: Este tipo de estudios ha sido, posiblemente, el que con mayor frecuencia ha realizado la Dirección General de Política Turística del Ministerio de Economía y Hacienda. Partiendo del convencimiento de que la definición de una política turística correcta debe basarse en un conocimiento previo de la demanda, esta Dirección General viene desarrollando desde mediados de los ochenta diversos estudios que persiguen como objetivo primordial el conocimiento de la estructura de la demanda turística y la profundización en múltiples aspectos de los viajes realizados por la misma. Sin duda alguna, el estudio emblemático dentro de este tercer bloque es el que, bajo el título genérico de “Vacaciones de los españoles”, ha realizado de forma periódica la Dirección General de Política Turística, siendo los años 1985, 1987, 1990, 1992 y meses posteriores a Marzo de 1993 los períodos de tiempo a los que se refiere el citado estudio. En realidad, las “Vacaciones de los españoles” no es el primer estudio que sobre características, motivaciones y comportamiento de la demanda turística nacional se lleva a cabo en España, ya que los trabajos pioneros sobre esta temática son los estudios relativos al “comportamiento vacacional y turístico de los españoles” correspondientes al verano de 1977, a los meses de Enero a Septiembre de 1979 y al año 1980, con tamaños muestrales de 2.393, 2.487 y 4.968 entrevistas, respectivamente. Junto a estos tres estudios, pueden citarse también como precursores de las “Vacaciones de los españoles” los trabajos sobre “comportamiento vacacional y turístico de los - 32 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ extranjeros” realizados en los períodos de Diciembre de 1980 y Enero de 1981 ( 1.534 entrevistas ) y de Julio y Agosto de 1981 ( 4.645 entrevistas ). Entre los múltiples objetivos del estudio “Las vacaciones de los españoles” cabe destacar los siguientes: - Determinar el porcentaje de la población española que realizó al menos un viaje de vacaciones durante el período analizado. - Conocer la distribución de los destinos vacacionales de los españoles, tanto en el viaje principal como, en su caso, en el viaje secundario de vacaciones. - Estimar el gasto realizado durante el viaje principal y, en su caso, durante el viaje secundario de vacaciones. - Conocer el tipo de alojamiento y el medio de transporte empleado en el viaje principal, en el viaje secundario y en puentes y fines de semana. A efectos operativos, estos estudios han considerado exclusivamente los viajes realizados por motivo de vacaciones, ocio o turismo, clasificándolos en tres grandes grupos: - 33 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Viaje principal: se considera como tal el viaje más largo de los realizados durante el período de análisis con una duración de cuatro o más noches. - Viaje secundario: es el siguiente viaje de mayor duración después del viaje principal de entre todos los efectuados durante el período de análisis con una duración mínima de cuatro noches. - Viaje de fines de semana: es el viaje realizado con una duración inferior a cuatro noches, con independencia de los días de la semana en que se realice. Por otra parte, dado el interés que para esta investigación tienen estos estudios sobre las vacaciones de los españoles, se recoge en el Cuadro 1.1 las características principales de cada uno de ellos. Además de analizar el comportamiento vacacional de los españoles, el estudio correspondiente al año 1992 incluye dos epígrafes relativos a los acontecimientos culturales celebrados en España durante ese año ( Juegos Olímpicos de Barcelona, Exposición Universal de Sevilla y Capitalidad Europea de la Cultura de Madrid ) y a la influencia que las condiciones medioambientales ejercen sobre la actitud de los españoles ante las vacaciones. Respecto a los acontecimientos culturales, el análisis se centró principalmente en la Exposición Universal de Sevilla ( por ser la que mayor número de visitantes extranjeros atrajo ), obteniéndose información sobre el número de visitas realizadas a la citada Exposición, sobre la duración en días de cada visita, sobre el tipo de alojamiento empleado, sobre el gasto medio por persona y visita, etc. - 34 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Cuadro 1.1 Principales características técnicas de los estudios sobre “vacaciones de los españoles” Ambito geográfico Vacaciones de los Municipios españoles en 1985 españoles con más de 5.000 habitantes, excepto Ceuta, Melilla y Canarias Vacaciones de los Municipios españoles en 1987 españoles con más de 10.000 habitantes, excepto Ceuta y Melilla Vacaciones de los Municipios españoles en 1990 españoles con más de 5.000 habitantes, excepto Ceuta y Melilla Ambito poblacional Tipo de muestreo Individuos con edad entre 16 y 65 años Muestreo estratificado por zonas geográficas, tamaño del municipio, edad, nivel económico y sexo del individuo Individuos mayores Muestreo aleatorio por de 15 años puntos de arranque y seguimiento de rutas por el método “random-route” Individuos mayores Muestreo aleatorio de 16 años estratificado con ( 30.884.000 afijación proporcional personas ) a la población existente por Comunidades Autónomas y hábitats de residencia Vacaciones de los Municipios de más Individuos con 16 y Muestreo por conglomerados españoles en 1992 de 5.000 habitantes más años de todo el territorio ( 33.030.347 polietápico con nacional, excepto personas ) estratificación de las Ceuta y Melilla unidades de primera etapa ( municipios ) Vacaciones de los Municipios de todo Individuos de 16 y Muestreo por más años conglomerados españoles en 1993 el territorio nacional, excepto ( 30.577.930 polietápico con (*) Ceuta y Melilla personas: I.N.E. estratificación de las 1991 ) unidades de primera etapa ( secciones censales ) Vacaciones de los Municipios de todo Individuos de 16 y Muestreo por más años conglomerados españoles en 1994 el territorio nacional, excepto ( 30.577.930 polietápico con Ceuta y Melilla personas: I.N.E. estratificación de las 1991 ) unidades de primera etapa ( secciones censales ) Vacaciones de los Municipios de todo Individuos de 15 y Muestreo por más años conglomerados españoles en 1995 el territorio nacional, excepto ( 31.200.000 polietápico con Ceuta y Melilla personas: I.N.E. estratificación de las 1991 ) unidades de primera etapa ( secciones censales ) Muestreo bietápico por Comportamiento Municipios de todo Hogares que son viviendas conglomerados con turístico de los el territorio habituales de submuestreo y españoles: verano nacional, excepto residentes en estratificación de las de 1996. Encuesta Ceuta y Melilla España unidades de primera FAMILITUR etapa ( secciones censales ) (*) Desde Marzo de 1993 este estudio se realiza con periodicidad mensual. - 35 - Tamaño muestral Error muestral máximo 2.000 entrevistas ± 2,2 % a un 95,45 % de confianza 5.140 entrevistas ± 1,4 % a un 95 % de confianza 6.680 entrevistas ± 1,2 % a un 95,5 % de confianza 6.637 entrevistas ± 1,2 % a un 95 % de confianza 24.185 entrevistas ( mínimo 2.000 mensuales ) Para el tamaño muestral mensual, ± 2,2 % a un 95 % de confianza 30.043 entrevistas ( mínimo 2.000 mensuales ) Para el tamaño muestral mensual, ± 2,2 % a un 95 % de confianza 30.790 entrevistas ( mínimo 2.000 mensuales ) Para el tamaño muestral mensual, ± 2,2 % a un 95 % de confianza 3.200 unidades muestrales en cada oleada ( 5 oleadas anuales ) ± 1,73 % a un 95 % de confianza en cada oleada Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ En cuanto a la incidencia de las condiciones medioambientales, el análisis se orientó hacia el estudio de los problemas relacionados con el medio ambiente ( suciedad de las aguas, residuos, basuras y vertederos, etc. ) detectados en el lugar de vacaciones, hacia la influencia de las condiciones medioambientales en la elección del destino vacacional, hacia el grado de aceptación de propuestas para reducir los problemas medioambientales, etc. Finalmente, el estudio de las vacaciones de los españoles que se viene realizando con periodicidad mensual desde Marzo de 1993 introduce un pequeño cambio en el objeto de análisis de las encuestas realizadas, ya que si hasta entonces el estudio se refería exclusivamente a viajes motivados por vacaciones, a partir de la mencionada fecha se amplía el análisis a cualquier viaje de turismo con independencia de su motivación ( laboral, de salud, religiosa, etc. ). Además de los estudios sobre las vacaciones de los españoles, la Dirección General de Política Turística ha llevado a cabo otros estudios dirigidos a obtener un mejor conocimiento de la demanda turística tanto nacional como extranjera. Así, el estudio “Los viajes de los españoles al extranjero en 1987” pretende, entre otros objetivos, estimar el porcentaje de españoles que viajaron al extranjero a lo largo de 1987, conocer los destinos más frecuentes de éstos así como la duración del viaje, el tipo de alojamiento y el medio de transporte empleado, etc. Este estudio se estructuró en dos fases: una primera fase de determinación de la proporción de viajeros entre la población española, sobre una base de 34.000 encuestas; y una segunda fase de - 36 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ descripción de aspectos más relevantes de los viajes al extranjero, a partir de una muestra de 1.600 individuos, seleccionados aleatoriamente de los 2.811 encuestados que viajaron al extranjero durante el año 1987. Otro estudio realizado por la Dirección General de Política Turística a finales de los ochenta para determinar el volumen del gasto turístico de los turistas residentes en España fue el denominado “El gasto en turismo de los españoles”. Este estudio pretendía básicamente estimar el gasto medio por turista y viaje, con desagregación de dicho gasto por capítulos tales como alojamiento, alimentación, transporte y gasolina, compra de bienes y recuerdos, etc. A partir de una muestra formada por 647 entrevistas en hogares, se analizaron las diferencias más significativas en el gasto turístico en función de un conjunto de variables de control, tales como el nivel socio-profesional, el tamaño del hábitat, el destino y duración del viaje, el alojamiento y el medio de transporte utilizado, etc. Más recientemente, la Secretaría General de Turismo ha iniciado una serie de estudios dirigidos a aportar información sobre el comportamiento de los visitantes extranjeros a España. El interés de estos estudios se justifica en el hecho de que el sector turístico español, como cualquier otro sector económico, no es ajeno a los cambios sociales y económicos que se están produciendo, especialmente en los países de la Europa del Este, de forma que dichos cambios pueden afectar tanto a la composición del turismo extranjero que nos visita como a sus características. El estudio se ha dividido en dos segmentos, correspondientes a turistas y a excursionistas. Por lo que respecta al - 37 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ segmento turistas, la información de base se obtuvo a partir de 14.659 encuestas realizadas en 29 puntos fronterizos de ferrocarril, carretera, aeropuertos y puertos, y el análisis se centró en aspectos tales como el motivo del viaje a España, las razones para elegir nuestro país como punto de destino, el tipo de alojamiento principal, el medio de transporte utilizado, la edad del individuo y el tamaño del grupo, la organización del viaje y el grado de cumplimiento de las expectativas creadas. Por su parte, el informe sobre el segmento excursionistas2 se plantea como un análisis complementario al del segmento turistas, ya que en un principio no estaba previsto estudiar el comportamiento de los primeros. Transcurridos algunos meses desde el inicio de la investigación, se consideró que podría aprovecharse la misma para tener un mejor conocimiento de los excursionistas y para determinar el porcentaje de visitantes que se consideraban como tales. De esta forma, además de las preguntas relativas a nacionalidad y a motivaciones del viaje, que ya se venían realizando a los turistas, se incluyeron otras cuestiones adicionales relacionadas con el gasto, el medio de transporte utilizado, el grupo de viaje y la profesión del excursionista. En una línea muy similar, la Secretaría General de Turismo comenzó a realizar en Junio de 1993 un estudio mensual denominado “Movimientos turísticos en fronteras”, cuyo objetivo fue alcanzar un conocimiento más completo tanto de los movimientos turísticos de entrada a España como de los de salida de nuestro país. Más 2 Según la definición dada en este trabajo, se considera excursionista a todo aquel “visitante procedente del extranjero que entra en nuestro país y no pernocta en él”. En consecuencia, excursionista es todo aquel visitante que permanece en territorio español menos de un día. - 38 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ concretamente, para los movimientos de entrada se pretendía fundamentalmente conocer el país de residencia y la condición de excursionista o turista ( y, en este último caso, la estancia prevista y la Comunidad Autónoma y provincia que constituía el destino del viaje ) de las personas que entran en España. Por su parte, los objetivos planteados para los movimientos de salida eran considerablemente más ambiciosos, ya que además de conocer el país de residencia y el motivo principal del viaje de las personas que salen de España, se pretendía con el estudio recabar la siguiente información: a) Para los residentes fuera de España: - Duración de la estancia. - Motivos de elección de España. - Zona principal de estancia. - Tipo de alojamiento y medio de transporte. - Grupo de viaje. - Organización del viaje. - Grado de satisfacción con el viaje. - Gasto del viaje, tanto en España como fuera de ella. b) Para los residentes en España: - Destino del viaje. - Duración prevista de la estancia. - Motivos de elección del país de destino. -Tipo de alojamiento previsto. - 39 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Medio de transporte utilizado. - Grupo de viaje. - Organización del viaje. Puesto que el diseño muestral de este estudio dependió, entre otros factores, de los días de la semana y del tramo horario del día ( 3 tramos de 8 horas cada uno ), el tamaño de la muestra mensual era variable, estableciéndose, no obstante, un número mínimo mensual por cada vía de entrada y por cada vía de salida. A título indicativo, entre Enero y Junio de 1994 se realizaron 16.857 encuestas a la entrada en nuestro país y 18.078 encuestas a la salida, siendo el número estimado de encuestas para un año completo de unas 80.000, aproximadamente. Finalmente, en los últimos años están proliferando las investigaciones relacionadas con el análisis de la demanda de turismo rural en España. Como botón de muestra de estos estudios, podría citarse la tesis doctoral “La Demanda de Turismo Rural en España: especial referencia a la provincia de Málaga”, realizada en 1994 por Rafael Fuentes García. En este trabajo se analizan exhaustivamente las características generales de la demanda turística en espacios rurales españoles. Sobre una base empírica de 1.466 encuestas ( error muestral máximo de ± 2,9 % al 97,5 % de confianza ), se presentan resultados relativos a las cuestiones siguientes: - 40 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Marco general de la práctica de turismo en espacio rural ( lugares visitados, distancia recorrida, medio de transporte empleado, etc. ). - Conocimiento del destino turístico. - Motivaciones para practicar turismo en espacio rural. - Estacionalidad de este tipo de turismo. - Tipo de alojamiento empleado. - Grado de satisfacción del turista rural. - Características socioeconómicas del turista rural ( edad, ingresos mensuales, región de origen, etc. ). En cualquier caso, este estudio no es ni el primero ni el último que aborda el análisis de la demanda de turismo rural en España. De hecho, el doctor Bote Gómez, que pasa por ser uno de los especialistas más reconocidos en el estudio del turismo en el medio rural en España, ha realizado algunos trabajos ciertamente interesantes sobre esta materia. De entre todos ellos podría citarse un estudio sobre la “Importancia de la demanda turística en espacio rural en España”, realizado a partir de una muestra de 1.500 hogares que pasaron sus vacaciones principales en el medio rural en el año 1983 y en el que se pretendía analizar los destinos vacacionales de estos turistas, la duración media de sus vacaciones, el tipo de alojamiento utilizado, el grado de satisfacción logrado, etc. Más recientemente, este mismo autor ha realizado en 1995 un interesantísimo trabajo titulado “La demanda turística española en espacio rural o de interior: situación actual y potencial” en el que la información aportada por un total de 6.836 encuestas sirve de base para extraer conclusiones sobre el perfil, las - 41 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ motivaciones y el comportamiento de la población española demandante de turismo en espacio rural, identificando las diferencias más acusadas entre este tipo de turistas según el período vacacional considerado. En suma, a lo largo de las páginas anteriores se ha realizado un recorrido por las investigaciones sobre demanda turística llevadas a cabo en España durante los últimos años en función de los objetivos de la investigación. Debe aclararse, en cualquier caso, que la anterior enumeración no pretende ser una relación exhaustiva de todos los trabajos realizados en nuestro país sobre este tema, sino que la intención del autor ha sido únicamente poner de manifiesto la existencia de múltiples estudios sobre la demanda turística, de los cuales se han nombrado algunos de los más importantes. Sobre la base de estos estudios se articulará la crítica que realizamos en este trabajo. 1.3. TECNICAS PARA EL ANALISIS DE LA INFORMACION. El procesamiento de la información recabada sobre la demanda turística nacional ha sido abordado mediante el empleo de diferentes técnicas. Además del cálculo de las medidas básicas de estadística descriptiva, se podría agrupar el conjunto de técnicas empleadas para analizar la información obtenida en dos grandes grupos: - Análisis de regresión. - Análisis multivariante. - 42 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ El análisis de regresión es una técnica que se ha utilizado ampliamente para realizar predicciones sobre la demanda turística. Uno de los trabajos que aborda este tipo de técnicas y demuestra su validez para el análisis de la demanda turística es la tesis doctoral “Análisis de la demanda: aplicación a la actividad turística de las técnicas de predicción” de Esteban Talaya ( 1987 ). En este trabajo se abordan detalladamente las principales técnicas de predicción de la demanda, tanto subjetivas como causales y de series temporales, y se demuestra la utilidad de modelos econométricos y del enfoque Box-Jenkins para el análisis de series temporales en la predicción de la demanda turística nacional. En cualquier caso, el primero en demostrar la validez de las técnicas econométricas para el conocimiento de la demanda turística fue Antonio Pulido San Román ( 1966 ) en su obra “Introducción a un análisis econométrico del turismo”, donde, además de proponer modelos para la predicción de la demanda, analiza la distribución del mercado turístico internacional e identifica flujos turísticos entre varios países de origen y países de destino. Otros trabajos posteriores, como los titulados “Modelos de Demanda Turística Española” de 1986 y “Modelos de previsión de las series del turismo español y análisis de coyuntura” de 1990, realizados ambos por la Secretaría General de Turismo, ofrecen un análisis predictivo de las principales series macroeconómicas del turismo español. Finalmente, los trabajos realizados durante los últimos años por Esteban Talaya vienen a confirmar la necesidad de utilizar métodos econométricos para predecir la demanda turística, y a proponer una metodología que facilite la elección de las variables explicativas y de la técnica a emplear para realizar predicciones fiables a medio y largo plazo. Es evidente que los estudios referenciados no son los únicos que hacen uso de técnicas econométricas para el estudio de la - 43 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ demanda turística, pero sí son los que con mayor rigor científico han abordado esta problemática, razón por la cual otros trabajos menos importantes ( aunque no menos válidos ) no han sido comentados. El otro gran grupo de técnicas empleadas para el procesamiento de la información estadística es el análisis multivariante y, más concretamente, el análisis factorial y el análisis cluster. El análisis factorial se utiliza para describir la variación entre un conjunto de variables, en términos de unas pocas variables aleatorias subyacentes e inobservadas llamadas factores. De esta forma, las covarianzas entre las variables observadas serán explicadas por lo que se denominan factores comunes, mientras que lo que no queda explicado por estos factores comunes se asocia a términos de error, que se conocen con el nombre de factores únicos, y de los que se supone que están mútuamente incorrelacionados. A partir de estos conceptos básicos, el análisis factorial asume que la matriz de correlación entre las variables puede dividirse en dos partes: una primera parte generada por los factores comunes, y una segunda parte generada por los errores. El análisis factorial también puede ser considerado como un procedimiento estadístico para agrupar variables en conjuntos, de forma que las variables incluidas en un mismo conjunto están altamente correlacionadas entre sí, mientras que las variables pertenecientes a diferentes conjuntos están relativamente incorrelacionadas. Para más información sobre esta técnica puede consultarse Jobson ( 1992, pp. 388-426 ). - 44 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Por su parte, el análisis cluster es una técnica estadística que combina las observaciones en grupos relativamente homogéneos, denominados clusters. El punto de partida de este análisis es una matriz de proximidad que mide la similitud de los individuos con respecto a las variables consideradas. Los elementos de la matriz de proximidad determinan la medida de proximidad entre diferentes observaciones. Las medidas de proximidad que pueden emplearse son muy diversas: distancia euclídea, distancia de Mahalanobis, métrica Minkowski, etc. En cualquier caso, el análisis cluster hace uso de una metodología exclusivamente exploratoria, en el sentido de que permite clasificar a la población en diferentes segmentos o clusters, pero el resultado obtenido en el análisis ( que dependerá, en gran medida, de la técnica empleada, de las variables consideradas, etc. ) difícilmente puede ser validado. Esta circunstancia representa uno de los mayores inconvenientes de esta técnica estadística. Para un tratamiento más detallado del análisis cluster puede consultarse Jobson ( 1992, pp. 483-568 ). Tanto el análisis factorial como el análisis cluster se han utilizado en la investigación turística, especialmente en la elaboración de tipologías de la demanda turística. Algunos de los trabajos más sobresalientes en este sentido se citan a continuación. En el estudio de “Las vacaciones de los españoles en 1992”, la empresa Cuanter no se limita a exponer las conclusiones obtenidas a partir de un estudio descriptivo básico, sino que además lleva a cabo una clasificación de la población turística en función de la actitud de los españoles hacia los viajes y de sus opiniones - 45 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ sobre las vacaciones ( pp. 106 y ss. ). Con respecto a la actitud de la demanda turística hacia los viajes, la aplicación de la técnica cluster permitió clasificar a los turistas en seis grupos homogéneos y, a partir de esta tipología, identificar las características sociodemográficas ( edad, nivel de estudios, ocupación, status socieconómico, etc. ) más significativas de cada uno de los seis grupos obtenidos. Por su parte, atendiendo a sus opiniones sobre las vacaciones, la utilización del análisis de tipologías permitió agrupar a los individuos en los siguientes cinco grandes grupos: turistas de segunda residencia, turistas sociales, turistas recreativos, turistas con inquietudes viajeras y turistas por puro entretenimiento. Estos cinco grupos también fueron caracterizados mediante las variables sociodemográficas más significativas. Otro trabajo que utilizó técnicas de análisis multivariante para analizar la demanda turística fue el denominado “Análisis de la demanda actual y potencial del Camino de Santiago” realizado en 1993 por Consultur para la Secretaría General de Turismo. En el capítulo 10 de este estudio se emplean varias técnicas de análisis multivariante al objeto de agrupar a la población en segmentos homogéneos. Para ello, las variables que se tuvieron en cuenta en un principio para realizar la clasificación fueron un total de once atributos relacionados con el Camino de Santiago y la valoración de nueve aspectos relacionados también con dicho Camino. Puesto que el número de variables empleadas era bastante elevado ( en total, veinte variables ), con carácter previo a la realización del análisis cluster se efectuó un análisis factorial al objeto de simplificar los resultados del cluster, pasándose de esta forma de las veinte variables iniciales a trece variables. A partir de este conjunto de variables, se confeccionaron un - 46 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ total de diez clusters, cuyas características tipológicas se recogen en las páginas 186 a 193 del mencionado estudio. Por último, el trabajo realiza un análisis de segmentación en el que se seleccionan las variables independientes que mejor explican el comportamiento de la variable dependiente “Intención de realizar el Camino de Santiago”. Las variables independientes seleccionadas fueron la ciudad de residencia, el hábito viajero, la realización del Camino, la clase social y el cluster. A partir de estas cinco variables, se identificaron grupos de personas con un comportamiento homogéneo respecto a la mayor o menor intención de realizar el Camino en un futuro. Concretamente, la variable principal en la primera iteración fue “Haber realizado el Camino”, a partir de la cual se definieron dos grandes grupos. A continuación, mediante iteraciones sucesivas se fueron definiendo grupos homogéneos, hasta obtener un total de veintisiete grupos. Según se recoge en el informe elaborado por Consultur ( pag. 207 ), la principal conclusión del análisis es que las variables más válidas para explicar la intención de realizar el Camino son: haber realizado el Camino, pertenecer a los clusters 8, 6, 1 y 4 y residir en el centro de España, mientras que las demás variables no se consideraron suficientemente explicativas. La referencia más reciente sobre el empleo de técnicas de análisis multivariante para el estudio de la demanda turística es el trabajo realizado por Bote Gómez en 1995 y titulado “La demanda turística española en espacio rural o de interior: situación actual y potencial”. En este trabajo se utilizó, en primer lugar, el método de las tabulaciones cruzadas para segmentar la demanda turística española en espacio rural. Pero dadas las limitaciones de este método, la segmentación a priori se complementó - 47 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ con técnicas de tipología y, más concretamente, con el análisis cluster. Para ello, se empleó el procedimiento de k-means, en el que se parte de un número predeterminado de grupos, para crear posteriormente, en pasos sucesivos, una nueva distribución de grupos hasta alcanzar la solución óptima. Como paso previo a la determinación de la tipología, se empleó un análisis de correspondencia múltiple para reducir el elevado número de variables iniciales a aquellas variables independientes verdaderamente significativas, es decir, a aquellas que debían ser consideradas en el análisis cluster. Finalmente, se aplicó la técnica del análisis cluster con un total de quince variables independientes, lo que arrojó como resultado la clasificación del mercado turístico rural español en tres clusters o segmentos diferenciados. Evidentemente, el análisis de regresión y el análisis multivariante no han sido las únicas técnicas que se han utilizado para el análisis de la demanda turística. De hecho, Esteban Talaya ( 1994 ) cita, en su artículo sobre la medición del turismo metropolitano, múltiples técnicas para el análisis de la información obtenida de los mercados turísticos. Así, esta autora clasifica este conjunto de técnicas de análisis en cuatro grandes grupos3: a) Estadísticas y experimentación: - Medidas de posición, dispersión, concentración y distribución. - Relaciones entre variables, regresión y correlación. 3 Si bien las técnicas citadas en dicho artículo se plantean para el análisis del turismo metropolitano, Esteban Talaya aclara, y en ello está plenamente de acuerdo el autor de esta investigación, que las mismas se pueden generalizar al análisis de la demanda turística general, sea cual sea su naturaleza, motivación o localización geográfica. - 48 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Experimentación: niveles comerciales, unidades experimentales. - Análisis de la varianza. b) Análisis multivariante: - Métodos factoriales: componentes principales y análisis de correspondencia. - Análisis discriminante y análisis cluster. - Escalas multidimensionales métricas y no métricas. c) Previsión de la demanda4: - Técnicas subjetivas: encuestas, consenso de grupo, impactos cruzados, análisis morfológico y método Delphi. - Técnicas causales: modelos de regresión, modelo Input-Output, Dinámica de Sistemas y modelos econométricos. - Técnicas de series temporales: alisado de series, método X-11, modelos probabilísticos, análisis espectral y enfoque Box-Jenkins. d) Segmentación de mercados: - Segmentación a priori: Belson, chi-cuadrado, análisis de la varianza, análisis discriminante. - Segmentaciones óptimas: modelo de Canguilhem, modelos AID y MAID, análisis cluster, análisis factorial. 4 El lector interesado en estas técnicas puede consultar la tesis “Análisis de la demanda: aplicación a la actividad turística de las técnicas de previsión” ( Esteban Talaya, 1987 ), en la que, de una forma mucho más completa y detallada, se abordan las mismas. - 49 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Como fácilmente puede deducirse de la anterior clasificación, el análisis econométrico y el análisis multivariante no son los únicos métodos válidos para procesar la información relativa a la demanda turística, si bien, por la importancia y por el volumen de los trabajos científicos realizados sobre demanda turística nacional a lo largo de los últimos años, aquellos métodos han sido los más utilizados habitualmente, sin perjuicio del rigor y de la validez de las demás técnicas mencionadas. 1.4. ANÁLISIS ESTADÍSTICO DE DATOS CATEGÓRICOS Y DEMANDA TURÍSTICA. Las técnicas econométricas comentadas en el punto anterior son de enorme utilidad para realizar predicciones de la demanda turística cuando tanto las variables a predecir ( número de visitantes, pernoctaciones en establecimientos hoteleros, ingresos por turismo, etc. ) como las variables explicativas del modelo ( Producto Interior Bruto, Indice de Precios al Consumo, tipos de cambio, etc. ) son de naturaleza cuantitativa. Sin embargo, estas técnicas no son aplicables al análisis de la demanda turística nacional cuando la información disponible sobre la misma es de naturaleza cualitativa, como sucede con la gran mayoría de los estudios sobre comportamiento de la demanda turística realizados en España en los últimos años, en los que la información solicitada a los turistas se recoge en un cuestionario estructurado en varias preguntas cuyas respuestas son, por regla general, de carácter cerrado, es decir, con respuestas categorizadas. - 50 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ La anterior circunstancia condiciona en gran medida el tipo de técnica a emplear para el análisis de la demanda. De hecho, mientras los estudios de previsión han proliferado en los últimos años gracias a las aportaciones, entre otras, de Esteban Talaya y se ha demostrado su enorme potencialidad, las técnicas estadísticas para el análisis de encuestas han sido escasamente empleadas para el estudio de la demanda turística española. En concreto, la práctica totalidad de los trabajos mencionados en los apartados b) y c) del epígrafe 1.3, así como otros muchos estudios referenciados en la bibliografía de esta tesis ( y consultados, al igual que los anteriores, en el Centro de Documentación Turística de España ), se limitan a reflejar en forma de tablas ( para valores absolutos, porcentajes horizontales y porcentajes verticales ) o a representar gráficamente los resultados que arroja la encuesta para, finalmente, extraer conclusiones tras un procesamiento de la información mediante herramientas analíticas muy básicas. En otros muchos casos, el análisis ha consistido en cruzar las variables de interés con otras que permitan caracterizar aquellas de una forma aproximada. A título ilustrativo, en el estudio “Las vacaciones de los españoles en 1994” se realiza una completa caracterización de los viajes realizados por los españoles según múltiples variables. Así, por ejemplo, para caracterizar los viajes según el destino de los mismos se cruza esta última variable ( que es categórica, con dos categorías claramente diferenciadas: España, extranjero ) con las variables duración media, motivo principal, transporte, alojamiento, organización y planificación, compañía, número de acompañantes, gasto total, gasto medio por persona, satisfacción con el viaje, edad y status socioeconómico. De igual - 51 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ modo, la caracterización de los viajes según su duración se realiza cruzando la variable duración media ( con las categorías “cuatro y más noches” y “menos de cuatro noches” ) con las variables antes mencionadas. De forma similar, se logra también una caracterización de los viajes según motivación, según el tipo de alojamiento, según las características sociodemográficas de los individuos, etc. Si se tiene presente que la mayor parte de las variables utilizadas en estas caracterizaciones son variables categóricas ( a excepción del número de acompañantes, del gasto total y del gasto medio por persona; variables que, a pesar de todo, siempre serían susceptibles de discretización o categorización ), se coincidirá en la apreciación de que la citada caracterización de los viajes según una serie de variables no es más que el resultado de la interpretación descriptiva de varias tablas de contingencia bidimensionales. Así, por ejemplo, al cruzar la variable destino turístico ( España, extranjero ) con la variable motivo principal ( visita a familiares y amigos, trabajo, ocio, otros motivos ) se obtiene una tabla de contingencia bidimensional de dimensión 2x4, de forma que las frecuencias observadas de dicha tabla pondrán de manifiesto, entre otras cosas, si las personas que viajan al extranjero lo hacen más para visitar a familiares o amigos que por trabajo, o si los turistas que pasan sus vacaciones en España viajan más por motivos de ocio que para visitar a familiares o amigos. De todo lo anterior se desprende que las múltiples tablas de contingencia bidimensionales resultantes de cruzar diferentes variables de la encuesta permiten elaborar algunas conclusiones a partir de los porcentajes horizontales o verticales - 52 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ calculados en dichas tablas. Sin embargo, se podrían plantear, entre otras, las siguientes cuestiones al respecto: - ¿ Son las variables categóricas incluidas en esas tablas estadísticamente independientes o, por el contrario, las categorías de una variable condicionan la distribución de las categorías de la otra variable ?. - ¿ Cómo podría analizarse simultáneamente el grado de asociación entre un conjunto de más de dos variables categóricas, por ejemplo, destino, motivo principal, alojamiento y transporte ?. En otros términos, ¿ cómo deben analizarse las relaciones de dependencia en una tabla de contingencia de dimensión IxJxKxL ?. - ¿ Qué probabilidad existe de que un turista se sitúe en una categoría determinada de una variable, sabiendo que se encuentra en tres categorías concretas de otras tantas variables ?. Por ejemplo, ¿ cuál sería la probabilidad de que un turista, que viaja por motivos de trabajo, que se aloja en establecimientos hoteleros y que utiliza un medio de transporte colectivo, viaje al extranjero ?. Estas y otras muchas preguntas pueden ser abordadas mediante determinadas técnicas estadísticas que han experimentado un notable desarrollo a partir de mediados de los años setenta en Estados Unidos y en el Norte de Europa. Así, técnicas como la modelización logarítmico-lineal y el modelo logit para variables categóricas han sido ampliamente utilizadas en campos como la psicología, la medicina o la biología, donde - 53 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ han demostrado sus grandes potencialidades para el análisis multivariante de datos. Sin embargo, con una única excepción5, las citadas técnicas no han sido trasladadas aún al ámbito de la investigación de la demanda turística. Uno de los objetivos del presente trabajo es, precisamente, demostrar la utilidad de dichas técnicas en este campo. En cualquier caso, es preciso aclarar que el autor de esta tesis no está sosteniendo con las afirmaciones anteriores la idea de que el análisis realizado en los estudios de demanda turística en España sea de mala calidad. Más bien al contrario, el coste temporal y económico de obtención de la información6 y la elaboración de datos básicos que hagan posible una primera aproximación al problema exige un esfuerzo, que es alabable per se. Así pues, lo que en realidad pretende plasmarse en estas líneas es que los estudios sobre demanda turística en España hacen uso de la información suministrada por las encuestas a un nivel de aprovechamiento muy reducido. De hecho, el enorme caudal de información que aporta un proceso de encuestación permite “infinitas” posibilidades de análisis que van más allá del mero estudio descriptivo de la 5 De todos los trabajos consultados por el autor de esta tesis, la única referencia sobre el uso de estas técnicas que se ha encontrado es el análisis estadístico realizado por Cuanter en “Las vacaciones de los españoles en 1992”, donde se hace uso de modelos log-lineales para conseguir los objetivos siguientes: - Obtener las relaciones existentes entre las características sociodemográficas del turista y el acto de viajar. - Identificar las interrelaciones entre las características del viaje principal, la realización de viajes secundarios y las características sociodemográficas del turista. - Interrelacionar las características sociodemográficas, las características del viaje principal y los grupos obtenidos en la aplicación de un análisis de tipologías. Partiendo de nueve frases representativas de la actitud del turista ante sus vacaciones, se identificaron en este trabajo las variables sociodemográficas que introducen diferencias significativas en la opinión del turista ante las vacaciones. Para más información sobre las conclusiones de este trabajo, puede consultarse el informe “Las vacaciones de los españoles en 1992 “ ( pp. 103-106 ). 6 No debe olvidarse que la elaboración de información de base para posteriores análisis científicos representa uno de los problemas más importantes de la investigación moderna. - 54 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ información. En suma, las técnicas estadísticas que se presentan en este trabajo pretenden simplemente erigirse en herramientas al servicio de la investigación de la demanda de turismo en España, que permitan “exprimir” y emplear de forma más eficiente la costosa información contenida en las encuestas. En otro orden de cosas, el análisis cluster se ha erigido en una de las herramientas estadísticas más útiles para segmentar el mercado turístico, tal y como se ha comentado con detalle en el epígrafe anterior. En relación a la segmentación de mercados, y sin entrar en el concepto y en los requisitos de la segmentación, Santesmases ( 1991, pag. 175 ) señala que los criterios de segmentación de mercados de consumo pueden clasificarse en generales o específicos, siendo los primeros los que son independientes del producto o del proceso de compra, y los segundos los que están relacionados con el producto o con el proceso de compra. Tanto los criterios generales como los específicos pueden, a su vez, ser objetivos ( los que están relacionados con factores observables y de fácil medición ) o subjetivos ( los relacionados con aspectos internos de los individuos y, por tanto, más difícilmente medibles ). De la combinación de las dos clasificaciones anteriores se obtienen cuatro grandes grupos de criterios de segmentación, de los cuales nos interesa destacar los criterios generales subjetivos y, fundamentalmente, los criterios específicos subjetivos. Entre los primeros se encuentran los criterios de personalidad ( liderazgo, autoridad, autonomía ) y los criterios de estilo de vida ( actividades, opiniones, centros de interés, etc. ), mientras que entre los segundos cabe mencionar los criterios relacionados con la ventaja o beneficio buscado, los criterios de actitudes, los de percepciones y los de preferencias. - 55 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ Por otra parte, y siguiendo la adaptación realizada por Esteban Talaya ( 1996a, pag. 292 ) de la clasificación recogida en Santesmases ( 1992, pag. 184 ), los métodos de segmentación pueden clasificarse en métodos a priori ( cuando el procedimiento empleado parte de un número de grupos previamente establecido ) y en métodos óptimos ( cuando el procedimiento empleado no parte de grupos preestablecidos, sino que trata de determinar el número óptimo de grupos en que debe segmentarse el mercado ). Según que las técnicas empleadas pretendan explicar uno o más comportamientos en función de las características de cada grupo ( o segmento ) o, por el contrario, se limiten exclusivamente a detectar la existencia de grupos ( o tipos ) homogéneos entre sí, pero sin explicar el comportamiento de los tipos identificados, la literatura distingue entre segmentación propiamente dicha y tipología, respectivamente. A partir de esta doble distinción entre las técnicas de segmentación, se puede establecer la clasificación que recoge el Cuadro 1.2, que puede encontrarse en cualquier manual de marketing. Para una descripción más detallada de las técnicas recogidas en el mencionado cuadro pueden consultarse Santesmases ( 1992, pp. 184-187 ) o Esteban Talaya ( 1996a, pp. 292-299 ). Pues bien, el modelo de Análisis de Clases Latentes ( tanto el general como los casos especiales derivados del mismo ) que se presenta en este trabajo se propone como una técnica de segmentación ( propiamente dicha ) óptima que utiliza criterios subjetivos, tanto generales como específicos, para identificar diferentes segmentos. Esta técnica es muy válida para definir segmentos de población homogéneos entre sí sin - 56 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ considerar previamente un determinado número de segmentos, por lo que habría que encuadrarla en el grupo de técnicas óptimas. Cuadro 1.2 Clasificación de las técnicas de segmentación Diseño Segmentación A priori - Método Belson - Método χ 2 - Método Morgan-Sonsquit - Tabulaciones cruzadas - Análisis de la Varianza - Análisis Discriminante Optimización - Automatic Interaction Detector ( AID ) - Multivariable Automatic Interaction Detector ( MAID ) - Análisis Cluster - Análisis Factorial - Análisis multidimensional Tipología Fuente: Esteban Talaya ( 1996a, pag. 292 ). La estimación de las probabilidades condicionadas correspondientes a cada segmento permitirá caracterizar el comportamiento de cada uno de ellos, razón por la que el modelo ACL debe considerarse como un método de segmentación propiamente dicho. Por último, se comentó anteriormente que los criterios subjetivos de segmentación no pueden ser, por lo general, cuantificados directamente debido a que están relacionados con individuos. Esta dificultad ( y, en algunos casos, imposibilidad ) de medición explica, en parte, el hecho de que estos criterios sean menos utilizados para segmentar que los criterios objetivos, a pesar de que aquellos podrían identificar segmentos con diferencias significativas entre ellos con mayor precisión que éstos últimos. En relación a este inconveniente, el modelo ACL permite emplear estos - 57 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ criterios subjetivos para realizar segmentaciones, ya que la hipótesis de partida de este modelo es que en el ámbito de la investigación social existen multitud de variables que no pueden observarse directamente, sino únicamente a través de ciertas manifestaciones de las mismas, motivo por el que se les conoce con el nombre de variables latentes. De esta forma, si consideramos que las actitudes, las percepciones, las preferencias, etc., de los consumidores ( en este caso, de los turistas ) son variables latentes, medibles únicamente a través de sus múltiples manifestaciones, el modelo ACL podría ser considerado como una técnica de segmentación óptima basada en criterios subjetivos con una tremenda potencialidad en el ámbito de la investigación de la demanda turística española, tal y como pretendemos demostrar en este trabajo. Para finalizar, un sencillo ejemplo permitirá apreciar con más facilidad la esencia del modelo ACL cuya metodología será ampliamente tratada en el Capítulo Quinto de este trabajo. A partir de los datos de la Encuesta Social General de 1982 realizada en Estados Unidos, McCutcheon ( 1987 ) se plantea la segmentación del mercado, empleando como criterio la percepción del individuo sobre las entrevistas. Partiendo del hecho de que esta percepción no puede observarse de forma directa, sino que deben emplearse otras medidas o variables observadas, utilizó los siguientes cuatro indicadores: - Propósito: Consideración de las entrevistas como un método útil o como una pérdida de tiempo ( tres categorías ). - 58 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ - Precisión: Opinión sobre el grado de confianza que inspiran los resultados de las encuestas ( dos categorías ). - Cooperación: Conocimiento de la actitud amable u hostil del entrevistado ( tres categorías ). - Entendimiento: Conocimiento, por parte del entrevistado, del grado de entendimiento de las preguntas de la encuesta ( dos categorías ). Estos cuatro indicadores forman una tabla de contingencia de dimensión 3x2x3x2, para la que la aplicación del modelo ACL general arrojó la segmentación del mercado en los tres grupos siguientes: a) Individuos ideales: la mayoría considera muy útiles las encuestas, creen que en prácticamente todos los casos los resultados de las mismas son fiables, prácticamente todos ellos manifiestan una actitud amable e interesada ante el entrevistador y tienen un entendimiento extraordinario de las preguntas de la encuesta. b) Individuos partidarios: poseen un comportamiento similar a los individuos ideales con respecto a los indicadores “propósito” y “precisión”. En su mayoría, se mostraron amables durante la entrevista pero, a diferencia de los escépticos, tienen un pobre entendimiento de las preguntas de la encuesta. - 59 - Capítulo Primero: La investigación de la demanda turística en España ____________________________________________________________________________________ c) Individuos escépticos: por lo general, consideran que las encuestas son una pérdida de tiempo y de dinero. Piensan que en muy pocas ocasiones se puede confiar en sus resultados. Un porcentaje significativo de ellos se mostró apático y hostil durante la entrevista, a pesar de que la mayoría de los individuos de este segmento entienden bien las preguntas de la encuesta. Tras los comentarios generales realizados en este primer capítulo, emplazamos al lector a los capítulos siguientes, en los que se tratarán con detalle las técnicas estadísticas propuestas para el análisis de la demanda turística ( a saber, modelo loglineal, modelo logit para variables categóricas y modelo ACL ) y se intentará poner de manifiesto, con la ayuda de una encuesta del Centro de Investigaciones Sociológicas, sus grandes potencialidades. - 60 - CA PÍ T U L O S E G U N D O FUNDAMENTOS PARA EL ANÁLISIS DE TABLAS DE CONTINGENCIA Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ 2.1. INTRODUCCIÓN. El análisis de tablas de contingencia gravita en torno a las nociones de independencia y de independencia condicionada de variables aleatorias. De hecho, cuando se estudia la asociación existente entre variables, el proceso analítico se inicia con la verificación de la independencia entre las mismas, continúa con la identificación de otras variables que puedan condicionar esa independencia y finaliza con la cuantificación de la interrelación, si ésta existe, entre las variables objeto de análisis. Una de las formas de verificar la existencia de independencia o de cuantificar la intensidad de la asociación entre dos variables es mediante el cálculo de un coeficiente ampliamente utilizado en el análisis de tablas de contingencia. Este coeficiente recibe el nombre de odds ratio ( o cociente de ventajas ). Por su relación con las técnicas estadísticas que serán abordadas en capítulos posteriores, la distribución de Bernoulli multidimensional ( obtenida al estudiar conjuntamente dos o más variables aleatorias de Bernoulli ) y, más concretamente, la expansión log-lineal de su función de probabilidad conjunta es otra noción fundamental para el análisis de tablas de contingencia. La importancia de dicha expansión reside en el hecho de que algunos de los términos obtenidos en la misma permitirán contrastar la independencia entre las variables analizadas. - 63 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Las nociones de independencia y de independencia condicionada tienen su reflejo en la llamada teoría de grafos, de forma que la independencia, la independencia condicionada o la asociación entre dos o más variables pueden representarse en un gráfico que esquematiza las relaciones existentes en un vector aleatorio dado. En suma, estas nociones, que son bastante elementales y ampliamente utilizadas, constituyen el punto de partida para el análisis estadístico de tablas de contingencia. En consecuencia, dedicaremos el presente capítulo a introducir estos fundamentos, los cuales nos van a facilitar con posterioridad construir la teoría estadística sobre tablas de contingencia que abordamos en este trabajo. 2.2. INDEPENDENCIA DE SUCESOS E INDEPENDENCIA DE VECTORES ALEATORIOS. 2.2.1. Independencia de sucesos. Sea ( Ω , ξ , P ) un espacio probalístico; sean A y B dos sucesos definidos sobre el espacio muestral Ω ; y sea P una función que asigna una probabilidad a cada suceso del espacio muestral. Definición 2.2.1.1. Los sucesos A y B son independientes si y sólo si P( A ∩ B) = P( A) × P( B) y se representa por A ⊗ B . - 64 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ La relación de independencia entre sucesos no es reflexiva, porque A no es independiente de A, ni transitiva, porque A ⊗ B y B ⊗ C no implica que A ⊗ C . Por otra parte, la relación es simétrica ya que se verifica que A ⊗ B implica que B ⊗ A . Además, la independencia entre los sucesos A y B también implica que A ⊗ B , donde B es el suceso complementario de B, verificándose igualmente que la independencia de los sucesos A y B es equivalente a la independencia de los sucesos A y B. Considerando que la probabilidad condicionada de A dado B viene dada por P( A B) = P( A ∩ B) P( B) y se define sólo si P( B) > 0 , una formulación equivalente del concepto de independencia de sucesos es la siguiente: Definición 2.2.1.2. Dos sucesos, A y B, serán independientes ( A ⊗ B ) si y sólo si P( A B ) = P( A) . En conexión con la definición anterior y considerando el suceso complementario de B, también es posible afirmar que A ⊗ B si y sólo si P( A B) = P( A B ) . Definición 2.2.1.3. Tres sucesos A, B y C son mútuamente independientes si y sólo si cada par de sucesos son independientes y además se verifica que P ( A ∩ B ∩ C ) = P ( A) × P ( B ) × P ( C ) . - 65 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Sin embargo, aunque todos los pares de sucesos sean independientes, podría ocurrir que los 3 sucesos no sean mútuamente independientes, es decir, las relaciones A ⊗ B y A ⊗ C no implican que A ⊗ B ∩ C . Cuando deseemos indicar que A es independiente tanto de B como de C, utilizaremos la expresión A ⊗ [ B, C] la cual significa que A es independiente de cualquier suceso de la partición del espacio muestral generada por B y C. En consecuencia: A ⊗ [ B, C] ⇔ A ⊗ B ∩ C, A ⊗ B∩C, A ⊗ B ∩ C, De igual forma, se puede demostrar que A ⊗ B, A ⊗ C, A⊗ B ∩C A ⊗ B ∩ C implican en conjunto que A ⊗ [ B, C] . Una forma más provechosa de generalizar la relación entre dos sucesos a la interrelación entre un conjunto de sucesos es la que viene determinada por la independencia condicionada. Existe una definición “débil” y una definición “fuerte” de independencia condicionada. Definición 2.2.1.4. Definición débil de independencia condicionada. Los sucesos A y B son condicionalmente independientes dado el suceso C si y sólo si P( A ∩ B C ) = P( A C ) × P ( B C ) . Esta relación se representa como A ⊗ B C , y en la misma se supondrá siempre que P( C ) > 0 . - 66 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ En este caso, existe una relación simétrica entre los sucesos A y B, ya que A ⊗ B C implica que B ⊗ A C y que A ⊗ B C . Sin embargo, no implica ni es implicada por A ⊗ B C . En consecuencia, la expresión A ⊗ B C significa que los sucesos A y B son independientes si ocurre el suceso C y que no se puede decir nada sobre la relación entre A y B si el suceso C no ocurre. Definición 2.2.1.5. Definición fuerte de independencia condicionada. Dados los sucesos A, B, C y D, existirá independencia condicionada de los sucesos A y B si A ⊗ B [C , D] , que significa que los sucesos A y B son independientes dado cualquier suceso del espacio muestral generado por los sucesos C ∩ D , C ∩ D , C ∩ D y C∩D. Expresado en otros términos, esta definición fuerte implica que: A ⊗ B [C , D] ⇔ A ⊗ B C ∩ D, A ⊗ B C ∩ D, A ⊗ B C ∩ D, A⊗ B C ∩D Como es obvio, esta definición se puede generalizar a una partición generada por un número arbitrario de sucesos. Como consecuencia de lo anterior, obsérvese que A ⊗ B [C] es una afirmación más fuerte que A ⊗ B C , y que A ⊗ B [C , D] no implica que A ⊗ B C ni que A ⊗ B C ∪ D. - 67 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Proposición 2.2.1.1. Independencia por bloques de sucesos. Si P es una función de probabilidad positiva en la partición generada por los sucesos A, B y C, entonces las afirmaciones (1) A ⊗ [ B, C] y (2) A ⊗ [ B] [C] , A ⊗ [C ] [ B] son equivalentes ( para demostración, véase Whittaker, 1990, pag. 29 ). 2.2.2. Odds y odds ratio. Las relaciones entre dos sucesos pueden analizarse también a través de la noción de odds ( ventaja ) y de odds ratio ( cociente de ventajas, también llamado ratio de producto cruzado ). Definición 2.2.2.1. Si A es un suceso con probabilidad P( A) , su odds se define como el cociente P( A) P( A ) . El odds de un suceso A permite saber si dicho suceso es más probable que su contrario A , o si éste último es más probable que aquel. Como fácilmente puede deducirse, el odds del suceso A sólo será igual a 1 cuando los sucesos A y A sean equiprobables. - 68 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Definición 2.2.2.2. El odds condicionado del suceso A dado el suceso B se define como: odds ( A B) = P( A B ) P( A B) Definición 2.2.2.3. El odds ratio, o ratio de producto cruzado, entre los sucesos A y B se define de la siguiente forma: rpc ( A, B) = P( A ∩ B) × P( A ∩ B ) P( A ∩ B) × P( A ∩ B ) y representa una de los múltiples medidas de asociación entre los sucesos A y B. El ratio de producto cruzado es igual a 1 si y sólo si los sucesos A y B son independientes. Este coeficiente puede calcularse también a partir de las probabilidades condicionadas de A y de A dados B y B de la siguiente forma: rpc (A,B) = P( A B) × P( A B ) P( A B) × P( A B ) Además, el ratio de producto cruzado también compara el odds condicionado del suceso A dado B con el odds condicionado del suceso A dado B , ya que se verifica que: - 69 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ rpc ( A, B) = odds ( A B) odds ( A B ) 2.2.3. Independencia de vectores aleatorios. Definición 2.2.3.1. Los vectores aleatorios X e Y son independientes si y sólo si la función de probabilidad conjunta f XY ( x , y ) verifica que f XY ( x , y ) = f X ( x ) × f Y ( y ) para todos los valores x e y de las variables X e Y. Esta relación se representa por X ⊗Y . Por tanto, X e Y son independientes si y sólo si la función de probabilidad conjunta es igual al producto de las funciones de probabilidad marginales. La relación de independencia entre dos variables es simétrica. Al igual que ocurría con sucesos, también puede enunciarse la noción de independencia entre variables como sigue: X ⊗Y ⇔ fX Y (x, y) = f X ( x ) para todo x es decir, que X ⊗ Y si y sólo si la función de probabilidad condicionada y la función de probabilidad marginal coinciden. - 70 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Proposición 2.2.3.1. Criterio de factorización para vectores aleatorios independientes. Los vectores aleatorios X e Y son independientes si y sólo si existen dos funciones g y h tales que: f XY ( x , y ) = g( x ) × h( y ) para todo x e y Proposición 2.2.3.2. Reducción: la independencia conjunta implica la independencia marginal. Si (X,Y,Z) es un vector aleatorio, entonces X ⊗ (Y , Z ) implica que X ⊗ Y y que X ⊗ Z . Definición 2.2.3.2. Los vectores aleatorios Y y Z son condicionalmente independientes dado X si y sólo si f YZ X ( y , z; x ) = fY X ( y; x ) × fZ X ( z; x ) para todos los valores de Y y de Z y para todos aquellos valores de X que verifican f X ( x ) > 0 . Esta relación se representa como Y ⊗ Z X . La anterior definición es la equivalente a la definición fuerte de independencia condicionada de sucesos, A ⊗ B [C] , y no a la definición débil A ⊗ B C . Además, X ⊗ Y (Z ,W ) denota que X e Y son condicionalmente independientes dado el vector aleatorio (Z,W). - 71 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Las otras dos formulaciones equivalentes de la anterior definición serían: fY XZ ( y; x , z ) = f XYZ ( x , y , z ) = fY X ( y; x ) y f XY ( x , y ) × f XZ ( x , z) f X (x) La primera expresión representa el hecho de que la independencia condicionada de Y dado Z significa que la variable Z puede ser descartada del vector que condiciona. La segunda expresión significa que la independencia condicionada puede expresarse enteramente en términos de funciones de probabilidad marginales. Proposición 2.2.3.3. Criterio de factorización para la independencia condicionada. Los vectores aleatorios Y y Z son condicionalmente independientes dado X ( Y ⊗ Z X ) si y sólo si existen unas funciones g y h tales que f XYZ ( x , y , z ) = g( x , y ) × h( x , z ) para todo y y z y para todo x con f X ( x ) > 0 . Proposición 2.2.3.4. Criterio de reducción. Si (X,Y,Z1,Z2) es un vector aleatorio, entonces Y ⊗ (Z1 , Z2 ) X implica que Y ⊗ Z1 X . - 72 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Proposición 2.2.3.5. Criterio de independencia por bloques. Si (X,Y,Z1,Z2) es un vector aleatorio y f es una función positiva, entonces las siguientes afirmaciones son equivalentes: (a) Y ⊗ (Z1 , Z2 ) X y (b) Y ⊗ Z1 ( X , Z2 ) y Y ⊗ Z2 ( X , Z1 ) Combinando el criterio de reducción y el criterio de independencia por bloques se deduce que si partimos de Y ⊗ Z1 ( X , Z2 ) y de Y ⊗ Z2 ( X , Z1 ) , se puede utilizar la independencia por bloques para demostrar que Y ⊗ (Z1 , Z2 ) X , y posteriormente aplicar el criterio de reducción para concluir que Y ⊗ Z1 X . Proposición 2.2.3.6. Si (X,Y,Z1,Z2) es un vector aleatorio, entonces las siguientes afirmaciones son equivalentes: (a) Y ⊗ (Z1 , Z2 ) X y (b) Y ⊗ Z2 ( X , Z1 ) y Y ⊗ Z1 X El criterio de factorización para la independencia conduce a una medida de dependencia. Particionemos el vector k-dimensional X = (X1, X2, ..., Xk) en (X1, X2, Xa), donde a = {3, 4, ..., k}, de forma que Xa es el vector (X3, X4, ..., Xk), y X1 y X2 son dos variables aleatorias unidimensionales. Dada la función de probabilidad conjunta f 12 a ( x1 , x2 , xa ) , el criterio de factorización establece que la condición necesaria y suficiente para la independencia condicionada de X 1 y de X 2 dado X a ( esto es, - 73 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ X 1 ⊗ X 2 X a ) es la existencia de unas funciones g y h , tales que permitan que la función de probabilidad conjunta se pueda factorizar de la siguiente forma: log f 12 a ( x1 , x2 , xa ) = g( x1 , xa ) + h( x2 , xa ) de manera que si a es un conjunto vacío, estaremos ante la condición de independencia marginal. Proposición 2.2.3.7. La condición necesaria y suficiente para la independencia condicionada entre las variables discretas X 1 y X 2 , dado X a ( X 1 ⊗ X 2 X a ) es que i12 a ( x1 , x2 ; xa ) = 0 para todos los valores x1 y x2 , donde la diferencia parcial cruzada de interacción condicionada i12 a ( x1 , x 2 ; x a ) viene dada por la expresión siguiente: i12 a ( x1 , x 2 ; x a ) = ∇ 1∇ 2 log f 12 a ( x1 , x 2 ; x a ) siendo ∇1 y ∇ 2 las diferencias asociadas a las variables discretas X 1 y X 2 , respectivamente1. Considérese ahora la diferencia parcial cruzada de interacción marginal i12 , la cual viene dada por la expresión siguiente: 1 Dada una variable aleatoria discreta X, la diferencia ∇ se define de la siguiente forma: ∇g( x ) = g( x + 1) − g( x ) para - 74 - x = 0, 1, 2, ! Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ i12 ( x1 , x2 ) = ∇1∇ 2 log f 12 ( x1 , x2 ) Se puede demostrar fácilmente que esta diferencia es la misma para la función de probabilidad conjunta y para las dos funciones de probabilidad condicionadas, es decir: i12 = ∇1∇ 2 log f 12 = ∇1∇ 2 log f 1 2 = ∇1∇ 2 log f 2 1 En consecuencia, i12 es una medida de interacción invariante al diseño muestral, puesto que arroja el mismo resultado cuando se utiliza un esquema conjunto, o un esquema retrospectivo donde X 2 es fijo y X 1 es observado, o un esquema prospectivo donde X 1 es fijo y X 2 es observado. 2.2.4. Colapsabilidad de vectores aleatorios. Definición 2.2.4.1. Si un conjunto de variables se particiona en tres vectores X a , X b y X c , se dice que el vector ( X a , X b , X c ) es paramétricamente colapsable sobre X a si la interacción entre X b y X c se puede estimar indistintamente a partir del conjunto completo de datos o a partir del vector marginalizado sobre X a . - 75 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Proposición 2.2.4.1. El vector ( X a , X b , X c ) es colapsable sobre X a si X a ⊗ X b X c o si X a ⊗ X c X b . 2.3. EXPANSIÓN LOG-LINEAL DE LA DISTRIBUCIÓN DE BERNOULLI. 2.3.1. La distribución de Bernoulli. Definición 2.3.1.1. Una variable aleatoria de Bernoulli es aquella que recoge el resultado de un experimento aleatorio que puede dar lugar exclusivamente a dos resultados, de forma que la variable X tomará el valor 1 con probabilidad p, si ocurre un resultado, y el valor 0 con probabilidad 1-p, si ocurre el otro resultado y su función de probabilidad es la siguiente: f X ( x ) = p x (1 − p) 1− x x = 0, 1 y para 0< p<1 Esta distribución puede generalizarse al caso k-dimensional. En concreto, la distribución bidimensional de Bernoulli viene definida por el vector aleatorio ( X 1 , X 2 ), cuya función de probabilidad es: p( x1 , x2 ) = p(0,0) ( 1− x1 ) ( 1− x 2 ) p(0,1) ( 1− x1 ) x 2 para x1 = 0, 1 y x2 = 0, 1 . - 76 - p(1,0) 1 x ( 1− x 2 ) p(1,1) 1 x x2 Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ 2.3.2. Expansión log-lineal para el caso bidimensional. Si en la expresión anterior se toman logaritmos y se reducen términos en x1 y en x2 se tendrá que: log f 12 ( x1 , x2 ) = log p(0,0) + x1 log p(1,0) p(0,1) p(1,1) × p(0,0) + x2 log + x1 x2 log p(0,0) p(0,0) p(0,1) × p(1,0) para todo ( x1 , x2 ) . La expresión anterior es una forma bilineal, lineal tanto en x1 como en x2 . La reparametrización de la parte derecha de la anterior expresión conduce a su expansión log-lineal, que viene dada por: log f 12 ( x1 , x2 ) = u0 + x1 u1 + x2 u2 + x1 x2 u12 El coeficiente u1 = log para todo ( x1 , x2 ) p(1,0) es el logaritmo del odds del suceso X 1 = 1 frente p(0,0) al suceso X 1 = 0 condicionado a que X 2 = 0 . Por su parte, el coeficiente u12 es el logaritmo del ratio de producto cruzado, es decir: u12 = log rpc( X 1 , X 2 ) Por tanto, la función de probabilidad f 12 puede expresarse en función de las probabilidades conjuntas p( x1 , x2 ) o en función de los términos u, de forma que para calcular dichos términos u a partir de las probabilidades p( x1 , x2 ) , bastará sustituir en la - 77 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ expansión log-lineal ( x1 , x2 ) por los pares de valores (0,0), (0,1), (1,0) y (1,1), obteniéndose de esta forma lo siguiente: log p(0,0) = u0 log p(1,0) = u0 + u1 log p(0,1) = u0 + u2 log p(1,1) = u0 + u1 + u2 + u12 Proposición 2.3.2.1. Las variables aleatorias X 1 y X 2 serán independientes si y sólo si u12 = 0 . 2.3.3. Expansión log-lineal para el caso tridimensional. La distribución de Bernoulli puede también generalizarse al caso tridimensional, dando lugar a la llamada distribución tridimensional de Bernoulli, que vendrá dada por el vector aleatorio ( X 1 , X 2 , X 3 ) cuya función de probabilidad conjunta es la siguiente: f 123 ( x1 , x2 , x3 ) = p123 ( x1 , x2 , x3 ) para x1 = 0, 1 ; x2 = 0, 1 y x3 = 0, 1 . - 78 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ La expansión log-lineal de la anterior función de probabilidad se lleva a cabo de forma similar al caso bidimensional. Así, la citada expansión vendrá dada por la expresión siguiente: log f ( x1 , x2 , x3 ) = u0 + x1 u1 + x2 u2 + x3 u3 + x1 x2 u12 + x1 x3 u13 + x2 x3 u23 + x1 x2 x3 u123 en la que se verifica que: u23 = log rpc( X 2 , X 3 X 1 = 0) u123 = log rpc( X 2 , X 3 X 1 = 1) rpc( X 2 , X 3 X 1 = 0) Las expresiones de los términos u12 y u13 son equivalentes a la del término u23 . El término u de mayor orden, u123 , mide la diferencia en el logaritmo del ratio de producto cruzado condicionado entre X 2 y X 3 cuando X 1 cambia de 0 a 1. Además, u123 es simétrico en X 1 , X 2 y X 3 y es una medida de interacción de dimensión tres entre estas variables. Además, la medida de interacción entre X 2 y X 3 , condicionada a X 1 , aisla los coeficientes de los términos en x2 x3 en la expansión log-lineal, ya que se verifica que: i23 1 ( x2 , x3 ; x1 ) = u23 + x1 u123 = log rpc( X 2 , X 3 X 1 = x1 ) para x1 = 0 y para x1 = 1 . - 79 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Proposición 2.3.3.1. Si ( X 1 , X 2 , X 3 ) es un vector aleatorio que sigue una distribución trivariante de Bernoulli, entonces las tres expresiones siguientes son equivalentes: a) X 2 ⊗ X 3 X1 b) u23 = 0 y u123 = 0 c) rpc( X 2 , X 3 X 1 = x1 ) = 1 para x1 = 0, 1 2.4. TEORÍA DE GRAFOS E INDEPENDENCIA. Las definiciones que siguen no tienen como objetivo profundizar excesivamente en la teoría de grafos, ya que éste no es un objetivo esencial de esta investigación, sino únicamente introducir algunos términos elementales que, en capítulos posteriores, permitirán interpretar correctamente las representaciones gráficas de modelos y comprender sus implicaciones en términos de independencia. Definición 2.4.1. Un gráfico G = ( ν, ε ) es una estructura formada por un conjunto finito ν de vértices ( también llamados nodos ) y por un conjunto finito ε de líneas ( también llamadas arcos ) entre los vértices. En nuestro contexto, los vértices representan las variables que están siendo analizadas. Por tanto, los vértices del gráfico serán designados con las letras que - 80 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ identifiquen a las correspondientes variables ( X, Y, Z, ... ). Por su parte, una línea entre los vértices X e Y se representará por [XY] o, de forma equivalente, por [YX]. Por otro lado, en los gráficos que nosotros consideraremos, cada par de vértices puede estar unido o no entre sí mediante una línea. En todos los casos, las líneas que unan dos vértices serán no direccionadas, esto es, en ningún caso incluirán una punta de flecha que indique la dirección de la asociación que existe entre las variables implicadas. Además, en función de que las variables representadas en el gráfico sean discretas o sean continuas, los vértices se representarán mediante un punto o mediante un círculo, respectivamente. Dada la naturaleza de las variables con las que trabajaremos, representaremos los vértices del gráfico mediante puntos. Definición 2.4.2. Dos vértices X , Y ∈ν son adyacentes, y se escribe X~Y, si existe una línea entre ellos, es decir, si [ XY ] ∈ε . Definición 2.4.3. Un gráfico es completo si existe una línea entre cada par de vértices. Por otra parte, cualquier subconjunto de vértices u ⊆ ν induce un subgráfico de G. Este subgráfico es el gráfico Gu = (u,ψ ) cuyo conjunto de líneas ψ está formado por aquellas líneas de ε que tienen ambos extremos en u. - 81 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Definición 2.4.4. Un subconjunto u ⊆ ν es completo si induce un subgráfico completo. En otros términos, si todos los vértices de u son mútuamente adyacentes, entonces u será completo. Definición 2.4.5. Un subconjunto u ⊆ ν es un clique si es un subconjunto maximalmente completo, es decir, “u” es completo, y si u ⊂ w , entonces “w” no es completo. El concepto de clique es muy importante en la modelización gráfica, ya que a menudo es necesario identificar los cliques existentes en un gráfico determinado. Definición 2.4.6. Una secuencia de vértices X 0 , ..., X n , de forma que X i −1 ~ X i , para i = 1, ..., n constituye un path ( camino ) entre X 0 y X n . Se dice que un gráfico está conectado si existe un path entre cada par de vértices. ¿ Cómo se relaciona la teoría de grafos con las nociones de independencia y de independencia condicionada ?. La respuesta a esta pregunta la encontramos en las llamadas propiedades parcial y global de Markov. En la modelización gráfica, el interés se centra fundamentalmente en modelos en los que se verifiquen relaciones de independencia condicionada de la forma X ⊗ Y resto , donde por “resto” se entiende todas las demás variables del modelo. Para este tipo de modelos, es posible construir un gráfico ( ν, ε ) , donde ν es el conjunto de - 82 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ variables del modelo y donde ε está formado por las líneas entre pares de variables que no son condicionalmente independientes dado el resto. Dicho en otros términos, para el par ( X , Y ) tal que X ⊗ Y resto , la línea entre X e Y se omitirá; para los demás pares de variables, se dibujará una línea entre ellas. De esta forma, del gráfico resultante se desprende inmediatamente que si las dos variables no son adyacentes, entonces son condicionalmente independientes dado el resto. Esta propiedad se conoce con el nombre de propiedad parcial de Markov. Pero la clave para interpretar gráficos de independencia está en la llamada propiedad global de Markov, que se basa, a su vez, en la propiedad de separabilidad, la cual establece lo siguiente: Definición 2.4.7. Separabilidad: Dados tres subconjuntos “a”, “b” y “s” de ν , se dice que “s” separa a “a” y a “b” si todos los “caminos” de “a” a “b” cruzan “s”. Teniendo en cuenta la anterior propiedad, la propiedad global de Markov establece que si dos conjuntos de variables, “u” y “v”, están separados por un tercer conjunto de variables “w”, entonces u ⊗ v w . Así, por ejemplo, si se consideran las variables W, X, Y y Z, de forma que las variables W y Z están separadas por el conjunto de variables variables ( X ,Y ) ( X ,W ) , y que las variables Y y Z están separadas por el conjunto de entonces se verificará que W ⊗ Z ( X , Y ) y que Y ⊗ Z ( X ,W ) .En consecuencia, en el gráfico asociado a esta situación, las líneas [WZ] y [YZ] estarán ausentes del mismo. - 83 - Capítulo Segundo: Fundamentos para el análisis de tablas de contingencia ____________________________________________________________________________________ Volveremos a la teoría de grafos en el capítulo dedicado al modelo logarítmicolineal, en el que estas nociones elementales y otras que se abordarán con mayor detalle nos permitirán determinar cuándo un modelo es gráfico y valorar sus implicaciones. - 84 - C A PÍ T U L O T E R C E R O TABLAS DE CONTINGENCIA Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ 3.1. INTRODUCCIÓN. Una tabla de contingencia1, también llamada tabla de clasificación cruzada, es la forma más habitual de presentar las frecuencias observadas correspondientes a las categorías de diferentes variables categóricas. Dichas tablas recogen la clasificación de los individuos de una población o de una muestra en función de la categoría de cada variable en la que queden encuadrados. Las diferentes categorías de las variables que se representan en una tabla de contingencia han de ser exhaustivas y mútuamente excluyentes. Es decir, el conjunto de categorías de una variable categórica debe ser suficiente para clasificar a todos y a cada uno de los individuos que forman la población o la muestra ( exhaustividad ). Además, cada categoría debe definirse de tal manera que cada elemento de la población pertenezca a una, y exclusivamente a una, categoría de la variable ( exclusión mútua ). Cuando una tabla de contingencia recoge la clasificación cruzada de los individuos de una población o de una muestra a partir de dos características categóricas se estará ante una tabla de contingencia bidimensional. Si, por el contrario, la clasificación cruzada se lleva a cabo a partir de más de dos características categóricas, se estará ante una tabla de contingencia multidimensional. 1 El término “tabla de contingencia” fue acuñado por Karl Pearson en 1904. - 87 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ En el caso más simple, una tabla de contingencia clasifica una muestra de N observaciones con respecto a dos variables categóricas, que designaremos por A y B. Si la variable A tiene I categorías y la variable B tiene J categorías, y dichas categorías se colocan en filas y en columnas, respectivamente, se estará ante una tabla de contingencia de dimensión IxJ, en la que el número de individuos pertenecientes a la categoría i-ésima de la variable A y a la categoría j-ésima de la variable B, es decir , la frecuencia de la casilla ij-ésima de la tabla, se representa por nij . El número total de individuos muestreados pertenecientes a la categoría i-ésima de la variable A se representa por ni. , mientras que el número total de individuos muestreados que se encuadran en la categoría j-ésima de la variable B se representa por n. j . Estos valores ( ni. , n. j ) reciben el nombre de totales marginales, y se calculan de la siguiente forma: J ni . = ∑ nij (3.1) j =1 I n. j = ∑ nij (3.2) i =1 I J I J i =1 j =1 N = ∑ ∑ nij = ∑ ni . = ∑ n. j i =1 j =1 (3.3) Hasta hace unos cuantos años, la inmensa mayoría de las técnicas estadísticas empleadas para el análisis de tablas de contingencia se referían casi exclusivamente al caso bidimensional. En este sentido, el empleo del estadístico chi-cuadrado y de otros coeficientes para detectar la posible independencia entre dos variables categóricas es correcto cuando el análisis se refiere a una tabla bidimensional. Sin embargo, cuando la - 88 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ clasificación cruzada recogida en la tabla de contingencia hace referencia a más de dos variables, la detección de independencia o asociación mediante esos mismos coeficientes ya no es posible. De hecho, hasta hace poco más de dos décadas, la mayoría de los investigadores se limitaban a estudiar las tablas de contingencia multidimensionales mediante el análisis de múltiples subtablas bidimensionales, es decir, examinaban simultáneamente dos variables categóricas e ignoraban el resto de variables de la tabla. Esta práctica, que empezó a generalizarse con la aparición de paquetes informáticos que calculaban automáticamente estadísticos chi-cuadrado para todas las tablas marginales de dimensión dos que se pueden obtener de una tabla multidimensional, no es en absoluto recomendable, debido a los inconvenientes que conlleva. En primer lugar, se equivoca la relación marginal que existe entre dos variables categóricas con la relación existente entre dichas variables cuando otras variables diferentes ( que influyen, o pueden influir, en la relación entre las dos primeras ) están presentes en la tabla de contingencia. En segundo lugar, esta práctica no permite el enfoque simultáneo de las relaciones dos a dos entre variables categóricas. Por último, se ignora la posible existencia de interacciones de tercer orden o superior entre las variables que componen la tabla de contingencia. Para salvar este cúmulo de inconvenientes, surgieron durante la década de los setenta una amplia gama de técnicas estadísticas para el análisis de tablas de contingencia multidimensionales, que posibilitaron, entre otras cosas, estudiar las - 89 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ relaciones de dependencia/independencia existentes en un conjunto de más de dos variables categóricas. Entre estas nuevas técnicas se encuentran el modelo logarítmicolineal, el modelo logit para variables categóricas y el modelo de clases latentes. Este trabajo de investigación se plantea, entre otros objetivos, presentar estas novedosas técnicas y demostrar su utilidad en el análisis de la demanda turística española. Fienberg ( 1978 ) data los primeros estudios relacionados con el análisis de variables categóricas en los albores del presente siglo, cuando Pearson y Yule formularon los primeros conceptos teóricos relacionados con estas técnicas. Además de proponer el conocido test chi-cuadrado para detectar la independencia en tablas de contingencia bidimensionales, Karl Pearson analizó las tablas de contingencia presumiendo la existencia de una continuidad subyacente en toda variable categórica y de una distribución normal multivariante asociada a los datos originalmente continuos. Por su parte, Yule consideró las categorías de las variables como fijas y profundizó en el análisis de la relación estructural existente entre las variables discretas que conforman una tabla de contingencia. Ambos investigadores propusieron sendas medidas de asociación para tablas de contingencia. Así, Pearson definió el coeficiente de correlación tetracórico, mientras que Yule definió el estadístico Q a partir del “cociente de ventajas”. Los diferentes enfoques propuestos por ambos investigadores crearon una polémica que se ha mantenido durante muchos años, si bien la literatura de los últimos 25 o 30 años parece indicar que la segunda posición es la más extendida. En cualquier - 90 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ caso, deberían pasar 35 años hasta que, en 1935, Barlett abriera nuevos caminos en la investigación al utilizar el cociente de ventajas de Yule para definir el concepto de interacción de segundo orden en una tabla de dimensión 2x2x2. En 1945, Norton extendió la idea inicial de Barlett a tablas de dimensión 2x2xK, mientras que en 1956 Roy y Kastenbaum definieron el concepto de interacción de segundo orden en una tabla de contingencia de dimensión IxJxK. Estas aportaciones pueden considerarse el auténtico embrión de las técnicas estadísticas para el análisis de variables categóricas. Sólo unos años más tarde ( entre 1958 y 1965 ), Good empieza a utilizar contrastes para definir todos los órdenes de las interacciones que existen en una tabla de contingencia multidimensional. Las aportaciones realizadas por Good fueron asimiladas por multitud de investigadores, como Darroch, Birch, Mosteller, Ku, Kullbach, Bishop, Haberman y otros. Pero, sin lugar a dudas, el discípulo más aventajado de Good fue Leo Goodman, cuya prolífica y valiosa producción científica entre 1965 y 1987 ha revolucionado este campo de la investigación estadística. En su obra “Analyzing Qualitative/Categorical Data: Log-Linear Models and Latent-Structure Analysis” ( 1978 ) sienta las bases del modelo logarítmico-lineal y del análisis de estructura latente, que, a partir de entonces, fueron desarrollados por varios autores. Los trabajos de Andersen ( 1990 ), Agresti ( 1990 ), Christensen ( 1990 ) y de otros muchos investigadores abordan de forma detallada los últimos avances alcanzados - 91 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ en el modelo log-lineal y en otros modelos asociados y esbozan las futuras líneas de investigación en este campo. 3.2. MODELOS MUESTRALES PARA TABLAS DE CONTINGENCIA. Las frecuencias recogidas en una tabla de contingencia pueden obtenerse mediante diferentes modelos muestrales, aunque el más utilizado en la práctica es el llamado modelo multinomial, en el cual se considera un tamaño muestral fijo N y se clasifica a cada elemento de la muestra en función de la categoría de cada variable categórica de la tabla a la que pertenezca el mismo. De esta forma, N ij es la variable aleatoria que representa al número de individuos que pertenecen a la categoría i-ésima de la variable A y a la categoría j-ésima de la variable B, mientras que nij es el valor observado de dicha variable. Si la población es suficientemente grande, ( N11, N12, ..., Nij, ..., NIJ ) seguirá una distribución multinomial de parámetros ( N, p11, p12, ..., pij, ..., pIJ ), donde pij es la probabilidad de que un individuo de la muestra pertenezca a la categoría i-ésima de la variable A y a la categoría j-ésima de la variable B, es decir: ( N11, N12, ..., Nij, ..., NIJ ) → Mult ( N, p11, p12, ..., pij, ..., pIJ ) Como puede observarse, en el modelo multinomial se fija el tamaño muestral N, pero en ocasiones el muestreo se realiza de forma que lo que se fijan son los totales marginales de filas ( ni. ) o los totales marginales de columnas ( n. j ). En este caso, el - 92 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ modelo muestral será de tipo producto-multinomial, en el que para cada categoría de la variable A se toma una muestra aleatoria de tamaño ni. y se clasifica a cada elemento de la muestra en función de la categoría de la variable B a la que pertenezca dicho elemento. Evidentemente, también es posible considerar una muestra aleatoria de tamaño n. j para cada categoría de la variable B y clasificar a cada elemento de la muestra en función de la categoría concreta de la variable A a la que pertenezca. En definitiva, “se consideran muestras de I diferentes poblaciones, cada una de las cuales se divide en J categorías. Se supone que las muestras de las diferentes poblaciones son independientes y que cada muestra sigue una distribución multinomial” ( Christensen, 1990, pag. 33 ). Por consiguiente, dado un tamaño de muestra ni. para cada categoría de la variable A y si la población es suficientemente grande, ( Ni1, Ni2, ..., Nij, ..., NiJ ) seguirá una distribución multinomial de parámetros ( ni. , p1 i , p2 i , ..., p j i , ..., p J i ), donde p j i es la probabilidad de que un individuo de la población ( categoría ) i pertenezca a la categoría j de la variable B. Por último, se podría optar por no fijar a priori el número total de observaciones ni los totales marginales de filas o columnas. En esta situación, se estaría ante un modelo de Poisson, que consiste en observar un conjunto de IxJ procesos de Poisson, uno por cada casilla de la tabla de contingencia, sin un conocimiento apriorístico sobre el número de observaciones que deben tomarse. Cada proceso de Poisson dará lugar a un valor esperado ( mij ) en cada casilla de la tabla y generará un conjunto de variables - 93 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ aleatorias Nij ( i = 1, 2, ..., I; j = 1, 2, ..., J ), de forma que se asume que las Nij son independientes entre sí ( Andersen, 1990 ) con Nij → Ps ( λ ij ) , es decir, cada variable aleatoria Nij sigue una distribución de Poisson de parámetro λ ij . En realidad, este modelo muestral no es más que un caso particular del modelo multinominal cuando la distribución de cada N ij se condiciona a n. . = N . Esto es, la distribución condicionada de N11, N12, ..., Nij, ..., NIJ dado n. . = N es una distribución multinomial de parámetros N y p11 = I J λ λ 11 λ λ , p12 = 12 , ..., pij = ij , ..., piJ = iJ , donde λ .. = ∑ ∑ λ ij . Incluso, y λ .. λ .. λ .. λ .. i =1 j =1 dado que en el modelo producto-multinomial se está condicionando la distribución de cada Nij a ni. , el modelo de Poisson se puede considerar un caso particular de este último, ya que puede demostrarse que la distribución condicionada de ( Ni1, Ni2, ..., Nij, ..., NiJ ) dado ni. es, en realidad, una distribución multinomial de parámetros ni. y p1 i = λ λ i1 λ λ , p2 i = i 2 , ..., p j i = ij , ..., p J i = iJ . λ i. λ i. λ i. λi. Precisamente, como consecuencia de que el modelo de Poisson es, en realidad, un caso particular del modelo multinomial o del modelo producto-multinomial, en función de las condiciones que se verifiquen, en el análisis de tablas de contingencia se trabaja en la mayoría de los casos con distribuciones multinomiales, siendo muy escasas y poco relevantes las situaciones prácticas en las que se consideran distribuciones independientes de Poisson. En cualquier caso, y dadas las interrelaciones existentes, los tres modelos muestrales generan los mismos valores esperados estimados y el mismo - 94 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ estadístico de bondad de ajuste, por lo que son equivalentes en lo que a estimación y verificación de hipótesis se refiere. A pesar de lo comentado, no se puede concluir que los tres modelos muestrales anteriores sean los únicos que se utilizan para generar y analizar datos categóricos. De hecho, Christensen ( 1990 ) menciona el modelo hipergeométrico para obtener tablas de contingencia IxJ cuando se fijan tanto los totales de filas ( ni. ) como los totales de columnas ( n. j ), el empleo de la estratificación2 y el muestreo cluster. Pero nuestro interés por estos modelos es limitado, toda vez que requieren, por regla general, cambios sustanciales en el análisis estadístico. En cualquier caso, aunque teóricamente puedan considerarse diferentes modelos muestrales, lo cierto es que, en la práctica, la mayoría de los procesos de encuestación fijan el tamaño muestral y, a continuación, analizan la distribución de las variables incluidas en la encuesta. De aquí que el modelo muestral más empleado en la práctica sea el multinomial. 2 El muestreo estratificado en muestras de gran tamaño puede asimilarse al modelo producto-multinomial, puesto que éste último consiste en extraer muestras independientes en un número determinado de subpoblaciones. Sin embargo, mientras que en el muestreo estratificado los estratos permiten reducir la variabilidad de los resultados globales, en el contexto del análisis de datos categóricos dichos estratos carecen de interés para el análisis, puesto que éste se refiere al conjunto de categorías de las variables discretas implicadas. - 95 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ 3.3. INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES. Considérese una tabla de contingencia bidimensional en la que se representa la clasificación cruzada de dos variables categóricas A y B, siendo I el número de categorías de la variable A y J el número de categorías de la variable B y donde se verifican también las relaciones dadas por (3.1), (3.2) y (3.3). Pues bien, se define pij como la probabilidad de que un individuo pertenezca a la categoría i-ésima de la variable A y a la categoría j-ésima de la variable B. Considerando que únicamente se fija el tamaño muestral total N, nij será el valor observado de una distribución multinomial con tamaño muestral N y probabilidad pij . En consecuencia, el valor esperado de nij , que designaremos por mij , vendrá dado por: mij = N pij La estimación de las pij se realiza mediante el método de la máxima verosimilitud. La función de verosimilitud en el caso de un esquema de muestreo multinomial viene dada por la siguiente expresión3: 3 El modelo multinomial es el más comúnmente utilizado en tablas de contingencia. Sin embargo, en determinadas circunstancias es aconsejable utilizar el modelo producto-multinomial o el modelo de Poisson. En el primer caso, la función de verosimilitud viene dada por: I J ni .! n L( pij ) = ∏ p j i ij ∏ i = 1 ni 1! ni 2! ... niJ! j = 1 - 96 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ L( pij ) = I J N! n pij ij ∏ ∏ n11! n12 ! ... nIJ! i =1 j =1 Los valores de pij que maximizan el logaritmo de la función de verosimilitud, esto es, las estimaciones máximo-verosímiles de los parámetros pij , vienen dadas por: p!ij = nij N De la misma forma, las estimaciones MV de pi. y de p. j se calculan a través de las dos expresiones siguientes: p! i . = ni . N p!. j = n. j N A pesar de las diferentes formas funcionales de L( pij ) según el modelo de muestreo empleado, estas estimaciones MV son siempre las mismas con independencia de que el modelo muestral sea multinomial, producto-multinominal o de Poisson. mientras que en segundo caso, L( pij ) toma la siguiente forma: I L( pij ) = ∏ i =1 siendo λ ij ij − λ ij e ∏ j = 1 nij! λ ij = pij × N . - 97 - J n Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Por otra parte, las variables categóricas A y B serán independientes si y sólo si: pij = pi . × p. j ∀i , j donde pi. es la probabilidad de que un individuo pertenezca a la categoría i-ésima de la variable A y p. j es la probabilidad de que un individuo pertenezca a la categoría j-ésima de la variable B. En consecuencia, el valor esperado mij en el supuesto de independencia de A y B será igual a: mij = N × pi . × p. j Igualmente, el valor esperado de ni. ( mi. ) y el valor esperado de n. j ( m. j ) se calculan, respectivamente, de la siguiente forma: mi . = N × pi . m. j = N × p. j por lo que mij también se puede expresar de la siguiente forma: mij = mi . × m. j N Para probar la hipótesis de independencia H 0 : pij = pi . × p. j , para i = 1, 2, ..., I y para j = 1, 2, ..., J se emplea el conocido test estadístico de Pearson: I ( nij − m! ij( 0) ) 2 m! ij( 0) j =1 J X 2 = ∑∑ i =1 - 98 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ donde m! ij( 0) es una estimación de mij basada en la asunción de independencia entre las variables A y B. Considerando que m! i. = ni . y que m! . j = n. j , el valor de m! ij( 0) será igual a: m! ij( 0) = m! i . × m! . j ni . × n. j = N N Por tanto, el test de Pearson puede expresarse también de la siguiente forma: I J X 2 = ∑∑ ni . n. j 2 ) N ni . n. j N ( nij − i =1 j =1 Si H 0 es cierta y N es suficientemente grande, se puede demostrar, como consecuencia del Teorema Central del Límite, que el estadístico X 2 de Pearson sigue una distribución chi-cuadrado asintótica ( Agresti, 1990, pp. 433-434 ): X 2 ≈ χ 2( I −1) ( J −1) donde I es el número de categorías de la variable A, mientras que J es el número de categorías de la variable B. Comparando el valor X2 con el valor tabulado χ 12−α , ( I −1)( J − 1) , podrá determinarse a un nivel de significación α si la hipótesis de independencia puede asumirse como válida ( si X 2 > χ 12− α ,( I −1)( J − 1) deberá rechazarse la hipótesis de independencia a un nivel α ). - 99 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Otro test estadístico que se emplea con bastante frecuencia para detectar la posible independencia entre las dos variables categóricas que forman la tabla de contingencia ( o, en su caso, para determinar la bondad de ajuste de un modelo concreto a los datos observados ) es el llamado test de la razón de verosimilitud, el cual viene dado por la siguiente expresión: I J n G 2 = 2 ∑ ∑ nij log (ij0) m! ij i =1 j =1 Wilks ( 1935, 1938 ) demostró que cuando N → ∞, G 2 se aproxima a una distribución chi-cuadrado con (I-1)(J-1) grados de libertad: G 2 ≈ χ 2( I −1) ( J −1) De esta forma, para un nivel de significación α, la hipótesis H 0 será rechazada si y sólo si: G 2 > χ 1-2 α , (I-1) (J -1) En principio, para tamaños de muestra suficientemente grandes, los valores de X 2 y de G 2 deben ser asintóticamente equivalentes, de forma que la diferencia X 2 - G 2 converge a 0 en probabilidad cuando N → ∞ ( Agresti, 1990, pag. 434 ). Sin embargo, para tamaños de muestra más pequeños, X 2 normalmente converge más rápidamente a una distribución chi-cuadrado que G 2 . Así, la aproximación del test G 2 es relativamente pobre cuando N < 5IJ. Por el contrario, y según han demostrado Agresti y - 100 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Yang ( 1987 ), el estadístico X 2 es adecuado4 cuando N > IJ. Sin embargo, es bastante más aconsejable el empleo del estadístico G 2 cuando se desean analizar tablas de contingencia tridimensionales o de una dimensión superior, puesto que es posible particionar el valor G 2 para comparar diferentes modelos asociados a dichas tablas. De aquí que, en lo sucesivo, se empleará de forma casi exclusiva el test estadístico de la razón de verosimilitud para analizar tablas de contingencia multidimensionales en las que el tamaño muestral N sea suficientemente grande. Además, la comparación entre los valores observados nij y los valores esperados estimados m! ij( 0 ) permitirá identificar las casillas de la tabla que contribuyen de forma significativa al rechazo, en su caso, de la hipótesis de independencia. Una forma muy simple de realizar esta comparación es la que consiste en inspeccionar los residuos, que se definen como la diferencia entre las frecuencias observadas y las frecuencias esperadas estimadas, es decir, nij − m! ij( 0 ) . Al objeto de evaluar adecuadamente la forma en que los valores m! ij( 0) predicen a los nij , se emplean los residuos estandarizados, eij , que vienen dados por: eij = 4 nij − m! ij( 0 ) m! ij( 0 ) Siempre y cuando la tabla no contenga frecuencias esperadas muy pequeñas ni excesivamente grandes. - 101 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Cuando el modelo de independencia se verifica, los eij son asintóticamente normales con media 0 ( Agresti, 1990, pag. 432 ). Sin embargo, sus varianzas asintóticas son menores que 1.0, especialmente cuando el modelo que se contrasta es relativamente complejo. Para salvar este inconveniente, Haberman ( 1973 ) definió los residuos ajustados como el cociente entre los residuos estandarizados y sus errores estándar estimados. La estimación de la varianza de los eij viene dada por: v!ij = ( 1 − n ni . ) ( 1 − .j ) N N En consecuencia, la expresión de los residuos ajustados para un modelo de independencia en una tabla bidimensional es la siguiente: rij = nij − m! ij( 0) n n m! ij( 0) 1 − i . 1 − . j N N Haberman ( 1973 ) demostró que, cuando las variables que forman la tabla de contingencia son independientes, los rij siguen una distribución normal estándar asintótica. De esta forma, comparando los residuos ajustados con los valores de la normal estándar a un nivel α del 5 % ( ≈ ± 2.0 ), se pueden identificar las casillas de la tabla de contingencia responsables del mal ajuste de los datos al modelo en cuestión. Así, valores de rij mayores que +2 indicarán unos valores observados significativamente mayores de lo que cabría esperar en el supuesto de independencia, de - 102 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ la misma forma que valores de rij menores que -2 pondrán de manifiesto valores observados significativamente menores que los correspondientes valores esperados si las variables que forman la tabla de contingencia fueran estadísticamente independientes. 3.4. OTRAS MEDIDAS DE ASOCIACIÓN PARA TABLAS BIDIMENSIONALES. Cuando se está analizando la relación entre dos variables categóricas nominales en una tabla de contingencia de dimensión IxJ, se pueden emplear diferentes índices para medir la intensidad de la asociación existente entre dichas variables. Aunque se han propuesto multitud de medidas de asociación, lo cierto es que ninguna parece ser plenamente satisfactoria. Algunas de estas medidas están basadas en el estadístico χ 2 , aunque, dado que este estadístico depende del tamaño muestral N, presentan el inconveniente de que no pueden ser empleadas para comparar diferentes tablas. Otra dificultad añadida de las medidas basadas en el estadístico χ 2 es que no tienen una interpretación probabilística como la tiene, por ejemplo, el coeficiente de correlación. Con el objeto de construir medidas con una interpretación más sencilla, Goodman y Kruskal diseñaron entre 1954 y 1972 un conjunto de medidas basadas en la capacidad predictiva de una variable sobre la otra. - 103 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ A continuación, se enumerarán brevemente algunas de estas medidas, sin detallar excesivamente las ventajas e inconvenientes de cada una de ellas, puesto que el objetivo de este trabajo no se limita únicamente a analizar la relación de dependencia entre dos variables categóricas, sino que su interés se centra principalmente en el análisis de la asociación existente entre un conjunto formado por más de dos variables categóricas. 3.4.1. Medidas de asociación para tablas 2x2. 1º) Test de corrección de continuidad de Yates: X = 2 N (n 11 × n22 − n12 × n21 − 0,5 N ) 2 n1. × n2. × n.1 × n.2 Este test sigue una distribución χ 2 con 1 grado de libertad y su campo de variación va desde 0 hasta ∞. Si el test arroja un valor superior a 3,84 se podrá admitir a un nivel de significación del 5 % que las variables dicotómicas que forman la tabla de contingencia no son estadísticamente independientes. 2º) Test exacto de Fisher: Cuando las frecuencias observadas en la tabla son pequeñas ( por ejemplo, menores que 5 ), la aproximación del test X 2 a una distribución chi-cuadrado no es, por regla general, válida. En estos casos, es posible, cuando se fijan los totales marginales - 104 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ de filas y de columnas y bajo la hipótesis de independencia, calcular la probabilidad de ocurrencia de la configuración observada de la tabla de contingencia mediante la siguiente expresión: P= n1.! × n2 .! × n.1! × n.2! n11! × n12! × n21! × n22! × N! La esencia de este test consiste en considerar las configuraciones más extremas de los datos que podrían haber ocurrido y calcular el valor de P para cada una de dichas configuraciones. La suma de las probabilidades de ocurrencia de la configuración observada y de aquellas otras más extremas será el valor PT, que se comparará con el nivel de significación α. De esta forma, si PT es mayor que α se concluye que no hay evidencia de asociación entre las variables que forman la tabla de contingencia. Por el contrario, si PT es menor o igual que α deberá rechazarse la hipótesis de independencia entre las variables. 3º) Ratio de producto cruzado:5 Este ratio es un cociente entre dos “ventajas”. Para la categoría 1 de la variable 5 El ratio de producto cruzado y otras medidas relacionadas con el mismo ( Q de Yule, Y de Yule, coeficiente τ de Goodman y Kruskal y coeficiente de incertidumbre ) son funciones de las probabilidades pij asociadas a la tabla de contingencia. Como es sabido, estas probabilidades son desconocidas, pero pueden ser estimadas mediante nij N . Por esta razón, las expresiones de las medidas anteriores son, en realidad, las estimaciones de las medidas originales que, obviamente, son desconocidas. - 105 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ A de una tabla de contingencia 2x2 se define la ventaja de que un individuo se encuadre en la categoría 1 de la variable B en lugar de encuadrarse en la categoría 2 de dicha variable ( Ω1 ) como el cociente entre la probabilidad de que un individuo, que se sitúa en la categoría 1 de la variable A, se ubique en la categoría 1 de la variable B ( p1 1 ) y la probabilidad de que un individuo encuadrado en la categoría 1 de la variable A se encuadre en la categoría 2 de la variable B ( p2 1 ), es decir: Ω1 = p1 1 p2 1 p11 p p = 1. = 11 p12 p12 p1. Este cociente de probabilidades es un número real no negativo, de forma que un valor de Ω1 mayor que 1 indicará que la probabilidad de encuadrarse en la categoría 1 de la variable B es mayor que la probabilidad de encuadrarse en la categoría 2 de dicha variable, condicionado a que el individuo en cuestión se sitúe en la categoría 1 de la variable A; mientras que ocurrirá lo contrario si Ω1 es menor que 1. Por último, un valor de Ω1 igual a 1 será sinónimo de equiprobabilidad entre las categorías 1 y 2 de la variable B, dado que el individuo se encuadra en la categoría 1 de la variable A. De la misma forma, se define la ventaja para la categoría 2 de la variable A como: - 106 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Ω2 = p1 2 p2 2 p21 p p = 2. = 21 p22 p22 p2. A partir de estos dos conceptos, se define el ratio de producto cruzado6 como el cociente entre Ω1 y Ω 2 , es decir: α= p11 p12 p11 × p22 = p21 p22 p12 × p21 El ratio de producto cruzado es también un número real no negativo, de manera que si α > 1 los individuos situados en la categoría 1 de la variable A tendrán una probabilidad mayor de encuadrarse en la categoría 1 de la variable B que en la categoría 2 de dicha variable, mientras que un valor de α menor que 1 implica justamente la 6 Según el modelo muestral empleado, la expresión del ratio de producto cruzado será diferente, aunque su significado bajo la hipótesis de independencia sea el mismo en los tres modelos muestrales y aunque el procedimiento de contrastación de la hipótesis de independencia sea idéntico en todos los modelos. Así, la expresión del ratio de producto cruzado será la siguiente según el modelo muestral empleado: - Modelo de Poisson: α= λ 11 × λ 22 λ 12 × λ 21 - Modelo multinomial: α= p11 × p22 p12 × p21 - Modelo producto-multinomial: α= p1 1 × p2 2 p1 2 × p2 1 - 107 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ interpretación contraria. Finalmente, si las variables A y B son independientes, el ratio de producto cruzado será igual a 1, ya que se verifica lo siguiente7: α= p11 × p22 p × p.1 × p2. × p.2 = 1. =1 p12 × p21 p1. × p.2 × p2. × p.1 En definitiva, para probar si dos variables categóricas A y B en una tabla 2x2 son independientes, basta con contrastar la hipótesis: H 0: α = 1 H1: α ≠ 1 si bien la formulación de H0 más comúnmente empleada es la que expresa el ratio de producto cruzado en forma de logaritmos, es decir: H 0 : log α = 0 H1: log α ≠ 0 Dado que α es un parámetro desconocido ( puesto que se define en función de las probabilidades desconocidas pij ), es necesario obtener la estimación máximoverosímil de α, la cual vendrá dada por: 7 Así, la independencia entre las variables A y B implica que la probabilidad de que un individuo se encuadre en la categoría 1 de la variable B es la misma tanto si dicho individuo ha quedado encuadrado en la categoría 1 de la variable A como si se ha encuadrado en la categoría 2 de dicha variable. En otras palabras, la variable A no condiciona a la variable B. - 108 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ α! = p!11 × p! 22 p!12 × p! 21 y puesto que la estimación MV de cada pij es: p!ij = nij N tendremos que la expresión del valor observado o empírico de α será la siguiente: α! = n11 × n22 n12 × n21 con lo que: n × n22 log α! = log 11 n12 × n21 Puede demostrarse que la estimación de la desviación estándar asintótica de log α! es la siguiente: S!log α! = 1 1 1 1 + + + n11 n12 n21 n22 - 109 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ y que E( log α! ) = log α . En el supuesto de independencia entre las variables categóricas A y B, puede demostrarse que para tamaños de muestra suficientemente grandes, log α! es 2 asintóticamente normal con media log α y con varianza S!log α! , es decir: Zα! ≅ log α! − log α log α! = ≈ N (0;1) S!log α! S!log α! De esta forma, comparando el valor de Zα! con los correspondientes valores tabulados de la N(0;1) ( ± 1,96 para un α = 0,05 ), es posible contrastar la hipótesis de independencia de las variables categóricas dicotómicas que forman la tabla de contingencia 2x2. 4º) Test Q de Yule: ! = n11 × n22 − n12 × n21 = α! − 1 Q n11 × n22 + n12 × n21 α! + 1 ! = 0 ( es Este test toma valores comprendidos entre -1 y +1, de forma que si Q decir, α! = 1 ), las dos variables categóricas en cuestión serán independientes. - 110 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ 5º) Coeficiente Y de Yule: ! = Y α! − 1 α! + 1 El campo de variación de este test está comprendido entre -1 y +1. Al igual que ! = 0 ( esto es, α! = 1 ), podrá admitirse que las dos ocurre con el test anterior, si Y variables categóricas son estadísticamente independientes. 3.4.2. Medidas de asociación para tablas IxJ. 1º) Coeficiente Φ: Φ= X2 N El valor de este coeficiente no depende del tamaño muestral N, por lo que puede ser empleado para comparar diferentes tablas. X 2 es el valor del test estadístico de Pearson para tablas IxJ. Este test jamás toma valores negativos y será igual a 0 cuando las variables categóricas sean independientes. En consecuencia, cuanto mayor sea el valor del coeficiente Φ, mayor será también el grado de asociación entre las variables. El principal inconveniente de este test es que puede tomar valores mayores que 1. - 111 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ 2º) Coeficiente de contingencia: C= X2 X2 + N Para salvar el inconveniente del test anterior, Pearson propuso en 1904 el llamado coeficiente de contingencia, el cual tomará siempre valores comprendidos entre 0 y 1, de forma que cuando las dos variables categóricas sean independientes, C tomará el valor 0. Este coeficiente puede utilizarse también para comparar diferentes tablas. 3º) Test V de Cràmer: V= X2 N min ( I − 1, J − 1) El campo de variación de V va de 0 a 1, de forma que dicho test sólo será igual a 0 cuando las variables A y B ( con I y J categorías, respectivamente ) sean independientes. Posiblemente V sea el mejor coeficiente para comparar distintas tablas. 4º) Ratio de producto cruzado: El ratio de producto cruzado puede emplearse igualmente para contrastar la hipótesis de independencia entre variables en una tabla IxJ. Así, dada la variable categórica A con I categorías y la variable categórica B con J categorías, puede - 112 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ demostrarse que si estas dos variables son independientes ( pij = pi . × p. j ∀i , j ), todos los posibles ratios de producto cruzado serán iguales a 1, es decir: pij × pi ′j ′ pi . × p. j × pi ′ . × p. j ′ = =1 pij ′ × pi ′j pi . × p. j ′ × pi ′ . × p. j para todo i, i ′ = 1, 2, ..., I y para todo j, j ′ = 1, 2, ..., J. Además, la implicación contraria también se verifica, ya que si todos los ratios de producto cruzado son iguales a 1, entonces las variables categóricas son independientes entre sí ( Christensen, 1990, pag. 38 ). Si para todo i, i ′ , j y j ′ , los ratios de producto cruzado son iguales a 1, se verifica que pij × pi ′j ′ = pij ′ × pi ′j . Así, y I J teniendo en cuenta que p.. = ∑ ∑ pi ′j ′ = 1, se verifica que: i ′ =1 j ′ =1 I J I J I J I J i ′ =1 j ′ =1 pij = pij × p.. = pij × ∑ ∑ pi ′j ′ = ∑ ∑ pij × pi ′j ′ = ∑ ∑ pij ′ × pi ′j = ∑ pi ′j ∑ pij ′ = pi . × p. j i ′ =1 j ′ =1 i ′ =1 j ′ =1 i ′ =1 j ′ =1 Es evidente que las probabilidades pij se desconocen, por lo que las estimaciones de las mismas ( p!ij ) permiten obtener los ratios de producto cruzado estimados: p!ij × p!i ′j ′ nij × ni ′j ′ = p!ij ′ × p!i ′j nij ′ × ni ′j para todo i, i ′ , j y j ′ - 113 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Normalmente, se suele utilizar el logaritmo del ratio de producto cruzado estimado para contrastar la hipótesis de independencia: pij × pi ′j ′ = 0 H 0 : log pij ′ × pi ′j pij × pi ′j ′ ≠ 0 H 1 : log pij ′ × pi ′j Puede demostrarse que el valor esperado del logaritmo de cada ratio de producto cruzado estimado es: p! × p!i ′j ′ p × pi ′j ′ = log ij E log ij pij ′ × pi ′j p!ij ′ × p!i ′j Asimismo, es posible demostrar que, para tamaños de muestra suficientemente grandes, la desviación típica del logaritmo de cada ratio de producto cruzado estimado es igual a: p! × p!i ′j ′ = d.e. log ij p!ij ′ × p!i ′j 1 1 1 1 + + + nij nij ′ ni ′j ni ′j ′ De esta forma, la distribución asintótica del logaritmo de cada ratio de producto cruzado estimado es normal, verificándose lo siguiente: - 114 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ ZV = nij × ni ′j ′ log n n × ij ′ i ′j ≈ N (0;1) 1 1 1 1 + + + nij nij ′ ni ′j ni ′j ′ lo que nos va a permitir contrastar la hipótesis H 0 , comparando ZV con los valores tabulados de la N(0;1). 5º) Coeficiente τ de Goodman y Kruskal: I τ! B A = J 2 J n 2 N ∑ ∑ ij − ∑ n. j i = 1 j = 1 ni . j =1 J N 2 − ∑ n. j 2 j =1 Este coeficiente es una de las medidas de reducción proporcional del error predictivo, que se basan en la mejora de la capacidad para predecir la clasificación de una variable a partir del conocimiento de la otra variable. El coeficiente τ! B A trata a las dos variables categóricas A y B de forma asimétrica, puesto que expresa la reducción de la probabilidad del error de predicción de la variable B como consecuencia del conocimiento de la clasificación de los individuos de acuerdo con la variable A. El campo de variación de τ! B A oscila entre 0 y 1, de forma que si las variables categóricas A - 115 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ y B son independientes, el coeficiente τ! B A tomará el valor cero8. 6º) Coeficiente de incertidumbre: I N × nij log ni . × n. j j =1 J n n. j log . j ∑ N j =1 J ∑∑n ij U! B A = − i =1 Este coeficiente, propuesto por Theil en 1970, está muy relacionado con el anterior, ya que expresa, en términos de probabilidad, la reducción en la incertidumbre sobre la variable B que se produce como consecuencia de conocer la clasificación de los individuos de acuerdo con la variable A. Por su propia definición, el campo de variación 8 En cualquier caso, también podría calcularse la reducción en la probabilidad del error de predicción de la variable A a partir del conocimiento de la clasificación de la variable B mediante el siguiente índice: I N τ! A B = J 2 I nij − ∑1 ∑1 n ∑1 ni.2 i= j= i= .j I N 2 − ∑ ni . 2 i =1 Obviamente, los coeficientes τ! B A y τ! A B están diseñados para su utilización en la situación asimétrica en la que están claramente definidas la variable respuesta y la variable explicativa. En cualquier caso, existe también un coeficiente para la situación simétrica en la que ninguna variable se designa para predecir a la otra. Dicho coeficiente viene dado por: 2 I J J I J n2 n I 2 2 N ∑ ∑ ij + ∑ ∑ ij − ∑ ni . − ∑ n. j j =1 i = 1 j = 1 n. j i = 1 j = 1 ni . i =1 τ! = I J 2 2 2 N 2 − ∑ ni . − ∑ n. j i =1 j =1 y expresa la reducción en la probabilidad del error de predicción de cualquier variable cuando se pasa de desconocer a conocer la clasificación de la otra variable. Como resulta evidente, τ! siempre tomará valores comprendidos entre los correspondientes valores de - 116 - τ! B A y de τ! A B . Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ de U! B A oscila entre 0 y 1, de forma que cuando este coeficiente toma el valor 0, se puede admitir que existe independencia entre las dos variables categóricas que forman la tabla de contingencia. 3.5. INDEPENDENCIA EN TABLAS TRIDIMENSIONALES. Consideremos a continuación una tabla de contingencia tridimensional que refleja la clasificación cruzada de tres variables categóricas, que denominaremos A, B y C, de forma que cada una de ellas posee I, J y K categorías, respectivamente. En dicha tabla, las frecuencias observadas se representarán por nijk , para i = 1, 2, ..., I; j = 1, 2, ..., J; k = 1, 2, ..., K y en la que los totales marginales se calcularán de la siguiente forma: J K nij . = ∑ nijk I ni .k = ∑ nijk k =1 n. jk = ∑ nijk j =1 J K i =1 J K j =1 k =1 I K i =1 k =1 I J i =1 j =1 ni .. = ∑ ∑ nijk = ∑ nij . = ∑ ni.k j =1 k =1 I K n. j . = ∑ ∑ nijk = ∑ nij . = ∑ n. jk i =1 k =1 I J n..k = ∑ ∑ nijk = ∑ ni .k = ∑ n. jk i =1 j =1 I J K n... = ∑ ∑ ∑ nijk i =1 j =1 k =1 - 117 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Los valores nij. definen una tabla marginal IxJ, de la misma forma que los valores ni .k definen una tabla marginal IxK y los valores n. jk definen una tabla marginal JxK. Las tablas de contingencia tridimensionales añaden un grado de dificultad a la interpretación de un modelo producto-multinomial, ya que podríamos tener muestras procedentes de I poblaciones independientes y clasificar cada muestra en JxK categorías, o bien podríamos tener muestras procedentes de IxJ poblaciones independientes y clasificar cada muestra en K categorías. En cualquier caso, e independientemente del modelo muestral utilizado, es patente la necesidad de trabajar con tablas tridimensionales, ya que el simple análisis de cada una de las tres tablas bidimensionales marginales resultantes no conduce generalmente a resultados fiables. E incluso, en algunos casos, pueden obtenerse conclusiones contradictorias, dando lugar a lo que se conoce como paradoja de Simpson, que se produce como consecuencia de que las tablas marginales otorgan ponderaciones inadecuadas a cada una de las poblaciones, circunstancia que en ningún caso se produce si se analizan las relaciones conjuntas de todas las variables categóricas que forman la tabla de contingencia. En definitiva, se impone la necesidad de trabajar con tablas tridimensionales, ya que, con carácter general, unas conclusiones fiables no son posibles examinando cada una de las tres tablas bidimensionales que se derivan de aquellas. De hecho, es muy habitual que las conclusiones obtenidas a partir de tablas marginales bidimensionales sean rebatidas por las conclusiones alcanzadas en el análisis - 118 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ tridimensional. La conclusión a la que nos conduce la paradoja de Simpson es que no se debe confiar excesivamente en las conclusiones alcanzadas a partir de tablas marginales y que generalmente es necesario considerar todas las dimensiones de la tabla. Pasando al análisis de la independencia en tablas tridimensionales, y a diferencia de lo que ocurría en una tabla bidimensional ( en la que existía únicamente un modelo de interés: la independencia entre la variable A y la variable B ), son varios los modelos de independencia que pueden formularse. Los modelos de independencia de mayor interés en una tabla de contingencia tridimensional son el modelo de independencia completa, los modelos con una variable independiente de las dos restantes y el modelo de independencia condicionada. 1º) Modelo de independencia completa: En términos de probabilidad, el modelo de independencia completa implica que: M ( 0 ) : pijk = pi .. × p. j . × p..k (3.4) A partir de las nociones básicas sobre teoría de grafos introducidas en el capítulo anterior, el modelo de independencia completa se representará gráficamente de la siguiente forma: - 119 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ A C B B La estimación por máxima verosimilitud de las pijk bajo el anterior modelo vienen dadas por: p!ijk( 0) = p!i .. × p!. j . × p!..k = ni .. n. j . n..k × × n... n... n... y puesto que mijk = n... × pijk , la estimación por máxima verosimilitud de mijk es la siguiente: m! ijk( 0 ) = n... × p!ijk( 0) = ni .. × n. j. × n..k n...2 El estadístico chi-cuadrado de Pearson para medir la bondad de ajuste del modelo viene dado por: I J K X 2 = ∑∑∑ (n i =1 j = 1 k = 1 - 120 - ijk − m! ijk( 0) m! ijk( 0) ) 2 Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ mientras que el test de la razón de verosimilitud será: I J K G 2 = 2 ∑ ∑ ∑ nijk × log i =1 j =1 k =1 nijk m! ijk( 0) La hipótesis de independencia mútua de las tres variables será rechazada a un nivel de significación α si X 2 ( o G 2 ) es mayor que χ 12−α , IJK − I − J − K + 2 . Al igual que en el caso bidimensional, se pueden emplear los residuos ajustados para identificar las casillas que contribuyen significativamente a la falta de ajuste del modelo: rijk = nijk − m! ijk( 0 ) m! ijk( 0 ) × ν! ijk Finalmente, en el modelo de independencia completa también puede ocurrir que una o varias variables sean equiprobables. Así, las categorías de la variable A serán 1 equiprobables si se verifica que pi.. = . De la misma forma, las categorías de las I variables B y C serán equiprobables si se verifica que p. j . = respectivamente. - 121 - 1 1 y que p..k = , J K Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ 2º) Modelos con una variable independiente de las dos restantes: Si se están analizando tres variables categóricas, es posible formular tres modelos en los que una variable es independiente de las otras dos. Estos modelos son los siguientes: M (1) : pijk = pi .. × p. jk (3.5) M ( 2 ) : pijk = p. j . × pi .k (3.6) M ( 3) : pijk = p..k × pij . (3.7) Se puede observar que este tipo de modelos, al no especificarse la relación existente entre las dos variables que son independientes de la tercera9, incluyen el modelo de independencia completa M ( 0) , ya que si las dos variables independientes de la tercera son a su vez independientes, se estará ante el modelo de independencia completa. De hecho, siempre que se verifique el modelo M ( 0) se verificarán también los modelos M (1) , M ( 2 ) y M (3) . El modelo M (1) es equivalente a la independencia en una tabla bidimensional Ix(JK), donde las columnas de dicha tabla son todas las posibles combinaciones de las 9 (1) Por ejemplo, el modelo M implica la independencia de la variable A con las variables B y C, pero no indica nada sobre la posible dependencia o independencia entre las variables B y C. - 122 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ variables B y C de la tabla de contingencia tridimensional. La representación gráfica del modelo M (1) sería la siguiente: A C B La estimación por máxima verosimilitud de las pijk bajo el modelo M (1) vendrán dadas por: p!ijk(1) = p!i .. × p!. jk = ni .. n. jk × n... n... de donde la estimación por máxima verosimilitud de mijk será: m! ijk(1) = n... × p!ijk(1) = n... × ni .. n. jk ni .. × n. jk × = n... n... n... De esta forma, el estadístico chi-cuadrado de Pearson para medir la bondad de ajuste del modelo M (1) viene dado por: - 123 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ I J K X = ∑∑∑ 2 (n i =1 j =1 k =1 ijk − m! ijk(1) ) 2 m! ijk(1) mientras que el test de la razón de verosimilitud será: I J K G 2 = 2 ∑ ∑ ∑ nijk × log i =1 j =1 k =1 nijk m! ijk(1) En ambos casos, la hipótesis que establece el modelo M (1) será rechazada a un nivel de significación α si X 2 ( o G 2 ) es mayor que χ 12−α , ( I −1)( JK −1) . El planteamiento de los modelos M ( 2 ) y M (3) es similar al del modelo M (1) , siendo sus respectivas representaciones gráficas las siguientes: Para el modelo M ( 2 ) : A C B - 124 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Para el modelo M (3) : A C B 3º) Modelos de independencia condicionada: Podría ocurrir que, dada una categoría determinada de una variable, las otras dos variables fuesen independientes. A partir de la definición de probabilidad condicionada, la probabilidad asociada a la categoría i de la variable A y a la categoría j de la variable B, dada la categoría k de la variable C, vendría dada por: pij k = pijk p..k Pues bien, la independencia condicionada de las variables A y B para cada categoría de la variable C, significa, para todo i, j y k, que: pij k = pi .k p. jk × p..k p..k - 125 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ A partir de las dos expresiones anteriores, el modelo de independencia condicionada de las variables A y B, dada cada categoría de la variable C, puede escribirse como sigue: pijk = pi .k × p. jk p..k Pero la independencia condicionada entre las variables A y B puede depender o no de cada categoría concreta de la variable C. Si las variables A, B y C son mútuamente independientes, entonces: pij k = pijk pi .. × p. j . × p..k = = pi.. × p. j . p..k p..k Por el contrario, si la variable A es independiente de las variables B y C se verificará que: pij k = pijk pi .. × p. jk = p..k p..k De igual forma, si la variable B es independiente de las variables A y C, se tendrá que: - 126 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ pij k = pijk pi .k × p. j . = p..k p..k Cuando dos variables categóricas son independientes, dada una categoría determinada de una tercera variable, surgen los tres modelos de independencia condicionada siguientes: a) Las variables A y B son independientes dada una categoría determinada de la variable C: M ( 4 ) : pijk = pi .k × p. jk p..k (3.8) cuya representación gráfica es: A C B b) Las variables A y C son independientes dada una categoría determinada de la variable B: - 127 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ M (5) : pijk = pij . × p. jk p. j . (3.9) siendo su representación gráfica la siguiente: A C B c) Las variables B y C son independientes dada una categoría determinada de la variable A: M ( 6) : pijk = pij . × pi .k pi .. La representación gráfica del modelo M ( 6) será la siguiente: A C B - 128 - (3.10) Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Las estimaciones por máxima verosimilitud de pijk para el modelo M ( 4 ) vendrán dadas por: ( 4) p!ijk = p!i .k × p!. jk p!..k ni.k n. jk × n × n. jk n... n... = = i .k n..k n..k × n... n... En consecuencia, la estimación por máxima verosimilitud de mijk vendría dada, en este caso, por: ( 4) ( 4) m! ijk = n... × p!ijk = n... × ni .k × n. jk ni .k × n. jk = n..k × n... n..k Los tests estadísticos para medir la bondad de ajuste del modelo M ( 4 ) serán: I J K X = ∑∑∑ 2 (n ijk i =1 j =1 k =1 ( 4) − m! ijk ) 2 ( 4) m! ijk y I J K G 2 = 2 ∑ ∑ ∑ nijk × log i =1 j =1 k =1 nijk m! ijk( 4 ) En ambos casos, se rechazará el modelo M ( 4 ) a un nivel de significación α cuando X 2 o G 2 sea mayor que χ 12− α , ( I −1)( J −1) K . - 129 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ Finalmente, los modelos M (5) y M ( 6) son similares al modelo M ( 4 ) en términos de independencia estadística. Así pues, y como síntesis de lo expuesto hasta ahora, para una tabla de contingencia tridimensional pueden formularse un total de siete modelos de independencia ( modelos M ( 0) a M ( 6) ), a diferencia del caso bidimensional, en el que sólo puede plantearse un único modelo de independencia. Como fácilmente puede observarse, la generalización de los modelos de independencia a una tabla formada por más de tres variables es inmediata y no plantea absolutamente ningún problema conceptual ni metodológico. Ahora bien, de la misma forma que para el caso bidimensional se define un conjunto de medidas estadísticas que permiten contrastar la validez del modelo de independencia, cuando se trabaja con una tabla de contingencia de dimensión tres o superior, la contrastación de los múltiples modelos de independencia asociados a la misma no es posible a través de las medidas de asociación utilizadas en tablas bidimensionales. Surge entonces la necesidad de instrumentar una técnica que permita verificar estadísticamente este conjunto de modelos. Esta técnica es el denominado modelo logarítmico-lineal, que consiste básicamente en la descomposición del logaritmo de las frecuencias esperadas de la tabla de contingencia en una serie de términos que representan, además del efecto global y de los efectos primarios de las variables de la tabla, los efectos de interacción entre las mismas. La contrastación de la - 130 - Capítulo Tercero: Tablas de Contingencia ____________________________________________________________________________________ significatividad estadística de estos efectos de interacción permitirá al investigador verificar si un modelo de independencia determinado puede o no ser aceptado. Dada la importancia que esta técnica estadística tiene para este trabajo de investigación, el Capítulo Cuarto se dedicará íntegramente a presentar el modelo log-lineal, a interpretar estadísticamente sus parámetros, a comentar los métodos de estimación de dichos parámetros y los criterios de selección de modelos, etc. - 131 - CA PÍ T U L O CU A R T O EL MODELO LOG-LINEAL GENERAL Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.1. INTRODUCCIÓN. Desde la introducción por K. Pearson ( 1895 ) del estudio de familias de distribuciones de probabilidad continuas univariantes a partir de una ecuación diferencial, han sido numerosos los autores que, siguiendo la línea marcada por este autor, han desarrollado sistemas de familias de distribuciones multivariantes. Entre estos autores, destacan Van Uven ( 1947 ), Ork ( 1967 ), Elderton y Johnson ( 1969 ), Herrerías ( 1975, 1976 ), Fajardo ( 1985 ) y Callejón ( 1994 ), cuyos objetivos eran obtener nuevas distribuciones teóricas que pudieran servir de modelo para los diversos fenómenos que ocurren en las Ciencias Sociales, así como la obtención de las propiedades inherentes a las mismas. En la última década, y de forma similar a los estudios anteriores, se han generado modelos de distribuciones de probabilidad discretas mediante el desarrollo del logaritmo de la función de probabilidad conjunta en función de términos τ . Estos modelos son conocidos con el nombre de modelos log-lineales, los cuales son de aplicación general a tablas de contingencia, en las que las relaciones entre las variables pueden modelizarse a partir de estos términos τ . De estas relaciones, destacan especialmente las de independencia, ya tratadas anteriormente por algunos autores ( véase Fajardo, 1985 ). El origen de estos nuevos modelos se encuentra en la incapacidad de las herramientas estadísticas presentadas en el capítulo anterior para contrastar la independencia o la asociación entre variables cuando el análisis se generaliza a tres o - 135 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ más variables. Se impone, en consecuencia, la necesidad de buscar un nuevo instrumento estadístico que posibilite la contrastación de estas y de otras muchas hipótesis de independencia de una forma sencilla y fiable. En una primera aproximación, el modelo logarítmico-lineal puede considerarse una técnica análoga al Análisis de la Varianza, pero referida exclusivamente a variables categóricas. Esta analogía entre la ANOVA y el modelo log-lineal se plasma, entre otras cosas, en la terminología propia de este último ( se hablará de interacción, en lugar de asociación, para hacer referencia a la relación existente entre dos o más variables categóricas de la tabla de contingencia ) y en la descomposición de las frecuencias esperadas de la tabla multidimensional ( al igual que en la ANOVA se descompone la suma total de cuadrados para detectar las fuentes de variación, en el modelo log-lineal las frecuencias esperadas se descomponen para identificar la independencia o la asociación entre dos o más factores de la tabla ). Otra característica esencial del modelo log-lineal, que lo diferencia del modelo de regresión clásico, es que la totalidad de variables que intervienen en el mismo interactúan entre sí, en el sentido de que una variable A puede influir sobre una variable B, pero, a su vez, esta última puede también influir sobre aquella. Esto significa que el modelo log-lineal no distingue entre variables explicativas y variables dependientes, como ocurre en el modelo de regresión, sino que todas las variables analizadas son tratadas como variables explicativas de las demás o como variables explicadas por las demás. En otros términos, a diferencia de la relación asimétrica que se establece entre - 136 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ las variables en un modelo de regresión, en un modelo log-lineal se presume que las relaciones existentes entre las variables categóricas objeto de análisis son de naturaleza simétrica. Al objeto de delimitar conceptualmente toda la problemática generada en torno al modelo log-lineal, se estructurará el presente Capítulo en tres partes claramente diferenciadas. En la primera parte, se introducirá el modelo log-lineal general, tanto para una tabla bidimensional como para una tabla tridimensional ( la generalización a más variables es inmediata ), se formularán las hipótesis que implican los diferentes modelos log-lineales que pueden proponerse y se interpretará el significado de cada modelo loglineal en términos de independencia y de independencia condicionada. En la segunda parte del capítulo, se abordará toda la problemática relativa a la estimación de los parámetros del modelo y a la selección del modelo óptimo haciendo uso, para ello, de las herramientas gráficas presentadas en el Capítulo Segundo. Finalmente, en la tercera parte se presenta el modelo logit para variables categóricas como una reparametrización del modelo log-lineal, a partir de la cual se podrán estimar las probabilidades asociadas a las categorías de la variable respuesta, considerando tanto el caso en el que dicha variable es dicotómica como la problemática que se plantea cuando la misma posee más de dos categorías. - 137 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.2. MODELIZACIÓN LOGARÍTMICO-LINEAL. 4.2.1. Tablas bidimensionales. Según se comentó en el capítulo precedente, las dos variables categóricas de una tabla de contingencia bidimensional serán estadísticamente independientes si y sólo si se verifica que todas las probabilidades conjuntas pij se pueden factorizar como producto de las probabilidades marginales pi. y p. j , es decir: pij = pi . × p. j ∀i , j (4.1) lo que permitiría expresar las frecuencias esperadas mij de la siguiente forma: mij = mi . × m. j N (4.2) Tomando logaritmos neperianos en la expresión (4.2), se tendrá que: ( ) ( ) ln mij = ln(mi . ) + ln m. j − ln( N ) (4.3) Sea τ 0 la media de todos los logaritmos de las frecuencias esperadas, es decir, τ0 = 1 IJ ∑ ∑ ln(m ) . I J ij Sumando la expresión (4.3) respecto a i y respecto a j y i =1 j =1 dividiendo entre IJ, se tendrá que: - 138 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ τ0 = 1 I 1 ln(mi . ) + ∑ I i =1 J ∑ ln(m ) − ln( N ) J (4.4) .j j =1 Por otra parte, sea τiA la diferencia entre la media de los logaritmos de las frecuencias esperadas en las J casillas para la categoría i de la variable A y la media de todos los logaritmos de las frecuencias esperadas: τiA = 1 J de forma que τiA + τ 0 = ∑ ln(m ) − IJ ∑ ∑ ln(m ) = J ∑ ln(m ) − τ J 1 I J 1 ij j =1 1 J J ij ij i =1 j =1 0 j =1 ∑ ln(m ) . J ij j =1 Sumando la expresión (4.3) con respecto a j y dividiendo entre J, se tendrá que: τiA + τ 0 = ln(mi . ) + 1 J ∑ ln(m ) − ln( N ) J .j j =1 y restando (4.4) de esta expresión τiA = ln(mi. ) − 1 I ∑ ln(mi. ) I i =1 (4.5) Sea τ Bj la diferencia entre la media de los logaritmos de las frecuencias esperadas en las I casillas para la categoría j de la variable B y la media de todos los logaritmos de las frecuencias esperadas: - 139 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ τ Bj = 1 I de forma que τ Bj + τ 0 = ∑ ln(m ) − IJ ∑ ∑ ln(m ) = I ∑ ln(m ) − τ I 1 I J ij ij i =1 1 I I 1 ij i =1 j =1 0 i =1 ∑ ln(m ) . I ij i =1 Sumando la expresión (4.3) con respecto a i y dividiendo entre I, tendremos que: ( ) τ + τ 0 = ln m. j B j 1 I + ∑ ln(mi . ) − ln( N ) I i =1 y restando la expresión (4.4) de la expresión anterior se obtiene que: ( ) τ Bj = ln m. j − 1 J ∑ ln(m ) J (4.6) .j j =1 A continuación, y a partir de las expresiones (4.5) y (4.6), podemos sustituir ( ) ln(mi . ) y ln m. j en la expresión (4.3), los que nos conducirá a: ( ) 1 I 1 ln mij = τ + ∑ ln(mi. ) + τ Bj + I i =1 J A i ∑ ln(m ) − ln( N ) J .j j =1 lo cual, y considerando la expresión (4.4), nos conduce finalmente a: ( ) ln mij = τ 0 + τiA + τ Bj - 140 - (4.7) Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ La expresión anterior se conoce como “modelo log-lineal” para las frecuencias esperadas mij , bajo la hipótesis de que las variables A y B son independientes. Algunos comentarios sobre este modelo pondrán de manifiesto sus analogías con el Análisis de la Varianza. Así, a partir de las expresiones (4.5) y (4.6) se demuestra que I ∑ τiA = 0 y que i =1 J ∑τ B j = 0 . También por analogía con el Análisis de la Varianza j =1 designaremos a los términos τiA y τ Bj como efectos primarios de las categorías en la tabla bidimensional. El conjunto de efectos primarios τiA ( i = 1, 2, ..., I ) recoge las diferencias en los valores marginales de las filas de la tabla, mientras que el conjunto de efectos τ Bj ( j = 1, 2, ..., J ) recoge las diferencias en los valores marginales de las columnas de la tabla. El modelo (4.7) se ha obtenido suponiendo que las variables A y B son independientes, y que la variación en los τiA y en los τ Bj es la única variación posible en la tabla cuando se impone esta restricción. Si las variables A y B no son independientes, habrá alguna asociación entre las mismas, lo que implica que las frecuencias esperadas de la tabla se verán afectadas por los valores de las combinaciones (i,j) de las variables A y B. Volviendo a la terminología del Análisis de la Varianza, podríamos decir que existirá una interacción entre las categorías de la variable A y las categorías de la variable B. Si la expresión (4.7) representa un modelo para los datos de la tabla en - 141 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ausencia de interacción, parece razonable postular que el modelo completo se plantee de la siguiente forma: ( ) ln mij = τ 0 + τiA + τ Bj + τijAB (4.8) donde τijAB representa el término de interacción para las categorías (i,j) de las variables A y B. La expresión del término τijAB se obtiene de forma similar a como se han deducido las expresiones de los términos τ 0 , τiA y τ Bj , teniendo en cuenta únicamente que, cuando las dos variables de la tabla están asociadas, la probabilidad conjunta pij debe factorizarse como pij = pi . × p. j × kij , donde kij cuantifica el efecto conjunto de la categoría i-ésima de la variable A y de la categoría j-ésima de la variable B. De esta forma, y mediante un desarrollo similar al anteriormente expuesto, el efecto de interacción τijAB vendrá dado por la siguiente expresión: ( ) τijAB = ln mij − ( ) 1 I 1 ln mij − ∑ I i =1 J ∑ ln(m ) + IJ ∑ ∑ ln(m ) J 1 I J ij j =1 ij (4.9) i =1 j =1 Continuando con las analogías con el Análisis de la Varianza, estos términos de interacción deben satisfacer las siguientes restricciones: I ∑τ i =1 J AB ij = ∑ τijAB = 0 j =1 - 142 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Debido a estas restricciones, y a las anteriores referidas a los τiA y a los τ Bj , el modelo (4.8) contiene un total de 1+(I-1)+(J-1)+(I-1)(J-1) = IJ parámetros desconocidos. Si este modelo se ajusta a una tabla IxJ de frecuencias observadas, estos IJ parámetros desconocidos deberán estimarse a partir de IJ casillas, lo que implica la existencia de un ajuste perfecto de dicho modelo a los datos. Este es el motivo por el que al modelo (4.8) también se le conoce con el nombre de modelo saturado o modelo completo. En consecuencia, puede definirse al modelo saturado como aquel que incluye todos los efectos primarios y todos los efectos de interacción existentes entre el conjunto de variables que forman la tabla de contingencia. Para probar la hipótesis nula de no asociación entre las variables A y B, bastará contrastar si en el modelo (4.8) se verifica la hipótesis H 0 : τijAB = 0 , para todo i y para todo j. De esta forma, se podrían ajustar sucesivamente el modelo (4.8) y el modelo (4.7) a los datos, de forma que si el ajuste de este último es significativamente peor que el ajuste del primero, la hipótesis nula se rechazará, mientras que en caso contrario dicha hipótesis será aceptada. Llegados a este punto, podemos afirmar que si en una tabla de contingencia bidimensional se verifica que pij = pi . × p. j , para todo i y para todo j, las relaciones entre las dos variables categóricas de la tabla puede modelizarse a través del modelo ( ) log-lineal ln mij = τ 0 + τiA + τ Bj . En otros términos, la independencia entre las variables A y B implica el anterior modelo log-lineal. Además, la implicación contraria también se verifica, la cual es, a juicio de Christensen ( 1990, pp. 48-49 ), más importante que la - 143 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ primera implicación. Este autor demuestra, a partir de un modelo de muestreo ( ) multinomial, que si el modelo ln mij = τ 0 + τiA + τ Bj se verifica, entonces pij = pi . × p. j , para todo i y para todo j, lo que nos da pie a concluir afirmando que: pij = pi . × p. j ( ) ⇔ ln mij = τ 0 + τiA + τ Bj 4.2.2. Tablas tridimensionales. La metodología expuesta para el análisis bidimensional puede extenderse a tablas de dimensión superior. Ilustraremos esta extensión para tablas tridimensionales. El modelo log-lineal saturado para estas tablas, en las que se recoge la clasificación cruzada de las variables A, B y C ( que poseen i, j y k categorías, respectivamente ), es el formado por todos los efectos primarios y por todos los efectos de interacción que puedan establecerse para estas tres variables. En consecuencia, la expresión de dicho modelo será la siguiente1: ABC log mijk = τ 0 + τiA + τ Bj + τ Ck + τ ijAB + τ ikAC + τ BC jk + τ ijk (4.10) donde τ 0 es el efecto global; τiA , τ Bj y τ Ck son los efectos primarios; τijAB , τikAC y τ BC jk 1 En lo sucesivo, se designará por log mi al logaritmo neperiano de las frecuencias esperadas mi . Por consiguiente, todos los logaritmos considerados en este y en posteriores capítulos son logaritmos en base e. - 144 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ reciben el nombre de efectos de interacción de segundo orden; y τijkABC se conoce con el nombre de efecto de interacción de tercer orden. El modelo (4.10) verifica las siguientes restricciones: I ∑τ J K j =1 k =1 = ∑ τ Bj = ∑ τ Ck = 0 A i i =1 I ∑ τijAB = i =1 I ∑τ = AC ik i =1 J = BC jk j =1 ∑ τijkABC = i =1 ∑τ AB ij =0 AC ik =0 BC jk =0 j =1 K ∑τ k =1 ∑τ I J K ∑τ k =1 J ∑ τijkABC = j =1 K ∑τ ABC ijk =0 k =1 El efecto de interacción de tercer orden τijkABC vendrá dado por la siguiente expresión: ( ) ∑ log (m ) ∑ log m I τ ABC ijk ( ) = log mijk − I + ∑ log mijk i =1 I J − j =1 − J ijk k =1 K ∑ ∑ log (m ) I K ijk J ijk + i =1 j =1 IJ + ( ) ∑ ∑ log (m ) ∑ ∑ ∑ log (m ) k ∑ ∑ log mijk i =1 k =1 IK J k I J K ijk + j =1 k =1 JK - 145 - ijk − i =1 j =1 k =1 IJK (4.11) Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ mientras que los efectos de interacción de segundo orden vendrán dados por: ( ) K τ ijAB = ∑ log mijk k =1 K ( ) J τ AC ik = ∑ log mijk j =1 J ( ) I τ BC jk = ∑ log mijk i =1 I J − ∑ ∑ log mijk j =1 k =1 JK J − ( ) K ∑ ∑ log mijk j =1 k =1 JK I − ( ) ∑ ∑ log (m ) ∑ ∑ ∑ log (m ) K ( ) K ∑ ∑ log mijk i =1 k =1 IK I − ijk i =1 k =1 IK I − J K ijk + i =1 j =1 k =1 IJK (4.12) ( ) ∑ ∑ ∑ log (m ) J ∑ ∑ log mijk i =1 j =1 IJ I − I K I J K ijk + i =1 j =1 k =1 (4.13) IJK ( ) ∑ ∑ ∑ log (m ) J ∑ ∑ log mijk i =1 j =1 IJ I J K ijk + i =1 j = 1 k = 1 IJK (4.14) A diferencia de lo que ocurría en el caso bidimensional, cuando la tabla de contingencia es de dimensión tres son varios los modelos de independencia que podrían formularse. Así, se podría postular un modelo en el que el efecto de interacción de tercer orden τijkABC estuviese ausente, lo que implicaría que cada efecto de interacción de segundo orden no está afectado por cada categoría de la tercera variable. Estaríamos en este caso ante un modelo de asociación parcial entre cada par de variables. Otro modelo que podría formularse sería aquel en el que, además del efecto de interacción de tercer orden, uno de los tres efectos de segundo orden fuese igual a cero. Este modelo, del que existirían tres versiones ( resultantes de eliminar los efectos τijAB , τikAC y τ BC jk , respectivamente ), recibe el nombre de modelo de independencia condicionada. Podría ocurrir también que fuesen nulos el efecto de tercer orden y dos de los tres efectos de segundo orden del modelo saturado, lo que daría lugar al llamado modelo de independencia parcial, del que también existirían tres versiones. Finalmente, podría - 146 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ suceder que todos los efectos de interacción del modelo saturado ( tanto el de tercer orden como los de segundo orden ) estuvieran ausentes del mismo. En este caso particular, estaríamos ante un modelo que incluiría únicamente el efecto global y los tres efectos primarios de las variables recogidas en la tabla de contingencia. Dicho modelo recibe el nombre de modelo de independencia completa. Como se ha puesto de manifiesto en el Capítulo anterior, cada uno de estos modelos ( que son casos particulares del modelo saturado (4.10) ) implican una hipótesis determinada que podría expresarse en términos de probabilidad según se muestra en el esquema siguiente: Modelo Modelo IC Hipótesis Efectos de interacción nulos pijk = pi .. × p. j . × p..k ∀ i, j,k τ ijkABC = τ ijAB = τ ikAC = τ BC jk = 0 Modelo IP1 pijk = pi .. × p. jk τ ijkABC = τ ijAB = τ ikAC = 0 ∀ i , j , k Modelo IP2 pijk = p. j . × pi .k τijkABC = τijAB = τ BC ∀ i, j,k jk = 0 Modelo IP3 pijk = p..k × pij . ∀ i, j,k τijkABC = τ ikAC = τ BC jk = 0 Modelo ICO2 pi .k × p. jk p..k p × pi .k pijk = ij . p. j . Modelo ICO3 pijk = Modelo ICO1 Modelo AP pijk = pij . × p. jk pi .. - τ ijkABC = τ ijAB = 0 ∀ i , j , k τ ijkABC = τ BC ∀ i, j,k jk = 0 τijkABC = τikAC = 0 ∀ i , j , k τ ijkABC = 0 ∀ i , j , k - 147 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ En consecuencia, de acuerdo con el anterior esquema y teniendo presente que cada una de las hipótesis planteadas implica que determinados parámetros del modelo saturado son nulos, los modelos log-lineales asociados a cada una de las anteriores hipótesis de independencia son los que vienen dados por las expresiones siguientes: Modelo de independencia completa: log mijk = τ 0 + τiA + τ Bj + τ Ck Modelo IC: ( M(0) ) Modelos de independencia parcial: Modelo IP1: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC jk ( M(1) ) Modelo IP2: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τikAC ( M(2) ) Modelo IP3: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τijAB ( M(3) ) Modelos de independencia condicionada: Modelo ICO1: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ikAC + τ BC jk ( M(4) ) Modelo ICO2: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τ BC jk ( M(5) ) Modelo ICO3: log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τikAC ( M(6) ) Modelo de asociación parcial: Modelo AP: log mijk = τ 0 + τiA + τ Bj + τ Ck + τijAB + τikAC + τ BC jk - 148 - ( M(7) ) Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.2.3. Jerarquía, notación abreviada e interpretación de modelos loglineales. Una de las condiciones que deben verificar los modelos log-lineales ( tanto los asociados a tablas bidimensionales como a tablas tridimensionales o de dimensión superior ) es que deben ser jerárquicos. Un modelo es jerárquico si incluye todos los efectos de interacción de orden inferior y todos los efectos primarios que puedan obtenerse a partir de un determinado efecto de interacción de orden superior. Así, por ejemplo, si el efecto de interacción τijkABC está incluido en el modelo, también deberán estar incluidos en el mismo los efectos de interacción de segundo orden τijAB , τikAC y τ BC jk y los efectos primarios τiA , τ Bj y τ Ck . Todos los modelos log-lineales que serán tratados en el presente capítulo son modelos jerárquicos. De acuerdo con el concepto de jerarquía, es evidente que algunos de los términos incluidos en los modelos log-lineales anteriormente enumerados son totalmente redundantes. Así, en el modelo ICO3 los parámetros τijAB y τikAC son suficientes para representar las relaciones de dependencia entre las tres variables categóricas de la tabla de contingencia, puesto que la inclusión de estos dos parámetros implica necesariamente la inclusión de los restantes parámetros τiA , τ Bj y τ Ck , dada la necesaria condición de jerarquía de todo modelo log-lineal. En consecuencia, el modelo ICO3 puede expresarse, empleando una notación abreviada, como [AB][AC]. De forma similar, el modelo IP1 puede representarse simplemente mediante los parámetros τiA y τ BC jk , dado - 149 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ que la presencia de estos dos parámetros implica necesariamente la existencia del resto de parámetros de dicho modelo. Por tanto, el modelo IP1 se expresaría abreviadamente como [A][BC]. En el esquema siguiente se muestra la notación abreviada de los ocho modelos anteriores: Modelo Modelo IC Notación abreviada [A][B][C] Modelo IP1 [A][BC] Modelo IP2 [B][AC] Modelo IP3 [C][AB] Modelo ICO1 [AC][BC] Modelo ICO2 [AB][AC] Modelo ICO3 [AB][BC] Modelo AP [AB][AC][BC] La notación abreviada no sólo identificará a cada modelo log-lineal, sino también a las tablas de contingencia marginales que deberán ajustarse para obtener las estimaciones máximo-verosímiles de los parámetros del modelo. Por otro lado, todos y cada uno de los modelos anteriores pueden expresarse en términos de independencia, de independencia condicionada o de distribución uniforme de las categorías de una variable categórica. Para ello, se expresará la independencia entre las variables A y B de forma simbólica como A ⊗ B ; la independencia condicionada entre las variables A y B, dada - 150 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ la variable C, como A ⊗ B C ; y la distribución uniforme2 de las categorías de la variable A como A = u . Además de lo anterior, un grupo de variables puede ser independiente de otra variable o de otro conjunto de variables. Así, la expresión A ⊗ (B,C) significa que la variable A es independiente tanto de B como de C. De acuerdo con esta nomenclatura, el modelo IC, cuya notación abreviada es [A][B][C], y que implica la independencia mútua entre las variables A, B y C, sería equivalente a la siguiente expresión: A ⊗ B⊗ C De forma similar, los restantes modelos considerados pueden expresarse en términos de independencia, de independencia condicionada o de distribución uniforme de la forma que refleja la Tabla 4.1. En cualquier caso, los modelos de independencia completa, de independencia parcial y de independencia condicionada no son los únicos que pueden formularse en 2 Una variable categórica A posee una distribución uniforme cuando el efecto primario decir: τiA = 0 ; ∀i = 1, 2, ..., I ⇒ A = u - 151 - τiA es nulo, es Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ una tabla de contingencia tridimensional. De hecho, es posible proponer otros modelos log-lineales, cuyas hipótesis e interpretación se muestran en la Tabla 4.2. Tabla 4.1 Interpretación en términos de independencia de modelos log-lineales Modelo Interpretación A ⊗ B⊗ C Modelo IC Modelo IP1 A ⊗ (B,C) Modelo IP2 B ⊗ (A,C) Modelo IP3 C ⊗ (A, B) Modelo ICO1 A⊗B C Modelo ICO2 A⊗C B Modelo ICO3 B⊗ C A Modelo AP -3 Tabla 4.2 Hipótesis e interpretación en términos de independencia de otros modelos log-lineales Modelo Hipótesis Interpretación [ABC] [BC] [AC] [AB] 1 pijk = × p. jk I 1 pijk = × pi .k J 1 pijk = × pij . K A ⊗ (B,C) ; A = u B ⊗ (A,C) ; B = u C ⊗ (A,B) ; C = u Continúa ... Tanto el modelo [ABC] ( modelo saturado ) como el modelo [AB][AC][BC] no tienen ninguna interpretación en términos de independencia ni de independencia condicionada, puesto que ambos modelos implican la dependencia mútua entre todas las variables que forman la tabla. La única diferencia entre los dos modelos es que en el modelo saturado las tres variables interactúan conjuntamente, mientras que en el modelo [AB][AC][BC] cada par de variables interactúa mútuamente. En definitiva, los modelos [ABC] y [AB][AC][BC] no equivalen a ningún tipo de hipótesis de independencia. 3 - 152 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ... viene de la página anterior Modelo [A][B] [A][C] [B][C] [A] [B] [C] -4 Hipótesis 1 pijk = pi .. × p. j . × K 1 pijk = pi .. × × p..k J 1 pijk = × p. j . × p..k I 1 1 pijk = pi .. × × J K 1 1 pijk = × p. j . × I K 1 1 pijk = × × p..k I J 1 pijk = I×J×K Interpretación A ⊗ B⊗ C;C= u A ⊗ B⊗ C; B= u A ⊗ B⊗ C;A = u A ⊗ B⊗ C; B= C = u A ⊗ B⊗C;A = C= u A ⊗ B⊗C;A = B= u A ⊗ B⊗C;A = B= C= u Finalmente, el carácter jerárquico de los modelos log-lineales presentados hace posible una esquematización gráfica que recoja el conjunto completo de modelos loglineales jerárquicos. Dicha esquematización es un retículo ordenado de modelos que va desde el saturado hasta el que sólo incluye el efecto global, pasando por el modelo de asociación parcial, por los modelos de independencia condicionada, por los modelos de independencia parcial, por el modelo de independencia completa y, finalmente, por los modelos de equiprobabilidad condicionada. Este esquema es el que aparece recogido en la página siguiente. 4 El modelo log-lineal en el que las tres variables son mútuamente independientes y además sus categorías siguen una distribución uniforme no tiene notación abreviada. - 153 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Modelo saturado ABC Asociacion parcial AB, AC, BC Independencia condicionada AB, AC Independencia condicionada AB, BC Independencia condicionada AC, BC Independencia parcial AB, C Independencia parcial AC, B Independencia parcial BC, A Independencia completa A, B, C Equiprobabilidad condicionada AB Equiprobabilidad condicionada AC Equiprobabilidad condicionada BC Independencia A, B Independencia A, C Independencia B, C Un solo efecto primario A Un solo efecto primario B Un solo efecto primario C Só lo efecto global 4.3. ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO. Los parámetros de un modelo log-lineal cualquiera ( esto es, efecto global, efectos primarios y efectos de interacción ) son funciones del logaritmo de mij ( en el caso bidimensional ) o de mijk ( en el caso tridimensional ). En consecuencia, la - 154 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ estimación de los parámetros de cualquier modelo log-lineal ( y, por tanto, la estimación de las probabilidades asociadas a las casillas de la tabla de contingencia ) pasa por la estimación de las frecuencias esperadas mijk , para lo cual se utilizará el método de la máxima verosimilitud. Teniendo presente que las estimaciones máximo-verosímiles de las mijk son siempre las mismas con independencia del modelo muestral utilizado ( Christensen, 1990, pag. 368 ), empleando un modelo de Poisson y considerando una tabla de contingencia IxJxK5, se tendrá que el logaritmo de la función de verosimilitud6 vendrá dado por la siguiente expresión: I J K I J K log L = ∑ ∑ ∑ nijk log mijk − ∑ ∑ ∑ mijk i =1 j =1 k =1 i =1 j =1 k =1 Si se considera el modelo log-lineal saturado [ABC] ABC log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ijAB + τikAC + τ BC jk + τ ijk el logaritmo de la función de verosimilitud será igual a: 5 La estimación de los parámetros de los modelos log-lineales asociados a una tabla de contingencia IxJ no es más que un caso particular del desarrollo aquí expuesto. 6 Excluyendo de la misma aquellos términos que no incluyan las - 155 - mijk . Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ I J K i =1 j =1 k =1 I J log L = n... × τ 0 + ∑ ni .. × τiA + ∑ n. j . × τ Bj + ∑ n..k × τ Ck + ∑ ∑ nij. × τ ijAB + I K J K I J i =1 j =1 K ABC + ∑ ∑ ni .k × τ ikAC + ∑ ∑ n. jk × τ BC − jk + ∑ ∑ ∑ nijk × τ ijk i = 1 k =1 I J j =1 k =1 K i =1 j =1 k =1 { ABC − ∑ ∑ ∑ exp τ 0 + τiA + τ Bj + τ Ck + τijAB + τikAC + τ BC jk + τ ijk i = 1 j =1 k = 1 } (4.15) De esta forma, los valores estimados m! ijk para un modelo log-lineal concreto se obtendrán solucionando un conjunto de ecuaciones de verosimilitud. A partir de la expresión (4.15), la función log L para cada modelo log-lineal se obtendrá considerando simplemente que algunos de los parámetros de la misma son iguales a cero, lo que la simplifica considerablemente. Así, por ejemplo, en el modelo log-lineal [AC][BC] los parámetros τijAB y τijkABC son iguales a cero, por lo que la función log L quedaría reducida a la siguiente expresión: I J K j =1 k =1 I K log L = n... × τ 0 + ∑ ni .. × τiA + ∑ n. j . × τ Bj + ∑ n..k × τ Ck + ∑ ∑ ni .k × τikAC + i =1 J K I J K { i =1 k =1 A B C AC BC + ∑ ∑ n. jk × τ BC jk − ∑ ∑ ∑ exp τ 0 + τ i + τ j + τ k + τ ik + τ jk j =1 k =1 i =1 j =1 k =1 } (4.16) En este último caso, las ecuaciones de verosimilitud se obtendrán calculando las derivadas parciales de la función log L con respecto a cada parámetro del modelo e igualando dichas derivadas parciales a cero, es decir: - 156 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ∂ log L =0 ∂ τ0 ⇒ m! ... = n... (4.17) ∂ log L =0 ∂ τiA ⇒ m! i.. = ni .. para todo i (4.18) ∂ log L =0 ∂ τ Bj ⇒ m! . j . = n. j . para todo j (4.19) ∂ log L =0 ∂ τ Ck ⇒ m! ..k = n..k para todo k (4.20) ∂ log L =0 ∂ τikAC ⇒ m! i.k = ni .k para todo i y k (4.21) ∂ log L =0 ∂ τ BC jk ⇒ m! . jk = n. jk para todo j y k (4.22) Sin embargo, las cuatro primeras ecuaciones de verosimilitud pueden obtenerse en realidad a partir de las expresiones (4.21) y (4.22) sumando simplemente con respecto a i, a j o a k ( según el caso ), de forma que puede concluirse que ni .k y n. jk constituyen las estimaciones máximo-verosímiles necesarias para estimar el modelo [AC][BC]. A los valores ni .k y n. jk se les conoce con el nombre de estadísticos suficientes mínimos. Si el modelo [AC][BC] implica que pijk = mijk = pi .k × p. jk ( o, equivalentemente, que p..k mi .k × m. jk ), es evidente que las estimaciones máximo-verosímiles de las mijk m..k vendrán dadas por: - 157 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ m! ijk = m! i.k × m! . jk ni .k × n. jk = m! ..k n..k (4.23) A partir de los valores estimados m! ijk , la estimación de los parámetros del modelo log-lineal [AC][BC] es inmediata. Como puede observarse en la expresión (4.23), las estimaciones máximoverosímiles m! ijk son funciones directas de los estadísticos suficientes mínimos7. Esta circunstancia ocurre en la mayoría de los modelos log-lineales asociados a una tabla de contingencia IxJxK. Tabla 4.3 Modelo ( notación abreviada ) Estadísticos suficientes mínimos [A] ni.. [B] n. j . [C] n..k [A][B] ni.. , n. j . [A][C] ni.. , n..k [B][C] n. j . , n..k Valor estimado 1 1 m! ijk = ni .. × × J K 1 1 m! ijk = × n. j . × I K 1 1 m! ijk = × × n..k I J 1 m! ijk = ni .. × n. j . × K 1 m! ijk = ni .. × × n..k J 1 m! ijk = × n. j . × n..k I Continúa ... 7 Andersen ( 1990, pag. 188 ) indica que existirá una solución explícita a las ecuaciones de verosimilitud y los valores esperados estimados serán funciones directas de los estadísticos suficientes mínimos si, y sólo si, el modelo es descomponible, concepto que será introducido con posterioridad. - 158 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ... viene de la página anterior Modelo ( notación abreviada ) Estadísticos suficientes mínimos [AB] nij. [AC] ni .k [BC] n. jk [A][B][C] ni.. , n. j . , n..k [A][BC] ni.. , n. jk [B][AC] n. j . , ni .k [C][AB] n..k , nij. [AB][BC] nij . , n. jk [AB][AC] nij . , ni .k [AC][BC] ni .k , n. jk Valor estimado 1 m! ijk = × nij . K 1 m! ijk = × ni .k J 1 m! ijk = × n. jk I n × n. j . × n..k m! ijk = i .. N2 n × n. jk m! ijk = i .. N n × ni .k m! ijk = . j . N n × nij . m! ijk = ..k N n × n. jk m! ijk = ij . ni .. n × ni .k m! ijk = ij . n. j . n × n. jk m! ijk = i .k n..k [ABC] nijk m! ijk = nijk La Tabla 4.3 recoge los estadísticos suficientes mínimos y las estimaciones máximo-verosímiles de mijk para todos aquellos modelos log-lineales de una tabla de contingencia tridimensional para los cuales las m! ijk son funciones directas de los estadísticos suficientes mínimos. En la tabla anterior están incluidos todos los posibles modelos log-lineales que - 159 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ pueden considerarse en una tabla de contingencia IxJxK, a excepción del modelo [AB][AC][BC], para el que las estimaciones de las frecuencias esperadas mijk no son funciones directas de los estadísticos suficientes mínimos. En estos casos, la estimación por máxima verosimilitud de las mijk debe realizarse haciendo uso de métodos iterativos. Los dos métodos más comúnmente utilizados son el Ajuste Iterativo Proporcional y el Algoritmo de Newton-Raphson. Ajuste Iterativo Proporcional: Este método, debido a Deming y Stephan ( 1940 ), consiste en partir de un valor inicial de las m! ijk ( que denominaremos m! ijk( 0) ) e ir modificando sucesivamente dicho valor inicial para que las estimaciones m! ijk se igualen a cada una de las tablas de contingencia marginales del conjunto de estadísticos suficientes mínimos. ( 0) Generalmente, el valor inicial de m! ijk suele ser 1 ( m! ijk = 1 ) y el proceso iterativo finalizará cuando la diferencia entre dos estimaciones sucesivas esté suficientemente próxima a cero. Para el modelo log-lineal [AB][AC][BC], y teniendo presente que sus estadísticos suficientes mínimos son nij . , ni .k y n. jk , la primera iteración de este proceso de ajuste constaría de los tres pasos siguientes: - 160 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ nij . m! ij( 0. ) (1.1) ( 0) m! ijk = m! ijk × (1.2 ) (1.1) m! ijk = m! ijk × ni .k m! i(.1k.1) (1.3) (1.2 ) m! ijk = m! ijk × n. jk m! .(jk1.2) La segunda iteración estaría formada por los tres pasos siguientes: ( 2.1) (1.3) = m! ijk × m! ijk nij. ! mij(1. .3) ( 2 .2 ) ( 2 .1) m! ijk = m! ijk × ni .k ! mi(.2k .1) ( 2.3) ( 2 .2 ) = m! ijk × m! ijk n. jk m! .(jk2.2 ) Los pasos que incluiría la tercera iteración serían: ( 3.1) ( 2.3) = m! ijk × m! ijk nij . ! mij( 2. .3) m! ijk( 3.2 ) = m! ijk( 3.1) × ni .k m! i(.3k.1) m! ijk( 3.3) = m! ijk( 3.2) × n. jk m! .(jk3.2 ) - 161 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Realizando sucesivas iteraciones, la r-ésima iteración del proceso vendría dada por: ( r .1) ( r − 1.3) m! ijk = m! ijk × n ij . ( r −1.3) ij . m! ( r .2 ) ( r .1) m! ijk = m! ijk × ni .k m! i(.rk.1) ( r .3) ( r .2 ) m! ijk = m! ijk × n. jk m! .(jkr.2 ) . ( r .1) . ( r .2) . ( r .3) ( r − 1.3) Si se verifica que m! ijk = m! ijk = m! ijk = m! ijk , el proceso iterativo finalizaría y ( r .3) las estimaciones máximo-verosímiles de las mijk vendrían dadas por las m! ijk . Algoritmo de Newton-Raphson: Sea n ( n1 , n2 , ..., nS ) el vector de frecuencias observadas de una tabla de contingencia y sea m ( m1 , m2 , ..., mS ) el vector de frecuencias esperadas de dicha tabla, S de forma que el tamaño muestral total verifica que N = ∑ ni . Por motivos de i =1 simplicidad se utilizará un índice simple, aunque realmente la tabla de contingencia es multidimensional. De acuerdo con esta nomenclatura, cualquier modelo log-lineal puede expresarse en forma matricial como log m = Xβ β, expresión en la que log m es un vector columna q x 1 ( donde q = IxJxK en el caso de una tabla tridimensional ) de parámetros - 162 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ desconocidos; X es una matriz q x p ( que, por lo general, suele estar formada por ceros y unos ), donde p es el número total de parámetros log-lineales a estimar; y β es un vector columna p x 1, en el que se recogen todos los términos τ que deben estimarse. Así, por ejemplo, en una tabla de contingencia 2x3x2, el modelo log-lineal log mijk = τ 0 + τiA + τ Bj + τ Ck puede expresarse en forma matricial tal y como se ha apuntado anteriormente, siendo log m un vector columna de dimensión 12 x 1; X es una matriz de orden8 12 x 8, y β es un vector columna de orden 8 x 1. Si, por el contrario, el modelo a estimar fuese log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC jk , el vector log m sería un vector columna con un total de 12 filas ( al igual que antes ), pero en este caso X es una matriz con 12 filas y 14 columnas, siendo β un vector de orden9 14 x 1. En el supuesto de un modelo de Poisson, en el logaritmo de la función de verosimilitud se incluirán los parámetros del modelo log-lineal log mi = ∑ xih βh de la h siguiente forma: L( m ) = ∑ ni log (mi ) − ∑ mi = ∑ ni ( ∑ xih β h ) − i 8 i i h En este caso, los parámetros log-lineales que deben estimarse son ∑ exp ( ∑ xih βh ) i h τ 0 , τ1A , τ 2A , τ1B , τ 2B , τ 3B , τ1C y τ C2 . 9 Ya que además de estimar los anteriores parámetros log-lineales, en este caso habrá que obtener también estimaciones de los efectos de interacción BC BC BC BC BC BC τ11 , τ12 , τ 21 , τ 22 , τ 31 y τ 32 . - 163 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Puesto que mi = exp ( ∑ xij β j ) , se verifica que: j qj = ∂L( m ) = ∑ ( ni − mi ) xij ∂β j i ∂2 L( m ) h jk = = − ∑ mi xij xik ∂β j ∂β k i El método de Newton-Raphson se basa en el desarrollo de series de Taylor y requiere una estimación inicial para los valores que maximizan la función de verosimilitud. A continuación, dicha función se aproxima en un entorno de la mencionada estimación inicial mediante un polinomio de segundo grado, de forma que la segunda estimación será aquella que arroje el máximo valor del polinomio. La función de verosimilitud se vuelve a aproximar en un entorno de la segunda estimación, obteniéndose la tercera estimación como el valor que maximiza el polinomio, y así sucesivamente. A través de este procedimiento se van generando una secuencia de estimaciones, de forma que, finalmente, las estimaciones convergerán en el máximo, siempre y cuando la función sea apropiada y/o la estimación inicial sea buena. Si se verifican las condiciones anteriores, la estimación de orden t vendrá dada por: q (j t ) = ∑ ( ni − mi( t ) ) xij i h(jkt ) = − ∑ mi( t ) xij xik i - 164 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ! , que llamaremos A continuación, la aproximación de orden t para el vector m ! ( t ) = exp X β(t ) , donde β( t ) es un m ( t ) , se obtendrá a partir de β( t ) mediante m vector columna p x 1, en el que se recogen las estimaciones de orden t de la totalidad de ! ( t ) , la obtención de parámetros log-lineales que deban estimarse. Una vez obtenido m β( t +1) se realizará de la siguiente forma: [ ( ) ] ( (t ) β(t +1) = β(t ) + X′ Diag m X ( −1 X′ n − m (t ) ) ) donde la matriz Diag m ( t ) tiene los elementos mi( t ) en la diagonal principal. A su vez, β( t +1) se emplea para obtener m ( t + 1) , y así sucesivamente. A medida que t se incrementa, m ( t ) y β( t ) suelen converger rápidamente a las ! y β! , siendo la matriz de covarianzas estimadas estimaciones máximo-verosímiles m del vector β! la siguiente: [ ( ) ] −1 ! ( β! ) = X′ Diag m ! X Cov Para mayores detalles sobre este método de estimación puede consultarse Andersen ( 1990, pp. 74 y ss. ) o Christensen ( 1990, pp. 380 y ss. ). - 165 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ La principal ventaja del método de ajuste iterativo proporcional es su simplicidad, mientras que el método de Newton-Raphson es bastante más complejo, puesto que requiere solucionar un sistema de ecuaciones en cada paso, lo que explica que algunos paquetes informáticos encuentren grandes dificultades para utilizar este método cuando el modelo log-lineal se refiere a una tabla de contingencia que contenga múltiples variables categóricas. Sin embargo, el método de ajuste iterativo proporcional también presenta algunos inconvenientes. Así, es aplicable principalmente a modelos para los que las ecuaciones de verosimilitud igualan las frecuencias observadas y esperadas para ciertas tablas marginales, mientras que el método de Newton-Raphson es un método mucho más general que permite resolver sistemas de ecuaciones de verosimilitud mucho más complejas. Otros inconvenientes importantes son que el método de ajuste iterativo proporcional converge bastante más lentamente que el método de Newton-Raphson y que no calcula la matriz de covarianzas estimadas de las estimaciones máximoverosímiles de los parámetros del modelo log-lineal. A diferencia de lo que ocurre con una tabla de contingencia IxJxK ( donde [AB][AC][BC] es el único modelo log-lineal en el que las estimaciones m! ijk no son funciones directas de los estadísticos suficientes mínimos ), cuando se trabaja con una tabla de contingencia de dimensión cuatro, el número de modelos que no tienen estimaciones directas se incrementa de forma considerable. Y, aunque en la práctica no es necesario conocer qué modelos poseen estimaciones directas y cuáles no ( puesto que - 166 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ los métodos iterativos de estimación anteriormente mencionados pueden emplearse para ambas clases de modelos ), en la Tabla 4.4 se recogen los tipos de modelos asociados a una tabla de contingencia de dimensión cuatro que poseen estimaciones directas. Tabla 4.4 Modelo10 ( notación abreviada ) Estadísticos suficientes mínimos [A] ni... [A][B] ni... , n. j.. [A][B][C] ni... , n. j.. , n..k . [A][B][C][D] ni... , n. j.. , n..k . , n...l [AB][C][D] nij.. , n..k . , n...l [AB][AC][D] nij.. , ni . k . , n...l [AB][CD] nij.. , n..kl [AB][AC][BD] nij.. , ni . k . , n. j .l [AB][AC][AD] nij.. , ni . k . , ni ...l [ABC][D] nijk . , n....l [ABC][AD] nijk . , ni ...l [ABC][ABD] nijk . , nij ..l 10 Valor estimado n m! ijkl = i ... JKL n × n. j .. m! ijkl = i ... NKL n × n. j .. × n.. k . m! ijkl = i ... N2 L n × n. j .. × n.. k . × n...l m! ijkl = i ... N3 n × n.. k . × n...l m! ijkl = ij.. N2 n × ni .k . × n...l m! ijkl = ij .. ni ... × N n × n..kl m! ijkl = ij .. N n × ni .k . × n. j.l m! ijkl = ij .. ni ... × n. j .. n × ni . k . × ni ..l m! ijkl = ij .. (ni ... )2 n × n...l m! ijkl = ijk . N n × ni ..l m! ijkl = ijk . ni ... n × nij .l m! ijkl = ijk . nij .. El resto de modelos de cada uno de los siguientes tipos se obtiene simplemente por simetría. Así, por ejemplo, los restantes modelos del tipo [AB][C][D] que también poseen estimaciones directas son los modelos [AC][B][D], [AD][B][C], [BC][A][D], [BD][A][C] y [CD][A][B]. - 167 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ En definitiva, los parámetros de todos los posibles modelos log-lineales que pueden plantearse en una tabla de contingencia de dimensión cuatro y que no se encuadren en alguno de los tipos de modelos reflejados en la citada Tabla 4.4, deberán ser estimados empleando alguno de los métodos iterativos de estimación mencionados con anterioridad. Algunos de los modelos que precisan la utilización de estas técnicas iterativas son [ABC][ABD][ACD], [ABC][ACD][BCD], [ABD][ACD][BCD], etc. 4.4. CONTRASTACIÓN DE MODELOS LOG-LINEALES. Para determinar cuál es el modelo log-lineal que explica de forma más adecuada las relaciones de dependencia entre un conjunto de variables categóricas, se suelen comparar las frecuencias observadas en la tabla de contingencia ( nijk ) con las frecuencias esperadas estimadas ( m! ijk ), para lo cual se puede utilizar indistintamente el estadístico X 2 de Pearson: X = 2 I J K ∑∑∑ (n ijk i = 1 j =1 k =1 − m! ijk ) 2 m! ijk (4.24) o bien el test estadístico de la razón de verosimilitud: I J K n G 2 = 2 ∑ ∑ ∑ nijk log ijk m! ijk i =1 j =1 k =1 - 168 - (4.25) Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ En realidad, el ajuste de un modelo log-lineal es simplemente una contrastación de dicho modelo contra el modelo saturado, para el cual se verifica que las estimaciones máximo-verosímiles de mijk son iguales a las frecuencias observadas en la tabla de contingencia11. En consecuencia, la contrastación del modelo log-lineal M(r) contra el modelo log-lineal saturado M(s) se llevará a efecto empleando indistintamente uno de los dos tests siguientes: I J K X = ∑∑∑ 2 ( m! ( s) ijk i =1 j = 1 k = 1 I J K G 2 = 2 ∑ ∑ ∑ m! ijk( s ) i =1 j =1 k =1 − m! ijk( r ) ) 2 m! ijk( r ) m! ijk( s ) log ( r ) m! ijk Esta contrastación de modelos puede generalizarse para el caso en el que desee contrastarse un modelo log-lineal cualquiera contra otro modelo log-lineal estrictamente mayor que el primero12. Así, el modelo IP1 log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ BC jk podría ser 11 Por este motivo, el modelo log-lineal saturado siempre se ajusta perfectamente a los datos. Para el modelo saturado, tanto X 2 como G 2 son siempre iguales a cero. 12 No es necesario, por tanto, que el modelo mayor sea el modelo saturado. Se entiende que un modelo es estrictamente mayor que otro cuando el primero incluye los parámetros τ del segundo y algunos otros parámetros τ adicionales, de forma que sólo si un modelo es estrictamente mayor que otro, la contrastación entre dichos modelos será factible. Así, por ejemplo, el modelo M(1) no podría ser contrastado contra el modelo M(5), puesto que el primero contiene el efecto de interacción τ BC jk que, sin embargo, no está presente en el modelo M(5). En este caso, se dice que los modelos M(1) y M(5) no son comparables. - 169 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ contrastado contra el modelo ICO1 log mijk = τ 0 + τ iA + τ Bj + τ Ck + τ ikAC + τ BC de la jk siguiente forma: 2 ( X M ( 4) M (1) ) = ∑∑∑ I J K ( m! i =1 j =1 k =1 (4) ijk − m! ijk(1) ) 2 m! ijk(1) o bien: I J K m! ( 4 ) G 2 M ( 4 ) M (1) = 2 ∑ ∑ ∑ m! ijk( 4 ) log ijk(1) i =1 j =1 k =1 m! ijk ( ) Como fácilmente puede observarse, el modelo IP1 es un caso especial del modelo ICO1, puesto que aquel se obtiene cuando en éste último el efecto de interacción τikAC es igual a cero. En consecuencia, la contrastación del modelo IP1 contra el modelo ICO1 es equivalente a probar la siguiente hipótesis: H 0 : τikAC = 0 H1: τikAC ≠ 0 i = 1, 2, ..., I k = 1, 2, ..., K Cuando un modelo es un caso especial de otro, se dice que ambos modelos están anidados. Según se observa fácilmente, el modelo IP1 y el modelo ICO1 son modelos anidados, de manera que cuando el modelo IP1 se verifique, necesariamente también se verificará el modelo ICO1. - 170 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Según demuestra Agresti ( 1990, pag. 211 ), si M1 y M2 son modelos anidados, de forma que M2 es un caso especial de M1, y v1 y v2 son los grados de libertad de ambos modelos13, respectivamente ( donde v1 < v2 , al ser M2 más simple que M1 ), entonces el valor del test de la razón de verosimilitud para el modelo M2, G 2 ( M 2 ) , puede ser particionado de la siguiente forma: G 2 ( M 2 ) = G 2 ( M 1 ) + G 2 ( M 2 M1 ) donde G 2 ( M1 ) es el valor del test de la razón de verosimilitud para el modelo M1, mientras que G 2 ( M 2 M1 ) es el valor del test de la razón de verosimilitud cuando se contrasta el modelo M1 contra el modelo M2. Considerando que G 2 ( M1 ) y G 2 ( M 2 ) seguirán una distribución chi-cuadrado asintótica con v1 y v2 grados de libertad, respectivamente, se demuestra igualmente que G 2 ( M 2 M1 ) sigue también una distribución chi-cuadrado asintótica con v2 − v1 grados de libertad. Esta propiedad de particionabilidad de G 2 aconseja el uso de dicho test, en lugar del test de Pearson14, para contrastar modelos log-lineales. 13 Los grados de libertad de un modelo log-lineal coinciden con el total de parámetros iguales a cero en dicho modelo. 14 La diferencia τ que se fijan X 2 ( M 2 ) − X 2 ( M1 ) para modelos anidados no tiene porqué seguir una distribución chi-cuadrado asintótica. Incluso, en algunos casos, esta diferencia podría ser negativa. - 171 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ De acuerdo con lo anterior, los grados de libertad15 correspondientes al modelo M(1) son (I-1)(J-1)+(I-1)(K-1)+(I-1)(J-1)(K-1), mientras que los grados de libertad para el modelo M(4) son (I-1)(J-1)+(I-1)(J-1)(K-1). En consecuencia, los grados de libertad del test G 2 ( M 4 M1 ) vendrán dados por la diferencia entre los grados de libertad del modelo M(1) y los grados de libertad del modelo M(4) , es decir, (I-1)(K-1). Puesto que en el modelo saturado ningún parámetro se fija igual a cero, la contrastación de cualquier modelo log-lineal mediante las expresiones (4.24) o (4.25) se realizará aproximando a una distribución χ 2 cuyos grados de libertad coincidirán con el número de parámetros τ que se fijen iguales a cero en el modelo log-lineal en cuestión. 15 Para determinar los grados de libertad de un modelo, es preciso considerar que los grados de libertad de los diferentes parámetros de los modelos log-lineales, en el caso de una tabla de contingencia IxJxK, son los siguientes: Término Grados de libertad 1 τ0 τiA τ Bj (I-1) (J-1) τ Ck (K-1) τijAB (I-1)(J-1) τikAC (I-1)(K-1) τ BC jk (J-1)(K-1) τijkABC (I-1)(J-1)(K-1) - 172 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.5. CEROS ESTRUCTURALES Y CEROS ALEATORIOS. Cuando el número de observaciones con el que se construye una tabla de contingencia es pequeño, o es suficientemente grande pero el número de casillas de la tabla es elevado como consecuencia de la inclusión en la misma de muchas variables o de variables ( aunque sean pocas ) que poseen múltiples categorías, puede ser relativamente frecuente encontrar en dichas tablas una o varias casillas con frecuencia observada nula. Cuando esto ocurre, se estará ante un cero aleatorio si el valor observado en dicha casilla es cero pero el valor esperado de la misma es positivo. En otras casillas de la tabla de contingencia pueden aparecer lo que se denominan ceros estructurales, cuya presencia es independiente del tamaño muestral, del número de variables de la tabla y del número de categorías de las mismas. Estos ceros estructurales surgen en aquellas casillas en las que es teóricamente imposible obtener observaciones, es decir, en las que se sabe a priori que dicha casilla contendrá un valor nulo, puesto que el valor esperado de la misma es cero. Las tablas de contingencia que contienen uno o varios ceros estructurales se conocen con el nombre de tablas incompletas. En realidad, es imposible incluir ceros estructurales en un modelo log-lineal, puesto que si la frecuencia esperada mi de una casilla en la que aparece un cero estructural debe ser igual a cero, es evidente que log mi no podría definirse, por lo que será necesario excluir previamente de la tabla todos los ceros estructurales que contenga - 173 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ para poder estimar cualquier modelo log-lineal asociado a ella. Si las estimaciones máximo-verosímiles de los parámetros del modelo se obtienen empleando el procedimiento de ajuste iterativo proporcional, hay que tener presente que dicho procedimiento se basa en el hecho de que todas las posibles combinaciones de las categorías de las variables están definidas. Para solucionar este problema, debe asignarse el valor “0” a los valores iniciales de las estimaciones afectadas, en lugar de asignarles el valor “1”, con lo que se garantizará que todas las estimaciones sucesivas en el proceso iterativo también sean iguales a cero, lo cual asegura a su vez que la estimación de la frecuencia esperada de dicha casilla sea nula. Si, por el contrario, se emplea el algoritmo de Newton-Raphson para estimar los parámetros del modelo, la eliminación de los ceros estructurales del proceso de estimación no plantea ningún problema, puesto que el citado algoritmo tiene en cuenta el hecho de que, en determinadas circunstancias, podrían no considerarse todas las posibles combinaciones de las categorías de las variables que conforman la tabla de contingencia. En cualquier caso, la existencia de ceros estructurales en una tabla de contingencia no tiene realmente ninguna influencia sobre la validez de las propiedades asintóticas de los estimadores máximo-verosímiles, siempre y cuando los valores observados en las otras casillas de la tabla sean grandes. - 174 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Por su parte, los ceros aleatorios generan mayores problemas a la hora de estimar los parámetros de un modelo log-lineal, puesto que aquellos parámetros que se vean afectados por un cero aleatorio no podrán ser estimados, aunque dichos parámetros realmente existan16. Así, por ejemplo, si en una tabla IxJxK, algunos valores observados nijk son ceros aleatorios, resulta evidente que algunos términos de interacción τijkABC no aparecerán en la función de verosimilitud y, por tanto, no podrán ser estimados. Pero, además, algunos términos de interacción de orden inferior pueden también desaparecer de la función de verosimilitud si el correspondiente valor marginal resulta ser también cero. Así, si n122 = n222 = n322 = " = nI 22 = 0 , se verificará que n.22 = 0 , por lo que el BC tampoco podría ser estimado. efecto de interacción τ 22 En cualquier caso, y dado que en todo modelo log-lineal, las ecuaciones de verosimilitud se obtienen igualando los estadísticos suficientes mínimos con sus valores esperados respectivos y considerando asimismo que los valores observados iguales a cero quedarán excluidos de la función de verosimilitud, resulta bastante evidente que las citadas ecuaciones de verosimilitud serán las mismas tanto si la tabla contiene ceros estructurales como si contiene ceros aleatorios. Por consiguiente, desde un punto de vista teórico, el problema de la estimación es el mismo en ambos casos. 16 En este matiz reside la diferencia fundamental entre los ceros estructurales y los ceros aleatorios. Si una casilla contiene un cero estructural, el correspondiente parámetro log-lineal no existe, mientras que si se trata de un cero aleatorio, dicho parámetro sí que existe, pero no puede estimarse a partir del conjunto de datos observados. - 175 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Cuando el número total de observaciones es suficientemente grande, los tests de Pearson ( X 2 ) y de la razón de verosimilitud ( G 2 ) no experimentan ninguna alteración como consecuencia de la existencia de ceros estructurales o de ceros aleatorios en una tabla de contingencia, ya que las frecuencias observadas ( ni ) y las frecuencias esperadas estimadas ( m! i ) son ambas iguales a cero, por lo cual su diferencia siempre será nula. Ahora bien, si además de contener ceros aleatorios o estructurales, las frecuencias observadas en las restantes casillas de la tabla son pequeñas ( esto es, el número total de observaciones es escaso ), las aproximaciones asintóticas de los estadísticos X 2 y G 2 a una distribución chi-cuadrado podrían no ser válidas. En este sentido, algunas investigaciones recientes se han orientado a la consecución de otras aproximaciones asintóticas diferentes cuando surge este problema. En este sentido, Agresti ( 1990, pag. 249 ) indica que Koehler y Larntz comprobaron en 1980 que una versión estandarizada de G 2 se aproximaba a una distribución normal al emplearse con tablas que poseían frecuencias esperadas muy pequeñas. Por su parte, Koehler ( 1986 ) presentó distribuciones normales límites para G 2 para contrastar modelos que tengan estimaciones máximo-verosímiles directas, siempre que dichos modelos verifiquen una serie de condiciones ( véase Agresti, 1990, pag. 249 ). Otros autores, como McCullagh, Cressie y Read y otros han propuesto estadísticos alternativos para probar la bondad de ajuste de modelos log-lineales en estas circunstancias. - 176 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ En otras ocasiones, los investigadores suelen añadir una constante ( que habitualmente es el valor 1 2 ) a todas las casillas de la tabla de contingencia antes de estimar cualquier modelo log-lineal, evitando, de esta forma, los problemas de inexistencia de las estimaciones máximo-verosímiles de algunos parámetros log-lineales y de aproximación asintótica a una distribución chi-cuadrado. Si bien este método es válido para modelos saturados, lo cierto es que para modelos no saturados, esta técnica suele afectar de forma considerable a la distribución de muestreo de los datos, razón por la que es aconsejable realizar un análisis de sensibilidad probando con diferentes constantes para que el efecto sobre las estimaciones de los parámetros y sobre los estadísticos de bondad de ajuste sea el menor posible. En cualquier caso, el problema más frecuente en la contrastación de hipótesis cuando aparecen ceros aleatorios o ceros estructurales es la determinación del número de grados de libertad del test correspondiente para que la contrastación se efectúe de manera correcta. Andersen ( 1990, pag. 214 ) señala que, para determinar los grados de libertad del test estadístico en estos casos, se puede aplicar la siguiente regla: Sea H la hipótesis formulada en términos de los parámetros log-lineales que son iguales a cero, y sean: N 0 : número de casillas de la tabla con frecuencia observada mayor que cero. N 1( H ) : número de parámetros log-lineales bajo la hipótesis H en una tabla de contingencia completa. - 177 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ N 2 ( H ) : número de parámetros log-lineales bajo la hipótesis H para los que los correspondientes estadísticos marginales suficientes son iguales a cero. Los grados de libertad para contrastar la hipótesis H contra el modelo saturado vienen dados por N 0 − N 1 ( H ) + N 2 ( H ) . Bajo el modelo saturado, el número de parámetros log-lineales que pueden ser estimados es igual al número de casillas, N 0 , cuyas frecuencias observadas son mayores que cero. Por otro lado, el número de parámetros que pueden ser estimados bajo la hipótesis H será la diferencia entre el número de parámetros de un modelo log-lineal determinado en una tabla de contingencia completa, N 1 ( H ) , y el número de valores marginales iguales a cero bajo la hipótesis H , N 2 ( H ) . 4.6. CRITERIOS DE SELECCIÓN DE MODELOS LOG-LINEALES. La elección del modelo log-lineal que mejor explica la asociación existente entre un conjunto de variables categóricas es un proceso que se complica considerablemente cuando el número de variables es superior a tres, debido a que el número de posibles interacciones entre las mismas se incrementa de forma muy acusada. De hecho, es poco aconsejable intentar estimar todos los posibles modelos log-lineales cuando el número de variables excede de tres, siendo, en su lugar, recomendable fijar criterios que permitan seleccionar el modelo más adecuado de una forma racional. Estos criterios pretenden, por una parte, identificar un modelo que sea lo suficientemente complejo - 178 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ como para proporcionar un ajuste aceptable a los datos y, por otra parte, que sea lo suficientemente simple como para permitir una interpretación clara. Christensen ( 1990, pag. 115 ) señala que estos procedimientos de selección se pueden clasificar en tres grupos: - Selección progresiva ( forward selection ): que consiste en añadir términos de interacción a un modelo inicial pequeño. - Eliminación regresiva ( backward elimination ): que consiste en eliminar términos de interacción de un modelo inicial grande. - Métodos compuestos ( composite methods ): en los que los términos de interacción pueden ser añadidos o eliminados de un modelo inicial. Cualquiera de las técnicas anteriores requiere previamente la búsqueda de un modelo inicial, para lo cual se pueden emplear diferentes procedimientos, algunos de los cuales se exponen a continuación. a) Todos los efectos de un mismo nivel: La forma más simple de elegir un modelo inicial es considerar aquel que incluye todos los posibles efectos de un mismo nivel. Así, y considerando una tabla de - 179 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ contingencia formada por cuatro variables categóricas, el modelo inicial podría ser el que incluye todos los efectos primarios ( [A][B][C][D] ); o todos los efectos de segundo orden ( [AB][AC][AD][BC][BD][CD] ); o todos los efectos de interacción de tercer orden ( [ABC][ABD][ACD][BCD] ); o todos los efectos de cuarto orden ( [ABCD] ). En realidad, el modelo inicial sería el más pequeño de estos modelos que se ajuste a los datos o el más grande de los mismos que no se ajuste a los mismos. b) Análisis individual de cada término: Este procedimiento consiste en examinar cada término en el modelo saturado y considerar únicamente aquellos que sean significativamente distintos de cero. Para ello, los métodos más empleados son los tests de asociación marginal y de asociación parcial, propuestos por Brown en 1976. El test de asociación marginal17 consiste en contrastar el modelo más simple que incluya el término en cuestión contra el mayor submodelo que no incluya dicho término. Así, por ejemplo, para probar si el efecto de interacción τijkABC en una tabla de contingencia IxJxKxL es significativamente distinto de cero habrá que contrastar el modelo [ABC] ( que incluye el término mencionado ) contra el modelo [AB][AC][BC] ( que es el mayor submodelo que excluye ese término de interacción ). De igual forma, el test de asociación marginal para el término τ CD se llevará a cabo kl contrastando el modelo [A][B][CD] contra el modelo [A][B][C][D]. Como se puede 17 Este test puede emplearse para contrastar cualquier efecto de interacción, pero no se aplica a los efectos primarios. - 180 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ observar con facilidad, los grados de libertad del test de asociación marginal son los correspondientes al término que se está contrastando ( esto es, (I-1)(J-1)(K-1) en el caso 18 del término τijkABC y (K-1)(L-1) en el caso del término τ CD kl ) . Por su parte, el test de asociación parcial dependerá del número de variables incluidas en el término de interacción que deba contrastarse, de forma que si el término contiene “s” variables, dicho test contrastará el modelo log-lineal que contenga todos los términos de interacción de orden “s” contra el modelo reducido en el que se ha eliminado el término en cuestión. Así, el test de asociación parcial para τ BCD se realizará jkl contrastando el modelo [ABC][ABD][ACD][BCD] contra el modelo reducido [ABC][ABD][ACD], de forma que los grados de libertad para aplicar este test coincidirán de nuevo con los grados de libertad correspondientes al término de interacción τ BCD jkl , es decir, (J-1)(K-1)(L-1). De igual forma, el test de asociación parcial para el término τilAD se calculará contrastando el modelo [AB][AC][AD][BC][BD][CD] contra el modelo [AB][AC][BC][BD][CD], siendo los grados de libertad para efectuar dicho test igual a (I-1)(L-1). 18 AB AC BC 2 El test de asociación marginal G 2 [ ][ ][ ] [ABC] sigue una distribución χ asintótica con (I-1)(J-1)(K-1) grados de libertad, de forma que si G 2 > χ 2(1−α ), ( I −1)( J −1)( K −1) se rechazará la hipótesis de A B C D ABC que τijk = 0 . De forma similar, el test de asociación marginal G 2 [ ][ ][ ][ ] [A][B][CD] seguirá una distribución χ 2 asintótica con (K-1)(L-1) grados de libertad, rechazándose la hipótesis de que 2 2 τ CD kl = 0 en el caso de que G > χ (1− α ), ( K − 1)( L − 1) . - 181 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Los tests de asociación marginal y de asociación parcial coinciden para el término de interacción de mayor orden del modelo ( en el caso de una tabla de dimensión cuatro, los resultados que arrojan ambos tests son idénticos para el término ABCD ). τijkl Una vez conocida la significatividad individual de todos y cada uno de los términos mediante los tests de asociación marginal y de asociación parcial, la elección del modelo inicial puede realizarse de diversas formas: a) Incluyendo todos los términos cuyos tests de asociación marginal sean significativos. b) Incluyendo aquellos términos cuyos tests de asociación parcial sean significativos. c) Incluyendo aquellos términos para los que sea significativo el test de asociación marginal o bien el test de asociación parcial. d) Incluyendo únicamente aquellos términos para los que sean significativos tanto el test de asociación marginal como el test de asociación parcial. Si se emplea el método d) se obtendrá el modelo inicial más pequeño, el cual podría emplearse para la selección progresiva. Si, por el contrario, se utiliza el método c) se obtendrá el modelo inicial más grande, que se podría utilizar para seleccionar el modelo log-lineal más adecuado empleando el procedimiento de eliminación regresiva. - 182 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Una vez seleccionado el modelo inicial, podrán utilizarse a continuación uno de los tres procedimientos principales de selección anteriormente mencionados. Partiendo del modelo inicial, y considerando términos de interacción formados por “s” variables, la selección progresiva consiste en añadir el término de interacción de orden “s” que no esté incluido en el modelo y que arroje el test estadístico más significativo. A continuación, se seguirán añadiendo términos hasta que ninguno de los no incluidos alcance un nivel de significación mínimo predeterminado. Por su parte, la eliminación regresiva parte del modelo inicial y elimina el término de interacción de orden “s” que arroje el test estadístico menos significativo de entre todos los términos de orden “s” que están incluidos en el modelo inicial, teniendo en cuenta que sólo podrán eliminarse determinados términos, ya que por la condición de jerárquico de todo modelo log-lineal, algunos términos deben permanecer en el modelo debido a la presencia en el mismo de efectos de interacción de orden superior. Así, si el modelo inicial es [ABC][BD][CD], no sería posible eliminar los términos de interacción τijAB , τikAC o τ BC jk , puesto que la presencia de estos términos en el modelo está forzada por la inclusión en el mismo del término de interacción τijkABC . En este caso, los términos que podrían ser eliminados del modelo inicial ( en una tabla de dimensión cuatro ) serían CD τijkABC , τ BD jl o τ kl . Este proceso continuará eliminando términos hasta que todos los que se mantengan en el modelo posean un nivel de significación mínimo predeterminado. - 183 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Finalmente, los métodos compuestos utilizan tanto la regla de la selección progresiva como la regla de la eliminación regresiva. Hay, sin embargo, una alternativa a la consideración exclusiva de términos de orden “s” ( como ocurre en la selección progresiva y en la eliminación regresiva ) y es la incorporación o la eliminación tanto de efectos simples como de efectos múltiples al/del modelo inicial. Así, la incorporación de un efecto simple consiste en añadir un efecto que no implica la incorporación simultánea de otros efectos. Así, para una tabla de contingencia IxJxKxL, en la que el modelo inicial es [ABC][CD], los únicos efectos simples que podrían añadirse al modelo serían τilAD y τ BD jl . Si, por el contrario, se considera la eliminación de efectos simples del modelo inicial [ABC][CD], sólo podrán eliminarse del mismo aquellos que no conlleven la eliminación simultánea de otros efectos. En este caso, los efectos simples que podrían ser eliminados del modelo inicial serían únicamente τijkABC y τ CD kl , puesto que la exclusión de cualquier otro término del modelo inicial obligaría a excluir, además, a otros términos adicionales del mismo. Por el contrario, la incorporación de un efecto múltiple implica la consideración de otros efectos que no estaban incluidos en el modelo inicial. Así, si al modelo inicial [ABC][CD] se le añade el término τijlABD , será necesario incluir también en aquel los términos τilAD y τ BD jl . En la selección progresiva pueden añadirse tanto efectos simples como múltiples, siendo generalmente preferible añadir efectos múltiples, puesto que los - 184 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ mismos implican la consideración de una variedad más amplia de efectos adicionales. Por el contrario, el procedimiento que debe seguirse en la eliminación regresiva es la exclusión de efectos simples del modelo inicial. 4.7. MODELOS LOG-LINEALES GRÁFICOS. Cuando una tabla de contingencia recoge la clasificación cruzada de más de tres variables categóricas, el análisis de las relaciones de dependencia entre las mismas mediante modelos log-lineales se complica de forma considerable, ya que el número total de posibles modelos que pueden definirse se incrementa de forma espectacular19. Esta circunstancia genera graves inconvenientes, puesto que, además de dificultarse la interpretación de modelos de dimensión superior, muchos de los modelos que se pueden definir requieren la utilización de métodos iterativos para obtener las estimaciones máximo-verosímiles de sus parámetros. En estos casos, es absurdo intentar estimar todos los modelos log-lineales posibles, siendo mucho más razonable seleccionar únicamente algunos de ellos para, posteriormente, analizarlos. Se trata, en definitiva, de considerar exclusivamente aquellos modelos que sean fácilmente interpretables y que sean consistentes con los datos observados. A partir de los modelos seleccionados, el objetivo será elegir el 19 Por ejemplo, en una tabla de dimensión cuatro se pueden definir 113 modelos log-lineales que incluyen todos los efectos primarios. Si la tabla de contingencia es de dimensión cinco se podrían definir varios miles de modelos diferentes. - 185 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ modelo más pequeño que se ajuste a los datos de forma satisfactoria. Como ya es sabido, cualquier modelo log-lineal puede ser interpretado en términos de independencia o de independencia condicionada entre las variables que forman la tabla de contingencia. Sin embargo, la interpretación en términos de independencia de un modelo puede ser igualmente válida para otros modelos de mayor dimensión. Así, por ejemplo, el modelo [AB][AC][AD][BC] implica que la variable D es condicionalmente independiente de las variables B y C, dada la variable categórica A, circunstancia que puede representarse como D ⊗ B,C A . Por su parte, el modelo [ABC][AD] implica exactamente la misma interpretación, con la única diferencia de que este último modelo incluye el término de interacción τijkABC , mientras que en el primer modelo este término está ausente. Pues bien, de la misma forma que para este último modelo se verifica que su notación abreviada implica su interpretación en términos de independencia y que, al mismo tiempo, la interpretación del modelo implica su notación abreviada, no ocurre lo mismo con el primer modelo, ya que, si bien su notación abreviada implica su interpretación, su interpretación no implica la notación abreviada del mismo20. Esta circunstancia, que ocurre con otros muchos modelos, se puede generalizar afirmando que de todos los posibles modelos log-lineales que tengan la misma 20 La interpretación D ⊗ B, C A no permite saber si el término de interacción τijkABC es igual a cero. Por lo tanto, de la misma forma que puede afirmarse que la anterior interpretación corresponde al modelo [ABC][AD], no puede asegurarse que dicha interpretación sea la correspondiente al modelo [AB][AC][BC][AD]. - 186 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ interpretación en términos de independencia o de independencia condicionada, habrá únicamente uno de ellos para el que la interpretación del modelo implique su notación abreviada ( circunstancia que no ocurrirá con los restantes modelos que tengan la misma interpretación ). Al modelo log-lineal que verifica la condición anterior se le conoce con el nombre de modelo gráfico. De esta forma, cualquier modelo gráfico que contenga los términos de interacción τijAB , τikAC y τ BC jk deberá incluir necesariamente el término de interacción τijkABC . Como complemento a esta idea, si un modelo gráfico incluye los BD y τ CD términos τijAB , τikAC , τ BC jk , τ jl kl , dicho modelo deberá incluir también el término BCD τijkABC ( por la presencia de los términos τijAB , τikAC y τ BC ( como jk ) y el término τ jkl BD consecuencia de la inclusión de los términos τ BC y τ CD ). Finalmente, un modelo jk , τ jl kl ABCD gráfico deberá contener el término de interacción τijkl si en el mismo se incluyen los seis términos de interacción de segundo orden que pueden formarse a partir de las cuatro variables21. En consecuencia, el modelo [ABC][AD] anteriormente mencionado es un modelo gráfico, mientras que, por el contrario, el modelo [AB][AC][AD][BC] no es un modelo gráfico. Una definición genérica de modelo gráfico es la dada por Christensen ( 1990, pag. 103 ) cuando dice que “un modelo es gráfico si, cuando un modelo contiene todos los efectos de interacción de segundo orden generados por una interacción de orden superior, dicho modelo también contiene esa interacción de orden superior”. 21 De lo que se deduce, por tanto, que todo modelo saturado será un modelo gráfico. - 187 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Por otra parte, Goodman ( 1971 ) y Haberman ( 1974 ) introdujeron el concepto de modelos log-lineales descomponibles. Un modelo es descomponible si y sólo si las estimaciones máximo-verosímiles de las frecuencias esperadas mi son funciones directas de los estadísticos suficientes mínimos, de forma que dicho modelo tendrá una interpretación simple en términos de independencia o de independencia condicionada. En una tabla de dimensión IxJxK, todos los posibles modelos log-lineales son descomponibles, a excepción del modelo [AB][AC][BC], como ya se puso de manifiesto en el apartado 4.3. Sin embargo, en una tabla IxJxKxL, el número de modelos no descomponibles aumenta considerablemente. A título ilustrativo, en la Tabla 4.4 se muestran todos los modelos descomponibles asociados a una tabla de contingencia de dimensión cuatro. Darroch, Lauritzen y Speed ( 1980 ) demostraron que todos los modelos descomponibles son también modelos gráficos, con lo que la totalidad de los modelos log-lineales asociados a una tabla IxJxK ( a excepción del citado [AB][AC][BC] ) y los modelos asociados a una tabla de contingencia de dimensión IxJxKxL que se enumeran en la Tabla 4.4 son modelos gráficos22. De esta forma, Christensen ( 1990, pag. 104 ) señala que cualquier modelo log-lineal está integrado en un modelo gráfico, lo cual resulta evidente si se considera que el modelo saturado es el modelo gráfico que contiene todos los posibles efectos de interacción de segundo orden. Por consiguiente, 22 Además de los modelos incluidos en la Tabla 4.4, hay que precisar que, para una tabla de dimensión cuatro, sólo hay un modelo que no es descomponible y que, sin embargo, es un modelo gráfico. Se trata del modelo [AB][AC][BD][CD] y sus modelos equivalentes. - 188 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ para interpretar un modelo log-lineal concreto, deberá buscarse siempre el modelo gráfico más pequeño que contenga a ese modelo concreto. Al objeto de identificar los modelos gráficos asociados a una tabla de contingencia de dimensión cuatro o superior, Andersen ( 1990, pag. 187 ) propone gráficos de asociación para representar a los modelos log-lineales. Estos gráficos de asociación se basan en las nociones de la teoría de grafos que fueron esbozadas en el Capítulo Segundo. Recordemos que cada variable categórica se representará mediante un punto ( el cual será reemplazado por un asterisco en el caso de que la variable en cuestión siga una distribución uniforme ). Si el efecto de interacción de segundo orden entre dos variables categóricas es distinto de cero, los puntos que representan ambas variables estarán unidos entre sí mediante una línea. Por el contrario, si dichas variables son independientes, no existirá ninguna línea que una los dos puntos que las representan. Así, para una tabla IxJxK, tanto el modelo saturado [ABC] como el modelo [AB][AC][BC] se representarían gráficamente de la siguiente forma: A C B Por su parte, si las variables A y B son condicionalmente independientes dada la variable C, el modelo log-lineal que refleja esta situación ( [AC][BC] ) se representaría gráficamente de la siguiente forma: - 189 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ A B C Finalmente, si la variable A es independiente tanto de la variable B como de la variable C ( esto es, [BC][A] ), el modelo log-lineal se representaría de forma gráfica como sigue23: A B C Para el caso de una tabla de contingencia IxJxKxL, Andersen ( 1990; pp. 184 y 185 ) recoge en una tabla la representación gráfica de todos los posibles modelos loglineales que pueden definirse a partir de una tabla de contingencia de dimensión cuatro. Existe una correspondencia mútua entre modelos log-lineales gráficos y sus representaciones gráficas, de forma que cada modelo log-lineal implica una única 23 Si, además, la variable A siguiera una distribución uniforme ( es decir, A = u ), en la representación gráfica del modelo se colocaría un asterisco junto al nombre de esta variable para indicar esta circunstancia. - 190 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ representación gráfica y, recíprocamente, dicha representación gráfica implica un único modelo gráfico. Al objeto de identificar los modelos gráficos a partir de las representaciones gráficas de todos los modelos log-lineales asociados a una tabla de contingencia de cualquier dimensión, Lauritzen ( 1982 ) introduce la noción de clique. Para asimilar este concepto se considerará el siguiente ejemplo. La representación gráfica del modelo loglineal [ABCD][BDE][CF], definido a partir de una tabla de contingencia de dimensión seis, es la siguiente: F A B C D E Se puede observar que las variables A, B, C y D están todas conectadas entre sí mediante líneas24, de forma que el conjunto {A,B,C,D} constituye un conjunto completo25. Es evidente que en la anterior representación gráfica existen otros conjuntos completos, como son, por ejemplo, {A,B,C}, {A,B,D}, {A,C,D} o {B,C,D}. Sin 24 Circunstancia que no ocurre, por ejemplo, con las variables A, B, D y E o con las variables A, B, C y F. 25 Según la definición dada por Lauritzen ( 1982, pag. 11 ), un conjunto completo es un conjunto de variables en las que todas ellas, sin excepción, están conectadas entre sí mediante líneas. Es decir, un conjunto completo es aquel que está formado por un grupo de variables para el que se verifica que para todos los posibles subgrupos de dos variables que puedan formarse, las dos variables implicadas en cada subgrupo son estadísticamente dependientes. - 191 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ embargo, la presencia de cualquiera de los cuatro conjuntos completos anteriores ya está forzada en el modelo [ABCD][BDE][CF] debido a la existencia en el mismo del conjunto completo {A,B,C,D}. De esta forma, el conjunto {A,B,C,D} es un conjunto completo máximo, es decir, es un conjunto completo que no está contenido en ningún otro conjunto completo. Pues bien, un clique es un conjunto completo máximo. La importancia de los cliques estriba en que determinan los modelos log-lineales gráficos. En la representación gráfica anterior, además del clique {A,B,C,D} existen también los cliques {B,D,E} y {C,F}. Se observa que existe una correspondencia obvia entre los cliques y la notación abreviada del modelo, de manera que sólo si existe dicha correspondencia el modelo log-lineal en cuestión será un modelo gráfico ( como ocurre en este caso ). En consecuencia, a partir de la representación gráfica de cada modelo, la identificación de los cliques existentes en la misma permitirá determinar si el modelo es o no gráfico al comparar los cliques con la notación abreviada del mismo. Por otra parte, de la misma forma que se indicó anteriormente que todo modelo descomponible es, a su vez, un modelo gráfico, Lauritzen ( 1982, pag. 32 ) demostró que un modelo gráfico es también descomponible siempre y cuando se cumpla una de las dos condiciones siguientes: a) Que el modelo no incluya un ciclo de longitud 4 o superior. - 192 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ b) Que el modelo que incluya un ciclo de longitud 4 o superior contenga al menos un chord. Un ciclo es ( Lauritzen, 1982, pag. 32 ) una secuencia de vértices α 0 , α1 , ..., α n en la que se verifica que α 0 = α n y en la que la variable categórica representada en cada vértice es estadísticamente dependiente de la variable representada en el vértice siguiente26, de manera que n es la longitud del ciclo. Lauritzen también define un chord como dos vértices no consecutivos en los que las dos variables representadas en los mismos son estadísticamente dependientes. Es decir, los vértices αi y α j formarán un chord si αi ∼ α j y j ≠ i − 1, i + 1 . De esta forma, Lauritzen demuestra que el modelo gráfico más simple que no es un modelo descomponible es el modelo [AB][BD][CD][AC]. En efecto, como fácilmente puede apreciarse en su representación gráfica, A B C D este modelo contiene un ciclo de longitud 4 ( A-B-D-C-A ) y no incluye ningún chord, por lo que este modelo gráfico no es descomponible. Sin embargo, el modelo gráfico 26 Esto es, las dos variables están conectadas entre sí mediante una línea ( - 193 - αi ∼ αi +1 ). Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ [ABC][BCD] cuya representación gráfica es A B C D es también descomponible, puesto que aunque también contiene un ciclo de longitud 4, incluye el chord ( B-C ). De la misma forma que el modelo gráfico [AB][BC][CD][AD] y sus equivalentes son los únicos modelos no descomponibles en una tabla de dimensión cuatro, Lauritzen ( 1982, pag. 46 ) enumera los modelos gráficos no descomponibles asociados a una tabla de dimensión cinco. Estos modelos son los siguientes: Modelo [AB][AE][BC][CD][DE] [AB][BC][CE][DE][BD] [AB][AE][BC][CDE] [AC][AE][BC][BE][CD][DE] Ciclos {A,B,C,D,E} {B,C,D,E} {A,B,C,E} {A,C,D,E} {B,C,D,E} {A,B,C,E} {A,C,D,E} {B,C,D,E} {A,B,C,D} [ABC][ABE][CD][DE] [ABE][ADE][BCE] Como corolario a todo lo expuesto, se puede concluir afirmando que: - 194 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ - Todos los modelos descomponibles son también modelos gráficos, aunque no todos los modelos gráficos son descomponibles. - Todos los modelos no gráficos son también modelos no descomponibles, aunque no todos los modelos no descomponibles son modelos no gráficos. Finalmente, el número de modelos jerárquicos que son modelos gráficos y el número de estos últimos que, a su vez, son modelos descomponibles no puede determinarse en función de la dimensión de la tabla de contingencia. En cualquier caso, en la siguiente tabla se muestra el número de modelos jerárquicos, gráficos y descomponibles asociados a una tabla de dimensión n, para n = 2, 3, 4, 5. Dos Modelos jerárquicos 5 Modelos gráficos 5 Modelos descomponibles 5 Fuente: Lauritzen ( 1982, pag. 47 ). Dimensión de la tabla de contingencia Tres Cuatro Cinco 19 167 7.580 18 113 1.450 18 110 1.233 4.8. SELECCIÓN DE MODELOS LOG-LINEALES ENTRE MODELOS DESCOMPONIBLES Y MODELOS GRÁFICOS. La selección de un modelo log-lineal inicial considerando todos los efectos de interacción de un orden determinado o incluyendo sólo aquellos efectos para los que el test de asociación marginal y/o el test de asociación parcial sea(-n) estadísticamente significativo(-s) plantea como principal inconveniente el hecho de que, por lo general, el - 195 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ modelo inicial seleccionado no es un modelo gráfico, por lo que la interpretación de este modelo en términos de independencia y de independencia condicionada resulta bastante compleja. Por esta razón, Edwards y Kreiner ( 1983 ) proponen un método alternativo para elegir el modelo log-lineal que mejor se ajusta a los valores observados de la tabla de contingencia. Este método, diseñado originalmente por Wermuth27 en 1976, consiste básicamente en tomar como modelo inicial el modelo gráfico de mayor tamaño, es decir, el modelo saturado. A continuación, el método propuesto por estos autores contrasta la significatividad estadística de cada una de las líneas que unen cada par de variables en la representación gráfica del modelo saturado, es decir, se contrasta la significatividad de cada término de interacción de segundo orden28. Llegados a este punto, pueden adoptarse tres opciones diferentes: Opción I: en primer lugar, se puede eliminar el efecto menos significativo de todos ( que será aquel que arroje el mayor valor de p, siempre que este valor exceda del 27 La única diferencia entre el procedimiento empleado por esta autora y el propuesto por Edwards y Kreiner es que Wermuth no emplea representaciones gráficas como técnica de apoyo al procedimiento de selección y considera únicamente modelos descomponibles. 28 La principal ventaja de eliminar efectos de interacción de segundo orden en el modelo saturado es que en cada etapa del proceso se está realizando un test de independencia condicionada. - 196 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ nivel de significación29 α ), y examinar después, uno a uno, los restantes efectos de segundo orden. El efecto menos significativo de estos últimos se eliminará, y así sucesivamente. El proceso continuará hasta que todos los valores p sean menores que α. Opción II: es una simple variante de la opción I y consiste en eliminar inicialmente el efecto de segundo orden menos significativo. A continuación, se procede a contrastar todos aquellos efectos de segundo orden no significativos encontrados en este primer paso, y se elimina el menos significativo de todos. Se vuelven a contrastar todos los efectos no significativos encontrados en el segundo paso y se elimina el que sea menos significativo, y así sucesivamente. Esta opción implica ajustar menos modelos que la primera y respeta el principio de que si un modelo debe rechazarse, también deben ser rechazados todos sus submodelos. Opción III: esta alternativa, propuesta por Havránek en 1984, parte de todos los efectos de interacción de segundo orden que hayan resultado ser no significativos en el primer paso ( aquellos que arrojen un valor de p mayor que α ). A continuación, se 29 Es preciso aclarar que, tanto en esta Opción I como en las dos restantes, la contrastación de cada efecto de segundo orden se realiza a partir de las diferencias en los tests de la razón de verosimilitud de dos modelos sucesivos, puesto que se trata de determinar si el paso realizado es admisible o no, no siendo de interés en este caso examinar la bondad de ajuste del modelo resultante. Por tanto, el valor p se calculará de la siguiente forma: [ p = P χ 2( v r − v s ) > G 2 ( M r M s ) ] siendo G 2 ( M r M s ) = G 2 ( M r ) − G 2 ( M s ) , donde G 2 ( M r ) es el test de la razón de verosimilitud del modelo gráfico que incluye un efecto de interacción de segundo orden determinado ( modelo M r ) y G 2 ( M s ) es el test de la razón de verosimilitud del mayor submodelo gráfico de M r que no incluya el citado efecto de segundo orden ( modelo M s ). - 197 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ generan todos los posibles modelos formados a partir de la eliminación de pares de efectos encontrados no significativos en el primer paso. Posteriormente, se generan todos los modelos posibles obtenidos mediante la eliminación de tríos de efectos definidos a partir de los pares de efectos que hayan resultado no significativos en el segundo paso, y así sucesivamente. De esta forma, se respeta también el principio de que el rechazo de un modelo implica el rechazo de todos sus submodelos. A título ilustrativo, considérese que de los diez efectos de interacción de segundo orden asociados a una tabla de contingencia de dimensión cinco han resultado no significativos en el primer paso los siguientes: AB, AD, BE, CE. A partir de estos cuatro efectos se pueden definir los siguientes pares de efectos: [AB,AD], [AB,BE], [AB,CE], [AD,BE], [AD,CE] y [BE,CE]. El paso siguiente consistirá en contrastar si estos seis pares de efectos son o no significativos. Si, por ejemplo, los pares [AB,AD], [AB,BE] y [BE,CE] resultasen ser no significativos, deberá procederse a probar si el trío de efectos [AB,BE,CE] es o no estadísticamente significativo30, y así sucesivamente. La diferencia fundamental entre estas tres opciones es que las dos primeras seleccionan un único modelo, mientras que la tercera puede identificar varios modelos. Además, la tercera opción presenta dos inconvenientes importantes. Por una parte, no genera secuencias jerárquicas de modelos. Por otro lado, se pierde la interpretación de cada test como un contraste de independencia condicionada, circunstancia que no ocurre con las dos primeras opciones. Por todo lo anteriormente comentado, será preferible A pesar de que a partir de los pares de efectos citados pueden definirse también los tríos [AB,AD,BE] y [AD,BE,CE], estos últimos no podrán ser contrastados, ya que el par [AD,BE] es estadísticamente significativo. 30 - 198 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ utilizar una de las dos primeras opciones, y aunque la opción II requiere ajustar un número considerablemente menor de modelos ( por lo que parecería razonable considerarla como la opción óptima ), hay que tener presente que esta opción enmascara un peligro potencial y es que aquellos efectos que se han encontrado significativos en una etapa previa ( y, por tanto, no procederá eliminarlos ) podrían resultar no significativos si se contrastasen en una etapa posterior. De aquí que Edwards y Kreiner recomienden fijar un bajo nivel de significación ( por ejemplo, de un 1 % ) para determinar qué efectos no necesitarán ser contrastados más tarde, y un nivel de significación más elevado ( por ejemplo, de un 5 % ) para decidir qué efectos son no significativos y, por tanto, pueden ser eliminados. Este procedimiento de elección del modelo log-lineal más adecuado presenta grandes similitudes con el método propuesto inicialmente por Wermuth. Sin embargo, existe una diferencia fundamental entre ambos, y es que mientras el método de Edwards considera en el primer paso todos los posibles efectos de segundo orden entre las variables que forman la tabla de contingencia, Wermuth tiene en cuenta única y exclusivamente aquellos efectos que formen parte de un clique. En concreto, esta autora parte del modelo saturado y contrasta la significatividad de cada efecto de segundo orden de dicho modelo. Por tanto, el método de Wermuth se inicia con el clique formado por la totalidad de las variables. Pero la eliminación de cualquier efecto de segundo orden genera dos cliques que contienen, cada uno, todas las variables de la tabla menos una. En consecuencia, en cualquier etapa del método de Wermuth existirán siempre dos o más cliques. Pues bien, todos aquellos efectos de segundo orden que - 199 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ estén presentes en más de un clique no podrán ser eliminados. La trascendencia de este detalle radica en que, según demuestra Christensen ( 1990, pag. 147 ), los modelos gráficos obtenidos al eliminar efectos de segundo orden presentes en más de un clique no son modelos descomponibles. De aquí que pueda concluirse que el método de Wermuth es un procedimiento de búsqueda entre modelos descomponibles, mientras que el método de Edwards y Kreiner es un procedimiento de búsqueda entre modelos gráficos ( algunos de los cuales no son descomponibles ). Cuando la tabla de contingencia es de dimensión cuatro, la única diferencia entre ambos métodos estriba en el segundo paso del proceso, ya que, en este caso, hay un único modelo gráfico que no es descomponible. Sin embargo, para tablas con más de cuatro variables, la diferencia entre ambos métodos puede ser sustancial, debido a que, como se ha apuntado en apartados anteriores, el número de modelos gráficos no descomponibles se incrementa notablemente. Para más detalles sobre la comparación de ambos métodos, puede consultarse Christensen ( 1990, pp. 143-149 ). 4.9. CRITERIOS DE SELECCIÓN DEL MODELO FINAL. Una vez que se ha seleccionado un modelo gráfico determinado empleando una de las opciones anteriormente comentadas, Edwards y Kreiner recomiendan continuar el análisis examinando otros modelos no gráficos, es decir, estudiando otros modelos jerárquicos que sean consistentes con el modelo gráfico elegido. - 200 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ La última fase de la selección del modelo log-lineal que mejor explica la relación entre las variables categóricas de una tabla de contingencia consistirá en evaluar este conjunto de modelos candidatos, empleando para ello medidas diferentes a sus tests estadísticos. De esta evaluación, deberá salir el modelo final que será considerado en análisis estadísticos posteriores. Christensen ( 1990, pag. 149 ) propone tres medidas para llevar a cabo esta evaluación: - El coeficiente R 2 . - El coeficiente R 2 ajustado. - El criterio de información de Akaike. Coeficiente R 2 : Al igual que en el análisis de regresión, el coeficiente R 2 mide la proporción de la variación total que es explicada por el modelo. Para un modelo log-lineal cualquiera, el coeficiente R 2 viene dado por la siguiente expresión: R2 = G2 ( M0 ) − G2 ( Mr ) G2 ( M0 ) En la expresión anterior, el test G 2 juega un papel muy similar a la suma de los residuos al cuadrado del análisis de regresión, de forma que G 2 ( M r ) y G 2 ( M 0 ) son, respectivamente, el test estadístico de la razón de verosimilitud del modelo que se está analizando ( M r ) y el test de la razón de verosimilitud del modelo de independencia - 201 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ completa ( M 0 ), resultantes de contrastar los citados modelos contra el modelo saturado. Se deduce fácilmente que G 2 ( M 0 ) mide la variabilidad total de los datos y que G 2 ( M 0 ) − G 2 ( M r ) representa la variabilidad explicada por el modelo M r , por lo que R 2 es la proporción de la variabilidad total que es explicada por el modelo loglineal M r . De acuerdo con lo anterior, el coeficiente R 2 para el modelo log-lineal más pequeño ( es decir, el modelo de independencia completa ) siempre será igual a 0, mientras que el valor de R 2 para el modelo log-lineal más grande ( el modelo saturado ) es siempre 1, ya que en este último caso los datos se ajustan perfectamente al modelo. R 2 ajustado: Utilizando una expresión similar al coeficiente empleado en el análisis de regresión, la expresión del R 2 ajustado para modelos log-lineales es la siguiente: R2 = 1− q − r0 1 − R2 q−r ( ) G2 ( Mr ) q−r = 1− 2 G ( M0 ) q − r0 donde q es el número de casillas de la tabla de contingencia, mientras que r0 es el número de parámetros log-lineales que deben estimarse en el modelo de independencia completa, y r es el número de parámetros que hay que estimar en el modelo M r . En consecuencia, ( q − r0 ) es el número de grados de libertad del contraste del modelo - 202 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ M 0 contra el modelo saturado, mientras que (q−r ) es el número de grados de libertad del contraste del modelo M r contra el modelo saturado. Obviamente, cuanto mayor sea el valor de R 2 , mejor será el ajuste del modelo M r . Criterio de información de Akaike: Partiendo del estadístico Cp de Mallow para la selección de un modelo de regresión, Akaike propuso un criterio que permitiese elegir el modelo log-lineal que maximizase la información contenida en dicho modelo. El criterio de información de Akaike ( CIA ) implica elegir el modelo que minimice el siguiente valor: AX = G 2 ( M r ) − [q − 2r ] siendo G 2 ( M r ) el test de la razón de verosimilitud del modelo log-lineal M r ; q el número de casillas de la tabla de contingencia, y r el número de parámetros a estimar en el modelo M r . De forma alternativa, este criterio también puede escribirse de la siguiente forma: AX − q = G 2 ( M r ) − 2(q − r ) - 203 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Dado que q es una constante, la minimización de ( AX − q ) es equivalente a la minimización de AX . A pesar de todo lo comentado anteriormente, no siempre el modelo log-lineal que arroje un mayor valor del R 2 ajustado o un menor valor del CIA es la elección más adecuada, ya que en ocasiones la interpretabilidad del modelo y la consistencia del mismo pueden aconsejar la elección de un modelo con un R 2 ajustado alto o un CIA bajo, sin que dicho valor sea el más alto ( más bajo ) de todos. Por otro lado, la elección del mejor modelo log-lineal no es, en opinión de Christensen ( 1990, pag. 154 ), el final del análisis, sino, más bien al contrario, el punto de partida para análisis estadísticos más profundos. En este sentido, la colapsación de algunas variables de la tabla puede permitir estudiar con bastante mayor profundidad las interrelaciones detectadas entre las variables analizadas mediante las tablas marginales calculadas mediante la colapsación. Así, por ejemplo, si en una tabla de dimensión cinco, el modelo log-lineal elegido es [ABC][CE], se puede colapsar sobre las variables D y E para analizar las interrelaciones entre las variables A, B y C recogidas en la tabla marginal de dimensión tres obtenida a tal efecto. También se podría colapsar sobre las variables A, B y D para profundizar en el análisis de la asociación entre las variables C y E mediante la tabla bidimensional obtenida al colapsar las tres variables anteriores. - 204 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.10. RESIDUOS ESTANDARIZADOS Y RESIDUOS ESTANDARIZADOS AJUSTADOS PARA UN MODELO LOG-LINEAL. De la misma forma que en el análisis de regresión se pueden emplear los residuos para comprobar si se verifican las asunciones del modelo y para detectar la presencia de observaciones que influyan sustancialmente en el mejor o peor ajuste del modelo, los errores o residuos pueden utilizarse también en el modelo log-lineal para identificar frecuencias atípicas que sean responsables de una hipotética falta de ajuste del modelo. Empleando la notación matricial introducida en un apartado anterior, y siendo n ! el vector de frecuencias esperadas estimadas, el vector de frecuencias observadas y m ! Christensen ( 1990, pag. 226 ) demuestra que, para muestras grandes, el vector n − m va a seguir la siguiente distribución de probabilidad aproximada: ! ≅ N( 0 ; Diag(m) ( I − A ) n−m ) donde Diag( m ) es una matriz diagonal, cuyos elementos son las frecuencias esperadas de la tabla de contingencia y donde A se define de la siguiente forma: A = X [X′ Diag(m) X] X −1 Diag(m) −1 siendo X una matriz q x p, donde q es el número de modalidades de respuesta asociadas a la tabla de contingencia ( en el caso de una tabla de dimensión cuatro, q = IxJxKxL ), y p es el número de parámetros que deben estimarse en un modelo log-lineal. - 205 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Dado que los elementos del vector m son desconocidos, será preciso proceder a su estimación, con lo que se verificará que: ! ≅ N( 0 ; Diag(m ! ) ( I − A (m ! )) n−m ) ! ) es la estimación de la matriz Diag( m ) y donde A ( m ! ) vendrá definida donde Diag( m como sigue: ! ) = X [X′ Diag( m ! ) X] X −1 Diag( m !) A(m −1 El residuo o error se define simplemente como la diferencia entre las frecuencias observadas y las frecuencias esperadas estimadas, es decir: e!i = ni − m! i Dada la necesidad de estandarizar estos residuos, se plantean dos formas alternativas de realizar esta operación: ! ) . En este caso, el vector n − m ! a) Ignorando la existencia de la matriz A ( m seguiría la siguiente distribución aproximada: ! ≅ N( 0 ; Diag(m !) n−m ) y la estandarización de los errores daría lugar a los llamados residuos estandarizados que vendrán dados por: - 206 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ n − m! i r~i = i m! i Estos residuos, también conocidos como residuos de Pearson ( ya que la suma de los cuadrados de todos ellos es precisamente el test de Pearson para determinar la bondad de ajuste de un modelo log-lineal ), presentan la ventaja de que no requieren el ! ) , pero su gran inconveniente cálculo de los elementos de la diagonal de la matriz A ( m es que la estandarización no se realiza utilizando la verdadera distribución aproximada de los residuos. b) Considerando la auténtica distribución aproximada para muestras grandes del ! , es decir: vector n − m ! ≅ N( 0 ; Diag(m ! ) ( I − A (m ! )) n−m ) En este caso, el proceso de estandarización conduciría a lo que se denominan residuos estandarizados ajustados, cuya expresión es la siguiente: r!i = ni − m! i m! i (1 − a!ii ) ! ). donde a!ii es el elemento de la diagonal i-ésima de la matriz cuadrada A ( m - 207 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Es evidente que, a pesar de la dificultad que entraña el cálculo de la matriz ! ) , estos residuos ajustados constituyen los auténticos residuos estandarizados de un A(m modelo log-lineal. Una vez que se ha demostrado que los residuos ajustados están asintóticamente distribuidos según una N(0;1), será posible contrastar si dichos residuos tienen verdaderamente media igual a cero. En la medida en que el valor de un residuo ajustado en valor absoluto sea significativamente mayor que cero, la frecuencia observada correspondiente a dicho residuo será una frecuencia atípica. Con carácter general, puede afirmarse que una frecuencia es atípica si a un nivel de significación α se verifica que r!i > Z1− α 2 . Así, a un nivel de significación del 5 %, todos aquellos residuos superiores en valor absoluto a 1,96 identificarán frecuencias atípicas, que serán posiblemente las responsables de la falta ( o de la escasa bondad, en su caso ) de ajuste de un modelo loglineal cualquiera. Finalmente, una tercera medida para detectar la presencia de frecuencias atípicas es la llamada distancia de Cook. Empleando de nuevo la notación matricial, la expresión de la distancia de Cook para modelos log-lineales es la siguiente: ′ Cq β! − β! ) ( = (q) ( ! ) X β! − β! ( q ) X′ Diag( m ) p En la expresión anterior, p es el número de grados de libertad del modelo log- - 208 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ lineal, mientras que β! ( q ) es el vector de estimaciones máximo-verosímiles de los parámetros del modelo log-lineal cuando se ha eliminado de la tabla de contingencia la modalidad de respuesta q. Es evidente que el cálculo de las estimaciones de los elementos del vector β! ( q ) requiere procedimientos de estimación iterativos, tales como el algoritmo de NewtonRaphson. Dado que la obtención de dichos valores es un proceso bastante complejo, es factible efectuar únicamente el primer paso del algoritmo de Newton-Raphson para obtener una primera aproximación del vector β! ( q ) , que se denotará por β! 1( q ) . De esta forma, una aproximación a la distancia de Cook sería la dada por la siguiente expresión: Cq1 = ( ′ ! ) X β! − β! 1( q ) β! − β! 1( q ) X′ Diag( m ) ( ) p Operando algebráicamente en la expresión anterior, Cq1 puede también escribirse de la siguiente forma: Cq1 = donde r!q = 1 2 a!qq r!q p 1 − a!qq nq − m! q es el error estandarizado de la casilla q de la tabla de contingencia y m! q ! ). a!qq es la diagonal q-ésima de la matriz cuadrada A ( m - 209 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ En el supuesto de un modelo de Poisson, el valor Cq1 debe compararse con el valor correspondiente de una distribución χ 2 con p grados de libertad dividida entre sus grados de libertad. Así, si χ 2(1−α ), p C > p 1 q se podrá concluir que la casilla q tiene una influencia sustancial sobre los valores de los parámetros estimados y, en consecuencia, sobre el ajuste del modelo log-lineal a los datos de la tabla de contingencia. A pesar de que esta medida presenta como principal inconveniente el hecho de que se obtiene a partir de una primera aproximación de las estimaciones de los parámetros del modelo mediante el algoritmo de Newton-Raphson, no es menos cierto que arroja un valor que orienta con claridad sobre la posible presencia de frecuencias atípicas en el modelo estudiado. En cualquier caso, la significatividad estadística de los residuos estandarizados ajustados y la distancia de Cook tienen un interés más teórico que práctico. En este sentido, una vez contrastada la significatividad global de un modelo log-lineal dado, el interés del investigador aplicado se dirigirá, posiblemente, a contrastar la significatividad individual de cada uno de los parámetros del modelo elegido. Una inspección de los efectos de interacción estimados puede revelar, por - 210 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ ejemplo, la razón por la que la independencia teórica entre dos variables no se materializa en la práctica, o viceversa. La forma de evaluar correctamente la significatividad de un efecto de interacción es estandarizando dicho efecto. Así, por ejemplo, la estimación estandarizada del efecto de interacción τijAB vendrá dada por la siguiente expresión: ω! ijAB = τ! ijAB ( ) ! τ! ijAB Var ( ) ! τ! ijAB es la varianza estimada de la estimación τ! ijAB . donde Var La mayoría de los programas informáticos, especialmente aquellos que utilizan el algoritmo de Newton-Raphson como método de estimación, proporcionan aproximaciones válidas de las estimaciones estandarizadas. Según constata Andersen ( 1990, pag. 45 ), las estimaciones estandarizadas de los parámetros de un modelo log-lineal son asintóticamente normales con media 0 y varianza 1, por lo que, en este caso, podrá afirmarse que: ω! ijAB ≅ N(0;1) De esta forma, si se verifica que ω! ijAB ≤ 196 . , podremos concluir que la hipótesis τijAB = 0 ( ∀i , j ) no puede ser rechazada a un nivel de significación del 5 %, lo que - 211 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ implicaría que dichos efectos de interacción no son estadísticamente significativos. Por el contrario, si ω! ijAB > 196 . , se podrá admitir a un 5 % de nivel de significación que los términos τijAB son significativamente distintos de cero. 4.11. COLAPSABILIDAD DE TABLAS DE CONTINGENCIA. Una tabla de contingencia organiza los datos de tal forma que éstos sean fácilmente entendidos e interpretados. Sin embargo, y a pesar del carácter simplificador de una tabla, es evidente que una tabla de dimensión 2x4 es más fácil de entender que una tabla de dimensión 2x4x3 y que si las conclusiones del análisis son las mismas en uno y en otro caso siempre será preferible trabajar con tablas de menor dimensión. En esta sección se indicarán las condiciones necesarias para que una tabla de contingencia pueda ser colapsada. En primer lugar, hay que tener presente que colapsar una tabla no siempre es posible, entre otras razones porque la paradoja de Simpson, a la que se ha hecho referencia con anterioridad, es precisamente el resultado de colapsar una tabla que, en realidad, no puede colapsarse. Con carácter general, “si un modelo log-lineal no posee un efecto de interacción de tercer orden y si todos los efectos de interacción de segundo orden existen, no es - 212 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ correcto obtener conclusiones sobre las interacciones de segundo orden a partir de las correspondientes tablas bidimensionales marginales” ( Christensen, 1990, pag. 113 ). La colapsabilidad de tablas de contingencia de dimensión tres puede sintetizarse en el siguiente teorema: Teorema 4.11.1: a) Si el modelo [AC][BC] se verifica, entonces la relación entre las variables B y C puede ser examinada en la tabla marginal n. jk y la relación entre las variables A y C puede ser examinada en la tabla marginal ni .k . b) Si el modelo [AC][BC] o el modelo [AB][BC] se verifica, entonces la relación entre las variables B y C puede ser examinada en la tabla marginal n. jk . c) Si el modelo [A][BC] se verifica, entonces la relación entre las variables B y C puede ser examinada en la tabla marginal n. jk . La extensión de las condiciones de colapsabilidad a tablas de dimensión superior es inmediata y se basa en la noción de independencia condicionada. Así, con carácter general, si una variable es condicionalmente independiente de las demás variables de la tabla, dicha tabla puede colapsarse con respecto a aquella variable, ya que, en este caso, las conclusiones obtenidas del análisis de la tabla completa y del análisis de la tabla - 213 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ marginal coincidirán. Para finalizar este apartado, comentaremos, aunque de forma breve, la importancia que la colapsabilidad tiene en el análisis de segmentación, especialmente en el llamado algoritmo CHAID. Este algoritmo trabaja directamente sobre tablas marginales, de forma que sólo en el caso de que la tabla de datos original pueda ser colapsada, será posible la utilización de esta técnica de segmentación, ya que, en caso contrario, se podrían obtener resultados contradictorios, en virtud de la conocida Paradoja de Simpson. Uno de los trabajos más brillantes sobre el algoritmo CHAID y la colapsabilidad es el realizado por la doctora Dorado Díaz ( 1998 ) en el que se efectúa, entre otras cosas, un detallado análisis de colapsabilidad para las condiciones del CHAID en tablas de contingencia con tres y cuatro factores. 4.12. EL MODELO LOGIT PARA VARIABLES CATEGÓRICAS. En múltiples ocasiones, el interés del análisis de una tabla de contingencia se centra esencialmente en una de las variables que forman dicha tabla. Cuando esto ocurre, las restantes variables de la tabla y sus relaciones de dependencia se tendrán en consideración especialmente por su capacidad para ayudar a explicar el comportamiento de la variable categórica de interés ( denominada, en lo sucesivo, variable respuesta ). A diferencia de lo que ocurría con el modelo log-lineal, en el que existía una relación - 214 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ simétrica31 entre todas las variables que formaban la tabla de contingencia, cuando se pretende analizar el comportamiento de una variable categórica a partir de las demás variables de la tabla, las relaciones existentes entre la totalidad de las variables debe entenderse de una forma asimétrica, en el sentido de que, de forma similar a como ocurre en el modelo de regresión clásico, una variable dependiente o variable respuesta es explicada por un conjunto de variables independientes o explicativas. La técnica estadística que se emplea para explicar el comportamiento de una variable categórica a partir de las restantes variables categóricas de la tabla recibe el nombre de modelo logit. El número de categorías de la variable respuesta condiciona en cierta manera la metodología a emplear, puesto que la formulación del modelo logit presenta matices diferenciales según que la variable respuesta posea únicamente dos categorías o posea más de dos categorías. Pasaremos a continuación a abordar ambas situaciones. 4.12.1. Variable respuesta dicotómica. Cuando se considera una variable respuesta, en lugar de modelizar el logaritmo de las frecuencias esperadas ( como ocurre en el modelo log-lineal ), el interés del análisis estadístico recae en la modelización del logaritmo de las múltiples ventajas que 31 Es decir, no existe una variable explicada y un conjunto de variables explicativas, sino que cada una de las variables consideradas en el modelo log-lineal explica, o puede explicar, el comportamiento de las demás variables, sin que existan, por tanto, “variables explicadas” según la terminología utilizada en el modelo de regresión clásico. - 215 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ pueden definirse a partir de la variable respuesta. Si esta última posee únicamente dos categorías, la modelización se simplifica de forma considerable, dado que existe una sola forma de definir la “ventaja”. Así, si p1 es la probabilidad asociada a la primera categoría de la variable respuesta y p2 la probabilidad asociada a la segunda categoría, es evidente que la ventaja asociada a considerar la primera categoría sobre la segunda será p1 p , mientras que la ventaja de considerar la segunda sobre la primera será 2 . p2 p1 Pues bien, partiendo del logaritmo de la ventaja asociada a considerar la primera p1 ), la transformación logit consistirá en tomar una probabilidad “ p ” p2 p entre 0 y 1 y transformarla en log . De esta forma, la transformación logit 1 − p categoría ( log consistirá en lo siguiente: p logit ( p) = log 1 − p Se considerará que se designan por 1 y 2 los niveles de la variable respuesta, de forma que p1 jkl"r será la probabilidad condicionada de que un individuo se encuadre en la categoría 1 de la variable respuesta dado que está situado en la categoría j de la variable B, en la categoría k de la variable C, en la categoría l de la variable D, ..., y en la categoría r de la variable Z, mientras que p2 jkl "r representará la probabilidad condicionada de que el mismo se encuadre en la categoría 2 de la variable respuesta - 216 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ dado que dicho individuo se ha situado en las categorías j, k, l, ..., r de las variables categóricas B, C, D, ..., Z, respectivamente. Teniendo presente que p1 jkl"r + p2 jkl "r = 1 , y que p1 jkl"r = p1 jkl"r , la p1 jkl"r + p2 jkl"r transformación logit tendría, en este caso, la siguiente forma: ( ) logit p1 jkl"r = log p1 jkl"r p2 jkl "r = log p1 jkl"r p2 jkl"r (4.26) La función logit es una función monótona con rango (-∞;+∞). Es evidente que el logit tomará valores positivos elevados cuando los niveles j, k, l, ..., r de las variables categóricas B, C, D, ..., Z tengan mayor probabilidad de ocurrir con el valor 1 que con el valor 2 de la variable respuesta, mientras que si la combinación j, k, l, ..., r tiene una mayor probabilidad de ocurrencia con el valor 2 que con el valor 1 de la variable respuesta, el logit tomará un alto valor negativo. De aquí que la mayor o menor probabilidad de ocurrencia de cada combinación de niveles de las variables explicativas con cada una de las dos categorías de la variable respuesta convierta al modelo logit en una importante herramienta estadística para analizar la influencia de las variables explicativas sobre la variable respuesta. Según demuestra Andersen ( 1990, pag. 241 ), existe una clara correspondencia entre el modelo logit y el modelo log-lineal. Para verificar esta correspondencia, se supondrá que se quiere estudiar el comportamiento de una variable respuesta dicotómica A mediante tres variables explicativas B, C y D. Si el modelo log-lineal que mejor - 217 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ explica las relaciones de dependencia entre las cuatro variables categóricas es el siguiente: CD BD ABC log mijkl = τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ ijAB + τ ikAC + τ BC + τ BCD jk + τ kl + τ jl + τ ijk jkl la transformación logit vendrá dada por: log ( ) ( ) ( ) p1 jkl m AC = log 1 jkl = log m1 jkl − log m2 jkl = τ1A − τ 2A + τ1ABj − τ 2ABj + τ1AC + k − τ2k p2 jkl m2 jkl ( ABC + τ1ABC jk − τ 2 jk ) Dado que se verifica que: 2 A ∑ τi = 0 ; i =1 2 2 AB ∑ τij = 0 ; 2 AC ∑ τik = 0 ; i =1 ABC ∑ τijk = 0 i =1 i =1 es evidente que la transformación logit vendría dada por la siguiente expresión: g jkl = log [ p1 jkl ABC = 2 τ1A + τ1ABj + τ1AC k + τ1 jk p2 jkl ] lo que viene a poner de manifiesto las dos propiedades esenciales del modelo logit: 1ª) El modelo logit dependerá exclusivamente del efecto primario de la variable respuesta y de los efectos de interacción entre la variable respuesta y las variables explicativas. - 218 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 2ª) El logit es igual a dos veces la suma de aquellos parámetros no nulos del modelo log-lineal que impliquen a la variable respuesta. Por otra parte, una reparametrización del modelo logit para el caso que está siendo tratado, considerando que: β0 = 2 τ1A ; β Bj = 2 τ1ABj ; βCk = 2 τ1AC k ; ABC β BC jk = 2 τ1 jk permite expresar dicho modelo de la siguiente forma: g jkl = β0 + β Bj + β Ck + β BC jk (4.27) que, a su vez, podría expresarse simplificadamente como [BC]. A modo de ilustración, se presentan en la Tabla 4.5 algunos modelos log-lineales y los correspondientes modelos logit en los que la variable A se considera la variable respuesta. Por otra parte, a partir de g jkl = log p1 jkl p2 , se verifica que: jkl g p1 jkl e jkl = g 1 + e jkl - 219 - (4.28) Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ expresión que posibilita analizar el efecto de las variables explicativas sobre la probabilidad asociada a la categoría 1 de la variable respuesta, dados los niveles j, k y l de las variables explicativas. Tabla 4.5 Correspondencia entre algunos modelos log-lineales y modelos logit para una tabla de contingencia IxJxKxL Modelo log-lineal Modelo logit [ABC][ABD][ACD] [BC][BD][CD] [ABC][ABD] [BC][BD] [ABC][ACD] [BC][CD] [ABD][ACD] [BD][CD] [ABC][AD] [BC][D] [ABD][AC] [BD][C] [ACD][AB] [CD][B] [ABC] [BC] [ABD] [BD] [ACD] [CD] [AB][AC][AD] [B][C][D] [AB][AC] [B][C] [AB][AD] [B][D] [AC][AD] [C][D] - 220 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ Así, y a partir de la expresión anterior, se deduce que el modelo logit mide mediante g jkl la ventaja relativa de observar la categoría 1 de la variable respuesta en lugar de observar la categoría 2 de dicha variable. De esta forma, si para una determinada combinación de los niveles j, k y l, las probabilidades de observar la variable respuesta en la categoría 1 y en la categoría 2 coinciden ( p1 jkl = p2 jkl ), entonces g jkl = 0 . Por el contrario, g jkl > 0 en el caso de que p1 jkl > p2 jkl , mientras que g jkl < 0 cuando p1 jkl < p2 jkl . En consecuencia, se puede concluir que cuanto mayor sea el valor de g jkl , mayor será la ventaja relativa de observar la categoría 1 de la variable respuesta. En otro orden de cosas, dado que el modelo logit es una mera reformulación del modelo log-lineal, es obvio que la determinación de la bondad de ajuste del modelo logit, la estimación de los parámetros del modelo y la contrastación de la significatividad estadística de los mismos se llevará a cabo empleando las herramientas estadísticas introducidas en el modelo log-lineal. Así, la estimación del modelo logit anteriormente presentado g jkl = β0 + β Bj + β Ck + β BC jk es inmediata si se tienen presentes las siguientes relaciones: β! 0 = 2 τ! 1A ; β! Bj = 2 τ! 1ABj ; β! Ck = 2 τ! 1AC k ; - 221 - ! ABC β! BC jk = 2 τ 1 jk Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ donde τ! 1A , τ! 1ABj , τ! 1kAC y τ! 1ABC representan, respectivamente, las estimaciones máximojk verosímiles de los parámetros τ1A , τ1ABj , τ1kAC y τ1ABC jk del modelo log-lineal [ABC][BCD]. Por su parte, la determinación de la bondad de ajuste del anterior modelo logit se efectuará mediante los conocidos tests chi-cuadrado de Pearson y de razón de verosimilitud: 2 J K L X 2 = ∑∑∑∑ (n i =1 j =1 k =1 l =1 ijkl − m! ijkl m! ijkl ) 2 2 J K L n G 2 = 2 ∑ ∑ ∑ ∑ nijkl log ijkl m! ijkl i =1 j =1 k =1 l =1 donde m! ijkl son las frecuencias esperadas estimadas correspondientes, en este caso, al modelo log-lineal [ABC][BCD]. Finalmente, si se desea contrastar la significatividad individual de cada parámetro del modelo logit bastará contrastar el modelo log-lineal que contenga el parámetro asociado al correspondiente parámetro logit contra el modelo log-lineal que no lo incluya. Así, para contrastar la hipótesis H 0 : β BC jk = 0 , bastará contrastar el modelo log-lineal [ABC][BCD] ( que contiene el parámetro τ1ABC ) contra el modelo jk ). Si las frecuencias [AB][AC][BCD] ( que no incluye el parámetro log-lineal τ1ABC jk esperadas estimadas y el test de la razón de verosimilitud para los modelos - 222 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ (a) y G2 ( Ma ) y [ABC][BCD] y [AB][AC][BCD] vienen dados, respectivamente, por m! ijkl (b) y G 2 ( Mb ) , entonces la constrastación de la hipótesis anterior se efectuará por m! ijkl mediante el siguiente test estadístico: 2 J K L (b ) G ( Mb M a ) = 2 ∑ ∑ ∑ ∑ m! ijkl log 2 i =1 j =1 k =1 l =1 (b ) m! ijkl = G 2 ( Mb ) − G 2 ( M a ) (a) m! ijkl Si el valor que arroje el test G 2 ( M b M a ) es superior al valor tabulado χ (21− α ), ( I − 1)( J − 1)( K − 1) se rechazará la anterior hipótesis nula a un nivel de significación α . De forma similar, la contrastación de la hipótesis H 0 : β Ck = 0 se llevará a cabo calculando la diferencia en el test de la razón de verosimilitud para los dos modelos loglineales que incluyen y excluyen, respectivamente, al parámetro τ1kAC . Así, si el test de la razón de verosimilitud que arroje el modelo log-lineal [AB][BC][CD][BD], que no incluye el citado término τ1kAC , viene dado por G 2 ( M d ) y el test de la razón de verosimilitud asociado al modelo [AB][BC][CD][BD][AC], que incluye el término τ1kAC , viene dado por G 2 ( M c ) , la anterior hipótesis será rechazada a un nivel de significación α si el valor del test estadístico G 2 ( M d M c ) = G 2 ( M d ) − G 2 ( M c ) es superior al valor tabulado χ (21−α ), ( I −1)( K − 1) . - 223 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ 4.12.2. Variable respuesta policotómica. Cuando la variable respuesta posee más de dos categorías, el análisis logit se complica sustancialmente, puesto que, a diferencia de lo que ocurre cuando la variable respuesta es dicotómica, el número de modelos que pueden definirse en este caso es bastante elevado. Christensen ( 1990, pag. 46 y ss. ) sugiere algunas soluciones a esta problemática. Así, suponiendo que la variable respuesta posee R categorías o niveles diferentes, podrían plantearse las siguientes alternativas: a) Comparar cada categoría de la variable respuesta con la siguiente categoría de la misma mediante la formulación del siguiente logit: m log ijkl mi + 1 jkl i = 1, 2, ", R − 1 En este supuesto, el logit determinará la ventaja relativa de observar la categoría i frente a observar la categoría i+1 de la variable respuesta. b) Comparar cada categoría de la variable respuesta con otra categoría concreta de dicha variable, lo que se instrumentaría mediante el siguiente logit: - 224 - Capítulo Cuarto: El modelo log-lineal general ____________________________________________________________________________________ m log ijkl mi ′ jkl ∀i , i ′ = 1, 2, ", R ∀i ≠ i ′ Este modelo logit cuantificará la ventaja relativa de observar la categoría i frente a observar otra categoría cualquiera de dicha variable respuesta. c) Comparar cada categoría de la variable respuesta con el resto de categorías de la misma, en cuyo caso la formulación del modelo logit sería la siguiente: mijkl log ∑ mi ′ jkl i ′ ≠i i = 1, 2, ", R Este modelo logit determina la ventaja relativa de observar la categoría i frente a no observar dicha categoría de la variable respuesta. En definitiva, y dada la naturaleza de la transformación logit, cuando la variable respuesta posee más de dos categorías, cualquiera de las alternativas presentadas las estructura de forma que sólo se comparen dos categorías ( o agrupaciones de ellas ) al mismo tiempo. - 225 - C A PÍ T U L O QU I N T O MODELOS DE VARIABLES LATENTES Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ 5.1. INTRODUCCIÓN. En el ámbito de las ciencias sociales, dentro del cual se encuentra la Ciencia Económica, multitud de conceptos que juegan un papel crucial en teorías sociales y de comportamiento no pueden ser directamente observados. Así, es imposible inferir directamente cómo es la inteligencia de una persona, cómo es el status socioeconómico de una familia o qué actitud tiene un turista ante sus vacaciones. El conocimiento empírico sobre estos conceptos sólo puede adquirirse identificando otras variables que puedan ser observadas directamente y que contengan información relevante sobre esos conceptos teóricos. De esta forma, la inteligencia se puede medir mediante el planteamiento de problemas concretos que se resuelven mediante un razonamiento abstracto, ya que se supone que los individuos más inteligentes tendrán una mayor habilidad para resolver estos problemas de forma correcta. Algo similar ocurre con el status socioeconómico de una familia, que puede medirse, entre otras variables, a través del nivel de ingresos del cabeza de familia. Por razones obvias, el anterior proceso de medición se denomina en ocasiones observación indirecta, en la que aquellas variables teóricas que no son directamente observables reciben el nombre de variables latentes, mientras que aquellas otras variables que se observan directamente y que contienen información sobre las variables latentes se conocen con el nombre de variables manifiestas o indicadores. - 229 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ El análisis de la asociación entre las variables latentes y las variables manifiestas es posible gracias a los llamados modelos de variables latentes. Bajo esta denominación genérica se agrupa una amplia variedad de modelos, que se diferencian entre sí por la naturaleza tanto de las variables latentes como de los indicadores. Así, según que los indicadores y las variables latentes sean continuas, discretas nominales o discretas ordinales se puede considerar una amplia tipología de modelos de variables latentes. Es evidente que un tratamiento exhaustivo de todos estos tipos de modelos excede los objetivos de esta investigación, de forma que centraremos nuestro planteamiento en el modelo de Análisis de Clases Latentes ( modelo ACL, en lo sucesivo ) que surge cuando tanto la variable latente como las variables manifiestas son variables discretas de naturaleza nominal, aplazándose el análisis de otros modelos de variables latentes ( como son el modelo ACL para datos tasados, el modelo ACL con clases ordenadas, el modelo de respuesta graduada, el modelo de crédito parcial, etc. ) para una fase de investigación postdoctoral. La utilidad del modelo ACL no reside únicamente en su capacidad para identificar variables inobservadas a partir de un conjunto de indicadores de las mismas, sino también, y especialmente, en su potencialidad para segmentar la población objeto de estudio. Como más tarde se comentará, el modelo ACL clasifica a los individuos analizados en varios grupos que vendrán identificados por las clases que posea la variable latente, de forma que todos los individuos pertenecientes a un mismo grupo poseen las mismas características, a diferencia de lo que ocurre con individuos de grupos distintos, que presentan características diferenciadas. - 230 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Las primeras nociones del modelo ACL fueron introducidas a principios de los años cincuenta por Lazarsfeld ( 1950 ) y sus colaboradores ( sobre todo, Henry, 1968 ). Con posterioridad, Goodman ( 1974 ) y Habermann ( 1979 ) realizaron importantes contribuciones al modelo, especialmente en lo relativo a la utilización de algoritmos para probar la validez del modelo y para estimar sus parámetros. Las aportaciones más recientes se deben principalmente a autores como Clogg ( 1981 ), Formann ( 1985 ), McCutheon ( 1987 ), Hagenaars ( 1993 ), Langeheine ( 1988 ) y Rost ( 1985 ). En un modelo ACL, la relación entre la variable latente y las variables manifiestas no es determinística, sino probabilística, de forma que todas las variables observadas tienen en común el hecho de que son indicadores de una misma variable latente. Una asunción básica del modelo ACL ( aunque también de otros modelos de variables latentes ) es que no existen relaciones directas entre las variables manifiestas. Es decir, los indicadores están correlacionados entre sí, pero esta correlación desaparece cuando la variable latente se mantiene constante. En otros términos, la asociación existente entre las variables manifiestas es debida únicamente a la asociación directa existente entre ellas y la variable latente. Se asume, por tanto, la existencia de independencia condicionada entre los indicadores, dada la variable latente. La anterior asunción se conoce con el nombre de independencia local que se formaliza, para cualquier modelo de variables latentes, de la siguiente forma: - 231 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Supóngase que se están analizando “n” variables manifiestas diferentes que se considerarán, por motivos expositivos, dicotómicas. Se supondrá asimismo la existencia de una variable latente θ , que puede ser continua o discreta, de forma que si dicha variable es continua, el valor latente para el individuo i-ésimo se denotará por θi , mientras que si es discreta, el número de categorías de dicha variable ( también llamadas clases latentes ) será igual a T y una categoría concreta se representará por t. De esta forma, θ t designará una clase latente determinada. Denotando mediante el símbolo ν al número de modalidades de respuesta a las n variables manifiestas1, la probabilidad condicionada de que el individuo i-ésimo con valor latente θi se sitúe en el nivel 1 de la variable “j” se representará como p j1 θ i . Si la variable latente es discreta, la probabilidad condicionada de que un individuo “i” que pertenece a la clase latente θ t se sitúe en el valor 1 de la variable “j” se denotará por p j1 θ t . De acuerdo con esta notación, la probabilidad condicionada de observar la modalidad de respuesta ν dado que el individuo se sitúa en el valor latente θi o en la clase latente θ t vendrá dada por pν θ i o por pν θ t , respectivamente. Por último, se considerará un conjunto de variables auxiliares X νj , de forma que X νj = 1 si en la modalidad de respuesta ν el individuo “i” se sitúa en la categoría 1 de la variable “j”, mientras que, en caso contrario, X νj = 0 . 1 En el supuesto de que todas las variables manifiestas sean dicotómicas, - 232 - ν será igual a 2 n . Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Pues bien, puesto que la asunción de independencia local supone que las variables manifiestas son estadísticamente independientes para los individuos que tengan la misma posición en la variable latente, la probabilidad condicionada de observar la modalidad de respuesta ν podrá expresarse como el producto de las probabilidades de respuesta condicionadas para cada una de las diferentes variables manifiestas, esto es: n ( ) (1 − p ) ( ) (1 − p ) pν θ i = ∏ p j1 θ i j =1 n pν θ t = ∏ p j1 θ t j =1 1− X νj X νj j1 θ i 1− X νj X νj j1 θ t cuando θ es continua y cuando θ es discreta. Según han demostrado algunos autores ( Clogg, 1988 ), si la independencia local se verifica para el conjunto de variables manifiestas, también se verificará para cualquier subconjunto de estos indicadores. De igual forma, el hecho de colapsar las categorías de las variables manifiestas tampoco afectará al principio de independencia local. Ahora bien, lo contrario no es necesariamente cierto, ya que si se verifica la independencia local para variables que tienen algunas de sus categorías colapsadas, la independencia local no tiene por qué verificarse necesariamente para las variables manifiestas originales. Aunque el hecho de colapsar las categorías de las variables observadas no influye sobre la asunción de independencia local, no es posible, sin embargo, generalizar esta idea cuando se colapsan los valores de la variable latente. Con carácter general, si la asunción de independencia local se verifica para una variable latente - 233 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ continua θ , no será posible agrupar los valores de dicha variable sin que dicho agrupamiento distorsione el concepto de independencia local2. 5.2. EL MODELO DE ANÁLISIS DE CLASES LATENTES GENERAL. Este modelo supone que la población de individuos se divide en un determinado número de clases latentes que deben ser excluyentes y exhaustivas, de forma que cada individuo pertenecerá única y exclusivamente a una clase latente. La asunción de independencia local implica, en este caso, que, dentro de cada clase latente, las variables manifiestas son estadísticamente independientes. En otras palabras, la independencia local implica en esta situación que la relación entre los indicadores viene explicada por la pertenencia de cada individuo a una clase latente concreta, teniendo presente que cada clase latente tendrá probabilidades condicionadas de respuesta a las variables manifiestas diferentes a las probabilidades condicionadas asociadas a otra clase latente distinta, y que los individuos que pertenecen a la misma clase latente tendrán la misma probabilidad de responder a las variables manifiestas en cualquier combinación de categorías de las mismas. 2 En cualquier caso, Clogg (1988) sostiene que, en ocasiones, es posible discretizar el espacio latente en un conjunto de clases latentes discretas, consiguiéndose, por regla general, que la independencia local se mantenga. - 234 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Si se designa por Π tX a la probabilidad de que un individuo pertenezca a la clase latente “t” de la variable latente X y se consideran tres variables manifiestas A, B y C, se tendrá que la probabilidad de que un individuo se sitúe en la casilla i de la variable A, en la casilla j de la variable B, en la casilla k de la variable C y en la clase t de la variable ABCX latente X, probabilidad de que se designará por Πijkt , vendrá dada por el producto de las probabilidades condicionadas de que se responda a cada variable manifiesta en un nivel determinado de la misma dado que dicho individuo pertenece a la clase t de la variable latente X por la probabilidad de que se encuadre en dicha clase de la variable latente, es decir: ABCX CX X Π ijkt = ΠitAX × Π BX jt × Π kt × Π t (5.1) donde: ΠitAX es la probabilidad condicionada de que un individuo que pertenece a la clase t de la variable latente X responda en el nivel i de la variable A. es la probabilidad condicionada de que un individuo que pertenece a la clase t de Π BX jt la variable latente X responda en el nivel j de la variable B. Π CktX es la probabilidad condicionada de que un individuo que pertenece a la clase t de la variable latente X responda en el nivel k de la variable C. De acuerdo con esta notación, la probabilidad de que un individuo responda en el nivel i de la variable A, en el nivel j de la variable B y en el nivel k de la variable C, la - 235 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ABCX cual se designará por ΠijkABC , vendrá dada por la suma de las probabilidades Πijkt para todas y cada una de las clases latentes de la variable X, es decir: T ABCX ΠijkABC = ∑ Π ijkt t =1 En realidad, el modelo ACL puede expresarse de forma equivalente en términos del modelo log-lineal, ya que la probabilidad conjunta de que un individuo pertenezca a la clase t de la variable latente X y responda en los niveles i, j y k de las variables manifiestas A, B y C, respectivamente, puede descomponerse de la siguiente forma: ABCX CX = τ 0 + τ iA + τ Bj + τ Ck + τ tX + τitAX + τ BX log Πijkt jt + τ kt (5.2) es decir, las variables A, B y C son condicionalmente independientes dada una categoría concreta de la variable latente X. Gráficamente, esta situación podría representarse de la siguiente forma: A B C X - 236 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ De la exposición anterior se deduce que los parámetros del modelo ACL son las probabilidades condicionadas ΠitAX , Π BX y Π CktX y las probabilidades de clase latente jt Π tX . Las probabilidades de clase latente determinarán la distribución de las diferentes clases de la variable latente, de forma que, puesto que las T clases de la variable latente deben ser excluyentes y exhaustivas, deberá verificarse siempre que: T ∑Π X t =1 (5.3) t =1 Una variable latente deberá tener como mínimo dos clases, puesto que una variable con un única clase latente implica la independencia entre las variables manifiestas. Si se designa por mijkt al número medio de individuos que responderán a las variables A, B y C en los niveles i, j y k, respectivamente, y que pertenecen a la clase t de la variable latente X, y siendo N el tamaño total de la muestra, es evidente que la probabilidad de clase latente Π tX vendrá dada por: I J K ∑∑∑m ijkt Π = X t i =1 j =1 k =1 N - 237 - = m...t N (5.4) Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ El valor de cada probabilidad de clase latente proporcionará importante información sobre la población que está siendo analizada. Así, si todas las probabilidades Π tX arrojan valores similares, se tendrá una población de individuos homogéneamente distribuida, mientras que si algunas probabilidades son grandes y otras son pequeñas, se estará ante una población con una distribución heterogénea en la que se conjugan segmentos altamente representativos con otros segmentos minoritarios. Los valores de Π tX son también muy útiles para comparar las estructuras latentes subyacentes en dos o más poblaciones. Así, si dos poblaciones poseen probabilidades de clase latente muy similares, dichas poblaciones presentarán estructuras latentes semejantes, mientras que si las probabilidades de clase latente difieren de forma considerable, las poblaciones que se están comparando poseerán estructuras latentes diferenciadas. Por su parte, las probabilidades condicionadas permitirán identificar las características de los tipos de individuos definidos mediante las diferentes clases de la variable latente, ya que todos los individuos pertenecientes a una misma clase latente tendrán la misma probabilidad de responder en las categorías i, j y k a los indicadores A, B y C. Dentro de cada clase latente, las probabilidades condicionadas para cada una de las variables manifiestas deben sumar 1, es decir: - 238 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ I ∑Π AX it =1 (5.5) BX jt =1 (5.6) CX kt =1 (5.7) i =1 J ∑Π j =1 K ∑Π k =1 Puesto que para cada categoría de las variables observadas existirá una probabilidad condicionada por cada clase latente de la variable X, es evidente que si la variable A posee I categorías, la variable B posee J categorías y la variable C posee K categorías, y si la variable latente X posee un total de T clases latentes, el número total de probabilidades condicionadas del modelo ACL general sería IT+JT+KT = T(I+J+K). Sin embargo, puesto que la suma de las probabilidades condicionadas para cada variable manifiesta debe sumar 1 dentro de cada clase latente, existirá una probabilidad condicionada para cada variable manifiesta y en cada clase latente que podrá calcularse T −1 a partir de las anteriores ( por ejemplo, ΠiTAX = 1 − ∑ ΠitAX ), por lo cual el número de t =1 probabilidades condicionadas que deben estimarse en el modelo ACL general sería igual a (I-1)T+(J-1)T+(K-1)T = T [ (I-1)+(J-1)+K-1) ]. Por otra parte, cada probabilidad condicionada puede obtenerse de la siguiente forma: - 239 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ΠitAX = pi ..t mi ..t = Π tX m...t Π BX jt = p. j .t Π CktX = (5.8) m. j .t m...t (5.9) p..kt m..kt = Π tX m...t (5.10) Π X t = 5.3. ESTIMACIÓN MÁXIMO-VEROSÍMIL DEL MODELO ACL GENERAL. En este apartado se considerarán las técnicas más comúnmente utilizadas para obtener las estimaciones de las probabilidades de clase latente y de las probabilidades condicionadas del modelo ACL. En general, estas técnicas presentan grandes similitudes con las empleadas para el modelo log-lineal, ya que las ecuaciones de verosimilitud son similares, existe también un algoritmo de ajuste iterativo proporcional, y existe incluso una variante del algoritmo de Newton-Raphson, llamado “algoritmo de escala”. Sin embargo, a pesar de las citadas semejanzas, la estimación de los parámetros del modelo ACL es más complicada que la correspondiente estimación del modelo log-lineal. En este sentido, para la estimación del modelo ACL, los valores iniciales necesarios para los cálculos iterativos no son fáciles de elegir, pueden existir múltiples soluciones a las ecuaciones de verosimilitud e incluso los cálculos iterativos se efectúan con mayor lentitud que en el caso del modelo log-lineal. - 240 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Un método ampliamente utilizado para obtener las estimaciones máximoverosímiles de las probabilidades condicionadas y de clase latente es el llamado algoritmo EM. Este algoritmo, propuesto por Goodman ( 1974 ), y desarrollado posteriormente por Dempster, Laird y Rubin ( 1977 ), es una adaptación simple del método de ajuste iterativo proporcional del modelo log-lineal. Este método define, en primer lugar, la probabilidad estimada por máxima verosimilitud de que un individuo pertenezca a la clase t de la variable latente X condicionada a que dicho individuo haya respondido en los niveles i, j y k de las variables manifiestas A, B y C, respectivamente, de la siguiente forma: ! ABCX ! ABCX = Πijkt Π ijkt ! Π ijk (5.11) ! ABCX es la estimación por máxima verosimilitud de la probabilidad conjunta de donde Π ijkt que un individuo responda a las variables A, B y C en las categorías i, j y k, ! representa respectivamente, y pertenezca a la clase t de la variable X; mientras que Π ijk la probabilidad estimada de que un individuo responda en los niveles i, j y k, respectivamente, a los indicadores A, B y C, de forma que dicha probabilidad se calculará de la siguiente forma: T ! = Π Π ∑ ! ijktABCX ijk t =1 - 241 - (5.12) Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ! ABCX expresa la probabilidad estimada de que los individuos En definitiva, Π ijkt situados en la casilla ( i, j, k ) de la tabla de contingencia se sitúen en el nivel t de la variable latente. Si se considera una tabla de contingencia de dimensión IxJxK de variables observadas y una variable latente con un total de T clases, y se supone un modelo muestral multinomial, el logaritmo de la función de verosimilitud3 vendrá dado por: I J K T I J K i =1 j =1 k =1 ACBX CX log L = ∑ ∑ ∑ ∑ nijkt log Π ijkt = ∑ ni ..t log ΠitAX + ∑ n. j .t log Π BX jt + ∑ n.. kt log Π kt + i = 1 j =1 k =1 t =1 T + ∑ n...t log Π tX t =1 donde nijkt es el número de individuos que responden en la casilla ( i, j, k ) a las variables manifiestas A, B y C, respectivamente, y pertenecen a la clase t de la variable X, mientras que ni ..t , n. j.t , n..kt y n...t son valores marginales calculados a partir de nijkt mediante sumatorio respecto a determinados índices. Goodman ( 1974 ) señala que si pijk designa la proporción observada de individuos situados en la casilla ( i, j, k ) de la tabla de contingencia, se demuestra que las estimaciones máximo-verosímiles de las probabilidades condicionadas y de clase latente satisfacen el siguiente sistema de ecuaciones obtenidas al maximizar la función 3 Obviando en dicha función aquellos términos de la misma que no dependan de las probabilidades condicionadas o de las probabilidades de clase latente. - 242 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ de verosimilitud: I J K !X = Π ∑ ∑ ∑ pijk Π! ijktABCX t (5.13) i = 1 j =1 k = 1 J ! AX = Π it ∑∑ p ijk (5.14) !X Π t K ∑∑ p ijk i =1 k =1 I ! CX = Π kt ! ABCX Π ijkt j =1 k =1 I ! BX = Π jt K ! ABCX Π ijkt (5.15) !X Π t J ∑∑ p ijk ! ABCX Π ijkt i =1 j =1 !X Π t (5.16) Así, a través de un proceso iterativo, el anterior sistema de ecuaciones permite obtener estimaciones máximo-verosímiles de las probabilidades de clase latente y de las probabilidades condicionadas. El proceso iterativo comienza con unos valores iniciales de las probabilidades condicionadas y de clase latente, que se designarán por Π tX ( 0) , ( 0) y Π CktX ( 0) . A partir de estos valores iniciales, es posible calcular un valor ΠitAX ( 0 ) , Π BX jt ! ABCX : inicial para la probabilidad Π ijkt ( 0) ABCX ( 0 ) Πijkt = Π tX ( 0) × ΠitAX ( 0 ) × Π BX × Π CktX ( 0) jt - 243 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ! , esto Con el anterior valor, se puede calcular a su vez un valor inicial para Π ijk es: T ( 0) ABCX ( 0 ) Πijk = ∑ Πijkt t =1 ! ABCX : lo que permitirá obtener un primer valor de Π ijkt ABCX ( 0 ) Π ijkt = ABCX ( 0 ) Π ijkt ( 0) Πijk Empleando a continuación las proporciones observadas pijk , es posible obtener !X: un nuevo valor para Π t I J K ABCX ( 0 ) Π tX (1) = ∑ ∑ ∑ pijk Π ijkt i =1 j =1 k =1 ! BX y ! AX , Π Conocido el valor anterior, pueden obtenerse nuevos valores para Π it jt ! C X , es decir: Π kt J ! AX (1) = Π it K ∑∑ p ijk ! ABCX ( 0) Π ijkt j =1 k =1 ! X (1) Π t - 244 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ I ! BX (1) = Π jt ijk i =1 k =1 I ! C X (1) = Π kt K ∑∑ p ! ABCX ( 0 ) Π ijkt ! X (1) Π t J ∑∑ p ijk ! ABCX ( 0) Π ijkt i =1 j =1 ! X (1) Π t El proceso iterativo continuaría obteniendo a continuación, y de forma sucesiva, ABCX (1) (1) (2) ABCX (1) Πijkt , Πijk y Πijkt , que permitirán calcular Π tX ( 2 ) , ΠitAX ( 2 ) , Π BX y Π CktX ( 2 ) , jt valores con los que dará comienzo la tercera iteración, y así sucesivamente. Este proceso iterativo de estimación finalizará cuando se alcance un número predeterminado de iteraciones o cuando la diferencia entre las estimaciones máximoverosímiles de una iteración y las de la iteración inmediatamente anterior sea menor a una cantidad fijada previamente y denominada nivel de tolerancia. El principal inconveniente del primer método es que las estimaciones máximo-verosímiles pueden estar cambiando todavía de forma sustancial de una iteración a otra cuando el proceso iterativo se interrumpa. En cualquier caso, es preciso hacer constar que este método de estimación presenta algunos inconvenientes. Así, por ejemplo, puede existir más de una solución al sistema de ecuaciones máximo-verosímiles, debido al hecho de que las estimaciones MV de las probabilidades condicionadas y de clase latente pueden ser un máximo local, en lugar de un máximo global. No obstante, este problema no resulta especialmente - 245 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ grave en la práctica, ya que bastará considerar varios conjuntos de valores iniciales y comprobar si los mismos conducen a las mismas estimaciones finales, como suele ser, por otra parte, lo habitual. Otro problema que suele presentar la estimación de los parámetros del modelo ACL es que dicho modelo debe estar identificado, circunstancia que en ocasiones no ocurre. Es decir, a veces los parámetros del modelo no están unívocamente determinados. Una condición necesaria para que exista identificabilidad en el modelo es que el número de grados de libertad del test empleado para su contrastación no sea negativo. Dichos grados de libertad se calculan como la diferencia entre el número de casillas de la tabla de contingencia menos 1 y el número total de parámetros a estimar en el modelo. En el caso de una tabla de contingencia IxJxK en la que se asuma que la asociación entre las variables que la forman está explicada por una variable latente con T clases, los grados de libertad para contrastar el correspondiente modelo serían: G.L. = (IJK-1) - [ (T-1) + T(I-1) + T(J-1) + T(K-1) ] = (IJK-1) - [ (I+J+K-2)T -1 ] = = IJK - (I+J+K-2)T En consecuencia, sólo en el caso de que los grados de libertad sean positivos, podrá estimarse y contrastarse el citado modelo. Sin embargo, la condición anterior, aunque necesaria, no es suficiente, puesto que puede ocurrir que el modelo no esté identificado a pesar de que el número de grados de libertad no sea negativo. Goodman ( 1974 ) formuló una condición suficiente para - 246 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ que exista identificabilidad local. Este autor señala que el modelo ACL estará ! de estimaciones máximo-verosímiles de las probabilidades identificado si el vector Π ! a través del Πijk queda únicamente determinado por las probabilidades estimadas Π ijk ! ! queda únicamente determinado por las Π algoritmo EM. Si el vector Π ijk en un entorno del vector Π , el modelo estará localmente identificado. En caso contrario, existirán varias estimaciones asociadas a una solución determinada, es decir, podría existir más de una estimación para las probabilidades Πijk , con lo que el modelo no estaría identificado. El método propuesto por Goodman es una condición necesaria y suficiente para determinar la identificabilidad local de un modelo ACL. Este método consiste en obtener las derivadas parciales de las funciones Πijk con respecto a todos y cada uno de los parámetros del modelo y construir una matriz con estas derivadas parciales, que tendrá IJK-1 filas y (I+J+K-2)T-1 columnas. Así, en las columnas correspondientes a las derivadas parciales con respecto a Π tX se recogerán los siguientes valores: ∂Πijk CX AX BX CX = ΠitAX × Π BX jt × Π kt − Π iT × Π jT × Π kT X ∂Π t para t = 1, 2, ..., T Por otra parte, en las columnas correspondientes a las derivadas parciales con respecto a las probabilidades condicionadas se recogerán los siguientes valores si se considera la probabilidad condicionada ΠitAX : - 247 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ∂Π ijk ∂ΠitAX CX Π tX × Π BX jt × Π kt CX = − Π tX × Π BX jt × Π kt 0 para i = s para i = I en otro caso donde s = 1, 2, ..., I-1. Expresiones similares se obtendrán para las derivadas parciales con respecto a las probabilidades condicionadas Π BX y Π CktX . jt Una vez construida la matriz, Goodman ( 1974 ) señala que el modelo ACL estará localmente identificado si el rango de dicha matriz es igual al número de columnas, es decir, coincide con el número de parámetros a estimar en el modelo. En otros términos, no pueden existir columnas linealmente dependientes. Cuando el modelo no está localmente identificado, se pueden imponer restricciones sobre determinados parámetros para lograr la identificabilidad local del mismo, ya que, cuando se imponen restricciones, el número total de parámetros a estimar ( en este caso, (I+J+K-2)T-1 ) disminuye. Dada la correspondencia existente entre un modelo de clases latentes y un modelo log-lineal, Goodman ( 1974 ) define ciertas magnitudes que permiten calcular tanto los efectos primarios de las variables observadas y de las variables latentes como los efectos de interacción existentes entre cada uno de los indicadores y la variable latente X. - 248 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Así, y considerando el caso más simple en el que las variables A, B, C y D son dicotómicas y la variable latente X sólo posee 2 clases, Goodman define a Ω.Ajklt como la ventaja relativa de que un individuo se sitúe en el nivel 1 de la variable A en lugar de hacerlo en el nivel 2 de dicha variable, dado que se sitúa en el nivel j de la variable B, en el nivel k de la variable C, en el nivel l de la variable D y en la clase t de la variable ABCDX latente X. Esta ventaja puede definirse en términos de las probabilidades Π ijklt de la siguiente forma: Ω.Ajklt = Π1ABCDX jklt Π 2ABCDX jklt Como consecuencia de la hipótesis de independencia local, la anterior expresión puede reescribirse de la siguiente forma: Ω.Ajklt = Π1AX t AX Π2t que significa que las ventajas relativas Ω.Ajklt correspondientes a la variable A están afectadas únicamente por el nivel t de la variable X, pero no por los niveles ( j, k, l ) de las restantes variables ( B, C, D ). Goodman define a Ω.Ajklt como la “ventaja esperada”, al estar dicha cantidad en - 249 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ABCDX función de las probabilidades esperadas4 Π ijklt . De la misma forma, define la ventaja de que un individuo se sitúe en el nivel 1 de la variable A en lugar de situarse en el nivel 2 de dicha variable, dado que dicho individuo pertenece a la clase t de la variable latente X, de la siguiente forma: Ω.tAX = Π1AX t Π 2AXt En consecuencia, se verifica que: Ω.Ajklt = Ω.AX t Goodman demuestra que Ω.Ajklt puede expresarse también de la siguiente forma: Ω.Ajklt = γ A × γ .AX t donde: AX γ A = Ω.AX 1 × Ω .2 γ .1AX = γ AX γ .2AX = 4 1 γ AX γ AX = Ω.AX 1 Ω.AX 2 Goodman utiliza el término “ventaja esperada” para distinguir esta cantidad de la “ventaja observada”, que depende de las proporciones observadas, aunque aclara también que, en sentido estricto, no existen estas proporciones observadas, puesto que no es posible observar la proporción de individuos situados en la clase t de la variable X y, por tanto, tampoco podrá observarse la proporción de individuos que se sitúan en el nivel ( i, j, k, l, t ) de la variable conjunta ( A, B, C, D, X ). En este contexto, el término “esperado” tiene el mismo significado que el que subyace en la proporción esperada Π ijkl o en la frecuencia esperada mijkl bajo determinadas hipótesis. - 250 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Teniendo en cuenta las expresiones anteriores γ AX , que Goodman define como el “efecto primario” de la variable X sobre la ventaja esperada Ω.Ajklt , el efecto de interacción entre la variable observada A y la variable latente X vendrá dado por la siguiente expresión: γ AX = AX Π11AX × Π 22 AX Π 21 × Π12AX Por su parte, el efecto primario de la media global ( γ A ) podría expresarse en función de las probabilidades condicionadas de la siguiente forma: γA = Π11AX × Π12AX AX AX Π 21 × Π 22 Los valores estimados de las magnitudes γ A y γ AX se obtienen sustituyendo las probabilidades condicionadas ΠitAX ( i = 1, 2; t = 1, 2 ) por las correspondientes ! AX ). estimaciones máximo-verosímiles de las mismas ( Π it Finalmente, las cantidades γ A y γ AX pueden expresarse también en forma aditiva tomando logaritmos. Así, los valores β A = log γ A y β AX = log γ AX representarán el efecto primario y el efecto de interacción entre las variables A y X, respectivamente, expresados en forma logarítmica. - 251 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Las magnitudes estimadas β! AX pueden incluirse en las representaciones gráficas de los modelos de clases latentes al objeto de cuantificar la intensidad de la asociación entre la variable latente X y cada uno de los indicadores, tal y como muestra la Figura 5.1: A β! AX B β! BX X β! C X β! D X C D Figura 5.1 5.4. CONTRASTACIÓN DE LA BONDAD DE AJUSTE DEL MODELO ACL GENERAL. Al igual que el modelo log-lineal, la bondad de ajuste del modelo ACL puede determinarse a través del test estadístico de Pearson ( X 2 ) o mediante el test estadístico de la razón de verosimilitud ( G 2 ), pero, por las razones expuestas en capítulos anteriores, se preferirá este último test al primero. En consecuencia, el modelo ACL general se contrastará utilizando el siguiente test: - 252 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ I J K G 2 = 2 ∑ ∑ ∑ nijk log i = 1 j = 1 k =1 nijk m! ijk donde nijk y m! ijk representan la frecuencia observada y la frecuencia esperada estimada, respectivamente, de la casilla ( i, j, k ) de la tabla de contingencia. Como es sabido, G 2 sigue una distribución chi-cuadrado asintótica, siendo los grados de libertad de dicho test, como se ha mencionado anteriormente, igual a IJK - [ (I+J+K-2)T-1 ]. En consecuencia, si G 2 ≤ χ (21− α ), IJK −[ ( I + J + K − 2 ) T −1 ] , se podrá admitir a un nivel de significación α que el modelo ACL se ajusta de manera satisfactoria a los datos de la tabla de contingencia, lo que equivale a admitir la hipótesis de la existencia de una clase latente responsable de la asociación entre las variables manifiestas representadas en la tabla. Si, por el contrario, G 2 > χ 2(1− α ), IJK −[ ( I + J + K − 2 ) T −1 ] , deberá rechazarse el modelo ACL propuesto a un nivel de significación α , lo que implica afirmar que no es necesaria ninguna variable latente para explicar las relaciones entre las variables manifiestas de la tabla, puesto que, en este caso, éstas no estarían interrelacionadas. Sin embargo, algunos problemas pueden plantearse cuando se contrasta la bondad de ajuste del modelo ACL mediante el test G 2 . Así, cuando determinadas estimaciones de los parámetros se encuentran en el límite de su espacio paramétrico5, podría ocurrir que los correspondientes parámetros del modelo se encontrasen también en dicho límite. En tal circunstancia, el test de la razón de verosimilitud ya no se 5 Es decir, las probabilidades estimadas son iguales a 0 o iguales a 1. - 253 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ aproxima a una distribución chi-cuadrado, de forma que lo que habitualmente se hace en estos casos es asumir que el parámetro cuyo valor estimado se encuentra en el límite de su espacio paramétrico se restringe a ese valor a priori, con lo que se liberará un grado de libertad que aumenta el número de grados de libertad del estadístico G 2 . Otro problema es el que se plantea cuando se quieren contrastar hipótesis relativas al número de clases de la variable latente. Así, para contrastar si el modelo que mejor explica la relación entre las variables observadas es el modelo de dos o de tres clases latentes, podría pensarse en calcular la diferencia entre los respectivos tests de razón de verosimilitud y probar este estadístico con la diferencia entre los grados de libertad asociados a los dos modelos. Sin embargo, esta práctica no es posible porque la diferencia entre los dos valores G 2 no se distribuye asintóticamente como una chicuadrado, ya que el modelo de dos clases latentes puede considerarse en realidad como una versión restringida del modelo de tres clases en el que una de las probabilidades de clase latente es igual a 0, es decir, se supone que un parámetro del modelo tomará un valor situado en el límite de su espacio paramétrico, con lo que se estaría en el caso anteriormente comentado. En cualquier caso, esto no significa que no sea posible contrastar determinadas restricciones sobre los parámetros. Así, es factible probar si ciertos parámetros se pueden restringir a un determinado valor, o si, por el contrario, dichos parámetros pueden variar libremente. - 254 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ 5.5. ASIGNACIÓN DE INDIVIDUOS A CLASES LATENTES. La razón de ser del modelo ACL es clasificar a los individuos estudiados en diferentes tipos o clases al objeto de poder analizarlos con mayor profundidad y poder establecer las posibles analogías y diferencias existentes entre los mismos. Puesto que los individuos que poseen la misma modalidad de respuesta a las variables observadas deben pertenecer a la misma clase latente, la asignación de individuos a dichas clases se llevará a cabo modalidad a modalidad. En este sentido, la probabilidad de que un individuo pertenezca a la clase t de la variable X, dado que ha respondido a las variables categóricas observadas A, B y C en los niveles i, j y k, respectivamente, se calculará de la siguiente forma: ABCX Π ijkt = ABCX Π ijkt T ∑Π t =1 (5.17) ABCX ijkt A partir de la anterior expresión, se calcula la contribución diferencial de cada clase latente a cada una de las casillas de la tabla de contingencia, de manera que a los individuos incluidos en una casilla determinada se les asignará aquella clase latente con ABCX la mayor probabilidad condicionada Πijkt asociada a dicha modalidad de respuesta. Por consiguiente, puesto que la asignación de clases se realiza en función de la probabilidad modal, se puede afirmar que la asignación de los individuos a cada clase latente tiene un carácter probabilístico, lo que supone la existencia de un cierto error en - 255 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ este procedimiento. Por este motivo, algunos autores, como Clogg ( 1979, 1981 ), han propuesto algunas medidas que calculan el error cometido al asignar clases latentes a los individuos. Al mismo tiempo, estas medidas también permiten determinar el grado de asociación entre la variable latente y las variables observadas. En concreto, las dos medidas propuestas por Clogg ( 1979, 1981 ) fueron la “proporción correctamente clasificada” y el coeficiente λ . La primera de estas medidas se calcula de la siguiente forma: I J K ( ABCX E1 = ∑ ∑ ∑ Πijkt × pijk * i =1 j =1 k =1 ) ABCX es la probabilidad modal de la casilla ( i, j, k ) de la tabla ( es decir, donde Πijkt * ABCX ABCX , para t = 1, 2, ..., T ) y pijk es la proporción de individuos de la Π ijkt = max Π ijkt * t población que se encuadra en dicha casilla. Cuanto mayor sea el valor de E1 , es decir, cuanto más próximo a 1 se encuentre el mismo, más fuerte será la relación entre la variable latente y el conjunto de variables observadas, lo que implica que a medida que el valor de E1 es mayor, la asignación de clases a los individuos será más correcta. Por su parte, el coeficiente λ se define de la siguiente forma: λ= E2 − E3 E2 donde E2 = 1 − Π tX′ es el porcentaje de error que resultaría de asignar todos los individuos a la clase latente ( t ′ ) cuya probabilidad sea más alta, mientras que E3 es la - 256 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ proporción de individuos incorrectamente clasificados, es decir: I J K ( ) ABCX E3 = ∑ ∑ ∑ 1 − Πijkt pijk = 1 − E1 * i =1 j =1 k =1 Al igual que E1 , cuanto mayor sea el valor del coeficiente λ , mayor será la intensidad de la relación entre la variable latente y las variables observadas. Sustituyendo en las expresiones anteriores los parámetros poblacionales por sus ABCX ! ABCX estimaciones máximo-verosímiles ( esto es, sustituyendo Πijkt por Π ; pijk por * ijkt * p!ijk y Π tX′ por Π! tX′ ), se pueden obtener estimaciones muestrales tanto de la proporción correctamente clasificada como del coeficiente λ , lo que permitirá tener una idea aproximada del mayor o menor acierto en la asignación de clases latentes a los individuos estudiados. 5.6. ANÁLISIS DE CLASE LATENTE EXPLORATORIO Y CONFIRMATORIO. El modelo ACL puede ser empleado como un método exploratorio cuando no existe una teoría explícita sobre la naturaleza de los diferentes tipos o clases en que puede clasificarse una población de individuos. Este análisis exploratorio debe comenzar con la contrastación del modelo de independencia completa. Si dicho modelo - 257 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ es aceptado, no existirá ningún tipo de interrelación entre las variables observadas, lo que equivale a considerar que el modelo ACL posee únicamente una clase latente, circunstancia que impediría, a su vez, definir una tipología de individuos en la población. Si, por el contrario, el modelo de independencia completa se rechaza, será posible identificar diferentes tipos o clases que proporcionen información relativa a la conveniencia o inconveniencia de definir una teoría relativa a la población estudiada. El número de clases latentes del modelo estará condicionado al hecho que el número de grados de libertad necesarios para contrastar el modelo no sea negativo, es decir, debe verificarse, en el supuesto de una tabla de contingencia IxJxKxL, que: IJKL > ( I+J+K+L-3 )T Así, por ejemplo, si las cuatro variables de la tabla de contingencia poseen tres categorías ( I = J = K = L = 3 ), el modelo de clases latentes podrá definirse con un mínimo de dos clases y con un máximo de ocho, ya que si T > 8 el modelo no estaría identificado. Si las dos primeras variables son dicotómicas ( I = J = 2 ) y las dos restantes variables poseen tres categorías ( K = L = 3 ), el número máximo de clases latentes que pueden definirse será cinco. Finalmente, si todas las variables observadas son dicotómicas, sólo podrá definirse el modelo ACL con dos o con tres clases latentes. El análisis exploratorio no impone ningún tipo de restricciones sobre los valores de los parámetros del modelo. Sin embargo, podrían contrastarse determinadas hipótesis - 258 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ relativas tanto a las probabilidades condicionadas como a las probabilidades de clase latente, imponiendo restricciones sobre dichos parámetros. En este caso, el análisis de clase latente tendría un carácter confirmatorio, ya que permitiría al investigador contrastar hipótesis relativas a la naturaleza de la variable latente6. Con carácter general, pueden imponerse dos tipos de restricciones sobre los parámetros del modelo: restricciones de igualdad y restricciones de valor. Las primeras se utilizan para contrastar si dos o más probabilidades condicionadas o de clase latente toman el mismo valor, mientras que las segundas contrastan si una probabilidad condicionada o de clase latente es igual a un valor fijado a priori. Así, ejemplos de restricciones de igualdad serían los derivados de postular las siguientes hipótesis: AX AX AX H (1) 0 : Π i 1 = Π i 2 = " = Π iT H (02 ) : ΠiX = Π Xj para i , j = 1, 2, " , T i ≠ j X X X H (3) 0 : Π1 = Π 2 = " = Π T Este tipo de restricciones no exige especificar previamente un valor de las probabilidades condicionadas, como ocurre con las restricciones de valor, puesto que 6 En cualquier caso, hay que tener presente que las restricciones que se impongan al modelo ACL podrían tener influencia sobre el propio modelo, por lo que el investigador debe tener cuidado de que las probabilidades condicionadas no restringidas sigan sumando 1 y que ninguna casilla de la tabla tenga una probabilidad esperada igual a 0 para todas y cada una de las clases de la variable latente. - 259 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ aquellas simplemente pretenden contrastar la hipótesis de que la variable observada no discrimina entre las diferentes clases de la variable latente. Sin embargo, estas restricciones de igualdad no pueden afectar a todas las probabilidades condicionadas de todas las clases latentes definidas en la población, puesto que en este caso lo que se estaría contrastando en realidad sería que todas las clases latentes son idénticas, es decir, que sólo existe una clase, y no varias. Como ya se ha apuntado con anterioridad, esta hipótesis queda adecuadamente contrastada a través del modelo de independencia completa. La hipótesis H (01) establece que la probabilidad de que un individuo, que pertenece a una clase determinada de la variable latente, responda en el nivel i de la variable A es la misma para todas y cada una de las clases latentes. La hipótesis H (02 ) indica que dos clases latentes diferentes de la variable X tienen el mismo tamaño, por lo que la probabilidad de que un individuo pertenezca a una u otra clase latente es la misma. Finalmente, la hipótesis H (03) presupone la equiprobabilidad de todas las clases de la variable latente, es decir, todas las clases latentes son del mismo tamaño. En este caso, aunque se trata de una restricción de igualdad, la hipótesis debe contrastarse en realidad imponiendo una restricción de valor a una de las probabilidades de clase latente X ( por ejemplo, H (4) 0 : Π T = 0,2 ) y contrastando las siguientes restricciones de valor: - 260 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ H (0m) : ΠiX = 0,2 ∀i = 1, 2, 3, 4 La necesidad de operar de esta forma se justifica por el hecho de que, al sumar 1 todas las probabilidades de clase latente, las restricciones de igualdad sobre las mismas deben efectuarse únicamente sobre T-1 probabilidades de clase latente, ya que la última probabilidad de clase latente se obtendrá a partir de los valores de las restantes T-1 probabilidades. Por otra parte, no podría plantearse esta hipótesis de la forma H (05) : Π1X = Π 2X = " = Π TX−1 , puesto que, en este caso, se estaría contrastando si la totalidad de clases latentes a excepción de una son equiprobables, pero ello no garantiza que la última probabilidad de clase latente ( Π TX ) sea igual a las T-1 probabilidades de clase latente anteriores7. Por su parte, las restricciones de valor permiten contrastar hipótesis previamente definidas y relacionadas, por ejemplo, con la importancia de una variable observada sobre las clases latentes, o con el tamaño relativo de una clase latente concreta. En el primer caso, la restricción de valor se contrastraría mediante la siguiente hipótesis: H (06) : Π itAX = p donde 0 ≤ p ≤ 1 Así, en un modelo con T = 5 clases latentes, puede ocurrir que Π1X = Π 2X = Π 4X = Π 5X = 0,10 , lo que significa que las clases 1, 2, 4 y 5 son equiprobables. Sin embargo, las 5 clases del modelo no tienen el mismo tamaño, puesto que, en este caso, Π 3X = 0,60 . 7 - 261 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ es decir, suponiendo a priori que la probabilidad de que un individuo que pertenece a la clase t de la variable latente X se sitúe en nivel i de la variable A será igual a un valor determinado comprendido entre 0 y 1. Sin embargo, en la mayor parte de los casos este tipo de restricciones suele plantearse de una de las dos formas siguientes: a) H (07 ) : ΠitAX = 0 b) H (07 ) : ΠitAX = 1 En el caso a) sólo se está imponiendo una restricción, ya que las restantes probabilidades condicionadas no están sometidas a ninguna restricción. Es decir, si se desea contrastar si Π1AX t = 0 , es evidente que las restantes I-1 probabilidades condicionadas de la clase t de la variable X ( Π 2tAX , Π 3tAX , ..., Π ItAX ) no tendrán que verificar ninguna restricción: simplemente la suma de todas ellas deberá ser igual a 1, es I decir, ∑Π AX it = 1 . Por contra, en el caso b) se estará imponiendo una restricción de i=2 valor a la totalidad de probabilidades condicionadas de la clase t referidas a la variable observada A. En efecto, si se impone la restricción de que Π1AX t = 1 , se estarán en realidad imponiendo las restricciones siguientes: AX Π 2AXt = 0 ; Π 3AX t = 0 ; ...; Π It = 0 Finalmente, este primer tipo de restricciones de valor se emplea también cuando se quiere contrastar si, dentro de una clase latente determinada, las categorías de una - 262 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ variable son equiprobables. Esto es, cuando se desea verificar si un individuo, que pertenece a la clase t, tiene igual probabilidad de situarse en cualquier categoría del indicador A, se podría plantear la siguiente hipótesis: AX AX H (08) : Π1AX t = Π 2 t = " = Π It La anterior hipótesis, que en realidad es una hipótesis de igualdad, plantea los mismos problemas que H (03) , con lo que la hipótesis de equiprobabilidad de las categorías de una variable manifiesta debe efectuarse imponiendo las siguientes I restricciones de valor: H (09 ) : ΠitAX = 1 I para i = 1, 2, " , I El segundo tipo de restricciones de valor ( relacionadas con el tamaño relativo de una clase latente concreta ) tiene menor utilidad en el ámbito de la investigación económica, puesto que uno de los objetivos fundamentales del modelo ACL es precisamente definir el número de clases subyacentes en la población e identificar el tamaño relativo de cada una. Por tanto, puede afirmarse que las probabilidades de clase latente tienen un carácter más exploratorio que confirmatorio. Por otro lado, hay que considerar igualmente que no tiene ningún sentido plantear restricciones de valor sobre las probabilidades de clase latente como las siguientes: - 263 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ a) H (010) : Π tX = 0 b) H (011) : Π tX = 1 ya que el primer caso equivale a un modelo ACL en el que una de las clases realmente no existe, es decir, el modelo ACL posee en realidad T-1 clases latentes. En consecuencia, la contrastación de la hipótesis H (010 ) puede realizarse sin más que probar la bondad de ajuste del modelo con T-1 clases a los datos recogidos en la tabla de contingencia. El segundo caso equivale a un modelo ACL con una sola clase latente, por lo que contrastar la hipótesis H (011) es lo mismo que probar el modelo de independencia completa. Tanto si se imponen restricciones de valor como si se imponen restricciones de igualdad, el procedimiento de estimación por máxima verosimilitud quedará afectado por el hecho de que uno o varios parámetros del modelo se fijan a priori, por lo que no será necesario estimarlos. Esto provoca que en el proceso de estimación se liberen tantos grados de libertad como parámetros se restrinjan. Estos grados de libertad liberados se emplearán para determinar si el ajuste del modelo ACL mejora de forma sustancial al introducir restricciones. Para ello, bastará comparar el ajuste del modelo ACL no restringido mediante el estadístico G 2 con el ajuste del modelo ACL restringido mediante el correspondiente estadístico G 2 que, en este caso, tendrá tantos grados de libertad como parámetros no restringidos haya en el modelo. Si el incremento en el valor de G 2 es pequeño en relación al incremento de los grados de libertad, podrá admitirse que las restricciones impuestas al modelo han mejorado el ajuste del mismo a - 264 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ los datos. Así, al contrastar la hipótesis H (01) se liberarán T grados de libertad, de forma que si el estadístico G(21) posee IJK - ( I+J+K-2 )T para el modelo no restringido8, el correspondiente valor para el modelo en el que se impone la hipótesis H (01) tendrá un total de IJK - ( I+J+K-2 )T - T = IJK - ( I+J+K-1 )T grados de libertad. De esta forma, si [ ] [ P χ 2IJK − ( I + J + K − 2 ) T > G(21) < P χ 2IJK − ( I + J + K − 1) T > G(22 ) ] podrá admitirse que el modelo restringido ha mejorado la bondad de ajuste del modelo, lo que llevaría a la aceptación de la hipótesis H (01) . 5.7. ANÁLISIS DE ESTRUCTURA LATENTE SIMULTÁNEO. Uno de los avances más recientes en los modelos de análisis latente ha sido la utilización de los mismos en la comparación de varios grupos de individuos. Esta variante del modelo ACL, bautizada por Clogg y Goodman ( 1985 ) como análisis de estructura latente simultáneo permite comparar las estructuras latentes de diferentes grupos de individuos cuando se pretende medir la misma magnitud en todos los grupos. Como resulta obvio, esta misma técnica puede emplearse para estudiar la tendencia de la estructura latente de una población cuando se consideran a los grupos como muestras aleatorias independientes de una misma población, pero extraídas en diferentes períodos de tiempo. 8 Y considerando una tabla de contingencia de dimensión IxJxK. - 265 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Cuando se comparan dos grupos diferentes de individuos puede ocurrir que las estructuras latentes de dichos grupos sean absolutamente heterogéneas, en el caso de que las clases latentes de un grupo difieran no sólo en naturaleza sino también en número de las clases latentes del otro grupo. Es evidente que, en este caso, las estructuras latentes de dichos grupos son radicalmente diferentes. El mayor interés en la comparación de estructuras latentes de diferentes grupos recae en aquella situación en la que el número de clases latentes de los distintos grupos es la misma y ninguna de las probabilidades condicionadas y de clase latente están restringidas. En este último caso se estaría ante lo que Clogg y Goodman han denominado el modelo heterogéneo no restringido de T clases, y su principal utilidad consiste en determinar si el tamaño relativo de las clases latentes es el mismo en los diferentes grupos y si las probabilidades condicionadas de una clase concreta son similares en los diferentes grupos analizados. Si se imponen restricciones de igualdad sobre algunas probabilidades condicionadas de diversos grupos, Clogg y Goodman establecen que las estructuras latentes de los grupos son parcialmente homogéneas, pero si estas restricciones de igualdad se imponen sobre todos los parámetros de cada uno de los diferentes grupos estudiados, se podrá afirmar que las estructuras latentes de los diferentes grupos son homogéneas. - 266 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Para introducir el modelo de estructura latente simultáneo, se considerará que se observan tres variables categóricas ( que se designarán por A, B y C ) en más de un grupo. Por otra parte, se definirá también una variable de grupo, a la que llamaremos G, de forma que dicha variable tendrá tantas categorías como grupos se analicen. Se supondrá también que se pretende confirmar la existencia de una única variable latente X con T clases en todos y cada uno de los grupos estudiados. Considerando que la variable G posee un total de S categorías, los datos iniciales de este análisis podrán representarse en S tablas de contingencia de dimensión IxJxK, de forma que en cada una de ellas se recogerá el número observado de individuos que se sitúan en los niveles i, j y k de las variables categóricas A, B y C, respectivamente, en cada uno de los S grupos considerados. De esta forma, la proporción de individuos de la población encuadrados en el grupo s se puede calcular sumando las probabilidades asociadas a todas las modalidades de respuesta ( i, j, k ) de la s-ésima tabla de contingencia, es decir: I J K ABCG Π Gs = ∑ ∑ ∑ Π ijks (5.18) i =1 j =1 k =1 ABCG representa la probabilidad de que un individuo se sitúe en los niveles i, j y donde Πijks k de las variables A, B y C, y pertenezca al grupo s. De otra parte, debe también verificarse lo siguiente: - 267 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ S ∑Π =1 G s (5.19) s =1 por lo que la probabilidad condicionada de que un individuo, que pertenece al grupo s, se sitúe en la casilla ( i, j, k ) de la tabla de contingencia vendrá dada por: Π ABC G ijks = ABCG Π ijks (5.20) Π Gs Esta probabilidad puede calcularse también como la suma de las probabilidades condicionadas de situarse en el nivel ( i, j, k, t ) de las variables observadas y de la variable latente para todas las clases de la variable X, es decir: T ABC G ABC GX Πijks = ∑ Πijkst (5.21) t =1 siendo ABC GX Π ijkst = ΠistAGX × Π BGX × Π CkstGX × Π GX jst st , donde Π istAGX es la probabilidad condicionada de que un individuo perteneciente al grupo s y encuadrado en la clase t de la variable latente, se sitúe en el nivel i de la variable observada A9, mientras que Π GX st es la probabilidad de clase latente condicionada de que un individuo, que pertenece al grupo s, se sitúe en la clase t de la variable latente. Es evidente que, dentro de cada grupo, la suma de todas las probabilidades de clase latente condicionadas debe ser igual a 1, es decir: 9 Las probabilidades condicionadas C GX AGX Π BGX y Π kst se definen de forma similar a Π ist . jst - 268 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ T ∑ Π GX st =1 t =1 De igual forma, dentro de cada clase latente y de cada uno de los grupos, la suma de todas las probabilidades condicionadas asociadas a cada una de las variables observadas también es igual a 1: I ∑Π i =1 AGX ist =1 J ∑Π BGX jst K ∑Π =1 j =1 C GX kst =1 k =1 En cada uno de los S grupos considerados habrá que estimar (T-1) probabilidades de clase latente y T(I-1) + T(J-1) + T(K-1) probabilidades condicionadas, por lo que el número total de parámetros a estimar en el modelo heterogéneo no restringido de T clases será S [ (T-1) + T(I-1) + T(J-1) + T(K-1) ] = S [ (I+J+K-2)T - 1]. Expresado en otros términos, el modelo de estructura latente simultáneo requiere la estimación de S(T-1) clases latentes y de S(T-1) probabilidades condicionadas para cada nivel de las variables observadas10. Con carácter general, cuando se estima un Las estimaciones máximo-verosímiles de las probabilidades de clase latente condicionadas ( Π GX ) se st obtendrán mediante la siguiente expresión: ! GX ! GX ! GX = Π st = Π st Π st T !G Π s ! GX Π st 10 ∑ t =1 ! GX es la estimación máximo-verosímil de la probabilidad ( de clase latente ) de que un individuo donde Π st ! G es la estimación por máxima pertenezca al grupo s y a la clase t de la variable X, mientras que Π s verosimilitud de la proporción de individuos que pertenecen al grupo s. - 269 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ modelo de estructura latente simultáneo de T clases para un total de S grupos, el primer conjunto de T clases latentes ( 1, 2, ..., T ) se refiere al primer grupo; el siguiente conjunto de T clases latentes ( T+1, T+2, ..., 2T ) se refiere al segundo grupo, y así sucesivamente hasta el último conjunto de T clases [ (S-1)T+1, (S-1)T+2, ..., ST ], el cual se referirá al grupo s-ésimo. Para obtener las ecuaciones de verosimilitud, Clogg y Goodman ( 1984 ) proponen una reformulación del modelo de estructura latente simultáneo, que lo transforma en un modelo de clases latentes general. En concreto, estos autores definen una variable Y = G x X, que es, en realidad, la clasificación cruzada de la variable de grupo ( G ) y de la variable latente ( X ). Puesto que la variable X es latente, la variable Y también lo será, de manera que esta última tendrá un total de U = ST niveles. De acuerdo con lo anterior, la relación entre el nivel u de la variable Y y los niveles ( s, t ) de la variable G x X será la siguiente: u = ( s − 1)T + t Si se agrupa toda la información recogida en las S tablas de contingencia de dimensión IxJxK en una única tabla de dimensión IxJxKxS, podría definirse el siguiente modelo de clases latentes general: U ABCG ABCGY Π ijks = ∑ Π ijksu u =1 - 270 - (5.22) Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ donde: ABCGY CY GY Πijksu = ΠYu × ΠiuAY × Π BY ju × Π ku × Π su (5.23) ABCGY siendo Πijksu la probabilidad conjunta de que un individuo se sitúe en los niveles i, j y k, respectivamente, de las variables observadas A, B y C; pertenezca al grupo s y se sitúe en el nivel u de la variable latente Y; ΠYu es la probabilidad de que un individuo pertenezca a la categoría u de la variable Y; ΠiuAY es la probabilidad condicionada de que un individuo, que se sitúa en el nivel u de Y, responda a la variable A en la CY ); y Π GsuY es la probabilidad categoría i ( de forma similar se definen Π BY ju y Π ku condicionada de que un individuo, que se encuadra en la categoría u de Y, pertenezca al grupo s. El modelo de U clases latentes se relaciona con el modelo de estructura latente simultáneo mediante las siguientes restricciones, las cuales son una consecuencia de la relación entre las variables G e Y ( Y = G x X ): Π GsuY = 1 para u = ( s − 1)T + t t = 1, 2, " , T Π GsuY = 0 en otro caso (5.24) Estas restricciones implican que los individuos del primer conjunto de T clases latentes ( u = 1, 2, ..., T ) tendrán un 100 % de probabilidad de pertenecer al primer grupo y un 0 % de probabilidad de pertenecer a otro grupo; los individuos del segundo - 271 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ conjunto de T clases ( u = T+1, T+2, 2T ) tendrán un 100 % de probabilidad de pertenecer al segundo grupo; y así sucesivamente hasta el último grupo, de forma que los individuos del último conjunto de T clases ( u = (S-1)T+1, (S-1)T+2, ..., ST ) tendrán una probabilidad del 100 % de pertenecer al grupo S-ésimo. El anterior conjunto de restricciones hace posible que se verifique la siguiente equivalencia entre el modelo de estructura latente simultáneo y este modelo general de U clases latentes: ΠiuAY = ΠistAGX (5.25) BGX Π BY ju = Π jst (5.26) Π CkuY = Π CkstGX (5.27) G Π Yu = Π GX st × Π s (5.28) Las probabilidades ΠYu anteriores verifican además las restricciones siguientes: sT ∑Π Y u u = ( s − 1) T + 1 = Π Gs para s = 1, 2, ", S (5.29) Así pues, en síntesis, un modelo de estructura latente simultáneo con T clases para S grupos y con “m” variables observadas puede expresarse como un modelo general de ST clases latentes asociado a una tabla de contingencia (m+1)-dimensional, teniendo en cuenta simplemente las restricciones determinísticas dadas por (5.24), las - 272 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ relaciones dadas por las expresiones (5.25) a (5.28) y las restricciones sobre las proporciones de clases latentes dadas por (5.29). ! BY y !Y, Π ! AY , Π Partiendo de esta reformulación del modelo, designando por Π u iu ju ! C Y a las estimaciones máximo-verosímiles de los parámetros del modelo, y definiendo Π ku a pijks como la proporción observada de individuos en la casilla ( i, j, k, s ) de la tabla de contingencia de dimensión IxJxKxS, Clogg y Goodman ( 1984 ) demuestran que las anteriores estimaciones máximo-verosímiles satisfacen el siguiente sistema de ecuaciones: J K S ∑∑∑ p ijks ! AY = Π iu ! ABCGY Π ijksu j = 1 k = 1 s =1 !Y Π u I K S ∑∑∑ p ijks ! BY = Π ju i =1 k =1 s =1 I J !Y Π u S ∑∑∑ p ijks ! CY = Π ku ! ABCGY Π ijksu ! ABCGY Π ijksu i = 1 j = 1 s =1 !Y Π u I J K S ! Y = ∑∑∑∑ p Π ! ABCGY Π u ijks ijksu i =1 j =1 k =1 s =1 sT ∑ Π! Y u u = ( s − 1) T + 1 !G =Π s ! ABCGY es la probabilidad condicionada estimada de que un individuo, que se ha donde Π ijksu situado en la casilla ( i, j, k, s ) de la tabla de contingencia, se encuadre en la categoría u de la variable Y, la cual viene dada por la siguiente expresión: - 273 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ! ABCGY Π !Y ×Π ! AY × Π ! BY × Π ! CY × Π ! GY Π ijksu u iu ju ku su ABCGY ! Π ijksu = ! ABCG = U Πijks ABCGY ∑ Π! ijksu u =1 ! G es la estimación máximo-verosímil de la proporción de individuos que y donde Π s pertenecen al grupo s, de forma que se verifica lo siguiente: I J K ! G = ∑∑∑ p = p Π ... s s ijks i =1 j =1 k =1 siendo p...s la proporción observada de individuos en el grupo s-ésimo. Empleando el mismo proceso iterativo que para el modelo ACL general ( esto es, ! BY , Π ! AY , Π ! CY y Π ! G Y ( y, de el algoritmo EM ), se pueden obtener las estimaciones Π iu ju ku su ! BGX , Π ! AGX , Π ! C GX y Π ! GX ) al solucionar el anterior sistema de forma equivalente, Π ist jst kst st ecuaciones de verosimilitud. Para determinar la identificabilidad local del modelo, se puede definir un vector P de parámetros no redundantes del modelo y un vector Π de probabilidades asociadas a las casillas de la tabla de contingencia. Definiendo una matriz M en la que el elemento ( v, w ) de la misma es la derivada parcial del v-ésimo elemento del vector Π con respecto al w-ésimo elemento del vector P, una condición necesaria para que exista identificabilidad local es que S( IJK-1 ) ≥ S [ (I+J+K-2)T-1 ], mientras que la condición - 274 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ necesaria y suficiente para que exista identificabilidad local es que el rango de la matriz ! 11 coincida con el número de columnas de la misma, es decir: M ! ) = S [(I + J + K - 2)T -1] r( M Por otro lado, cuando en el modelo de estructura latente simultáneo se imponen restricciones de homogeneidad, las anteriores ecuaciones de verosimilitud también se verifican aunque, en este caso, habrá que introducir restricciones adicionales. De hecho, imponer restricciones sobre los parámetros de un modelo de estructura latente simultáneo plantea realmente los mismos problemas que la imposición de restricciones sobre el modelo general de clases latentes asociado a la tabla (m+1)-dimensional. Simplemente habría que tener en cuenta que las restricciones impuestas a los parámetros Π Gst X pueden convertirse en restricciones sobre los parámetros ΠYu . Así, por ejemplo, la restricción Π GX 11 =Π GX 21 Π1Y ΠYT + 1 es equivalente a la restricción G = G . Π1 Π2 Por otra parte, cuando se imponen “r” restricciones sobre el modelo, hay que tener en cuenta, a la hora de determinar la identificabilidad local del mismo, que el vector P se modifica, eliminándose aquellos elementos que sean redundantes, de forma que el número de columnas de la matriz M también quedará reducido. En consecuencia, la condición de identificabilidad local sería en este caso la siguiente: Puesto que los elementos de los vectores P y Π y, por consiguiente, los de la matriz M, son desconocidos, será necesario sustituir dichos elementos por sus estimaciones máximo-verosímiles, ! y la matriz M ! . obteniéndose de esta forma los vectores P! , Π 11 - 275 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ ! ) = S[(I + J + K - 2)T - 1] − r r (M de forma que cuando los parámetros del modelo están localmente identificados, el número de grados de libertad necesarios para contrastar la bondad del mismo vendrá dado por S[ IJK - (I+J+K-2)T ] + r. Si, por el contrario, los parámetros del modelo no ! para están localmente identificados, se podría utilizar el rango de la matriz M determinar el número de restricciones adicionales que hay que imponer para conseguir que el modelo en cuestión esté localmente identificado. En otro orden de cosas, en relación a la dimensión de los grupos analizados hay que considerar que si estos grupos son de distinto tamaño ( esto es, cuando Π1G ≠ Π G2 ≠ " ≠ Π GS ), por lo general las probabilidades de clase latente condicionadas son más adecuadas para establecer comparaciones entre grupos sobre la Π GX st distribución relativa de los individuos en cada una de las T clases, que las probabilidades de clase latente Π GX st . Sin embargo, a pesar de que tanto las C GX ) como las probabilidades de clase probabilidades condicionadas ( Π istAGX , Π BGX jst , Π kst latente condicionadas ( Π GX ) sean muy similares, el modelo de estructura latente st simultáneo no permite afirmar con total certeza que las clases de un grupo ( tanto en naturaleza como en tamaño ) sean iguales a las clases de otro grupo. En este caso, será necesario imponer determinadas restricciones de igualdad intergrupales sobre las probabilidades condicionadas o sobre las probabilidades de clase latente condicionadas, dando lugar a lo que Clogg y Goodman ( 1984 ) han denominado modelos de homogeneidad. - 276 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ 5.8. MODELOS DE HOMOGENEIDAD. A partir del modelo de estructura latente simultáneo, se pueden imponer cualquier tipo de restricciones sobre sus parámetros, de forma que dichas restricciones pueden establecerse dentro de un mismo grupo o entre diferentes grupos. Así, ejemplos de restricciones intragrupales podrían ser las siguientes: GX GX GX H (12) 0 : Π s1 = Π s 2 = " = Π sT AGX AGX = Π1AGX H (13) 0 : Π1s1 s 2 = " = Π1sT AGX AGX = Π 2AGX H (14) 0 : Π1s1 s1 = " = Π Is1 H (12) establece que las probabilidades de clase latente condicionadas son iguales 0 para todas las clases latentes del grupo s, es decir, que las clases latentes del grupo s son todas de igual tamaño. H (13) significa que la probabilidad condicionada de que un 0 individuo perteneciente al grupo s se sitúe en el nivel 1 de la variable observada A es la implica misma para todas y cada una de las clases latentes del grupo s. Por último, H (14) 0 que la probabilidad condicionada de que un individuo, que pertenece al grupo s y que se encuadra en una clase latente determinada ( clase 1 ), se sitúe en un nivel particular de la variable A es la misma para la totalidad de niveles de la citada variable. Por su parte, los siguientes ejemplos representan restricciones intergrupales: - 277 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ GX GX GX H (15) 0 : Π11 = Π 21 = " = Π S 1 AGX AGX AGX H (16) 0 : Π 212 = Π 222 = " = Π 2 S 2 significa que las probabilidades de clase latente condicionadas asociadas a H (15) 0 una clase concreta ( clase 1 ) son iguales para los S grupos analizados, esto es, que el tamaño relativo de la clase latente 1 es el mismo en todos los grupos. H (16) indica que la 0 probabilidad condicionada de que un individuo que pertenece a una clase latente determinada ( clase 2 ) se sitúe en el nivel 2 de la variable observada A es idéntica para los S grupos objeto de análisis. Podrían incluso definirse modelos que incluyan combinaciones de restricciones intragrupales y de restricciones intergrupales. Clogg y Goodman ( 1984 ) denominan a las restricciones intergrupales como restricciones de homogeneidad, mientras que a las restricciones intragrupales las denominan simplemente restricciones. Cuando en un modelo de estructura latente simultáneo no se establece ninguna restricción de homogeneidad, Clogg y Goodman hablan de un modelo de heterogeneidad completa. Sin embargo, cuando una o varias restricciones de homogeneidad se imponen en el modelo simultáneo aparece el modelo de homogeneidad parcial o el modelo de homogeneidad completa. - 278 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Un modelo de homogeneidad parcial es aquel en el que se imponen restricciones únicamente sobre determinados parámetros del modelo simultáneo. Así, podrían formularse, entre otros muchos, los siguientes modelos de homogeneidad parcial: - Modelo de homogeneidad parcial M1 ( homogeneidad en clases latentes ): se obtiene cuando la hipótesis H (15) se establece para la totalidad de clases latentes de la 0 variable X, es decir: GX GX Π1GX t = Π 2 t = " = Π St para t = 1, 2, " , T (5.30) Este modelo significa que las T probabilidades de clase latente condicionadas son homogéneas entre los S grupos considerados. - Modelo de homogeneidad parcial M2 ( homogeneidad en probabilidades se impone para todas las categorías de condicionadas ): surge cuando la hipótesis H (16) 0 la variable A y para todas las clases latentes de la variable X, esto es: AGX = Π iAGX = " = ΠiSt ΠiAGX 1t 2t para i = 1, 2, " , I ; t = 1, 2, " , T (5.31) Según señalan Clogg y Goodman, este modelo de homogeneidad parcial significa que la variable categórica A es un indicador de la variable latente X igualmente fiable en cada grupo. - 279 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ - Modelo de homogeneidad parcial M3: este modelo es similar al anterior, pero referido, en este caso, a la variable observada B: BGX Π BGX = Π BGX j 1t j 2 t = " = Π jSt para j = 1, 2, " , J ; t = 1, 2, " , T (5.32) - Modelo de homogeneidad parcial12 M4: se define igual que M2, pero referido, en esta ocasión, a la variable categórica C: C GX C GX Π Ck 1GX t = Π k 2 t = " = Π kSt para k = 1, 2, ", K ; t = 1, 2, ", T (5.33) En cualquier caso, cualquier combinación o subconjunto de las restricciones de homogeneidad impuestas en cada uno de los modelos M1 a M4 daría lugar igualmente a nuevos modelos de homogeneidad parcial. Por su parte, un modelo de homogeneidad completa sólo es posible cuando las restricciones de homogeneidad se imponen a todas las probabilidades condicionadas y a todas las probabilidades de clase latente condicionadas del modelo simultáneo. En el caso que nos ocupa, este modelo de homogeneidad completa exige imponer 12 Además del modelo de homogeneidad parcial que incluye restricciones de homogeneidad sobre las probabilidades de clase latente condicionadas ( modelo M1 ), se han definido tantos modelos de homogeneidad parcial con restricciones sobre las probabilidades condicionadas como variables categóricas observadas se consideren ( en este caso, las tres variables observadas A, B y C generan la existencia de los modelos de homogeneidad parcial M2, M3 y M4 ). En consecuencia, si se considerasen cinco variables observadas, podrían definirse cinco modelos de homogeneidad parcial que incluyan restricciones sobre las probabilidades condicionadas; se podrían definir seis modelos si se considerasen seis variables observadas, y así sucesivamente. - 280 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ simultáneamente las restricciones (5.30) a (5.33). La aceptación de este modelo significaría admitir que las estructuras latentes de todos los grupos es idéntica, ya que no sólo serán iguales los tamaños relativos de las clases latentes para todos los grupos analizados ( esto es, iguales probabilidades de clase latente condicionadas ) sino que también la naturaleza de cada clase es idéntica para la totalidad de grupos ( es decir, probabilidades condicionadas iguales ). En consecuencia, este modelo implica homogeneidad tanto en las clases latentes como en las probabilidades condicionadas. Designando por G 2 ( M 0 ) al valor del test estadístico de la razón de verosimilitud del modelo de estructura latente simultáneo ( que podría representarse por M 0 ) y por G 2 ( M1 ) , G 2 ( M 2 ) , G 2 ( M 3 ) y G 2 ( M 4 ) al valor del estadístico de la razón de verosimilitud de los modelos restringidos M1, M2, M3 y M4, respectivamente, se puede contrastar la validez de las restricciones impuestas calculando el test G 2 ( Mi M 0 ) = G 2 ( Mi ) − G 2 ( M 0 ) ( para i = 1, 2, 3, 4 ) y comparando la probabilidad [ ] P χ 2ui > G 2 ( Mi M 0 ) = p , donde ui es la diferencia entre los grados de libertad de los tests G 2 ( Mi ) y G 2 ( M 0 ) , dado un nivel de significación α . Si p > α , podrá admitirse que la inclusión de restricciones en el modelo simultáneo ha contribuido a la mejora del ajuste de dicho modelo, lo que implicaría, en consecuencia, la aceptación de las hipótesis que representan las restricciones impuestas. Hay que tener presente, en cualquier caso, que cuando se imponen simultáneamente varias restricciones se liberan varios grados de libertad, lo que podría - 281 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ llevar a una mejora sustancial del ajuste y a la consiguiente aceptación de la totalidad de las restricciones impuestas, cuando en realidad esta mejora del ajuste puede estar ocultando restricciones inaceptables. En estos casos, es mucho más conveniente reestimar el modelo inicial con un menor número de restricciones, para garantizar que todas y cada una de las restricciones impuestas son aceptables a nivel individual. 5.9. MODELOS CON MÚLTIPLES VARIABLES LATENTES. Hasta el momento, se ha supuesto que las relaciones entre un conjunto de variables observadas o manifiestas pueden ser explicadas mediante una única variable latente discreta. Sin embargo, el modelo ACL se puede generalizar al caso en el que las relaciones entre las variables sean explicadas por más de una variable latente. Para modelos con múltiples variables latentes, es necesario imponer determinadas restricciones adicionales a las probabilidades condicionadas al objeto de definir correctamente las relaciones entre las variables latentes y los indicadores. La formulación de este tipo de modelos es debida a Goodman ( 1974 ), el cual demostró cómo se estiman los parámetros de un modelo con dos variables latentes. Para introducir este tipo de modelos, se considerarán un total de cuatro variables observadas, A, B, C y D que poseen I, J, K y L categorías, respectivamente, y dos variables latentes Y y Z, de forma que la variable Y posee G clases, mientras que la variable Z posee un total de R clases latentes. La relación de dependencia entre estas cuatro variables - 282 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ observadas y las dos variables latentes puede representarse mediante la Figura 5.2, que establece que la relación entre las variables A y C está explicada por la variable latente Y, y que las variables B y D están relacionadas entre sí a través de la variable latente Z, de forma que las cuatro variables manifiestas no interactúan entre sí, sino que están asociadas a la variable latente respectiva. Sin embargo, existe una dependencia estadística entre las dos variables latentes. Z Y A C B D Figura 5.2 Representación gráfica de un modelo ACL con cuatro variables observadas y dos variables latentes Sea ΠYg la probabilidad de que un individuo pertenezca a la clase g de la variable latente Y ( g = 1, 2, ..., G ) y sea Π rZ la probabilidad de que un individuo pertenezca a la clase r de la variable latente Z ( r = 1, 2, ..., R ). Podría también definirse ΠYZ gr como la probabilidad de que un individuo se sitúe en el nivel (g,r) de la variable conjunta (Y,Z), de forma que las probabilidades ΠYg y Π rZ podrían obtenerse a partir de ΠYZ gr de la siguiente forma: R Π Yg = ∑ ΠYZ gr r =1 - 283 - (5.34) Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ G Π rZ = ∑ Π YZ gr g =1 (5.35) Dado que un individuo está situado en el nivel (g,r) de la variable conjunta AYZ (Y,Z), Πigr representará la probabilidad condicionada de que dicho individuo se sitúe en el nivel i de la variable observada A. Por su parte, las probabilidades condicionadas DYZ se definen de forma similar. Π BjgrYZ , Π CkgrYZ y Π lgr AYZ y Π CkgrYZ dependen únicamente Puesto que las probabilidades condicionadas Π igr del nivel g de la variable Y ( pero no del nivel r de la variable Z ) y que las DYZ probabilidades condicionadas Π BjgrYZ y Π lgr dependen exclusivamente del nivel r de la variable Z ( pero no del nivel g de la variable Y ), es necesario imponer las siguientes restricciones adicionales: AYZ AYZ AY ΠigAYZ 1 = Π ig 2 = " = Π igr = Π ig para i = 1, 2, " , ( I − 1) ; g = 1, 2, " , G Π CkgYZ1 = Π CkgYZ2 = " = Π CkgrYZ = Π CkgY para k = 1, 2, " , ( K − 1) ; g = 1, 2, " , G BZ Π Bj1YZr = Π Bj 2YZr = " = Π BYZ jgr = Π jr para j = 1, 2, " , ( J − 1) ; r = 1, 2, " , R DYZ D YZ DZ Π lDYZ 1r = Π l 2 r = " = Π lgr = Π lr para l = 1, 2, ", ( L − 1) ; r = 1, 2, ", R Las dos primeras restricciones establecen que la probabilidad de responder a las variables A y C en las categorías i y k, respectivamente, es la misma para todas las clases de la variable latente Z, dada la condición de que la variable latente Y se - 284 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ mantiene constante. Por su parte, las dos últimas restricciones señalan que la probabilidad de responder a las variables B y D en las categorías j y l, respectivamente, es la misma para todas las clases de la variable latente Y, dada la condición de que la variable latente Z se mantiene constante. En suma, las restricciones anteriores vienen a garantizar que las probabilidades condicionadas correspondientes a las variables A y C varíen únicamente con la variable latente Y, y que las probabilidades condicionadas correspondientes a las variables B y D varíen únicamente con la variable latente Z. De esta forma, un modelo con dos variables latentes puede reformularse combinando las dos variables latentes Y y Z en una nueva variable latente X con un total de GxR clases, con lo que cada probabilidad de clase latente ΠYZ gr equivaldrá a la probabilidad de clase latente Π tX donde t = 1, 2, ..., GR. En consecuencia, si las anteriores restricciones de igualdad se imponen sobre la nueva variable latente conjunta X de forma adecuada, el modelo con dos variables latentes puede estimarse como un modelo de clases latentes restringido. Para reformular las citadas restricciones de igualdad, bastará considerar que a la clase t de la variable X le corresponde el nivel (g,r) de la variable latente conjunta (Y,Z) mediante la siguiente relación: t = ( g − 1) R + r . Así, si tanto la variable Y como la variable Z poseen únicamente dos clases latentes cada una ( G = R = 2 ), la nueva variable X tendrá un total de cuatro clases latentes, de forma que se asociará t = 1 al par de valores (1,1); t = 2 al par (1,2); t = 3 al par (2,1) y, finalmente, t = 4 al par (2,2). En este caso particular, las restricciones anteriores deberán reformularse de la siguiente forma: - 285 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ AX i1 Π =Π Π CX k1 =Π CX k2 Π BX j1 =Π AX i2 para g = 1 para i = 1, 2, " , ( I − 1) Π para g = 2 para i = 1, 2, " , ( I − 1) AX i3 =Π = Π Ck 4X para k = 1, 2, " , ( K − 1) =Π BX j4 para r = 2 para j = 1, 2, " , ( J − 1) DX Π lDX 2 = Πl 2 para l = 1, 2, " , ( L − 1) para k = 1, 2, " , ( K − 1) Π CX k3 BX j3 para r = 1 para j = 1, 2, " , ( J − 1) Π BX j2 DX Π lDX 1 = Πl 3 para l = 1, 2, " , ( L − 1) AX i4 A partir de este caso particular, la generalización de las restricciones de igualdad que deben imponerse en el modelo con dos variables latentes al caso en el que tanto G como R sean mayor que dos es, como fácilmente puede comprobarse, inmediata. Un modelo con dos variables latentes puede formularse de forma alternativa en términos de un modelo log-lineal en el que algunas de las variables no son observadas de una forma directa. Así, el modelo representado en la Figura 5.2 podría expresarse en términos del modelo log-lineal de la siguiente forma: ABCDYZ BZ DZ YZ log mijklgr = τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ Yg + τ rZ + τ igAY + τ CY kg + τ jr + τ lr + τ gr (5.36) En esta formulación, es fundamental que el efecto de interacción entre las dos variables latentes, es decir, τYZ gr sea significativamente distinto de cero, puesto que si dicho efecto fuese nulo, se estaría ante dos modelos con una sola variable latente cada uno, y no ante un modelo con dos variables latentes. Pues bien, de forma similar a la estimación del efecto de interacción entre la variable latente y cada una de las variables - 286 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ observadas en un modelo con una sola variable latente, es posible estimar aquí el efecto de interacción entre las variables Y y Z. Así, si tanto la variable Y como la variable Z poseen dos clases latentes cada una ( G = R = 2 ), el efecto de interacción estimado entre ambas variables se calcularía a través de la siguiente expresión: Π ! YZ × Π ! YZ 11 22 β! YZ = log γ! YZ = log YZ YZ ! ! Π × Π 12 21 De esta forma, sólo si β! YZ es significativamente distinto de cero, podrá admitirse un modelo con dos variables latentes. La generalización del modelo con dos variables latentes a situaciones en las que existan más de dos variables latentes es inmediata, pero en este caso debe asumirse que todas las variables latentes interactúan mútuamente, lo que implica la existencia de un modelo log-lineal saturado13 asociado a la tabla de contingencia marginal formada por todas las variables latentes del modelo. Un ejemplo de la anterior generalización es el modelo representado en la Figura 5.3, donde se observan un total de cuatro variables latentes ( V, X, Y, Z ) y ocho variables manifiestas ( Ai, i = 1, 2, ..., 8 ). Cada variable latente se relaciona únicamente 13 O, al menos, que incluya todos los efectos de interacción existentes entre las variables latentes del modelo. - 287 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ con dos variables observadas, pero las cuatro variables latentes están mútuamente relacionadas. A1 V A5 X A2 A6 A3 A7 Y A4 Z A8 Figura 5.3 Otra forma de generalizar un modelo con dos variables latentes es considerar que una o varias variables observadas dependen de más de una variable latente, situación que recoge la Figura 5.4, en la que el indicador B depende tanto de la variable latente Y como de la variable latente Z. Y A Z B C Figura 5.4 El modelo anterior podría expresarse en términos logarítmicos de la siguiente forma: BZ CZ YZ log mijkgr = τ 0 + τiA + τ Bj + τ Ck + τYg + τ rZ + τ igAY + τ BY jg + τ jr + τ kr + τ gr - 288 - (5.37) Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ La mayor dificultad de este tipo de modelos estriba en su formulación mediante probabilidades condicionadas, aunque Hagenaars ( 1990 ) ha demostrado cómo se pueden estimar estos modelos utilizando la formulación empleada por Goodman, es decir, la formulación en términos de probabilidades condicionadas. En otro orden de cosas, en múltiples ocasiones el análisis estadístico no finalizará detectando una posible estructura latente, sino que será conveniente extender dicho análisis a las relaciones entre las variables latentes teóricamente relevantes del modelo y a otras variables externas al mismo. Si estas variables externas son latentes, se estará ante los modelos de estructura latente anteriormente abordados, pero si dichas variables externas son observadas, surgirán estructuras latentes distintas a las comentadas. Así, cuando se pretende medir una variable latente X mediante cuatro variables observadas A, B, C y D, y se supone la existencia de una variable externa E que interactúa con la variable latente X ( véase la Figura 5.5 ), dicho modelo puede expresarse en forma logarítmica como sigue: ABCDXE CX DX log mijklte = τ 0 + τ iA + τ Bj + τ Ck + τ lD + τ tX + τ eE + τitAX + τ BX + τ teXE jt + τ kt + τ lt (5.38) Como puede observarse, aunque la variable E posee un status conceptualmente diferente al del resto de las variables observadas ( ya que la variable E no se ha empleado para medir la variable latente X ), el término τ teXE es, desde un punto de vista - 289 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ técnico, equivalente a los restantes efectos de interacción entre cada una de las variables manifiestas y la variable latente. X E A B C D Figura 5.5 Especial interés tiene el anterior modelo cuando la variable E es una variable que define diferentes grupos de individuos, puesto que en este supuesto el modelo en cuestión no será otro que el modelo de estructura latente simultáneo. Todos estos modelos y otros relacionados con estructuras latentes han sido abordados en profundidad por autores como Goodman ( 1974 ) o Hagenaars ( 1990 ). - 290 - Capítulo Quinto: Modelos de variables latentes ____________________________________________________________________________________ Finaliza de este modo este recorrido global por una serie de técnicas estadísticas que se erigen en una alternativa metodológica para el análisis de las variables que caracterizan el comportamiento turístico. Para argumentar la defensa de esta nueva metodología, en la Segunda Parte de este trabajo se llevará a cabo un análisis empírico dirigido a cuantificar la asociación existente entre un conjunto de variables turísticas y dos grupos diferenciados de variables auxiliares, y a segmentar la demanda turística española. Confiamos en que los resultados de este análisis empírico corroboren nuestra propuesta metodológica, que no pretende otra cosa que contribuir a mejorar la calidad del estudio moderno del comportamiento de la demanda turística. - 291 - SEGUNDA PARTE: Análisis empírico y conclusiones Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 1. INTRODUCCIÓN. En el Capítulo Primero de esta Tesis se ha argumentado que la inmensa mayoría de los estudios sobre demanda turística realizados en España durante los últimos años se han limitado a realizar un mero análisis descriptivo de la información estadística disponible. Nuestro propósito es demostrar que los datos recogidos en estudios como “Las vacaciones de los españoles”, “Movimientos turísticos en fronteras”, “Encuesta Familitur”, etc. son susceptibles de ser tratados estadísticamente al objeto de elaborar unas conclusiones más elaboradas que las obtenidas de un mero análisis descriptivo de la información. Se pretende, en definitiva, “exprimir” los datos existentes para optimizar el análisis relacional entre variables turísticas de interés. Partiendo del hecho de que un porcentaje importante de las preguntas incluidas en los cuestionarios en torno a los cuales se articulan los estudios de demanda turística plantean respuestas cerradas, es decir, constituyen variables de naturaleza categórica, el objetivo del presente análisis es poner de manifiesto que las técnicas estadísticas descritas en la Primera Parte de este trabajo son herramientas de gran potencialidad para el análisis de la demanda turística española. La información que va a ser procesada corresponde a un estudio realizado por el Centro de Investigaciones Sociológicas en 1995 sobre el comportamiento de los españoles ante las vacaciones. Dada la coincidencia temporal entre este trabajo y el estudio “Las vacaciones de los españoles en 1995”, reproducimos a continuación - 295 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ algunos de los principales resultados de este último estudio, realizado por Cuanter S.A. para la Secretaría General de Turismo: - El principal alojamiento utilizado en los viajes de 1995 ha sido la “casa de familiares y amigos”, con una cuota del 39,7 %. La categoría Hotel ( que engloba a Hoteles, Hostales y Paradores ) supone una cuota del 22,5 %, con una estimación aproximada de 10.303 millones de viajes y 65.639 millones de estancias. - Entre los motivos principales que han originado los viajes de 1995 destacan el “ocio, recreo y vacaciones”, con una cuota del 51,0 %, y “visitar a la familia y/o amistades”, con una cuota del 29,4 %. - La mayor parte de los viajes ( un 83,3 % ) se organiza por cuenta propia. La cuota de las agencias de viajes es de un 8,5 %. Entre los viajes de cuatro y más noches, la cuota de las agencias de viajes es del 12,6 %. - El medio de transporte más utilizado es el vehículo propio ( 68,9 % ). Según la duración del viaje, se constata una mayor utilización del avión en los viajes de larga duración ( 14,1 % ). - El 8 % de los viajes realizados en 1995 tuvo un destino fuera de nuestras fronteras, lo que supone aproximadamente 3.648.000 viajes. - 296 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ A partir de estas y de otras muchas conclusiones obtenidas del análisis descriptivo de la información procesada se podrían plantear algunas cuestiones interesantes, especialmente las relacionadas con las circunstancias personales del turista. Como botón de muestra, sirvan las siguientes reflexiones: - ¿ Cómo influye el tamaño del hábitat en el que reside el turista en la elección de un determinado tipo de alojamiento ?. ¿ Son los turistas que residen en las ciudades más pequeñas los que utilizan con mayor frecuencia la casa de los familiares o amigos como alojamiento ?. ¿ Utilizan más los hoteles los residentes en grandes ciudades o los turistas que viven en ciudades de menor tamaño ?. ¿ Es el tamaño del habitat independiente de la elección de alojamiento por parte del turista ?. - ¿ Qué efectos tiene la edad del turista sobre los motivos que le llevan a salir de vacaciones ?. ¿ Podrá admitirse que los individuos más jóvenes prefieren el ocio y la diversión y que los más ancianos viajan principalmente para visitar a la familia ?. ¿ Tendrá el turista la misma propensión a elegir un motivo vacacional determinado dependiendo del segmento de edad al que pertenezca ?. - ¿ Qué probabilidad hay de que un turista con estudios superiores organice por su cuenta sus vacaciones ?. ¿ Será igual, mayor o menor a la de un turista que sólo posee estudios primarios o que no tenga estudios ?. - 297 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - ¿ Cómo condiciona el número de miembros del hogar familiar la elección del medio de transporte ?. Sería interesante determinar si las familias con un número elevado de miembros utilizan los medios de transporte colectivos y las familias con un número reducido de miembros emplean en mayor medida el medio de transporte privado por excelencia, esto es, el vehículo particular. - ¿ Cuál es la probabilidad de que un turista con ingresos medios viaje al extranjero ?. ¿ Será mayor esta probabilidad si el turista percibe ingresos altos o, por el contrario, el hecho de viajar fuera de nuestras fronteras es independiente del nivel de ingresos del turista ?. Como es obvio, las diferentes circunstancias personales del turista ( edad, nivel de estudios, nivel de ingresos, etc. ) pueden condicionar las anteriores variables turísticas ( y no sólo la variable explicativa mencionada en cada pregunta ), lo que permite sostener que el tipo de alojamiento elegido, el motivo vacacional, la forma de organizar el viaje, el medio de transporte empleado, el destino del viaje, etc., son variables turísticas condicionadas por un cúmulo de circunstancias personales del turista. El objetivo final de este análisis empírico es cuantificar la intensidad de la asociación entre unas variables y otras, para lo cual se combinará la modelización logarítmico-lineal con la formulación logit para variables categóricas. Por otro lado, en el estudio “Las vacaciones de los españoles en 1992”, la empresa Cuanter realizó un análisis de tipologías con el objeto de establecer una - 298 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ clasificación de la población turística a partir de las opiniones expresadas sobre las vacaciones por los individuos encuestados. Los resultados del análisis se reproducen a continuación: Grupo 1: Turista de Segunda Residencia ( 19,9 % ). No les importa pasar las vacaciones en casa pero cuando salen evitan los viajes organizados y les gusta acudir a lugares poco frecuentados, compartiendo las costumbres de la zona de destino. Prefieren pasar las vacaciones en un único sitio y estar sin hacer nada. Grupo 2: Turista Social ( 13,5 % ). No le estimula el cambio de actividades en vacaciones aunque tampoco le gusta pasar las vacaciones en casa. Opta por los viajes organizados y le gustan los lugares poco frecuentados, más aún compartir las costumbres de la gente de la zona. No le atrae la diversión como elemento fundamental de las vacaciones - posicionamiento indiferente -. A diferencia del grupo anterior, no le gusta pasar sus vacaciones sin hacer nada en un único sitio. Grupo 3: Turista Recreativo (31,4 % ). En general le gusta realizar actividades diferentes a las habituales y no le gusta quedarse en casa durante las vacaciones. A diferencia del grupo dos, no le importa utilizar viajes organizados, pasar las vacaciones en un sitio y estar sin hacer nada. - 299 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Grupo 4: Turista con inquietudes/viajero (31,4 %). Efectivamente, viajar y conocer lugares nuevos es una de las cosas que más le gustan y esta pasión le diferencia enormemente del resto de viajeros/as. Durante las vacaciones busca hacer cosas distintas a las habituales, pasárselo bien y moverse de un sitio a otro. Le resulta indiferente acudir en viaje organizado o no. Grupo 5: Turista por puro entretenimiento (3,8 % ). Realmente viajar no le apasiona aunque tampoco le gusta quedarse en casa o estar sin hacer nada. Sí aprecia el cambio de actividades durante las vacaciones, los lugares frecuentados, la diversión y evita los viajes organizados. Esta clasificación se completa con una caracterización de cada grupo según la edad, el nivel de estudios, la ocupación, el status, el tamaño del hábitat y el número de viajes realizados. Pues bien, en relación a esta clasificación, podríamos plantearnos varias preguntas, algunas de las cuales reflejamos a continuación: - Si los grupos 3 y 4 parecen ser del mismo tamaño ( 31,4 % ), ¿ cómo puede contrastarse estadísticamente que, en efecto, ambos grupos son iguales ?. - Tanto los turistas del grupo 1 como los del grupo 2 evitan los viajes organizados y prefieren lugares poco frecuentados. Pero, ¿ hasta qué punto se - 300 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ puede admitir que la actitud de estos dos grupos ante estas dos cuestiones ( frases 4 y 5 de un total de nueve frases utilizadas ) es idéntica ?. ¿ De qué forma podría contrastarse que las preferencias de los turistas de estos dos grupos ante las frases 4 y 5 son diferentes, aunque similares ?. - A los turistas de los grupos 3, 4 y 5 les gusta realizar durante sus vacaciones actividades distintas a las habituales ( frase 2 ). Pero, ¿ esta actitud es idéntica en los tres grupos ?, es decir, ¿ qué grupo de turistas tiene mayor probabilidad de realizar actividades diferentes ?. ¿ Se puede admitir que esta probabilidad es la misma para los tres grupos ?. - Al caracterizar cada uno de los grupos, se observa que las edades de los turistas en los cinco grupos propuestos presentan diferencias significativas. ¿ Sería posible considerar un número determinado de intervalos de edad y proponer una clasificación de los turistas dentro de cada intervalo, al objeto de establecer comparaciones, analogías y diferencias entre los turistas en función de su edad ?. Estas y otras muchas cuestiones que podríamos plantearnos a la luz de las conclusiones del análisis realizado por Cuanter pueden ser resueltas gracias al modelo de análisis de clases latentes general ( tanto restringido como no restringido ) y por el análisis de estructura latente simultáneo ( con y sin restricciones ). - 301 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Reconociendo el mérito y la validez del análisis realizado por Cuanter y concibiendo las técnicas estadísticas propuestas como un complemento útil para el análisis realizado, pretendemos poner de manifiesto en esta Segunda Parte la potencialidad de los modelos log-lineal, logit y ACL. 2. ANÁLISIS DE INTERDEPENDENCIAS ENTRE VARIABLES TURÍSTICAS. Ante la imposibilidad de disponer de la información del estudio “Las vacaciones de los españoles” desagregada individuo a individuo, el estudio que se utilizará para analizar la asociación entre diferentes variables turísticas de interés será el estudio número 2.193 del Centro de Investigaciones Sociológicas correspondiente a Octubre de 1995 y denominado “Comportamiento de los españoles ante las vacaciones (III)”. Una vez comparados los cuestionarios utilizados por el C.I.S. y por Cuanter ( año 1995 ) para estudiar el comportamiento de la demanda turística española, se ha constatado que ambos cuestionarios son extraordinariamente similares y que las cuestiones relativas a las variables turísticas que se analizarán en este trabajo se formulan igual en uno y en otro, verificándose incluso que las respuestas posibles a estas preguntas son también coincidentes. En consecuencia, tanto las técnicas utilizadas en este trabajo como las conclusiones alcanzadas en el mismo son perfectamente extrapolables a los estudios - 302 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ realizados por la Secretaría General de Turismo y designados bajo la denominación genérica de “Las vacaciones de los españoles”. La ficha técnica del estudio número 2.193 del C.I.S. es la siguiente: Ambito: Nacional. Se incluyen las provincias insulares y se excluyen Ceuta y Melilla. Universo: El estudio consta de 3 muestras, relacionadas entre sí, cuyos universos son los siguientes: Muestra general: Población española de ambos sexos de 18 años y más. Muestra “van de vacaciones”: Todos los entrevistados en la muestra general que han ido o van a ir de vacaciones a lo largo de 1995. Muestra “no van de vacaciones”: Un 30 % de los entrevistados en la muestra general que no han ido ni van a ir de vacaciones a lo largo de 1995. - 303 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tamaño de la muestra: Se desea obtener una muestra aleatoria de alrededor de 2.500 personas que han ido o van a ir de vacaciones a lo largo de 1995 y otra de alrededor de 1.300 personas que no han salido ni van a salir de vacaciones en el mismo período. Para ello, y partiendo de estudios anteriores, se ha diseñado una muestra de 6.500 entrevistas que ha dado origen a otras dos muestras. A la muestra de 6.500 entrevistas, muestra general, se aplica un cuestionario reducido del que debe salir la estimación de la población que va y de la que no va de vacaciones, así como la estructura básica de una y otra. A todas las personas que van de vacaciones se les aplica otro cuestionario más amplio, lo mismo que a una parte de los que no van de vacaciones. El resultado de este planteamiento es el siguiente diseño muestral: Muestra general: Diseñada: 6.500 entrevistas. Realizada: 6.483 entrevistas. Muestra “van de vacaciones”: Prevista: 2.500 entrevistas. Realizada: 2.581 entrevistas. Muestra “no van de vacaciones”: Prevista: 1.300 entrevistas. Realizada: 1.182 entrevistas. - 304 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Afijación: La muestra general es proporcional a la población de los diferentes estratos. La muestra “van de vacaciones” también es proporcional, en este caso a la población de los diferentes estratos que ha ido o va a ir de vacaciones. La muestra “no van de vacaciones” no es proporcional y, además, se ha hecho con afijación distinta según los tamaños del hábitat. A la vista de los resultados de la encuesta se han calculado los coeficientes de ponderación de esta muestra. Estos coeficientes transforman las 1.182 entrevistas realizadas en 3.882, que es la población que en la muestra general no había ido de vacaciones. Igualan, además, las tasas de muestreo en los diferentes estratos. Procedimiento de muestreo: Polietápico, estratificado por conglomerados, con selección de las unidades primarias ( municipios ) y de las unidades secundarias ( secciones ) de forma aleatoria proporcional. Los estratos se han formado por el cruce de las 17 regiones autonómicas con el tamaño del hábitat, dividido en 7 categorías. Los cuestionarios se han aplicado mediante entrevista personal en los domicilios. La selección de las unidades últimas de muestreo ( individuos ) ha sido realizada de la siguiente manera. En la muestra general por rutas aleatorias y cuotas de sexo y edad. En la muestra “van de vacaciones” se ha - 305 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ entrevistado a todos los que en la muestra general aseguran que han ido o van a ir de vacaciones en 1995. En la muestra “no van de vacaciones” la selección se ha hecho según el tamaño del municipio. En los municipios de menos de 50.000 habitantes se ha seleccionado, aleatoriamente, un número de individuos que no han ido de vacaciones igual al de los que han ido; en los municipios mayores de 50.000 habitantes se ha seleccionado, aleatoriamente, un individuo que no ha ido de vacaciones por cada dos que han ido de vacaciones. Error muestral: Para un nivel de confianza del 95,5 % ( dos sigmas ), y para P=Q, el error es de ± 1,24 para la muestra general, y en el supuesto de muestreo aleatorio simple. El error en la muestra “van de vacaciones” es de ± 1,96 y en la muestra “no van de vacaciones” es de ± 2,90. Fecha de realización: 8-15 de Octubre de 1995. Por otra parte, las variables turísticas de este estudio que han sido analizadas en el presente trabajo han sido las siguientes: - Propensión a viajar. - Destino turístico. - 306 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Lugar de vacaciones. - Transporte empleado. - Alojamiento utilizado. - Organización del viaje. - Duración del viaje. - Forma de viajar. - Fraccionamiento vacacional. El análisis de asociación de las variables anteriores se ha realizado con las siguientes variables de carácter socioeconómico: - Tamaño del hábitat. - Edad. - Nivel de estudios. - Nivel de ingresos. - Status económico ( sólo para la propensión a viajar ). - Temporada vacacional ( para todas las variables excepto para la propensión a viajar ). - Número de miembros que componen el hogar familiar. En relación al primer conjunto de variables, las categorías que se han considerado para cada una de ellas han sido las siguientes: - 307 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Propensión a viajar: - Categoría 1: el entrevistado ha viajado o va a viajar a lo largo del año 1995. - Categoría 2: el entrevistado no ha viajado o no va a viajar durante 1995. Destino turístico: - Categoría 1: el entrevistado pasó sus vacaciones en España. - Categoría 2: el entrevistado pasó sus vacaciones en el extranjero. Lugar de vacaciones: - Categoría 1: el entrevistado pasa sus vacaciones en una ciudad o pueblo costero o próximo a la costa. - Categoría 2: el entrevistado pasa sus vacaciones en un pueblo o ciudad de interior, campo o montaña. Transporte empleado: - Categoría 1: el entrevistado utiliza un medio de transporte privado ( vehículo particular ). - Categoría 2: el entrevistado utiliza un medio de transporte colectivo o público ( tren, autocar, avión regular, vuelo charter, barco, etc. ). Alojamiento utilizado1: - Categoría 1: el entrevistado se aloja en establecimientos hoteleros. - Categoría 2: el entrevistado se aloja en otros establecimientos colectivos. 1 A efectos de esta categorización, se entiende por establecimientos hoteleros a hoteles, Paradores y hostales. Otros establecimientos colectivos incluyen pensiones, casas de huéspedes o fondas, establecimientos especializados ( campamentos, balnearios, barcos, etc. ), campings, caravanas y otros alojamientos colectivos y acampada libre. Finalmente, dentro de los establecimientos privados se enmarcan chalets, apartamentos o pisos tanto propios como alquilados ( a particulares, a organizaciones o a agencias ), casas de familiares y/o amigos, habitaciones alquiladas en casas particulares y otros alojamientos. - 308 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Categoría 3: el entrevistado se aloja en establecimientos privados. Organización del viaje: - Categoría 1: el entrevistado realiza su viaje por cuenta propia. - Categoría 2: el entrevistado viaja a través de una agencia de viajes, de una organización profesional, asociación, club, etc. Duración del viaje: - Categoría 1: la duración del viaje ha sido de 7 días o menos ( viaje corto ). - Categoría 2: la duración del viaje ha sido de entre 8 y 15 días ( viaje de duración media ). - Categoría 3: la duración del viaje ha sido superior a 15 días ( viaje largo ). Forma de viajar: - Categoría 1: el entrevistado viaja solo. - Categoría 2: el entrevistado viaja con su familia. - Categoría 3: el entrevistado viaja con un grupo de amigos o con un grupo organizado. Fraccionamiento vacacional: - Categoría 1: el entrevistado disfruta sus vacaciones de forma continuada, sin fraccionarlas. - Categoría 2: el entrevistado fracciona sus vacaciones en dos o más períodos. Con respecto al segundo conjunto de variables ( variables explicativas ), la categorización que se ha utilizado es la que se detalla a continuación: - 309 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tamaño del hábitat: - Categoría 1: el entrevistado reside en un municipio de menos de 100.000 habitantes ( ciudad pequeña ). - Categoría 2: el entrevistado reside en un municipio de entre 100.000 y 400.000 habitantes ( ciudad media o mesópolis ). - Categoría 3: el entrevistado reside en una ciudad con más de 400.000 habitantes ( ciudad grande ). Edad: - Categoría 1: el entrevistado tiene 24 años o menos ( persona joven ). - Categoría 2: el entrevistado tiene entre 25 y 44 años ( persona menos joven ). - Categoría 3: el entrevistado tiene una edad comprendida entre 45 y 64 años ( persona de edad madura ). - Categoría 4: el entrevistado tiene 65 años o más ( persona anciana ). Nivel de estudios2: - Categoría 1: el entrevistado no posee instrucción o sólo tiene estudios primarios. - Categoría 2: el entrevistado posee estudios secundarios. - Categoría 3: el entrevistado posee estudios superiores. 2 A efectos de esta categorización, se han considerado individuos sin instrucción o con estudios primarios a los que son analfabetos, sólo saben leer y escribir, poseen algunos años de estudios primarios ( sin completar ) o están en posesión de estudios primarios o del Bachillerato Elemental ( antiguo ), E.G.B., Graduado Escolar o Certificado de Escolaridad. En la categoría de estudios secundarios, se han incluido todos aquellos individuos que poseen el Bachillerato Superior ( antiguo ), B.U.P., Formación Profesional I y otras enseñanzas técnico-profesionales o Formación Profesional II. Finalmente, en la categoría de estudios superiores tienen cabida los arquitectos e ingenieros técnicos, los Diplomados en Escuelas Universitarias, Facultades o Colegios Universitarios, los que poseen estudios superiores de 2 o 3 años no equivalentes a Diplomaturas, los arquitectos e ingenieros superiores, los que han realizado los Cursos de Doctorado y los que poseen estudios de Postgrado o de Especialización para Licenciados. - 310 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Nivel de ingresos: - Categoría 1: el entrevistado percibe menos de 150.000 pesetas al mes ( ingresos bajos ). - Categoría 2: el entrevistado percibe unos ingresos comprendidos entre 150.000 y 400.000 pesetas al mes ( ingresos medios ). - Categoría 3: el entrevistado percibe más de 400.000 pesetas al mes ( ingresos altos ). Status económico: - Categoría 1: el entrevistado trabaja. - Categoría 2: el entrevistado está desempleado. - Categoría 3: el entrevistado es una persona no activa económicamente. - Categoría 4: el entrevistado está jubilado o es pensionista. Temporada vacacional: - Categoría 1: el entrevistado disfruta de sus vacaciones durante los meses de Julio y/o Agosto ( temporada alta ). - Categoría 2: el entrevistado disfruta de sus vacaciones durante los restantes meses del año ( temporada baja ). Número de miembros del hogar familiar: - Categoría 1: el entrevistado pertenece a una familia compuesta por 1 o 2 miembros ( familia sin hijos ). - Categoría 2: el entrevistado pertenece a una familia formada por 3 o 4 miembros ( familia con 1 o 2 hijos ). - 311 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Categoría 3: el entrevistado pertenece a una familia compuesta por más de 4 miembros ( familia numerosa ). La categorización anteriormente descrita se ha realizado atendiendo, de la forma más estricta posible, a las recomendaciones de la Organización Mundial del Turismo y, más concretamente, a los conceptos, definiciones y clasificaciones de las estadísticas de Turismo de dicho organismo ( O.M.T., 1995 ). La metodología que se ha seguido en el presente análisis ha consistido en estudiar las interdependencias de cada una de las variables turísticas del primer conjunto antes citado con el tamaño del hábitat, la edad y el nivel de estudios ( en lo sucesivo, se designará a estas tres variables como Grupo A de variables ), por un lado, y las interrelaciones de aquellas mismas variables con el nivel de ingresos, la temporada vacacional3 y el número de miembros del hogar familiar ( en lo sucesivo, a estas tres variables se les denominará Grupo B ), por otro lado. El motivo por el cual no se ha planteado el estudio de las variables turísticas presentadas considerando conjuntamente todas las variables explicativas ( esto es, sin distinguir entre el Grupo A y el Grupo B de variables ) es que las tablas de contingencia 3 En el estudio de la propensión a viajar se ha utilizado como variable explicativa el status económico del entrevistado en lugar de la temporada vacacional porque se ha considerado que la primera variable posee un mayor poder discriminatorio que la segunda y, por tanto, mayor capacidad explicativa en el análisis de la propensión de los españoles a viajar. Por el contrario, para el resto de variables turísticas analizadas se ha creído conveniente considerar la temporada vacacional en lugar del status económico del entrevistado. - 312 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ obtenidas de esta forma son de dimensión siete, con un total de 1.296 modalidades de respuesta si la variable turística respuesta posee dos categorías, y 1.944 modalidades si dicha variable posee tres categorías. Como puede suponerse, los inconvenientes derivados de trabajar con una tabla de dimensión tan elevada son evidentes. Por un lado, el número de posibles modelos log-lineales asociados a esta tabla es de varios miles, con la tremenda dificultad que este hecho añade a la búsqueda del modelo óptimo. Por otro lado, el número de ceros aleatorios se incrementa sustancialmente, con el evidente handicap que supone el debilitamiento de las propiedades asintóticas de los estimadores y, como consecuencia de ello, la menor robustez de las estimaciones realizadas y la considerablemente menor fiabilidad de las conclusiones alcanzadas. Una vez realizadas estas consideraciones previas, pasaremos a desarrollar los análisis logarítmico-lineal y logit efectuados con cada una de las variables turísticas citadas con anterioridad y a comentar las conclusiones más relevantes que se derivan de los mismos. a) PROPENSIÓN A VIAJAR. El estudio de esta variable turística se ha realizado considerando la muestra general de la encuesta del C.I.S. Se ha partido, pues, de la información contenida en las 3.781 entrevistas del estudio número 2.193. Posteriormente, han sido eliminadas aquellas encuestas en las que el entrevistado no se ha pronunciado ( no sabe, no contesta, respuesta incongruente ) sobre una o varias de las variables explicativas - 313 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ consideradas en este trabajo4, lo que arrojó una muestra operativa de 3.720 entrevistas para el Grupo A de variables y de 2.632 entrevistas para el Grupo B. Grupo A de variables: La tabla de contingencia que refleja la clasificación cruzada de las variables propensión a viajar, tamaño del hábitat, edad y nivel de estudios es la que se muestra en la página siguiente bajo el título de Tabla 1: Como se podrá observar, no existe en esta tabla ningún cero aleatorio ni ningún cero estructural. A partir de la citada tabla de contingencia, el análisis se iniciará con el estudio de las medidas de asociación correspondientes a las tres tablas marginales IxJ resultantes de considerar las variables “propensión a viajar” y “tamaño del hábitat”, por un lado; las variables “propensión a viajar” y “edad”, por otro lado; y, finalmente, las variables “propensión a viajar” y “nivel de estudios”. En las tres tablas marginales se ha considerado la variable “propensión a viajar” porque dicha variable será la que centre el interés del análisis y la que se considere como variable respuesta en la posterior modelización logit. En consecuencia, la elección de la variable respuesta es realizada, en este caso, por el investigador, en función del objetivo de la investigación, a diferencia de 4 Como es fácilmente comprensible, la ausencia de posicionamiento del entrevistado en relación a la pregunta formulada no arroja información útil para el análisis, razón por la que estas entrevistas deben ser excluidas del mismo. - 314 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 1 TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total - 315 - PROPENSIÓN A VIAJAR Sí viaja No viaja 68 49 117 43 24 6 209 98 205 163 171 44 116 28 492 235 212 210 27 16 39 12 278 238 118 156 7 3 8 2 133 161 25 9 78 18 26 7 129 34 99 38 94 21 83 16 276 75 149 68 36 3 22 2 207 73 75 45 6 1 13 1 94 47 25 10 79 14 34 7 138 31 76 29 106 23 112 19 294 71 112 51 33 8 46 8 191 67 81 35 12 2 15 4 108 41 Total 117 160 30 307 368 215 144 727 422 43 51 516 274 10 10 294 34 96 33 163 137 115 99 351 217 39 24 280 120 7 14 141 35 93 41 169 105 129 131 365 163 41 54 258 116 14 19 149 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ lo que ocurre con otras técnicas, como el algoritmo CHAID, en el que la colapsabilidad se erige en una herramienta básica para determinar cuál o cuáles de las variables analizadas puede ser considerada como variable respuesta. Las medidas de asociación consideradas para las tablas marginales citadas arrojaron los valores que se muestran en la Tabla 2. Tabla 2 Variable dependiente: Propensión a viajar (V) HABITAT (H) 2 115,512 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 116,611 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,176 Coeficiente de contingencia 0,174 Test V de Cràmer 0,176 ! Coeficiente τV i de 0,031 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! V i 0,025 EDAD (E) 70,897 3 0,0000 ESTUDIOS (S) 203,642 2 0,0000 69,958 3 0,0000 0,138 0,137 0,138 211,439 2 0,0000 0,234 0,228 0,234 0,019 0,055 0,015 0,046 para i = H, E, S De los valores reflejados en la tabla anterior se deduce que la propensión a viajar del español está condicionada tanto por el tamaño del hábitat como por la edad y el nivel de estudios del mismo. La asociación más fuerte se produce con la variable “nivel de - 316 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ estudios”, mientras que la asociación más débil corresponde a la variable “edad”. En cualquier caso, poco puede afirmarse sobre la asociación entre la propensión a viajar y las demás variables a partir de este simple estudio de asociación marginal, ya que la presencia de otras variables puede afectar sustancialmente a la misma, lo que nos podría conducir a conclusiones radicamente opuestas ( Paradoja de Simpson ). Por ello, la mejor forma de detectar la presencia de una fuerte asociación entre variables, así como la posible existencia de independencia condicionada, es la búsqueda del modelo log-lineal que mejor se ajuste a los datos de la anterior tabla de contingencia. Para seleccionar dicho modelo, optaremos por el método de selección propuesto por Edwards y Kreiner ( 1983 ), que parte del modelo saturado y va eliminando progresivamente efectos de interacción de segundo orden de la representación gráfica del citado modelo hasta encontrar el más satisfactorio. En este caso, y partiendo del modelo saturado VSEH, la eliminación de cada uno de los efectos de segundo orden presentes en el modelo saturado arrojó los resultados que se muestran a continuación5: Modelo VEH, SEH VSH,SEH VSE,SEH VSH,VEH VSE,VEH VSE,VSH Efecto eliminado VS VE VH SE SH EH g.l. 24 27 24 36 32 36 5 Diferencia de verosimilitud entre cada modelo y el modelo saturado p p G2 X2 0,0000 125,46 0,0000 131,48 0,3334 29,58 0,3145 29,99 0,0000 100,81 0,0000 102,70 0,0000 808,96 0,0000 828,99 0,0000 133,10 0,0000 130,00 0,0166 56,35 0,0137 57,22 Todos los cálculos relativos a estimaciones de modelos log-lineales han sido realizados con el programa BMDP versión 7.0. - 317 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Seguidamente, deberá procederse a la eliminación del efecto de interacción que sea menos significativo, es decir, de aquel que arroje un mayor valor de p, siempre que éste sea mayor que α = 0,05. En este caso, el único efecto no significativo es VE ( lo que implica la independencia condicionada entre la propensión a viajar y la edad del turista ), el cual, por tanto, deberá ser eliminado del modelo saturado. En consecuencia, el modelo gráfico que se tomará como modelo base en el paso siguiente será VSH, SEH. A continuación, en el siguiente paso se eliminarán cada uno de los restantes efectos de interacción de segundo orden del modelo base VSH, SEH al objeto de comprobar si existe algún otro efecto no significativo. La determinación de efectos no significativos se basará ( en el primer paso también se hizo así ) en las diferencias en grados de libertad y en los tests de la razón de verosimilitud entre modelos sucesivos, en lugar de basar el procedimiento en los grados de libertad y en los tests de bondad de ajuste de cada modelo gráfico. La razón de operar así reside en el hecho de que el objetivo que se persigue es determinar si el efecto eliminado del modelo gráfico en cuestión es o no estadísticamente significativo, y no tanto examinar la bondad de ajuste resultante de realizar dicha eliminación. Dicho en otros términos, el interés recae fundamentalmente en contrastar los modelos gráficos resultantes de eliminar un efecto del modelo base contra el propio modelo base, y no contra el modelo saturado6. 6 A excepción, como es obvio, del primer paso de este proceso de selección, en el que el modelo base inicial es el propio modelo saturado. - 318 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Por otra parte, dada la propiedad de particionabilidad del test G 2 y la posible no verificación de la misma en el test χ 2 de Pearson, en la presente y sucesivas etapas la diferencia entre los valores de los tests de bondad de ajuste se realizará únicamente para el test G 2 . Teniendo en cuenta este conjunto de premisas, los resultados de esta etapa son los que se muestran en el cuadro siguiente: Modelo base: [VSH]][SEH]] G 2 = 29,99 27 g.l. Modelo SEH, VH SEH, VS VS, VH, SE, EH VSH, EH VSH, SE Diferencia de verosimilitud entre cada modelo y el modelo base7 g.l. p G2 0,0000 178,87 6 0,0000 84,04 6 0,0000 118,03 20 0,0000 876,37 18 0,0032 38,57 18 Efecto eliminado VS VH SH SE EH De los valores anteriores se desprende que no existe ningún otro efecto de segundo orden que no sea significativo, por lo que no procede eliminar ninguno de ellos del modelo base a un nivel de significación del 5 %. Así pues, el procedimiento empleado nos indica que el modelo gráfico que se 7 A título ilustrativo, designando por M 0 al modelo base y por M1 al modelo SEH,VH, los 6 grados de libertad asociados a este último modelo se han calculado como g.l. ( M1 ) − g.l. ( M 0 ) = 33 - 27 = 6; mientras que el valor G 2 se ha obtenido como G 2 ( M1 M 0 ) = G 2 ( M1 ) − G 2 ( M 0 ) = 208,86 - 29,99 = 178,87. - 319 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ ajusta de forma más satisfactoria a los datos es el modelo VSH, SEH, que posee 27 grados de libertad, que arroja un valor del test G 2 de 29,99 ( p = 0,3145 ) y un valor del test χ 2 de 29,58 ( p = 0,3334 ) y cuya representación gráfica es la siguiente: V S E H A pesar de que este modelo gráfico arroje un ajuste a los valores observados bastante aceptable, siguiendo las recomendaciones de Edwards y Kreiner ( 1983 ) procederemos a continuación a estimar otros modelos no gráficos asociados ( esto es, jerárquicos ) al modelo gráfico elegido. En el caso que nos ocupa, los modelos no gráficos asociados al modelo VSH, SEH son VSH, SE, EH; SEH, VS, VH y VS, VH, SH, SE, EH. Los grados de libertad, el valor del test G 2 , el coeficiente de determinación y el criterio de información de Akaike de estos tres modelos no gráficos, así como del modelo gráfico VSH, SEH, se muestran a continuación: Modelo VSH, SEH VSH, SE, EH SEH, VS, VH VS, VH, SH, SE, EH V, S, E, H8 g.l. 27 39 31 43 63 G2 29,99 48,22 35,14 53,37 1.320,12 8 p 0,3145 0,1479 0,2782 0,1335 0,0000 R2 0,977282 0,963473 0,973381 0,959572 0,000000 AX − q R2 0,946992 - 24,01 0,940995 - 29,78 0,945903 - 26,86 0,940768 - 32,63 0,000000 1.194,12 Los valores que arroja el modelo de independencia completa ponen de manifiesto que este modelo debe rechazarse claramente, por lo que no podrá admitirse que la “propensión a viajar” de los españoles sea independiente del tamaño del hábitat, de la edad y del nivel de estudios. - 320 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Como fácilmente puede comprobarse, ninguno de los modelos no gráficos mejora el ajuste del modelo gráfico VSH, SEH, razón por la que puede concluirse que el modelo que mejor explica la asociación entre las variables categóricas V ( propensión a viajar ), S ( nivel de estudios ), E ( edad ) y H ( tamaño del hábitat ) es el modelo VSH, SEH, el cual puede sintetizarse en las siguientes cifras: Mejor modelo: VSH, SEH 27 g.l. Valor de G 2 = 29,99 ( p = 0,3145 ) Valor de χ 2 = 29,58 ( p = 0,3334 ) Representación gráfica: S V H E Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,977282 Coeficiente de determinación ajustado: R 2 = 0,946992 Criterio de información de Akaike: AX − q = - 24,01 La interpretación del modelo VSH, SEH implica que la “propensión a viajar” es condicionalmente independiente de la edad del individuo, fijada una categoría determinada de las variables “tamaño del hábitat” y “nivel de estudios”. Es decir, considerando únicamente los individuos que viven en ciudades pequeñas, se puede afirmar que su propensión a viajar es independiente de la edad. Lo mismo podría - 321 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ afirmarse respecto a aquellos españoles que residen en ciudades medianas y en ciudades grandes. De igual forma, si se consideran únicamente aquellos sujetos que no tienen instrucción o que sólo poseen estudios primarios, la propensión de los mismos a salir de viaje es independiente de su edad. Este mismo comentario sería aplicable tanto a los individuos con estudios secundarios como a aquellos que poseen estudios superiores. Por el contrario, la “propensión a viajar” está condicionada tanto por el tamaño del hábitat como por el nivel de estudios. Para cuantificar esta asociación, deberemos proceder a estimar los parámetros del modelo: VH SE SH EH VSH log mijkl = τ 0 + τVi + τ Sj + τ kE + τ lH + τVS + τ SEH ij + τ il + τ jk + τ jl + τ kl + τ ijl jkl De todas las estimaciones del anterior modelo, las correspondientes a los son las que más nos interesan. Sin embargo, y puesto que no es el parámetros τVSH ijl objetivo de este análisis investigar la asociación entre el tamaño del hábitat y el nivel de estudios, centraremos nuestros comentarios en las estimaciones de los efectos de VH interacción de segundo orden τVS ij y τ il , que son, en definitiva, los que mejor reflejan la asociación directa que existe entre la propensión a viajar y el nivel de estudios, por un lado, y la propensión a viajar y el tamaño del hábitat, por otro lado. Las estimaciones - 322 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ máximo-verosímiles9 de los efectos τVS ij son las que se representan en el Gráfico 1.A y se reproducen también a continuación: Nivel de estudios Sin/sólo est. primarios Propensión a viajar Sí viaja No viaja - 0,318 0,318 Con est. secundarios 0,120 - 0,120 Con est. superiores 0,198 - 0,198 Las anteriores estimaciones constatan que cuanto mayor es el nivel de estudios del sujeto, mayor es también su propensión a viajar. Los individuos con estudios primarios o sin instrucción viajan sensiblemente menos de lo que cabría esperar en el caso de que el nivel de estudios y la propensión a viajar fueran independientes. Por el contrario, los individuos con estudios secundarios y, especialmente, aquellos que poseen estudios superiores, viajan más de lo esperado en el supuesto de independencia entre estas dos variables. son las Por su parte, las estimaciones máximo-verosímiles de los parámetros τVH il que se muestran en la página siguiente y se representan en el Gráfico 1.A , en el que se observa que la propensión a viajar del entrevistado es menor cuanto más pequeño es el municipio en el que reside habitualmente. Así, los individuos que viven en El programa BMDP Versión 7.0. calcula los valores de las estimaciones estandarizadas ω! de los parámetros log-lineales τ . Si no se hace mención expresa, se entenderá que el efecto de interacción τ es estadísticamente significativo a un 5 %. Sólo en el caso de que el parámetro en cuestión no sea estadísticamente distinto de cero se hará constar dicha circunstancia tanto en el texto como en el Anexo 1. 9 - 323 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 1.A Asociación entre las categorías de la variable “propensión a viajar” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Propensión a viajar" y "Tamaño del hábitat" -0,178 0,085 No viaja Sí viaja 0,093 Ciudad pequeña Ciudad mediana Ciudad grande INTERACCION "Propensión a viajar" y "Nivel de estudios" -0,318 Sí viaja 0,12 No viaja 0,198 Sin/sólo est. primarios Con est. secundarios Con est. superiores Gráfico 1.B Diferencias en la probabilidad de “viajar” ( logit: Sí viaja vs No viaja ) en función del tamaño del hábitat y del nivel de estudios con independencia de la edad Sin/sólo est. primarios Con est. secundarios Con est. superiores 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Probabilidad Ciudad pequeña Ciudad mediana - 324 - Ciudad grande 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ ciudades medianas o grandes viajan más de lo que sería esperable si el tamaño del hábitat fuese independiente de la inclinación a viajar, siendo más acusada esta tendencia entre los residentes en grandes ciudades que entre los que residen en ciudades de tamaño medio. El fenómeno contrario se produce con los entrevistados residentes en municipios de menos de 100.000 habitantes. Tamaño del hábitat Ciudad pequeña Propensión a viajar Sí viaja No viaja - 0,178 0,178 Ciudad mediana 0,085 - 0,085 Ciudad grande 0,093 - 0,093 Pero, sin lugar a dudas, la mayor eficacia de la modelización logarítmico-lineal en el análisis de las interrelaciones entre variables turísticas se alcanza al estimar las probabilidades asociadas a las distintas categorías de la variable respuesta condicionadas a las múltiples combinaciones de categorías de las variables explicativas. La obtención de estas probabilidades estimadas es posible gracias al modelo logit para variables categóricas. En la Tabla 3 se recoge la probabilidad estimada de que un individuo viaje, condicionada a su nivel de estudios y al tamaño del hábitat en el que reside10. A partir 10 Como ha quedado demostrado previamente, la edad del entrevistado no condiciona la tendencia del mismo a viajar. - 325 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ de los valores de esta tabla se ha elaborado también el Gráfico 1.B, al objeto de poder apreciar de forma gráfica las diferencias en probabilidad entre las categorías de las variables explicativas. Tabla 3 Probabilidades estimadas de “viajar” condicionadas a cada categoría de las variables explicativas Nivel de estudios Sin instrucción o con estudios primarios Con estudios secundarios Con estudios superiores Edad Joven Menos joven Maduro Anciano Joven Menos joven Maduro Anciano Joven Menos joven Maduro Anciano Tamaño del hábitat C. pequeña C. mediana C. grande 0,5105 0,6848 0,7018 0,5105 0,6848 0,7018 0,5105 0,6848 0,7018 0,5105 0,6848 0,7018 0,7521 0,8326 0,8303 0,7521 0,8326 0,8303 0,7521 0,8326 0,8303 0,7521 0,8326 0,8303 0,7961 0,8471 0,8450 0,7961 0,8471 0,8450 0,7961 0,8471 0,8450 0,7961 0,8471 0,8450 La tabla desvela que la probabilidad de que un individuo viaje es la misma para los diferentes tramos de edad, pero existen diferencias apreciables en función del nivel de estudios y del tamaño del hábitat en el que reside habitualmente el entrevistado. La mayor probabilidad de viajar corresponde a los individuos con estudios superiores que residen en ciudades con más de 100.000 habitantes, y se cifra en torno a un 84 %. Se constata también que no existen diferencias apreciables en la probabilidad de viajar entre los que poseen estudios secundarios y los que tienen estudios superiores, - 326 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ mientras que las probabilidades correspondientes a los individuos sin instrucción o sólo con estudios primarios son sensiblemente inferiores al resto de encuestados. Así, la probabilidad que un individuo con estudios primarios y residente en una ciudad pequeña tiene de viajar se cifra en un 51 % ( frente a algo más del 75 % del resto ). Finalmente, existen diferencias mínimas y poco importantes en la probabilidad de viajar entre los individuos que residen en ciudades medianas y los que lo hacen en ciudades grandes, siendo sólo sensiblemente inferior a estos valores la probabilidad correspondiente a los residentes en ciudades pequeñas. Grupo B de variables: La tabla de contingencia obtenida al cruzar las variables categóricas “propensión a viajar”, “nivel de ingresos”, “status económico” y “número de miembros del hogar familiar” es la que se reproduce en la página siguiente ( Tabla 4 ). En esta tabla, que aglutina un total de 2.632 observaciones válidas, existen ocho ceros aleatorios. Para el tratamiento de estos ceros aleatorios se seguirán las recomendaciones que hace Christensen ( 1990, pag. 341 ). Es decir, identificaremos en primer lugar aquellas casillas de la tabla que contengan ceros aleatorios, para los cuales no existirán estimaciones máximo-verosímiles. Estas casillas se eliminarán de los modelos loglineales a estimar y se obtendrán las estimaciones MV de las restantes casillas. Esta estrategia equivale a tratar estas casillas como ceros estructurales, por lo que los grados de libertad de la tabla vendrán dados por el número total de casillas de la misma menos - 327 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 4 NIVEL DE INGRESOS STATUS ECONOMICO Trabajador Desempleado Ingresos bajos No activo económicamente Jubilado o pensionista Trabajador Desempleado Ingresos medios No activo económicamente Jubilado o pensionista Trabajador Desempleado Ingresos altos No activo económicamente Jubilado o pensionista Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total - 328 - PROPENSIÓN A VIAJAR Sí viaja No viaja 84 45 164 96 47 22 295 163 22 17 51 52 20 21 93 90 62 55 117 91 54 34 233 180 173 124 56 45 6 11 235 180 103 12 259 67 69 22 431 101 6 0 36 11 8 10 50 21 15 1 90 25 56 18 161 44 41 7 21 8 7 2 69 17 32 2 117 8 39 4 188 14 2 0 3 0 5 0 10 0 3 0 26 4 17 0 46 4 1 1 2 0 3 0 6 1 Total 129 260 69 458 39 103 41 183 117 208 88 413 297 101 17 415 115 326 91 532 6 47 18 71 16 115 74 205 48 29 9 86 34 125 43 202 2 3 5 10 3 30 17 50 2 2 3 7 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ el número de ceros aleatorios. En nuestro caso, los grados de libertad de la tabla serán 64. En consecuencia, los grados de libertad de los modelos log-lineales que se estimen a partir de los datos recogidos en la anterior tabla de contingencia estarán minorados en 8, como consecuencia de la pérdida de grados de libertad que se produce cuando no hay información disponible sobre determinados parámetros. Alertamos, en cualquier caso, contra la práctica generalizada de añadir una constante a todas las casillas de la tabla para resolver este problema. La primera parte del análisis consistirá, como en el caso anterior, en calcular las principales medidas de asociación de las tres tablas marginales IxJ resultantes de cruzar la variable “propensión a viajar” con el “nivel de ingresos”, el “status económico” y el “número de miembros”, respectivamente. Los valores que arrojaron estas medidas se muestran en la Tabla 5. Lo más significativo de los valores de esta tabla es que los tests χ 2 de Pearson y razón de verosimilitud permiten aceptar a un nivel de significación del 5 % la hipótesis de independencia entre la propensión a viajar y el número de miembros del hogar familiar, lo que nos conduce a afirmar que la inclinación a viajar de un individuo será la misma sea cual sea el número de miembros que posea la familia a la que pertenezca. Esta hipótesis de independencia queda también plenamente confirmada a través de los - 329 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ demás coeficientes calculados, ya que todos arrojan valores lo suficientemente próximos a cero como para admitir la citada hipótesis. Tabla 5 Variable dependiente: Propensión a viajar (V) NIVEL DE INGRESOS (I) 2 197,579 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 217,810 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,274 Coeficiente de contingencia 0,264 Test V de Cràmer 0,274 Coeficiente τ! V i de 0,075 Kruskal-Goodman para i = I, S, N Coeficiente de incertidumbre U!V i 0,067 STATUS ECONÓMICO (S) 66,121 3 0,0000 NUMERO DE MIEMBROS (N) 1,595 2 0,4504 66,430 3 0,0000 0,158 0,157 0,158 1,587 2 0,4523 0,025 0,025 0,025 0,025 0,001 0,020 0,000 para i = I, S, N Por el contrario, parece dedudirse una clara asociación entre la propensión a viajar y el nivel de ingresos, por un lado, y entre la propensión a viajar y el status económico, por otro lado; siendo, en cualquier caso, y a tenor de los valores de los coeficientes, más intensa esta asociación entre las dos primeras variables que entre las dos segundas. - 330 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Para seleccionar el modelo log-lineal que mejor explica la relación entre estas cuatro variables, se procederá a eliminar cada uno de los efectos de interacción de segundo orden del modelo saturado, obteniéndose los siguientes resultados: Modelo VSI, NSI VNI, NSI VNS, NSI VNI, VSI VNS, VSI VNS, VNI Efecto eliminado VN VS VI NS NI SI g.l. 17 19 16 29 25 28 Diferencia de verosimilitud entre cada modelo y el modelo saturado p p G2 X2 0,0952 24,98 0,0737 26,04 0,0139 35,01 0,0336 31,72 0,0000 147,19 0,0000 159,45 0,0000 395,45 0,0000 389,99 0,0000 118,53 0,0000 110,50 0,0000 250,00 0,0000 261,80 Confirmando los comentarios anteriores, el efecto VN es el menos significativo de todos, razón que llevará a su eliminación del modelo saturado. La supresión del efecto VN equivale a aceptar la independencia ( condicionada o no ) entre las variables “propensión a viajar” y “número de miembros del hogar familiar”. En el siguiente paso, contrastaremos el modelo base VSI, NSI contra los cinco modelos gráficos resultantes de eliminar cada efecto de segundo orden del anterior modelo base. De esta forma, se podrá comprobar si existe algún otro efecto no significativo. Los resultados obtenidos fueron los siguientes: Modelo base: [VSI]][NSI]] G 2 = 26,04 17 g.l. Modelo NSI, VI VS, VI, NS, NI VSI, NS VSI, NI NSI, VS Diferencia de verosimilitud entre cada modelo y el modelo base g.l. p G2 0,0049 21,99 8 0,0000 263,65 23 0,0000 92,14 16 0,0000 376,89 18 0,0000 141,45 7 Efecto eliminado VS SI NI NS VI - 331 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Los valores de p confirman que no procede eliminar ningún otro efecto del modelo VSI, NSI a un nivel de significación del 5 %, por lo que podemos concluir que el mejor modelo gráfico es precisamente VSI, NSI, cuya representación gráfica es la siguiente: V N S I En cualquier caso, estimaremos otros modelos no gráficos asociados al anterior, al objeto de verificar si alguno de estos contribuyera a mejorar el ajuste del modelo inicialmente seleccionado. De esta forma, el valor del test G 2 , los coeficientes de determinación y el valor del criterio de información de Akaike para los modelos no gráficos VSI, NS, NI; NSI, VS, VI y VS, VI, SI, NS, NI ( que son los tres modelos no gráficos asociados al anterior modelo gráfico ) se muestran en el cuadro siguiente: Modelo VSI, NSI VSI, NS, NI NSI, VS, VI VS, VI, SI, NS, NI V, N, S, I g.l. 17 29 22 34 55 G2 26,04 54,97 30,21 58,15 1.068,99 p 0,0737 0,0025 0,1136 0,0061 0,0000 R2 0,975641 0,948578 0,971740 0,945603 0,000000 R2 0,921190 0,902475 0,929349 0,912005 0,000000 AX − q - 7,96 - 3,03 - 13,79 - 9,85 968,99 En este caso concreto, el modelo no gráfico NSI, VS, VI no sólo presenta un mejor ajuste a los datos que el modelo gráfico VSI, NSI, sino que además tanto el coeficiente de determinación ajustado como el criterio de información de Akaike de - 332 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ aquel son mejores que los de éste. Todos los indicios apuntan, pues, a optar por el modelo no gráfico NSI, VS, VI en detrimento del modelo gráfico VSI, NSI. La interpretabilidad del modelo no gráfico anterior no cambia sustancialmente, ya que la única diferencia entre los dos modelos considerados es que en el modelo no gráfico se excluye el efecto de interacción de tercer orden τVSI ikl que, por el contrario, aparece en el modelo gráfico. Pero la interpretación del modelo NSI, VS, VI es similar a la del modelo VSI, NSI, ya que ambos modelos significan que la propensión a viajar está condicionada por el status económico y por el nivel de ingresos del individuo, pero es condicionalmente independiente del número de miembros del hogar familiar. En otros términos, la preferencia del modelo NSI, VS, VI sobre el modelo VSI, NSI implica la aceptación de que todos los efectos de interacción τVSI ikl ( i = 1, 2; k = 1, 2, 3, 4; l = 1, 2, 3 ) son iguales a cero. Para confirmar la veracidad de esta hipótesis, llevaremos a cabo el siguiente contraste: H 0 : τVSI ikl = 0 ∀ i , k , l. H1: τVSI ikl ≠ 0 Para ello, simplemente habría que contrastar el modelo NSI, VS, VI contra el modelo VSI, NSI, para lo cual se obtendrán las diferencias en verosimilitud y en grados de libertad de ambos modelos: G 2 (NSI, VS, VI NSI, VSI) = G 2 (NSI, VS,VI) − G 2 (NSI, VSI ) = 30,21 − 26,04 = 4,17 - 333 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ g.l.(NSI, VS, VI) − g.l.(NSI, VSI) = 22 − 17 = 5 El valor 4,17 es un valor de una variable χ52 que deja a su derecha una probabilidad acumulada de p = 0,5252. Puesto que p > α, no se podrá rechazar la hipótesis nula a un nivel de significación del 5 %. En consecuencia, se puede admitir que los efectos de interacción τVSI ikl son todos nulos. De esta forma, el modelo seleccionado puede sintetizarse en el cuadro que se muestra a continuación: Mejor modelo: NSI, VS, VI 22 g.l. Valor de G 2 = 30,21 ( p = 0,1136 ) Valor de χ 2 = 30,89 ( p = 0,0985 ) Representación gráfica: V N S I Modelo NO gráfico Modelo NO descomponible Coeficiente de determinación: R 2 = 0,971740 Coeficiente de determinación ajustado: R 2 = 0,929349 Criterio de información de Akaike: AX − q = - 13,79 Tras seleccionar el modelo, procederemos seguidamente a estimar sus VI parámetros. Especial interés tienen las estimaciones de los parámetros τVS ik y τ il , puesto - 334 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ que representan la asociación entre la propensión a viajar y las dos variables explicativas de las que depende: el status económico y el nivel de ingresos. Las estimaciones de los efectos de interacción τVS ik ( véase también el Gráfico 2.A ) han sido las siguientes: Status económico Trabajador Propensión a viajar Sí viaja No viaja 0,147 - 0,147 - 0,149 0,149 No activo económicamente 0,000(*) 0,000(*) Jubilado/pensionista 0,002(*) - 0,002(*) Desempleado (*) No significativos a un 5 % ( véase la nota nº 9 ). La estimaciones anteriores ponen de manifiesto la influencia que el status económico del individuo tiene en su tendencia a viajar. Se observa claramente que aquellos que trabajan viajan mucho más que el resto de individuos, y que los efectos de interacción correspondientes a las categorías “no activo económicamente” y “jubilado/pensionista” no son estadísticamente significativos a un 5 %, por lo que no es posible determinar si los sujetos pertenecientes a estos dos status viajan o no lo hacen. Por su parte, las estimaciones máximo-verosímiles de los efectos τ VI ( que il figuran representadas también en el Gráfico 2.A han sido las que se muestran en la página siguiente. Como era previsible, se detecta una clara asociación entre el acto de viajar y el nivel de ingresos del que viaja. Así, a mayor nivel de ingresos, mayor propensión a viajar, ya que los individuos con ingresos altos viajan más de lo que cabría - 335 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ esperar en el supuesto de independencia entre las dos variables analizadas, mientras que los sujetos con ingresos bajos viajan menos de lo esperado en caso de independencia. Por su parte, los efectos de interacción entre la propensión a viajar y la categoría “ingresos medios” no son significativos a un 5 %. Nivel de ingresos Ingresos bajos (*) Propensión a viajar Sí viaja No viaja - 0,470 0,470 Ingresos medios - 0,008(*) Ingresos altos 0,478 0,008(*) - 0,478 No significativos a un 5 %. La última fase del análisis empírico consistirá en estimar las probabilidades asociadas al acto de viajar condicionadas a la pertenencia del entrevistado a una categoría determinada de las tres variables explicativas consideradas. Gracias a la modelización logit, se han calculado las probabilidades estimadas recogidas en la Tabla 6, en la que se puede observar que la propensión a viajar es la misma sea cual sea el número de miembros de la unidad familiar, siendo el nivel de ingresos y el status económico las variables que condicionan el acto de viajar. Así, los trabajadores con un nivel elevado de ingresos tienen una probabilidad muy alta de - 336 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 2.A Asociación entre las categorías de la variable “propensión a viajar” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden11 ) INTERACCION "Propensión a viajar" y "Nivel de ingresos" -0,47 Sí viaja -0,008 No viaja 0,478 Ingresos bajos Ingresos medios (NS) Ingresos altos INTERACCION "Propensión a viajar" y "Status económico" 0,147 -0,149 No viaja Sí viaja 0 0,002 Trabajador Desempleado No activo (NS) Jubilado/pensionista (NS) Gráfico 2.B Diferencias en la probabilidad de “viajar” ( logit: Sí viaja vs No viaja ) en función del nivel de ingresos y del status económico con independencia del número de miembros del hogar familiar Trabajador Desempleado No activo Jubilado/pensionista 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ingresos bajos Ingresos medios 11 Ingresos altos En aquellas categorías de las variables explicativas en las que el efecto de interacción con la variable respuesta no sea significativo al 5 %, se hará constar tal circunstancia con las letras NS. - 337 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ viajar, que se sitúa en un 92,20 %. En el extremo opuesto se sitúan los desempleados con ingresos bajos, cuya probabilidad de viajar no llega ni siquiera a un 50 %. De la Tabla 6 se desprende también que cuanto más elevado sea el nivel de ingresos del entrevistado, mayor será también la probabilidad que éste tiene de viajar. Tabla 6 Probabilidades estimadas de “viajar” condicionadas a cada categoría de las variables explicativas Número miembros hogar familiar Familia sin hijos Familia con 1 o 2 hijos Familia numerosa Status económico Trabajador Desempleado No activo Jubilado/pensionista Trabajador Desempleado No activo Jubilado/pensionista Trabajador Desempleado No activo Jubilado/pensionista Bajos 0,6397 0,4955 0,5695 0,5705 0,6397 0,4955 0,5695 0,5705 0,6397 0,4955 0,5695 0,5705 Nivel de ingresos Medios 0,8173 0,7122 0,7692 0,7699 0,8173 0,7122 0,7692 0,7699 0,8173 0,7122 0,7692 0,7699 Altos 0,9220 0,8674 0,8980 0,8984 0,9220 0,8674 0,8980 0,8984 0,9220 0,8674 0,8980 0,8984 Así pues, el análisis logarítmico-lineal y la modelización logit para variables categóricas nos ha permitido obtener las siguientes conclusiones sobre la propensión a viajar, que difícilmente podrían haberse alcanzado mediante un simple estudio descriptivo de la información disponible: 1º) La tendencia a viajar de los españoles es condicionalmente independiente de su edad, una vez fijada una categoría determinada tanto del nivel de estudios como del tamaño del hábitat. - 338 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 2º) Se detecta la existencia de independencia condicionada entre la inclinación a viajar y el número de miembros del hogar familiar cuando se considera un nivel concreto del “status económico” y del “nivel de ingresos” del entrevistado. 3º) Los españoles que tienen una mayor probabilidad de viajar son los que residen en grandes ciudades y poseen estudios superiores, por un lado, y los que trabajan y poseen unos niveles elevados de ingresos, por otro lado. 4º) La probabilidad de viajar de los españoles sin instrucción o con estudios primarios y residentes en pequeñas ciudades se cifra únicamente en un 51 %. En valores muy similares ( 49,55 % ) se sitúan aquellos que están desempleados y perciben ingresos bajos. Estos colectivos son los que, con diferencia, menos salen de vacaciones. Como síntesis de lo expuesto sobre el análisis de esta primera variable turística y combinando los dos grupos de variables explicativas, podríamos llegar a definir un perfil general de los españoles que viajan y de aquellos que no lo hacen. Este perfil ha sido posible gracias a la metodología logarítmico-lineal y es el que se reproduce en la página siguiente: - 339 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Perfil del español que viaja Perfil del español que no viaja a) Según el tamaño del hábitat: a) Según el tamaño del hábitat: 1º) Residentes en una ciudad pequeña (0,178) 1º) Residentes en una ciudad grande (0,093) 2º) Residentes de una ciudad mediana (0,085) b) Según su nivel de estudios: 1º) Con estudios superiores (0,198) 2º) Con estudios secundarios (0,120) b) Según su nivel de estudios: 1º) Con estudios primarios (0,318) c) Según su nivel de ingresos: 1º) Con ingresos altos (0,478) c) Según su nivel de ingresos: 1º) Con ingresos bajos (0,470) d) Según su status económico: 1º) Trabajadores (0,147) d) Según su status económico: 1º) Desempleados (0,149) Probabilidades máximas de viajar: Probabilidades máximas de no viajar: Grupo A: Grupo A: 1º) Residentes en ciudades medianas y con 1º) Residentes en ciudades pequeñas, sin instrucción/con estudios primarios ( 48,95 % ) estudios superiores ( 84,71 % ) 2º) Residentes en ciudades grandes y con 2º) Residentes en ciudades medianas, sin instrucción/con estudios primarios ( 31,52 % ) estudios superiores ( 84,50 % ) 3º) Residentes en ciudades medianas y con 3º) Residentes en ciudades grandes, sin instrucción/con estudios primarios ( 29,82 % ) estudios secundarios ( 83,26 % ) Grupo B: 1º) Trabajadores con ingresos altos ( 92,20 % ) 2º) Jubilados o pensionistas con ingresos altos ( 89,84 % ) 3º) No activos económicamente con ingresos altos ( 89,80 % ) Grupo B: 1º) Desempleados con ingresos bajos ( 50,45 % ) 2º) No activos económicamente con ingresos bajos ( 43,05 % ) 3º) Jubilados o pensionistas con ingresos bajos ( 42,95 % ) b) DESTINO TURÍSTICO. Para el análisis de las restantes variables turísticas se considerará la submuestra “van de vacaciones”, consistente en un total de 2.581 encuestas. Como en el análisis de la propensión a viajar, de este total deberán eliminarse aquellas encuestas en las que el entrevistado no manifieste su opinión ( no sabe o no contesta ) respecto a las variables involucradas en el análisis. - 340 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Por otra parte, dado que el proceso de selección y el cálculo de las probabilidades estimadas es idéntico en todos los casos, obviaremos los pasos seguidos y nos limitaremos a reflejar en el Anexo 1 los datos más relevante de los modelos estimados, para centrar nuestra atención en la interpretación de resultados y en la elaboración de conclusiones. Grupo A de variables ( D, H, E, S ): El modelo óptimo, en este caso, es SEH, DS, que indica que el destino turístico sólo depende de forma directa del nivel de estudios de los turistas. Las estimaciones de los parámetros τijDS ( véase el Gráfico 3.A ) ponen claramente de manifiesto que mientras los turistas sin instrucción o que sólo poseen estudios primarios se inclinan más a quedarse en España a pasar sus vacaciones, los turistas con estudios superiores prefieren, generalmente, viajar al extranjero. Por su parte, las variables edad y tamaño del hábitat son condicionalmente independientes del destino turístico, dada la variable nivel de estudios. Las probabilidades calculadas mediante la modelización logit señalan que, con independencia de la edad del turista y del tamaño del hábitat en el que resida, cuanto menor sea el nivel educativo del turista mayor será la probabilidad de que no salga al extranjero a pasar sus vacaciones ( Gráfico 3.B ). En concreto, se estima en un 94,63 % la probabilidad de que los individuos sin instrucción o con estudios primarios pasen sus - 341 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 3.A Asociación entre las categorías de la variable “destino turístico” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Destino turístico" y "Nivel de estudios" 0,289 Extranjero España 0,092 -0,381 Sin/sólo est. primarios Con est. secundarios Con est. superiores Gráfico 3.B Diferencias en la probabilidad de “pasar las vacaciones en España” ( logit: España vs Extranjero ) en función del nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores 0% 10% 20% 30% 40% 50% 60% Probabilidad - 342 - 70% 80% 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ vacaciones en España, mientras que esta probabilidad es de un 92,24 % para aquellos que poseen estudios secundarios y de un 82,20 % para los turistas que poseen estudios superiores. Grupo B de variables ( D, I, T, N ): El destino turístico está condicionado tanto por el número de miembros del hogar familiar como por el nivel de ingresos del turista, ya que el modelo que mejor explica la asociacion entre las variables de este grupo es el modelo gráfico DNI, NTI. Este modelo también confirma que no existen diferencias significativas entre viajar dentro de España y hacerlo por el extranjero cuando la variable considerada es la temporada vacacional. Las estimaciones del modelo seleccionado ( Gráfico 4.A ) revelan que las familias sin hijos son las que más viajan al extranjero, mientras que las familias numerosas se inclinan claramente a pasar sus vacaciones en territorio español. De forma similar, el nivel de ingresos condiciona de forma sustancial el destino turístico, ya que mientras los entrevistados con ingresos medios o bajos viajan más por territorio nacional, se detecta una significativa tendencia a salir al extranjero por parte de aquellos que poseen niveles elevados de ingresos. Estas relaciones quedan plenamente confirmadas con el análisis de las probabilidades estimadas de pasar las vacaciones en España condicionadas a las - 343 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 4.A Asociación entre las categorías de la variable “destino turístico” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Destino turístico" y "Nivel de ingresos" 0,266 0,253 Extranjero España -0,519 Ingresos bajos Ingresos medios Ingresos altos INTERACCION "Destino turístico" y "Numero de miembros del hogar familiar" -0,373 España 0,061 Extranjero 0,312 Familia sin hijos Familia con 1-2 hijos Familia numerosa Gráfico 4.B Diferencias en la probabilidad de “pasar las vacaciones en España” ( logit: España vs Extranjero ) en función del nivel de ingresos y del número de miembros del hogar familiar con independencia de la temporada vacacional Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Probabilidad Ingresos bajos Ingresos medios - 344 - Ingresos altos 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ variables estadísticamente significativas del modelo DNI, NTI, esto es, al nivel de ingresos y al número de miembros de la familia. Así, la probabilidad de quedarse en España es muy elevada en todos los casos ( véase el Gráfico 4.B ), pero muy especialmente entre las familias numerosas con ingresos medios ( 98,23 % ) y las familias numerosas con ingresos bajos ( 96,39 % ). Por el contrario, son las familias sin hijos con ingresos elevados las que poseen una mayor probabilidad de viajar al extranjero ( 38,70 % ), seguidas a gran distancia de las familias numerosas cuyos ingresos son elevados ( 18,18 % ). A partir de los Gráficos 3.A, 3.B, 4.A y 4.B y de los demás datos relativos al destino turístico recogidos en el Anexo 1, podemos concluir el análisis de esta variable ofreciendo un perfil aproximado del turista español que viaja por territorio nacional y del que sale al extranjero de vacaciones, y que se recoge en el cuadro de la página siguiente: - 345 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Perfil del turista que viaja por España Perfil del turista que sale al extranjero a) Según su nivel de estudios: 1º) Sin/sólo estudios primarios (0,289) 2º) Con estudios secundarios (0,092) a) Según su nivel de estudios: 1º) Con estudios superiores (0,381) b) Según su nivel de ingresos: 1º) Con ingresos bajos (0,266) 2º) Con ingresos medios (0,253) b) Según su nivel de ingresos: 1º) Con ingresos altos (0,519) c) Según el número de miembros de la familia: c) Según el número de miembros de la familia: 1º) Familias sin hijos (0,373) 1º) Familias numerosas (0,312) 2º) Familias con 1-2 hijos ( 0,061 ) Probabilidades máximas de viajar por España: Probabilidades máximas de salir al extranjero: Grupo A: Grupo A: 1º) Turistas sin instrucción o con estudios 1º) Turistas con estudios superiores ( 17,80 % ) primarios ( 94,63 % ) Grupo B: 1º) Familias numerosas con ingresos medios ( 98,23 % ) 2º) Familias numerosas con ingresos bajos ( 96,39 % ) Grupo B: 1º) Familias sin hijos con ingresos altos ( 38,70 % ) 2º) Familias sin hijos con ingresos medios ( 15,63 % ) c) LUGAR DE VACACIONES. Grupo A de variables ( L, H, E, S ): En este caso, el mejor modelo log-lineal es LSH, SEH. Este modelo gráfico desvela que el lugar en el que el turista pasa sus vacaciones está influenciado por su nivel de estudios y por el tamaño del hábitat en el que reside. Sin embargo, la edad no es un factor que discrimine de forma significativa el lugar elegido para pasar las vacaciones. Se puede afirmar que los turistas con estudios superiores son los que más se - 346 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 5.A Asociación entre las categorías de la variable “lugar de vacaciones” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Lugar de vacaciones" y "Tamaño del hábitat" 0,113 Interior Costa -0,062 -0,051 Ciudad pequeña Ciudad mediana Ciudad grande INTERACCION "Lugar de vacaciones" y "Nivel de estudios" -0,071 Costa -0,007 Interior 0,077 Sin/sólo est. primarios Con est. secundarios (NS) Con est. superiores Gráfico 5.B Diferencias en la probabilidad de “pasar las vacaciones en la costa” ( logit: Costa vs Interior ) en función del tamaño del hábitat y del nivel de estudios con independencia de la edad Sin/sólo est. primarios Con est. secundarios Con est. superiores 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Probabilidad Ciudad pequeña Ciudad mediana - 347 - Ciudad grande 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ inclinan a viajar a la costa, mientras que los que poseen estudios primarios manifiestan una mayor inclinación hacia el interior ( véase el Gráfico 5.A ). Además, los turistas que residen en ciudades pequeñas se manifiestan claramente partidarios de pasar sus vacaciones en la costa, mientras que aquellos que residen en ciudades que superan los 100.000 habitantes manifiestan su preferencia por el interior. En este sentido, las estimaciones de los parámetros τilLH confirman la tendencia, iniciada en los últimos años, hacia un mayor desarrollo del turismo de interior en perjuicio del turismo de costa, especialmente en las ciudades con mayor población. Si se comparan las probabilidades estimadas de disfrutar las vacaciones en la costa con las de hacerlo en el interior ( Gráfico 5.B ), se podrá observar que no existen diferencias acusadas entre las distintas categorías de las dos variables que influyen sobre la elección del lugar de vacaciones, es decir, el tamaño del hábitat y el nivel de estudios. Así, la mayor probabilidad de pasar el período vacacional en la costa corresponde a los que residen en ciudades pequeñas y se cifra en torno a un 66 %, siendo esta probabilidad muy parecida en los tres niveles de estudios considerados en el análisis. En el caso de ciudades medianas y de ciudades grandes sí es posible apreciar diferencias más importantes. Así, mientras en las mesópolis los turistas sin instrucción o sólo con estudios primarios tienen un 53,54 % de probabilidad de preferir la costa, esta probabilidad se eleva a un 65 % para los turistas con estudios superiores que residen en ciudades que superan los 400.000 habitantes. - 348 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Grupo B de variables ( L, I, T, N ): Al relacionar el lugar de vacaciones con el nivel de ingresos, con la temporada vacacional y con el número de miembros del hogar familiar, se puede concluir que el modelo más adecuado para estudiar estas asociaciones es el modelo NT, NI, TI, LI. La interpretación de este modelo nos lleva a concluir que el lugar elegido por el turista para pasar sus vacaciones sólo depende directamente de su nivel de ingresos, ya que la temporada vacacional y el número de miembros que integran la unidad familiar son condicionalmente independientes del lugar de vacaciones. En virtud de ello, se puede afirmar que, entre los turistas cuyos ingresos mensuales superan las 400.000 pesetas, la elección costa/interior se realizará con independencia de que se esté en temporada alta o en temporada baja y de que el número de miembros de la unidad familiar sea mayor o sea menor. Esto mismo ocurrirá tanto con los turistas que poseen ingresos medios como con aquellos cuyos ingresos mensuales no llegan a las 100.000 pesetas. Los efectos de interacción estimados entre las variables “lugar de vacaciones” y “nivel de ingresos” ( Gráfico 6.A ) desvelan que son los turistas con ingresos medios los que más se inclinan por la costa, mientras que los que poseen los ingresos más bajos prefieren pasar sus vacaciones en el interior. Estas relaciones pueden cuantificarse mediante las correspondientes probabilidades estimadas ( representadas en el Gráfico 6.B ), de manera que los turistas con ingresos medios poseen una probabilidad algo superior al 65 % de pasar las vacaciones en la costa, mientras que para los turistas con ingresos bajos esta probabilidad no alcanza siquiera un 56 %. - 349 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 6.A Asociación entre las categorías de la variable “lugar de vacaciones” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Lugar de vacaciones" y "Nivel de ingresos" -0,117 Interior 0,082 Costa 0,035 Ingresos bajos Ingresos medios Ingresos altos Gráfico 6.B Diferencias en la probabilidad de “pasar las vacaciones en la costa” ( logit: Costa vs Interior ) en función del nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos 0% 10% 20% 30% 40% 50% 60% Probabilidad - 350 - 70% 80% 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Los resultados obtenidos al aplicar la metodología log-lineal y logit al análisis del lugar de vacaciones puede resumirse en el cuadro siguiente, que ilustra el perfil del turista según pase sus vacaciones en la costa o en el interior: Perfil del turista que pasa sus vacaciones en la costa Perfil del turista que pasa sus vacaciones en el interior a) Según el tamaño del hábitat: a) Según el tamaño del hábitat: 1º) Residentes en una ciudad pequeña (0,113) 1º) Residentes en una ciudad mediana (0,062) 2º) Residentes en una ciudad grande (0,051) b) Según su nivel de estudios: 1º) Con estudios superiores (0,077) b) Según su nivel de estudios: 1º) Con estudios primarios (0,071) c) Según su nivel de ingresos: 1º) Con ingresos medios (0,082) 2º) Con ingresos altos (0,035) c) Según su nivel de ingresos: 1º) Con ingresos bajos (0,117) Probabilidades máximas de pasar las vacaciones en la costa: Probabilidades máximas de pasar las vacaciones en el interior: Grupo A: 1º) Residentes en ciudades pequeñas, sin instrucción/con estudios primarios ( 67,26 % ) 2º) Residentes en ciudades pequeñas, con estudios secundarios ( 66,69 % ) o con estudios superiores ( 66,46 % ). Grupo A: 1º) Residentes en ciudades grandes, sin instrucción/con estudios primarios ( 46,65 % ) 2º) Residentes en ciudades medianas, sin instrucción/con estudios primarios ( 46,46 % ) Grupo B: 1º) Turistas con ingresos medios ( 65,34 % ) Grupo B: 1º) Turistas con ingresos bajos ( 44,13 % ) - 351 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ d) TRANSPORTE EMPLEADO. Grupo A de variables ( T, H, E, S): La selección del modelo no gráfico TSE, TEH, SEH nos autoriza a afirmar que el medio de transporte utilizado por el turista desde su lugar de origen hasta su destino vacacional está condicionado tanto por el tamaño del hábitat como por el nivel de estudios y por la edad del turista. El análisis de los parámetros estimados del anterior modelo ( véase el Gráfico 7.A ) demuestra que los turistas con estudios superiores tienen una mayor inclinación al uso de medios privados de transporte, a diferencia de lo que ocurre con los turistas cuyo nivel de estudios es inferior, que prefieren optar por transportes públicos. Además, los valores estimados de los parámetros τikTE demuestran que los individuos más jóvenes y los de más edad utilizan más los transportes públicos que los privados, y que la situación contraria se produce con los turistas que tienen entre 25 y 44 años y, en menor medida, con aquellos que tienen más de 45 y menos de 65 años. Por último, los turistas residentes en las grandes urbes utilizan con más frecuencia los medios privados que los públicos. Por el contrario, son los turistas que viven en ciudades con menos de 100.000 habitantes los que con mayor habitualidad hacen uso de medios públicos de transporte. Las probabilidades estimadas ( representadas en el Gráfico 7.B ) vienen a señalar que los turistas con estudios superiores, con una edad comprendida entre los 45 y los 64 años y residentes tanto en ciudades de tamaño medio ( 84,63 % ) como en ciudades - 352 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 7.A Asociación entre las categorías de la variable “transporte empleado” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Transporte empleado" y "Tamaño del hábitat" -0,125 Privado 0,03 Público 0,095 Ciudad pequeña Ciudad mediana Ciudad grande INTERACCION "Transporte empleado" y "Edad" -0,149 0,219 Público Privado 0,155 -0,224 I. joven I.menos joven I. maduro I. anciano INTERACCION "Transporte empleado" y "Nivel de estudios" -0,016 -0,029 0,045 Público Sin/sólo est. primarios Con est. secundarios - 353 - Privado Con est. superiores Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 7.B Diferencias en la probabilidad de “utilizar transporte privado” ( logit: Privado vs Público ) en función del tamaño del hábitat, de la edad y del nivel de estudios A) Sin instrucción o sólo con estudios primarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande B) Con estudios secundarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande C) Con estudios superiores: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana - 354 - Ciudad grande Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ grandes ( 83,06 % ); y los turistas sin instrucción o con estudios primarios, que tienen entre 25 y 44 años y que residen tanto en ciudades pequeñas ( 83,70 % ) como en grandes ciudades ( 82,26 % ) son los que poseen las probabilidades más elevadas de utilizar un medio de transporte privado para desplazarse de su residencia habitual a su lugar de vacaciones. Por el contrario, los que mayor probabilidad tienen de utilizar el transporte público son los turistas mayores de 65 años, residentes en ciudades con menos de 100.000 habitantes, tanto sin instrucción o con estudios primarios ( 64,52 % ) como con estudios secundarios ( 60,68 % ). Grupo B de variables ( T, I, E, N ): La elección del medio de transporte también está condicionada por las tres variables explicativas consideradas en este segundo grupo. A la vista de las estimaciones de los parámetros del modelo óptimo ( TNE, TEI, NEI ), representadas en el Gráfico 8.A, se pueden efectuar los comentarios siguientes: - Los turistas con ingresos medios son los que recurren más al automóvil particular que a otros medios de transporte, mientras que los turistas con ingresos inferiores a 100.000 pesetas emplean con más frecuencia los transportes públicos. - 355 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 8.A Asociación entre las categorías de la variable “transporte empleado” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Transporte empleado" y "Nivel de ingresos" -0,171 0,171 Público Privado 0 Ingresos bajos Ingresos medios Ingresos altos (NS) INTERACCION "Transporte empleado" y "Temporada vacacional" Público 0,246 -0,246 Privado Temporada alta Temporada baja INTERACCION "Transporte empleado" y "Numero de miembros del hogar familiar" -0,18 0,23 Público Familia sin hijos Privado -0,051 Familia con 1-2 hijos - 356 - Familia numerosa Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 8.B Diferencias en la probabilidad de “utilizar transporte privado” ( logit: Privado vs Público ) en función del nivel de ingresos, de la temporada vacacional y del número de miembros del hogar familiar A) Familia sin hijos: Temporada alta Temporada baja 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ingresos bajos Ingresos medios Ingresos altos B) Familia con 1-2 hijos: Temporada alta Temporada baja 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ingresos bajos Ingresos medios Ingresos altos C) Familia numerosa: Temporada alta Temporada baja 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ingresos bajos Ingresos medios - 357 - Ingresos altos Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Durante los meses de Julio y Agosto el turista utiliza más frecuentemente el coche como medio de transporte que fuera de estos dos meses, ya que en temporada baja el nivel de utilización de los medios públicos de transporte es considerablemente mayor que durante la temporada alta. - Entre las familias compuestas por 3 o 4 miembros se detecta una clara preferencia por los medios privados de transporte, a diferencia de las familias sin hijos y de las familias numerosas, que se desplazan con más frecuencia con medios de transporte públicos. Para finalizar este análisis del medio de transporte empleado, podemos decir que los turistas con un nivel medio de ingresos y que viajan en temporada alta son los que poseen la mayor probabilidad de viajar en automóvil ( Gráfico 8.B ), la cual se cifra en un 84,53 % para las familias con 1 o 2 hijos; en un 82,78 % para las familias numerosas; y en un 74,15 % para las familias sin hijos. Por el contrario, las mayores probabilidades de utilizar medios de transporte privados se registran en temporada baja entre los turistas con ingresos más bajos, tanto en el caso de que la familia a la que pertenece el turista sea numerosa como en el supuesto de que se trate de una familia sin hijos. En ambos casos, esta probabilidad estimada se cifra en un 66,83 %. - 358 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Como síntesis de lo recogido en los Gráficos 7.A, 7.B, 8.A y 8.B, el siguiente cuadro muestra los aspectos más relevantes del perfil del turista según utilice su vehículo particular o medios públicos de transporte: Perfil del turista que utiliza medios de transporte privados Perfil del turista que utiliza medios de transporte públicos a) Según el tamaño del hábitat: a) Según el tamaño del hábitat: 1º) Residentes en una ciudad pequeña (0,125) 1º) Residentes en una ciudad grande (0,095) 2º) Residentes de una ciudad mediana (0,030) b) Según la edad del turista: 1º) Con edad entre 25 y 44 años (0,219) 2º) Con edad entre 45 y 64 años (0,155) b) Según la edad del turista: 1º) Con 65 años o más (0,224) 2º) Con 24 años o menos (0,149) c) Según su nivel de estudios: 1º) Con estudios superiores (0,045) c) Según su nivel de estudios: 1º) Con estudios secundarios (0,029) 2º) Sin/sólo estudios primarios (0,016 ) d) Según su nivel de ingresos: 1º) Con ingresos medios (0,171) d) Según su nivel de ingresos: 1º) Con ingresos bajos (0,171) e) Según la temporada vacacional: 1º) En temporada alta (0,246) e) Según la temporada vacacional: 1º) En temporada baja (0,246) f) Según el número de miembros de la familia: 1º) Familias con 1-2 hijos (0,230) f) Según el número de miembros de la familia: 1º) Familias sin hijos (0,180) 2º) Familias numerosas (0,051) Probabilidades máximas de utilizar medios de Probabilidades máximas de utilizar medios de transporte privados: transporte públicos: Grupo A: 1º) Residentes en ciudades medianas, con estudios superiores y con una edad comprendida entre 45 y 64 años ( 84,63 % ) 2º) Residentes en ciudades pequeñas, sin instrucción/con estudios primarios y con una edad comprendida entre 25 y 44 años ( 83,70 % ) Grupo A: 1º) Residentes en ciudades pequeñas, sin instrucción/con estudios primarios y con 65 años o más ( 64,52 % ) 2º) Residentes en ciudades pequeñas, con estudios secundarios y con 65 años o más ( 60,68 % ) Grupo B: 1º) Familias con 1-2 hijos, con ingresos medios y en temporada alta ( 84,53 % ) 2º) Familias numerosas, con ingresos medios y en temporada alta ( 82,78 % ) Grupo B: 1º) Familias sin hijos o numerosas, con ingresos bajos y en temporada baja ( 66,83 % ) 2º) Familias sin hijos o numerosas, con ingresos altos y en temporada baja ( 51,70 % ) - 359 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ e) ALOJAMIENTO EMPLEADO. Grupo A de variables ( A, H, E, S): En esta ocasión, el modelo que mejor explica la asociación entre estas cuatro variables es el modelo gráfico ASE, ASH, que determina que el tipo de alojamiento elegido por el turista durante su período vacacional está condicionado por las tres variables explicativas restantes. Así, y en primer lugar, el nivel de estudios del turista determina la elección de un determinado tipo de alojamiento, tal y como evidencian las estimaciones de los parámetros τijAS ( véase el Gráfico 9.A ). De acuerdo con estas estimaciones, los turistas que no tienen instrucción o que sólo poseen estudios primarios se muestran partidarios de los alojamientos privados. Más acusada es aún la tendencia de los turistas con estudios secundarios hacia otros alojamientos colectivos. Finalmente, los turistas con estudios superiores hacen uso de forma casi indistinta de alojamientos hoteleros y de alojamientos privados, si bien se inclinan ligeramente hacia estos últimos. En segundo lugar, la elección del alojamiento también está condicionada por la edad. Así, los menores de 24 años manifiestan su inclinación hacia otros alojamientos colectivos, mientras que los turistas que tienen entre 25 y 44 años prefieren tanto alojamientos hoteleros como otros alojamientos colectivos, aunque con una ligera inclinación hacia los primeros. Por último, los turistas cuya edad está comprendida en el rango 45-64 años y aquellos otros que superan los 65 años muestran unas preferencias - 360 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 9.A Asociación entre las categorías de la variable “alojamiento empleado” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Alojamiento empleado” y “Tamaño del hábitat” Ciudad mediana Ciudad pequeña Ciudad grande Hotelero (0,064) Hotelero (0,007) (NS) Colectivo (0,158) Privado (0,027) Privado (0,195) INTERACCION “Alojamiento empleado” y “Edad” Individuo joven Individuo menos joven Individuo maduro Individuo anciano Colectivo (0,485) Hotelero (0,070) Hotelero (0,229) Hotelero (0,210) Privado (0,025) Colectivo (0,058) Privado (0,050) Privado (0,054) INTERACCION “Alojamiento empleado” y “Nivel de estudios” Sin/sólo estudios primarios Con estudios secundarios Colectivo (0,123) Privado (0,027) Con estudios superiores Hotelero (0,043) Privado (0,055) - 361 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ muy similares, ya que optan por alojamientos hoteleros, en primer lugar, y por alojamientos privados, en segundo lugar. En tercer lugar, el tamaño del hábitat es otro factor que ayuda a explicar la mayor o menor inclinación de los turistas hacia un determinado tipo de alojamiento. Las estimaciones de los parámetros asociados a estas dos dos variables evidencian que los residentes en ciudades pequeñas se muestran partidarios de otros alojamientos colectivos y, en bastante menor medida, de alojamientos hoteleros. Por su parte, los turistas que residen en grandes ciudades manifiestan una fuerte tendencia hacia los alojamientos privados, circunstancia que se observa también entre los residentes en ciudades de tamaño medio, aunque de una forma mucho menos acusada. Cuando en un modelo logit la variable respuesta posee más de dos categorías, como ocurre en este caso con la variable “alojamiento empleado”, el cálculo de las probabilidades condicionadas puede realizarse desde distintas ópticas, en función de la categoría de la variable respuesta que se tome como referencia. De todas las posibles combinaciones, hemos optado por comparar cada una de las dos primeras categorías de la variable “alojamiento empleado” con la tercera categoría. Surgen de esta forma dos tablas de probabilidades condicionadas ( que se recogen en el Anexo 1 ): una primera tabla obtenida al comparar los alojamientos hoteleros con los alojamientos privados; y una segunda tabla, resultante de la comparación entre otros alojamientos colectivos y los alojamientos privados. De aquí que los comentarios derivados de este análisis deban hacer referencia a ambas tablas. Este mismo procedimiento es el que se ha empleado - 362 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ para el cálculo de probabilidades condicionadas asociadas a las variables turísticas “duración del viaje” y “forma de viajar”, que serán analizadas con posterioridad. Del análisis comparativo entre alojamientos hoteleros y alojamientos privados se desprende, en virtud del Gráfico 9.B, lo siguiente: a) La mayor preferencia por los alojamientos hoteleros corresponde a turistas con estudios secundarios, con una edad comprendida entre 45 y 64 años y residentes en ciudades con menos de 100.000 habitantes. La probabilidad estimada de utilizar alojamientos hoteleros de estos individuos se cifra en un 48,75 %. Junto a ellos, también presentan una alta probabilidad de preferir alojamientos hoteleros en lugar de alojamientos privados: - Los residentes en ciudades medianas, que tienen entre 45 y 64 años y estudios secundarios ( 41,99 % ). - Los mayores de 65 años, residentes en ciudades pequeñas y sin instrucción o con estudios primarios ( 41,44 % ). b) Por el contrario, las mayores probabilidades de optar por alojamientos privados se da entre los turistas con estudios secundarios, menores de 24 años y residentes en grandes ciudades ( 92,39 % ). Probabilidades de elegir alojamientos privados comprendidas entre un 81 y un 88 % se alcanzan entre los turistas menores de 24 años, sin instrucción o con estudios primarios y residentes en ciudades con más de - 363 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 9.B Diferencias en la probabilidad de “utilizar alojamientos hoteleros” ( Logit: Hotelero vs Privado ) en función del tamaño del hábitat, de la edad y del nivel de estudios A) Sin instrucción o sólo con estudios primarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande B) Con estudios secundarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande C) Con estudios superiores: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Continúa en la página siguiente ... - 364 - Ciudad grande Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 9.B ( continuación ) Diferencias en la probabilidad de “utilizar alojamientos colectivos” ( Logit: Colectivo vs Privado ) en función del tamaño del hábitat, de la edad y del nivel de estudios A) Sin instrucción o sólo con estudios primarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande B) Con estudios secundarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande C) Con estudios superiores: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana - 365 - Ciudad grande Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 100.000 habitantes ( un 81,82 % para ciudades medianas y un 82,30 % para ciudades grandes ); entre los individuos más jóvenes, con estudios superiores y residentes en grandes urbes ( 83,93 % ); y entre aquellos turistas que, siendo menores de 24 años, poseen estudios secundarios y residen en ciudades de tamaño medio ( 88,08 % ). Pasando a la comparación entre otros alojamientos colectivos y los alojamientos privados ( Gráfico 9.B ), cabe destacar principalmente que la mayoría de los entrevistados se inclina por este último tipo de alojamiento, como lo prueba el hecho de que las probabilidades estimadas no superan, en el mejor de los casos, el 25 %. Por otro lado, se observa con claridad que los residentes en grandes ciudades son los que menor probabilidad tienen de alojarse en otros establecimientos privados, circunstancia que se acusa especialmente entre los turistas con estudios superiores. Dentro de este último colectivo, se detectan ligeras diferencias en función de la edad, aunque, en cualquier caso, la probabilidad de optar por otros alojamientos colectivos en este grupo de turistas oscila entre el 3,41 % de los turistas con una edad comprendida entre los 45 y los 64 años y el 7,64 % de los turistas mayores de 65 años. En el extremo opuesto, los turistas que tienen una mayor probabilidad de hospedarse en otros alojamientos colectivos durante sus vacaciones son los de menor edad y, dentro de ellos, los residentes en ciudades pequeñas. Así, los entrevistados menores de 24 años y residentes en ciudades con menos de 100.000 habitantes tienen una probabilidad estimada de un 25,98 % de optar por alojamientos colectivos si no tienen estudios o sólo poseen estudios primarios, y de un 23,83 % si poseen estudios - 366 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ secundarios. También destaca la probabilidad de elegir alojamientos colectivos entre los turistas con estudios secundarios, entre 25 y 44 años y residentes en ciudades pequeñas, la cual se sitúa en un valor estimado del 24,92 %. Grupo B de variables ( A, I, T, N ): La elección de un determinado tipo de alojamiento depende del número de miembros que forman la unidad familiar y de la temporada vacacional, mientras que dicha elección es condicionalmente independiente del nivel de ingresos, según demuestra el modelo gráfico no descomponible AN, AT, NI, TI. Para analizar cómo condicionan las variables “número de miembros del hogar familiar” y “temporada vacacional” a la elección de alojamiento se interpretarán las estimaciones de los parámetros τijAN y τikAT , que se recogen en el Gráfico 10.A. Los valores estimados de los efectos de interacción de segundo orden τijAN ponen claramente de manifiesto que las familias sin hijos tienen una preferencia bastante acusada por los alojamientos hoteleros, mientras que las familias con hijos suelen optar más por otros tipos de alojamiento. En concreto, las familias con 1 o 2 hijos se manifiestan ligeramente partidarias de otros alojamientos colectivos, mientras que las familias numerosas se inclinan de una forma bastante más diáfana por los alojamientos privados. También la temporada vacacional introduce diferencias en la elección de un determinado tipo de alojamiento, según constatan los valores estimados de los parámetros τikAT . Durante la temporada baja, se produce una clara preferencia por los - 367 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 10.A Asociación entre las categorías de la variable “alojamiento empleado” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Alojamiento empleado” y “Temporada vacacional” Temporada alta Temporada baja Colectivo (0,148) Hotelero (0,387) Privado (0,240) INTERACCION “Alojamiento empleado” y “Número de miembros del hogar familiar” Familia con 1-2 hijos Familia sin hijos Hotelero (0,320) Familia numerosa Colectivo (0,063) Colectivo (0,054) Privado (0,056) Privado (0,147) Gráfico 10.B Diferencias en la probabilidad de “utilizar alojamientos hoteleros” ( Logit: Hotelero vs Privado ) en función de la temporada vacacional y del número de miembros del hogar familiar con independencia del nivel de ingresos Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% Probabilidad Temporada alta Temporada baja Continúa en la página siguiente ... - 368 - 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 10.B ( continuación ) Diferencias en la probabilidad de “utilizar alojamientos colectivos” ( Logit: Colectivo vs Privado ) en función de la temporada vacacional y del número de miembros del hogar familiar con independencia del nivel de ingresos Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Temporada alta Temporada baja _________________________ alojamientos hoteleros en perjuicio de los demás, mientras que durante los meses de Julio y Agosto los alojamientos más demandados son los englobados en “otros alojamientos colectivos” y en “alojamientos privados”. Continuando con el análisis de las probabilidades condicionadas estimadas correspondientes a la comparación entre alojamientos hoteleros y alojamientos privados, ( Gráfico 10.B ) lo más destacable es lo siguiente: - Durante los meses de Julio y Agosto, la probabilidad de hospedarse en alojamientos hoteleros frente a hacerlo en alojamientos privados es siempre menor que durante el resto del año. - 369 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - La mayor probabilidad de elegir un alojamiento hotelero corresponde a las familias sin hijos, con independencia de su nivel de ingresos, ya que para este colectivo de turistas dicho valor se sitúa en un 62,69 % en temporada baja y en un 32,41 % durante la temporada alta. - Las familias numerosas que viajan en temporada alta son las que mayor probabilidad tienen de hospedarse en alojamientos privados ( 83,29 % ). En temporada baja, esta probabilidad se reduce drásticamente hasta un 58,71 %. Por su parte, la comparación entre otros alojamientos colectivos y los alojamientos privados permite extraer las siguientes lecturas: - Aunque también existe una mayor probabilidad de utilizar otros alojamientos colectivos frente a los alojamientos privados en temporada baja que en temporada alta, esta diferencia es mucho menos acusada. - Las diferencias en probabilidad dependiendo del número de miembros que forman la familia son escasamente apreciables, ya que oscilan entre el 13,11 % de las familias con más de 2 hijos que viajan en temporada alta y el 17,83 % de las familias sin hijos que realizan su viaje en temporada baja. A la vista de los resultados que arroja el análisis del tipo de alojamiento utilizado a partir de estos dos grupos de variables, podemos ofrecer el siguiente perfil del turista - 370 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ español: Perfil del turista que utiliza alojamientos hoteleros a) Según el tamaño del hábitat: 1º) Residentes en una ciudad grande (0,064) b) Según la edad del turista: 1º) Con edad entre 45 y 64 años (0,229) 2º) Con 65 años o más (0,210) 3º) Con edad entre 25 y 44 años (0,070) c) Según su nivel de estudios: 1º) Con estudios superiores (0,043) d) Según la temporada vacacional: 1º) En temporada baja (0,387) Probabilidades máximas de utilizar alojamientos hoteleros ( en comparación con los alojamientos privados ): Grupo A: 1º) Residentes en ciudades pequeñas, con estudios secundarios y con una edad comprendida entre 45 y 64 años ( 48,75 % ) 2º) Residentes en ciudades medianas, con estudios secundarios y con una edad comprendida entre los 45 y los 64 años ( 41,99 % ) Grupo B: e) Según el número de miembros de la familia: 1º) Familias sin hijos en temporada baja 1º) Familias sin hijos (0,320) ( 62,69 % ) 2º) Familias con 1-2 hijos en temporada baja ( 45,54 % ) Perfil del turista que utiliza otros alojamientos colectivos a) Según el tamaño del hábitat: Probabilidades máximas de utilizar otros 1º) Residentes en una ciudad pequeña (0,158) alojamientos colectivos ( en comparación con los alojamientos privados ): b) Según la edad del turista: 1º) Con 24 años o menos (0,485) Grupo A: 2º) Con edad entre 25 y 44 años (0,058) 1º) Residentes en ciudades pequeñas, sin instrucción/sólo estudios primarios y con 24 c) Según su nivel de estudios: años o menos ( 25,98 % ) 1º) Con estudios secundarios (0,123) 2º) Residentes en ciudades pequeñas, con estudios secundarios y con una edad d) Según la temporada vacacional: comprendida entre los 25 y los 44 años 1º) En temporada alta (0,148) ( 24,92 % ) e) Según el número de miembros de la familia: Grupo B: 1º) Familias con 1-2 hijos (0,063) 1º) Familias sin hijos en temporada baja 2º) Familias numerosas (0,054) ( 17,83 % ) 2º) Familias con 1-2 hijos en temporada baja ( 16,70 % ) - 371 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Perfil del turista que utiliza alojamientos privados a) Según el tamaño del hábitat: Probabilidades máximas de utilizar 1º) Residentes en una ciudad grande (0,195) alojamientos privados ( en comparación con 2º) Residentes en una ciudad mediana (0,027) los alojamientos hoteleros ): b) Según la edad del turista: 1º) Con 65 años o más (0,054) 2º) Con edad entre 45 y 64 años (0,050) 3º) Con 24 años o menos (0,025) Grupo A: 1º) Residentes en ciudades grandes, con estudios secundarios y con 24 años o menos ( 92,39 % ) c) Según su nivel de estudios: 1º) Con estudios superiores (0,055) 2º) Sin/sólo estudios primarios (0,027) Grupo B: 1º) Familias numerosas en temporada alta ( 83,29 % ) d) Según la temporada vacacional: 1º) En temporada alta (0,240) Probabilidades máximas de utilizar alojamientos privados ( en comparación con otros alojamientos colectivos ): e) Según el número de miembros de la familia: 1º) Familias numerosas (0,147) Grupo A: 2º) Familias con 1-2 hijos (0,056) 1º) Residentes en ciudades grandes, con estudios superiores y con una edad comprendida entre los 45 y los 64 años ( 96,59 % ) Grupo B: 1º) Familias numerosas en temporada alta ( 86,89 % ) f) ORGANIZACIÓN DEL VIAJE. Grupo A de variables ( O, H, E, S): Las relaciones entre estas cuatro variables están explicadas por el modelo gráfico y descomponible OEH, SEH, según el cual la forma de organizar el viaje difiere según la edad del turista y según el tamaño del hábitat en el que resida. Sin embargo, la - 372 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ organización del viaje es condicionalmente independiente del nivel de estudios, dadas las dos variables anteriormente citadas. En el Gráfico 11.A se observa, en primer lugar, una clara tendencia de los turistas más jóvenes a organizar las vacaciones por su cuenta, mientras que el resto de turistas prefieren viajar a través de una agencia de viajes o de otra institución que les organice sus vacaciones. Esta inclinación hacia el viaje organizado se hace especialmente patente entre los turistas con más de 65 años. También se observa que los turistas que viven en ciudades que superan los 100.000 habitantes suelen organizar el viaje por su cuenta, circunstancia que se constata, sobre todo, en las ciudades con una población superior a 400.000 habitantes. Por otra parte, en las ciudades más pequeñas los turistas acuden más a las agencias de viajes a solicitar vacaciones organizadas. El análisis del Gráfico 11.B indica claramente que la mayor probabilidad de organizar el viaje por cuenta propia corresponde a los turistas residentes en grandes ciudades y menores de 24 años, la cual supera el 90 %, mientras que los que tienen una menor probabilidad de organizar por su cuenta las vacaciones son los turistas mayores de 65 años residentes en ciudades pequeñas, puesto que esta probabilidad se sitúa en torno a un 62 %. - 373 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 11.A Asociación entre las categorías de la variable “organización del viaje” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Organización del viaje" y "Tamaño del hábitat" -0,25 Cuenta propia 0,067 Organizada 0,183 Ciudad pequeña Ciudad mediana Ciudad grande INTERACCION "Organización del viaje" y "Edad" 0,169 -0,003 Organizada Cuenta propia -0,013 -0,152 I. joven I. menos joven (NS) I. maduro I. anciano Gráfico 11.B Diferencias en la probabilidad de “organizar el viaje por cuenta propia” ( logit: Cuenta propia vs Organizada ) en función del tamaño del hábitat y de la edad con independencia del nivel de estudios I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Probabilidad Ciudad pequeña Ciudad mediana - 374 - Ciudad grande 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Grupo B de variables ( O, I, T, N ): De acuerdo con los resultados del análisis estadístico realizado, la organización del viaje está condicionada por la temporada vacacional y por el número de miembros de la familia, siendo, además, condicionalmente independiente del nivel de ingresos del turista. Las estimaciones de los parámetros τ ijON del modelo no gráfico NTI, ON, OT desvelan ( véase el Gráfico 12.A ) que son las familias sin hijos las que suelen preferir los viajes organizados, y las familias con hijos las que optan en mayor medida por organizar su tiempo de descanso por su cuenta. En cuanto a la temporada vacacional, se observa una clara tendencia de los turistas a realizar viajes organizados en la temporada baja y a organizar por su propia cuenta las vacaciones cuando éstas tienen lugar durante los meses de Julio o Agosto. En términos probabilísticos, destaca principalmente ( Gráfico 12.B ) el hecho de que la probabilidad de organizar el viaje por cuenta propia es mayor en la temporada alta que en la temporada baja, siendo la diferencia entre ambos períodos de tiempo menos acusada cuando se trata de familias con 1 o 2 hijos. Por contra, cuando la familia no tiene hijos se produce la mayor diferencia en probabilidad entre la temporada alta y la temporada baja. Con carácter general, la mayor probabilidad de organizar las vacaciones por cuenta propia corresponde a las familias con 1 o 2 hijos durante la temporada alta, y se - 375 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 12.A Asociación entre las categorías de la variable “organización del viaje” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Organización del viaje" y "Temporada vacacional" Organizada 0,286 -0,286 Cuenta propia Temporada alta Temporada baja INTERACCION "Organización del viaje" y "Numero de miembros del hogar familiar" -0,15 0,099 0,051 Organizada Familia sin hijos Familia con 1-2 hijos Cuenta propia Familia numerosa Gráfico 12.B Diferencias en la probabilidad de “organizar el viaje por cuenta propia” ( logit: Cuenta propia vs Organizada ) en función de la temporada vacacional y del número de miembros del hogar familiar con independencia del nivel de ingresos Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% Probabilidad Temporada alta Temporada baja - 376 - 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ cifra en un 89,26 %. Por el contrario, la mayor probabilidad de optar por viajes organizados corresponde a las familias sin hijos que viajan durante la temporada baja, la cual se estima en un 38,32 %. Realizado este breve análisis, es posible discernir las características de los turistas según la forma de organizar su viaje de vacaciones. Prueba de ello es el siguiente esquema: Perfil del turista que organiza las vacaciones por su cuenta Perfil del turista que viaja a través de agencias de viajes a) Según el tamaño del hábitat: a) Según el tamaño del hábitat: 1º) Residentes en una ciudad pequeña (0,250) 1º) Residentes en una ciudad grande (0,183) 2º) Residentes de una ciudad mediana (0,067) b) Según la edad del turista: 1º) Con 24 años o menos (0,169) b) Según la edad del turista: 1º) Con 65 años o más (0,152) 2º) Con una edad entre 45 y 64 años (0,013) c) Según la temporada vacacional: 1º) En temporada alta (0,286) c) Según la temporada vacacional: 1º) En temporada baja (0,286) d) Según el número de miembros de la familia: d) Según el número de miembros de la familia: 1º) Familias sin hijos (0,150) 1º) Familias con 1-2 hijos (0,099) 2º) Familias numerosas (0,051) Probabilidades máximas de viajar a través de agencias de viajes: Probabilidades máximas de organizar las vacaciones por cuenta propia: Grupo A: Grupo A: 1º) Residentes en ciudades grandes y con 24 1º) Residentes en ciudades pequeñas y con años o menos ( 91,98 % ) 65 años o más ( 37,38 % ) 2º) Residentes en ciudades grandes y con 65 2º) Residentes en ciudades pequeñas y con años o más ( 90,41 % ) una edad entre 45 y 64 años ( 23,04 % ) Grupo B: 1º) Familias con 1-2 hijos en temporada alta ( 89,26 % ) 2º) Familias numerosas en temporada alta ( 88,31 % ) Grupo B: 1º) Familias sin hijos en temporada baja ( 38,32 % ) 2º) Familias numerosas en temporada baja ( 29,36 % ) - 377 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ g) DURACIÓN DEL VIAJE. Grupo A de variables ( D, H, E, S): El modelo gráfico y descomponible DSE, DSH determina que la mayor o menor duración del viaje vacacional está condicionada por las tres variables restantes. En primer lugar, el tamaño del hábitat es un factor determinante en la duración del viaje. Si se interpretan las estimaciones de los efectos de interacción τilDH , que se recogen en el Gráfico 13.A, se podrá apreciar que en las ciudades más pequeñas hay una clara tendencia a realizar viajes de duración corta y una preferencia menos acusada por los viajes de duración media. También se constata que cuanto mayor es el tamaño de la ciudad, más se alarga también la duración media del viaje. Así, en las ciudades que superan los 400.000 habitantes, los turistas optan de forma contundente por realizar viajes de larga duración. También la edad del individuo condiciona la duración del viaje. Al igual que ocurría con el tamaño del hábitat, el modelo log-lineal seleccionado constata que cuanto más avanzada es la edad del turista, mayor es la duración del viaje. Así, los individuos más jóvenes se muestran claramente partidarios de realizar viajes de corta duración; aquellos que tienen entre 25 y 44 años también optan por viajes cortos, pero no descartan la posibilidad de realizar viajes con una duración de 8 a 15 días. Por su parte, los turistas que tienen entre 45 y 64 años efectúan generalmente viajes de larga duración, aunque en ocasiones también realizan viajes de duración media; siendo, - 378 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 13.A Asociación entre las categorías de la variable “duración del viaje” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Duración del viaje” y “Tamaño del hábitat” Ciudad mediana Ciudad pequeña Ciudad grande Viaje corto (0,161) Viaje corto (0,020) Viaje medio (0,123) Viaje largo (0,009) (NS) Viaje largo (0,275) INTERACCION “Duración del viaje” y “Edad” Individuo joven Individuo menos joven Viaje corto (0,274) Individuo maduro Individuo anciano Viaje corto (0,100) Viaje medio (0,050) Viaje medio (0,080) Viaje largo (0,107) Viaje largo (0,248) INTERACCION “Duración del viaje” y “Nivel de estudios” Sin/sólo estudios primarios Con estudios secundarios Viaje corto (0,063) Viaje medio (0,182) Viaje largo (0,025) - 379 - Con estudios superiores Viaje largo (0,106) Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ finalmente, los turistas con 65 años o más los que, con diferencia, mayor número de días dedican a su período vacacional. La tercera variable que explica las diferencias en la duración del viaje es el nivel de estudios. En relación a esta variable, se observan dos tendencias bastante claras: la de aquellos que no tienen instrucción o sólo poseen estudios primarios, que optan claramente por viajes de duración media; y la de los turistas con estudios superiores, que se decantan por viajes de más de 15 días de duración. En una posición intermedia se encuentran los individuos con estudios secundarios, que reparten sus preferencias entre viajes cortos y viajes largos. El análisis de las probabilidades condicionadas ( véanse el Anexo 1 y el Gráfico 13.B ) requiere de nuevo hacer una pequeña matización: se han calculado las probabilidades de realizar un viaje corto y las probabilidades de realizar un viaje de duración media, en ambos casos con respecto a las probabilidades asociadas a la tercera categoría de la variable respuesta, esto es, a la realización de un viaje largo. Ello explica la existencia de dos tablas de probabilidades. En la comparación entre viajes cortos y viajes largos, sólo los turistas sin instrucción o con estudios primarios que residen en ciudades pequeñas y que no superan los 45 años de edad tienen una mayor probabilidad de realizar un viaje corto que de realizar un viaje largo ( 57,71 % y 55,33 % ). Para el resto de turistas, la probabilidad de realizar un viaje largo es claramente superior a la de realizar un viaje corto. - 380 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 13.B Diferencias en la probabilidad de “realizar un viaje corto” ( Logit: Viaje corto vs Viaje largo ) en función del tamaño del hábitat, de la edad y del nivel de estudios A) Sin instrucción o sólo con estudios primarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande B) Con estudios secundarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande C) Con estudios superiores: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Continúa en la página siguiente ... - 381 - Ciudad grande Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 13.B ( continuación ) Diferencias en la probabilidad de “realizar un viaje medio” ( Logit: Viaje medio vs Viaje largo ) en función del tamaño del hábitat, de la edad y del nivel de estudios A) Sin instrucción o sólo con estudios primarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande B) Con estudios secundarios: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande C) Con estudios superiores: I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana - 382 - Ciudad grande Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Concretamente, los turistas con mayor probabilidad de optar por un viaje de más de 15 días de duración son los residentes en grandes urbes, tanto aquellos que superan los 65 años y tienen un bajo nivel de estudios ( 90,53 % ) como aquellos otros que tienen entre 45 y 64 años y poseen estudios superiores ( 90,10 % ). Si se comparan las probabilidades asociadas a un viaje de duración media y a un viaje largo, se podrá constatar que la primera va disminuyendo conforme el tamaño del hábitat aumenta y conforme el nivel de instrucción del entrevistado se eleva. De hecho, los turistas que tienen una escasa formación educativa y que residen en ciudades que no superan los 100.000 habitantes son los que más claramente prefieren un viaje de duración media a uno de duración larga, ya que la probabilidad de elegir la primera de estas opciones oscila entre un 56 % y un 68 %. En el extremo opuesto, los turistas con estudios superiores que residen en las grandes urbes acaparan las probabilidades más bajas de realizar viajes de duración media, ya que las mismas oscilan entre el 23,49 % de aquellos que tienen entre 45 y 64 años y el 35,92 % de los que tienen entre 25 y 44 años. Grupo B de variables ( D, I, T, N): El análisis de la asociación entre estas cuatro variables determina que, si bien el nivel de ingresos, el número de miembros de la familia y la temporada vacacional están interrelacionadas, la duración del viaje sólo tiene relación directa con ésta última. - 383 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 14.A Asociación entre las categorías de la variable “duración del viaje” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Duración del viaje” y “Temporada vacacional” Temporada alta Temporada baja Viaje largo (0,296) Viaje corto (0,196) Viaje medio (0,100) Gráfico 14.B Diferencias en la probabilidad de “realizar un viaje corto” ( Logit: Viaje corto vs Viaje largo ) en función de la temporada vacacional Temporada baja Temporada alta 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Diferencias en la probabilidad de “realizar un viaje medio” ( Logit: Viaje medio vs Viaje largo ) en función de la temporada vacacional Temporada baja Temporada alta 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad - 384 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Efectivamente, el modelo gráfico NTI, DT significa que tanto el nivel de ingresos como el número de miembros del hogar familiar son condicionalmente independientes de la duración del viaje, y que ésta sólo está condicionada por la temporada vacacional. La forma en que se relacionan estas dos variables viene determinada por las estimaciones de los parámetros τikDT del anterior modelo ( Gráfico 14.A ). Según los valores que arrojan las mismas, es durante la temporada alta ( meses de Julio y Agosto ) cuando se realizan viajes largos, mientras que en temporada baja predominan sobre todo los viajes de menos de 8 días de duración y , en menor medida, los viajes de duración media. De acuerdo con lo anterior, la probabilidad de realizar un viaje corto ( o un viaje de duración media ) en lugar de un viaje de más de 15 días de duración sólo variará en función de la época del año que se considere. Así, según se observa en el Gráfico 14.B, sea cual sea tanto el nivel de ingresos como el número de miembros que forman la unidad familiar, la probabilidad de realizar un viaje corto es superior a la de realizar un viaje largo en temporada baja ( 54,54 % frente a 45,46 % ), pero es claramente inferior durante los meses de Julio y Agosto ( 30,96 % frente a 69,04 % ). Sin embargo, cuando se comparan viajes de duración media con viajes largos, siempre se prefieren aquellos a éstos, circunstancia que ocurre tanto en temporada alta ( 52,42 % frente a 57,48 % ) como en temporada baja ( 70,87 % frente a 29,13 % ). - 385 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Finaliza el análisis de la duración del viaje con el cuadro resumen que se muestra a continuación, en el que se definen las características esenciales del turista en función de la mayor o menor duración de su período vacacional: Perfil del turista que realiza viajes de corta duración a) Según el tamaño del hábitat: Probabilidades máximas de realizar un viaje de 1º) Residentes en una ciudad pequeña (0,161) corta duración ( en comparación con 2º) Residentes de una ciudad mediana (0,020) realizar un viaje largo ): b) Según la edad del turista: 1º) Con 24 años o menos (0,274) 2º) Con edad entre 25 y 44 años (0,100) c) Según su nivel de estudios: 1º) Con estudios secundarios (0,063) d) Según la temporada vacacional: 1º) En temporada baja (0,196) Grupo A: 1º) Residentes en ciudades pequeñas, sin instrucción/sólo estudios primarios y con 24 años o menos ( 57,71 % ) 2º) Residentes en ciudades pequeñas, sin instrucción/sólo estudios primarios y con una edad comprendida entre los 25 y los 44 años ( 55,33 % ) Grupo B: 1º) En temporada baja ( 54,54 % ) Perfil del turista que realiza viajes de duración media a) Según el tamaño del hábitat: Probabilidades máximas de realizar un viaje de 1º) Residentes en una ciudad pequeña (0,123) duración media ( en comparación con realizar un viaje largo ): b) Según la edad del turista: 1º) Con edad entre 25 y 44 años (0,080) Grupo A: 2º) Con edad entre 45 y 64 años (0,050) 1º) Residentes en ciudades pequeñas, sin instrucción/sólo estudios primarios y con 24 c) Según su nivel de estudios: años o menos ( 68,40 % ) 1º) Sin/sólo estudios primarios (0,182) 2º) Residentes en ciudades pequeñas, sin instrucción/sólo estudios primarios y con una d) Según la temporada vacacional: edad comprendida entre los 25 y los 44 años 1º) En temporada baja (0,100) ( 63,09 % ) Grupo B: 1º) En temporada baja ( 70,87 % ) - 386 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Perfil del turista que realiza viajes de larga duración a) Según el tamaño del hábitat: 1º) Residentes en una ciudad grande (0,275) b) Según la edad del turista: 1º) Con 65 años o más (0,248) 2º) Con edad entre 45 y 64 años (0,107) Probabilidades máximas de realizar un viaje de larga duración ( en comparación con realizar un viaje de corta duración ): Grupo A: 1º) Residentes en ciudades grandes, sin instrucción/sólo estudios primarios y con 65 años o más ( 90,53 % ) c) Según su nivel de estudios: 1º) Con estudios superiores (0,106) 2º) Con estudios secundarios (0,025) Grupo B: 1º) En temporada alta ( 69,04 % ) d) Según la temporada vacacional: 1º) En temporada alta (0,296) Probabilidades máximas de realizar un viaje de larga duración ( en comparación con realizar un viaje de duración media ): Grupo A: 1º) Residentes en ciudades grandes, con estudios secundarios y con 65 años o más ( 81,43 % ) Grupo B: 1º) En temporada alta( 47,58 % ) h) FORMA DE VIAJAR. Grupo A de variables ( F, H, E, S ): Si nos atenemos al modelo gráfico FEH, SEH, la forma de viajar del turista está influenciada por el tamaño del hábitat y por la edad del individuo, pero no por su nivel de estudios, el cual es condicionalmente independiente de la variable respuesta. Si se profundiza en la asociación existente entre la forma de viajar y el tamaño del hábitat ( Gráfico 15.A ), podrá deducirse que mientras en las ciudades pequeñas existe una - 387 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 15.A Asociación entre las categorías de la variable “forma de viajar” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Forma de viajar” y “Tamaño del hábitat” Ciudad mediana Ciudad pequeña Ciudad grande En grupo (0,216) Solo (0,032) Solo (0,069) En familia (0,046) En familia (0,068) INTERACCION “Forma de viajar” y “Edad” Individuo joven Individuo menos joven Individuo maduro Solo (0,102) En familia (0,087) En grupo (0,478) En grupo (0,109) Individuo anciano En familia (0,416) Solo (0,177) En familia (0,078) Gráfico 15.B Diferencias en la probabilidad de “viajar solo” ( Logit: Solo vs En grupo ) en función del tamaño del hábitat y de la edad con independencia del nivel de estudios I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% Probabilidad Ciudad pequeña Ciudad mediana Continúa en la página siguiente ... - 388 - Ciudad grande 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 15.B ( continuación ) Diferencias en la probabilidad de “viajar en familia” ( Logit: En familia vs En grupo ) en función del tamaño del hábitat y de la edad con independencia del nivel de estudios I. joven I. menos joven I. maduro I. anciano 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Ciudad pequeña Ciudad mediana Ciudad grande _________________________ fuerte tendencia a viajar en grupo, en las ciudades que superan los 100.000 habitantes, el turista opta más por viajar solo o en familia. Por otra parte, los individuos más jóvenes ( menores de 45 años ) son los que más claramente partidarios se manifiestan de viajar en grupo. Sin embargo, los sujetos que tienen entre 45 y 64 años generalmente viajan en familia, de la misma forma que los turistas menores de 24 años y los mayores de 65 son los que optan de forma más clara por viajar solos. Si se confrontan las opciones de viajar solo y de viajar en grupo desde una óptica probabilística ( Gráfico 15.B ), se comprobará que la segunda de ellas es mucho más probable que la primera, ya que ninguna de las probabilidades de viajar solo supera el - 389 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 50 %. De hecho, los individuos que mayor probabilidad tienen de viajar sin compañía son aquellos que superan los 65 años, tanto si residen en ciudades grandes ( 40,30 % ) como si lo hacen en ciudades que nos superan los 100.000 habitantes ( 34,21 % ). En el extremo opuesto se encuentran los turistas con menos de 24 años y los que tienen una edad comprendida entre los 25 y los 44 años, residentes en ambos casos en ciudades pequeñas, cuyas probabilidades de viajar en grupo se cifran en un 89,02 % y en un 86,97 %, respectivamente. Más revelador es posiblemente el análisis comparativo entre viajar en familia y hacerlo en grupo, ya que en el mismo se pone claramente de manifiesto que disfrutar las vacaciones acompañado de la familia es la opción más frecuente entre los turistas españoles. De hecho, la probabilidad de viajar en familia se incrementa con la edad del turista, hasta el punto de que alcanza valores del 92 % entre los turistas mayores de 45 años, especialmente entre los residentes en ciudades con más de 100.000 habitantes. Por contra, los individuos que no superan los 24 años de edad ostentan las probabilidades más elevadas de viajar en grupo, especialmente cuanto menor sea el tamaño de la ciudad en la que residen habitualmente ( 42,87 % en ciudades pequeñas; 33,92 % en ciudades medianas y 29,82 % en ciudades grandes ). - 390 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Grupo B de variables ( F, I, T, N ): El modelo log-lineal que explica de forma más adecuada la asociación que existe entre estas cuatro variables es el modelo gráfico FNT, NTI, según el cual la forma de viajar es la misma sea cual sea el nivel de ingresos del turista, pero cambiará en función del número de miembros de la familia y de la temporada vacacional. En el Gráfico 16.A se observa que el turista que pertenece a una familia sin hijos ( puede tratarse de un individuo casado, pero también de un soltero, de un viudo o de un divorciado ) es el que manifiesta una tendencia más clara a viajar solo. Sin embargo, el turista perteneciente a una familia con 1 o 2 hijos suele viajar en familia, como es, por otra parte, lógico. Con respecto a la temporada vacacional, se constata que los viajes familiares proliferan más en los meses de Julio y Agosto, mientras que durante el resto del año el turista viaja o bien solo o bien en grupo. Cuando se calcula la probabilidad de viajar solo frente a la probabilidad de viajar en grupo, condicionada al número de miembros de la familia y a la temporada vacacional, se observa ( Gráfico 16.B ) que la probabilidad de viajar solo generalmente es mayor en temporada alta que en temporada baja en las familias sin hijos y en las familias numerosas, y es inferior en temporada alta en las familias con 1 o 2 hijos. A pesar de ello, en todos los casos es bastante más probable viajar en grupo que hacerlo - 391 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 16.A Asociación entre las categorías de la variable “forma de viajar” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION “Forma de viajar” y “Temporada vacacional” Temporada alta Temporada baja En familia (0,315) Solo (0,177) En grupo (0,138) INTERACCION “Forma de viajar” y “Número de miembros del hogar familiar” Familia con 1-2 hijos Familia sin hijos Familia numerosa En familia (0,343) Solo (0,221) Solo (0,072) En grupo (0,068) Gráfico 16.B Diferencias en la probabilidad de “viajar solo” ( Logit: Solo vs En grupo ) en función de la temporada vacacional y del número de miembros del hogar familiar con independencia del nivel de ingresos Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% Probabilidad Temporada alta Temporada baja Continúa en la página siguiente ... - 392 - 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 16.B ( continuación ) Diferencias en la probabilidad de “viajar en familia” ( Logit: En familia vs En grupo ) en función de la temporada vacacional y del número de miembros del hogar familiar con independencia del nivel de ingresos Familia sin hijos Familia con 1-2 hijos Familia numerosa 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Probabilidad Temporada alta Temporada baja _________________________ solo, ya que ninguna de las probabilidades calculadas supera el 50 %. Sin embargo, al comparar el viaje en familia con el viaje en grupo, se llega a la conclusión de que la probabilidad asociada a la primera de estas dos opciones es claramente superior a la de la segunda. De hecho, la probabilidad de viajar en familia frente a hacerlo en grupo fluctúa entre el 57,15 % de las familias numerosas en temporada baja y el 87,18 % de las familias con 1 o 2 hijos en temporada alta. En cualquier caso, sea cual sea el número de miembros del hogar familiar, la probabilidad de viajar en familia es siempre mayor en temporada alta que en temporada baja. - 393 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Así pues, el perfil del turista español según viaje solo, lo haga en familia o lo haga en grupo es el que refleja sintéticamente el siguiente esquema: Perfil del turista que viaja solo a) Según el tamaño del hábitat: Probabilidades máximas de viajar solo 1º) Residentes en una ciudad grande (0,069) ( en comparación con viajar en grupo ): 2º) Residentes en una ciudad mediana (0,032) Grupo A: b) Según la edad del turista: 1º) Residentes en ciudades grandes y con 65 1º) Con 65 años o más (0,177) años o más ( 40,30 % ) 2º) Con 24 años o menos (0,102) 2º) Residentes en ciudades pequeñas y con 65 años o más ( 34,21 % ) c) Según la temporada vacacional: 1º) En temporada baja (0,177) Grupo B: 1º) Familias sin hijos en temporada alta d) Según el número de miembros de la familia: ( 24,64 % ) 1º) Familias sin hijos (0,221) 2º) Familias con 1-2 hijos en temporada baja 2º) Familias numerosas (0,072) ( 21,17 % ) Perfil del turista que viaja en familia a) Según el tamaño del hábitat: Probabilidades máximas de viajar en familia 1º) Residentes en una ciudad grande (0,068) ( en comparación con viajar en grupo ): 2º) Residentes en una ciudad mediana (0,046) Grupo A: b) Según la edad del turista: 1º) Residentes en ciudades medianas y con 1º) Con edad entre 45 y 64 años (0,416) una edad comprendida entre los 45 y los 64 2º) Con edad entre 25 y 44 años (0,087) años ( 92,86 % ) 3º) Con 65 años o más (0,078) 2º) Residentes en ciudades grandes y con una edad comprendida entre los 45 y los 64 años c) Según la temporada vacacional: ( 92,35 % ) 1º) En temporada alta (0,315) Grupo B: d) Según el número de miembros de la familia: 1º) Familias con 1-2 hijos en temporada alta 1º) Familias con 1-2 hijos (0,343) ( 87,18 % ) 2º) Familias numerosas en temporada alta ( 84,79 % ) - 394 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Perfil del turista que viaja en grupo a) Según el tamaño del hábitat: Probabilidades máximas de viajar en grupo 1º) Residentes en una ciudad pequeña (0,216) ( en comparación con viajar solo ): b) Según la edad del turista: 1º) Con 24 años o menos (0,478) 2º) Con edad entre 25 y 44 años (0,109) Grupo A: 1º) Residentes en ciudades pequeñas y con 24 años o menos ( 89,02 % ) c) Según la temporada vacacional: 1º) En temporada baja (0,138) Grupo B: 1º) Familias con 1-2 hijos en temporada alta ( 90,25 % ) e) Según el número de miembros de la familia: 1º) Familias numerosas (0,068) Probabilidades máximas de viajar en grupo ( en comparación con viajar en familia ): Grupo A: 1º) Residentes en ciudades pequeñas y con 24 años o menos ( 42,87 % ) Grupo B: 1º) Familias numerosas en temporada baja ( 42,85 % ) i) FRACCIONAMIENTO VACACIONAL. Grupo A de variables ( F, H, E, S ): El modelo óptimo es, en este caso, el modelo gráfico y descomponible SEH, FS, que determina que el hecho de disfrutar las vacaciones de forma continuada o de fraccionarlas en dos o más períodos dependerá únicamente del nivel de estudios del turista. Las otras dos variables del modelo, la edad del individuo y el tamaño del hábitat en el que reside, son condicionalmente independientes del fraccionamiento vacacional. En consecuencia, a partir de las estimaciones de los parámetros que relacionan el - 395 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 17.A Asociación entre las categorías de la variable “fraccionamiento vacacional” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Fraccionamiento vacacional" y "Nivel de estudios" 0,262 Sí fracciona No fracciona -0,033 -0,229 Sin/sólo est. primarios Con est. secundarios Con est. superiores Gráfico 17.B Diferencias en la probabilidad de disfrutar de las vacaciones “de forma continuada” ( logit: No fracciona vs Sí fracciona ) en función del nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores 0% 10% 20% 30% 40% 50% 60% Probabilidad - 396 - 70% 80% 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ fraccionamiento vacacional con el nivel de estudios ( Gráfico 17.A ), se puede concluir que los turistas sin instrucción o que sólo poseen estudios primarios suelen disfrutar de sus vacaciones de forma continuada, a diferencia de aquellos que poseen unos niveles de estudios más elevados, que optan por fraccionar sus vacaciones, circunstancia que queda FS claramente patente en los turistas con estudios superiores ( τ! 23 = - 0,229 ). Por otra parte, al depender únicamente del nivel de estudios, las probabilidades asociadas a disfrutar las vacaciones en un solo período o a hacerlo en dos o más veces diferirán únicamente en función de que el nivel formativo del individuo sea mayor o menor. En el Gráfico 17.B se observa que mientras los turistas sin instrucción o con estudios primarios tienen una probabilidad de un 88,12 % de no fraccionar sus vacaciones, en los turistas con estudios superiores esta probabilidad desciende a un 80,44 %. De igual manera, es a los turistas con estudios superiores a los que les corresponde la probabilidad más baja de salir de vacaciones en un único período de tiempo ( 73,54 % ). Grupo B de variables ( F, I, T, N ): La única variable que introduce diferencias significativas en la mayor o menor inclinación del turista hacia una de las dos opciones que plantea la variable fraccionamiento turístico es el nivel de ingresos, ya que el modelo que mejor reproduce las relaciones entre estas cuatro variables es NTI, FI. En concreto, los sujetos con niveles de renta mensuales inferiores a 100.000 pesetas optan por un agrupamiento de - 397 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Gráfico 18.A Asociación entre las categorías de la variable “fraccionamiento vacacional” y las categorías de las variables explicativas consideradas en el análisis ( Estimación de los efectos de interacción de segundo orden ) INTERACCION "Fraccionamiento vacacional" y "Nivel de ingresos" 0,243 Sí fracciona No fracciona 0,005 -0,248 Ingresos bajos Ingresos medios (NS) Ingresos altos Gráfico 18.B Diferencias en la probabilidad de disfrutar de las vacaciones “de forma continuada” ( logit: No fracciona vs Sí fracciona ) en función del nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos 0% 10% 20% 30% 40% 50% 60% Probabilidad - 398 - 70% 80% 90% 100% Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ sus vacaciones en un solo período ( véase el Gráfico 18.A ). Prácticamente esta misma FI FI inclinación, pero esta vez en sentido opuesto ( τ! 11 = 0,243; τ! 13 = - 0,248 ) se observa entre los que perciben mayores niveles de renta, que se manifiestan claramente partidarios de fraccionar sus vacaciones en dos o más períodos. La probabilidad estimada de fraccionar las vacaciones para un turista cuyo nivel de ingresos sea elevado es de un 28,41 % ( Gráfico 18.B ). Esta probabilidad se va reduciendo a medida que disminuye el nivel de ingresos del entrevistado, ya que se cifra en un 19,31 % para aquellos que perciben un nivel medio de ingresos, y desciende hasta un 12,94 % para los turistas que obtienen ingresos mensuales bajos. Como epílogo al análisis de este conjunto de nueve variables turísticas, reproducimos en el siguiente esquema lo más destacado del turista que fracciona sus vacaciones y de aquel que no lo hace. Perfil del turista que no fracciona sus vacaciones Perfil del turista que fracciona sus vacaciones en dos o más períodos a) Según su nivel de estudios: 1º) Sin/sólo estudios primarios (0,262) a) Según su nivel de estudios: 1º) Con estudios superiores (0,229) 2º) Con estudios secundarios (0,033) b) Según su nivel de ingresos: 1º) Con ingresos bajos (0,243) b) Según su nivel de ingresos: 1º) Con ingresos altos (0,248) Probabilidades máximas de no fraccionar las vacaciones: Probabilidades máximas de fraccionar las vacaciones: Grupo A: 1º) Sin instrucción/sólo estudios primarios ( 88,12 % ) Grupo A: 1º) Con estudios superiores ( 26,46 % ) Grupo B: 1º) Turistas con ingresos bajos ( 87,06 % ) Grupo B: 1º) Turistas con ingresos altos ( 28,41 % ) - 399 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 3. SEGMENTACIÓN DE LA POBLACIÓN ESPAÑOLA SEGÚN SU ACTITUD ANTE LAS VACACIONES. Como complemento al análisis de las variables turísticas realizado en el apartado anterior, nos planteamos a continuación demostrar la potencialidad del modelo de Análisis de Clases Latentes como técnica de segmentación de mercados. En concreto, nos proponemos clasificar a la demanda turística española tomando como criterio su actitud ante las vacaciones. Los datos utilizados para llevar a cabo esta segmentación han sido nuevamente los del estudio nº 2.193 de Centro de Investigaciones Sociológicas sobre el “comportamiento de los españoles ante las vacaciones”. Uno de los objetivos de este estudio era conocer en qué consisten las vacaciones ideales para el ciudadano español. Para la consecución de este objetivo, se proponían, en la pregunta 37 del cuestionario, una serie de frases contrapuestas, al objeto de que el entrevistado se manifestase sobre cuál de ellas se identificaba más con su forma de pensar. Pues bien, de las doce series de frases contrapuestas que se recogen en la citada pregunta, hemos seleccionado cinco de ellas, que constituirán la base sobre la cual se llevará a cabo la segmentación. En este proceso de selección se han eliminado las frases menos significativas y se optado por incluir en el análisis aquellas otras frases que, recogiendo diferentes aspectos del comportamiento del turista, pueden ser indicadores claros de la actitud de los españoles ante las vacaciones. - 400 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Las cinco series seleccionadas, que designaremos en lo sucesivo como variables A, B, C, D y E, respectivamente, son las siguientes: Variable A: en relación al lugar elegido para pasar las vacaciones: Categoría 1: Prefiero ir a un sitio y quedarme en él ( estático ). Categoría 2: Prefiero recorrer diversos lugares, ir de un sitio a otro ( dinámico ). Variable B: en relación al carácter rural o urbano del lugar elegido: Categoría 1: Me gustan los espacios abiertos, estar en contacto con la naturaleza ( ecologista ). Categoría 2: Prefiero los lugares urbanizados, tener todos los servicios ( cosmopolita ). Variable C: en relación a la forma de organizar las vacaciones: Categoría 1: Me gusta organizar las vacaciones por mi cuenta, a mi manera ( independiente ). Categoría 2: Prefiero ir en un grupo organizado y no preocuparme de nada ( despreocupado ). Variable D: en relación a los gastos durante las vacaciones: Categoría 1: Cuido mucho mis gastos durante las vacaciones, tratando de no pasarme de lo previsto ( ahorrador ). - 401 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Categoría 2: no me preocupo de los gastos en vacaciones y hago lo que me apetece ( derrochador ). Variable E: en relación al carácter más o menos social del turista: Categoría 1: Prefiero ir de vacaciones a lugares donde hay mucha gente, a sitios animados ( marchoso ). Categoría 2: Prefiero ir a un sitio tranquilo donde no haya mucha gente ( tranquilo ). A partir de estas cinco variables, se puede elaborar una tabla de contingencia de dimensión 2x2x2x2x2, en la que se recoge la clasificación cruzada de las mismas. Dicha tabla es la que se muestra a continuación: Tabla 7 VARIABLE A VARIABLE B VARIABLE C Independiente Ecologista Despreocupado Estático Independiente Cosmopolita Despreocupado Independiente Ecologista Despreocupado Dinámico Independiente Cosmopolita Despreocupado Tamaño muestral: 3.217 entrevistas VARIABLE D Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador - 402 - VARIABLE E Marchoso Tranquilo 124 611 57 160 38 104 9 25 81 140 53 34 33 70 8 6 269 473 134 190 88 108 38 33 82 57 61 30 36 31 25 9 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ En principio, podría admitirse que las cinco variables seleccionadas pueden ser indicadores de una variable que no puede ser directamente observada, como podría ser el comportamiento turístico de los españoles que, en lo sucesivo, designaremos como Variable X. El principio de independencia local implicaría en este caso admitir que las variables elegidas están correlacionadas entre sí, pero que esta correlación desaparece cuando se fija un nivel ( o clase ) de la variable X. Según la terminología logarítmicolineal, se podría afirmar que cada una de las cinco variables seleccionadas es condicionalmente independiente de las demás, dadas las diferentes categorías de la variable X. Esto significa que en el supuesto de que existiese un modelo ACL que explicase la asociación existente entre las variables manifiestas y la variable latente X, dicho modelo podría expresarse, en términos log-lineales, como AX, BX, CX, DX, EX. En el razonamiento anterior, hemos supuesto la existencia de una variable latente. Sin embargo, esta hipótesis de partida debe ser contrastada, ya que la ausencia de la misma significaría la imposibilidad de segmentar la población considerada. La forma de verificar si esta hipótesis inicial es admisible es contrastar el modelo de independencia completa ( que vendría expresado, según la terminología log-lineal, por A, B, C, D, E, X ), que es equivalente a un modelo ACL en el que la variable latente posee una sola clase. Así, si el modelo de independencia completa fuese admitido, estaríamos aceptando que las variables observadas A, B, C, D y E están incorrelacionadas y que, por consiguiente, no sería necesaria una variable latente para explicar la asociación entre las variables observadas, ya que áquella no existe. En caso contrario, se podrá admitir la existencia de la variable latente comportamiento - 403 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ turístico, lo que nos daría pie a utilizar el modelo ACL para realizar la segmentación de la demanda turística española. Pues bien, la estimación del modelo de independencia completa para los datos de la Tabla 7 arrojó los siguientes resultados: Modelo Independencia completa G2 p χ2 p g.l. 416,241600 0,0000 422,580800 0,0000 26 A la vista de los valores de los tests de Pearson y de razón de verosimilitud, el modelo de independencia completa debe ser rechazado tanto a un 1 % como a un 5 % de nivel de significación. En consecuencia, podemos admitir la existencia de la variable latente comportamiento turístico como origen de las interdependencias existentes entre las cinco variables manifiestas que están siendo consideradas en el análisis. Admitida la posibilidad de segmentar la demanda turística española mediante un modelo ACL, el siguiente paso consistirá en determinar en cuántas clases o segmentos deberá dividirse la población objeto de análisis. Para ello, habrá que tener en cuenta que el número de clases latentes del modelo está condicionado por el hecho de que el número de grados de libertad necesarios para contrastar el modelo no sea negativo, es decir, que el modelo esté identificado, para lo cual deberá verificarse, para una tabla de contingencia de dimensión cinco como la que nos ocupa, lo siguiente: IJKLM > (I+J+K+L+M-4)T - 404 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ siendo I, J, K, L y M las categorías de las variables observadas A, B, C, D y E, respectivamente, y T el número de clases de la variable latente X. Dado que, en este caso, todas las variables observadas son dicotómicas, deberá verificarse que 32 > 6T. Esto significa que el modelo ACL podrá definirse con un mínimo de T=2 clases latentes y con un máximo de T=5 clases latentes, ya que si T ≥ 6, el modelo resultante no estaría identificado, por lo que no podría ser estimado ni contrastado estadísticamente. Para determinar cuál es el número óptimo de clases latentes, hemos procedido a estimar el modelo ACL con T clases latentes ( para T = 2, 3, 4, 5 ). El programa utilizado para realizar estas estimaciones es la versión 4.0 del MLLSA, desarrollado inicialmente por C. Clogg y posteriormente mejorado por S. Eliason. Este programa utiliza el algoritmo EM para obtener las estimaciones máximo-verosímiles de las probabilidades de clase latente y de las probabilidades condicionadas. En todos los cálculos realizados, se ha fijado un nivel de tolerancia de 10-7 y un máximo de 500.000 iteraciones. Teniendo en cuenta todo lo anterior, el resultado de la estimación de los correspondientes modelos ACL es el que se muestra a continuación: p g.l. Nº iteraciones 162,111100 0,0000 21 4.072 0,0000 49,912310 0,0000 15 5.821 11,668670 0,3078 11,859270 0,2946 10 12.121 4,453214 0,6156 4,436327 0,6178 6 13.845 p χ 153,135800 0,0000 Modelo ACL con 3 clases latentes 48,663290 Modelo ACL con 4 clases latentes Modelo ACL con 5 clases latentes Modelo G Modelo ACL con 2 clases latentes 2 - 405 - 2 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Como se podrá observar, el modelo con cinco clases latentes es el que se ajusta de forma más satisfactoria a los datos observados. Por tanto, nuestro análisis exploratorio nos conduce a proponer una segmentación de la demanda turística española en cinco segmentos o clases. Las características de cada una de estas clases vendrán definidas por las probabilidades asociadas a cada clase latente y por las probabilidades condicionadas. Las estimaciones máximo-verosímiles de las probabilidades de clase latente y de las probabilidades condicionadas son las que se muestran en la siguiente tabla: Tabla 8 Probabilidades condicionadas y probabilidades de clase latente para el modelo ACL con cinco clases latentes Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Clase 1 0.0000 1.0000 0.5059 0.4941 0.7228 0.2772 0.5705 0.4295 0.7466 0.2534 0.164341 Clase 2 0.2597 0.7403 1.0000 0.0000 0.8205 0.1795 0.7192 0.2808 0.3537 0.6463 0.375545 Clase 3 0.7597 0.2403 0.4155 0.5845 0.0000 1.0000 0.9437 0.0563 0.2976 0.7024 0.060655 Clase 4 1.0000 0.0000 0.3356 0.6644 0.8970 0.1030 0.5919 0.4081 0.9937 0.0063 0.066721 Clase 5 0.8188 0.1812 0.7775 0.2225 0.9249 0.0751 0.8066 0.1934 0.0398 0.9602 0.332737 A la vista de los resultados obtenidos en el análisis exploratorio, podemos constatar que algunas de las probabilidades condicionadas alcanzan los valores extremos 0 o 1. También se puede observar en la tabla anterior la gran similitud existente entre algunas probabilidades condicionadas y entre algunas probabilidades de clase latente. La contrastación de esos valores extremos y de la igualdad entre probabilidades nos - 406 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ conduce al análisis confirmatorio mediante la imposición de determinadas restricciones al modelo ACL estimado. En primer lugar, impondremos las siguientes restricciones de valor específico: AX H (1) 0 : Π11 = 0 AX H (2) 0 : Π 24 = 0 BX H (3) 0 : Π 22 = 0 CX H (4) 0 : Π 13 = 0 EX H (5) 0 : Π 24 = 0 Las cinco restricciones anteriores tienen por objeto verificar si las probabilidades condicionadas asociadas a ellas son iguales a 0. Para ello, estimaremos el modelo ACL con las citadas restricciones y compararemos el valor de su test de razón de verosimilitud con el correspondiente del modelo no restringido mediante la diferencia de verosimilitudes. Si esta diferencia no es estadísticamente significativa, el modelo restringido mejorará el ajuste a los valores observados de la tabla de contingencia, por lo que las restricciones impuestas podrán ser admitidas. En caso contrario, si la diferencia es estadísticamente significativa ( p < 0.05 ), las restricciones de igualdad deberán ser rechazadas, puesto que, en este caso, no mejoran sustancialmente el ajuste del modelo. - 407 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Pues bien, en este caso, los resultados obtenidos han sido los siguientes: Modelo ACL general Modelo restringido nº 1 ( Modelo no restringido ) ( Restricciones de valor específico ) 2 G 2 = 4.453510 G = 4.453214 χ 2 = 4.436327 χ 2 = 4.437214 6 g.l. 7 g.l. Nº de iteraciones: 13.845 Nº de iteraciones: 4.628 Diferencia de verosimilitud: G 2 = 4.453510 - 4.453214 = 0.000296 Diferencia en grados de libertad: 7 - 6 = 1 g.l. Valor de p: p = 0.9863 Decisión: Aceptación de las restricciones de valor específico En consecuencia, a un nivel de significación del 5 % se puede sostener que las cinco restricciones de valor específico anteriores contribuyen de forma significativa a mejorar el ajuste del modelo ACL general ( no restringido ). Las estimaciones de los parámetros del modelo restringido nº 1 se muestran en la Tabla 9. Un análisis de estos valores permite apreciar que las probabilidades condicionadas asociadas a la variable C son muy similares para los individuos de la clase 4 ( Independiente: 89,71 %; Despreocupado: 10,29 % ) y para los indviduos de la clase 5 ( Independiente: 92,46 %; Despreocupado: 7,54 % ). Algo similar ocurre con las probabilidades condicionadas correspondientes a la variable D para los individuos pertenecientes a la clase 1 ( Ahorrador: 57,03 %; Derrochador: 42,97 % ) y para aquellos que se encuadran en la clase 4 ( Ahorrador: 59,16 %; Derrochador: 40,84 % ). - 408 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 9 Probabilidades condicionadas y probabilidades de clase latente para el modelo restringido nº 1 Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Clase 1 0.0000 1.0000 0.5055 0.4945 0.7228 0.2772 0.5703 0.4297 0.7472 0.2528 0.164016 Clase 2 0.2573 0.7427 1.0000 0.0000 0.8204 0.1796 0.7192 0.2808 0.3540 0.6460 0.374274 Clase 3 0.7594 0.2406 0.4162 0.5838 0.0000 1.0000 0.9434 0.0566 0.2980 0.7020 0.060747 Clase 4 1.0000 0.0000 0.3372 0.6628 0.8971 0.1029 0.5916 0.4084 1.0000 0.0000 0.066336 Clase 5 0.8187 0.1813 0.7775 0.2225 0.9246 0.0754 0.8059 0.1941 0.0407 0.9593 0.334626 Dada la similitud observada entre estos dos grupos de probabilidades condicionadas, la aceptación o el rechazo de la igualdad entre las mismas podría llevarse a cabo proponiendo un modelo restringido en el que, además de las anteriores restricciones de valor específico, se impongan las siguientes restricciones de igualdad sobre las probabilidades condicionadas: CX CX H (6) 0 : Π14 = Π15 DX DX H (7) 0 : Π11 = Π14 La comparación entre este nuevo modelo restringido ( modelo nº 2 ) y el modelo restringido nº 1 se muestra a continuación: - 409 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Modelo restringido nº 1 Restricciones: -Valor específico Modelo restringido nº 2 Restricciones: -Valor específico -Igualdad de probabilidades condicionadas G 2 = 4.784949 χ 2 = 4.762189 9 g.l. Nº de iteraciones: 3.659 G 2 = 4.453510 χ 2 = 4.437214 7 g.l. Nº de iteraciones: 4.628 Diferencia de verosimilitud: G 2 = 4.784949 - 4.453510 = 0.331439 Diferencia en grados de libertad: 9 - 7 = 2 g.l. Valor de p: p = 0.8473 Decisión: Aceptación de las restricciones de igualdad de probabilidades condicionadas A la vista de los resultados obtenidos, podemos concluir a un nivel de significación del 5 % que las restricciones de igualdad impuestas contribuyen a mejorar el ajuste del modelo restringido nº 1. En consecuencia, el modelo restringido nº 2 es el que, hasta el momento, proporciona la mejor segmentación posible de la demanda turística española, cuyos parámetros estimados aparecen recogidos en la Tabla 10. Tabla 10 Probabilidades condicionadas y probabilidades de clase latente para el modelo restringido nº 2 Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Clase 1 0.0000 1.0000 0.5048 0.4952 0.7238 0.2762 0.5724 0.4276 0.7467 0.2533 0.162515 Clase 2 0.2298 0.7702 1.0000 0.0000 0.8200 0.1800 0.7169 0.2831 0.3558 0.6442 0.356944 - 410 - Clase 3 0.7575 0.2425 0.4110 0.5890 0.0000 1.0000 0.9410 0.0590 0.3251 0.6749 0.060424 Clase 4 1.0000 0.0000 0.3394 0.6606 0.9145 0.0855 0.5724 0.4276 1.0000 0.0000 0.063482 Clase 5 0.8173 0.1827 0.7841 0.2159 0.9145 0.0855 0.8043 0.1957 0.0606 0.9394 0.356636 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Un nuevo análisis de las estimaciones presentadas en la Tabla 10 desvela que las probabilidades de clase latente ( que son las que, en definitiva, determinan el tamaño de cada uno de los segmentos identificados ) correspondientes a las clases 3 y 4 son muy similares ( 6,04 % para la clase 3; 6,35 % para la clase 4 ). Esta misma circunstancia se observa también con las clases 2 y 5 ( 35,69 % para la clase 2; 35,66 % para la clase 5 ). En definitiva, parece ser que en la tipología obtenida, los segmentos 3 y 4 poseen el mismo tamaño relativo, y que los segmentos 2 y 5 son también de igual tamaño. Al objeto de determinar si puede admitirse la igualdad de tamaño entre estos dos pares de segmentos, impondremos las siguientes restricciones de igualdad sobre las probabilidades de clase latente del modelo restringido nº 2: X X H (8) 0 : Π3 = Π4 X X H (9) 0 : Π2 = Π5 Al estimar el modelo restringido obtenido al añadir las anteriores restricciones a las que se han impuesto previamente obtendremos un nuevo modelo restringido, que denominaremos modelo restringido nº 3. Si comparamos la verosimilitud de este modelo con la del modelo nº 2, podremos constatar que las dos restricciones que hemos impuesto contribuyen de forma sustancial a la mejora del ajuste del modelo restringido nº 2, razón por la que podemos concluir que, a un nivel de significación del 5 %, los segmentos 3 y 4, por un lado, y los segmentos 2 y 5, por otro lado, son del mismo tamaño. - 411 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Modelo restringido nº 2 Restricciones: -Valor específico -Igualdad de probabilidades condicionadas Modelo restringido nº 3 Restricciones: -Valor específico -Igualdad de probabilidades condicionadas -Igualdad de probabilidades de clase latente G 2 = 4.804116 χ 2 = 4.785797 11 g.l. Nº de iteraciones: 1.502 G 2 = 4.784949 χ 2 = 4.762189 9 g.l. Nº de iteraciones: 3.659 Diferencia de verosimilitud: G 2 = 4.804116 - 4.784949 = 0.019167 Diferencia en grados de libertad: 11 - 9 = 2 g.l. Valor de p: p = 0.9905 Decisión: Aceptación de las restricciones de igualdad de probabilidades de clase latente Tras este proceso de imposición sucesiva de restricciones de valor específico y de igualdad sobre las probabilidades condicionadas y de restricciones de igualdad sobre las probabilidades de clase latente, hemos alcanzado, finalmente, el modelo que proporciona una segmentación óptima de la demanda turística española. En lo sucesivo, denominaremos a este modelo nº 3 como modelo definitivo. Las probabilidades condicionadas y de clase latente estimadas correspondientes a este modelo se muestran en la Tabla 11. Este modelo definitivo arroja un valor del test de la razón de verosimilitud de G 2 = 4,804116 ( p = 0,9403 ) y del test de Pearson de χ 2 = 4,785797 ( p = 0,9411 ) con un total de 11 grados de libertad. Como podrá advertirse por los valores de p obtenidos en ambos casos, este modelo final se ajusta de una forma extraordinariamente satisfactoria a los valores observados recogidos en la tabla de contingencia inicial. De hecho, si se consulta el Anexo 2 se podrá comprobar cómo las - 412 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ diferencias entre las frecuencias observadas y las frecuencias esperadas estimadas son mínimas, hasta el punto de que una buena parte de los residuos estandarizados del modelo alcanzan valores absolutos muy próximos a cero. Tabla 11 Probabilidades condicionadas y probabilidades de clase latente para el modelo definitivo Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Clase 1 0.0000 1.0000 0.5018 0.4982 0.7244 0.2756 0.5709 0.4291 0.7488 0.2512 0.160783 Clase 2 0.2301 0.7699 1.0000 0.0000 0.8198 0.1802 0.7159 0.2841 0.3573 0.6427 0.357525 Clase 3 0.7550 0.2450 0.4172 0.5828 0.0000 1.0000 0.9378 0.0622 0.3245 0.6755 0.062083 Clase 4 1.0000 0.0000 0.3308 0.6692 0.9172 0.0828 0.5709 0.4291 1.0000 0.0000 0.062083 Clase 5 0.8153 0.1847 0.7842 0.2158 0.9172 0.0828 0.8044 0.1956 0.0634 0.9366 0.357525 La asignación de los turistas a una de las clases latentes definidas se realizará en función de la probabilidad modal. Es decir, para cada una de las 32 modalidades de respuesta posibles ( véase la Tabla 7 ), se calcula la probabilidad de pertenecer a cada una de las cinco clases, asignándose a cada modalidad aquella clase a la que se asocie mayor probabilidad. El proceso de asignación de los turistas a las cinco clases identificadas se muestra en la Tabla 12, en la que, además de indicarse la clase asociada a cada modalidad de respuesta, se reproduce entre paréntesis la probabilidad modal correspondiente. - 413 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 12 Asignación de los turistas a las cinco clases latentes definidas y probabilidades modales ( entre paréntesis ) VARIABLE A VARIABLE B VARIABLE C Independiente Ecologista Despreocupado Estático Independiente Cosmopolita Despreocupado Independiente Ecologista Despreocupado Dinámico Independiente Cosmopolita Despreocupado VARIABLE D Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador VARIABLE E Marchoso Tranquilo 2 ( 0.4457 ) 5 ( 0.8359 ) 4 ( 0.4611 ) 5 ( 0.7573 ) 3 ( 0.5095 ) 5 ( 0.4261 ) 2 ( 0.5255 ) 5 ( 0.4956 ) 4 ( 0.8809 ) 5 ( 1.0000 ) 4 ( 0.9581 ) 5 ( 1.0000 ) 3 ( 0.7885 ) 3 ( 0.8152 ) ( 0.7054 ) 4 3 ( 0.5462 ) 2 ( 0.6781 ) 2 ( 0.7016 ) 2 ( 0.5419 ) 2 ( 0.7331 ) 2 ( 0.5213 ) 2 ( 0.6862 ) 1 ( 0.5778 ) 2 ( 0.7243 ) ( 0.9738 ) 1 5 ( 0.5419 ) 1 ( 0.9914 ) 1 ( 0.7232 ) 1 ( 0.7739 ) 3 ( 0.5807 ) 1 ( 0.9734 ) 1 ( 0.8016 ) Por otra parte, al objeto de determinar el error cometido al asignar las clases latentes a los turistas, se han calculado también las dos medidas más utilizadas para este fin: la proporción correctamente clasificada y el coeficiente λ . Para el caso que nos ocupa, la proporción correctamente clasificada ( E1 ) es igual a 0,7288388. Este valor se encuentra relativamente próximo al valor 1, lo que significa que existe una relación bastante fuerte entre las variables manifiestas y la variable latente definida X, de lo que se puede inferir que la asignación de clases realizada es bastante correcta. Por su parte, el coeficiente λ es igual a 0,57794, lo que conduce a los mismos comentarios que los realizados para el coeficiente E1 . Tras el proceso de obtención de una segmentación de la demanda turística española, pasaremos a comentar las características esenciales de los cinco segmentos - 414 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ identificados. Estas características vienen dadas por los valores estimados de las probabilidades condicionadas y de las probabilidades de clase latente del modelo ACL, que han sido representadas en la Tabla 11. De esta forma, todo este proceso de análisis conduce a la siguiente propuesta de segmentación de la demanda turística española: - Turista social ( clase 1) ( 16,08 % de la población ): Se trata de un turista que jamás pasa sus vacaciones en un único lugar, sino que siempre recorre diferentes lugares, lo que permite considerarlo como un individuo con grandes inquietudes viajeras y con un gran afán por conocer sitios nuevos. Prefiere pasar sus vacaciones en lugares bulliciosos y es el grupo de turistas que, junto a los de la clase 4, menos repara en gastos durante sus vacaciones, ya que tiene una probabilidad de un 43 % de hacer todo aquello que le apetezca sin preocuparse en absoluto por los gastos que ello conlleve. Además, al igual que la mayoría de los segmentos identificados, casi siempre organiza las vacaciones por su cuenta ( 72 % ). Finalmente, no tiene una posición definida sobre los espacios abiertos o sobre los lugares urbanizados, ya que no se inclina claramente por uno de estos dos ambientes. - Turista ecológico ( clase 2 ) ( 35,75 % de la población ): Su característica más destacable es que siempre busca los espacios abiertos durante sus vacaciones, manifestándose, de esta forma, como un gran amante de la naturaleza. No posee un carácter tan dinámico como el turista social, pero se manifiesta claramente partidario ( 77 % ) de visitar diferentes lugares en su destino vacacional. A diferencia del turista social, el turista ecológico suele buscar lugares tranquilos, que no - 415 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ estén excesivamente masificados, para pasar sus vacaciones. Se trata de un individuo que, en la mayor parte de los casos, cuida sus gastos durante las vacaciones, procurando que los mismos no sobrepasen lo inicialmente previsto. Finalmente, también se manifiesta claramente partidario de organizar por su cuenta las vacaciones. - Turista pasivo ( clase 3 ) ( 6,21 % de la población ): Sin duda, la característica más llamativa de este tercer segmento es que nunca organiza las vacaciones por su cuenta, ya que tiene una probabilidad del 100 % de pasarlas con un grupo organizado, generalmente a través de una agencia de viajes. Se trata de un individuo totalmente despreocupado por la preparación de sus vacaciones, lo que invita a calificarlo como turista pasivo. Otra característica muy definida de este tipo de turista es que es, con gran diferencia, el que más se preocupa de sus gastos durante las vacaciones, ya que tiene una probabilidad cercana al 94 % de no sobrepasar el presupuesto destinado a tal fin. A diferencia del turista social y del turista ecológico, el turista pasivo se manifiesta claramente partidario de permanecer en un solo lugar durante todas sus vacaciones, ya que la probabilidad de moverse de un sitio a otro durante dicho período es tan solo de un 25 %. Por último, es un individuo al que no le gustan los destinos turísticos muy masificados ( 32,45 % ), aunque prefiere aquellas zonas turísticas que pongan a su disposición todos los servicios que aquellas que ofertan un contacto directo con la naturaleza. - 416 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Turista por entretenimiento puro ( clase 4 ) ( 6,21 % de la población ): Aunque el tamaño de este segmento es el mismo que el de los turistas pasivos, las diferencias existentes entre ambos segmentos son bastante acusadas. Así, el turista por entretenimiento puro busca siempre sitios animados, donde pueda relacionarse con mucha gente, hasta el punto de que jamás busca lugares aislados o poco concurridos, a diferencia de lo que ocurría con el turista pasivo. Otra característica destacada de este tipo de turistas es que es el segmento más estático de todos los definidos, ya que jamás visitará diferentes lugares durante sus vacaciones, sino que, más bien al contrario, elegirá un destino turístico y pasará todas sus vacaciones en él. Por otra parte, es el tipo de turista al que, junto al turista social, menos le preocupan los gastos que les ocasionen sus vacaciones. Además, es el que más claro tiene ( junto a la quinta y última clase ) que las vacaciones debe organizarlas el propio turista, diseñándolas a su manera ( 91,72 % ). Por último, tiene una probabilidad de un 67 % de elegir lugares urbanizados con un nivel de servicios aceptable para pasar sus vacaciones. - Turista recreativo ( clase 5 ) ( 35,75 % de la población ): Aunque se trata del segmento de mayor tamaño junto al de turistas ecológicos, existen algunas diferencias dignas de mención con respecto a estos últimos. Así, el turista recreativo es el que mayor probabilidad tiene de elegir para sus vacaciones lugares tranquilos y poco concurridos ( 93,66 % ), mientras que los turistas ecológicos, aun cuando también prefieren las zonas poco frecuentadas a las zonas turísticas masificadas, tan sólo tienen un 64,27 % de probabilidad de decantarse por las primeras. Se trata, por otra parte, de una clase de turista que otorga una gran importancia al - 417 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ control de sus gastos ( 80,44 % ). Otra característica digna de mención es, al igual que los turistas por entretenimiento puro, su espíritu eminentemente estático, ya que la probabilidad de que los turistas de este segmento se muevan por diferentes lugares no alcanza ni siquiera un 19 %. Son, junto a los turistas ecológicos, los que más interés muestran por los espacios abiertos y más importancia otorgan al contacto con la naturaleza ( 78,42 % ). Finalmente, suelen ser muy autodidactas en la organización de sus vacaciones, ya que la probabilidad de que estos turistas diseñen las vacaciones por sí mismos es, junto a la de los turistas por entretenimiento puro, la más elevada de todos los segmentos definidos ( 91,72 % ). Una vez realizada esta segmentación de la demanda turística española, podría resultar sumamente interesante caracterizar de forma algo más completa los segmentos definidos, analizando para ello otras variables auxiliares como la Comunidad Autónoma de residencia, el tamaño del hábitat, la edad, el nivel de estudios, el nivel de ingresos, el status económico, el número de miembros del hogar familiar, el sexo o el estado civil. De esta forma, la distribución de los cinco tipos de turistas definidos en función de las variables citadas se recoge en la Tabla 13. A partir de los valores recogidos en la misma, se pueden realizar los siguientes comentarios: a) Comunidad Autónoma: - La mayor presencia de turistas madrileños se registra entre los turistas ecológicos ( 19,75 % ) y entre los turistas recreativos ( 16,53 % ). Muy similar es la - 418 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ participación de los turistas catalanes en estos tipos de turistas, aunque destaca especialmente su liderazgo entre los turistas recreativos, ya que representan la quinta parte de este colectivo. - Frente a los turistas madrileños y catalanes, los turistas de Andalucía tienen su mayor protagonismo entre los turistas sociales ( 18,15 % del total ) y entre los turistas pasivos ( 16,85 % ), especialmente entre estos últimos, ya que la presencia de los turistas andaluces en este tercer segmento es la más elevada de todas las Comunidades Autónomas. Un comportamiento similar al de los turistas andaluces se observa en los turistas de la Comunidad Valenciana. - También es digna de mención la presencia de turistas castellano-leoneses entre los turistas pasivos ( segmento en el que ostentan una participación relativa del 14,04 %, sólo superada por los turistas andaluces y catalanes ) y entre los turistas por entretenimiento puro ( donde los turistas de esta Comunidad Autónoma representan el 14,07 % del total, situándose tras los turistas catalanes y al mismo nivel que los turistas madrileños ). b) Tamaño del hábitat: - Aunque los turistas residentes en ciudades de menos de 100.000 habitantes son mayoría en prácticamente todos los grupos, destaca especialmente la presencia de estos turistas entre el segmento de turistas pasivos ( 62,36 % ). - 419 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 13 Distribución de los cinco segmentos identificados según diferentes variables auxiliares Comunidad Autónoma: Andalucía Aragón Asturias ( Principado de ) Baleares ( Islas ) Canarias Cantabria Castilla La Mancha Castilla y León Cataluña Comunidad Valenciana Extremadura Galicia Madrid ( Comunidad de ) Murcia ( Región de ) Navarra ( Comunidad Foral ) País Vasco Rioja ( La ) Tamaño del hábitat: Ciudad pequeña Ciudad mediana Ciudad grande Edad: Individuo joven Individuo menos joven Individuo maduro Individuo anciano Nivel de estudios: Sin instrucción/est. primarios Con estudios secundarios Con estudios superiores NS/NC Nivel de ingresos: Ingresos bajos Ingresos medios Ingresos altos NS/NC Status económico: Trabajador Desempleado No activo económicamente Jubilado o pensionista NS/NC Continúa ... Turista Social Turista Ecológico Turista pasivo Turista entret. puro Turista recreativo 18,15 % 4,27 % 3,56 % 1,42 % 3,56 % 0,36 % 4,27 % 7,83 % 12,81 % 12,81 % 2,13 % 5,70 % 13,17 % 2,13 % 1,07 % 6,05 % 0,71 % 13,38 % 3,15 % 1,82 % 0,98 % 3,43 % 0,42 % 3,57 % 6,72 % 18,14 % 11,35 % 1,12 % 5,39 % 19,75 % 2,03 % 1,82 % 6,44 % 0,49 % 16,85 % 2,81 % 3,93 % 1,69 % 1,12 % 1,12 % 5,62 % 14,04 % 14,61 % 12,36 % 2,81 % 5,06 % 9,55 % 2,81 % 1,69 % 3,93 % 0,00 % 12,56 % 5,02 % 5,02 % 3,52 % 1,01 % 0,50 % 5,53 % 14,07 % 15,58 % 5,53 % 4,52 % 3,52 % 14,07 % 3,52 % 2,01 % 4,02 % 0,00 % 10,52 % 3,80 % 2,39 % 1,15 % 2,48 % 0,27 % 2,56 % 7,07 % 20,60 % 11,41 % 1,50 % 5,31 % 16,53 % 2,65 % 1,06 % 10,52 % 0,18 % 50,53 % 26,62 % 23,85 % 48,39 % 25,00 % 26,61 % 62,36 % 19,66 % 17,98 % 55,78 % 20,60 % 23,62 % 46,77 % 25,73 % 27,50 % 32,03 % 42,35 % 18,50 % 7,12 % 22,69 % 44,47 % 23,74 % 9,10 % 10,11 % 15,17 % 34,83 % 39,89 % 24,63 % 42,71 % 26,13 % 6,53 % 7,96 % 35,72 % 34,92 % 21,40 % 44,84 % 34,87 % 19,93 % 0,36 % 48,18 % 30,60 % 20,03 % 1,19 % 82,02 % 13,48 % 4,50 % - 48,74 % 31,16 % 19,60 % 0,50 % 64,72 % 19,36 % 15,21 % 0,71 % 34,52 % 28,11 % 11,03 % 26,34 % 37,61 % 26,26 % 8,54 % 27,59 % 57,87 % 17,98 % 1,12 % 23,03 % 28,64 % 29,65 % 5,03 % 36,68 % 42,71 % 22,81 % 6,45 % 28,03 % 48,40 % 11,74 % 28,82 % 10,68 % 0,36 % 47,27 % 12,05 % 27,59 % 12,25 % 0,84 % 24,16 % 6,18 % 32,58 % 36,52 % 0,56 % 54,27 % 8,54 % 29,15 % 7,54 % 0,50 % 41,03 % 8,40 % 26,70 % 22,99 % 0,88 % - 420 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Viene de la página anterior ... Nº miembros hogar familiar: Familia sin hijos Familia con 1-2 hijos Familia numerosa NS/NC Sexo: Hombre Mujer Estado civil: Soltero Casado Separado Divorciado Viudo NS/NC Turista Social Turista Ecológico Turista pasivo Turista entret. puro Turista recreativo 25,62 % 54,80 % 19,22 % 0,36 % 24,51 % 51,82 % 22,76 % 0,91 % 55,06 % 31,46 % 13,48 % - 25,13 % 56,28 % 18,09 % 0,50 % 28,65 % 51,81 % 18,30 % 1,24 % 43,77 % 56,23 % 48,74 % 51,26 % 32,58 % 67,42 % 53,77 % 46,23 % 48,89 % 51,11 % 46,26 % 49,47 % 0,71 % 1,07 % 2,49 % - 37,40 % 56,65 % 1,61 % 0,42 % 3,78 % 0,14 % 22,47 % 61,80 % 1,13 % 0,56 % 13,48 % 0,56 % 36,68 % 56,78 % 2,01 % 3,52 % 1,01 % 15,21 % 75,42 % 0,80 % 0,35 % 7,87 % 0,35 % - La importancia relativa de los turistas que residen en mesópolis está bastante equilibrada en los cinco segmentos, aunque cabe señalar su mayor presencia entre los turistas sociales y recreativos. - Los turistas residentes en grandes urbes son algo más abundantes entre los turistas recreativos ( 27,50 % ) y entre los turistas ecológicos ( 26,61 % ) que en el resto de segmentos identificados. c) Edad: - La mayor presencia de los turistas menores de 24 años se produce entre los turistas sociales ( 32,03 % ), aunque lo más llamativo es su escasez entre los turistas recreativos ( 7,96 % ) y entre los turistas pasivos ( 10,11 % ). - 421 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - El comportamiento de los turistas que tienen entre 25 y 44 años es similar al de los turistas anteriores, ya que su mayor protagonismo se alcanza entre los turistas ecológicos, sociales y de entretenimiento puro, mientras que en los dos segmentos restantes su presencia es considerablemente menor, en especial en el segmento de turistas pasivos ( sólo representan un 15,17 % del total ). - La nota más destacada de los turistas cuya edad se sitúa en la franja de 45-64 años y de aquellos otros que superan los 65 años es su liderazgo entre los turistas pasivos ( 39,89 % los segundos y 34,83 % los primeros ) y entre los turistas recreativos ( 34,92 % los primeros y 21,40 % los segundos ). d) Nivel de estudios: - La presencia de individuos sin instrucción o sólo con estudios primarios es abrumadora entre los turistas pasivos ( 82,02 % ) y entre los recreativos ( 64,72 % ). - El mayor nivel de instrucción corresponde a los turistas sociales, donde un 34,87 % posee estudios secundarios y un 19,93 % posee estudios superiores. - Los segmentos de turistas ecológicos y de turistas por entretenimiento puro poseen una distribución, en función del nivel de estudios, prácticamente idéntica: en torno a un 48 % de individuos sin instrucción o sólo con estudios primarios, algo más - 422 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ del 30 % de turistas con estudios secundarios, y en torno al 20 % de turistas con estudios superiores. e) Nivel de ingresos: - Los individuos con un bajo nivel de ingresos son mayoría entre los turistas pasivos ( 57,87 % ) y representan un porcentaje sobre el total bastante importante entre los turistas recreativos ( 42,71 % ). - Los segmentos en los que los individuos con ingresos medios tienen una mayor presencia son los correspondientes a los turistas sociales ( 28,11 % ) y a los turistas por entretenimiento puro ( 29,65 % ). - La presencia de turistas con ingresos elevados es muy escasa entre los turistas pasivos ( sólo representan un 1,12 % del total ), entre los turistas por entretenimiento puro ( 5,03 % ) y entre los turistas recreativos ( 6,45 % ). El segmento de turistas sociales es en el que los individuos con ingresos más elevados alcanzan una mayor representatividad ( 11,03 % ). - El elevado porcentaje de individuos que no se manifiestan en relación a su nivel de ingresos hace que los comentarios anteriores deban ser tomados con suma prudencia. - 423 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ f) Status económico: - Los turistas que trabajan son mayoría en todos los segmentos, a excepción del corespondiente a los turistas pasivos. Destaca especialmente su presencia entre los turistas por entretenimiento puro ( 54,27 % ) y entre los turistas sociales ( 48,40 % ). - Los jubilados y pensionistas tienen una escasa presencia entre los turistas sociales, ecológicos y por entretenimiento puro, pero, por el contrario, son los que mayor peso tienen entre los turistas pasivos ( 36,52 % ). - La presencia de desempleados en todos los segmentos definidos es poco representativa, y oscila entre un 6,18 % entre los turistas pasivos y un 12,05 % entre los turistas ecológicos. - Los individuos no activos económicamente son, después de los trabajadores, el grupo más frecuente en cuatro de los cinco segmentos, siendo en el segmento de turistas pasivos donde alcanzan un mayor protagonismo, toda vez que representan el 32,58 % del total, sólo superados ligeramente por los jubilados y pensionistas. g) Número de miembros del hogar familiar: - Con carácter general, las familias con 1 o 2 hijos son las que predominan en la mayoría de los segmentos. En algunos segmentos, como en el de los turistas por - 424 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ entretenimiento puro, llegan a alcanzar el 56,28 % del total. Por el contrario, son poco representativas entre el segmento de turistas pasivos, donde sólo 31 de cada 100 turistas pertenecen a familias con 1 o 2 hijos. - Las familias sin hijos son mayoría entre los turistas pasivos, ya que representan en 55,06 % del total. En los restantes segmentos, su participación relativa se sitúa en torno al 25 %. - Las familias numerosas son las que menor presencia tienen en todos los segmentos, aunque destaca su elevada participación entre los turistas ecológicos, segmento en el que se sitúan prácticamente al nivel de las familias sin hijos, y su escaso peso entre los turistas pasivos, ya que sólo 13 de cada 100 de estos turistas pertenecen a familias numerosas. h) Sexo: - No existen diferencias significativas entre hombres y mujeres en los segmentos de turistas ecológicos y de turistas recreativos. - Destaca la mayor presencia de mujeres en los segmentos de turistas pasivos y de turistas sociales, en los cuales representan el 67,42 % y el 56,23 % del total de individuos. - 425 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - El único segmento en el que la presencia de hombres es mayor que la de mujeres es en el de turistas por entretenimiento puro, donde los primeros representan el 53,77 % del total. i) Estado civil: - Los turistas casados son mayoría en todos los segmentos, llegando a representar las tres cuartas del total en el segmento de turistas recreativos y un porcentaje ligeramente superior al 60 % entre los turistas pasivos. - Tras ellos, los turistas solteros alcanzan una presencia similar, si bien ligeramente inferior, a la de los turistas casados en el segmento de turistas sociales, mientras que en otros segmentos, en especial en el de turistas pasivos y en el de turistas recreativos, su participación es escasamente representativa ( 22,47 % y 15,21 %, respectivamente ). - La presencia de separados y divorciados en los cinco segmentos se puede considerar como puramente anecdótica. - También es muy escasa la presencia de individuos viudos en todos los segmentos, con la excepción del correspondiente al de los turistas pasivos, ya que, en este segmento, los viudos llegan a alcanzar el 13,48 % del total. - 426 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ En la distribución de los cinco segmentos identificados según diferentes variables, hemos podido constatar que, en el análisis de la variable edad, los turistas menores de 45 años ( individuos jóvenes: 24 años o menos; e individuos menos jóvenes: 25-44 años ) tienen un mayor protagonismo entre los turistas sociales, los turistas ecológicos y los turistas por entretenimiento puro, que tienen en común una alta probabilidad de recorrer diferentes lugares durante sus vacaciones ( los dos primeros segmentos ) y de preferir lugares concurridos ( el primero y último de estos tres segmentos ). Esto parece indicar que los turistas con menos de 45 años tienen un carácter más “dinámico” y “marchoso” que el resto de turistas. Por su parte, se observa una presencia preponderante de los turistas de 45 años o más ( individuos maduros: 45-64 años; e individuos ancianos: 65 años o más ) entre los turistas pasivos y los turistas recreativos, que se caracterizan, entre otras cosas, por permanecer en un único sitio durante sus vacaciones y por elegir lugares tranquilos que no estén excesivamente masificados. En definitiva, parece ser que los turistas con 45 o más años son más “estáticos” y más “tranquilos” que el resto de turistas. De estos comentarios se puede deducir que la variable edad11 podría introducir diferencias apreciables en la segmentación de la demanda turística española, que podrían quedar ocultas en la segmentación global que se ha realizado. Dicho en otros términos, podría estar ocurriendo que tanto el tamaño de cada segmento como las 11 El análisis estadístico que se va a realizar tomando como referencia la variable edad, podría realizarse también a partir de las demás variables auxiliares, siempre que exista indicio de que las mismas pueden estar ocultando diferencias importantes en la segmentación. - 427 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ características de cada uno de ellos fuesen diferentes en función de que la segmentación se lleve a cabo considerando únicamente a los turistas menores de 45 años o a los turistas con 45 o más años. Al objeto de detectar si existen o no diferencias en la segmentación según la edad del turista, recurriremos al análisis de estructura latente simultáneo. Para ello, vamos a diferenciar dos grupos claramente diferenciados: por un lado, el grupo de turistas menores de 45 años, y por otro lado, el grupo de turistas con 45 años o más. Uitilizando las mismas variables manifiestas de la segmentación global, la clasificación cruzada de las mismas para los dos grupos establecidos se muestra en las Tablas 14.A y 14.B. Al igual que en la segmentación global, supondremos la existencia de una variable latente, el comportamiento turístico, que explicará la asociación existente entre los indicadores considerados para ambos grupos. El proceso de segmentación de los dos grupos definidos se inicia, al igual que en la segmentación global, con la contrastación del modelo de independencia completa, ya que si este modelo no fuese rechazado a un nivel de significación α , la variable latente en cuestión sólo poseería una clase, lo que significaría que ni el grupo de turistas menores de 45 años ni el grupo de turistas con 45 años o más podría ser objeto de segmentación, lo que nos conduciría, a su vez, a concluir el análisis, ya que no sería posible ningún tipo de comparación entre estos dos grupos. - 428 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 14.A Turistas menores de 45 años VARIABLE A VARIABLE B VARIABLE C Independiente Ecologista Despreocupado Estático Independiente Cosmopolita Despreocupado Independiente Ecologista Despreocupado Dinámico Independiente Cosmopolita Despreocupado Tamaño muestral: 1.841 entrevistas VARIABLE D Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador VARIABLE E Marchoso Tranquilo 84 265 44 97 14 27 6 12 46 49 41 13 8 10 3 3 211 300 110 143 42 43 32 20 66 10 49 23 18 31 17 4 Tabla 14.B Turistas con 45 años o más VARIABLE A VARIABLE B VARIABLE C Independiente Ecologista Despreocupado Estático Independiente Cosmopolita Despreocupado Independiente Ecologista Despreocupado Dinámico Independiente Cosmopolita Despreocupado Tamaño muestral: 1.376 entrevistas VARIABLE D Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador Ahorrador Derrochador - 429 - VARIABLE E Marchoso Tranquilo 40 346 13 63 24 77 3 13 35 91 12 21 25 60 5 3 58 173 24 47 46 65 6 13 16 26 12 7 18 21 8 5 Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Al estimar el modelo de independencia completa, se han obtenido los resultados siguientes: Modelo Independencia completa G2 p χ2 p g.l. 848,642000 0,0000 945,948500 0,0000 57 A la vista de estos resultados, podemos rechazar el modelo de independencia completa, tanto a un nivel de significación del 1 % como del 5 %. Esto significa que los dos grupos establecidos pueden ser segmentados, ya que la asociación entre las variables manifiestas en ambos grupos está explicada por una misma variable latente: el comportamiento turístico. En consecuencia, la comparación de las segmentaciones obtenidas en ambos grupos permitirá verificar si el comportamiento turístico de los mismos presenta diferencias dignas de mención. El siguiente paso consistirá en determinar el número óptimo de clases latentes en cada grupo. Para ello, bastará estimar un modelo heterogéneo no restringido de T clases, teniendo presente que, en este caso, T deberá ser un número par, ya que se están considerando dos grupos. Es decir, dado que el número de clases latentes de cada grupo debe ser el mismo para que las comparaciones entre ellos sean posibles, el mínimo valor de T será 4 ( 2 clases en el primer grupo y 2 clases en el segundo, lo que resulta en un total de 4 clases latentes ). Si se segmentara cada grupo en 3 clases, T sería igual a 6; si se segmentara en 4 clases, T sería igual a 8, etc. - 430 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Teniendo en cuenta lo anterior, la estimación del modelo heterogéneo para diferentes valores de T arrojó los resultados que se muestran a continuación: Modelo G 2 p χ 2 p g.l. Nº iteraciones Modelo heterogéneo con 4 clases ( 2 clases cada grupo ) 142,065800 0,0000 143,589700 0,0000 41 1.248 Modelo heterogéneo con 6 clases ( 3 clases cada grupo ) 48,949380 0,0159 46,207660 0,0297 30 2.327 Modelo heterogéneo con 8 clases ( 4 clases cada grupo ) 20,067170 0,5788 20,048470 0,5800 22 4.874 Modelo heterogéneocon 10 clases ( 5 clases cada grupo ) 8,225187 0,9419 8,272391 0,9403 16 15.776 A la vista de estos resultados, podemos concluir que el modelo heterogéneo de 10 clases latentes es el que proporciona un mejor ajuste. Por consiguiente, cada uno de los dos grupos considerados se puede segmentar en cinco clases. La estimación de las probabilidades condicionadas, de las probabilidades de clase latente y de las probabilidades de clase latente condicionadas nos permitirá comparar tanto el tamaño relativo de las cinco clases en los dos grupos como las singularidades de uno y de otro grupo. Estas estimaciones se muestran en las Tablas 15.A y 15.B. Si se analizan detenidamente las estimaciones obtenidas para los dos grupos considerados, se podrá observar que existen algunos valores bastante similares, tanto si se considera un solo grupo como si se comparan ambos grupos. Al objeto de verificar si se puede admitir la igualdad entre estos valores, efectuaremos los siguientes análisis: - 431 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 15.A Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas para el modelo heterogéneo Grupo: turistas menores de 45 años Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1491 0.8509 0.6976 0.3024 0.7810 0.2190 0.5619 0.4381 0.7302 0.2698 0.235055 Clase 2 0.5017 0.4983 1.0000 0.0000 0.9071 0.0929 1.0000 0.0000 0.1914 0.8086 0.213103 Clase 3 0.8422 0.1578 0.0000 1.0000 0.8404 0.1596 0.8609 0.1391 0.4071 0.5929 0.039158 Clase 4 1.0000 0.0000 0.4678 0.5322 1.0000 0.0000 0.0814 0.9186 1.0000 0.0000 0.017511 Clase 5 0.4740 0.5260 0.9708 0.0292 0.9096 0.0904 0.0026 0.9974 0.0000 1.0000 0.067446 0.410739 0.372380 0.068425 0.030599 0.117856 Tabla 15.B Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas para el modelo heterogéneo Grupo: turistas con 45 años o más Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1868 0.8132 0.7577 0.2423 0.0000 1.0000 0.8616 0.1384 0.4506 0.5494 0.053973 Clase 2 0.1118 0.8882 1.0000 0.0000 1.0000 0.0000 0.7139 0.2861 0.4019 0.5981 0.055569 Clase 3 1.0000 0.0000 0.2994 0.7006 0.3542 0.6458 1.0000 0.0000 0.2840 0.7160 0.041240 Clase 4 0.7602 0.2398 0.8345 0.1655 0.8706 0.1294 0.8398 0.1602 0.0748 0.9252 0.233532 Clase 5 0.5354 0.4646 0.2438 0.7562 0.7461 0.2539 0.5742 0.4258 0.7235 0.2765 0.043414 0.126185 0.129917 0.096416 0.545982 0.101499 - 432 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ a) Análisis intragrupal: a.1.) Para el grupo de turistas menores de 45 años: Se observa que la probabilidad de que el turista organice las vacaciones por su cuenta es muy similar para las clases 2 ( 90,71 % ) y 5 ( 90,96 % ). Para contrastar si estas dos probabilidades son iguales, impondremos la siguiente restricción de igualdad: C GX C GX H (10) 0 : Π112 = Π115 De forma similar al proceso de segmentación global, para contrastar la anterior hipótesis bastará estimar el modelo heterogéneo en el que se ha impuesto dicha restricción contra el modelo heterogéneo no restringido, comparando los valores del test de la razón de verosimilitud de ambos modelos. El resultado de esta comparación es el que se muestra en la página siguiente. Como se puede observar, la hipótesis de igualdad de probabilidades condicionadas correspondiente a la variable C para las clases 2 y 5 del grupo de turistas menores de 45 años no puede rechazarse ni a un 1 % ni a un 5 % de nivel de significación. Las estimaciones del modelo heterogéneo restringido nº 1 aparecen recogidas en el Anexo 3. - 433 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Modelo heterogéneo no restringido G 2 = 8.225187 χ 2 = 8.272391 16 g.l. Nº de iteraciones: 15.776 Diferencia de verosimilitud: G 2 = 8.232835 - 8.225187 = 0.007648 Diferencia en grados de libertad: 17 - 16 = 1 g.l. Valor de p: p = 0.9303 Decisión: Aceptación de la hipótesis H (10) 0 . Modelo heterogéneo restringido nº 1 Restricciones: -Intragrupal 1. G 2 = 8.232835 χ 2 = 8.280670 17 g.l. Nº de iteraciones: 17.013 a.2.) Para el grupo de turistas con 45 años o más: Tanto en el modelo no restringido como en el modelo restringido nº 1 ( véase el Anexo 3 ) se observa que las probabilidades de clase latente ( y, por tanto, las probabilidades de clase latente condicionadas ) de las clases 1 y 2, por un lado, y de las clases 3 y 5, por otro lado, son muy similares. Esta circunstancia parece ser un síntoma de que las clases 1 y 3 poseen el mismo tamaño relativo que las clases 2 y 5, respectivamente. Para contrastar esta hipótesis, impondremos al modelo restringido nº 1 las dos siguientes restricciones de igualdad, las cuales darán lugar al que llamaremos modelo restringido nº 2: GX GX H (11) 0 : Π 21 = Π 22 GX GX H (12) 0 : Π 23 = Π 25 - 434 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Al comparar los modelos restringidos números 1 y 2 se han obtenido los siguientes resultados: Modelo heterogéneo restringido nº 1 Restricciones: -Intragrupal 1. G 2 = 8.232835 χ 2 = 8.280670 17 g.l. Nº de iteraciones: 17.013 Diferencia de verosimilitud: G 2 = 8.242198 - 8.232835 = 0.009363 Diferencia en grados de libertad: 19 - 17 = 2 g.l. Valor de p: p = 0.9953 Decisión: Aceptación de las hipótesis H (11) y H (12) . 0 0 Modelo heterogéneo restringido nº 2 Restricciones: -Intragrupal 1. -Intragrupal 2. G 2 = 8.242198 χ 2 = 8.296893 19 g.l. Nº de iteraciones: 17.013 A la vista de estos resultados, podemos admitir, tanto a un 1 % como a un 5 % de nivel de significación, que en el grupo de turistas con 45 años o más, las clases 1 y 3 tienen el mismo tamaño relativo que las clases 2 y 5, respectivamente. Las estimaciones de este modelo restringido nº 2 se encuentran también en el Anexo 3. Por otra parte, debemos advertir que tanto el modelo restringido nº 1 como el modelo restringido nº 2 son modelos de heterogeneidad completa, puesto que las restricciones que hasta el momento se han impuesto son de naturaleza intragrupal. - 435 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ b) Análisis intergrupal: Si se comparan las probabilidades estimadas para los dos grupos considerados una vez impuestas las anteriores restricciones intragrupales ( estimaciones del modelo restringido nº 2 recogidas en el Anexo 3 ), se aprecia que la probabilidad de clase latente de la clase 1 del grupo de turistas menores de 45 años es prácticamente igual a la probabilidad de clase latente de la clase 4 del grupo de turistas con 45 años o más. Algo parecido ocurre con la probabilidad de la clase 3 del grupo de turistas menores de 45 años y con la probabilidad de la clase 3 del grupo de turistas con 45 años o más ( ambas probabilidades se sitúan en torno al 4 % ). Este hecho hace sospechar que las clases 1 y 3 del primer grupo de turistas sean del mismo tamaño que las clases 4 y 3, respectivamente, del segundo grupo de turistas ( lo que no significa necesariamente que el tamaño relativo de las clases que están siendo comparadas tenga por qué ser igual en los dos grupos ). Para verificar esta hipótesis, se impondrán las siguientes restricciones de homogeneidad, que darán origen a un nuevo modelo ( modelo restringido nº 3 ), que será ya un modelo de homogeneidad parcial, y al que denominaremos modelo M 0 : GX GX H (13) 0 : Π11 = Π 24 GX GX H (14) 0 : Π13 = Π 23 Para determinar si las dos restricciones anteriores contribuyen de forma significativa a la mejora del ajuste del modelo restringido nº 2, calcularemos la - 436 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ diferencia de verosimilitud entre este último modelo y el modelo de homogeneidad parcial M 0 : Modelo heterogéneo restringido nº 2 Restricciones: -Intragrupal 1. -Intragrupal 2. G 2 = 8.242198 χ 2 = 8.296893 19 g.l. Nº de iteraciones: 17.013 Diferencia de verosimilitud: G 2 = 8.269212 - 8.242198 = 0.027014 Diferencia en grados de libertad: 20 - 19 = 1 g.l. Valor de p: p = 0.8694 Decisión: Aceptación de las hipótesis H (13) y H (14) . 0 0 Modelo restringido nº 3 ( M 0 ) Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 La comparación entre estos dos modelos restringidos pone de manifiesto que tampoco pueden rechazarse las dos restricciones intergrupales anteriores, tanto a un nivel de significación del 1 % como del 5 %. Por consiguiente, el modelo que, por el momento, arroja una segmentación óptima de los dos grupos considerados, es el modelo de homogeneidad parcial M 0 . c) Modelos de homogeneidad parcial y global: Siguiendo a Clogg y a Goodman ( 1985 ), se pueden imponer varios conjuntos de restricciones de homogeneidad sobre el modelo M 0 , que dan lugar a diferentes - 437 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ modelos de homogeneidad. A continuación, formularemos algunos de estos modelos y procederemos a verificar si alguno ( o varios ) de ellos contribuye de forma significativa a mejorar el ajuste del citado modelo M 0 . c.1.) Modelo de homogeneidad parcial M 1 : Surge cuando se imponen las siguientes restricciones de homogeneidad12: GX GX H 0(15) : Π11 = Π 21 GX Π12 = Π G22X GX Π13 = Π G23X GX Π14 = Π G25X GX Π15 = Π G24X La hipótesis H 0(15) es una hipótesis de homogeneidad en clases latentes, que establece que las cinco clases definidas poseen el mismo tamaño en los dos grupos. 12 En todas las hipótesis de homogeneidad que serán formuladas, se identifican las clases 1, 2 y 3 del grupo de turistas menores de 45 años con las clases 1, 2 y 3, respectivamente, del grupo de turistas con 45 años o más, ya que en ambos grupos, como más tarde se podrá constatar, la clase 1 corresponde a los turistas sociales, la clase 2 a los turistas ecológicos y la clase 3 a los turistas pasivos. Por el contrario, la clase 4 del primer grupo de turistas se identifica con la clase 5 del segundo grupo, puesto que estas dos clases son las correspondientes a turistas por entretenimiento puro en ambos grupos. De forma similar, se identificará la clase 5 del grupo de turistas menores de 45 años con la clase 4 del grupo de turistas con 45 años o más, ya que estas dos clases representan a los turistas recreativos en cada uno de los dos grupos considerados. - 438 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ La contrastación de este modelo ha arrojado los siguientes resultados: Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 82.466350 - 8.269212 = 74.197138 Diferencia en grados de libertad: 21 - 20 = 1 g.l. Valor de p: p = 0.0000 Decisión: Rechazo de la hipótesis H 0(15) . Modelo homogéneo M1 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en clases latentes. G 2 = 82.466350 χ 2 = 81.506300 21 g.l. Nº de iteraciones: 14.248 A la vista de los resultados obtenidos, deberemos rechazar la hipótesis de homogeneidad en clases latentes, tanto a un 1 % como a un 5 % de nivel de significación. En consecuencia, podemos admitir que los segmentos definidos tienen distinto tamaño en los dos grupos estudiados, de forma que el tamaño relativo de la clase 1 es diferente en el grupo de turistas menores de 45 años que en el grupo de los que superan esta edad, siendo este comentario válido para las restantes clases de ambos grupos. - 439 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ c.2.) Modelo de homogeneidad parcial M 2 : Este modelo de homogeneidad aparece cuando se imponen las siguientes restricciones sobre el modelo M 0 : AGX AGX = Π121 H 0(16) : Π111 AGX AGX Π112 = Π122 AGX AGX Π113 = Π123 AGX AGX Π114 = Π125 AGX AGX Π115 = Π124 Como puede observarse, la hipótesis H 0(16) conjetura la homogeneidad en las probabilidades condicionadas asociadas a la variable manifiesta A, lo que significa que la probabilidad de que un turista de la clase t ( para t = 1, 2, 3, 4, 5 ) prefiera un único lugar para pasar las vacaciones o prefiera recorrer diferentes lugares es la misma en el grupo de turistas menores de 45 años que en el grupo de turistas con 45 años o más. Para verificar si esta hipótesis es admisible se han realizado los cálculos que se muestran en el cuadro de la página siguiente. Estos resultados ponen de manifiesto que debe rechazarse la hipótesis de homogeneidad en las probabilidades condicionadas asociadas a la variable A a un nivel de significación del 1 % o del 5 %. Por consiguiente, el modelo de homogeneidad - 440 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ parcial M 2 no contribuye de forma sustancial a mejorar el ajuste del modelo M 0 . Las mismas restricciones de homogeneidad que se han impuesto sobre la variable A pueden formularse sobre las restantes variables observadas del modelo, dando lugar, de esta forma, a los modelos de homogeneidad parcial M 3 , M 4 , M 5 y M 6 , que pasaremos a contrastar a continuación. Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 32.200120 - 8.269212 = 23.930908 Diferencia en grados de libertad: 21 - 20 = 1 g.l. Valor de p: p = 0.0000 Decisión: Rechazo de la hipótesis H 0(16) . Modelo homogéneo M2 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en probabilidades condicionadas de la variable A. G 2 = 32.200120 χ 2 = 32.163890 21 g.l. Nº de iteraciones: 3.134 c.3.) Modelo de homogeneidad parcial M 3 : Se podría conjeturar que para la clase t del grupo de turistas menores de 45 años la probabilidad de elegir espacios abiertos que permitan un contacto directo con la naturaleza es la misma para la clase t ( teniendo presente los comentarios realizados en - 441 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ la nota a pie de página nº 13 ) del grupo de turistas con 45 años o más. Esta conjetura se traduce en la siguiente hipótesis de homogeneidad parcial: BGX BGX H 0(17) : Π111 = Π121 BGX BGX Π112 = Π122 BGX BGX Π113 = Π123 BGX BGX Π114 = Π125 BGX BGX Π115 = Π124 Para contrastar la anterior hipótesis, calcularemos la diferencia de verosimilitud entre el modelo inicial M 0 y el nuevo modelo M 3 : Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 18.154320 - 8.269212 = 9.885108 Diferencia en grados de libertad: 22 - 20 = 2 g.l. Valor de p: p = 0.0071 Decisión: Rechazo de la hipótesis H 0(17) . Modelo homogéneo M3 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en probabilidades condicionadas de la variable B. G 2 = 18.154320 χ 2 = 18.282130 22 g.l. Nº de iteraciones: 16.449 - 442 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Los valores anteriores confirman que la hipótesis de homogeneidad en las probabilidades condicionadas asociadas a la variable B tampoco mejora sustancialmente el ajuste del modelo M 0 . c.4.) Modelo de homogeneidad parcial M 4 : Las restricciones de homogeneidad impuestas sobre el modelo M 0 se refieren, en este caso, a la variable observada C: C GX C GX H 0(18) : Π111 = Π121 C GX C GX Π112 = Π122 C GX C GX Π113 = Π123 C GX C GX Π114 = Π125 C GX C GX Π115 = Π124 La contrastación de la hipótesis H 0(18) se ha realizado a partir de los cálculos que se reproducen en la siguiente página. Al igual que en los casos anteriores, procede el rechazo del modelo de homogeneidad parcial M 4 , tanto a un 1 % como a un 5 % de nivel de significación, lo que significa admitir que la probabilidad de que un turista perteneciente a la clase latente t organice las vacaciones por su cuenta o, por el contrario, sea partidario de - 443 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ realizar viajes organizados es diferente según pertenezca al grupo de turistas menores de 45 años o al grupo de turistas con 45 años o más. Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 49.144040 - 8.269212 = 40.874828 Diferencia en grados de libertad: 25 - 20 = 5 g.l. Valor de p: p = 0.0000 Decisión: Rechazo de la hipótesis H 0(18) . Modelo homogéneo M4 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en probabilidades condicionadas de la variable C. G 2 = 49.144040 χ 2 = 52.810960 25 g.l. Nº de iteraciones: 5.125 c.5.) Modelo de homogeneidad parcial M 5 : ¿ Podrá admitirse en la segmentación que propone el modelo M 0 que la probabilidad de que un turista, encuadrado en la clase t, controle sus gastos durante su vacaciones para no superar el presupuesto dedicado a las mismas es diferente según se considere el grupo de turistas menores de 45 años o el grupo de turistas que superan esta edad ?. Para responder a esta cuestión, contrastaremos estadísticamente la siguiente hipótesis: - 444 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ D GX DGX = Π121 H 0(19) : Π111 D GX DGX Π112 = Π122 D GX DGX Π113 = Π123 D GX DGX Π114 = Π125 D GX DGX Π115 = Π124 Según se constata en el cuadro inferior, el modelo M5 no mejora la bondad de ajuste del modelo inicial M 0 , lo que equivale a rechazar la hipótesis H 0(19) de homogeneidad en las probabilidades condicionadas asociadas a la variable manifiesta D. En consecuencia, y en respuesta a la pregunta formulada, tanto a un 1 % como a un 5 % de nivel de significación, la probabilidad asociada a cada categoría de la variable D condicionada a la clase latente t es diferente en los dos grupos. Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 29.032800 - 8.269212 = 20.763588 Diferencia en grados de libertad: 24 - 20 = 4 g.l. Valor de p: p = 0.0003 Decisión: Rechazo de la hipótesis H 0(19) . Modelo homogéneo M5 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en probabilidades condicionadas de la variable D. G 2 = 29.032800 χ 2 = 27.542440 24 g.l. Nº de iteraciones: 6.299 - 445 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ c.6.) Modelo de homogeneidad parcial M 6 : El último modelo de homogeneidad parcial conjetura que las probabilidades condicionadas asociadas a la variable E son homogéneas en ambos grupos, dada la pertenencia del individuo a la clase t de cada uno de dichos grupos. En definitiva, el modelo M 6 equivale a imponer las siguientes restricciones de homogeneidad: EGX EGX H (20) 0 : Π111 = Π121 EGX EGX Π112 = Π122 EGX EGX Π113 = Π123 EGX EGX Π114 = Π125 EGX EGX Π115 = Π124 Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 26.377130 - 8.269212 = 18.107918 Diferencia en grados de libertad: 23 - 20 = 3 g.l. Valor de p: p = 0.0004 Decisión: . Rechazo de la hipótesis H (20) 0 Modelo homogéneo M6 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en probabilidades condicionadas de la variable E. G 2 = 26.377130 χ 2 = 26.794300 23 g.l. Nº de iteraciones: 8.719 - 446 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ La comparación entre los tests G 2 de los modelos M 0 y M 6 nos permite concluir que, al igual que en los casos anteriores, la hipótesis H (20) debe rechazarse, 0 tanto a un 1 % como a un 5 % de nivel de significación. Por tanto, la hipótesis de homogeneidad parcial impuesta sobre la variable E no mejora el ajuste del modelo de homogeneidad inicial M 0 , que sigue siendo el que proporciona la segmentación óptima de los dos grupos considerados simultáneamente. c.7.) Modelo de homogeneidad completa M 7 : Este modelo surge cuando se introducen simultáneamente en el modelo M 0 todas las restricciones de homogeneidad en clases latentes y en probabilidades condicionadas asociadas a las variables observadas impuestas anteriormente, es decir, si se imponen al mismo tiempo las restricciones dadas por las hipótesis H (15) a H (20) 0 0 . Este modelo de homogeneidad completa establece que la estructura latente en los dos grupos estudiados es idéntica, ya que significa que las clases definidas en cada grupo son del mismo tamaño y de la misma naturaleza. En definitiva, admitir este modelo equivaldría a considerar que el proceso de segmentación conduce a los mismos resultados en los dos grupos, por lo que no podrían establecerse diferencias entre los mismos. Por consiguiente, si este modelo fuese estadísticamente aceptable no tendría ningún sentido diseccionar la demanda turística española en dos grupos en función de la edad, ya que, en este caso, hubiera sido suficiente la segmentación de la población global, que sería - 447 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ igualmente valida para los turistas menores de 45 años y para aquellos otros que tienen 45 años o más. Para contrastar este modelo de homogeneidad completa, volveremos de nuevo a calcular la diferencia de verosimilitud entre el modelo que hemos tomado como referencia, el modelo M 0 , y el modelo que se desea contrastar estadísticamente, el modelo M 7 . Los resultados, que se muestran en la parte inferior de esta página, evidencian un claro rechazo de la hipótesis de homogeneidad completa, lo que nos lleva a afirmar que las estructuras latentes en el grupo de turistas menores de 45 años y en el de 45 años o más son claramente diferentes, lo que otorga pleno sentido a la consideración de dos grupos en función de la edad del turista. Modelo homogéneo M0 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. Modelo homogéneo M7 Restricciones: -Intragrupal 1. -Intragrupal 2. -Intergrupales. -Homogeneidad en clases latentes. -Homogeneidad en probabilidades condicionadas de las variables A, B, C, D y E. G 2 = 506.650400 χ 2 = 480.014500 39 g.l. Nº de iteraciones: 2.616 G 2 = 8.269212 χ 2 = 8.334830 20 g.l. Nº de iteraciones: 13.943 Diferencia de verosimilitud: G 2 = 506.650400 - 8.269212 = 498.381188 Diferencia en grados de libertad: 39 - 20 = 19 g.l. Valor de p: p = 0.0000 Decisión: Rechazo simultáneo de las hipótesis H (15) a H (20) . 0 0 - 448 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ En definitiva, ninguno de los modelos de homogeneidad propuestos mejora la segmentación resultante del modelo M 0 . Por consiguiente, será este modelo el que sirva de base, a partir de las estimaciones de sus parámetros, para comparar las estructuras latentes de los dos grupos objeto de análisis. Antes de proceder a dicha comparación, debemos indicar que el mencionado modelo arroja un valor del test G 2 de 8,269212 ( p = 0,9899 ) y del test χ 2 de Pearson de 8,334830 ( p = 0,9894 ), con 20 grados de libertad en ambos casos. Los valores de p asociados a ambos coeficientes confirman que el ajuste de este modelo final a las frecuencias observadas de las Tablas 14.A y 14.B es extraordinariamente satisfactorio, lo que garantiza que las conclusiones alcanzadas en la comparación de las estructuras latentes de los dos grupos tendrán una gran fiabilidad. Obviando la asignación de los individuos estudiados a las clases definidas y otros coeficientes asociados al modelo, como la proporción correctamente clasificada o el coeficiente λ ( esta información puede consultarse en el Anexo 4 ), el análisis comparativo de los valores estimados de las probabilidades de clase latente y condicionadas de ambos grupos nos permitirá resaltar las diferencias más notables entre los mismos. Las estimaciones en las que se basa este análisis comparativo se muestran en las Tablas 16.A y 16.B, de forma que a partir de los valores que reflejan las mismas se podrá concluir que: - 449 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ Tabla 16.A Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas del modelo homogéneo final M 0 Grupo: turistas menores de 45 años Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 Clase 2 Clase 3 Pasivo 0.8435 0.1565 0.0001 0.9999 0.8427 0.1573 0.8563 0.1437 0.4173 0.5827 0.040060 Clase 4 Entretenim. puro 1.0000 0.0000 0.4736 0.5264 1.0000 0.0000 0.0393 0.9607 1.0000 0.0000 0.016644 Social 0.1486 0.8514 0.6977 0.3023 0.7810 0.2190 0.5610 0.4390 0.7278 0.2722 0.235241 Ecológico 0.5025 0.4975 1.0000 0.0000 0.9079 0.0921 1.0000 0.0000 0.1941 0.8059 0.213544 0.410892 0.372994 Clase 5 Recreativo 0.4751 0.5249 0.9738 0.0262 0.9079 0.0921 0.0023 0.9977 0.0000 1.0000 0.067024 0.069972 0.029072 0.117070 Tabla 16.B Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas del modelo homogéneo final M 0 Grupo: turistas con 45 años o más Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 Clase 2 Clase 3 Clase 4 Social 0.2114 0.7886 0.7566 0.2434 0.0000 1.0000 0.8598 0.1402 0.4535 0.5465 0.056064 Ecológico 0.1350 0.8650 1.0000 0.0000 1.0000 0.0000 0.7063 0.2937 0.4182 0.5818 0.056064 Pasivo 1.0000 0.0000 0.2764 0.7236 0.3644 0.6356 1.0000 0.0000 0.2791 0.7209 0.040060 Recreativo 0.7534 0.2466 0.8356 0.1644 0.8710 0.1290 0.8399 0.1601 0.0759 0.9241 0.235241 Clase 5 Entretenim. puro 0.5353 0.4647 0.1990 0.8010 0.7495 0.2505 0.5706 0.4294 0.7309 0.2691 0.040060 0.131147 0.131147 0.093710 0.550286 0.093710 - 450 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ a) Los turistas sociales ( 41,09 % ) y los turistas ecológicos ( 37,30 % ) son, con gran diferencia, los dos segmentos más importantes en el grupo de turistas menores de 45 años, mientras que en el grupo de turistas con 45 años o más estos dos segmentos tienen un peso relativo muy inferior, ya que cada uno de ellos representa solamente el 13,11 % de los turistas de dicho grupo. b) Tanto los turistas por entretenimiento puro ( 2,91 % ) como los turistas pasivos ( 6,99 % ) tienen una presencia que se puede calificar de meramente anecdótica en el grupo de turistas menores de 45 años. Por contra, el tamaño de estos segmentos en el grupo de turistas con 45 años o más es algo superior y se sitúa en torno al 9,37 % del total. c) El segmento más importante en el grupo de turistas con 45 años o más es, con mucha diferencia, el de los turistas recreativos, que acapara algo más del 55 % de la población. Sin embargo, la presencia de este segmento en el grupo de turistas menores de 45 años es muchísimo menor, puesto que al mismo sólo pertenece el 11,70 % del total de turistas de este grupo. d) Además de los diferentes tamaños de los segmentos en ambos grupos, se detectan también aspectos diferenciales en las características propias de los citados segmentos. Así, los turistas sociales son algo más estáticos y controlan más sus gastos vacacionales en el grupo de turistas de 45 años o más que en el grupo de turistas menores de 45 años. Por contra, en este último grupo, los turistas sociales - 451 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ son mucho más partidarios de elegir lugares concurridos y masificados y valoran menos el contacto con la naturaleza que los turistas de este mismo segmento en el grupo de 45 años o más. En cualquier caso, la diferencia más acusada entre los turistas sociales de ambos grupos estriba en el hecho de que en el primero de ellos los turistas tienen una alta probabilidad ( 78,10 % ) de organizar por su cuenta las vacaciones, mientras que en el segundo los turistas siempre viajan en grupos organizados. e) Respecto a los turistas ecológicos, destaca su carácter eminentemente dinámico entre los turistas con 45 años o más y su carácter algo más estático entre los turistas menores de 45 años. Además, en este último grupo el turista ecológico controla muchísimo más sus gastos y se manifiesta de forma más contundente en contra de la masificación que en el grupo de turistas con 45 años o más. g) El comportamiento de los turistas pasivos también presenta matices diferentes en los dos grupos considerados. Así, mientras que en el grupo de mayor edad, el turista pasivo jamás recorre diferentes lugares durante sus vacaciones ni está dispuesto a admitir un exceso de gastos, en el grupo de turistas más jóvenes, el turista pasivo se manifiesta algo más receptivo, aunque sea de forma minoritaria, a la movilidad durante las vacaciones y a la realización de todo lo que le apetezca, sin reparar en gastos. Llama también la atención el carácter exclusivamente cosmopolita de este segmento entre los turistas menores de 45 años ( carácter mucho menos acusado en el grupo de turistas con 45 años o más ), así como la - 452 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ inclinación mayoritaria hacia lugares tranquilos y poco concurridos de este segmento entre los turistas con 45 años o más ( característica que se manifiesta con bastante menos intensidad entre los turistas menores de 45 años ). h) Las diferencias más significativas entre los turistas recreativos de ambos grupos se detectan en las variables A y D. Así, mientras en el grupo de turistas menores de 45 años se produce un reparto casi equitativo entre los que pasan sus vacaciones en un único lugar y los que recorren diferentes lugares, en el grupo de turistas de mayor edad son mayoría ( 75,34 % ) los que optan por pasar sus vacaciones en un único sitio. Por otra parte, la actitud de los turistas de este segmento respecto al control del gasto es radicalmente diferente en un grupo y en otro, ya que mientras los turistas menores de 45 años se despreocupan siempre de los gastos que conlleva el descanso vacacional, los turistas de más edad son fundamentalmente ahorradores, ya que tienen una probabilidad de un 84 % de cuidar sus gastos vacacionales. Por lo demás, el comportamiento de los turistas recreativos en relación a las tres variables restantes es, aunque con pequeñas diferencias, muy similar en ambos grupos. i) Por último, los turistas por entretenimiento puro son, posiblemente, el segmento que mayores diferencias presenta en los dos grupos objeto de análisis. En concreto, en el grupo de turistas menores de 45 años se observa que estos turistas son mucho más extremos ( radicales ) que en el otro grupo. Así, estos turistas jamás recorren diferentes lugares durante sus vacaciones, siempre organizan el - 453 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ viaje por su cuenta y en el 100 % de los casos buscan lugares masificados para pasar sus vacaciones. Por contra, este segmento se comporta de forma algo diferente cuando el turista tiene 45 años o más, ya que no se manifiesta rotundamente partidario ni de un único lugar ni de varios lugares para pasar sus vacaciones; aunque mayoritariamente organiza sus vacaciones por su cuenta, tiene una probabilidad de un 25 % de viajar en un grupo organizado; y admite una mayor disposición a lugares tranquilos y poco concurridos, a pesar de que cifra la probabilidad de la opción contraria en un 73 %. Finalmente, las variables B y D también hacen aflorar diferencias entre ambos grupos en el mismo segmento. Si entre los turistas menores de 45 años se opta de forma prácticamente indistinta por la naturaleza y por la ciudad, entre los turistas más jóvenes hay una inclinación bastante acusada ( 80,10 % ) por los lugares urbanizados que dispongan de todos los servicios. También contrasta el carácter marcadamente derrochador de los turistas menores de 45 años ( 96,07 % ) con el carácter abiertamente más ahorrador de los turistas con 45 años o más ( 57,06 % ). 4. CONCLUSIONES FINALES. Dado el carácter tanto metodológico como puramente empírico de este trabajo, hemos creído oportuno distinguir en este último apartado las aportaciones metodológicas de las técnicas abordadas de las principales conclusiones obtenidas del análisis de la demanda turística española. - 454 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ 1º) Conclusiones metodológicas: En relación a la modelización log-lineal y logit, citaremos como principales ventajas las siguientes: a) El modelo logarítmico-lineal es una técnica que avanza de forma sustancial en el análisis de asociación entre variables categóricas, ya que supera el enfoque marginal para pasar a detectar relaciones de dependencia entre variables desde una óptica global. b) La técnica log-lineal también permite contrastar estadísticamente cualquier hipótesis ( de independencia o asociación ) relativa a más de dos variables, circunstancia que no es posible con los métodos tradicionales empleados para el análisis de tablas de contingencia. c) Dado el carácter inferencial de la expansión en términos τ de las frecuencias esperadas de una tabla, el análisis de la información estadística conduce a unas conclusiones más rigurosas que las derivadas de un simple análisis descriptivo. d) La interpretación de los modelos log-lineales en términos de independencia y de independencia condicionada se facilita de forma considerable a través de las representaciones gráficas, siempre y cuando el modelo sea “gráfico”. - 455 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ e) Gracias al modelo logit, se puede reconducir el análisis estadístico hacia una variable de interés ( variable respuesta ). Entre las ventajas de esta técnica se encuentra la comparación de las probabilidades correspondientes a las diferentes categorías de esa variable de interés. En cualquier caso, y aunque no llegan a eclipsar a las ventajas anteriores, los modelos log-lineal y logit también presentan algunos inconvenientes. Entre ellos destacamos los siguientes: a) En la mayoría de los casos, la aplicación de estas técnicas exige tamaños muestrales muy elevados, lo que hace desaconsejable su uso cuando se dispone de pocas observaciones. De hecho, las propiedades asintóticas de los tests de bondad de ajuste del modelo están garantizadas sólo en el caso de muestras suficientemente grandes. En caso contrario, no sólo pueden no verificarse estas propiedades asintóticas, sino que la mayor presencia de ceros aleatorios podría poner en peligro la fiabilidad de los resultados obtenidos. b) Aun cuando supera el análisis marginal de tablas de contingencia, la modelización log-lineal está fuertemente condicionada por el número de variables consideradas. En este sentido, el número de variables que analiza simultáneamente el modelo log-lineal con una fiabilidad aceptable suele ser cuatro o, a lo sumo, cinco. Trabajar con tablas de dimensión seis o superior conlleva grandes dificultades de selección del modelo óptimo, como consecuencia del número extraordinariamente - 456 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ elevado de modelos log-lineales asociados. Además, la interpretación en términos de independencia o de independencia condicionada se complica muchísimo cuando el modelo involucra un gran número de variables. c) La modelización logit, que resulta bastante elemental cuando la variable respuesta es dicotómica, se complica cuando la variable de interés posee más de dos categorías. El hecho de que sólo puedan compararse simultáneamente dos categorías o dos conjuntos de categorías obliga a un cálculo de probabilidades parcial que puede llevar a perder la percepción global del análisis de la variable respuesta. Con respecto al modelo ACL, se puede concluir que es una técnica de segmentación mucho más potente que otras ( principalmente, el análisis cluster ) por las razones siguientes: a) La norma de asignación de los individuos a los segmentos es única ( la probabilidad modal ), lo que conducirá siempre a un único resultado, a diferencia de la técnica cluster, que puede generar diferentes soluciones para el mismo conjunto de datos según que la medida de similaridad empleada sea una u otra. b) La base estadística del modelo ACL lo convierte en una técnica de segmentación con gran rigor científico. Por el contrario, el análisis cluster está basado - 457 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ en procedimientos relativamente simples que no requieren, por lo general, un razonamiento estadístico profundo. c) Aunque el modelo ACL es también una técnica exploratoria ( para descubrir una estructura en los datos que no puede detectarse mediante una simple inspección visual ), su ventaja reside principalmente en su carácter confirmatorio. Así, el modelo ACL permite contrastar cualquier hipótesis relativa al tamaño de los segmentos establecidos, a la igualdad de tamaño entre dos o más segmentos, a la naturaleza de cada segmento, etc. Por contra, y a pesar de que existen técnicas de validación del resultado alcanzado, en el análisis cluster no es posible contrastar estadísticamente si dos o más clusters son del mismo tamaño o presentan las mismas características. d) El modelo ACL parte de una hipótesis inicial, que es la existencia de una variable latente en la población estudiada, pero no presupone siempre que la población es segmentable per se. Dicho en otros términos, el modelo ACL contrasta estadísticamente la “segmentabilidad” de la población. Al contrario del procedimiento empleado por el modelo ACL, el análisis cluster considera siempre que la población puede ser segmentada, pero no contrasta estadísticamente esta hipótesis de partida. e) La ventaja definitiva del modelo ACL sobre otras técnicas de segmentación es que trabaja con una ( o varias ) variable(-s) imposible(-s) de observar directamente, lo que lo convierte en una técnica ideal cuando la segmentación se basa en criterios - 458 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ subjetivos. Por el contrario, las técnicas de segmentación tradicionales trabajan siempre con variables observadas directamente. f) Además de todo lo anterior, el modelo ACL permite considerar simultáneamente dos o más poblaciones, establecer comparaciones ( que pueden ser contrastadas estadísticamente ) entre las mismas y confirmar o desmentir la homogeneidad parcial o completa de dichas poblaciones. Sin embargo, tampoco son todo ventajas en el modelo ACL. Como toda técnica estadística, también presenta algunos inconvenientes, algunos de los cuales se apuntan a continuación: a) El número de clases latentes ( y, por consiguiente, el número de segmentos ) está condicionado por el número de casillas de la tabla de contingencia y por el número total de parámetros que deben estimarse en el modelo. b) Cuanto mayor es el número de clases de una variable latente, menor es la probabilidad modal de la clase asignada a cada modalidad de respuesta. Esto significa que en un modelo ACL con un elevado número de clases latentes, la relación entre la variable latente y las variables observadas será más débil, por lo que el proceso de asignación de individuos a las clases puede ser poco fiable. - 459 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ c) Los programas informáticos utilizados para estimar los parámetros del modelo ACL son muy escasos y no están todavía suficientemente perfeccionados. Son frecuentes los fallos del programa en la ejecución de los comandos que especifican las diferentes opciones elegidas. Junto a esta circunstancia, el escaso conocimiento de estos programas por parte de los investigadores aplicados y las estrictas normas de programación pueden constituir un freno a la difusión de estas técnicas en otros ámbitos de la investigación científica. 2º) Conclusiones empíricas: Tras el análisis estadístico realizado, este sería el comportamiento turístico de los españoles en función de las variables auxiliares de carácter socioeconómico que han sido consideradas: a) Según el tamaño del hábitat: a.1.) Individuos residentes en una ciudad de menos de 100.000 habitantes: - Disfrutan de su período vacacional en zonas costeras. - Son partidarios de utilizar transportes públicos para desplazarse a su lugar de destino. - Utilizan preferentemente alojamientos colectivos ( no hoteleros ) y, con menor frecuencia, alojamientos hoteleros. - 460 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Suelen viajar a través de agencias de viajes u organizaciones similares. - Realizan viajes que no superan generalmente los 15 días de duración. - Les gusta viajar en grupo. a.2.) Individuos residentes en una ciudad con una población comprendida entre los 100.000 y los 400.000 habitantes: - Optan por las vacaciones en un pueblo o ciudad de interior, en el campo o en la montaña. - Se desplazan desde su lugar de residencia al lugar elegido con sus vehículos particulares. - Durante sus vacaciones suelen hospedarse en alojamientos privados. - Prefieren organizar las vacaciones por su cuenta. - Suelen realizar viajes de corta duración. - Viajan en familia o solos. a.3.) Individuos residentes en una ciudad que supera los 400.000 habitantes: - Se inclinan por descansar en zonas de interior durante su período de vacaciones. - Utilizan el vehículo particular como medio principal de transporte. - Se manifiestan claramente partidarios de los alojamientos privados. - También organizan las vacaciones por su cuenta. - La duración de los viajes que realizan suele ser superior a los 15 días. - Viajan indistintamente solos o en familia. - 461 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ b) Según la edad: b.1.) Individuos con 24 años o menos: - Se desplazan al lugar elegido para pasar sus vacaciones mediante transporte público. - Durante su período vacacional se hospedan en alojamientos colectivos ( no hoteleros ) y, con menor frecuencia, en alojamientos privados. - Suelen organizar las vacaciones por su cuenta. - Los viajes que realizan tienen una duración media inferior a 8 días. - Viajan en grupo o en solitario. b.2.) Individuos con una edad comprendida entre los 25 y los 44 años: - Utilizan principalmente el vehículo particular. - Se hospedan indistintamente en alojamientos hoteleros y en otros alojamientos colectivos. - Realizan viajes de duración corta o media. - Suelen viajar en grupo y, en menor medida, en familia. b.3.) Individuos con una edad comprendida entre los 45 y los 64 años: - Hacen uso del vehículo particular como medio de transporte. - Son clientes principalmente de alojamientos hoteleros y con mucha menos frecuencia de alojamientos privados. - Se manifiestan claramente partidarios de viajar a través de agencias de viajes. - 462 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Prefieren realizar viajes largos y, en menor medida, viajes de duración media. - Viajan casi siempre en familia. b.4.) Individuos con 65 años o más: - Utilizan medios públicos de transporte para llegar a su destino vacacional. - Se hospedan fundamentalmente en alojamientos hoteleros. - Manifiestan una clara preferencia por los viajes organizados. - Dada su mayor disponibilidad de tiempo libre, generalmente realizan viajes que superan los 15 días de duración. - Viajan solos o en familia. c) Según el nivel de estudios: c.1.) Individuos sin instrucción o sólo con estudios primarios: - Disfrutan de sus vacaciones dentro del territorio nacional. - Eligen como destino turístico una zona de interior. - Utilizan transportes públicos para desplazarse hasta su punto de destino turístico. - Durante sus vacaciones se hospedan en alojamientos privados. - Realizan viajes cuya duración oscila entre los 8 y los 15 días. - No fraccionan sus vacaciones. - 463 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ c.2) Individuos con estudios secundarios: - No salen de España durante su período vacacional. - Prefieren viajar en transportes públicos. - Son clientes, preferentemente, de alojamientos colectivos. - Prefieren realizar viajes de corta duración y, en menor medida, viajes de más de 15 días de duración. - Fraccionan sus vacaciones en dos o más períodos. c.3.) Individuos con estudios superiores: - Viajan por el extranjero durante sus vacaciones. - Son partidarios del turismo de sol y playa. - Utilizan medios de transporte privados para llegar a su punto de destino. - Optan, de forma prácticamente indistinta, por alojamientos hoteleros y por alojamientos privados. - Sus viajes suelen tener una duración superior a los 15 días. - Disfrutan de sus vacaciones en dos o más períodos de tiempo. d) Según el nivel de ingresos: d.1.) Individuos con ingresos bajos: - No salen de España durante sus vacaciones. - Practican turismo de interior. - Se decantan por la utilización de medios públicos de transporte. - 464 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - No fraccionan sus vacaciones. d.2.) Individuos con un nivel medio de ingresos: - Disfrutan de sus vacaciones en territorio español. - Son partidarios del turismo de sol y playa. - Suelen viajar en sus vehículos particulares. d.3.) Individuos con ingresos altos: - Viajan al extranjero durante su período vacacional. - Eligen destinos turísticos ubicados en la costa o próximos a ella. - Es manifiesta su tendencia a fraccionar las vacaciones. e) Según la temporada vacacional: e.1.) En temporada alta: - Se utilizan de forma mayoritaria los vehículos particulares. - Los turistas prefieren los alojamientos privados y, en menor medida, los alojamientos colectivos. - El viaje de vacaciones se organiza por cuenta propia. - Se realizan viajes de larga duración. - Se viaja principalmente en familia. - 465 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ e.2.) En temporada baja: - Existe un uso más extendido de los medios públicos de transporte. - El turista demanda principalmente alojamientos hoteleros. - Se viaja más de forma organizada a través de agencias de viajes u organismos similares. - Los viajes suelen ser de duración corta o media. - Los turistas viajan más solos o en grupo. f) Según el número de miembros del hogar familiar: f.1.) Individuos pertenecientes a una familia sin hijos: - Salen al extranjero durante sus vacaciones. - Se desplazan utilizando medios públicos de transporte. - Demandan principalmente alojamientos hoteleros. - Acuden a las agencias de viajes para organizar sus vacaciones. - Suelen viajar solos ( cuando se trata de individuos que no viven en familia, es decir, cuando son solteros, viudos o separados ). f.2.) Individuos pertenecientes a una familia con 1 o 2 hijos: - Disfrutan sus vacaciones en territorio nacional. - Utilizan sus vehículos particulares para desplazarse hasta el lugar donde pasarán sus vacaciones. - Demandan indistintamente alojamientos colectivos y alojamientos privados. - 466 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ - Prefieren planificar las vacaciones por su cuenta. - Viajan en familia. f.3.) Individuos pertenecientes a una familia numerosa: - Es acusada su inclinación a pasar las vacaciones en España. - Son ligeramente partidarios de utilizar transportes públicos. - Se hospedan principalmente en alojamientos privados y, en menor medida, en otros alojamientos colectivos. - Les gusta planificar el viaje por su cuenta. - Viajan tanto solos como en grupo. Además de estos comentarios generales sobre el comportamiento turístico de los españoles, el empleo de modelo ACL general posibilita un análisis tanto exploratorio como confirmatorio de la actitud de los españoles ante las vacaciones. Como resultado del mismo, se ha llegado a una segmentación de la demanda turística española, cuyos aspectos más significativos son los que se enumeran a continuación: a) La demanda turística española puede segmentarse en cinco grandes segmentos: turistas sociales, turistas ecológicos, turistas pasivos, turistas por entretenimiento puro y turistas recreativos. Los dos segmentos más importantes son el de turistas ecológicos y el de turistas recreativos, que representan, cada uno de ellos, el 35,75 % de la población estudiada. - 467 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ b) Los turistas sociales se caracterizan principalmente por su talante eminentemente dinámico y por controlar muy poco los gastos que les ocasionan sus vacaciones. c) Los turistas ecológicos presentan como rasgo característico más acusado su búsqueda continua de lugares abiertos y en contacto directo con la naturaleza, de la que son grandes amantes. Su carácter les lleva a seleccionar para sus vacaciones lugares tranquilos y no muy masificados. d) Lo más llamativo de los turistas pasivos es que prefieren viajar siempre que pueden mediante un programa previamente establecido a través de agencias de viajes o touroperadores turísticos. Junto a esta característica, poseen un carácter muy estático y se preocupan mucho por el control de sus gastos durante las vacaciones. e) Los turistas por entretenimiento puro son, con diferencia, los más estáticos de todos los segmentos identificados. Además, no les gusta en absoluto los lugares aislados o poco concurridos y están plenamente convencidos de que las vacaciones se deben organizar personalmente. f) Finalmente, los turistas recreativos se caracterizan por su espíritu estático ( ya que no suelen moverse del lugar que eligen para sus vacaciones ) y por su huida de las zonas turísticas masificadas. - 468 - Aplicación de la modelización estadística de tablas de contingencia al análisis de la demanda turística española ____________________________________________________________________________________ g) Cada uno de los cinco segmentos identificados pueden caracterizarse además mediante otras variables auxiliares de naturaleza socieconómica, como la edad, el nivel de ingresos, el nivel de estudios, etc. Así, destacan los individuos mayores de 45 años, con un bajo nivel de instrucción y con ingresos bajos entre los turistas pasivos y recreativos. Por el contrario, la mayor presencia de individuos jóvenes, con una instrucción elevada y con un alto nivel de ingresos se registra entre los turistas sociales y ecológicos. h) La edad del turista influye de forma sustancial en la segmentación efectuada. La comparación entre dos grupos de turistas en función de la edad ( menores de 45 años y mayores de 45 años ) mediante el análisis de estructura latente simultáneo ha generado, entre otros, los siguientes resultados: h.1.) Los turistas sociales y ecológicos tienen un protagonismo indudable en el grupo de turistas menores de 45 años ( ambos segmentos aglutinan el 78 % de la población ), mientras que, en este grupo, los turistas por entretenimiento puro y los turistas pasivos tienen un papel meramente anecdótico. h.2.) Los turistas recreativos son el segmento más significativo en el grupo de turistas mayores de 45 años, ya que acaparan al 55 % de la población. Sin embargo, la presencia de turistas sociales y ecológicos en este grupo es mucho menos significativa que en el grupo de turistas menores de 45 años. - 469 - F U T U R A S L ÍN E A S DE I N V E S T I G A C I ÓN Futuras líneas de investigación ____________________________________________________________________________________ El presente trabajo no constituye, ni mucho menos, el final de una investigación aplicada. Más bien al contrario, las técnicas que en el mismo se presentan son el punto de partida para futuras investigaciones en un campo tan novedoso y atractivo como es el análisis de variables categóricas. Efectivamente, tomando como referencia el modelo logarítmico-lineal, se nos abre un amplio abanico de posibilidades. A continuación, enumeraremos algunas de las líneas de investigación que pretendemos abordar en un futuro: Modelos log-lineales ordinales: El modelo log-lineal presentado en este trabajo presupone que las categorías de las variables analizadas no están sujetas a ninguna ordenación. Sin embargo, en múltiples ocasiones nos veremos obligados a trabajar con variables ordinales, cuyas categorías aparecerán ordenadas según un criterio determinado. Puesto que tanto las estimaciones como los tests estadísticos del modelo log-lineal general son invariantes ante una ordenación de las categorías, no será posible detectar los efectos que dicha ordenación tiene sobre la propia interpretación del modelo. En consecuencia, la existencia de variables ordinales en una tabla de contingencia multidimensional obliga a reformular el modelo log-lineal general para evitar la pérdida de información estadística relevante. Surge de este modo el modelo log-lineal ordinal, cuyas diferentes variantes, como el modelo de efectos de fila, el modelo de efectos de columna, el modelo de - 473 - Futuras líneas de investigación ____________________________________________________________________________________ asociación RC o el modelo de asociación uniforme, permiten abordar el problema que se plantea de forma plenamente satisfactoria. Tablas de cambio: El modelo log-lineal general detecta y cuantifica la asociación existente entre dos o más variables categóricas, pero no se detiene en el análisis de esta asociación. El conocimiento de la estructura de los efectos de interacción resulta especialmente útil cuando se estudia una tabla de contingencia en la que se recoge la distribución de una sola variable categórica en dos o más períodos de tiempo. Esta forma especial de tabla de contingencia, conocida con el nombre de tabla de cambio, requiere para su análisis de técnicas estadísticas específicas. En concreto, los modelos de simetría, de cuasi-simetría o de homogeneidad marginal ponen a disposición del investigador unas herramientas tremendamente útiles para el análisis de tablas de cambio. Modelos con errores de medición: Las posibilidades del modelo ACL, tanto general como restringido, no terminan en la segmentación de una población o en la comparación de las estructuras latentes de dos o más poblaciones. Cuando las variables manifiestas empleadas en el análisis guardan un cierto orden en su “nivel de dificultad”, el modelo ACL puede ser válido para indagar en la escalabilidad de estas variables. A partir de los planteamientos iniciales de Guttman e imponiendo restricciones específicas a los parámetros del modelo - 474 - Futuras líneas de investigación ____________________________________________________________________________________ ACL, los llamados modelos con errores de medición ( modelo de Proctor, modelos de porcentaje de error específico, modelo de distancia latente de Lazarsfeld, etc. ) permiten situar a cada individuo en una posición de escala determinada. Estos modelos específicos y los modelos con dos o más variables latentes constituyen nuestras dos líneas básicas de investigación futura en el ámbito del análisis de clases latentes. Modelos causales: Las representaciones gráficas de los modelos tratados en este trabajo son de naturaleza “no dirigida”, lo que significa que la asociación entre dos variables se representa mediante una línea que, en cualquier caso, no implica ninguna relación de causalidad entre las mismas. Sin embargo, existe un tipo de modelo gráfico “dirigido”, en el que una o más variables son causa directa de otras variables, denominadas variables respuesta. El calificativo “dirigido” procede del hecho de que las líneas que unen a variables asociadas se sustituyen por flechas que parten de la variable “causa” y llegan hasta la variable respuesta. Estos modelos, conocidos en la literatura como modelos causales recursivos, admiten, por tanto, múltiples variables respuesta, de manera que una variable puede ser, al mismo tiempo, un factor respuesta y una variable causal de otras. En realidad, un modelo causal recursivo no es más que una conjunción de modelos log-lineales. De aquí que la metodología logarítmico-lineal pueda ser utilizada también para establecer relaciones de causalidad entre variables. - 475 - Futuras líneas de investigación ____________________________________________________________________________________ Colapsabilidad de tablas de elevada dimensión: El concepto de colapsabilidad no solamente es útil para determinar la validez del algoritmo CHAID, sino que también puede ser empleado para reducir la dimensión de tablas de contingencia y facilitar su estudio. El análisis empírico que se ha realizado en este trabajo ha consistido en cuantificar la asociación existente entre un máximo de cuatro variables. A pesar de ello, somos plenamente conscientes de que uno de los mayores inconvenientes de la modelización log-lineal es su dificultad de aplicación en tablas de elevada dimensión. De aquí que el análisis de la colapsabilidad de dichas tablas podría contribuir a paliar, en la medida de lo posible, este grave inconveniente. - 476 - BIBLIOGRAFÍA Bibliografía ____________________________________________________________________________________ - AGRESTI, A. (1984): Analysis of Ordinal Categorical Data. Ed. John Wiley & Sons, Inc. New York. - AGRESTI, A. (1990): Categorical Data Analysis. Ed. John Wiley & Sons, Inc. New York. - AGRESTI, A. y YANG, M. (1987): “An empirical investigation of some effects of sparseness in contingency tables”. Comput. Statistical Data Analysis, nº 5, pp. 9-21. - ALDENDERFER, M.S. y BLASHFIELD, R.K. (1984): Cluster Analysis. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-044. Beverly Hills: Sage Pubns. - ANDERSEN, A.H. (1974): “Multidimensional Contingency Tables”. Scandinavian Journal of Statistics, nº 1, pp. 115-127. - ANDERSEN, E.B. (1977): “Sufficient statistics and latent trait models”. Psychometrika, vol. 42, pp. 69-81. - ANDERSEN, E.B. (1980): “Comparing latent distributions”. Psychometrika, vol. 45, pp. 121-134. - ANDERSEN, E.B. (1982): “Latent Trait Models and Ability Parameter Estimation”. Applied Psychological Measurement, vol. 6, nº 4, pp. 445-461. - ANDERSEN, E.B. (1990): The Statistical Analysis of Categorical Data. Tercera Edición. Ed. Springer-Verlag. Berlín. - ANDERSEN, E.B. (1992): “Diagnostics in Categorical Data Analysis”. Journal of the Royal Statistical Society, vol. 54, nº 3, pp. 781-791. - ANDERSEN, E.B. (1993): “Latent Structure Models in Measuring Social Life Feelings”. En New Directions in Attitude Measurement, pp. 255-265. Ed. Walter de Gruyter. Berlín. - ANDERSON, S. y otros (1980): Statistical Methods for Comparative Studies, pp. 161-198. Ed. John Wiley & Sons, Inc. New York. - ANDRICH, D. (1979): “A Model for Contingency Tables Having an Ordered Response Classification”. Biometrics, nº 35, pp. 403-415. - ASMUSSEN, S. y EDWARDS, D. (1983): “Collapsibility and response variables in contingency tables”. Biometrika, vol. 70, nº 3, pp. 567-578. - 479 - Bibliografía ____________________________________________________________________________________ - BARTHOLOMEW, D.J. (1987): Latent Variable Models and Factor Analysis. Charles Griffin & Company Ltd. London. - BHAPKAR, V.P. (1979): “On Tests of Marginal Symmetry and QuasiSymmetry in Two and Three-Dimensional Contingency Tables”. Biometrics, nº 35, pp. 417-426. - BIRCH, M.W. (1963): “Maximum Likelihood in Three-Way Contingency Tables”. Journal of the Royal Statistical Society, Serie B, nº 25, pp. 220-233. - BISHOP, Y.M.M. (1971): “Effects of collapsing multidimensional contingency tables”. Biometrics, nº 27, pp. 545-562. - BISHOP, Y.M.M. y FIENBERG, S.E. (1969): “Incomplete two-dimensional contingency tables”. Biometrics, nº 25, pp. 119-128. - BISHOP, Y.M.M., FIENBERG, S.E. y HOLLAND, P.W. (1975): Discrete Multivariate Analysis: Theory and Practice. Massachusetts Institute of Technology Press. Massachusetts. - BOTE, V. (1987): “Importancia de la demanda turística en espacio rural en España”. Estudios Turísticos, nº 93, pp. 79-91. - BOTE, V. (1995): La demanda turística española en espacio rural o de interior: situación actual y potencial. Instituto de Economía y Geografía del Consejo Superior de Investigaciones Científicas. Madrid. - BROWN, M.B. (1976): “Screening effects in multidimensional contingency tables”. Applied Statistics, nº 25, pp. 37-46. - BRYANT, B.E. (1980): “Segmentación del mercado de viajes e implementación de estrategias de mercado”. Journal of Travel Desearcher, volumen XVII, nº 3. - BULL, A. (1994): La economía del sector turístico. Alianza Editorial, S.A. Madrid. - CALLEJON, J. (1994): Un nuevo método para generar distribuciones de probabilidad. Problemas asociados y aplicaciones. Tesis Doctoral. Universidad de Granada. - CARDENAS, F. (1991): La segmentación del mercado turístico: comercialización y venta. Editorial Trillas. Méjico. - CENTRO DE INVESTIGACIONES SOCIOLOGICAS: Comportamiento de los españoles ante las vacaciones (III). Estudio 2.193. Octubre 1995. - 480 - Bibliografía ____________________________________________________________________________________ - CLOGG, C.C. (1977): Unrestricted and restricted maximun likelihood latent structure analysis: a manual for users. Working Paper 1977-09. University Park, PA: Population Issues Research Office. - CLOGG, C.C. (1979): “Some latent structure models for the analysis of Likerttype data”. Social Science Research, nº 8, pp. 287-301. - CLOGG, C.C. (1981): “New developments in latent structure analysis”. En D.M. Jackson y E.F. Borgotta. Factor Analysis and Meaurement, pp. 215-246. Beverly Hills, CA: Sage. - CLOGG, C.C. (1982): “Some Models for the Analysis of Association in Multiway Cross-Classifications Having Ordered Categories”. Journal of the American Statistical Association, vol. 77, nº 380, pp. 803-815. - CLOGG, C.C. (1988): “Latent class models for measuring”. En Latent trait and latent structure models, pp. 173-205. R. Langeheine & Rost. New York. Plenum Press. - CLOGG, C.C. y GOODMAN, L.A. (1984): “Latent Structure Analysis of a set of multidimensional contingency tables”. Journal of the American Statistical Association, vol. 79, pp. 762-771. - CLOGG, C.C. y GOODMAN, L.A. (1985): Simultaneous latent structure analysis in several groups. En N.B. Tuma, Sociological Methodology. San Francisco: Josey-Bass. - CLOGG, C.C. y GOODMAN, L.A. (1986): “On scaling models applied to data from several groups”. Psychometrika, nº 51, pp. 123-135. - CHEN T. y FIENBERG, S.E. (1976): “The analysis of contingency tables with incompletely classified data”. Biometrics, nº 32, pp. 133-144. - CHOULAKIAN, V. (1988): “Exploratory analysis of contingency tables by loglinear formulation and generalizations of correspondence analysis”. Psychometrika, vol. 53, nº 2, pp. 235-250. - CHRISTENSEN, R. (1990): Log-linear models. Springer Texts in Statistics. Ed. Springer-Verlag, New York, Inc. - DARROCH, J.N., LAURITZEN, S.L. y SPEED, T.P. (1980): “Markov fields and log-linear interaction models for contingency tables”. Annals of Statistics, vol 8, nº 3, pp. 522-539. - 481 - Bibliografía ____________________________________________________________________________________ - DEMARIS, A. (1992): Logit modeling: practical applications. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-086, Newbury Park, CA: Sage Pubns. - DEMING, W.E. y STEPHAN, F.F. (1940): “On a least squares adjustment of a sampled frecuency table when the expected marginal tables are known”. Annals of Mathematical Statistics, nº 11, pp. 427-444. - DEMPSTER, A.P., LAIRD, N.M. y RUBIN, D.B. (1977): “Maximum likelihood from incomplete data via the EM-algorithm”. Journal of the Royal Statistical Society, Serie B, nº 1, pp. 1-38. - DIACONIS, P. y EFRON, B. (1985): “Testing for independence in a two-way table: new interpretations of the chi-square statistic”. The Annals of Statistics, vol. 13, nº 3, pp. 845-874. - DIRECCION GENERAL DE POLITICA TURISTICA (1981): Dinámica de la distribución de la demanda turística en el territorio español. Estudio realizado por Metra-Seis para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1986a): Estudio de la demanda extrahotelera en España. Tres volúmenes. Estudio realizado por Consultur para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1986b): Las vacaciones de los españoles en 1985. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1987a): Encuesta sobre el grado de satisfacción de la demanda turística extranjera en relación con el producto turístico español en 1986. Estudio realizado por Consultur para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1987b): Estudio sobre el nivel de satisfacción y deseos del turismo extranjero respecto al turismo español. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1987c): La demanda en los campamentos de turismo. Estudio realizado por el Instituto DYM para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1988a): Las vacaciones de los españoles en 1987. Informe. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1988b): Los viajes de los españoles al extranjero en 1987. Dos volúmenes. Secretaría General de Turismo. Madrid. - 482 - Bibliografía ____________________________________________________________________________________ - DIRECCION GENERAL DE POLITICA TURISTICA (1989a): Los viajes de vacaciones de los españoles de la tercera edad. Estudio realizado por Delphi Consultores Internacionales para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1989b): “El gasto en turismo de los españoles ( informe )”. Estudios Turísticos, nº 102, pp. 113-138. - DIRECCION GENERAL DE POLITICA TURISTICA (1990a): Estudio sobre el grado de satisfacción de la Demanda Turística Nacional y Extranjera en relación con el Producto Turístico Español. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1990b): Modelos de previsión de las series del turismo español y análisis de coyuntura. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1991a): Demanda y situación económico-financiera del sector de campamentos de turismo. Estudio realizado por Inmark para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1991b): Las vacaciones de los españoles en 1990. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1992): Encuesta a visitantes no residentes. Año 1992. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1993a): Análisis de la demanda actual y potencial del Camino de Santiago. Estudio realizado por Consultur para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1993b): Las vacaciones de los españoles en 1992. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1993c): Los movimientos turísticos en fronteras: 1993. Estudio realizado por Eco Consulting para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1994a): Las vacaciones de los españoles en 1993. Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1994b): Los movimientos turísticos en fronteras: 1994. Estudio realizado por ECO Consulting para la Secretaría General de Turismo. Madrid. - DIRECCION GENERAL DE POLITICA TURISTICA (1995): Las vacaciones de los españoles en 1994. Secretaría General de Turismo. Madrid. - 483 - Bibliografía ____________________________________________________________________________________ - DIRECCION GENERAL DE POLITICA TURISTICA (1996): Las vacaciones de los españoles en 1995. Secretaría General de Turismo. Madrid. - DORADO, A. (1998): Métodos de búsqueda de variables relevantes en análisis de segmentación: aportaciones desde una perspectiva multivariante. Tesis Doctoral. Universidad de Salamanca. - EDWARDS, D. (1995): Introduction to Graphical Modelling. Editorial Springer-Verlag, New York, Inc. - EDWARDS, D. y HAVRANEK, T. (1985): “A fast procedure for model search in multidimensional contingency tables”. Biometrika, nº 72, pp. 339-351. - EDWARDS, D. y KREINER, S. (1983): “The analysis of contingency tables by graphical models”. Biometrika, vol. 70, nº 3, pp. 553-565. - ELDERTON, W.P. y JOHNSON, N.L. (1969): System of frecuency curves. Cambridge University Press. - ESTEBAN, A. (1987): Análisis de la demanda: aplicación a la actividad turística de las técnicas de predicción. Tesis Doctoral 70/87. Editorial de la Universidad Complutense. Madrid. - ESTEBAN, A. (1993): “Previsiones turísticas: metodología y resultados”. Estudios Turísticos, nº 118, pp. 51-71. - ESTEBAN, A. (1994): “La medición del turismo metropolitano: la coordinación estadística”. Estudios Turísticos, nº 124, pp. 5-14. - ESTEBAN, A. (1996a): Principios de marketing. ESIC Editorial. Madrid. - ESTEBAN, A. y REINARES, E. (1996b): “La investigación de la demanda turística en España: recopilación y análisis”. Estudios Turísticos, nº 129, pp. 81-104. - EVERITT, B.S. (1977): The Analysis of Contingency Tables. Monographs on Applied Probability and Statistics. Ed. Chapman and Hall, Ltd. - FAJARDO, M.A. (1985): Generalizaciones de los sistemas pearsonianos discretos. Tesis Doctoral. Universidad de Extremadura. - FIENBERG, S.E. (1968): The Estimation of Cell Probabilities in Two-Way Contingency Tables. Ph. D. Thesis. Department of Statistics. Harvard University. - FIENBERG, S.E. (1970): “Quasi-Independence and Maximum Likelihood Estimation in Incomplete Contingency Tables”. Journal of the American Statistical Association, vol. 65, nº 332, pp. 1610-1616. - 484 - Bibliografía ____________________________________________________________________________________ - FIENBERG, S.E. (1972): “The analysis of incomplete multi-way contingency tables”. Biometrics, nº 28, pp. 177-202. - FIENBERG, S.E. (1978): The Analysis of Cross-Classified Categorical Data. Segunda Edición. Cambridge, Massachusetts: MIT Press. - FIENBERG, S.E. (1979): “The use of chi-squared statistics for categorical data problems”. Journal of the Royal Statistical Society, Serie B, nº 41, pp. 54-64. - FIGUEROLA, M. (1985): Teoría Económica del Turismo. Alianza Editorial, S.A. Madrid. - FIGUEROLA, M. y ESTEBAN, A. (1984): “Técnicas de previsión y análisis de comportamiento de la demanda turística”. Estudios Turísticos, nº 84, pp. 3-16. - FINGLETON, B. (1984): Models of Category Counts. Cambridge University Press. England. - FORMANN, A.K. (1985): “Constrained latent class analysis”. British Journal of Mathematical and Statistical Psychology, nº 38, pp. 87-111. - FORMANN, A.K. (1988): “Latent Class Models for Nonmonotone Dichotomous Items”. Psychometrika, vol. 53, nº 1, pp. 45-62. - FORMANN, A.K. (1992): “Linear Logistic Latent Class Analysis for Polytomous Data”. Journal of the American Statistical Association, vol. 87, nº 418, pp. 476-486. - FREEMAN, D.H. (1987): Applied Categorical Data Analysis. Ed. Marcel Dekker, Inc. New York. - FUENTES, R. (1995): “Análisis de las principales características de la demanda de turismo rural en España”. Estudios Turísticos, nº 127, pp. 19-52. - GABINETE DE INVESTIGACION TURISTICA T.H.R. e INSTITUTO DYM (1986): Las vacaciones de los españoles en 1985. Madrid. - GILCHRIST, R. (1982): GLIM 82: Proceedings of the International Conference on Generalised Linear Models, pp. 98-108. Ed. Springer-Verlag. New York. - GILULA, Z. (1984): “On some similarities between canonical correlation models and latent class models for two-way contingency tables”. Biometrika, vol. 71, nº 3, pp. 523-529. - 485 - Bibliografía ____________________________________________________________________________________ - GILULA, Z. (1986): “Grouping and Association in Contingency Tables: An Exploratory Canonical Correlation Approach”. Journal of the American Statistical Association, vol. 81, nº 395, pp. 773-779. - GLESER, L.J. y MOORE, D.S. (1985): “The effect of positive dependence on chi-squared tests for categorical data”. Journal of the Royal Statistical Society, vol. 47, nº 3, pp. 459-465. - GOKHALE, D.V. y KULLBACK, S. (1978): The Information in Contingency Tables. Ed. Marcel Dekker, Inc. New York. - GONZALEZ, A. (1995): “Tendencias de la segmentación por variables psicográficas del mercado turístico”. Actas del 5º Congreso Nacional de Economía de las Palmas de Gran Canaria, pp. 297-310. - GOOD, P. (1994): Permutation Tests. Ed. Springer-Verlag Inc. New York. - GOODMAN, L.A. (1968): “The analysis of cross-clasified data: Independence, quasi-independence and interactions in contingency tables with and without missing entries”. Journal of the American Statistical Association, vol. 63, pp. 1091-1131. - GOODMAN, L.A. (1970): “The multivariate analysis of qualitative data: interaction among multiple classifications”. Journal of the American Statistical Association, vol. 65, pp. 226-256. - GOODMAN, L.A. (1971): “Partitioning of chi-square, analysis of marginal contingency tables and estimation of expected frecuencies in multidimensional tables”. Journal of the American Statistical Association, vol. 66, pp. 339-344. - GOODMAN, L.A. (1973a): “Guided and Unguided Methods for the Selection of Models for a Set of T Multidimensional Contingency Tables”. Journal of the American Statistical Association, vol. 68, nº 341, pp. 165-175. - GOODMAN, L.A. (1973b): “The analysis of multidimensional contingency tables when some variables are posterior to others: a modified path analysis approach”. Biometrika, vol. 60, nº 1, pp. 179-192. - GOODMAN, L.A. (1974): “Exploratory latent structure analysis using both identifiable and unidentifiable models”. Biometrika, vol. 61, nº 2, pp. 215-231. - GOODMAN, L.A. (1978): Analyzing Qualitative/Categorical Data: LogLinear Models and Latent Structure Analysis. Ed. Addison and Wesley. London. - GOODMAN, L.A. (1979): “Simple Models for the Analysis of Association in Cross-Classifications Having Ordered Categories”. Journal of the American Statistical Association, vol. 4, nº 367, pp. 537-552. - 486 - Bibliografía ____________________________________________________________________________________ - GOODMAN, L.A. (1981a): “Association Models and Canonical Correlation in the Analysis of Cross-Classifications Having Ordered Categories”. Journal of the American Statistical Association, vol. 76, nº 374, pp. 320-334. - GOODMAN, L.A. (1981b): “Association models and the bivariate normal for contingency tables with ordered categories”. Biometrika, vol. 68, nº 2, pp. 347-355. - GOODMAN, L.A. (1983): “The Analysis of Dependence in CrossClassifications Having Ordered Categories, Using Log-Linear Models for Frequencies and Log-Linear Models for Odds”. Biometrics, nº 39, pp. 149-160. - GOODMAN, L.A. (1984): The Analysis of Cross-Classified Data having ordered categories. Harvard University Press. Massachusetts. - GOODMAN, L.A. (1985): “The analysis of cross-classified data having ordered and/or unordered categories: association models, correlation models, and asymmetry models for contingency tables with and without missing entries”. The Annals of Statistics, vol. 13, nº 1, pp. 10-69. - GOODMAN, L.A. (1986): “Some Useful Extensions of the Usual Correspondence Analysis Approach and the Usual Log-Linear Models Approach in the Analysis of Contingency Tables”. International Statistical Review, vol. 54, nº 3, pp. 243-309. - GOODMAN, L.A. y KRUSKAL, W.H. (1979): Measures of Association for Cross Classifications. Ed. Springer-Verlag. New York. - GREEN, B.F. (1951): “A general solution for the latent class model of latent structure analysis”. Psychometrika, vol. 16, nº 2, pp. 161-166. - HABERMAN, S.J. (1973): “The analysis of residuals in cross-classified tables”. Biometrics, nº 29, pp. 205-220. - HABERMAN, S.J. (1974): The Analysis of Frecuency Data. Chicago: University of Chicago Press. - HABERMAN, S.J. (1977): “Log-linear models and frecuency tables with small expected cell counts”. The Annals of Statistics, vol. 5, pp. 1148-1169. - HABERMAN, S.J. (1978): Analysis of Qualitative Data. Volumen I. New York: Academic Press. - HABERMAN, S.J. (1979): Analysis of Qualitative Data. Volumen II. New York: Academic Press. - 487 - Bibliografía ____________________________________________________________________________________ - HAGENAARS, J.A. (1990): Categorical Longitudinal Data: Log-linear panel, Trend y Cohort Analysis. Ed. Sage Publications, Newbury Park, California. - HAGENAARS, J.A. (1993): Loglinear Models with Latent Variables. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-094. Newbury Park, CA: Sage Pubns. - HAVRANEK, T. (1984): “A procedure for model search in multidimensional contingency tables”. Biometrics, nº 40, pp. 95-100. -HEINEN, T. (1992): Discrete Latent Variable Models. Work and Organization Research Centre. - HERRERIAS, R. (1975): Sobre las estructuras estadísticas de Pearson y exponenciales, problemas asociados. Facultad de Ciencias. Granada. - HERRERIAS, R. (1976): “Extensión del sistema de distribuciones discretas de Pearson”. Cuadernos de Estadística Matemática, Serie A, nº 3, pp. 30-36. Facultad de Ciencias. Granada. - HOLM, S. (1979): “A simple sequentially rejective multiple test procedure”. Scandinavian Journal of Statistics, nº 6, pp. 65-70. - HOMMEL, G. (1988): “A stagewise rejective multiple test procedure based on a modified Bonferroni test”. Biometrika, vol. 75, nº 2, pp. 383-386. - IMREY, P.B., KOCH, G.G. y STOKES, M.E. (1981): “Categorical Data Analysis: Some reflections on the Log Linear Model and Logistic Regression. Part I: Historical and Methodological Overview”. International Statistical Review, nº 49, pp. 265-283. - IMREY, P.B., KOCH, G.G. y STOKES, M.E. (1982): “Categorical Data Analysis: Some reflections on the Log Linear Model and Logistic Regression. Part II: Data Analysis”. International Statistical Review, nº 50, pp. 35-63. - INSTITUTO DE ESTUDIOS TURISTICOS (1986): Modelos de Demanda Turística Española. Madrid. - INSTITUTO ESPAÑOL DE TURISMO (1979): “Estudio de motivaciones para el turismo en España”. Estudios Turísticos, nº 63-64, pp. 5-358. - INSTITUTO ESPAÑOL DE TURISMO (1980): “Comportamiento vacacional y turístico de los españoles: enero-septiembre 1979”. Estudios Turísticos, nº 66, pp. 17110. - 488 - Bibliografía ____________________________________________________________________________________ - INSTITUTO ESPAÑOL DE TURISMO (1981): “Comportamiento vacacional y turístico de los extranjeros: encuesta a extranjeros que visitaron algunas zonas de España, diciembre de 1980 y enero de 1981”. Estudios Turísticos, nº 70-71, pp. 179334. - INSTITUTO ESPAÑOL DE TURISMO (1982a): “Comportamiento vacacional y turístico de los españoles, 1980”. Estudios Turísticos, nº 73-74, pp. 125-233. - INSTITUTO ESPAÑOL DE TURISMO (1982b): “Comportamiento vacacional y turístico de los extranjeros: encuesta a extranjeros que visitaron algunas zonas de España, julio y agosto de 1981”. Estudios Turísticos, nº 75-76, pp. 89-214. - INSTITUTO ESPAÑOL DE TURISMO (1983): “Vacaciones y turismo en la tercera edad: encuesta realizada a nivel nacional”. Estudios Turísticos, nº 77-78, pp. 7105. - ISHII-KUNTZ, M. (1994): Ordinal Log-Linear Models. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-097. Thousand Oaks, CA: Sage. - JOBSON, J.D. (1992): Applied Multivariate Data Analysis. Volumen II: Categorical and Multivariate Methods. Ed. Springer-Verlag, New York, Inc. - KENDALL, M. (1975): Multivariate Analysis, pp. 171-195. Ed. Charles Griffin & Company. London. - KLEINBAUM, D.G. y KUPPER, L.L. (1978): Applied Regression Analysis and Other Multivariable Methods, pp. 447-485. Duxbury Press. Massachusetts. - KNOKE, D. y BURKE, P.J. (1980): Log-linear models. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-020, Beverly Hills: Sage Publications. - KOEHLER, K. (1986): “Goodness-of-fit tests for log-linear models in sparse contingency tables”. Journal of the American Statistical Association, vol. 81, pp. 483493. - KOTZE, T.J. y HAWKINS, D.M. (1984): “The identification of Outliers in Two-way Contingency Tables using 2x2 Subtables”. Applied Statistics, vol. 33, nº 2, pp. 215-223. - KRZANOWSKI, W.J. (1988): Principles of Multivariate Analysis, pp. 265285. Oxford University Press. - 489 - Bibliografía ____________________________________________________________________________________ - LANGEHEINE, R. (1988): “New developments in latent class theory”. En Langeheine & Rost, Latent trait and latent class models, pp. 77-108. New York. Plenum Press. - LAURITZEN, S.L. (1982): Lectures on contingency tables. Aalborg University Press. - LAZARSFELD, P.F. (1950a): “The logical and mathematical foundation of latent structure analysis”. En S. Stouffer, Measurement and prediction, pp. 362-412. Princeton, NJ: Princeton University Press. - LAZARSFELD, P.F. (1950b): “The logical and mathematical foundation of latent structure analysis”. En S. Stouffer, Measurement and prediction, pp. 413-472. Princeton, NJ: Princeton University Press. - LAZARSFELD, P.F. y HENRY, N.W. (1968): Latent structure analysis. Boston: Houghton Mifflin Company. - LIEBETRAU, A.M. (1983): Measures of Association. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-032. Beverly Hills, CA: Sage Pubns. - MARASCUILO, L.A. y McSWEENEY, M. (1977): Nonparametric and Distribution-Free Methods of the Social Sciences, pp. 93-259. Ed. Wadsworth Publising Company, Inc. California. - MASTERS, G.N. (1985): “A comparison of latent trait and latent class analyses of Likert-type data”. Psychometrika, vol. 50, nº 1, pp. 69-82. - McCULLAGH, P. (1982): “Some applications of quasisymmetry”. Biometrika, vol. 69, nº 2, pp. 303-308. - McCUTHEON, A.L. (1987): Latent Class Analysis. Sage University Paper series on Quantitative Applications in the Social Sciences, 07-064. Newbury Park, CA: Sage Pubns. - McHUGH, R.B. (1956): “Efficient estimation and local identification in latent class analysis”. Psychometrika, vol. 21, nº 4, pp. 331-347. - MOOIJAART, A. (1992): “The EM algorithm for latent class analysis with equality constraints”. Psychometrika, vol 57, nº 2, pp. 261-269. - MUÑOZ DE ESCALONA, F. (1992): Crítica de la Economía Turística. Enfoque de oferta versus enfoque de demanda. Tesis Doctoral 104-92. Editorial de la Universidad Complutense. Madrid. - 490 - Bibliografía ____________________________________________________________________________________ - MUTHEN, B. (1979): “A Structural Probit Model with Latent Variables”. Journal of the American Statistical Association, vol. 74, nº 368, pp. 807-811. - NAMBOODIRI, N.K., CARTER, L.F. y BLALOCK, H.M. (1975): Applied Multivariate Analysis and Experimental Designs, pp. 356-395. Ed. McGraw-Hill, San Francisco. - ORD, J.K. (1967): “On a system of discrete distributions”. Biometrika, nº 54, pp. 649-656. - ORGANIZACION MUNDIAL DEL TURISMO (1995): Concepts, définitions et classifications des statistiques du tourisme. Manuel technique nº 1. Madrid. - PEARSON, K. (1895): “Memoir on skew variation in homogeneous material”. Phil. Trans. Roy. Soc, Serie A, nº 186, pp. 343-414. - PEDREÑO, A. y otros (1996): Introducción a la economía del turismo en España. Editorial Civitas, S.A. Madrid. - PULIDO, A. (1966): Introducción a un análisis econométrico del turismo. Instituto de Estudios Turísticos. Madrid. - READ, C.B. (1978): “Tests of symmetry in three-way contingency tables”. Psychometrika, vol. 43, nº 3, pp. 409-420. - READ, T.R.C. y CRESSIE, N.A.C. (1988): Goodness-of-Fit Statistics for Discrete Multivariate Data, pp. 19-43. Ed. Springer-Verlag. New York. - RETHERFORD, R.D. y CHOE, M.K. (1993): Statistical models for causal analysis, pp. 119-165. Ed. John Wiley & Sons, Inc. New York. - ROST, J. (1985): “A Latent Class Model for Rating Data”. Psychometrika, vol. 50, nº 1, pp. 37-49. - ROST, J. (1988a): “Rating Scale Analysis with Latent Class Models”. Psychometrika, vol. 53, nº 3, pp. 327-348. - ROST, J. (1988b): “Test theory with qualitative and quantitative latent variables”. En Langeheine & Rost, Latent trait and latent class models, pp. 147-171. New York. Plenum Press. - RUIZ, A. (1996): “Segmentación de mercados y política de precios en hoteles y servicios turísticos”. En Turismo y promoción de destinos turísticos: implicaciones empresariales, pp. 99-125. Servicio de Publicaciones de la Universidad de Oviedo. - 491 - Bibliografía ____________________________________________________________________________________ - SANTESMASES, M. (1991): Marketing: conceptos y estrategias. Ediciones Pirámide. Madrid. - SECRETARIA DE ESTADO DE COMERCIO, TURISMO Y PEQUEÑA Y MEDIANA EMPRESA (1997): Comportamiento turístico de los españoles: verano 96. Estadística de Movimientos Turísticos de los Españoles ( Familitur ). Madrid. - SECRETARIA GENERAL DE TURISMO (1985a): Comportamiento turístico del congresista y sus acompañantes: año 1995. Tres volúmenes. Estudio realizado por Emopública para la Secretaría General de Turismo. Madrid. - SECRETARIA GENERAL DE TURISMO (1985b): Turismo de balnearios: encuesta en destino de los usuarios de los establecimientos balnearios. Año 1985. Cuatro volúmenes. Estudio realizado por Emopública para la Secretaría General de Turismo. Madrid. - SECRETARIA GENERAL DE TURISMO (1990): Modelos de previsión de las series del turismo español y análisis de coyuntura. Madrid. - SPRENT, P. (1989): Applied Nonparametric Statistical Methods, pp. 165-195. Ed. Chapman and Hall. London. - UPTON, G.J.G. (1978): The Analysis of Cross-tabulated Data. Ed. John Wiley & Sons, Inc. New York. - UVEN, M.V. van (1947): “Extensions of Pearson´s probability distributions to two variables”. Proceeding of the Royal Academy of Sciences, Amsterdam, volumen 50, pp. 1063-1070 y 1252-1264. - UVEN, M.V. van (1948): “Extensions of Pearson´s probability distributions to two variables”. Proceeding of the Royal Academy of Sciences, Amsterdam, volumen 51, pp. 41-52 y 191-196. - WERMUTH, N. (1976): “Model search among multiplicative models”. Biometrics, nº 32, pp. 253-263. - WERMUTH, N. y LAURITZEN, S.L. (1983): “Graphical and recursive models for contingency tables”. Biometrika, nº 70, pp. 537-552. - WHITE, A.A., LANDIS, J.R. y COOPER, M.M. (1982): “A Note on the Equivalence of Several Marginal Homogeneity Test Criteria for Categorical Data”. International Statistical Review, nº 50, pp. 27-34. - WHITTAKER, J. (1990): Graphical models in applied multivariate statistics. Ed. John Wiley & Sons, Inc. New York. - 492 - Bibliografía ____________________________________________________________________________________ - WICKENS, T.D. (1989): Multiway Contingency Tables Analysis for the Social Sciences. Ed. Lawrence Erlbaum Associates, Inc. New Jersey. - WILKS, S.S. (1935): “The likelihood test of independence in contingency tables”. Annals of Mathematical Statistics, nº 6, pp. 190-196. - WILKS, S.S. (1938): “The large-sample distribution of the likelihood ratio for testing composite hypotheses”. Annals of Mathematical Statistics, nº 9, pp. 60-62. -WILLIAM, E.J. (1952): “Use of scores for the analysis of association in contingency tables”. Biometrika, nº 39, pp. 274-289. - WUNSCH, G. (1988): Causal Theory & Causal Modeling. Leuven University Press. Bélgica. - 493 - ANEXOS Anexo 1 Anexos ____________________________________________________________________________________ DESTINO TURÍSTICO A) Análisis de asociación entre las variables: - Destino turístico. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.515 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total DESTINO TURÍSTICO España Extranjero 63 4 106 8 20 4 189 16 187 16 153 14 99 15 439 45 192 18 22 5 31 8 245 31 111 5 7 0 8 0 126 5 24 1 73 4 21 4 118 9 94 4 87 5 68 15 249 24 143 4 34 2 19 3 196 9 71 3 4 2 13 0 88 5 Total 67 114 24 205 203 167 114 484 210 27 39 276 116 7 8 131 25 77 25 127 98 92 83 273 147 36 22 205 74 6 13 93 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total DESTINO TURÍSTICO España Extranjero 23 1 71 7 29 5 123 13 68 7 99 6 81 29 248 42 107 2 29 4 39 6 175 12 80 1 12 0 13 2 105 3 Total 24 78 34 136 75 105 110 290 109 33 45 187 81 12 15 108 Medidas de asociación Variable respuesta: Destino turístico (D) HABITAT (H) 2 4,324 Test χ de Pearson 2 Grados de libertad 0,1151 Valor de p Test razón de verosimilitud 4,468 Grados de libertad 2 Valor de p 0,1071 Coeficiente Φ 0,041 Coeficiente de contingencia 0,041 Test V de Cràmer 0,041 Coeficiente τ! D i de 0,002 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! D i para i = H, E, S 0,003 EDAD (E) 15,429 3 0,0015 ESTUDIOS (S) 66,924 2 0,0000 17,128 3 0,0007 0,078 0,078 0,078 58,668 2 0,0000 0,163 0,161 0,163 0,006 0,027 0,012 0,040 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: SEH, DS 29 g.l. Valor de G 2 = 37,29 ( p = 0,1389 ) Valor de χ 2 = 39,65 ( p = 0,0899 ) Representación gráfica: D S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,946936 Coeficiente de determinación ajustado: R 2 = 0,892041 Criterio de información de Akaike: AX − q = - 20,71 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “destino turístico” Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores Destino turístico España Extranjero - 0,289 0,289 - 0,092 0,092 - 0,381 0,381 Tendencia hacia ... España España Extranjero Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de pasar las vacaciones en España condicionadas a cada categoría de las variables explicativas k = 1, 2, 3, 4 l = 1, 2 ,3 Sin/sólo est. primarios: p1 1kl = 0,9463 Con est. secundarios: p1 2 kl = 0,9224 Con est. superiores: p1 3kl = 0,8220 Anexos ____________________________________________________________________________________ DESTINO TURÍSTICO B) Análisis de asociación entre las variables: - Destino turístico. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.488 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total DESTINO TURÍSTICO España Extranjero 147 9 216 14 85 2 448 25 96 10 95 7 22 2 213 19 78 13 254 12 95 1 427 26 30 7 74 9 16 1 120 17 16 9 86 14 30 3 132 26 3 3 16 2 6 5 25 10 Total 156 230 87 473 106 102 24 232 91 266 96 453 37 83 17 137 25 100 33 158 6 18 11 35 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Destino turístico (D) NIVEL DE INGRESOS (I) 2 32,016 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 25,773 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,147 Coeficiente de contingencia 0,145 Test V de Cràmer 0,147 ! Coeficiente τ D i de 0,022 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! D i para i = I, T, N Test de Yates Grados de libertad Valor de p Ratio de producto cruzado Test Q de Yule Test Y de Yule TEMPORADA VACACIONAL (T) 7,119 1 0,0076 NÚMERO DE MIEMBROS (N) 12,560 2 0,0019 6,707 1 0,0096 0,069 0,069 0,069 12,109 2 0,0023 0,092 0,091 0,092 0,005 0,008 0,030 0,008 0,014 - 6,566 1 0,0104 1,680 0,254 0,129 - Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: DNI, NTI 9 g.l. Valor de G 2 = 15,65 ( p = 0,0745 ) Valor de χ 2 = 18,01 ( p = 0,0351 ) Representación gráfica: D N T I Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,910083 Coeficiente de determinación ajustado: R 2 = 0,710268 Criterio de información de Akaike: AX − q = - 22,35 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “destino turístico” Nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos Destino turístico España Extranjero - 0,266 0,266 - 0,253 0,253 - 0,519 0,519 Tendencia hacia ... España España Extranjero Número de miembros Familia sin hijos Familia con 1-2 hijos Familia numerosa Destino turístico España Extranjero - 0,373 0,373 - 0,061 0,061 - 0,312 0,312 Tendencia hacia ... Extranjero España España Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de pasar las vacaciones en España condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Familia Temporada alta 0,9274 0,8437 sin hijos Temporada baja 0,9274 0,8437 Familia con Temporada alta 0,9367 0,9398 1-2 hijos Temporada baja 0,9367 0,9398 Familia Temporada alta 0,9639 0,9823 numerosa Temporada baja 0,9639 0,9823 Altos 0,6130 0,6130 0,8646 0,8646 0,8182 0,8182 Anexos ____________________________________________________________________________________ LUGAR DE VACACIONES A) Análisis de asociación entre las variables: - Lugar de vacaciones. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.384 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total LUGAR DE VACACIONES Costa Interior 42 22 75 40 14 8 131 70 130 61 107 51 66 34 303 146 131 66 16 7 24 13 171 86 79 37 4 3 7 1 90 41 15 9 38 39 15 11 68 59 49 47 53 34 49 28 151 109 81 65 25 8 13 8 119 81 36 36 1 4 11 2 48 42 Total 64 115 22 201 191 158 100 449 197 23 37 257 116 7 8 131 24 77 26 127 96 87 77 260 146 33 21 200 72 5 13 90 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total LUGAR DE VACACIONES Costa Interior 17 7 36 39 15 17 68 63 37 36 65 32 59 26 161 94 51 58 18 13 25 15 94 86 46 31 8 4 12 2 66 37 Total 24 75 32 131 73 97 85 255 109 31 40 180 77 12 14 103 Medidas de asociación Variable respuesta: Lugar de vacaciones (L) HABITAT (H) 2 21,983 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 22,109 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,096 Coeficiente de contingencia 0,096 Test V de Cràmer 0,096 Coeficiente τ! L i de 0,009 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! L i para i = H, E, S 0,007 EDAD (E) 4,971 3 0,1740 ESTUDIOS (S) 3,936 2 0,1397 4,958 3 0,1749 0,046 0,046 0,046 3,963 2 0,1378 0,041 0,041 0,041 0,002 0,002 0,002 0,001 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: LSH, SEH 27 g.l. Valor de G 2 = 39,18 ( p = 0,0610 ) Valor de χ 2 = 37,92 ( p = 0,0791 ) Representación gráfica: L S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,940765 Coeficiente de determinación ajustado: R 2 = 0,861784 Criterio de información de Akaike: AX − q = - 14,82 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “lugar de vacaciones” Tamaño del hábitat Ciudad pequeña Ciudad mediana Ciudad grande Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores (*) No significativos al 5 %. Lugar de vacaciones Costa Interior - 0,113 0,113 - 0,062 0,062 - 0,051 0,051 Tendencia hacia ... Costa Interior Interior Lugar de vacaciones Costa Interior - 0,071 0,071 (*) - 0,007 0,007(*) - 0,077 0,077 Tendencia hacia ... Interior Costa Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de pasar las vacaciones en la costa condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,6726 0,5354 0,5335 Sin instrucción o con Ind. menos joven 0,6726 0,5354 0,5335 estudios primarios Ind. maduro 0,6726 0,5354 0,5335 Ind. anciano 0,6726 0,5354 0,5335 Ind. joven 0,6669 0,5793 0,5905 Con estudios Ind. menos joven 0,6669 0,5793 0,5905 secundarios Ind. maduro 0,6669 0,5793 0,5905 Ind. anciano 0,6669 0,5793 0,5905 Ind. joven 0,6646 0,6424 0,6489 Con estudios Ind. menos joven 0,6646 0,6424 0,6489 superiores Ind. maduro 0,6646 0,6424 0,6489 Ind. anciano 0,6646 0,6424 0,6489 Anexos ____________________________________________________________________________________ LUGAR DE VACACIONES B) Análisis de asociación entre las variables: - Lugar de vacaciones. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.402 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total LUGAR DE VACACIONES Costa Interior 88 60 109 115 44 41 241 216 65 37 60 39 14 8 139 84 60 23 160 91 63 31 283 145 20 12 47 27 10 7 77 46 11 7 53 39 24 7 88 53 3 1 13 4 4 5 20 10 Total 148 224 85 457 102 99 22 223 83 251 94 428 32 74 17 123 18 92 31 141 4 17 9 30 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Lugar de vacaciones (L) NIVEL DE INGRESOS (I) 2 11,963 Test χ de Pearson 2 Grados de libertad 0,0025 Valor de p Test razón de verosimilitud 11,984 Grados de libertad 2 Valor de p 0,0025 Coeficiente Φ 0,092 Coeficiente de contingencia 0,092 Test V de Cràmer 0,092 ! Coeficiente τ L i de 0,009 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! L i para i = I, T, N Test de Yates Grados de libertad Valor de p Ratio de producto cruzado Test Q de Yule Test Y de Yule TEMPORADA VACACIONAL (T) 1,118 1 0,2903 NÚMERO DE MIEMBROS (N) 3,339 2 0,1884 1,124 1 0,2891 0,028 0,028 0,028 3,351 2 0,1872 0,049 0,049 0,049 0,001 0,002 0,006 0,001 0,002 - 0,992 1 0,3193 0,877 - 0,066 - 0,033 - Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: NT, NI, TI, LI 19 g.l. Valor de G 2 = 24,48 ( p = 0,1784 ) Valor de χ 2 = 25,14 ( p = 0,1561 ) Representación gráfica: L N T I Modelo no gráfico Modelo no descomponible Coeficiente de determinación: R 2 = 0,827350 Coeficiente de determinación ajustado: R 2 = 0,736482 Criterio de información de Akaike: AX − q = - 13,52 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “lugar de vacaciones” Nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos Lugar de vacaciones Costa Interior - 0,117 0,117 - 0,082 0,082 - 0,035 0,035 Tendencia hacia ... Interior Costa Costa Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de pasar las vacaciones en la costa condicionadas a cada categoría de las variables explicativas j = 1, 2, 3 k = 1, 2 Ingresos bajos: p1 jk 1 = 0,5587 Ingresos medios: p1 jk 2 = 0,6534 Ingresos altos: p1 jk 3 = 0,6318 Anexos ____________________________________________________________________________________ TRANSPORTE EMPLEADO A) Análisis de asociación entre las variables: - Transporte empleado. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.439 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total TRANSPORTE EMPLEADO Privado Público 44 23 62 47 10 14 116 84 162 37 123 36 88 21 373 94 130 73 18 8 28 10 176 91 38 75 3 4 5 1 46 80 16 8 50 27 16 9 82 44 80 14 65 24 49 28 194 66 103 39 26 8 18 2 147 49 39 34 3 3 9 4 51 41 Total 67 109 24 200 199 159 109 467 203 26 38 267 113 7 6 126 24 77 25 126 94 89 77 260 142 34 20 196 73 6 13 92 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total TRANSPORTE EMPLEADO Privado Público 12 12 52 23 21 12 85 47 62 14 82 19 73 33 217 66 80 31 22 10 37 7 139 48 52 26 7 3 10 5 69 34 Total 24 75 33 132 76 101 106 283 111 32 44 187 78 10 15 103 Medidas de asociación Variable respuesta: Transporte empleado (T) HABITAT (H) 2 5,839 Test χ de Pearson 2 Grados de libertad 0,0539 Valor de p Test razón de verosimilitud 5,849 Grados de libertad 2 Valor de p 0,0537 Coeficiente Φ 0,049 Coeficiente de contingencia 0,049 Test V de Cràmer 0,049 Coeficiente τ! T i de 0,002 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! T i para i = H, E, S 0,002 EDAD (E) 92,950 3 0,0000 ESTUDIOS (S) 2,767 2 0,2507 90,717 3 0,0000 0,195 0,192 0,195 2,769 2 0,2504 0,034 0,034 0,034 0,038 0,001 0,030 0,001 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: TSE, TEH, SEH 16 g.l. Valor de G 2 = 19,43 ( p = 0,2469 ) Valor de χ 2 = 19,18 ( p = 0,2597 ) Representación gráfica: T S E H Modelo no gráfico Modelo no descomponible Coeficiente de determinación: R 2 = 0,974497 Coeficiente de determinación ajustado: R 2 = 0,899583 Criterio de información de Akaike: AX − q = - 12,57 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “transporte empleado” Tamaño del hábitat Ciudad pequeña Ciudad mediana Ciudad grande Transporte empleado Privado Público - 0,125 0,125 - 0,030 0,030 - 0,095 0,095 Tendencia hacia ... Público Privado Privado Edad Individuo joven Individuo menos joven Individuo maduro Individuo anciano Transporte empleado Privado Público - 0,149 0,149 - 0,219 0,219 - 0,155 0,155 - 0,224 0,224 Tendencia hacia ... Público Privado Privado Público Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores Transporte empleado Privado Público - 0,016 0,016 - 0,029 0,029 - 0,045 0,045 Tendencia hacia ... Público Público Privado Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de utilizar transporte privado condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,5953 0,6713 0,6682 Sin instrucción o con Ind. menos joven 0,8370 0,7977 0,8226 estudios primarios Ind. maduro 0,6378 0,7361 0,7130 Ind. anciano 0,3548 0,5285 0,6461 Ind. joven 0,5847 0,6615 0,6584 Con estudios Ind. menos joven 0,7905 0,7435 0,7731 secundarios Ind. maduro 0,6566 0,7518 0,7295 Ind. anciano 0,3932 0,5691 0,6827 Ind. joven 0,5175 0,5982 0,5948 Con estudios Ind. menos joven 0,7408 0,6870 0,7207 superiores Ind. maduro 0,7766 0,8463 0,8306 Ind. anciano 0,5270 0,6942 0,7872 Anexos ____________________________________________________________________________________ TRANSPORTE EMPLEADO B) Análisis de asociación entre las variables: - Transporte empleado. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.392 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total TRANSPORTE EMPLEADO Privado Público 91 55 170 54 63 20 324 129 30 60 53 40 7 13 90 113 66 21 212 41 74 15 352 77 16 16 60 19 9 6 85 41 14 9 77 19 22 10 113 38 3 1 11 4 4 7 18 12 Total 146 224 83 453 90 93 20 203 87 253 89 429 32 79 15 126 23 96 32 151 4 15 11 30 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Transporte empleado (T) NIVEL DE INGRESOS (I) 2 35,678 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 36,125 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,160 Coeficiente de contingencia 0,158 Test V de Cràmer 0,160 ! Coeficiente τ T i de 0,026 Kruskal-Goodman para i = I, E, N Coeficiente de incertidumbre U! T i para i = I, E, N Test de Yates Grados de libertad Valor de p Ratio de producto cruzado Test Q de Yule Test Y de Yule TEMPORADA VACACIONAL (E) 65,597 1 0,0000 NÚMERO DE MIEMBROS (N) 44,885 2 0,0000 62,510 1 0,0000 0,217 0,212 0,217 43,519 2 0,0000 0,180 0,177 0,180 0,047 0,032 0,021 0,037 0,026 - 64,513 1 0,0000 2,781 0,471 0,250 - Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: TNE, TEI, NEI 8 g.l. Valor de G 2 = 3,97 ( p = 0,8602 ) Valor de χ 2 = 3,92 ( p = 0,8639 ) Representación gráfica: T N E I Modelo no gráfico Modelo no descomponible Coeficiente de determinación: R 2 = 0,982351 Coeficiente de determinación ajustado: R 2 = 0,936022 Criterio de información de Akaike: AX − q = - 12,03 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “transporte empleado” (*) Nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos Transporte empleado Privado Público - 0,171 0,171 - 0,171 0,171 0,000(*) 0,000(*) Tendencia hacia ... Público Privado - Temporada vacacional Temporada alta Temporada baja Transporte empleado Privado Público - 0,246 0,246 - 0,246 0,246 Tendencia hacia ... Privado Público Número de miembros Familia sin hijos Familia con 1-2 hijos Familia numerosa Transporte empleado Privado Público - 0,180 0,180 - 0,230 0,230 - 0,051 0,051 Tendencia hacia ... Público Privado Público No significativos al 5 %. Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de utilizar transporte privado condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Familia Temporada alta 0,6281 0,7415 sin hijos Temporada baja 0,3327 0,5354 Familia con Temporada alta 0,7628 0,8453 1-2 hijos Temporada baja 0,7831 0,7573 Familia Temporada alta 0,7389 0,8278 numerosa Temporada baja 0,3327 0,5354 Altos 0,6420 0,4830 0,7735 0,7167 0,7503 0,4830 Anexos ____________________________________________________________________________________ ALOJAMIENTO EMPLEADO A) Análisis de asociación entre las variables: - Alojamiento empleado. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.538 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total ALOJAMIENTO EMPLEADO Hotelero Colectivo Privado 14 12 42 17 22 77 3 4 17 34 38 136 61 21 123 54 28 89 32 10 72 147 59 284 63 16 132 13 4 10 9 2 28 85 22 170 56 5 57 2 1 4 3 0 5 61 6 66 6 4 15 6 9 63 3 4 19 15 17 97 14 14 71 31 9 54 30 5 48 75 28 173 28 8 112 13 0 22 5 1 16 46 9 150 17 2 55 2 0 4 2 1 10 21 3 69 Total 68 116 24 208 205 171 114 490 211 27 39 277 118 7 8 133 25 78 26 129 99 94 83 276 148 35 22 205 74 6 13 93 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total ALOJAMIENTO EMPLEADO Hotelero Colectivo Privado 4 5 16 4 12 63 7 1 26 15 18 105 17 9 50 19 12 75 29 4 78 65 25 203 19 5 86 11 2 20 11 2 32 41 9 138 14 2 65 3 0 9 4 1 10 21 3 84 Medidas de asociación Variable respuesta: Alojamiento utilizado (A) HABITAT (H) 2 42,286 Test χ de Pearson 4 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 42,335 Grados de libertad 4 Valor de p 0,0000 Coeficiente Φ 0,129 Coeficiente de contingencia 0,128 Test V de Cràmer 0,091 Coeficiente τ! A i de 0,012 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! A i para i = H, E, S 0,010 EDAD (E) 76,942 6 0,0000 ESTUDIOS (S) 18,641 4 0,0009 82,999 6 0,0000 0,174 0,172 0,123 18,070 4 0,0012 0,086 0,085 0,061 0,012 0,002 0,019 0,004 Total 25 79 34 138 76 106 111 293 110 33 45 188 81 12 15 108 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: ASE, ASH 50 g.l. Valor de G 2 = 67,09 ( p = 0,0537 ) Valor de χ 2 = 67,07 ( p = 0,0538 ) Representación gráfica: A S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,917023 Coeficiente de determinación ajustado: R 2 = 0,844004 Criterio de información de Akaike: AX − q = - 32,91 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “alojamiento empleado” (*) No significativos al 5 %. Tamaño del hábitat Ciudad pequeña Ciudad mediana Ciudad grande Alojamiento empleado Hotelero Colectivo Privado - 0,222 0,064 0,158 0,007(*) - 0,034 0,027 - 0,124 - 0,071 0,195 Tendencia hacia... Hotelero/Colectivo Privado Privado Edad Individuo joven Individuo menos joven Individuo maduro Individuo anciano Alojamiento empleado Hotelero Colectivo Privado - 0,510 0,485 0,025 - 0,128 0,070 0,058 - 0,279 0,229 0,050 - 0,264 0,210 0,054 Tendencia hacia... Colectivo/Privado Hotelero/Colectivo Hotelero/Privado Hotelero/Privado Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores Alojamiento empleado Hotelero Colectivo Privado - 0,002(*) - 0,025 0,027 - 0,041 - 0,083 0,123 - 0,098 0,043 0,055 Tendencia hacia... Privado Colectivo Hotelero/Privado Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de utilizar alojamientos hoteleros condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,3213 0,1818 0,1770 Sin instrucción o con Ind. menos joven 0,3518 0,2031 0,1978 estudios primarios Ind. maduro 0,3243 0,1839 0,1790 Ind. anciano 0,4144 0,2494 0,2432 Ind. joven 0,1510 0,1192 0,0761 Con estudios Ind. menos joven 0,3891 0,3265 0,2279 secundarios Ind. maduro 0,4875 0,4199 0,3060 Ind. anciano 0,3548 0,2950 0,2031 Ind. joven 0,1744 0,1908 0,1607 Con estudios Ind. menos joven 0,3163 0,3405 0,2955 superiores Ind. maduro 0,2488 0,2699 0,2309 Ind. anciano 0,2660 0,2880 0,2473 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir alojamientos hoteleros frente a preferir alojamientos privados. Probabilidades estimadas de utilizar otros alojamientos colectivos condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,2598 0,2031 0,1820 Sin instrucción o con Ind. menos joven 0,1803 0,1378 0,1224 estudios primarios Ind. maduro 0,0968 0,0722 0,0636 Ind. anciano 0,0584 0,0431 0,0378 Ind. joven 0,2383 0,1243 0,1396 Con estudios Ind. menos joven 0,2492 0,1309 0,1468 secundarios Ind. maduro 0,1748 0,0877 0,0989 Ind. anciano 0,1380 0,0677 0,0766 Ind. joven 0,1725 0,1439 0,0722 Con estudios Ind. menos joven 0,1210 0,0999 0,0489 superiores Ind. maduro 0,0863 0,0708 0,0341 Ind. anciano 0,1823 0,1524 0,0764 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir otros alojamientos coletivos frente a preferir alojamientos privados. Anexos ____________________________________________________________________________________ ALOJAMIENTO EMPLEADO B) Análisis de asociación entre las variables: - Alojamiento empleado. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.498 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total ALOJAMIENTO EMPLEADO Hotelero Colectivo Privado 37 16 104 37 25 169 9 7 70 83 48 343 63 11 34 40 8 56 8 3 13 111 22 103 28 8 56 50 40 176 19 13 64 97 61 296 18 2 17 34 7 42 8 1 9 60 10 68 14 0 11 16 10 75 6 3 25 36 13 111 4 2 2 9 1 7 5 2 4 18 5 13 Total 157 231 86 474 108 104 24 236 92 266 96 454 37 83 18 138 25 101 34 160 8 17 11 36 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Alojamiento empleado (A) NIVEL DE INGRESOS (I) 2 2,041 Test χ de Pearson 4 Grados de libertad 0,7282 Valor de p Test razón de verosimilitud 2,026 Grados de libertad 4 Valor de p 0,7310 Coeficiente Φ 0,037 Coeficiente de contingencia 0,037 Test V de Cràmer 0,026 ! Coeficiente τ A i de 0,000 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! A i 0,001 TEMPORADA VACACIONAL (T) 104,846 2 0,0000 NÚMERO DE MIEMBROS (N) 40,147 4 0,0000 99,254 2 0,0000 0,265 0,256 0,265 38,734 4 0,0000 0,164 0,162 0,116 0,048 0,018 0,037 0,015 para i = I, T, N Características principales del mejor modelo log-lineal Mejor modelo: AN, AT, NI, TI 33 g.l. Valor de G 2 = 42,98 ( p = 0,1145 ) Valor de χ 2 = 45,61 ( p = 0,0709 ) Representación gráfica: A N T I Modelo gráfico Modelo no descomponible Coeficiente de determinación: R 2 = 0,831537 Coeficiente de determinación ajustado: R 2 = 0,770278 Criterio de información de Akaike: AX − q = - 23,02 Anexos ____________________________________________________________________________________ Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “alojamiento empleado” Temporada vacacional Temporada alta Temporada baja Alojamiento empleado Hotelero Colectivo Privado - 0,387 0,148 0,240 - 0,148 - 0,240 0,387 Tendencia hacia... Colectivo/Privado Hotelero Número de miembros Familia sin hijos Familia con 1-2 hijos Familia numerosa Alojamiento empleado Hotelero Colectivo Privado - 0,117 - 0,203 0,320 - 0,119 0,063 0,056 - 0,201 0,054 0,147 Tendencia hacia... Hotelero Colectivo/Privado Colectivo/Privado Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de utilizar alojamientos hoteleros condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Altos Familia Temporada alta 0,3241 0,3241 0,3241 sin hijos Temporada baja 0,6269 0,6269 0,6269 Familia con Temporada alta 0,1926 0,1926 0,1926 1-2 hijos Temporada baja 0,4554 0,4554 0,4554 Familia Temporada alta 0,1671 0,1671 0,1671 numerosa Temporada baja 0,4129 0,4129 0,4129 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir alojamientos hoteleros frente a preferir alojamientos privados. Probabilidades estimadas de utilizar otros alojamientos colectivos condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Altos Familia Temporada alta 0,1529 0,1529 0,1529 sin hijos Temporada baja 0,1783 0,1783 0,1783 Familia con Temporada alta 0,1430 0,1430 0,1430 1-2 hijos Temporada baja 0,1670 0,1670 0,1670 Familia Temporada alta 0,1311 0,1311 0,1311 numerosa Temporada baja 0,1536 0,1536 0,1536 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir otros alojamientos colectivos frente a preferir alojamientos privados. Anexos ____________________________________________________________________________________ ORGANIZACIÓN DEL VIAJE A) Análisis de asociación entre las variables: - Organización del viaje. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.492 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total ORGANIZACIÓN DEL VIAJE C. propia Organizada 54 14 99 15 18 5 171 34 168 34 138 32 101 15 407 81 154 49 21 6 32 7 207 62 61 40 5 2 6 1 72 43 22 3 68 8 24 2 114 13 87 11 80 14 68 15 235 40 128 16 29 7 21 1 178 24 58 14 6 0 12 1 76 15 Total 68 114 23 205 202 170 116 488 203 27 39 269 101 7 7 115 25 76 26 127 98 94 83 275 144 36 22 202 72 6 13 91 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total ORGANIZACIÓN DEL VIAJE C. propia Organizada 22 3 72 6 32 2 126 11 68 8 90 15 92 18 250 41 98 12 26 7 40 5 164 24 72 5 10 2 12 3 94 10 Total 25 78 34 137 76 105 110 291 110 33 45 188 77 12 15 104 Medidas de asociación Variable respuesta: Organización del viaje (O) HABITAT (H) 2 28,504 Test χ de Pearson 2 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 28,334 Grados de libertad 2 Valor de p 0,0000 Coeficiente Φ 0,107 Coeficiente de contingencia 0,106 Test V de Cràmer 0,107 Coeficiente τ! O i de 0,011 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! O i para i = H, E, S 0,013 EDAD (E) 13,296 3 0,0040 ESTUDIOS (S) 3,756 2 0,1529 12,915 3 0,0048 0,073 0,073 0,073 3,771 2 0,1518 0,039 0,039 0,039 0,005 0,002 0,006 0,002 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: OEH, SEH 23 g.l. Valor de G 2 = 20,80 ( p = 0,5934 ) Valor de χ 2 = 20,91 ( p = 0,5864 ) Representación gráfica: O S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,968671 Coeficiente de determinación ajustado: R 2 = 0,915548 Criterio de información de Akaike: AX − q = - 25,2 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “organización del viaje” (*) Tamaño del Hábitat Ciudad pequeña Ciudad mediana Ciudad grande Organización del viaje C. propia Organizada - 0,250 0,250 - 0,067 0,067 - 0,183 0,183 Tendencia hacia ... Organizada C. Propia C. propia Edad Individuo joven Individuo menos joven Individuo maduro Individuo anciano Organización del viaje C. propia Organizada - 0,169 0,169 (*) - 0,003 0,003(*) - 0,013 0,013 - 0,152 0,152 Tendencia hacia ... C. propia Organizada Organizada No significativos al 5 %. Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de organizar el viaje por cuenta propia condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,8342 0,8977 0,9198 Sin instrucción o con Ind. menos joven 0,8340 0,8547 0,8594 estudios primarios Ind. maduro 0,7696 0,8812 0,8726 Ind. anciano 0,6262 0,8238 0,9041 Ind. joven 0,8342 0,8977 0,9198 Con estudios Ind. menos joven 0,8340 0,8547 0,8594 secundarios Ind. maduro 0,7696 0,8812 0,8726 Ind. anciano 0,6262 0,8238 0,9041 Ind. joven 0,8342 0,8977 0,9198 Con estudios Ind. menos joven 0,8340 0,8547 0,8594 superiores Ind. maduro 0,7696 0,8812 0,8726 Ind. anciano 0,6262 0,8238 0,9041 Anexos ____________________________________________________________________________________ ORGANIZACIÓN DEL VIAJE B) Análisis de asociación entre las variables: - Organización del viaje. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.464 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total ORGANIZACIÓN DEL VIAJE C. propia Organizada 128 25 205 23 82 5 415 53 57 41 71 27 14 8 142 76 77 14 230 35 80 13 387 62 21 13 65 18 14 4 100 35 21 3 90 10 29 5 140 18 6 2 12 5 6 5 24 12 Total 153 228 87 468 98 98 22 218 91 265 93 449 34 83 18 135 24 100 34 158 8 17 11 36 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Organización del viaje (O) NIVEL DE INGRESOS (I) 2 1,687 Test χ de Pearson 2 Grados de libertad 0,4301 Valor de p Test razón de verosimilitud 1,694 Grados de libertad 2 Valor de p 0,4287 Coeficiente Φ 0,034 Coeficiente de contingencia 0,034 Test V de Cràmer 0,034 ! Coeficiente τ O i de 0,001 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! O i para i = I, T, N Test de Yates Grados de libertad Valor de p Ratio de producto cruzado Test Q de Yule Test Y de Yule TEMPORADA VACACIONAL (T) 73,340 1 0,0000 NÚMERO DE MIEMBROS (N) 16,737 2 0,0002 67,035 1 0,0000 0,224 0,218 0,224 15,937 2 0,0003 0,107 0,106 0,107 0,050 0,011 0,001 0,049 0,012 - 72,012 1 0,0000 3,275 0,532 0,288 - Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: NTI, ON, OT 14 g.l. Valor de G 2 = 11,30 ( p = 0,6627 ) Valor de χ 2 = 10,81 ( p = 0,7007 ) Representación gráfica: O N T I Modelo no gráfico Modelo no descomponible Coeficiente de determinación: R 2 = 0,937751 Coeficiente de determinación ajustado: R 2 = 0,871056 Criterio de información de Akaike: AX − q = - 16,7 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “organización del viaje” Temporada vacacional Temporada alta Temporada baja Organización del viaje C. propia Organizada - 0,286 0,286 - 0,286 0,286 Tendencia hacia ... C. propia Organizada Número de miembros Familia sin hijos Familia con 1-2 hijos Familia numerosa Organización del viaje C. propia Organizada - 0,150 0,150 - 0,099 0,099 - 0,051 0,051 Tendencia hacia ... Organizada C. propia C. propia Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de organizar el viaje por cuenta propia condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Altos Familia Temporada alta 0,8348 0,8348 0,8348 sin hijos Temporada baja 0,6168 0,6168 0,6168 Familia con Temporada alta 0,8926 0,8926 0,8926 1-2 hijos Temporada baja 0,7259 0,7259 0,7259 Familia Temporada alta 0,8831 0,8831 0,8831 numerosa Temporada baja 0,7064 0,7064 0,7064 Anexos ____________________________________________________________________________________ DURACIÓN DEL VIAJE A) Análisis de asociación entre las variables: - Duración del viaje. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.477 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total DURACIÓN DEL VIAJE V. corto V. medio V. largo 18 36 14 31 42 41 6 9 9 55 87 64 61 86 58 34 86 47 15 57 42 110 229 147 38 97 70 5 13 8 4 10 25 47 120 103 18 58 40 2 5 0 2 3 3 22 66 43 6 9 10 15 23 38 8 6 12 29 38 60 16 38 42 16 38 37 15 33 33 47 109 112 14 62 66 7 13 14 2 10 10 23 85 90 6 20 38 0 1 5 0 5 8 6 26 51 Total 68 114 24 206 205 167 114 486 205 26 39 270 116 7 8 131 25 76 26 127 96 91 81 268 142 34 22 198 64 6 13 83 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total DURACIÓN DEL VIAJE V. corto V. medio V. largo 4 9 11 13 30 34 4 7 22 21 46 67 16 32 28 18 28 59 12 32 63 46 92 150 10 39 59 3 10 18 5 11 29 18 60 106 1 33 43 0 2 10 0 5 8 1 40 61 Medidas de asociación Variable respuesta: Duración del viaje (D) HABITAT (H) 2 90,200 Test χ de Pearson 4 Grados de libertad 0,0000 Valor de p Test razón de verosimilitud 90,996 Grados de libertad 4 Valor de p 0,0000 Coeficiente Φ 0,191 Coeficiente de contingencia 0,187 Test V de Cràmer 0,135 Coeficiente τ! D i de 0,021 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! D i para i = H, E, S 0,018 EDAD (E) 37,606 6 0,0000 ESTUDIOS (S) 20,206 4 0,0005 39,526 6 0,0000 0,123 0,122 0,087 20,053 4 0,0005 0,090 0,090 0,064 0,006 0,005 0,008 0,004 Total 24 77 33 134 76 105 107 288 108 31 45 184 77 12 13 102 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: DSE, DSH 49 g.l. Valor de G 2 = 63,59 ( p = 0,0786 ) Valor de χ 2 = 62,56 ( p = 0,0924 ) Representación gráfica: D S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,914415 Coeficiente de determinación ajustado: R 2 = 0,837562 Criterio de información de Akaike: AX − q = - 34,41 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “duración del viaje” (*) No significativos al 5 %. Tamaño del hábitat Ciudad pequeña Ciudad mediana Ciudad grande Duración del viaje V. corto V. medio V. largo - 0,284 0,161 0,123 - 0,029 0,020 0,009(*) - 0,181 - 0,094 0,275 Tendencia hacia... Corto/Medio Corto Largo Edad Individuo joven Individuo menos joven Individuo maduro Individuo anciano Duración del viaje V. corto V. medio V. largo - 0,098 - 0,176 0,274 - 0,180 0,100 0,080 - 0,158 0,050 0,107 - 0,216 - 0,033 0,248 Tendencia hacia... Corto Corto/Medio Medio/Largo Largo Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores Duración del viaje V. corto V. medio V. largo - 0,051 - 0,131 0,182 - 0,087 0,063 0,025 - 0,012 - 0,095 0,106 Tendencia hacia... Medio Corto/Largo Largo Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de realizar un viaje corto condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,5771 0,3316 0,2884 Sin instrucción o con Ind. menos joven 0,5533 0,3104 0,2689 estudios primarios Ind. maduro 0,3516 0,1647 0,1387 Ind. anciano 0,2604 0,1134 0,0947 Ind. joven 0,4423 0,3210 0,2473 Con estudios Ind. menos joven 0,4192 0,3009 0,2302 secundarios Ind. maduro 0,3629 0,2535 0,1909 Ind. anciano 0,2172 0,1420 0,1031 Ind. joven 0,3298 0,3818 0,2113 Con estudios Ind. menos joven 0,2635 0,3098 0,1630 superiores Ind. maduro 0,1680 0,2021 0,0990 Ind. anciano 0,2600 0,3060 0,1606 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir un viaje corto frente a preferir un viaje largo. Probabilidades estimadas de realizar un viaje de duración media condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,6840 0,5407 0,5330 Sin instrucción o con Ind. menos joven 0,6309 0,4818 0,4740 estudios primarios Ind. maduro 0,5873 0,4363 0,4287 Ind. anciano 0,5624 0,4114 0,4040 Ind. joven 0,5649 0,4229 0,3473 Con estudios Ind. menos joven 0,6213 0,4808 0,4020 secundarios Ind. maduro 0,5815 0,4395 0,3629 Ind. anciano 0,3576 0,2390 0,1857 Ind. joven 0,4182 0,3811 0,2449 Con estudios Ind. menos joven 0,5540 0,5155 0,3592 superiores Ind. maduro 0,4049 0,3682 0,2349 Ind. anciano 0,4900 0,4514 0,3024 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir un viaje de duración media frente a preferir un viaje largo. Anexos ____________________________________________________________________________________ DURACIÓN DEL VIAJE B) Análisis de asociación entre las variables: - Duración del viaje. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.465 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total DURACIÓN DEL VIAJE V. corto V. medio V. largo 13 79 57 45 99 81 22 31 31 80 209 169 26 56 24 25 62 17 8 12 4 59 130 45 15 39 36 51 117 93 19 37 39 85 193 168 6 18 13 27 39 16 3 11 4 36 68 33 0 8 16 12 39 49 5 11 15 17 58 80 0 3 4 4 10 4 5 5 0 9 18 8 Total 149 225 84 458 106 104 24 234 90 261 95 446 37 82 18 137 24 100 31 155 7 18 10 35 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Duración del viaje (D) NIVEL DE INGRESOS (I) 2 17,181 Test χ de Pearson 4 Grados de libertad 0,0018 Valor de p Test razón de verosimilitud 16,905 Grados de libertad 4 Valor de p 0,0020 Coeficiente Φ 0,108 Coeficiente de contingencia 0,108 Test V de Cràmer 0,077 ! Coeficiente τ D i de 0,006 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! D i 0,006 TEMPORADA VACACIONAL (T) 45,044 2 0,0000 NÚMERO DE MIEMBROS (N) 11,655 4 0,0201 47,208 2 0,0000 0,175 0,173 0,175 12,058 4 0,0169 0,089 0,089 0,063 0,016 0,003 0,015 0,004 para i = I, T, N Características principales del mejor modelo log-lineal Mejor modelo: NTI, DT 29 g.l. Valor de G 2 = 42,87 ( p = 0,0468 ) Valor de χ 2 = 42,55 ( p = 0,0501 ) Representación gráfica: D N T I Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,761727 Coeficiente de determinación ajustado: R 2 = 0,646699 Criterio de información de Akaike: AX − q = - 15,13 Anexos ____________________________________________________________________________________ Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “duración del viaje” Temporada vacacional Temporada alta Temporada baja Duración del viaje V. corto V. medio V. largo - 0,196 - 0,100 0,296 - 0,296 0,196 0,100 Tendencia hacia... Largo Corto/Medio Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de realizar un viaje corto condicionadas a cada categoría de las variables explicativas j = 1, 2, 3 l = 1, 2 ,3 Temporada alta: p1 j1l = 0,3096 Temporada baja: p1 j 2 l = 0,5454 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir un viaje corto frente a preferir un viaje largo. Probabilidades estimadas de realizar un viaje de duración media condicionadas a cada categoría de las variables explicativas j = 1, 2, 3 l = 1, 2 ,3 Temporada alta: p2 j 1l = 0,5242 Temporada baja: p2 j2l = 0,7087 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir un viaje de duración media frente a preferir un viaje largo. Anexos ____________________________________________________________________________________ FORMA DE VIAJAR A) Análisis de asociación entre las variables: - Forma de viajar. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.493 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Solo 4 4 2 10 4 6 2 12 7 1 2 10 10 1 2 13 2 9 2 13 3 4 5 12 5 1 1 7 2 1 0 3 FORMA DE VIAJAR En familia En grupo 37 23 65 44 6 14 108 81 170 30 131 29 89 21 390 80 178 21 26 0 33 3 237 24 80 23 5 1 5 1 90 25 14 9 49 19 13 11 76 39 83 11 77 10 58 19 218 40 133 8 30 4 19 2 182 14 65 7 5 0 12 0 82 7 Total 64 113 22 199 204 166 112 482 206 27 38 271 113 7 8 128 25 77 26 128 97 91 82 270 146 35 22 203 74 6 12 92 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Solo 4 4 3 11 0 6 5 11 3 2 1 6 4 0 0 4 FORMA DE VIAJAR En familia En grupo 14 6 52 22 21 9 87 37 68 8 84 14 80 23 232 45 100 8 28 3 41 3 169 14 72 5 10 2 14 1 96 8 Medidas de asociación Variable respuesta: Forma de viajar (F) HABITAT (H) 2 11,520 Test χ de Pearson 4 Grados de libertad 0,0213 Valor de p Test razón de verosimilitud 11,423 Grados de libertad 4 Valor de p 0,0222 Coeficiente Φ 0,068 Coeficiente de contingencia 0,068 Test V de Cràmer 0,048 Coeficiente τ! F i de 0,003 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! F i para i = H, E, S 0,004 EDAD (E) 166,496 6 0,0000 ESTUDIOS (S) 25,624 4 0,0000 155,597 6 0,0000 0,258 0,250 0,183 25,797 4 0,0000 0,101 0,101 0,072 0,053 0,008 0,050 0,008 Total 24 78 33 135 76 104 108 288 111 33 45 189 81 12 15 108 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: FEH, SEH 41 g.l. Valor de G 2 = 37,57 ( p = 0,6237 ) Valor de χ 2 = 40,41 ( p = 0,4968 ) Representación gráfica: F S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,952328 Coeficiente de determinación ajustado: R 2 = 0,894192 Criterio de información de Akaike: AX − q = - 44,43 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “forma de viajar” Tamaño del hábitat Ciudad pequeña Ciudad mediana Ciudad grande Edad Individuo joven Individuo menos joven Individuo maduro Individuo anciano Solo - 0,101 0,032 0,069 Forma de viajar En familia En grupo - 0,115 0,216 - 0,078 0,046 - 0,138 0,068 Tendencia hacia... Grupo Solo/Familia Solo/Familia Solo 0,102 - 0,196 - 0,084 0,177 Forma de viajar En familia En grupo - 0,580 0,478 0,087 0,109 - 0,332 0,416 - 0,255 0,078 Tendencia hacia... Solo/Grupo Familia/Grupo Familia Solo/Familia Anexos ____________________________________________________________________________________ Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de viajar solo condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,1098 0,2499 0,2292 Sin instrucción o con Ind. menos joven 0,1303 0,2308 0,2518 estudios primarios Ind. maduro 0,2705 0,3334 0,3001 Ind. anciano 0,3421 0,2823 0,4030 Ind. joven 0,1098 0,2499 0,2292 Con estudios Ind. menos joven 0,1303 0,2308 0,2518 secundarios Ind. maduro 0,2705 0,3334 0,3001 Ind. anciano 0,3421 0,2823 0,4030 Ind. joven 0,1098 0,2499 0,2292 Con estudios Ind. menos joven 0,1303 0,2308 0,2518 superiores Ind. maduro 0,2705 0,3334 0,3001 Ind. anciano 0,3421 0,2823 0,4030 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir viajar solo frente a preferir viajar en grupo. Probabilidades estimadas de viajar en familia condicionadas a cada categoría de las variables explicativas Tamaño del hábitat Nivel de estudios Edad C. pequeña C. mediana C. grande Ind. joven 0,5713 0,6608 0,7018 Sin instrucción o con Ind. menos joven 0,8296 0,8450 0,8375 estudios primarios Ind. maduro 0,8978 0,9286 0,9235 Ind. anciano 0,7826 0,9018 0,9232 Ind. joven 0,5713 0,6608 0,7018 Con estudios Ind. menos joven 0,8296 0,8450 0,8375 secundarios Ind. maduro 0,8978 0,9286 0,9235 Ind. anciano 0,7826 0,9018 0,9232 Ind. joven 0,5713 0,6608 0,7018 Con estudios Ind. menos joven 0,8296 0,8450 0,8375 superiores Ind. maduro 0,8978 0,9286 0,9235 Ind. anciano 0,7826 0,9018 0,9232 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir viajar en familia frente a preferir viajar en grupo. Anexos ____________________________________________________________________________________ FORMA DE VIAJAR B) Análisis de asociación entre las variables: - Forma de viajar. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.469 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Solo 10 4 5 19 8 4 2 14 4 3 2 9 2 6 1 9 3 1 1 5 0 1 0 1 FORMA DE VIAJAR En familia En grupo 116 29 199 25 73 8 388 62 58 37 73 25 11 10 142 72 68 19 222 34 74 17 364 70 28 6 63 13 10 7 101 26 18 4 83 15 26 6 127 25 8 0 13 3 7 4 28 7 Total 155 228 86 469 103 102 23 228 91 259 93 443 36 82 18 136 25 99 33 157 8 17 11 36 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Forma de viajar (F) NIVEL DE INGRESOS (I) 2 4,785 Test χ de Pearson 4 Grados de libertad 0,3100 Valor de p Test razón de verosimilitud 4,784 Grados de libertad 4 Valor de p 0,3102 Coeficiente Φ 0,057 Coeficiente de contingencia 0,057 Test V de Cràmer 0,040 ! Coeficiente τ F i de 0,002 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! F i 0,003 TEMPORADA VACACIONAL (T) 35,980 2 0,0000 NÚMERO DE MIEMBROS (N) 27,632 4 0,0000 34,030 2 0,0000 0,157 0,155 0,157 27,001 4 0,0000 0,137 0,136 0,097 0,020 0,013 0,019 0,015 para i = I, T, N Características principales del mejor modelo log-lineal Mejor modelo: FNT, NTI 21 g.l. Valor de G 2 = 17,46 ( p = 0,6829 ) Valor de χ 2 = 17,15 ( p = 0,7019 ) Representación gráfica: F N T I Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,903086 Coeficiente de determinación ajustado: R 2 = 0,801557 Criterio de información de Akaike: AX − q = - 24,54 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “forma de viajar” Anexos ____________________________________________________________________________________ Temporada vacacional Temporada alta Temporada baja Número de miembros Familia sin hijos Familia con 1-2 hijos Familia numerosa Solo - 0,177 0,177 Forma de viajar En familia En grupo - 0,138 0,315 - 0,315 0,138 Tendencia hacia... Familia Solo/Grupo Solo 0,221 - 0,293 0,072 Forma de viajar En familia En grupo - 0,204 - 0,018 - 0,050 0,343 - 0,140 0,068 Tendencia hacia... Solo Familia Solo/Grupo Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de viajar solo condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Altos Familia Temporada alta 0,2464 0,2464 0,2464 sin hijos Temporada baja 0,1888 0,1888 0,1888 Familia con Temporada alta 0,0975 0,0975 0,0975 1-2 hijos Temporada baja 0,2117 0,2117 0,2117 Familia Temporada alta 0,2051 0,2051 0,2051 numerosa Temporada baja 0,1556 0,1556 0,1556 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir viajar solo frente a preferir viajar en grupo. Probabilidades estimadas de viajar en familia condicionadas a cada categoría de las variables explicativas Número miembros Temporada Nivel de ingresos hogar familiar vacacional Bajos Medios Altos Familia Temporada alta 0,7951 0,7951 0,7951 sin hijos Temporada baja 0,6669 0,6669 0,6669 Familia con Temporada alta 0,8718 0,8718 0,8718 1-2 hijos Temporada baja 0,7843 0,7843 0,7843 Familia Temporada alta 0,8479 0,8479 0,8479 numerosa Temporada baja 0,5715 0,5715 0,5715 Nota: Los valores recogidos en la anterior tabla se refieren a la probabilidad de preferir viajar en familia frente a preferir viajar en grupo. Anexos ____________________________________________________________________________________ FRACCIONAMIENTO VACACIONAL A) Análisis de asociación entre las variables: - Fraccionamiento vacacional. - Tamaño del hábitat. - Edad. - Nivel de estudios. Tabla de contingencia ( 2.540 observaciones ) TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad pequeña Individuo maduro Individuo anciano Individuo joven Individuo menos joven Ciudad mediana Individuo maduro Individuo anciano Continúa ... NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total FRACCIONAMIENTO VACACIONAL No fracciona Sí fracciona 55 12 97 20 20 4 172 36 174 28 137 34 91 25 402 87 187 24 21 6 29 9 237 39 95 23 7 0 6 2 108 25 21 4 62 16 20 6 103 26 92 7 77 16 56 27 225 50 128 21 27 9 17 5 172 35 71 4 6 0 9 4 86 8 Total 67 117 24 208 202 171 116 489 211 27 38 276 118 7 8 133 25 78 26 129 99 93 83 275 149 36 22 207 75 6 13 94 Anexos ____________________________________________________________________________________ ... viene de la página anterior TAMAÑO DEL HABITAT EDAD Individuo joven Individuo menos joven Ciudad grande Individuo maduro Individuo anciano NIVEL DE ESTUDIOS Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total Sin/sólo est. primarios Con est. secundarios Con est. superiores Total FRACCIONAMIENTO VACACIONAL No fracciona Sí fracciona 24 1 69 10 24 10 117 21 72 3 83 23 78 34 233 60 101 10 25 8 32 14 158 32 71 10 7 5 13 2 91 17 Total 25 79 34 138 75 106 112 293 111 33 46 190 81 12 15 108 Medidas de asociación Variable respuesta: Fraccionamiento vacacional (F) HABITAT (H) 2 0,320 Test χ de Pearson 2 Grados de libertad 0,8520 Valor de p Test razón de verosimilitud 0,319 Grados de libertad 2 Valor de p 0,8528 Coeficiente Φ 0,011 Coeficiente de contingencia 0,011 Test V de Cràmer 0,011 Coeficiente τ! F i de 0,000 Kruskal-Goodman para i = H, E, S Coeficiente de incertidumbre U! F i para i = H, E, S 0,000 EDAD (E) 3,773 3 0,2870 ESTUDIOS (S) 59,148 2 0,0000 3,803 3 0,2835 0,039 0,039 0,039 57,831 2 0,0000 0,153 0,151 0,153 0,001 0,023 0,002 0,025 Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: SEH, FS 31 g.l. Valor de G 2 = 40,32 ( p = 0,1219 ) Valor de χ 2 = 38,90 ( p = 0,1557 ) Representación gráfica: F S E H Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,943344 Coeficiente de determinación ajustado: R 2 = 0,888515 Criterio de información de Akaike: AX − q = - 21,68 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “fraccionamiento vacacional” Nivel de estudios Sin/sólo est. primarios Con est. secundarios Con est. superiores Fraccionamiento vacacional No fracciona Sí fracciona - 0,262 0,262 - 0,033 0,033 - 0,229 0,229 Tendencia hacia ... No fracciona Sí fracciona Sí fracciona Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de tomar las vacaciones de forma continuada condicionadas a cada categoría de las variables explicativas k = 1, 2, 3, 4 l = 1, 2 ,3 Sin/sólo est. primarios: p1 1kl = 0,8812 Con est. secundarios: p1 2 kl = 0,8044 Con est. superiores: p1 3kl = 0,7354 Anexos ____________________________________________________________________________________ FRACCIONAMIENTO VACACIONAL B) Análisis de asociación entre las variables: - Fraccionamiento vacacional. - Nivel de ingresos. - Temporada vacacional. - Número de miembros del hogar familiar. Tabla de contingencia ( 1.497 observaciones ) NIVEL DE INGRESOS TEMPORADA VACACIONAL Temporada alta Ingresos bajos Temporada baja Temporada alta Ingresos medios Temporada baja Temporada alta Ingresos altos Temporada baja Nº DE MIEMBROS HOGAR FAMILIAR Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total Familia sin hijos Familia con 1-2 hijos Familia numerosa Total FRACCIONAMIENTO VACACIONAL No fracciona Sí fracciona 140 18 200 30 74 13 414 61 91 17 93 10 20 4 204 31 70 22 222 43 79 16 371 81 27 10 63 20 15 3 105 33 15 10 72 29 28 6 115 45 6 2 13 5 7 4 26 11 Total 158 230 87 475 108 103 24 235 92 265 95 452 37 83 18 138 25 101 34 160 8 18 11 37 Anexos ____________________________________________________________________________________ Medidas de asociación Variable respuesta: Fraccionamiento vacacional (F) NIVEL DE TEMPORADA INGRESOS VACACIONAL (I) (T) 2 27,791 0,245 Test χ de Pearson 2 1 Grados de libertad 0,0000 0,6208 Valor de p Test razón de verosimilitud 26,541 0,243 Grados de libertad 2 1 Valor de p 0,0000 0,6221 Coeficiente Φ 0,136 0,013 Coeficiente de contingencia 0,135 0,013 Test V de Cràmer 0,136 0,013 ! Coeficiente τ F i de 0,019 0,000 Kruskal-Goodman para i = I, T, N Coeficiente de incertidumbre U! F i para i = I, T, N Test de Yates Grados de libertad Valor de p Ratio de producto cruzado Test Q de Yule Test Y de Yule NÚMERO DE MIEMBROS (N) 0,380 2 0,8271 0,376 2 0,8285 0,016 0,016 0,016 0,000 0,019 0,000 0,000 - 0,175 1 0,6757 1,078 0,037 0,019 - Anexos ____________________________________________________________________________________ Características principales del mejor modelo log-lineal Mejor modelo: NTI, FI 15 g.l. Valor de G 2 = 12,51 ( p = 0,6402 ) Valor de χ 2 = 12,58 ( p = 0,6346 ) Representación gráfica: F N T I Modelo gráfico Modelo descomponible Coeficiente de determinación: R 2 = 0,911390 Coeficiente de determinación ajustado: R 2 = 0,828687 Criterio de información de Akaike: AX − q = - 17,49 Estimaciones de los efectos de interacción de segundo orden del modelo seleccionado que tienen relación con la variable “fraccionamiento vacacional” (*) No significativos al 5 %. Nivel de ingresos Ingresos bajos Ingresos medios Ingresos altos Fraccionamiento vacacional No fracciona Sí fracciona - 0,243 0,243 - 0,005(*) 0,005(*) 0,248 - 0,248 Tendencia hacia ... No fracciona Sí fracciona Tabla de probabilidades condicionadas ( modelo logit asociado ) Probabilidades estimadas de tomar las vacaciones de forma continuada condicionadas a cada categoría de las variables explicativas j = 1, 2, 3 k = 1, 2 Ingresos bajos: p1 jk 1 = 0,8706 Ingresos medios: p1 jk 2 = 0,8069 Ingresos altos: p1 jk 3 = 0,7159 Anexo 2 Anexos ____________________________________________________________________________________ ESTIMACIONES DEL MODELO RESTRINGIDO Nº 3 MODELO DEFINITIVO a) Instrucciones y comandos del programa MLLSA: ____________________________________________________________________________________ TITLE "Estructura latente 1995. Restricciones de valor espec¡fico, restricciones de igualdad y restricciones de clases latentes" TABLE 2 2 2 2 2 VARIABLE NAMES 'dinam' 'ecol' 'organ' 'econom' 'sociab' VALUE LABELS 'estatico' 'dinamico' 'natural' 'ciudad' 'cuentpro' 'grupo' 'ahorro' 'derroch' 'marchoso' 'tranquil' LCLASS 5 OPTIONS 1 2 4 6 DATA 124 269 81 82 38 88 33 36 57 134 53 61 9 38 8 25 611 473 140 57 104 108 70 31 160 190 34 30 25 33 6 9 LCPROB 0.16 0.15 0.27 0.27 0.15 CPROB 0 1 0.42 0.58 0.71 0.29 1 0 0.47 0.53 0.61 0.39 1 0 0.89 0.11 0.81 0.19 0.75 0.25 0.37 0.63 0.26 0.74 0 1 0.16 0.84 0.16 0.84 0.34 0.66 0.81 0.19 0.52 0.48 0.34 0.66 0.48 0.52 0.78 0.22 0.53 0.47 0.64 0.36 1 0 0.02 0.98 CREST 1 1 0 0 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 1 2 0 2 0 3 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 1 1 0 0 LCREST 0 4 5 5 4 TOLERANCE 0.0000001 ITERATIONS 500000 EXECUTE FINISH ____________________________________________________________________________________ b) Valores iniciales de los parámetros del modelo: ____________________________________________________________________________________ START VALUES FOR LATENT CLASS PROBABILITIES: .160000 .150000 .270000 .270000 .150000 START VALUES FOR CONDITIONAL PROBABILITIES: .000000 1.000000 .420000 .610000 .390000 1.000000 .370000 .630000 .260000 .340000 .660000 .810000 .780000 .220000 .530000 .580000 .000000 .740000 .190000 .470000 .710000 .290000 1.000000 .890000 .110000 .810000 .000000 1.000000 .160000 .520000 .480000 .340000 .640000 .360000 1.000000 .000000 .190000 .840000 .660000 .000000 .470000 .750000 .160000 .480000 .020000 .530000 .250000 .840000 .520000 .980000 ____________________________________________________________________________________ Anexos ____________________________________________________________________________________ c) Modelo de independencia: ____________________________________________________________________________________ MARGINALS: 1 2 3 4 5 1553.00 2461.00 2556.00 2345.00 1136.00 1664.00 756.00 661.00 872.00 2081.00 LIKELIHOOD RATIO CHI-SQUARE = PEARSON CHI-SQUARE = 416.241600 422.580800 ____________________________________________________________________________________ d) Restricciones impuestas al modelo: ____________________________________________________________________________________ RESTRICTIONS ON LATENT CLASS PROBABILITIES: 0 4 5 5 4 RESTRICTIONS ON THE CONDITIONAL PROBABILITIES LATENT CLASS = 1 2 3 4 5 dinam dinam estatico dinamico 1 1 0 0 0 0 1 1 0 0 ecol ecol natural ciudad 0 0 1 1 0 0 0 0 0 0 organ organ cuentpro grupo 0 0 0 0 1 1 2 0 2 0 econom econom ahorro derroch 3 0 0 0 0 0 3 0 0 0 sociab sociab marchoso tranquil 0 0 0 0 0 0 1 1 0 0 ____________________________________________________________________________________ e) Valores observados, esperados y residuos estandarizados: ____________________________________________________________________________________ CELL OBSERVED 1 124.0000 2 269.0000 3 81.0000 4 82.0000 5 38.0000 6 88.0000 7 33.0000 8 36.0000 9 57.0000 10 134.0000 11 53.0000 12 61.0000 13 9.0000 14 38.0000 Continúa en la página siguiente ... EXPECTED 124.4806 273.8581 79.4547 81.9458 37.5709 78.3232 33.9159 39.2314 56.3894 136.0097 54.9046 60.4999 9.2156 39.7724 STDIZED RESID -.0431 -.2936 .1734 .0060 .0700 1.0934 -.1573 -.5159 .0813 -.1723 -.2570 .0643 -.0710 -.2810 FREEMAN-TUKEY -.0207 -.2795 .1999 .0334 .1097 1.0865 -.1148 -.4841 .1138 -.1513 -.2247 .0958 .0090 -.2432 Anexos ____________________________________________________________________________________ viene de la página anterior ... 15 8.0000 16 25.0000 17 611.0000 18 473.0000 19 140.0000 20 57.0000 21 104.0000 22 108.0000 23 70.0000 24 31.0000 25 160.0000 26 190.0000 27 34.0000 28 30.0000 29 25.0000 30 33.0000 31 6.0000 32 9.0000 6.7317 23.4418 607.9580 476.0294 139.8390 58.4445 107.6679 107.0137 68.2974 31.1095 163.1814 180.8161 34.0048 27.8239 22.5102 40.2433 6.7651 9.5498 .4888 .3218 .1234 -.1388 .0136 -.1890 -.3535 .0953 .2060 -.0196 -.2491 .6830 -.0008 .4125 .5248 -1.1418 -.2942 -.1779 .5439 .3642 .1333 -.1275 .0347 -.1569 -.3317 .1190 .2341 .0247 -.2304 .6922 .0415 .4480 .5575 -1.1514 -.2020 -.0986 ____________________________________________________________________________________ f) Estimaciones finales: ____________________________________________________________________________________ FINAL LATENT CLASS PROBABILITIES: .160783 .357525 .062083 .062083 .357525 FINAL CONDITIONAL PROBABILITIES: LATENT CLASS = 1 2 3 4 5 dinam estatico .0000 .2301 .7550 1.0000 .8153 dinam dinamico 1.0000 .7699 .2450 .0000 .1847 ecol natural .5018 1.0000 .4172 .3308 .7842 ecol ciudad .4982 .0000 .5828 .6692 .2158 organ cuentpro .7244 .8198 .0000 .9172 .9172 organ grupo .2756 .1802 1.0000 .0828 .0828 econom ahorro .5709 .7159 .9378 .5709 .8044 econom derroch .4291 .2841 .0622 .4291 .1956 sociab marchoso .7488 .3573 .3245 1.0000 .0634 sociab tranquil .2512 .6427 .6755 .0000 .9366 ____________________________________________________________________________________ g) Asignación de individuos a clases latentes: ____________________________________________________________________________________ CELL OBSERVED EXPECTED ASSIGN TO CLASS 1 124.00 124.48 2 2 269.00 273.86 2 3 81.00 79.45 4 4 82.00 81.95 1 Continúa en la página siguiente ... MODAL PROBABILITY .4457 .6781 .8809 .9738 Anexos ____________________________________________________________________________________ viene de la página anterior ... 5 38.00 6 88.00 7 33.00 8 36.00 9 57.00 10 134.00 11 53.00 12 61.00 13 9.00 14 38.00 15 8.00 16 25.00 17 611.00 18 473.00 19 140.00 20 57.00 21 104.00 22 108.00 23 70.00 24 31.00 25 160.00 26 190.00 27 34.00 28 30.00 29 25.00 30 33.00 31 6.00 32 9.00 37.57 78.32 33.92 39.23 56.39 136.01 54.90 60.50 9.22 39.77 6.73 23.44 607.96 476.03 139.84 58.44 107.67 107.01 68.30 31.11 163.18 180.82 34.00 27.82 22.51 40.24 6.77 9.55 3 2 3 1 4 2 4 1 2 1 4 1 5 2 5 5 5 2 3 3 5 2 5 1 5 2 3 1 PERCENT CORRECTLY ALLOCATED = NUMBER CORRECTLY ALLOCATED = LAMBDA = 72.88388 2344.67 .57794 NUMBER OF ESTIMATED PARAMETERS = DEGREES OF FREEDOM IF IDENTIFIED = 20 11 COLUMN RANK = DEGREES OF FREEDOM = .5095 .5213 .7885 .7739 .4611 .5419 .9581 .9914 .5255 .5778 .7054 .9734 .8359 .7016 1.0000 .5419 .4261 .6862 .8152 .5807 .7573 .7331 1.0000 .7232 .4956 .7243 .5462 .8016 20 11 ____________________________________________________________________________________ h) Bondad de ajuste del modelo: ____________________________________________________________________________________ FINAL LIKELIHOOD RATIO CHI-SQUARE = FINAL PEARSON CHI-SQUARE = INDEX OF DISSIMILARITY = BAYESIAN INFO CRITERIA = 4.804116 4.785797 .010999 -84.034130 ____________________________________________________________________________________ Anexo 3 Anexos ____________________________________________________________________________________ ESTIMACIONES DEL MODELO HETEROGÉNEO RESTRINGIDO Nº 1 Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas del modelo heterogéneo restringido nº 1 Grupo: turistas menores de 45 años Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1492 0.8508 0.6977 0.3023 0.7810 0.2190 0.5620 0.4380 0.7312 0.2688 0.234811 Clase 2 0.5015 0.4985 1.0000 0.0000 0.9076 0.0924 1.0000 0.0000 0.1911 0.8089 0.213095 Clase 3 0.8406 0.1594 0.0000 1.0000 0.8401 0.1599 0.8617 0.1383 0.4062 0.5938 0.039155 Clase 4 1.0000 0.0000 0.4671 0.5329 1.0000 0.0000 0.0843 0.9157 1.0000 0.0000 0.017579 Clase 5 0.4735 0.5265 0.9700 0.0300 0.9076 0.0924 0.0028 0.9972 0.0000 1.0000 0.067633 0.410313 0.372366 0.068420 0.03718 0.118183 Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas para el modelo heterogéneo restringido nº 1 Grupo: turistas con 45 años o más Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1868 0.8132 0.7577 0.2423 0.0000 1.0000 0.8616 0.1384 0.4506 0.5494 0.053974 Clase 2 0.1118 0.8882 1.0000 0.0000 1.0000 0.0000 0.7139 0.2861 0.4019 0.5981 0.055570 Clase 3 1.0000 0.0000 0.2993 0.7007 0.3542 0.6458 1.0000 0.0000 0.2840 0.7160 0.041240 Clase 4 0.7602 0.2398 0.8345 0.1655 0.8706 0.1294 0.8398 0.1602 0.0748 0.9252 0.233531 Clase 5 0.5354 0.4646 0.2438 0.7562 0.7461 0.2539 0.5742 0.4258 0.7235 0.2765 0.043413 0.126188 0.129919 0.096416 0.545980 0.101497 Anexos ____________________________________________________________________________________ ESTIMACIONES DEL MODELO HETEROGÉNEO RESTRINGIDO Nº 2 Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas del modelo heterogéneo restringido nº 2 Grupo: turistas menores de 45 años Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1492 0.8508 0.6977 0.3023 0.7810 0.2190 0.5620 0.4380 0.7312 0.2688 0.234811 Clase 2 0.5015 0.4985 1.0000 0.0000 0.9076 0.0924 1.0000 0.0000 0.1911 0.8089 0.213095 Clase 3 0.8406 0.1594 0.0000 1.0000 0.8401 0.1599 0.8617 0.1383 0.4062 0.5938 0.039155 Clase 4 1.0000 0.0000 0.4671 0.5329 1.0000 0.0000 0.0843 0.9157 1.0000 0.0000 0.017579 Clase 5 0.4735 0.5265 0.9700 0.0300 0.9076 0.0924 0.0028 0.9972 0.0000 1.0000 0.067633 0.410313 0.372366 0.068420 0.030718 0.118183 Probabilidades condicionadas, probabilidades de clase latente y probabilidades de clase latente condicionadas para el modelo heterogéneo restringido nº 2 Grupo: turistas con 45 años o más Clases latentes Variables manifiestas Variable A Estático Dinámico Variable B Ecologista Cosmopolita Variable C Independiente Despreocupado Variable D Ahorrador Derrochador Variable E Marchoso Tranquilo Probabilidades de clase latente Probabilidades de clase latente condicionadas Clase 1 0.1798 0.8202 0.7561 0.2439 0.0000 1.0000 0.8617 0.1383 0.4510 0.5490 0.053473 Clase 2 0.0962 0.9038 1.0000 0.0000 1.0000 0.0000 0.7132 0.2868 0.4065 0.5935 0.053473 Clase 3 1.0000 0.0000 0.3080 0.6920 0.3595 0.6405 1.0000 0.0000 0.2858 0.7142 0.042609 Clase 4 0.7568 0.2432 0.8352 0.1648 0.8714 0.1286 0.8381 0.1619 0.0768 0.9232 0.235564 Clase 5 0.5325 0.4675 0.2463 0.7537 0.7460 0.2540 0.5688 0.4312 0.7301 0.2699 0.042609 0.125016 0.125016 0.099617 0.550733 0.099617 Anexo 4 Anexos ____________________________________________________________________________________ ESTIMACIONES DEL MODELO HOMOGÉNEO MODELO DEFINITIVO a) Instrucciones y comandos del programa MLLSA: ____________________________________________________________________________________ TITLE “Estructura latente simultánea. 5 clases latentes. Modelo definitivo” TABLE 2 2 2 2 2 2 VARIABLE NAMES 'dinam' 'ecol' 'organ' 'econom' 'sociab' 'edad' VALUE LABELS 'estatico' 'dinamico' 'natural' 'ciudad' 'cuentpro' 'grupo' 'ahorro' 'derroch' 'marchoso' 'tranquil' '< 45' '>= 45' LCLASS 10 OPTIONS 1 2 4 6 DATA 84 211 46 66 14 42 8 18 44 110 41 49 6 32 3 17 265 300 49 31 27 43 10 10 97 143 13 23 12 20 3 4 40 58 35 16 24 46 25 18 13 24 12 12 3 6 5 8 346 173 91 26 77 65 60 21 63 47 21 7 13 13 3 5 LCPROB 0.11 0.04 0.14 0.19 0.03 0.12 0.02 0.14 0.10 0.11 CPROB 0.17 0.83 0.42 0.58 0.71 0.29 0.99 0.01 0.47 0.53 0.21 0.79 0.37 0.63 0.53 0.47 0.88 0.12 0.24 0.76 0.61 0.39 0.94 0.06 0.89 0.11 0.81 0.19 0.75 0.25 0.43 0.57 0.71 0.29 0.16 0.84 0.90 0.10 0.12 0.88 0.37 0.63 0.26 0.74 0.09 0.91 0.29 0.71 0.16 0.84 0.19 0.81 0.26 0.74 0.47 0.53 0.82 0.18 0.64 0.36 0.57 0.43 0.81 0.19 0.52 0.48 0.34 0.66 0.48 0.52 0.76 0.24 0.22 0.78 0.15 0.85 0.89 0.11 0.23 0.77 0.78 0.22 0.53 0.47 0.64 0.36 0.77 0.23 0.02 0.98 0.95 0.05 0.14 0.86 0.61 0.39 0.56 0.44 0.51 0.49 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 LCREST 8 0 7 0 0 5 5 7 8 7 CREST 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 TOLERANCE 0.000001 ITERATIONS 500000 EXECUTE FINISH ____________________________________________________________________________________ b) Valores iniciales de los parámetros del modelo: ____________________________________________________________________________________ START VALUES ENTERED FOR LATENT CLASS PROBABILITIES: .110000 .040000 .140000 .190000 .030000 .120000 .020000 .140000 .100000 .110000 .010000 .470000 .530000 START VALUES ENTERED FOR CONDITIONAL PROBABILITIES: .170000 .830000 .420000 .580000 .710000 .290000 .990000 Anexos ____________________________________________________________________________________ .210000 .790000 .370000 .630000 .530000 .470000 .880000 .120000 .240000 .760000 .610000 .390000 .940000 .060000 .890000 .110000 .810000 .190000 .750000 .250000 .430000 .570000 .710000 .290000 .160000 .840000 .900000 .100000 .120000 .880000 .370000 .630000 .260000 .740000 .090000 .910000 .290000 .710000 .160000 .840000 .190000 .810000 .260000 .740000 .470000 .530000 .820000 .180000 .640000 .360000 .570000 .430000 .810000 .190000 .520000 .480000 .340000 .660000 .480000 .520000 .760000 .240000 .220000 .780000 .150000 .850000 .890000 .110000 .230000 .770000 .780000 .220000 .530000 .470000 .640000 .360000 .770000 .230000 .020000 .980000 .950000 .050000 .140000 .860000 .610000 .390000 .560000 .440000 .510000 .490000 1.00000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 .000000 1.000000 ____________________________________________________________________________________ c) Modelo de independencia: ____________________________________________________________________________________ MARGINALS: 1 2 3 4 5 6 1553.00 2461.00 2556.00 2345.00 1136.00 1841.00 1664.00 756.00 661.00 872.00 2081.00 1376.00 LIKELIHOOD RATIO CHI-SQUARE = PEARSON CHI-SQUARE = 848.642000 945.948500 ____________________________________________________________________________________ d) Restricciones impuestas al modelo: ____________________________________________________________________________________ RESTRICTIONS ON LATENT CLASS PROBABILITIES: 8 0 7 0 0 5 5 7 8 7 RESTRICTIONS ON THE CONDITIONAL PROBABILITIES LATENT CLASS = 1 2 3 4 . . . dinam estatico 0 0 0 0 0 0 0 0 0 0 dinam dinamico 0 0 0 0 0 0 0 0 0 0 ecol natural 0 0 0 0 0 0 0 0 0 0 ecol ciudad 0 0 0 0 0 0 0 0 0 0 organ cuentpro 0 2 0 0 2 0 0 0 0 0 organ grupo 0 0 0 0 0 0 0 0 0 0 econom ahorro 0 0 0 0 0 0 0 0 0 0 econom derroch 0 0 0 0 0 0 0 0 0 0 sociab marchoso 0 0 0 0 0 0 0 0 0 0 sociab tranquil 0 0 0 0 0 0 0 0 0 0 edad < 45 1 1 1 1 1 0 0 0 0 0 edad >= 45 0 0 0 0 0 1 1 1 1 1 ____________________________________________________________________________________ Anexos ____________________________________________________________________________________ e) Valores observados, esperados y residuos estandarizados: ____________________________________________________________________________________ CELL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 OBSERVED 84.0000 211.0000 46.0000 66.0000 14.0000 42.0000 8.0000 18.0000 44.0000 110.0000 41.0000 49.0000 6.0000 32.0000 3.0000 17.0000 265.0000 300.0000 49.0000 31.0000 27.0000 43.0000 10.0000 10.0000 97.0000 143.0000 13.0000 23.0000 12.0000 20.0000 3.0000 4.0000 40.0000 58.0000 35.0000 16.0000 24.0000 46.0000 25.0000 18.0000 13.0000 24.0000 12.0000 12.0000 3.0000 6.0000 5.0000 8.0000 346.0000 173.0000 91.0000 26.0000 77.0000 65.0000 60.0000 21.0000 63.0000 47.0000 21.0000 7.0000 13.0000 13.0000 3.0000 5.0000 EXPECTED 86.8532 203.6009 44.6792 68.1846 13.1899 46.3187 9.1478 18.5527 43.9409 112.1664 41.0496 49.6133 5.4911 31.4577 3.4035 13.8187 262.1269 303.9284 49.7661 31.7122 28.2675 40.4290 9.6661 8.0967 97.6817 141.7677 13.2704 22.2782 11.2201 21.8899 2.5670 5.6339 41.5454 58.4593 31.9549 16.6971 22.9147 44.4840 26.7045 18.7648 11.2601 23.6140 13.9891 11.6097 3.6591 8.0210 5.0806 6.0205 343.0345 170.8964 94.2065 26.2541 78.1163 66.6423 58.6040 21.1888 66.7544 47.7869 16.8632 8.1079 11.7034 11.5654 4.0996 4.6269 STDIZED RESID -.3062 .5185 .1976 -.2646 .2231 -.6346 -.3795 -.1283 .0089 -.2046 -.0077 -.0871 .2172 .0967 -.2187 .8558 .1775 -.2253 -.1086 -.1265 -.2384 .4043 .1074 .6689 -.0690 .1035 -.0742 .1529 .2328 -.4039 .2703 -.6884 -.2398 -.0601 .5387 -.1706 .2267 .2273 -.3298 -.1765 .5185 .0794 -.5318 .1145 -.3446 -.7136 -.0358 .8067 .1601 .1609 -.3304 -.0496 -.1263 -.2012 .1824 -.0410 -.4595 -.1138 1.0074 -.3891 .3790 .4218 -.5431 .1735 FREEMAN-TUKEY -.2811 .5308 .2321 -.2356 .2826 -.6101 -.3027 -.0709 .0462 -.1816 .0309 -.0517 .3031 .1395 -.0908 .8641 .1922 -.2116 -.0734 -.0824 -.1927 .4347 .1809 .7008 -.0437 .1240 -.0068 .2020 .2961 -.3559 .3753 -.6153 -.2022 -.0275 .5662 -.1103 .2730 .2613 -.2845 -.1196 .5619 .1288 -.4773 .1821 -.2223 -.6566 .0679 .8202 .1731 .1793 -.3067 -.0013 -.0982 -.1712 .2129 .0126 -.4340 -.0779 .9994 -.3078 .4325 .4725 -.4391 .2688 ____________________________________________________________________________________ Anexos ____________________________________________________________________________________ f) Estimaciones finales: ____________________________________________________________________________________ FINAL LATENT CLASS PROBABILITIES: .235241 .213544 .040060 .016644 .067024 .056064 .056064 .040060 .235241 .040060 FINAL CONDITIONAL PROBABILITIES: LATENT CLASS = 1 2 3 4 . . . dinam estatico .1486 .5025 .8435 1.0000 .4751 .2114 .1350 1.0000 .7534 .5353 dinam dinamico .8514 .4975 .1565 .0000 .5249 .7886 .8650 .0000 .2466 .4647 ecol natural .6977 1.0000 .0001 .4736 .9738 .7566 1.0000 .2764 .8356 .1990 ecol ciudad .3023 .0000 .9999 .5264 .0262 .2434 .0000 .7236 .1644 .8010 organ cuentpro .7810 .9079 .8427 1.0000 .9079 .0000 1.0000 .3644 .8710 .7495 organ grupo .2190 .0921 .1573 .0000 .0921 1.0000 .0000 .6356 .1290 .2505 econom ahorro .5610 1.0000 .8563 .0393 .0023 .8598 .7063 1.0000 .8399 .5706 econom derroch .4390 .0000 .1437 .9607 .9977 .1402 .2937 .0000 .1601 .4294 sociab marchoso .7278 .1941 .4173 1.0000 .0000 .4535 .4182 .2791 .0759 .7309 sociab tranquil .2722 .8059 .5827 .0000 1.0000 .5465 .5818 .7209 .9241 .2691 edad < 45 1.0000 1.0000 1.0000 1.0000 1.0000 .0000 .0000 .0000 .0000 .0000 edad >= 45 .0000 .0000 .0000 .0000 .0000 1.0000 1.0000 1.0000 1.0000 1.0000 ____________________________________________________________________________________ g) Asignación de individuos a clases latentes: ____________________________________________________________________________________ CELL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 OBSERVED EXPECTED ASSIGN TO CLASS 84.00 86.85 2 211.00 203.60 1 46.00 44.68 3 66.00 68.18 1 14.00 13.19 1 42.00 46.32 1 8.00 9.15 3 18.00 18.55 1 44.00 43.94 4 110.00 112.17 1 41.00 41.05 4 49.00 49.61 1 6.00 5.49 1 32.00 31.46 1 3.00 3.40 1 17.00 13.82 1 265.00 262.13 2 300.00 303.93 2 49.00 49.77 3 31.00 31.71 1 27.00 28.27 2 43.00 40.43 2 10.00 9.67 3 10.00 8.10 1 97.00 97.68 5 143.00 141.77 5 13.00 13.27 3 Continúa en la página siguiente ... MODAL PROBABILITY .7003 .7042 .7326 .9109 .5321 .8681 .6676 .9389 .5544 1.0000 .6596 .9795 1.0000 1.0000 .6989 .9862 .9635 .8228 .9184 .7324 .9064 .6275 .8823 .8045 .9250 .7042 .5779 Anexos ____________________________________________________________________________________ viene de la página anterior ... 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 23.00 12.00 20.00 3.00 4.00 40.00 58.00 35.00 16.00 24.00 46.00 25.00 18.00 13.00 24.00 12.00 12.00 3.00 6.00 5.00 8.00 346.00 173.00 91.00 26.00 77.00 65.00 60.00 21.00 63.00 47.00 21.00 7.00 13.00 13.00 3.00 5.00 22.28 11.22 21.89 2.57 5.63 41.55 58.46 31.95 16.70 22.91 44.48 26.70 18.76 11.26 23.61 13.99 11.61 3.66 8.02 5.08 6.02 343.03 170.90 94.21 26.25 78.12 66.64 58.60 21.19 66.75 47.79 16.86 8.11 11.70 11.57 4.10 4.63 1 5 1 3 1 9 7 10 10 6 6 8 6 9 7 10 10 6 6 10 10 9 9 9 9 9 6 8 6 9 7 9 10 9 6 9 6 .8156 .8170 .5374 .5574 .9045 .6365 .7882 .5405 .8981 .4908 .9432 .6195 .7195 .4477 .8114 .9291 .9721 .5010 .8527 .8550 .6264 .9390 .6168 .6725 .7897 .6108 .7588 .7292 .7680 .9199 .5579 .7162 .5125 .7773 .7128 .4364 .5733 PERCENT CORRECTLY ALLOCATED = NUMBER CORRECTLY ALLOCATED = LAMBDA = 79.65117 2562.38 .73392 NUMBER OF ESTIMATED PARAMETERS = DEGREES OF FREEDOM IF IDENTIFIED = 43 20 COLUMN RANK = DEGREES OF FREEDOM = 43 20 ____________________________________________________________________________________ h) Bondad de ajuste del modelo: ____________________________________________________________________________________ FINAL LIKELIHOOD RATIO CHI-SQUARE = FINAL PEARSON CHI-SQUARE = INDEX OF DISSIMILARITY = 8.269212 8.334830 .015082 ____________________________________________________________________________________