PATH ANALYSIS Luis M. Carrascal Depto. Biodiversidad y Biología Evolutiva MUSEO NACIONAL DE CIENCIAS NATURALES Estructura de relaciones entre variables Matrices de correlaciones frente a modelos a priori de asociaciones funcionales y jerarquizadas entre variables Regresión múltiple frente a ‘path analysis’ Diagrama de relaciones (modelo a priori de relaciones entre variables) Tipos de variables Tipos de relaciones Coeficientes que miden efectos Efectos directos e indirectos Significación de efectos y funciones de discrepancia Bondad de ajuste del modelos Comparación entre matrices observadas y reproducidas Aproximación mediante la χ2 Otros estimadores cuantitativos Modelos anidados (significación y búsqueda de parsimonia) Análisis confirmatorio de componentes principales. Bibliografía seleccionada Mitchell, R. J. (1992) Testing evolutionary and ecological hypotheses using path analysis and structural equation modeling. Funct. Ecol. 6, 123-129. Mitchell, R. J. (1993) Path Analysis: Pollination. In Design and analysis of ecological experiments (S. M. Scheiner and J. Gurevitch, eds.), pp. 211-231. Steiger, J. H. (1989) EzPATH: a supplementary module for SYSTAT and SYGRAPH. SYSTAT, Evanston, Illinois. Steiger, J. H. (1995) Structural equation modeling. StatSoft Inc., Tulsa, Oklahoma. PATH ANALYSIS (introducción 1) Los sistemas ecológicos vienen definidos por numerosas variables que interaccionan entre si Dichas interacciones no son aleatorias, sino que responden a un esquema de ‘estructura de relaciones’. Esta estructura podemos representarla mediante un modelo en el que definimos: + variables que interaccionan entre si + sentido se las interacciones (A ⇒ B, ó, B ⇒ A) + signo de la relación [A=f +(B), A=f -(B)] PATH ANALYSIS (introducción 2) Los investigadores habitualmente utilizan diseños experimentales que manipulan las variables independientes para abordar el estudio de inter-relaciones entre variables y sus bases causales. Aunque esta aproximación experimental es muy efectiva, no siempre es posible debido a limitaciones logísticas, posibilidades de manipulación, o aspectos éticos. Cuando no es posible manipular las variables realizando experimentos, sólo queda la posibilidad de efectuar un control estadístico sobre los datos. Dos posibilidades: REGRESIÓN MÚLTIPLE: + cuantifica las correlaciones (parciales) entre variables independientes + proporciona el % de la varianza explicada de la dependiente por las independientes + NO PUEDE explicar los esquemas de relaciones causales entre variables PATH ANALYSIS: + aborda los dos aspectos proporcionados por la regresión múltiple + Herramienta diseñada para examinar modelos causales de relaciones entre variables. PATH ANALYSIS (introducción 3) Habitualmente trabajamos estableciendo múltiples relaciones entre variables que examinamos mediante matrices de correlaciones. En estas matrices se incluyen todas las relaciones posibles sin establecer el sentido de la asociación. NO TENEMOS HIPÓTESIS CLARAS. EDAD TARSO PESO DOMIN EDAD 1 0.05 -0.42 -0.34 TARSO 0.05 1 0.67 0.39 PESO -0.42 0.67 1 0.81 DOMIN -0.34 0.39 0.81 1 En el ‘path analysis’ necesitamos predecir la posible estructura de las relaciones: EDAD PESO DOMINANCIA TARSO De las 6 correlaciones posibles, predecimos, y trabajamos, SOLO con 3. PATH ANALYSIS (introducción 4) La pieza clave en el ‘path analysis’ es el diagrama de relaciones o ‘path diagram’. Los ‘path diagram’ son esquemas parecidos a los diagramas de flujo que muestran mediante flechas cómo las variables están inter-relacionadas. Resumen qué variables provocan cambios en cuáles variables. Los ‘path diagrams’ contienen ideas a priori (encierran esquemas de hipótesis) Su establecimiento está basado en: + conocimiento de historia natural + hipótesis funcionales + intuición y experiencia del investigador El ‘path analysis’ proporcionará medidas de cómo de bien el modelo definido a priori se ajusta a los datos observados. PATH ANALYSIS (introducción 5) ASPECTOS RELACIONADOS CON LA BASE MATEMÁTICA: + El ‘path analysis’ asume que las variables se asocian entre si mediante relaciones lineales. + Opera con las varianzas / covarianzas de las variables para examinar cómo de bien se ajustan a la estructura especificada por el modelo. Podemos distinguir cinco fases: 1) establecer el diagrama de relaciones (path diagram; sistema de ecuaciones) 2) definir la estructura de las matrices de varianza / covarianza 3) obtener datos que serán analizados 4) ¿se ajustan las varianzas / covarianzas a la estructura predicha? 5) obtención de coeficientes que miden los efectos, sus errores estandard y significación Si encontramos buen ajuste entre datos y modelo podremos apoyar (tentativamente) el modelo propuesto. Si no existe un buen ajuste rechazamos el modelo propuesto a priori, y/o lo modificamos, comenzando de nuevo el proceso. PATH ANALYSIS (‘path diagram’ - 1) Podemos distinguir entre tipos de variables y tipos de relaciones Cuatro TIPOS DE VARIABLES: Según su naturaleza: Manifiestas: aquellas que son directamente observables y medibles Latentes: las que no pueden ser medidas, pero se postula su existencia bajo el nombre de: factores (combinación lineal de variables originales) efectos cuantificados de origen desconocido (debidos a errores muestrales u otros efectos no medidos) Según si reciben o no flechas (orden de efectos) Exógenas: son variables independientes que nunca reciben flechas de efectos Endógenas: aquellas que reciben flechas indicando que son afectadas por otra u otras variables; son, en al menos una ocasión, variables dependientes. Dos TIPOS DE RELACIONES: Flechas: indican flujo de asociación causal entre variable(s) independientes y dependiente Líneas sin flechas: para representar varianzas / covarianzas entre variables exógenas PATH ANALYSIS (‘path diagram’ - 2) EDAD PESO TARSO DOMINANCIA U2 U1 Modelos PESO = a + b·EDAD + c·TARSO + U1 DOMINANCIA = d + e·PESO + U2 U mide la varianza residual (e.g., no explicada por EDAD y TARSO). U es una variable latente. representa la correlación entre las variables exógenas EDAD y PESO representan los efectos. Son coeficientes de regresión parcial estandarizados. Esto es, coeficientes de regresión trabajando con las variables llevadas a: media=0 desviación típica=1 Este diagrama es también una representación simbólica de la siguiente ecuación: PESO = EDAD + TARSO + U1 PATH ANALYSIS (estimación de efectos - 1) Los coeficientes , que miden efectos establecidos entre pares de variables, son equivalentes a los coeficientes de regresión parcial estandarizados (β) obtenidos en regresión múltiple. El efecto latente U mide la varianza no explicada por las variables (independientes) que lanzan flechas sobre la variable dependiente (endógena). Según los paquetes estadísticos, este efecto U se mide como: U = 1 - R2 U = (1 - R2)0.5 La correlación entre una variable independiente y otra dependiente se puede descomponer en dos efectos: Directo: el medido por el coeficiente del ‘path analysis’. Sólo es atribuible a la variable independiente que lanza una flecha sobre la dependiente. Indirecto: mide el efecto sobre la variable dependiente determinado conjuntamente por las variables independientes. PATH ANALYSIS (estimación de efectos - 2) Cálculo de efectos indirectos: correlación = efecto directo + efecto indirecto efecto indirecto = correlación entre independientes x r(dep.,B) = (dep.,B) + r(B,C) x (otra independiente) (dep.,C) Estima de significación de efectos: Para cada coeficiente es posible estimar su error estándard. El cociente entre el coeficiente y su error estándard proporciona una t con su p asociada. Los coeficientes y sus errores estándard pueden ser calculados mediante distintos algoritmos. No todos ellos permiten la estima de los errores estándard. Para su cálculo se requiere comenzar con valores iniciales a partir de los cuales, mediante iteraciones, se estiman sus valores de manera que minimizen la función de discrepancia. En ‘path analysis’ se suele utilizar el criterio de máxima verosimilitud (‘Maximum Likelihood’) de Wishart si trabajamos con matrices de correlaciones o de covarianzas. PATH ANALYSIS (bondad de ajuste - 1) Los modelos de relaciones causales representados por los ‘path diagrams’ retienen una cierta cantidad de la información original en forma de matrices de covarianzas / varianza, o correlaciones. Recordemos que la correlación entre A y B es covarianza (A,B) SDA · SDB A partir de los coeficientes del ‘path analysis’ es posible calcular las correlaciones o covarianzas representadas por el modelo. Las correlaciones o covarianzas representadas son aquellas que ocurrirían si, y sólo si, el modelo (‘path diagram’) fuese correcto. Comparando la matriz representada con la matriz observada es posible obtener las diferencias entre correlaciones o covarianzas. Estos valores se aproximan a una χ2, con v grados de libertad. grados de libertad = número de correlaciones posibles ⎯ número de coeficientes estimados PATH ANALYSIS (bondad de ajuste - 2) La χ2 mide la falta de bondad de ajuste entre la matriz observada y la representada. En este caso, la no significación es buena para el modelo. Una χ2 no significativa muestra que no hay un desvío significativo entre, por ejemplo, las correlaciones observadas entre las variables y las representadas por el modelo. Esto significa que el modelo ha salido airoso frente a su examen para rechazarlo. No significa que el modelo se ajusta ‘perfectamente’ bien a los datos, sino que es ‘suficientemente’ bueno para representar la realidad subyacente a los datos. Si la falta de bondad de ajuste es importante (i.e., significativa) es prematuro aceptar los coeficientes obtenidos. Sería necesario rehacer el modelo. Además de existen otros parámetros que cuantifican la bondad de ajuste: Índice Gamma poblacional (buen ajuste para valores > 0,95) Residuo estandarizado RMS (buen ajuste para valores < 0.05) PATH ANALYSIS (bondad de ajuste - 3) Examen comparado de la bondad de ajuste de varios modelos complementarios. Caso particular en el que un modelo ‘reducido’ quita alguno(s) de los efectos incluidos en un modelo que incluye todos los efectos posibles establecidos a priori. Siempre debería ser preferible aquel modelo que tenga mayor bondad de ajuste con los datos originales, utilizando la mínima cantidad de efectos. Esto es SÓLO aplicable si este criterio de parsimonia no elimina efectos ‘conceptualmente’ importantes. Para comparar la bondad de ajuste de dos modelos tenemos que valorar las diferencias entre los estadísticos que miden bondad de ajuste: + restar los valores de χ2 de los dos modelos que se comparan + esta diferencia se sigue ajustando a una distribución de la χ2 + restar los grados de libertad de ambos modelos PATH ANALYSIS (supuestos) Las relaciones entre variables son aditivas y lineales Exploración visual y transformaciones. La distribución de los residuos debe ajustarse a una normal La violación de este supuesto no suele afectar a la magnitud de los coeficientes del ‘path analysis’. En general el ‘path analysis’ es robusto ante la violación de este supuesto. No obstante, la significación de los efectos puede perder relevancia. Para obtener estimas más estables de significación podríamos utilizar una aproximación ‘jackknife’ (eliminar secuencialmente, y según un proceso aleatorio, una observación, y a continuación efectuar las estimas de significación; repetir el proceso muchas veces y cuantificar los patrones de significación). Normalidad multivariante Este supuesto no es muy restrictivo en ‘path analysis’. Para examinarlo adecuadamente se requieren tamaños muestrales muy grandes. Contamos con estimas sintéticas de sesgo y kurtosis (valores normalizados que se aproximan a una distribución normal Z). El valor Kappa de Mardia para la kurtosis: este valor debe aproximarse a 0 si la distribución de la población proviene de una distribución normal multivariante.