PATH ANALYSIS

Anuncio
PATH ANALYSIS
Luis M. Carrascal
Depto. Biodiversidad y Biología Evolutiva
MUSEO NACIONAL DE CIENCIAS NATURALES
Estructura de relaciones entre variables
Matrices de correlaciones frente a modelos a priori de asociaciones funcionales y jerarquizadas entre
variables
Regresión múltiple frente a ‘path analysis’
Diagrama de relaciones (modelo a priori de relaciones entre variables)
Tipos de variables
Tipos de relaciones
Coeficientes que miden efectos
Efectos directos e indirectos
Significación de efectos y funciones de discrepancia
Bondad de ajuste del modelos
Comparación entre matrices observadas y reproducidas
Aproximación mediante la χ2
Otros estimadores cuantitativos
Modelos anidados (significación y búsqueda de parsimonia)
Análisis confirmatorio de componentes principales.
Bibliografía seleccionada
Mitchell, R. J. (1992) Testing evolutionary and ecological hypotheses using path analysis and
structural equation modeling. Funct. Ecol. 6, 123-129.
Mitchell, R. J. (1993) Path Analysis: Pollination. In Design and analysis of ecological experiments (S.
M. Scheiner and J. Gurevitch, eds.), pp. 211-231.
Steiger, J. H. (1989) EzPATH: a supplementary module for SYSTAT and SYGRAPH. SYSTAT,
Evanston, Illinois.
Steiger, J. H. (1995) Structural equation modeling. StatSoft Inc., Tulsa, Oklahoma.
PATH ANALYSIS
(introducción 1)
Los sistemas ecológicos vienen definidos por numerosas variables que interaccionan entre si
Dichas interacciones no son aleatorias, sino que responden a un esquema de ‘estructura de
relaciones’.
Esta estructura podemos representarla mediante un modelo en el que definimos:
+ variables que interaccionan entre si
+ sentido se las interacciones (A ⇒ B, ó, B ⇒ A)
+ signo de la relación [A=f +(B), A=f -(B)]
PATH ANALYSIS
(introducción 2)
Los investigadores habitualmente utilizan diseños experimentales que manipulan las variables
independientes para abordar el estudio de inter-relaciones entre variables y sus bases
causales.
Aunque esta aproximación experimental es muy efectiva, no siempre es posible debido a
limitaciones logísticas, posibilidades de manipulación, o aspectos éticos.
Cuando no es posible manipular las variables realizando experimentos, sólo queda la posibilidad
de efectuar un control estadístico sobre los datos. Dos posibilidades:
REGRESIÓN MÚLTIPLE:
+ cuantifica las correlaciones (parciales) entre variables independientes
+ proporciona el % de la varianza explicada de la dependiente por las independientes
+ NO PUEDE explicar los esquemas de relaciones causales entre variables
PATH ANALYSIS:
+ aborda los dos aspectos proporcionados por la regresión múltiple
+ Herramienta diseñada para examinar modelos causales de relaciones entre variables.
PATH ANALYSIS
(introducción 3)
Habitualmente trabajamos estableciendo múltiples relaciones entre variables que examinamos
mediante matrices de correlaciones. En estas matrices se incluyen todas las relaciones
posibles sin establecer el sentido de la asociación. NO TENEMOS HIPÓTESIS CLARAS.
EDAD
TARSO
PESO
DOMIN
EDAD
1
0.05
-0.42
-0.34
TARSO
0.05
1
0.67
0.39
PESO
-0.42
0.67
1
0.81
DOMIN
-0.34
0.39
0.81
1
En el ‘path analysis’ necesitamos predecir la posible estructura de las relaciones:
EDAD
PESO
DOMINANCIA
TARSO
De las 6 correlaciones posibles, predecimos, y trabajamos, SOLO con 3.
PATH ANALYSIS
(introducción 4)
La pieza clave en el ‘path analysis’ es el diagrama de relaciones o ‘path diagram’.
Los ‘path diagram’ son esquemas parecidos a los diagramas de flujo que muestran mediante
flechas cómo las variables están inter-relacionadas. Resumen qué variables provocan
cambios en cuáles variables.
Los ‘path diagrams’ contienen ideas a priori (encierran esquemas de hipótesis)
Su establecimiento está basado en:
+ conocimiento de historia natural
+ hipótesis funcionales
+ intuición y experiencia del investigador
El ‘path analysis’ proporcionará medidas de cómo de bien el modelo definido a priori se ajusta a
los datos observados.
PATH ANALYSIS
(introducción 5)
ASPECTOS RELACIONADOS CON LA BASE MATEMÁTICA:
+ El ‘path analysis’ asume que las variables se asocian entre si mediante relaciones lineales.
+ Opera con las varianzas / covarianzas de las variables para examinar cómo de bien se ajustan a
la estructura especificada por el modelo.
Podemos distinguir cinco fases:
1) establecer el diagrama de relaciones (path diagram; sistema de ecuaciones)
2) definir la estructura de las matrices de varianza / covarianza
3) obtener datos que serán analizados
4) ¿se ajustan las varianzas / covarianzas a la estructura predicha?
5) obtención de coeficientes que miden los efectos, sus errores estandard y significación
Si encontramos buen ajuste entre datos y modelo podremos apoyar (tentativamente) el modelo
propuesto.
Si no existe un buen ajuste rechazamos el modelo propuesto a priori, y/o lo modificamos,
comenzando de nuevo el proceso.
PATH ANALYSIS
(‘path diagram’ - 1)
Podemos distinguir entre tipos de variables y tipos de relaciones
Cuatro TIPOS DE VARIABLES:
Según su naturaleza:
Manifiestas: aquellas que son directamente observables y medibles
Latentes: las que no pueden ser medidas, pero se postula su existencia bajo el nombre de:
factores (combinación lineal de variables originales)
efectos cuantificados de origen desconocido (debidos a errores muestrales u otros efectos
no medidos)
Según si reciben o no flechas (orden de efectos)
Exógenas: son variables independientes que nunca reciben flechas de efectos
Endógenas: aquellas que reciben flechas indicando que son afectadas por otra u otras
variables; son, en al menos una ocasión, variables dependientes.
Dos TIPOS DE RELACIONES:
Flechas: indican flujo de asociación causal entre variable(s) independientes y dependiente
Líneas sin flechas: para representar varianzas / covarianzas entre variables exógenas
PATH ANALYSIS
(‘path diagram’ - 2)
EDAD
PESO
TARSO
DOMINANCIA
U2
U1
Modelos
PESO = a + b·EDAD + c·TARSO + U1
DOMINANCIA = d + e·PESO + U2
U mide la varianza residual (e.g., no explicada por EDAD y TARSO). U es una variable latente.
representa la correlación entre las variables exógenas EDAD y PESO
representan los efectos. Son coeficientes de regresión parcial estandarizados. Esto es,
coeficientes de regresión trabajando con las variables llevadas a:
media=0
desviación típica=1
Este diagrama es también una representación simbólica de la siguiente ecuación:
PESO =
EDAD +
TARSO +
U1
PATH ANALYSIS
(estimación de efectos - 1)
Los coeficientes , que miden efectos establecidos entre pares de variables, son equivalentes a
los coeficientes de regresión parcial estandarizados (β) obtenidos en regresión múltiple.
El efecto latente U mide la varianza no explicada por las variables (independientes) que lanzan
flechas sobre la variable dependiente (endógena).
Según los paquetes estadísticos, este efecto U se mide como:
U = 1 - R2
U = (1 - R2)0.5
La correlación entre una variable independiente y otra dependiente se puede descomponer en dos
efectos:
Directo: el medido por el coeficiente del ‘path analysis’. Sólo es atribuible a la variable
independiente que lanza una flecha sobre la dependiente.
Indirecto: mide el efecto sobre la variable dependiente determinado conjuntamente por las
variables independientes.
PATH ANALYSIS
(estimación de efectos - 2)
Cálculo de efectos indirectos:
correlación = efecto directo + efecto indirecto
efecto indirecto = correlación entre independientes x
r(dep.,B) = (dep.,B) + r(B,C) x
(otra independiente)
(dep.,C)
Estima de significación de efectos:
Para cada coeficiente es posible estimar su error estándard.
El cociente entre el coeficiente y su error estándard proporciona una t con su p asociada.
Los coeficientes y sus errores estándard pueden ser calculados mediante distintos algoritmos.
No todos ellos permiten la estima de los errores estándard. Para su cálculo se requiere comenzar
con valores iniciales a partir de los cuales, mediante iteraciones, se estiman sus valores de
manera que minimizen la función de discrepancia.
En ‘path analysis’ se suele utilizar el criterio de máxima verosimilitud (‘Maximum Likelihood’)
de Wishart si trabajamos con matrices de correlaciones o de covarianzas.
PATH ANALYSIS
(bondad de ajuste - 1)
Los modelos de relaciones causales representados por los ‘path diagrams’ retienen una cierta
cantidad de la información original en forma de matrices de covarianzas / varianza, o
correlaciones.
Recordemos que la correlación entre A y B es
covarianza (A,B)
SDA · SDB
A partir de los coeficientes del ‘path analysis’ es posible calcular las correlaciones o
covarianzas representadas por el modelo.
Las correlaciones o covarianzas representadas son aquellas que ocurrirían si, y sólo si, el modelo
(‘path diagram’) fuese correcto.
Comparando la matriz representada con la matriz observada es posible obtener las diferencias
entre correlaciones o covarianzas.
Estos valores se aproximan a una χ2, con v grados de libertad.
grados de libertad = número de correlaciones posibles ⎯ número de coeficientes estimados
PATH ANALYSIS
(bondad de ajuste - 2)
La χ2 mide la falta de bondad de ajuste entre la matriz observada y la representada.
En este caso, la no significación es buena para el modelo.
Una χ2 no significativa muestra que no hay un desvío significativo entre, por ejemplo, las
correlaciones observadas entre las variables y las representadas por el modelo.
Esto significa que el modelo ha salido airoso frente a su examen para rechazarlo. No significa
que el modelo se ajusta ‘perfectamente’ bien a los datos, sino que es ‘suficientemente’ bueno
para representar la realidad subyacente a los datos.
Si la falta de bondad de ajuste es importante (i.e., significativa) es prematuro aceptar los
coeficientes obtenidos. Sería necesario rehacer el modelo.
Además de existen otros parámetros que cuantifican la bondad de ajuste:
Índice Gamma poblacional (buen ajuste para valores > 0,95)
Residuo estandarizado RMS (buen ajuste para valores < 0.05)
PATH ANALYSIS
(bondad de ajuste - 3)
Examen comparado de la bondad de ajuste de varios modelos complementarios.
Caso particular en el que un modelo ‘reducido’ quita alguno(s) de los efectos incluidos en un
modelo que incluye todos los efectos posibles establecidos a priori.
Siempre debería ser preferible aquel modelo que tenga mayor bondad de ajuste con los datos
originales, utilizando la mínima cantidad de efectos.
Esto es SÓLO aplicable si este criterio de parsimonia no elimina efectos ‘conceptualmente’
importantes.
Para comparar la bondad de ajuste de dos modelos tenemos que valorar las diferencias entre los
estadísticos que miden bondad de ajuste:
+ restar los valores de χ2 de los dos modelos que se comparan
+ esta diferencia se sigue ajustando a una distribución de la χ2
+ restar los grados de libertad de ambos modelos
PATH ANALYSIS
(supuestos)
Las relaciones entre variables son aditivas y lineales
Exploración visual y transformaciones.
La distribución de los residuos debe ajustarse a una normal
La violación de este supuesto no suele afectar a la magnitud de los coeficientes del ‘path
analysis’. En general el ‘path analysis’ es robusto ante la violación de este supuesto.
No obstante, la significación de los efectos puede perder relevancia.
Para obtener estimas más estables de significación podríamos utilizar una aproximación ‘jackknife’ (eliminar secuencialmente, y según un proceso aleatorio, una observación, y a
continuación efectuar las estimas de significación; repetir el proceso muchas veces y
cuantificar los patrones de significación).
Normalidad multivariante
Este supuesto no es muy restrictivo en ‘path analysis’.
Para examinarlo adecuadamente se requieren tamaños muestrales muy grandes.
Contamos con estimas sintéticas de sesgo y kurtosis (valores normalizados que se aproximan a
una distribución normal Z).
El valor Kappa de Mardia para la kurtosis: este valor debe aproximarse a 0 si la distribución de
la población proviene de una distribución normal multivariante.
Descargar