BANCO CENTRAL DE COSTA RICA DIVISIÓN ECONÓMICA DEPARTAMENTO DE INVESTIGACIONES ECONÓMICAS DIE-NT-01-95 TÉCNICAS DE ANÁLISIS MULTIVARIANTE Juan E. Muñoz Giró ENERO, 1995 TÉCNICAS DE ANÁLISIS MULTIVARIANTE1 INTRODUCCIÓN En las ciencias económicas el análisis numérico de la información generalmente se ha realizado por medio de simples cálculos estadísticos, o bien, cuando es más complejo, con el uso del análisis de regresión lineal. Es, por tanto, importante mostrar una serie de técnicas de análisis que pueden ser consideradas como hermanas de la regresión lineal. Este parentesco tan cercano se explica por provenir de la rama de la Estadística conocida como análisis multivariante. Estas hermanas de la regresión lineal son las siguientes: el análisis de componentes principales, el análisis discriminante, el análisis factorial, el análisis de correlación canónica y el de conglomerados. Todos estos análisis son variaciones de un mismo tema en el que el objetivo principal es presentar diferentes desgloses de las variancias de un conjunto de datos y someterlos a una serie de pruebas estadísticas para determinar el grado de asociación entre esas variancias y, por tanto, entre las variables. El análisis multivariable tiene una historia que data desde el uso de la regresión lineal por parte de Gauss en 1809 y, posteriormente, por otros estadísticos como Markov en 1900. Las técnicas más recientes datan desde los años de 1930. En la actualidad, los paquetes estadísticos y econométricos incluyen procedimientos para aplicar estas otras técnicas del análisis de datos. A continuación se resumen las principales características de estas técnicas. EL ANÁLISIS MULTIVARIABLE En términos generales, los conjuntos de datos se pueden clasificar en un subconjunto de variables y y otro subconjunto de variables x. Considere que se tienen k1 variables en el conjunto y y k2 variables en el grupo de las variables x. Pueden existir relaciones entre las variables de un mismo grupo y entre las variables de los dos grupos. La existencia de relaciones entre estas variables y su intensidad dependen, fundamentalmente, de la naturaleza de las variables. Las variables estarían relacionadas por coeficientes γ para las variables y y coeficientes φ para las variables x. Las relaciones entre las variables se puede observar de la siguiente forma: γ 1 y 1i + γ 2 y 2i + . . . + γ k 1 y k1 i + φ1 x1i + φ2 x 2i +. . . + φk 2 x k2 i + ui = 0 1 donde el número de observaciones por variable es i = 1,...,N y la variable u denota un término aleatorio que captura la información contenida en el conjunto de series que no está explicada por las asociaciones entre las x y las y. En función del comportamiento de las variables u y de la clasificación de las x y las y en un lado de la ecuación o en el otro, se tendrían diferentes enfoques del tratamiento de los datos, los cuales constituyen los análisis multivariantes definidos anteriormente. 1 Autorizado por Lic. Hermógenes Arguedas Troyo. 1 Sin embargo, la discusión de estas técnicas se tornaría relativamente difícil si se trabajara directamente con la ecuación (1). Es por ello que el enfoque matricial permitiría un manejo de las relaciones estadísticas más adecuado. En este sentido defínanse las siguientes matrices:2 y = y y ⋅ ⋅ ⋅ y 1 1 y 2 1 1 2 y 2 2 ⋅ ⋅ ⋅ y ⋅ ⋅ ⋅ k 1 ,1 y k 1 ,2 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ y 1 N 2 N ⋅ y k 1 , N Orden : (Nxk1) x = y y ⋅ ⋅ ⋅ y 1 1 y 2 1 1 2 y 2 2 1 N ⋅ ⋅ ⋅ y ⋅ ⋅ k 1 ,1 y ⋅ k 1 , 2 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ y 2 N ⋅ ⋅ y ⋅ k 1 ,N Orden: (Nxk2) Γ'= γ 1 γ 2 ⋅ ⋅ ⋅ γ k 1 Orden: (k1xN) Φ '= φ1 φ 2 ⋅ ⋅ ⋅ φ k2 Orden: (k2xN) U'= u1 u2 ⋅ ⋅ ⋅ u N Orden: (NxN) 2 En notación matricial, el signo de comilla (') denota la transposición de una matriz. 2 Los componentes de las matrices de coeficientes Γ y Φ corresponden a vectores de orden (1xN). Con esta definición matricial, las relaciones algebraicas de la ecuación (1) se pueden especificar como: YΓ + X Φ + U = 0 2 la cual posibilita sustancialmente el tratamiento estadístico del análisis multivariante. El supuesto básico para llevar a cabo este análisis es el de asumir una función de densidad normal para cada una de las variables u. Por tanto, para la matriz U la función de densidad conjunta es: N N 1 (2π )- 2 | Σ |- 2 e- 2 [U - E(U)] ′ Σ -1[U - E(U)] 3 donde Σ denota el determinante de la matriz Σ , la matriz de variancias y covariancias de las variables u. Con el propósito de ilustrar la aplicación de las diferentes técnicas, considérese un ejemplo en el que las variables y se refieren a las utilidades de los bancos comerciales, medidas bajo alguna dimensión temporal (meses, trimestres, semestres, años), mientras que las variables x pueden ser variables asociadas con el funcionamiento de los bancos: niveles de depósitos y créditos, estructuras de plazos de estos activos y pasivos, tasas de interés de los bonos fiscales, inflación, nivel de represión financiera (margen de intermediación), injerencia política, costos de operación, etc. ANÁLISIS DE REGRESIÓN LINEAL En su aplicación más sencilla, la regresión lineal sólo considera una variable y, por lo que la matriz Y se convierte en un vector de orden (Nx1), mientras que el vector de los coeficientes γ corresponde a un escalar. En términos matriciales, la regresión lineal transforma a la ecuación (2) de la siguiente manera: yi = X (-Φ γ -11 ) + U γ 1 -1 4 En otras palabras, se traslada al conjunto de las variables x a la derecha de la ecuación, con el signo contrario que afecta a los coeficientes φ , y se divide por el coeficiente asociado con la variable yi. Este procedimiento de dividir los coeficientes de las x por el coeficiente γ1 recibe el nombre de normalización. De aquí la interpretación que generalmente se le concede a los estimadores de esos coeficientes de establecer el efecto de la variable x por unidad de variación sobre la variable y. En forma más reducida, la ecuación (4) se conoce como: yi = X β + ε 5 donde el vector de coeficientes β corresponde a los coeficientes entre paréntesis de la ecuación (4). El vector de variables aleatorias ε corresponde a las variables u divididas por γ. El análisis de regresión lineal supone, adicionalmente, que E(ε ) = 0 y la matriz de variancias y covariancias de ε equivalente a σ2In, donde I es una matriz identidad de orden (NxN). 3 Los coeficientes β representan el efecto de la variabilidad de las x sobre la variabilidad de la y. Para obtener estos coeficientes β se recurre, generalmente, a los estimadores mínimo cuadráticos ordinarios definidos por: $ = (x ′x )-1 x ′y β 6 La teoría de los mínimos cuadrados permite evaluar la calidad de los estimadores en términos de su insesgamiento y eficiencia, así como también el cumplimiento de los supuestos de la regresión lineal. En términos de la ilustración propuesta, las utilidades de los bancos comerciales se constituirían en las variables dependientes, mientras que las variables exógenas estarían definidas por las variables x. Las variables x serían los determinantes de las utilidades. O, en otras palabras, la variabilidad de las y está explicada por la variabilidad de las x. Bajo el supuesto de que las utilidades de los bancos no ejercen influencia entre ellas mismas y que los términos aleatorios son independientes de una ecuación a la otra, el método de mínimos cuadrados ordinarios es el recomendable para analizar el comportamiento de las utilidades bancarias. Sin embargo, si existiera un efecto cruzado de utilidades bancarias, en el sentido de que las utilidades de un banco afectan las de otros bancos (una ecuación tiene dos o más variables y), sería necesario aplicar un método como el de mínimos cuadrados en dos etapas, por ejemplo. Aún más, si los componentes estocásticos de las ecuaciones están relacionados entre ellos, sería indispensable aplicar un método como el de mínimos cuadrados en tres etapas. ANÁLISIS DE COMPONENTES PRINCIPALES Para un conjunto de datos (x,y), como los de la ecuación (2), la técnica de componentes principales permite obtener combinaciones lineales de aquellas variables (x,y) que aportan una mayor contribución a la explicación de la variancia del conjunto de datos. Para obtener tales combinaciones es necesario construir la matriz de variancias y covariancias de esas variables. Por la importancia que representa esta técnica en el análisis de regresión, su explicación se hará en función de la utilidad para resolver problemas de multicolinealidad. Uno de los supuestos básicos del análisis de regresión lineal es el de asumir que las variables x son linealmente independientes, de tal forma que sea posible invertir la matriz (x'x). Ello significa que la matriz (x'x) tiene un determinante diferente de cero. En el caso de que este supuesto no se cumpla, los coeficientes mínimo cuadráticos para estimar los parámetros β no pueden ser obtenidos. Existen variables que son linealmente dependientes. Por consiguiente, una de las técnicas recomendadas para evitar estos problemas de multicolinealidad es la de construir una combinación de las variables linealmente dependientes y para ello se usa la técnica de componentes principales. La naturaleza de los componentes principales se puede entender mejor al preguntarse el grado de independencia que realmente existe entre las k2 variables x. Para ello se considera una transformación de las variables en un nuevo conjunto en el que el primer componente aporta la 4 mayor variancia y los que le siguen van disminuyendo su contribución a la variancia total. Defínase entonces la combinación como: 7 z1i = a 11 x1i + a21 x 2i + . . . + a k 2i x k 2 i , i = 1,..., N En forma matricial: z1 = X a 1 8 donde z es un vector (Nx1), X es una matriz de orden (Nxk2) y a es un vector (k2x1). La suma de cuadrados de la nueva variable z está dada por: z ′1 z1 = a ′1 X ′X a1 9 El objetivo del análisis de componentes principales es el de maximizar esta suma de cuadrados, la cual representa la variancia de z, sujeta a que la suma de cuadrados de los coeficientes a sea igual a 1. Este proceso de maximización con restricción conduce a una solución de orden de la forma: (X ′X)a 1 = λ1 a1 10 donde λ es el multiplicador de Lagrange, asociado con el problema de maximización, pero a la vez es la raíz característica de la matriz (X'X). Esta raíz característica es un vector de coeficientes ai, los cuales son valores característicos (eigenvalues). Se dice, por tanto, que λ es la raíz con el valor más alto en la matriz (X'X) y que el primer componente principal de X es, entonces, z 1. Si se supone que la matriz (X'X) contiene k raíces características, entonces los k componentes principales, ortogonales entre ellos mismos, se especificarían como: Z = XA 11 donde la variancia de los componentes estaría dada por: Z ′Z = A′ X ′XA= Λ 12 donde la matriz Λ es de la forma: Λ = λ 1 0 λ ⋅ ⋅ ⋅ 0 0 ⋅ ⋅ ⋅ 0 ⋅ ⋅ ⋅ 0 2 ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ 0 ⋅ ⋅ ⋅ 5 λ k En otras palabras, los elementos de la diagonal de la matriz Λ proporcionan la ponderación que tienen los componentes principales en la variancia total de (X'X) de forma tal que λ1 es mayor que λ2 y así sucesivamente. En el ejemplo de las utilidades bancarias se puede presentar el caso en el que se definan combinaciones lineales de las x que expliquen la variabilidad de las utilidades de cada banco. Por ejemplo, el análisis de componentes principales podría decir que una combinación de los niveles de depósitos, de crédito, los plazos de captación y colocación y los costos de operación aportan la mayor variabilidad a las utilidades. El segundo componente principal, el que sigue en la explicación de la variancia de las utilidades, puede ser una combinación de las tasas de interés del gobierno, el margen de intermediación y la tasa de inflación, por ejemplo. El análisis termina cuando se establece la última combinación que explicaría el remanente con el 100 por ciento de variabilidad. El análisis de componentes principales es también útil para la construcción de índices e indicadores adelantados. ANÁLISIS FACTORIAL El análisis factorial, variante del análisis de componentes principales, consiste en extraer los componentes principales de una matriz de correlación de las variables x y de las y. Se diferencia del análisis de componentes principales en que las ponderaciones λi se transforman de forma tal que su suma de cuadrados es igual al valor característico de la matriz Λ. El análisis factorial permite seleccionar el número de factores retenidos en la solución final. Considere que existen ciertos factores comunes F que influyen a las variables y y x simultáneamente. De la misma forma, existen factores específicos G1 que sólo afectan a las variables y y factores G2 que afectan exclusivamente a las x. Bajo estas condiciones, las variables pueden ser expresadas como: Y = A1 F + G1 13 X = A2 F + G2 14 donde F es un vector de m factores comunes a y y x; las matrices A corresponden a coeficientes que asocian los factores comunes con las variables. El análisis factorial requiere que los factores F no estén relacionados con los factores G. Tampoco se permite que haya covariancias entre los factores G. Adicionalmente, se supone que los factores F poseen una matriz de variancias y covariancias igual a la matriz identidad (I). Bajo estos supuestos, las variancias de las variables y y x están dadas por: var(Y) = Σ 11 = A1 A′1 + var(G1 ) var(X) = Σ 22 = A2 A′2 + var( G2 ) cov(Y, X) = Σ 12 = A1 A′ 2 6 15 16 17 La ecuación (17) significa que la correlación entre y y x se explica solamente por sus factores comunes. El menor número de factores comunes está dado por: m = R Σ12 18 donde R es la matriz de correlaciones canónicas. La importancia fundamental del análisis factorial radica en la identificación de las variables más importantes, dentro de cada componente principal, para explicar la covariancia entre y y x. Es probable que las utilidades de los bancos comerciales (variables y) y el margen de intermediación financiera (variable x) estén altamente influidos por las tasas de interés de los bonos fiscales, por la tasa de inflación y por los costos de operación. Si ello fuera cierto, el análisis factorial permitiría observar la importancia de estos factores comunes en la explicación de la variabilidad de las utilidades y del margen de intermediación financiera. ANÁLISIS DE CORRELACIÓN CANÓNICA Las correlaciones canónicas se definen como las correlaciones múltiples máximas entre unas variables y varias funciones lineales de otras variables. Defínanse Σ 11, Σ 22 y Σ 12 como las matrices de variancias y covariancias entre y y x. Defínanse también dos combinaciones lineales de variancia unitaria de la forma L'Y y M'X. El análisis de correlación canónica escoge los coeficientes de las matrices L y M tal que la correlación entre esas dos combinaciones lineales es la máxima. En términos matemáticos, el problema consiste en maximizar la covariancia de las combinaciones lineales: L′ Σ 12 M 19 sujeto a que las variancias de las combinaciones lineales sean normalizadas a 1: L′ Σ 11 L = 1 20 M ′ Σ 22 M = 1 21 Las soluciones de primer orden conducen a definir los multiplicadores de Lagrange de la siguiente forma: λ1 = L ′ Σ 12 M 22 λ2 = M ′ Σ 21 L 23 En vista de que los multiplicadores de Lagrange son iguales, se puede decir que λ1 = λ2 = ρ. Ello implica que ρ corresponde a la raíz característica de la ecuación determinante: | Σ 21 Σ -111 Σ 12 - ρ2 Σ 22 | = 0 24 Para este caso de dos combinaciones lineales, λ1 y λ2 son las correlaciones canónicas. Cuando se consideran más de dos combinaciones lineales se definen raíces características 7 ρ1...ρs para los correspondientes vectores M1...Ms. Al agrupar estos vectores en una matriz Φ = [ M1. . . M2 ] tal que: Φ ′ Σ 22 Φ = I 25 se puede definir, entonces, una matriz R de la forma: R = Φ ′ Σ 21 Σ -111 Σ 12 Φ 26 La matriz R es una matriz diagonal cuyos elementos corresponden a las correlaciones canónicas ρ1 > . . . > ρs. Las funciones lineales en Φ corresponderían a las variables canónicas. Considérense combinaciones lineales de las utilidades de diferentes bancos comerciales (variables y) y combinaciones lineales de diferentes variables x. Al maximizar la variancia entre pares de combinaciones de y y x, se encontrarían coeficientes asociados con las variables y y con las variables x. Esos coeficientes, llamados correlaciones canónicas, permitirían observar la importancia de las relaciones dentro de las variables y y dentro de las variables y bajo la restricción de que los coeficientes maximicen la variancia de las dos combinaciones. Este tipo de análisis permitiría, en un principio, identificar cuáles variables serían útiles de considerar como endógenas en un modelo de ecuaciones simultáneas, así como aquellas exógenas que aportarían explicación al modelo. ANÁLISIS DISCRIMINANTE El análisis discriminante enfoca un problema de identificación relacionado con la pregunta de que a cuál grupo, de entre varios, pertenece la variable o unidad estadística en observación. Por ejemplo, el análisis discriminante clasificaría a un banco comercial como de utilidades bajas o de utilidades altas, dos poblaciones diferentes, en función de los niveles de las variables x. Es decir, el análisis discriminante probablemente asocie a la condición de bancos con bajas utilidades a aquellos con márgenes de intermediación financiera elevados, con depósitos altamente concentrados en el corto plazo o con una alta injerencia política. Es decir, el análisis definiría las características para pertenecer a un grupo o a otros. Los siguientes pasos son necesarios para resolver el problema: (a)Conocer las densidades de probabilidad P1(y),...,Pz(y) para clasificar las variables y en z grupos diferentes. (b)Conocer las probabilidades a priori π 1,...,π z para las poblaciones, las cuales son frecuencias relativas de unidades estadísticas de los z grupos. (c)Especificar valores rij que representen la pérdida por identificar una variable y en el grupo i cuando en realidad pertenece a la población j. A las variables y se les asocia un puntaje S que consiste en un promedio ponderado de las probabilidades de que cada variable muestre los atributos que definen a una población en particular. Es decir: 8 ∑ Z Si = πn Pn (y) r ni 27 n=1 La variable yi se asigna a la población para la cual su puntaje discriminante es el más alto. En el caso de que las variables sean normales, el puntaje discriminante se puede calcular como: 1 1 -1 S i = - ln| Σ i | - ( y - y i )′ Σ i ( y - y i ) + ln πi 2 2 28 el cual es el logaritmo de la función de verosimilitud de la variable yi. Cuando existen sólo dos poblaciones (bancos con utilidades altas o con utilidades bajas), la regla de decisión para la asignación de un banco en un grupo o en el otro está dada por la diferencia de dos puntajes discriminantes: S1 - S2. En términos de la verosimilitud normal, la diferencia de los discriminantes sería: ( y ′1 - y ′ 2 ) Σ -1 Y - 1 ( y ′1 Σ -1 y 1 - y ′2 Σ -1 y 2 ) + ln π1 - ln π2 2 29 Si se denota el primer sumando de la ecuación (29) como L(Y) y los dos últimos como c, la regla de decisión es la siguiente: asigne el i-ésimo banco al grupo de bancos con utilidades altas si L(Y)>c o, al contrario, al grupo con utilidades bajas si L(Y)<c. ANÁLISIS DE CONGLOMERADOS Una variación sutilmente diferente del análisis discriminante es el análisis de conglomerados, el cual agrupa las observaciones provenientes de un conjunto de variables multivariantes en conglomerados similares. El análisis calcula la distancia euclidiana entre pares de puntos en un gráfico bidimensional. Los procedimientos de agrupación son los siguientes: (a) se escogen puntos iniciales contra los cuales se comparan y aglomeran las siguientes observaciones; (b) se definen conglomerados amplios a partir de los cuales se comienzan a extraer aquellas observaciones más diferentes. Este último método consiste en los cálculos de distancias máximas y mínimas. En el ejemplo que se ha presentado, el análisis de conglomerados permite identificar a los bancos más parecidos de acuerdo con su nivel de utilidades (variables y) y alguna otra variable del grupo de las x. PROGRAMAS DE ANÁLISIS ESTADÍSTICO El manejo de estas técnicas de análisis multivariante se ha simplificado sustancialmente con el uso de programas de análisis estadístico para computadoras. En el caso del análisis de regresión lineal, los programas econométricos han explotado la técnica con modelos relativamente difíciles y complejos. Generalmente, estos paquetes econométricos también incorporan comandos para llevar a cabo el análisis de componentes principales. Como ejemplo están SHAZAM y algunas versiones de TSP. 9 Para las restantes técnicas de análisis multivariante destaca el paquete SPSS, el cual contiene una serie de comandos que permiten un uso flexible y rápido de las técnicas, con la ventaja de el manual incorpora discusiones teóricas y prácticas de los resultados estadísticos. Otro paquete avanzado es SAS, pero no contiene la discusión de los resultados. Como una última opción se podría contar con STATGRAPHS, el cual tiene la limitación en cuanto al número de variables y observaciones que permite manipular. BIBLIOGRAFÍA Johnston, J. (1984). Econometric Methods. Third Edition. New York: McGraw-Hill Book Co., 568 páginas. Rao, C. Radhakrishna (1973). Linear Statistical Inference and Its Applications. Second Edition. New York: John Wiley & Sons, 625 páginas. Software Publishing Group. Manual de STATGRAPHICS. F:\INVESTIG\DIE\NT\NT95\NT0195.DOC 10