LA CONSTRUCCIÓN DE ÍNDICES SINTÉTICOS REGIONALES BASADOS EN MÉTODOS DE ANÁLISIS MULTIVARIANTE. EL PROBLEMA DE LA COMPARABILIDAD Métodos de Análisis Regional Quadrado Mercadal, Lucia Pons Fanals, Ernest Universitat de Barcelona Resumen: Recientemente los algunos investigadores han puesto de manifiesto algunas limitaciones que presentan las técnicas empleadas en el tratamiento de información multivariante como pueden ser: el análisis de Componentes Principales o Factorial. En este sentido, erróneamente se deducen conclusiones a partir de la comparación de las matrices factoriales o componentes o factores cuando se estudian muestras distintas. Siguiendo a Krzanowski (1979) esta comunicación se centra en desarrollar una metodología que permite comparar las componentes obtenidas en el análisis de Componentes Principales de dos muestras. La idoneidad de este procedimiento se muestra a partir de un ejemplo desarrollado para comparar las componentes principales relativas a la escolarización de las enseñanzas primaria y secundaria en las provincias españolas. Finalmente como principales conclusiones se sostiene, primero, es posible la comparabilidad entre componentes de distintas muestras aunque para ello es necesario considerar el mismo número de variables, segundo, la metodología propuesta sirve para determinar el número de componentes comparables y tercero, la importancia del problema planteado en la construcción de índices sintéticos a partir de los resultados factoriales. LA CONSTRUCCIÓN DE ÍNDICES SINTÉTICOS REGIONALES BASADOS EN MÉTODOS DE ANÁLISIS MULTIVARIANTE. EL PROBLEMA DE LA COMPARABILIDAD. 1 Introducción Las principales propiedades de algunas técnicas estadísticas de análisis multivariante, como pueden ser Componentes Principales o Análisis Factorial, han permitido su introducción no sólo en ámbitos como la economía sino también en biología o psicometría. No obstante, los investigadores en el campo de las ciencias naturales han puesto de manifiesto algunas limitaciones presentadas por dichas técnicas que no han sido consideradas en las ciencias sociales. Este hecho ha tenido como principal consecuencia que, en algunos casos, la aplicación de dichas metodologías se lleve a cabo de forma errónea. En este sentido, uno de los ejemplos más claros se centra en la comparación de los resultados factoriales obtenidos a través de los métodos de Componentes Principales o Análisis Factorial. A menudo, se estudian las similaridades entre dos grupos de individuos o dos períodos temporales comparando las matrices factoriales e incluso los factores derivados de los análisis parciales. En estos casos se asume la hipótesis de comparabilidad cuando, desde el punto de vista teórico, carece de sentido. De este modo, dos conjuntos de componentes que aparentemente presentarían divergencias, podrían definir un mismo subespacio vectorial al aplicar una técnica adecuada para su comparación, por lo que podrían extraerse fácilmente conclusiones. En esta comunicación nos centraremos en el problema anterior y más concretamente en el desarrollo del método propuesto por Krzanowski (1979) de comparación de las componentes de dos o más muestras en la metodología de Componentes Principales. El procedimiento seguido por este autor se basa en la interpretación geométrica de dichas componentes y se desarrolla en el siguiente epígrafe. A modo de ejemplo, se ha llevado a cabo un análisis entre distintos períodos (1974-91, 1981-91) de las componentes relativas a la escolarización en las enseñanzas primaria y secundaria en las provincias españolas. Por último, es importante destacar que las componentes principales son frecuentemente utilizadas en la construcción de índices sintéticos. Así, las puntuaciones factoriales de diversas muestras han servido como base para su elaboración aunque generalmente sin tener en cuenta los inconvenientes señalados anteriormente. Ante esta situación, estudiar los cambios de este tipo de índices y realizar conclusiones sobre los mismos no sería posible. 2 La comparabilidad de las Componentes Principales en distintas muestras. En general, el marco teórico del método estadístico de Componentes Principales ha sido desarrollado suponiendo que las p variables analizadas son medidas en los n individuos de una sola muestra. Una de las principales propiedades de dicha técnica es la de proporcionar un conjunto de componentes o factores incorrelacionados para dicha muestra que posteriormente, pueden ser utilizados en la construcción de índices, en modelos de regresión, etc. Sin embargo, una mayor disponibilidad de información estadística ha puesto de manifiesto algunos inconvenientes en la aplicación de esta metodología (Ten Berge, 1986a, Krzanowski 1979 y 1996a, Flury 1995). Por ejemplo, los n individuos de una muestra deben ser analizados en dos períodos temporales distintos o bien, el conjunto de individuos es desagregado en varios grupos. En tales situaciones el tratamiento de dos o más muestras multivariantes ha llevado a la necesidad de plantear un fundamento teórico que permita la generalización de la metodología de Componentes Principales. No obstante, el problema anterior es relevante siempre y cuando los resultados obtenidos en las distintas muestras quieren ser comparados1 . En caso contrario, la idoneidad del análisis tradicional de Componentes Principales en cada muestra no debería cuestionarse. Una de las aportaciones más significativas a la generalización de la metodología de Componentes Principales se debe a Krzanowski (1979 y 1996a). En base a las características geométricas de las Componentes principales, destacadas por autores como Gower (1967), Krzanowski propone la adecuación de este método de análisis multivariante para dos o más muestras. Esta adaptación del método clásico posibilita en primer lugar, analizar aquellos factores que inciden en la variabilidad de las muestras y en segundo lugar, su comparación. Sin embargo, ésta es una técnica cuyos resultados son, tal vez, limitados dado que la comparación es en términos de factores o componentes y no se estudian las similaridades/divergencias de los individuos de las mismas2 . En la presente comunicación -siguiendo Krzanowski (1979)- nos centraremos, tanto a nivel teórico como en la aplicación empírica, en el caso más sencillo en que dos muestras -grupos/períodos- son considerados. No obstante es posible su generalización. Supongamos que el conjunto de individuos n -en nuestro caso las provincias- se mide en las x1 , x2 ,..., x p variables originales en dos períodos distintos -por ejemplo, 1981 y 1991constituyendo dos muestras multivariantes A y B cuyos tamaños muestrales son n 1 y n 2 . Se asume que todos los individuos pueden ser representados como puntos en el correspondiente espacio vectorial de dimensión p y ortogonales en dicho espacio vectorial. las variables consideradas se identifican con ejes Entonces, del análisis de componentes principales realizado a cada muestra se obtendrán las componentes (denominadas también factores o vectores de componentes) como combinaciones lineales de las variables originales tal y como se expresa a continuación: yi = ∑ j =1 lij x j ; p zi = ∑ j =1 mij x j p siendo, y1 , y2,..., yp componentes de A, z1 , z2 ,..., zp componentes de B, y, lij y mij son las denominadas saturaciones3 o cargas factoriales de las muestras A y B respectivamente en i, j=1,..., p. Desde el punto de vista geométrico, las componentes son los nuevos ejes ortogonales derivados de una rotación de los ejes originales y definen los subespacios vectoriales correspondientes a cada muestra. Por otra parte, las saturaciones de A y B equivalen a la dirección del ángulo de la componente i-ésima con el eje correspondiente de la variable original xj (Gower 1967, Krzanowski 1979). Teniendo en cuenta lo anterior, si el objetivo es comparar A y B, Krazanowski (1979) propone determinar la proximidad entre los subespacios generados por las componentes de las dos muestras4 definiendo una medida de similitud/divergencia entre los ejes de dichos subespacios5 . En este sentido es importante destacar que para determinar dicha medida debe imponerse una primera restricción consistente en precisar el número de componentes a considerar en A y B, siendo éste el mismo en ambas muestras dado que no parece claro comparar subespacios de diferente dimensión. Supongamos que k son las componentes retenidas en cada muestra6. Entonces, se compararán dos subespacios vectoriales de dimensión k, siendo equivalente a calcular el ángulo comprendido entre dichos subespacios. Para valorar dicha diferencia no pueden utilizarse los ejes originales (componentes), sino una transformación de las mismos que cumpla la condición de que el ángulo entre los ejes de los subespacios sea mínimo, conocidos también como “best matching o best fitting”7 . Existen distintas metodologías para obtener éstas componentes ajustadas. Krzanowski (1979 y 1996a,b) sigue una técnica que podríamos asimilar a la desarrollada en el Análisis Factorial por la cual se fija el primer subespacio vectorial, para rotar posteriormente los ejes del segundo subespacio vectorial. La rotación de los ejes del segundo subespacio tiene lugar hasta encontrar los más adecuados -es decir, más próximos- con los del primero8 . La formalización analítica de lo establecido en párrafos anteriores se resume en los teoremas 1 y 2 en el trabajo de Krzanowski (1979). De este modo, siendo L y M las matrices de orden (k×p) cuyos elementos son las saturaciones lij y mij se demuestra: Teorema 1. El ángulo mínimo entre un vector cualquiera en el espacio de las primeras k componentes principales de la muestra A y el vector paralelo más próximo en el espacio de las k primeras componentes de B, se obtiene a partir del cos-1{(λ1 )1/2}, donde λ1 es el mayor valor propio de la matriz S, siendo S=LM’ML’. Teorema 2. Siendo λi el i-ésimo valor propio más elevado de S, puede obternerse el vector bi como bi =L’ai siendo ai los vectores propios iniciales de A asociados a los mayores valores propios e i∈ [1, k ]. Entonces b1 , b2 ,..., bk forma un conjunto de vectores ortogonales entre sí en el subespacio de A y M’Mb1 ,..., M’Mbk , los correspondientes vectores ortogonales en el espacio de B. Por tanto, el cos1 {(λi )1/2}correspondiente al valor propio i-ésimo, λi , es el formado por el par de vectores (b i , MMb i ) . A modo de ejemplo, supongamos que en la comparación entre las componentes de A y B la dimensión considerada en ambos subespacios es igual a uno. Entonces, el análisis de los vectores más próximos b1 y M’Mb1 proporcionará las similaridades entre A y B, siendo λ1 la contribución de ese par de vectores a la similaridad total entre los dos subespacios y el cos1 {(λ1 )1/2} el ángulo comprendido entre los mismos. Si aumentamos el número de componentes retenida, siendo éste igual a dos, deberán analizarse el par de vectores (b1 ,b2 ) de A que sea más próximo al par (MMb 1 , MMb 2 ) de B. Entonces, los ángulos correspondientes se obtendrán a partir del cos−1{( λ1 )1/ 2 } y cos-1{(λ2 )1/2 }. Del mismo modo compararíamos bi para i∈ [1, r ], es decir los (b1 ,b2 ,...,br) vectores de A con los vectores más próximos de B, por tanto, (M'Mb1 , ... , M 'Mb r ) cuando A y B interseccionan en r dimensiones. De los párrafos anteriores se deduce que, el ángulo formado por los vectores más próximos de dos muestras analizadas -cos-1{(λi )1/2}- es una medida de asociación entre componentes o factores (Krzanowski 1979) con una interpretación geométrica. A nivel análítico sería equivalente al denominado coeficiente de congruencia propuesto por autores como Korth y Tucker 1976, Zegers y Ten Berge 1985, Ten Berge 1986a y 1986b) teniendo una interpretación similar al coeficiente de correlación y la siguiente expresión: Φ( x, y ) = x ' y( x' x ) −1/ 2 ( y' y ) − 1/ 2 siendo x e y factores o componentes en los subespacios vectoriales A y B respectivamente. Por último, es posible determinar el vector más próximo -denominado también de máxima congruencia- a los dos subespacios vectoriales A y B en el espacio vectorial original pdimensional, cuya expresión es la siguiente: 1 ci = {2 (1 + λ i )}− 1/2 I + M ' M bi λi Este vector podría interpretarse como un vector promedio -ponderado por los valores propios de la matriz S- común entre los dos subespacios analizados. 3 Extensión del modelo al caso temporal. Análisis de la escolarización en las provincias españolas. Tradicionalmente, la metodología de Componentes Principales ha sido ampliamente utilizada para la reducción de la dimensionalidad de información multivariante. Uno de los ejemplos más claros, ha sido su aplicación en la medición del bienestar. En este sentido, la aceptación del carácter multidimensional del concepto por parte de muchos autores, ha llevado a extender el uso del método de Componentes Principales -al igual que el Análisis Factorial- en este ámbito. Sin embargo algunas aplicaciones han comparado las componentes principales en distintos grupos o períodos sin disponer de una técnica apropiada para llevarlo a cabo. El análisis empírico que se presenta en esta comunicación se centra en evaluar el comportamiento temporal de algunas de las variables -sintetizadas en componentespertenecientes a una de las áreas del bienestar. Concretamente, se ha estudiado el número de alumnos matriculados en las enseñanzas obligatorias -primaria (que incluye enseñanza infantil y EGB), BUP y COU, FP-9 para 50 provincias españolas en los cursos académicos 1973-74, 1980-81 y 1990-9110 . Del análisis previo de Componentes Principales, aplicado de forma independiente a las matrices de correlaciones de los años considerados, han sido extraídas tres componentes en cada caso. Los principales resultados se muestran en la Tabla 1. Siguiendo la metodología propuesta en la comunicación, se presentan dos tipos de resultados donde en primer lugar, se compara el período 1981-91 y en segundo lugar, 1974-91. Considerando que en ambos casos los subespacios vectoriales de componentes son tridimensionales, se han obtenido los valores propios (λi ), vectores propios -(b1 ,b2 ,b3 ) y (M' Mb 1 ,M' Mb 2 , M' Mb 3 ) , los ángulos de separación cos-1{(λi )1/2} y los vectores de máxima congruencia (ci ), comparando de forma sucesiva cuando los subespacios tienen dimensiones igual a uno, dos y tres. En la Tabla 2 se muestra la comparación entre 1981-91 a partir de la que se deduce que, cuando se toman tres componentes los dos períodos analizados son muy próximos y por tanto, comparten un mismo espacio vectorial (ángulos de 2.16, 3.65 y 9.76 grados). Por otra parte si el número de componentes utilizadas fuera igual a 2, la divergencia entre los subespacios vectoriales y por tanto entre los dos períodos, es motivado por la incorporación del segundo factor dado que éste último presenta un ángulo de 47 grados aproximadamente. Conclusiones parecidas pueden extraerse del cálculo del coeficiente de congruencia, mostrado en la Tabla 3, con valores muy elevados que oscilan en torno al 0.99 cuando se toman tres dimensiones. Esta situación se reproduce en el análisis del período 1974-91. De nuevo, el ángulo mínimo se consigue con subespacios de tres ejes o componentes. En resumen, las componentes se describen de una forma muy similar en los dos años considerados bajo una determinada dimensionalidad. Por otra parte, los vectores de máxima congruencia de las Tablas 2 y 4 permiten deducir la naturaleza de las similaridades entre los subespacios vectoriales. Es decir, estos vectores tienen una interpretación equivalente a los coeficientes de una matriz factorial o ponderaciones. Por tanto, en el primer caso 1981-91, vemos como las ponderaciones son similares para todas y cada una de las variables. Cuando se estudian dos componentes, las ponderaciones en la primera componente se concentran en las variables relativas a la enseñanza secundaria (BUP y COU, y FP) y en la segunda en la variables de enseñanza primaria. Finalmente, cuando son tres las componentes analizadas se deduce que la primera componente se relaciona con la variable alumnos de FP y la segunda y tercera, con los alumnos de primaria y BUP respectivamente. En el segundo caso donde se compara el período 1974-91, las ponderaciones guardan la misma relación que en el período anterior aunque ciertos cambios se han observado en el subespacio de tres dimensiones. Es decir, la segunda componente está caracterizada por los alumnos de BUP y la primera por los de primaria. 4 Conclusiones Con esta comunicación se pretende inciar una reflexión acerca de la utilización de la técnica estadísticas de Componentes Principales en el caso de comparación de diferentes muestras. Ha sido demostrado teóricamente que no es correcto comparar los resultados de análisis parciales de componentes principales a distintas muestras aunque se trate de las mismas variables. Este hecho toma especial relevancia por cuanto es habitual utilizar dicha técnica en la síntesis de información en los denominados índices compuestos o agregados, referidos a distintos momentos del tiempo o incluso a diferentes grupos. Con esta comunicación se ha intentado ilustrar una de las posibles vías de comparación de componentes principales en distintas muestras. Esta es una opción sencilla, de tipo descriptivo, teniendo como principal inconveniente que se limita a comparar los subespacios generados por las componentes, obviando las posibles diferencias existentes entre las puntuaciones individuales y de las variables en cada muestra. A nivel empírico la técnica aplicada se muestra eficaz en el caso considerado ya que permite extraer tres conclusiones importantes: • En primer lugar, se consigue comparar los resultados de análisis multivariante en los períodos estudiados. • Además dicha comparación permite determinar el número de componentes para las que se aceptaría la invarianza temporal. • Finalmente, puede obtenerse una aproximación a dichas componentes estacionarias que podrían ser utilizadas para la construcción posteriormente de índices sintéticos. Para finalizar, a pesar de que en esta comunicación se aplica la metodología propuesta para el análisis de dos muestras, es importante señalar que dicha técnica es ampliable a un mayor número de muestras (Krzanowski 1979 y 1996a). 5 Referencias Cliff N (1966). “Orthogonal rotation to congruence”. Psychometrika 31: 33-42. Gower J C (1967). “Multivariate analysis and multidimensional geometry”. The Statician 17: 13-28. Flury B (1995). “Developments in Principal Components“. En: Recent advances in descriptive Multivariate Analysis. Royal Statistical Society Lecture Notes Series. Oxford. Korz B y Tucker L R (1975). “The distribution of change congruence coefficient from simulated data”. Psychometrika 40 (3): 361-372. Krzanowski W J (1979). “Between groups comparison of principal components”. Journal of the American Statistical Asociation 74: 703-707. Krzanowski W J (1996a). Principles of multivariate analysis. Oxford Science Publications. Oxford. Krzanowski W J (1996b). Advances in recent multivariate analysis, Oxford Science Pulications, Oxford. Ten Berge J M (1979). “On the equivalence of two oblique congruence rotation methods, and orthogonal approximations”. Psychometrika 44 (3): 359-364. Ten Berge J M (1986a). “Rotation to perfect congruence and the cross-validation of components weights across populations”. Multivariate Behavioral Research 21: 41-64. Ten Berge J M (1986b). “Some relationships between descriptive comparisons of components from different studies”. Multivariate Behavioral Research 21: 29-40. Zegers F y Ten Berge J M (1985). “A family of coefficients for metric scales”. Psychometrika 50: 17-24. TABLAS Tabla 1. Análisis de Componentes Principales. Educación primaria y secundaria 1974, 1986 y 1991. Valores Propios Varianza retenida por componentes(1) Componente 1 2 3 1 2 3 Curso académico 1973-74 2.9681 1.4772 1.1021 49.47 24.62 18.37 Curso académico 1980-81 3.0074 1.5581 1.0089 50.12 25.97 16.81 Curso académico 1990-91 2.5707 1.6008 1.2121 42.85 26.68 20.21 (1) En porcentaje. Tabla 2. Comparación entre los subespacios vectoriales de Componentes Principales. Educación primaria y secundaria 1986 y 1991. Alumnos por sexos (provincias). Valores Propios Separación angular (1) Subespacio vectorial dimensión 0.948 13.21 1 0.992 0.471 5.06 46.65 Subespacio vectorial dimensión 0.998 0.996 0.971 2.16 3.65 9.76 2 Subespacio vectorial dimensión 3 Dimensión de las componentes Componentes Alumnos primaria hombres Alumnos primaria mujeres Alumnos BUP hombres Alumnos BUP mujeres Alumnos FP hombres Alumnos FP mujeres (1) Medida en grados * Ponderaciones más relevantes. 1 1 0.3498* 0.3982* 0.4594* 0.4520* 0.3694* 0.4089* 2 1 0.2078 0.2660 0.4897* 0.4766* 0.4487* 0.4666* Vectores de máxima congruencia 3 2 0.6855* 0.6366* -0.1322 -0.1093 -0.2581 -0.1694 1 0.3031 0.3250 0.0666 0.0397 0.6167* 0.6451* 2 0.5058* 0.4384* -0.4903 -0.4855 -0.2144 -0.1730 3 0.4079 0.4347 0.4971* 0.5187* -0.2680 -0.2379 Tabla 3. Coeficiente de congruencia. Educación primaria y secundaria 1981 y 1991. Dimensión Coeficiente subespacios Dimensión 1 0.9735 Dimensión 2 0.9961 0.6864 Dimensión 3 0.9993 0.9980 0.985 5 Tabla 4. Comparación entre los subespacios vectoriales de Componentes Principales. Educación primaria y secundaria 1974 y 1991. Alumnos por sexos (provincias). Valores Propios Separación angular (1) Subespacio vectorial dimensión 0.9694 10.062 1 0.9920 0.8486 5.131 22.899 Subespacio vectorial dimensión 0.9999 0.9887 0.9428 0.019 6.092 13.837 2 Subespacio vectorial dimensión 3 Dimensión de las componentes Componentes Alumnos primaria hombres Alumnos primaria mujeres Alumnos BUP hombres Alumnos BUP mujeres Alumnos FP hombres Alumnos FP mujeres (1) Medida en grados * Ponderaciones más relevantes. 1 1 0.4031* 0.4150* 0.4730* 0.4391* 0.3419* 0.3630* 2 Vectores de máxima congruencia 3 1 2 0.1657 -0.6518* 0.1813 -0.6454* 0.4745* -0.0908 0.4740* -0.0038 0.4950* 0.3006 0.4947* 0.2448 1 0.4239 0.4348 0.0140 -0.0367 0.5365* 0.5847* 2 3 -0.3183 -0.4670* -0.3049 -0.4616* 0.5481* -0.4289 0.6134* -0.3763 0.2771 0.3507 0.2286 0.3468 Tabla 5. Coeficiente de congruencia. Educación primaria y secundaria 1974 y 1991. Dimensión Coeficiente subespacios Dimensión 1 0.9846 Dimensión 2 0.9960 0.9212 Dimensión 3 0.9999 0.9943 0.971 0 NOTAS 1 Esta hipótesis de sobre la comparabilidad de factores entre diversas muestras también ha sido abordado en el Análisis Factorial con un tratamiento teórico similar al propuesto en Componentes Principales (Cliff 1966, Korth y Tucker 1976, etc). 2 Para comparar a nivel individual sería necesario aplicar lo que se ha denominado “procrustes analysis” (Krzanowski, 1996b). Esta metodología es similar a la que se presenta en esta comunicación aunque requiere determinar las similaridades/divergencias entre individuos y no entre las componentes o factores. 3 En la metodología de Componentes Principales los vectores l ij, y mij son ortonormales (Cuadras, 1991). Es decir, 2 2 ∑ pj =1 lij = ∑ pj =1 mij = 1 ∑ pj =1 lij mij si i ≠ j 4 Del mismo modo podrían compararse de forma simultánea g-subespacios vectoriales. 5 Esta medida de asociación permitirá comparar las p-componentes en cada subespacio vectorial. 6 En la aplicación desarrollada en esta comunicación la representatividad de las muestras a partir de un número de componentes se ha determinado por el método del porcentaje de varianza acumulado. Para tal efecto se ha considerado el 80% de la varianza retenida. A partir de aquí se establece que el número de componentes k a tomar en ambas muestras será igual a: k = k1 = k 2 si k1 = k2 k = min(k , k ) si k 1 ≠ k2 1 2 siendo k1 y k 2 el número de componentes principales retenidas en las muestras A y B. 7 Aunque la nomenclatura utilizada difiere según el contexto, mientras en Componentes Principales se hace referencia a “best matching” en el Análisis Factorial al “best fitting”, ambos conceptos guardan el mismo sentido teórico. 8 Este método podría asimilarse al utilizado por otros autores como ten Berge (1986) donde se propone un método de comparación por el cual se mide el grado en que las componentes del segundo subespacio vectorial pueden reproducirse a partir de las del primer subespacio. 9 A modo de homogeneización de las variables, éstas se han relativizado en términos de población. 10 Debido a la falta de información estadística de las provincias de Ceuta y Melilla, éstas han sido omitidas.