la construcción de índices sintéticos regionales basados en

Anuncio
LA CONSTRUCCIÓN DE ÍNDICES SINTÉTICOS REGIONALES BASADOS EN
MÉTODOS DE ANÁLISIS MULTIVARIANTE. EL PROBLEMA DE LA
COMPARABILIDAD
Métodos de Análisis Regional
Quadrado Mercadal, Lucia
Pons Fanals, Ernest
Universitat de Barcelona
Resumen:
Recientemente los algunos investigadores han puesto de manifiesto algunas limitaciones
que presentan las técnicas empleadas en el tratamiento de información multivariante como
pueden ser: el análisis de Componentes Principales o Factorial. En este sentido, erróneamente se
deducen conclusiones a partir de la comparación de las matrices factoriales o componentes o
factores cuando se estudian muestras distintas. Siguiendo a Krzanowski (1979) esta comunicación
se centra en desarrollar una metodología que permite comparar las componentes obtenidas en el
análisis de Componentes Principales de dos muestras. La idoneidad de este procedimiento se
muestra a partir de un ejemplo desarrollado para comparar las componentes principales relativas a
la escolarización de las enseñanzas primaria y secundaria en las provincias españolas. Finalmente
como principales conclusiones se sostiene, primero, es posible la comparabilidad entre
componentes de distintas muestras aunque para ello es necesario considerar el mismo número de
variables, segundo, la metodología propuesta sirve para determinar el número de componentes
comparables y tercero, la importancia del problema planteado en la construcción de índices
sintéticos a partir de los resultados factoriales.
LA CONSTRUCCIÓN DE ÍNDICES SINTÉTICOS REGIONALES BASADOS EN
MÉTODOS
DE
ANÁLISIS
MULTIVARIANTE.
EL
PROBLEMA
DE
LA
COMPARABILIDAD.
1 Introducción
Las principales propiedades de algunas técnicas estadísticas de análisis multivariante, como
pueden ser Componentes Principales o Análisis Factorial, han permitido su introducción no sólo
en ámbitos como la economía sino también en biología o psicometría. No obstante, los
investigadores en el campo de las ciencias naturales han puesto de manifiesto algunas
limitaciones presentadas por dichas técnicas que no han sido consideradas en las ciencias
sociales. Este hecho ha tenido como principal consecuencia que, en algunos casos, la aplicación
de dichas metodologías se lleve a cabo de forma errónea.
En este sentido, uno de los ejemplos más claros se centra en la comparación de los resultados
factoriales obtenidos a través de los métodos de Componentes Principales o Análisis Factorial.
A menudo, se estudian las similaridades entre dos grupos de individuos o dos períodos
temporales comparando las matrices factoriales e incluso los factores derivados de los análisis
parciales. En estos casos se asume la hipótesis de comparabilidad cuando, desde el punto de
vista teórico, carece de sentido. De este modo, dos conjuntos de componentes que
aparentemente presentarían divergencias, podrían definir un mismo subespacio vectorial al
aplicar una técnica adecuada para su comparación, por lo que podrían extraerse fácilmente
conclusiones.
En esta comunicación nos centraremos en el problema anterior y más concretamente en el
desarrollo del método propuesto por Krzanowski (1979) de comparación de las componentes de
dos o más muestras en la metodología de Componentes Principales. El procedimiento seguido
por este autor se basa en la interpretación geométrica de dichas componentes y se desarrolla en
el siguiente epígrafe. A modo de ejemplo, se ha llevado a cabo un análisis entre distintos
períodos (1974-91, 1981-91) de las componentes relativas a la escolarización en las enseñanzas
primaria y secundaria en las provincias españolas.
Por último, es importante destacar que las componentes principales son frecuentemente
utilizadas en la construcción de índices sintéticos. Así, las puntuaciones factoriales de diversas
muestras han servido como base para su elaboración aunque generalmente sin tener en cuenta
los inconvenientes señalados anteriormente. Ante esta situación, estudiar los cambios de este
tipo de índices y realizar conclusiones sobre los mismos no sería posible.
2 La comparabilidad de las Componentes Principales en distintas muestras.
En general, el marco teórico del método estadístico de Componentes Principales ha sido
desarrollado suponiendo que las p variables analizadas son medidas en los n individuos de una
sola muestra. Una de las principales propiedades de dicha técnica es la de proporcionar un
conjunto de componentes o factores incorrelacionados para dicha muestra que posteriormente,
pueden ser utilizados en la construcción de índices, en modelos de regresión, etc. Sin embargo,
una mayor disponibilidad de información estadística ha puesto de manifiesto algunos
inconvenientes en la aplicación de esta metodología (Ten Berge, 1986a, Krzanowski 1979 y
1996a, Flury 1995). Por ejemplo, los n individuos de una muestra deben ser analizados en dos
períodos temporales distintos o bien, el conjunto de individuos es desagregado en varios grupos.
En tales situaciones el tratamiento de dos o más muestras multivariantes ha llevado a la
necesidad de plantear un fundamento teórico que permita la generalización de la metodología de
Componentes Principales.
No obstante, el problema anterior es relevante siempre y cuando los resultados obtenidos en las
distintas muestras quieren ser comparados1 . En caso contrario, la idoneidad del análisis
tradicional de Componentes Principales en cada muestra no debería cuestionarse.
Una de las aportaciones más significativas a la generalización de la metodología de
Componentes Principales se debe a Krzanowski (1979 y 1996a). En base a las características
geométricas de las Componentes principales, destacadas por autores como Gower (1967),
Krzanowski propone la adecuación de este método de análisis multivariante para dos o más
muestras. Esta adaptación del método clásico posibilita en primer lugar, analizar aquellos
factores que inciden en la variabilidad de las muestras y en segundo lugar, su comparación. Sin
embargo, ésta es una técnica cuyos resultados son, tal vez, limitados dado que la comparación es
en términos de factores o componentes y no se estudian las similaridades/divergencias de los
individuos de las mismas2 . En la presente comunicación -siguiendo Krzanowski (1979)- nos
centraremos, tanto a nivel teórico como en la aplicación empírica, en el caso más sencillo en que
dos muestras -grupos/períodos- son considerados. No obstante es posible su generalización.
Supongamos que el conjunto de individuos n -en nuestro caso las provincias- se mide en las
x1 , x2 ,..., x p variables originales en dos períodos distintos -por ejemplo, 1981 y 1991constituyendo dos muestras multivariantes A y B cuyos tamaños muestrales son n 1 y n 2 . Se
asume que todos los individuos pueden ser representados como puntos en el correspondiente
espacio vectorial de dimensión p y
ortogonales en dicho espacio vectorial.
las variables consideradas se identifican con ejes
Entonces, del análisis de componentes principales realizado a cada muestra se obtendrán las
componentes (denominadas también factores o vectores de componentes) como combinaciones
lineales de las variables originales tal y como se expresa a continuación:
yi = ∑ j =1 lij x j ;
p
zi = ∑ j =1 mij x j
p
siendo,
y1 , y2,..., yp componentes de A,
z1 , z2 ,..., zp componentes de B,
y, lij y mij son las denominadas saturaciones3 o cargas factoriales de las muestras A y B
respectivamente en i, j=1,..., p.
Desde el punto de vista geométrico, las componentes son los nuevos ejes ortogonales derivados
de una rotación de los ejes originales y definen los subespacios vectoriales correspondientes a
cada muestra. Por otra parte, las saturaciones de A y B equivalen a la dirección del ángulo de la
componente i-ésima con el eje correspondiente de la variable original xj (Gower 1967,
Krzanowski 1979). Teniendo en cuenta lo anterior, si el objetivo es comparar A y B,
Krazanowski (1979) propone determinar la proximidad entre los subespacios generados por las
componentes de las dos muestras4 definiendo una medida de similitud/divergencia entre los ejes
de dichos subespacios5 .
En este sentido es importante destacar que para determinar dicha medida debe imponerse una
primera restricción consistente en precisar el número de componentes a considerar en A y B,
siendo éste el mismo en ambas muestras dado que no parece claro comparar subespacios de
diferente dimensión. Supongamos que k son las componentes retenidas en cada muestra6.
Entonces, se compararán dos subespacios vectoriales de dimensión k, siendo equivalente a
calcular el ángulo comprendido entre dichos subespacios. Para valorar dicha diferencia no
pueden utilizarse los ejes originales (componentes), sino una transformación de las mismos que
cumpla la condición de que el ángulo entre los ejes de los subespacios sea mínimo, conocidos
también como “best matching o best fitting”7 .
Existen distintas metodologías para obtener éstas componentes ajustadas. Krzanowski (1979 y
1996a,b) sigue una técnica que podríamos asimilar a la desarrollada en el Análisis Factorial por
la cual se fija el primer subespacio vectorial, para rotar posteriormente los ejes del segundo
subespacio vectorial. La rotación de los ejes del segundo subespacio tiene lugar hasta encontrar
los más adecuados -es decir, más próximos- con los del primero8 .
La formalización analítica de lo establecido en párrafos anteriores se resume en los teoremas 1 y
2 en el trabajo de Krzanowski (1979). De este modo, siendo L y M las matrices de orden (k×p)
cuyos elementos son las saturaciones lij y mij se demuestra:
Teorema 1. El ángulo mínimo entre un vector cualquiera en el espacio de las primeras k
componentes principales de la muestra A y el vector paralelo más próximo en el espacio
de las k primeras componentes de B, se obtiene a partir del cos-1{(λ1 )1/2}, donde λ1 es el
mayor valor propio de la matriz S, siendo S=LM’ML’.
Teorema 2. Siendo λi el i-ésimo valor propio más elevado de S, puede obternerse el
vector bi como bi =L’ai siendo ai los vectores propios iniciales de A asociados a los
mayores valores propios e i∈ [1, k ]. Entonces b1 , b2 ,..., bk forma un conjunto de
vectores ortogonales entre sí en el subespacio de A y M’Mb1 ,..., M’Mbk , los
correspondientes vectores ortogonales en el espacio de B. Por tanto, el cos1
{(λi )1/2}correspondiente al valor propio i-ésimo, λi , es el formado por el par de vectores
(b i , MMb i ) .
A modo de ejemplo, supongamos que en la comparación entre las componentes de A y B la
dimensión considerada en ambos subespacios es igual a uno. Entonces, el análisis de los
vectores más próximos b1 y M’Mb1 proporcionará las similaridades entre A y B, siendo λ1 la
contribución de ese par de vectores a la similaridad total entre los dos subespacios y el cos1
{(λ1 )1/2} el ángulo comprendido entre los mismos. Si aumentamos el número de componentes
retenida, siendo éste igual a dos, deberán analizarse el par de vectores (b1 ,b2 ) de A que sea más
próximo al par (MMb 1 , MMb 2 ) de B. Entonces, los ángulos correspondientes se obtendrán a
partir del cos−1{( λ1 )1/ 2 } y cos-1{(λ2 )1/2 }. Del mismo modo compararíamos bi para i∈ [1, r ], es
decir los (b1 ,b2 ,...,br) vectores de A con los vectores más próximos de B, por tanto,
(M'Mb1 , ... , M 'Mb r ) cuando A y B interseccionan en r dimensiones.
De los párrafos anteriores se deduce que, el ángulo formado por los vectores más próximos de
dos muestras analizadas -cos-1{(λi )1/2}- es una medida de asociación entre componentes o
factores (Krzanowski 1979) con una interpretación geométrica. A nivel análítico sería
equivalente al denominado coeficiente de congruencia propuesto por autores como Korth y
Tucker 1976, Zegers y Ten Berge 1985, Ten Berge 1986a y 1986b) teniendo una interpretación
similar al coeficiente de correlación y la siguiente expresión:
Φ( x, y ) = x ' y( x' x ) −1/ 2 ( y' y ) − 1/ 2
siendo x e y factores o componentes en los subespacios vectoriales A y B respectivamente.
Por último, es posible determinar el vector más próximo -denominado también de máxima
congruencia- a los dos subespacios vectoriales A y B en el espacio vectorial original pdimensional, cuya expresión es la siguiente:


1
ci = {2 (1 + λ i )}− 1/2  I +
M ' M  bi
λi


Este vector podría interpretarse como un vector promedio -ponderado por los valores propios de
la matriz S- común entre los dos subespacios analizados.
3 Extensión del modelo al caso temporal. Análisis de la escolarización en las provincias
españolas.
Tradicionalmente, la metodología de Componentes Principales ha sido ampliamente utilizada
para la reducción de la dimensionalidad de información multivariante. Uno de los ejemplos más
claros, ha sido su aplicación en la medición del bienestar. En este sentido, la aceptación del
carácter multidimensional del concepto por parte de muchos autores, ha llevado a extender el
uso del método de Componentes Principales -al igual que el Análisis Factorial- en este ámbito.
Sin embargo algunas aplicaciones han comparado las componentes principales en distintos
grupos o períodos sin disponer de una técnica apropiada para llevarlo a cabo.
El análisis empírico que se presenta en esta comunicación se centra en evaluar el
comportamiento temporal de algunas de las variables -sintetizadas en componentespertenecientes a una de las áreas del bienestar. Concretamente, se ha estudiado el número de
alumnos matriculados en las enseñanzas obligatorias -primaria (que incluye enseñanza infantil y
EGB), BUP y COU, FP-9 para 50 provincias españolas en los cursos académicos 1973-74,
1980-81 y 1990-9110 . Del análisis previo de Componentes Principales, aplicado de forma
independiente a las matrices de correlaciones de los años considerados, han sido extraídas tres
componentes en cada caso. Los principales resultados se muestran en la Tabla 1.
Siguiendo la metodología propuesta en la comunicación, se presentan dos tipos de resultados
donde en primer lugar, se compara el período 1981-91 y en segundo lugar, 1974-91.
Considerando que en ambos casos los subespacios vectoriales de componentes son
tridimensionales, se han obtenido los valores propios (λi ), vectores propios -(b1 ,b2 ,b3 ) y
(M' Mb 1 ,M' Mb 2 , M' Mb 3 ) , los ángulos de separación cos-1{(λi )1/2} y los vectores de máxima
congruencia (ci ), comparando de forma sucesiva cuando los subespacios tienen dimensiones
igual a uno, dos y tres.
En la Tabla 2 se muestra la comparación entre 1981-91 a partir de la que se deduce que, cuando
se toman tres componentes los dos períodos analizados son muy próximos y por tanto,
comparten un mismo espacio vectorial (ángulos de 2.16, 3.65 y 9.76 grados). Por otra parte si el
número de componentes utilizadas fuera igual a 2, la divergencia entre los subespacios
vectoriales y por tanto entre los dos períodos, es motivado por la incorporación del segundo
factor dado que éste último presenta un ángulo de 47 grados aproximadamente. Conclusiones
parecidas pueden extraerse del cálculo del coeficiente de congruencia, mostrado en la Tabla 3,
con valores muy elevados que oscilan en torno al 0.99 cuando se toman tres dimensiones. Esta
situación se reproduce en el análisis del período 1974-91. De nuevo, el ángulo mínimo se
consigue con subespacios de tres ejes o componentes. En resumen, las componentes se
describen de una forma muy similar en los dos años considerados bajo una determinada
dimensionalidad.
Por otra parte, los vectores de máxima congruencia de las Tablas 2 y 4 permiten deducir la
naturaleza de las similaridades entre los subespacios vectoriales. Es decir, estos vectores tienen
una interpretación equivalente a los coeficientes de una matriz factorial o ponderaciones. Por
tanto, en el primer caso 1981-91, vemos como las ponderaciones son similares para todas y cada
una de las variables. Cuando se estudian dos componentes, las ponderaciones en la primera
componente se concentran en las variables relativas a la enseñanza secundaria (BUP y COU, y
FP) y en la segunda en la variables de enseñanza primaria. Finalmente, cuando son tres las
componentes analizadas se deduce que la primera componente se relaciona con la variable
alumnos de FP y la segunda y tercera, con los alumnos de primaria y BUP respectivamente. En
el segundo caso donde se compara el período 1974-91, las ponderaciones guardan la misma
relación que en el período anterior aunque ciertos cambios se han observado en el subespacio de
tres dimensiones. Es decir, la segunda componente está caracterizada por los alumnos de BUP y
la primera por los de primaria.
4 Conclusiones
Con esta comunicación se pretende inciar una reflexión acerca de la utilización de la técnica
estadísticas de Componentes Principales en el caso de comparación de diferentes muestras. Ha
sido demostrado teóricamente que no es correcto comparar los resultados de análisis parciales
de componentes principales a distintas muestras aunque se trate de las mismas variables. Este
hecho toma especial relevancia por cuanto es habitual utilizar dicha técnica en la síntesis de
información en los denominados índices compuestos o agregados, referidos a distintos
momentos del tiempo o incluso a diferentes grupos.
Con esta comunicación se ha intentado ilustrar una de las posibles vías de comparación de
componentes principales en distintas muestras. Esta es una opción sencilla, de tipo descriptivo,
teniendo como principal inconveniente que se limita a comparar los subespacios generados por
las componentes, obviando las posibles diferencias existentes entre las puntuaciones
individuales y de las variables en cada muestra.
A nivel empírico la técnica aplicada se muestra eficaz en el caso considerado ya que permite
extraer tres conclusiones importantes:
• En primer lugar, se consigue comparar los resultados de análisis multivariante en los
períodos estudiados.
• Además dicha comparación permite determinar el número de componentes para las
que se aceptaría la invarianza temporal.
• Finalmente, puede obtenerse una aproximación a dichas componentes estacionarias
que podrían ser utilizadas para la construcción posteriormente de índices sintéticos.
Para finalizar, a pesar de que en esta comunicación se aplica la metodología propuesta para el
análisis de dos muestras, es importante señalar que dicha técnica es ampliable a un mayor
número de muestras (Krzanowski 1979 y 1996a).
5 Referencias
Cliff N (1966). “Orthogonal rotation to congruence”. Psychometrika 31: 33-42.
Gower J C (1967). “Multivariate analysis and multidimensional geometry”. The Statician 17:
13-28.
Flury B (1995). “Developments in Principal Components“. En: Recent advances in descriptive
Multivariate Analysis. Royal Statistical Society Lecture Notes Series. Oxford.
Korz B y Tucker L R (1975). “The distribution of change congruence coefficient from
simulated data”. Psychometrika 40 (3): 361-372.
Krzanowski W J (1979). “Between groups comparison of principal components”. Journal of the
American Statistical Asociation 74: 703-707.
Krzanowski W J (1996a). Principles of multivariate analysis. Oxford Science Publications.
Oxford.
Krzanowski W J (1996b). Advances in recent multivariate analysis, Oxford Science Pulications,
Oxford.
Ten Berge J M (1979). “On the equivalence of two oblique congruence rotation methods, and
orthogonal approximations”. Psychometrika 44 (3): 359-364.
Ten Berge J M (1986a). “Rotation to perfect congruence and the cross-validation of components
weights across populations”. Multivariate Behavioral Research 21: 41-64.
Ten Berge J M (1986b). “Some relationships between descriptive comparisons of components
from different studies”. Multivariate Behavioral Research 21: 29-40.
Zegers F y Ten Berge J M (1985). “A family of coefficients for metric scales”. Psychometrika
50: 17-24.
TABLAS
Tabla 1. Análisis de Componentes Principales.
Educación primaria y secundaria 1974, 1986 y 1991.
Valores Propios
Varianza retenida por
componentes(1)
Componente
1
2
3
1
2
3
Curso académico 1973-74
2.9681
1.4772
1.1021
49.47
24.62
18.37
Curso académico 1980-81
3.0074
1.5581
1.0089
50.12
25.97
16.81
Curso académico 1990-91
2.5707
1.6008
1.2121
42.85
26.68
20.21
(1)
En porcentaje.
Tabla 2. Comparación entre los subespacios vectoriales de Componentes Principales.
Educación primaria y secundaria 1986 y 1991. Alumnos por sexos (provincias).
Valores Propios
Separación angular (1)
Subespacio vectorial dimensión
0.948
13.21
1
0.992
0.471
5.06
46.65
Subespacio vectorial dimensión
0.998
0.996
0.971
2.16
3.65
9.76
2
Subespacio vectorial dimensión
3
Dimensión de las
componentes
Componentes
Alumnos primaria hombres
Alumnos primaria mujeres
Alumnos BUP hombres
Alumnos BUP mujeres
Alumnos FP hombres
Alumnos FP mujeres
(1)
Medida en grados
* Ponderaciones más relevantes.
1
1
0.3498*
0.3982*
0.4594*
0.4520*
0.3694*
0.4089*
2
1
0.2078
0.2660
0.4897*
0.4766*
0.4487*
0.4666*
Vectores de máxima
congruencia
3
2
0.6855*
0.6366*
-0.1322
-0.1093
-0.2581
-0.1694
1
0.3031
0.3250
0.0666
0.0397
0.6167*
0.6451*
2
0.5058*
0.4384*
-0.4903
-0.4855
-0.2144
-0.1730
3
0.4079
0.4347
0.4971*
0.5187*
-0.2680
-0.2379
Tabla 3. Coeficiente de congruencia.
Educación primaria y secundaria 1981 y 1991.
Dimensión
Coeficiente
subespacios
Dimensión 1
0.9735
Dimensión 2
0.9961
0.6864
Dimensión 3
0.9993
0.9980
0.985
5
Tabla 4. Comparación entre los subespacios vectoriales de Componentes Principales.
Educación primaria y secundaria 1974 y 1991. Alumnos por sexos (provincias).
Valores Propios
Separación angular (1)
Subespacio vectorial dimensión
0.9694
10.062
1
0.9920
0.8486
5.131
22.899
Subespacio vectorial dimensión
0.9999
0.9887
0.9428
0.019
6.092
13.837
2
Subespacio vectorial dimensión
3
Dimensión de las
componentes
Componentes
Alumnos primaria hombres
Alumnos primaria mujeres
Alumnos BUP hombres
Alumnos BUP mujeres
Alumnos FP hombres
Alumnos FP mujeres
(1)
Medida en grados
* Ponderaciones más relevantes.
1
1
0.4031*
0.4150*
0.4730*
0.4391*
0.3419*
0.3630*
2
Vectores de máxima
congruencia
3
1
2
0.1657 -0.6518*
0.1813 -0.6454*
0.4745* -0.0908
0.4740* -0.0038
0.4950*
0.3006
0.4947*
0.2448
1
0.4239
0.4348
0.0140
-0.0367
0.5365*
0.5847*
2
3
-0.3183 -0.4670*
-0.3049 -0.4616*
0.5481* -0.4289
0.6134* -0.3763
0.2771
0.3507
0.2286
0.3468
Tabla 5. Coeficiente de congruencia.
Educación primaria y secundaria 1974 y 1991.
Dimensión
Coeficiente
subespacios
Dimensión 1
0.9846
Dimensión 2
0.9960
0.9212
Dimensión 3
0.9999
0.9943 0.971
0
NOTAS
1
Esta hipótesis de sobre la comparabilidad de factores entre diversas muestras también ha sido abordado en el
Análisis Factorial con un tratamiento teórico similar al propuesto en Componentes Principales (Cliff 1966, Korth y
Tucker 1976, etc).
2
Para comparar a nivel individual sería necesario aplicar lo que se ha denominado “procrustes analysis”
(Krzanowski, 1996b). Esta metodología es similar a la que se presenta en esta comunicación aunque requiere
determinar las similaridades/divergencias entre individuos y no entre las componentes o factores.
3
En la metodología de Componentes Principales los vectores l ij, y mij son ortonormales (Cuadras, 1991). Es decir,
2
2
∑ pj =1 lij = ∑ pj =1 mij = 1
∑ pj =1 lij mij si i ≠ j
4
Del mismo modo podrían compararse de forma simultánea g-subespacios vectoriales.
5
Esta medida de asociación permitirá comparar las p-componentes en cada subespacio vectorial.
6
En la aplicación desarrollada en esta comunicación la representatividad de las muestras a partir de un número de
componentes se ha determinado por el método del porcentaje de varianza acumulado. Para tal efecto se ha
considerado el 80% de la varianza retenida. A partir de aquí se establece que el número de componentes k a tomar en
ambas muestras será igual a:
 k = k1 = k 2
si k1 = k2

k
=
min(k
,
k
)
si
k 1 ≠ k2

1
2
siendo k1 y k 2 el número de componentes principales retenidas en las muestras A y B.
7
Aunque la nomenclatura utilizada difiere según el contexto, mientras en Componentes Principales se hace referencia
a “best matching” en el Análisis Factorial al “best fitting”, ambos conceptos guardan el mismo sentido teórico.
8
Este método podría asimilarse al utilizado por otros autores como ten Berge (1986) donde se propone un método de
comparación por el cual se mide el grado en que las componentes del segundo subespacio vectorial pueden
reproducirse a partir de las del primer subespacio.
9
A modo de homogeneización de las variables, éstas se han relativizado en términos de población.
10
Debido a la falta de información estadística de las provincias de Ceuta y Melilla, éstas han sido omitidas.
Descargar