Artículo breve sobre el Escalamiento Muldimensional en

Anuncio
VII Conferencia Española de Biometría
Palma de Mallorca, 10-12 de Marzo de 1999
Revisado en abril de 2012
MDS métrico y no-métrico con datos de proximidad:
Intervalos de error en la interpretación de los resultados.
Gonzalo Adán Micó. Doctor en Psicología
1.- Introducción
El término escalamiento multidimensional se refiere a una familia de métodos de análisis de
datos los cuales tienen como objetivo final representar un conjunto de estímulos 1 relacionados en
un espacio de baja dimensionalidad (habitualmente dos o tres dimensiones). Conceptualmente se
trata de transformar la medida de relación entre ellos en una medida de distancia euclídea.
En términos generales, si esta transformación se realiza asumiendo una relación lineal –
proporcional - entre proximidades y distancias, deberá utilizarse el procedimiento métrico
(Torgerson, 1938). En cambio, si somos menos restrictivos y asumimos una relación solo
monotónica entre ambas, deberá utilizarse el no-métrico (Shepard-Kruskal, 1962).
Es un hecho que la mayoría de los trabajos utiliza el procedimiento no-métrico, pues al ser
menos exigente proporciona menor error en la transformación. No obstante tiene una limitación,
y es que la interpretación monotónica que debe hacerse en la configuración es menos intuitiva y
por lo tanto más compleja que la lineal del procedimiento métrico.
En este sentido nos planteamos las siguientes cuestiones:
1.- Comparando ambos procedimientos con sus restricciones específicas ¿ Realmente tiene
menor error el procedimiento no-métrico ?.
2.- Si escogemos el procedimiento no-métrico... ¿ Qué error cometemos si la interpretación de
la configuración es lineal en vez de monotónica?.
3.- Ante una interpretación lineal... ¿ Cuál es el procedimiento de menor error?
Nuestro trabajo está centrado en responder dichas cuestiones, aunque limitado a los datos
que presentan las siguientes características: dos vías (rango dos), un modo (filas y columnas son
los mismos estímulos) y medida de proximidad es desemejanza (es decir, a mayor magnitud,
mayor desemejanza). El algoritmo de resolución ha sido ALSCAL, (Takane, Young y Leeuw,
1977) implementado en SPSS.
2.- Método
a) Muestra
1
Traducción literal del inglés “stimulus”, que, en literatura de MDS, se refiere a objetos, eventos, sujetos,
atributos, categorías, cualidades, etc. En general, todo aquello que puede ser represenatdo mediante un
punto en el espacio euclídeo.
Con el fin de comparar los errores de transformación2 de ambos procedimientos, generamos
un total de 120 matrices aleatorias mediante SPSS. Para que éstas representaran de la mejor
manera todos los posibles formatos de datos, se escogieron como opciones las siguientes: 1)
Rango 1-10 en las medidas de proximidad, 2) Distribución normal y uniforme, 3) Dispersión alta
(SD=2) y baja (SD=0,5) 4) Precisión de la medida alta (dos decimales) y baja (sin decimales) y
5) Tamaños de matriz 5x5, 10x10 y 15x15. En resumen, 5 matrices aleatorias distintas para
cada una de las 24 posibles combinaciones (3 tamaños x 2 distribuciones x 2 dispersiones x 2
precisiones).
b) Variables y procedimiento
Para cada una de las 120 matrices se procedió de la siguiente manera 34:
1.- Aplicación de MDS métrico a dicha matriz: a) Extracción de las disparidades (d), b) Extracción
de coordenadas y transformación a distancias (D), c) Cálculo de R 2 P-d (V1) y comprobación de
que V1=100, d) Cálculo de R2 d-D (V2) y e) Cálculo de R2 P-D (V3) y comprobación de que
V3=V2
2.- Aplicación de MDS no-métrico a la misma matriz: a) Extracción de las disparidades (d), b)
Extracción de coordenadas y transformación a distancias (D), c) Cálculo de R 2 P-d (V4), d)
Cálculo de R2 d-D (V5), e) Cálculo de R2 P-D (V6).
3.- Cálculo de los criterios V7 a V10 según: V7=1-V2, V8=1-V4, V9=1-V5, V10=1-V6
3.- Resultados
3.1.- En términos generales... ¿ Procedimiento métrico o procedimiento no-métrico?
El gráfico-1 compara los errores medios y su intervalo de confianza al 95% de los
procedimientos métrico (V7) y no-métrico (V9). El cuadro-1 describe los errores máximo y
mínimo para el caso no métrico.
Como respuesta a la cuestión planteada puede afirmarse, dentro de los límites expuestos con
anterioridad, que el procedimiento no-métrico proporciona menor error (mejor ajuste) que el
procedimiento métrico, al menos entre los límites de 5 a 15 estímulos. En relación al
procedimiento no-métrico puede asimismo afirmarse:
1.- El error se incrementa logarítmicamente conforme aumenta el tamaño de la matriz.
2.- Para el caso en que no se conozcan o no puedan escogerse ciertas características de los
datos, los intervalos de confianza con P<0,05 no recomiendan el empleo de MDS no-métrico
con un número de estímulos superior a 10, dado que el error esperado superaría el 20%.
3.- Para el caso en que se conozcan o puedan escogerse algunas características de los datos, se
reducen los errores con distribución normal, baja dispersión o precisión entera. Caso de
combinarse las tres posibilidades5 (NBE) los errores serían menores del 6%.
2
2
2
Los errores son medidos mediante el cálculo de 1-R , siendo R la varianza explicada en la transformación
P=proximidades, d=disparidades, D=Distancias
4
V1-V10 es la notación de las variables
5
Se utiliza la nomenclatura siguiente: primera letra: N=Distribución normal, U=Distribución uniforme,
segunda letra: B=Dispersión baja, A=Dispersión alta y tercera letra: E=Precisión entera y D=Precisión
decimal.
3
3.2.- Dado el procedimiento no-métrico... ¿ Que error cometemos si la interpretación es de
intuición lineal en vez de monotónica ?
El gráfico-2 compara los errores cometidos en el procedimiento no-métrico cuando la
interpretación es monotónica (V9) y cuando la interpretación es lineal (V10). El cuadro-2
describe los errores máximo y mínimo para el caso de interpretación lineal.
Como respuesta a la cuestión planteada puede afirmarse en relación a la cuestión planteada:
Utilizando el procedimiento
configuración se interpretan
respecto del error cometido
monotónica conocida, menos
no-métrico, el error cometido cuando las distancias de la
intuyendo una relación lineal con las proximidades, es mayor
cuando esta interpretación se realiza intuyendo una relación
en tamaños que oscilen entre 5 y 15 estímulos. Asumido este
mayor error, puede concretarse respecto a la interpretación lineal lo siguiente:
1.- El error se incrementa en forma logarítmica conforme aumenta el tamaño de la matriz.
2.- Los valores son prácticamente insensibles a las características de los datos, no apreciándose
diferencias significativas en relación a ninguna de las variables moduladoras estudiadas cuando
estas se estudian de forma independiente. Con P<0,05, no parece recomendable utilizar esta
interpretación con un número de estímulos superior a 5, dado que el error superaría,
aproximadamente, el 20%.
3.- Cuando las variables moduladoras se estudian de manera dependiente su efecto parece más
considerable, y se observarsa una variabilidad mayor en los errores esperados. Aunque este
efecto no es el mismo para todos los tamaños de la matriz, destaca como menor error 9,55%
para cuando se combinan NBD para n=5.
3.3.- Dada la interpretación lineal en vez de monotónica ..... ¿ Procedimiento métrico o
procedimiento no-métrico?
El gráfico-3 compara los errores cometidos por el procedimiento métrico (V7) y el no-métrico
(V10) cuando la interpretación en ambos es lineal. El cuadro-3 describe la diferencia entre
dichos errores.
Se observa que el error cometido por el procedimiento métrico es, en relación al cometido por
el no-métrico, aparentemente mayor para n=5, igual para n=10 y menor para n=15. No
obstante, realizada la prueba t para dichas diferencias, ésta dio, respectivamente, los valores t=1,30 (P=0,202), t=1,27 (P=0,212) y t=3,76 (P=0,001), lo que sólo señala como significativa la
diferencia para n=15.
La respuesta a la cuestión planteada podría quedar formulada en los siguientes términos: Cuando
utilicemos una interpretación de las distancias de tipo lineal respecto de las proximidades, el
procedimiento no-métrico proporciona menor error que el procedimiento métrico, al menos para
tamaños superiores a 12 estímulos. Aunque en tamaños inferiores este efecto tiende a invertirse,
no puede ello afirmarse con una precisión igual o mayor del 95%. Esta afirmación puede
matizarse en algunos aspectos:
1.- A partir de n=10, cuando comienza a ser más eficaz el procedimiento no-métrico, las
diferencias explicadas por las variables moduladoras disminuyen y tienden a ser nulas.
2.- En cambio, para valores de n inferiores, las diferencias observadas en las variables
moduladoras aumentan en relación inversa con el tamaño. Para n=5 la mayor diferencia entre
los procedimientos (a favor del métrico) se da con distribución normal, valores enteros o baja
dispersión. Para ésta última característica, el procedimiento métrico es incluso mejor que el nométrico para n=10 y n=15.
3.- Cuando las variables se estudian de manera dependiente su efecto queda aún más
discriminado, observándose que con las combinaciones NBE, NBD y UBD es preferible el
procedimiento métrico en los tres intervalos, quedando el resto de combinaciones como
predictoras de mejores ajustes en el procedimiento no-métrico.
4.- Conclusiones
La conclusión al trabajo, verdadera utilidad del mismo, respondería a una cuarta cuestión
extraída de los resultados anteriores Dadas las tres opciones propuestas para aplicar e interpretar
el MDS con datos de proximidad... ¿ Cuál es el número máximo de estímulos que pueden
representarse con un error igual o menor que el 20% 6.
El cuadro siguiente responde dicha cuestión. en un amplio rango de posibilidades. a) No se
conocen las características de los datos (fila “Total”), b) Se conoce sólo una de las características
(D-1 a D-6) y c) Se conocen las tres características (resto de la tabla según la nomenclatura
citada en la llamada 5).
5.- Bibliografía
- Alba, R.D., (1975), “ Comment on mathematical models in sociometry”, Sociological methods
and research, 3.
- Arce, C. (1993), “ Escalamiento Multidimensional. Una técnica multivariante para el análisis de
datos de proximidad y preferencia”. Barcelona. PPU.
- Bogardus, E.S., (1993), “ A social distance scale”, Sociology and Social Research, 17.
- Coombs, C.H., (1964), “ A theory of data”. Nueva York: Wiley
- Cox, T., and Cox, M., (1994), “ Multidimensional Scalling”, Monogrphs on Statics and Aplied
Probability. Nº 50. , Chapman & Hall.
- Davison, M. (1992), “ Multidimensional Scaling”. John Wiley & Sons.
- Doise, W., Clemence, A., and Lorenzi-Cioldi, F., (1993), “ The quantitative analysisi of social
representations”. European Monographs in Social Psycology. University of Kent at
Canterbury.
- León, I., Díaz Jm.; Marrero H. (1990), “ El Escalamiento Multidimensional: Una alternativa a la
metodología tradicional en el estudio de las estrategias de poder”. Barcelona : Actas del II
Congreso Nacional de Psicología Social. PPU.
- Moreno, J.L., (1934), “ Who shall survive?” Trad. Castellano, 1972, Fundamentos de la
sociometría. Buenos Aires. Paidos.
- Takane, Y., Young, F., y de Leeuw, J. (1977), " Nonmetric individual differences
multidimensional scaling: An alternating least-squares method with optimal scaling features”.
Psychometrika, 42
- Young, F., and Hammer, R., (1987), “ Multidimensional Scaling: history, theory and
applications”, London: LEA.
6
Entendiendo éstas como: 1) V7, Procedimiento métrico (interpretación lineal), 2) V9, Procedimiento nométrico (interpretación monotónica) y 3) V10, Procedimiento no-métrico (interpretación lineal).
Cuadro-1
(V9)
n=5
n=10
n=15
Error medio
(int. a P<0,05)
0.96
(0 - 2,09)
24.75
(20,51 - 28,99)
41.34
(35,61 - 47,07)
Error mínimo
*
*
*
*
*
*
*
*
*
*
*
*
Error máximo
0,06 D. Normal
0,73 D. Baja
0,02 Entero
0,00 NBE
24,68 D. Normal
18,80 D. Baja
17,41 Entero
2,35 NBE
38,95 D. Normal
35,07 D. Baja
27,97 Entero
5,93 NBE
*
*
*
*
*
*
*
*
*
*
*
*
100,00
1,85 D. Uniforme
1,18 D. Alta
1,89 Decimal
4,48 UAD
24,82 D. Uniforme
30,69 D. Alta
32,09 Decimal
33,38 UBD
43,72 D. Uniforme
47,60 D. Alta
54,71 Decimal
58,26 UBD
Gráf ico-1
90,00
80,00
V7: Métrico
67,34
70,00
60,00
55,45
50,00
41,34
40,00
24,21
30,00
24,75
20,00
V9: No-Métrico
10,00
0,96
0,00
5
Cuadro-2
(V10)
n=5
n=10
n=15
Error medio
(int. a P<0,05)
Error mínimo
*
*
*
*
*
*
*
*
*
*
*
*
21,20
(15,58 - 26,82)
57,00
(53,68 - 60,32)
70,64
(68,14 - 73,14)
10
15
Error máximo
19,87 D. Normal
19,18 D. Alta
18,95 Entero
9,55 NBD
54,88 D. Uniforme
56,35 D. Alta
55,26 Decimal
51,17 UAD
68,77 D. Normal
69,45 D. Alta
68,75 Entero
63,93 NBE
*
*
*
*
*
*
*
*
*
*
*
*
22,53
23,22
23,45
32,53
59,12
57,65
58,74
67,27
72,52
71,84
72,54
78,16
D. Uniforme
D. Baja
Decimal
NBE
D. Normal
D. Baja
Entero
NAE
D. Uniforme
D. Baja
Decimal
UBD
100,00
90,00
Gráf ico-2
80,00
V10: No-Métrico
interpretación lineal
70,00
70,64
57,00
60,00
50,00
41,34
40,00
21,20
30,00
24,75
20,00
V9: No-Métrico
interpretación monotónica
10,00
0,96
0,00
5
Cuadro-3
(V10-V7)
n=5
Error medio
(int. a P<0,05)
-3,01
(-7,55 a 1,53)
n=10
1,56
(-0,85 a 3,97)
n=15
3,30
(1,58 a 5,02)
Error mínimo
*
*
*
*
*
*
*
*
*
*
*
*
10
15
Error máximo
-9,38 D. Normal
-9,19 D. Baja
-5,28 Entero
-25,17 NBE
0,70 D. Uniforme
-1,85 D. Baja
0,89 Entero
-4,66 UBE
1,05 D. Normal
1,70 D. Baja
1,55 Entero
-5,54 NBE
*
*
*
*
*
*
*
*
*
*
*
*
3,36 D. Uniforme
3,18 D. Alta
-0,74 Decimal
7,01 UAD
2,41 D. Normal
4,.97 D. Alta
2,22 Decimal
7,61 NAD
5,55 D. Uniforme
4,90 D. Alta
5,05 Decimal
6,80 UAD
70,64
Gráf ico-3
70,00
67,34
60,00
57,00
50,00
55,45
40,00
V7: Interpretación lineal
Métrico
30,00
24,21
20,00
V10: Interpretación lineal
No-Métrico
21,20
10,00
5
10
Cuadro-4 Total D-1 D-2 D-3 D-4 D-5 D-6 NBE NBD NAE NAD UBE UBD UAE UAD
V7
V9
V10
3
9
4
2
9
4
4
9
4
D-1: Distribución normal
D-4: Dispersión alta
10
3
5
8
4
2
11
3
4
8
4
3
38
6
D-2: Distribución uniforme
D-5: Precisión entera
4
8
4
5
8
5
3
15
3
4
7
3
6
9
5
5
8
3
D-3: Dispersión baja
D-6: Precisión decimal
15
Descargar