VII Conferencia Española de Biometría Palma de Mallorca, 10-12 de Marzo de 1999 Revisado en abril de 2012 MDS métrico y no-métrico con datos de proximidad: Intervalos de error en la interpretación de los resultados. Gonzalo Adán Micó. Doctor en Psicología 1.- Introducción El término escalamiento multidimensional se refiere a una familia de métodos de análisis de datos los cuales tienen como objetivo final representar un conjunto de estímulos 1 relacionados en un espacio de baja dimensionalidad (habitualmente dos o tres dimensiones). Conceptualmente se trata de transformar la medida de relación entre ellos en una medida de distancia euclídea. En términos generales, si esta transformación se realiza asumiendo una relación lineal – proporcional - entre proximidades y distancias, deberá utilizarse el procedimiento métrico (Torgerson, 1938). En cambio, si somos menos restrictivos y asumimos una relación solo monotónica entre ambas, deberá utilizarse el no-métrico (Shepard-Kruskal, 1962). Es un hecho que la mayoría de los trabajos utiliza el procedimiento no-métrico, pues al ser menos exigente proporciona menor error en la transformación. No obstante tiene una limitación, y es que la interpretación monotónica que debe hacerse en la configuración es menos intuitiva y por lo tanto más compleja que la lineal del procedimiento métrico. En este sentido nos planteamos las siguientes cuestiones: 1.- Comparando ambos procedimientos con sus restricciones específicas ¿ Realmente tiene menor error el procedimiento no-métrico ?. 2.- Si escogemos el procedimiento no-métrico... ¿ Qué error cometemos si la interpretación de la configuración es lineal en vez de monotónica?. 3.- Ante una interpretación lineal... ¿ Cuál es el procedimiento de menor error? Nuestro trabajo está centrado en responder dichas cuestiones, aunque limitado a los datos que presentan las siguientes características: dos vías (rango dos), un modo (filas y columnas son los mismos estímulos) y medida de proximidad es desemejanza (es decir, a mayor magnitud, mayor desemejanza). El algoritmo de resolución ha sido ALSCAL, (Takane, Young y Leeuw, 1977) implementado en SPSS. 2.- Método a) Muestra 1 Traducción literal del inglés “stimulus”, que, en literatura de MDS, se refiere a objetos, eventos, sujetos, atributos, categorías, cualidades, etc. En general, todo aquello que puede ser represenatdo mediante un punto en el espacio euclídeo. Con el fin de comparar los errores de transformación2 de ambos procedimientos, generamos un total de 120 matrices aleatorias mediante SPSS. Para que éstas representaran de la mejor manera todos los posibles formatos de datos, se escogieron como opciones las siguientes: 1) Rango 1-10 en las medidas de proximidad, 2) Distribución normal y uniforme, 3) Dispersión alta (SD=2) y baja (SD=0,5) 4) Precisión de la medida alta (dos decimales) y baja (sin decimales) y 5) Tamaños de matriz 5x5, 10x10 y 15x15. En resumen, 5 matrices aleatorias distintas para cada una de las 24 posibles combinaciones (3 tamaños x 2 distribuciones x 2 dispersiones x 2 precisiones). b) Variables y procedimiento Para cada una de las 120 matrices se procedió de la siguiente manera 34: 1.- Aplicación de MDS métrico a dicha matriz: a) Extracción de las disparidades (d), b) Extracción de coordenadas y transformación a distancias (D), c) Cálculo de R 2 P-d (V1) y comprobación de que V1=100, d) Cálculo de R2 d-D (V2) y e) Cálculo de R2 P-D (V3) y comprobación de que V3=V2 2.- Aplicación de MDS no-métrico a la misma matriz: a) Extracción de las disparidades (d), b) Extracción de coordenadas y transformación a distancias (D), c) Cálculo de R 2 P-d (V4), d) Cálculo de R2 d-D (V5), e) Cálculo de R2 P-D (V6). 3.- Cálculo de los criterios V7 a V10 según: V7=1-V2, V8=1-V4, V9=1-V5, V10=1-V6 3.- Resultados 3.1.- En términos generales... ¿ Procedimiento métrico o procedimiento no-métrico? El gráfico-1 compara los errores medios y su intervalo de confianza al 95% de los procedimientos métrico (V7) y no-métrico (V9). El cuadro-1 describe los errores máximo y mínimo para el caso no métrico. Como respuesta a la cuestión planteada puede afirmarse, dentro de los límites expuestos con anterioridad, que el procedimiento no-métrico proporciona menor error (mejor ajuste) que el procedimiento métrico, al menos entre los límites de 5 a 15 estímulos. En relación al procedimiento no-métrico puede asimismo afirmarse: 1.- El error se incrementa logarítmicamente conforme aumenta el tamaño de la matriz. 2.- Para el caso en que no se conozcan o no puedan escogerse ciertas características de los datos, los intervalos de confianza con P<0,05 no recomiendan el empleo de MDS no-métrico con un número de estímulos superior a 10, dado que el error esperado superaría el 20%. 3.- Para el caso en que se conozcan o puedan escogerse algunas características de los datos, se reducen los errores con distribución normal, baja dispersión o precisión entera. Caso de combinarse las tres posibilidades5 (NBE) los errores serían menores del 6%. 2 2 2 Los errores son medidos mediante el cálculo de 1-R , siendo R la varianza explicada en la transformación P=proximidades, d=disparidades, D=Distancias 4 V1-V10 es la notación de las variables 5 Se utiliza la nomenclatura siguiente: primera letra: N=Distribución normal, U=Distribución uniforme, segunda letra: B=Dispersión baja, A=Dispersión alta y tercera letra: E=Precisión entera y D=Precisión decimal. 3 3.2.- Dado el procedimiento no-métrico... ¿ Que error cometemos si la interpretación es de intuición lineal en vez de monotónica ? El gráfico-2 compara los errores cometidos en el procedimiento no-métrico cuando la interpretación es monotónica (V9) y cuando la interpretación es lineal (V10). El cuadro-2 describe los errores máximo y mínimo para el caso de interpretación lineal. Como respuesta a la cuestión planteada puede afirmarse en relación a la cuestión planteada: Utilizando el procedimiento configuración se interpretan respecto del error cometido monotónica conocida, menos no-métrico, el error cometido cuando las distancias de la intuyendo una relación lineal con las proximidades, es mayor cuando esta interpretación se realiza intuyendo una relación en tamaños que oscilen entre 5 y 15 estímulos. Asumido este mayor error, puede concretarse respecto a la interpretación lineal lo siguiente: 1.- El error se incrementa en forma logarítmica conforme aumenta el tamaño de la matriz. 2.- Los valores son prácticamente insensibles a las características de los datos, no apreciándose diferencias significativas en relación a ninguna de las variables moduladoras estudiadas cuando estas se estudian de forma independiente. Con P<0,05, no parece recomendable utilizar esta interpretación con un número de estímulos superior a 5, dado que el error superaría, aproximadamente, el 20%. 3.- Cuando las variables moduladoras se estudian de manera dependiente su efecto parece más considerable, y se observarsa una variabilidad mayor en los errores esperados. Aunque este efecto no es el mismo para todos los tamaños de la matriz, destaca como menor error 9,55% para cuando se combinan NBD para n=5. 3.3.- Dada la interpretación lineal en vez de monotónica ..... ¿ Procedimiento métrico o procedimiento no-métrico? El gráfico-3 compara los errores cometidos por el procedimiento métrico (V7) y el no-métrico (V10) cuando la interpretación en ambos es lineal. El cuadro-3 describe la diferencia entre dichos errores. Se observa que el error cometido por el procedimiento métrico es, en relación al cometido por el no-métrico, aparentemente mayor para n=5, igual para n=10 y menor para n=15. No obstante, realizada la prueba t para dichas diferencias, ésta dio, respectivamente, los valores t=1,30 (P=0,202), t=1,27 (P=0,212) y t=3,76 (P=0,001), lo que sólo señala como significativa la diferencia para n=15. La respuesta a la cuestión planteada podría quedar formulada en los siguientes términos: Cuando utilicemos una interpretación de las distancias de tipo lineal respecto de las proximidades, el procedimiento no-métrico proporciona menor error que el procedimiento métrico, al menos para tamaños superiores a 12 estímulos. Aunque en tamaños inferiores este efecto tiende a invertirse, no puede ello afirmarse con una precisión igual o mayor del 95%. Esta afirmación puede matizarse en algunos aspectos: 1.- A partir de n=10, cuando comienza a ser más eficaz el procedimiento no-métrico, las diferencias explicadas por las variables moduladoras disminuyen y tienden a ser nulas. 2.- En cambio, para valores de n inferiores, las diferencias observadas en las variables moduladoras aumentan en relación inversa con el tamaño. Para n=5 la mayor diferencia entre los procedimientos (a favor del métrico) se da con distribución normal, valores enteros o baja dispersión. Para ésta última característica, el procedimiento métrico es incluso mejor que el nométrico para n=10 y n=15. 3.- Cuando las variables se estudian de manera dependiente su efecto queda aún más discriminado, observándose que con las combinaciones NBE, NBD y UBD es preferible el procedimiento métrico en los tres intervalos, quedando el resto de combinaciones como predictoras de mejores ajustes en el procedimiento no-métrico. 4.- Conclusiones La conclusión al trabajo, verdadera utilidad del mismo, respondería a una cuarta cuestión extraída de los resultados anteriores Dadas las tres opciones propuestas para aplicar e interpretar el MDS con datos de proximidad... ¿ Cuál es el número máximo de estímulos que pueden representarse con un error igual o menor que el 20% 6. El cuadro siguiente responde dicha cuestión. en un amplio rango de posibilidades. a) No se conocen las características de los datos (fila “Total”), b) Se conoce sólo una de las características (D-1 a D-6) y c) Se conocen las tres características (resto de la tabla según la nomenclatura citada en la llamada 5). 5.- Bibliografía - Alba, R.D., (1975), “ Comment on mathematical models in sociometry”, Sociological methods and research, 3. - Arce, C. (1993), “ Escalamiento Multidimensional. Una técnica multivariante para el análisis de datos de proximidad y preferencia”. Barcelona. PPU. - Bogardus, E.S., (1993), “ A social distance scale”, Sociology and Social Research, 17. - Coombs, C.H., (1964), “ A theory of data”. Nueva York: Wiley - Cox, T., and Cox, M., (1994), “ Multidimensional Scalling”, Monogrphs on Statics and Aplied Probability. Nº 50. , Chapman & Hall. - Davison, M. (1992), “ Multidimensional Scaling”. John Wiley & Sons. - Doise, W., Clemence, A., and Lorenzi-Cioldi, F., (1993), “ The quantitative analysisi of social representations”. European Monographs in Social Psycology. University of Kent at Canterbury. - León, I., Díaz Jm.; Marrero H. (1990), “ El Escalamiento Multidimensional: Una alternativa a la metodología tradicional en el estudio de las estrategias de poder”. Barcelona : Actas del II Congreso Nacional de Psicología Social. PPU. - Moreno, J.L., (1934), “ Who shall survive?” Trad. Castellano, 1972, Fundamentos de la sociometría. Buenos Aires. Paidos. - Takane, Y., Young, F., y de Leeuw, J. (1977), " Nonmetric individual differences multidimensional scaling: An alternating least-squares method with optimal scaling features”. Psychometrika, 42 - Young, F., and Hammer, R., (1987), “ Multidimensional Scaling: history, theory and applications”, London: LEA. 6 Entendiendo éstas como: 1) V7, Procedimiento métrico (interpretación lineal), 2) V9, Procedimiento nométrico (interpretación monotónica) y 3) V10, Procedimiento no-métrico (interpretación lineal). Cuadro-1 (V9) n=5 n=10 n=15 Error medio (int. a P<0,05) 0.96 (0 - 2,09) 24.75 (20,51 - 28,99) 41.34 (35,61 - 47,07) Error mínimo * * * * * * * * * * * * Error máximo 0,06 D. Normal 0,73 D. Baja 0,02 Entero 0,00 NBE 24,68 D. Normal 18,80 D. Baja 17,41 Entero 2,35 NBE 38,95 D. Normal 35,07 D. Baja 27,97 Entero 5,93 NBE * * * * * * * * * * * * 100,00 1,85 D. Uniforme 1,18 D. Alta 1,89 Decimal 4,48 UAD 24,82 D. Uniforme 30,69 D. Alta 32,09 Decimal 33,38 UBD 43,72 D. Uniforme 47,60 D. Alta 54,71 Decimal 58,26 UBD Gráf ico-1 90,00 80,00 V7: Métrico 67,34 70,00 60,00 55,45 50,00 41,34 40,00 24,21 30,00 24,75 20,00 V9: No-Métrico 10,00 0,96 0,00 5 Cuadro-2 (V10) n=5 n=10 n=15 Error medio (int. a P<0,05) Error mínimo * * * * * * * * * * * * 21,20 (15,58 - 26,82) 57,00 (53,68 - 60,32) 70,64 (68,14 - 73,14) 10 15 Error máximo 19,87 D. Normal 19,18 D. Alta 18,95 Entero 9,55 NBD 54,88 D. Uniforme 56,35 D. Alta 55,26 Decimal 51,17 UAD 68,77 D. Normal 69,45 D. Alta 68,75 Entero 63,93 NBE * * * * * * * * * * * * 22,53 23,22 23,45 32,53 59,12 57,65 58,74 67,27 72,52 71,84 72,54 78,16 D. Uniforme D. Baja Decimal NBE D. Normal D. Baja Entero NAE D. Uniforme D. Baja Decimal UBD 100,00 90,00 Gráf ico-2 80,00 V10: No-Métrico interpretación lineal 70,00 70,64 57,00 60,00 50,00 41,34 40,00 21,20 30,00 24,75 20,00 V9: No-Métrico interpretación monotónica 10,00 0,96 0,00 5 Cuadro-3 (V10-V7) n=5 Error medio (int. a P<0,05) -3,01 (-7,55 a 1,53) n=10 1,56 (-0,85 a 3,97) n=15 3,30 (1,58 a 5,02) Error mínimo * * * * * * * * * * * * 10 15 Error máximo -9,38 D. Normal -9,19 D. Baja -5,28 Entero -25,17 NBE 0,70 D. Uniforme -1,85 D. Baja 0,89 Entero -4,66 UBE 1,05 D. Normal 1,70 D. Baja 1,55 Entero -5,54 NBE * * * * * * * * * * * * 3,36 D. Uniforme 3,18 D. Alta -0,74 Decimal 7,01 UAD 2,41 D. Normal 4,.97 D. Alta 2,22 Decimal 7,61 NAD 5,55 D. Uniforme 4,90 D. Alta 5,05 Decimal 6,80 UAD 70,64 Gráf ico-3 70,00 67,34 60,00 57,00 50,00 55,45 40,00 V7: Interpretación lineal Métrico 30,00 24,21 20,00 V10: Interpretación lineal No-Métrico 21,20 10,00 5 10 Cuadro-4 Total D-1 D-2 D-3 D-4 D-5 D-6 NBE NBD NAE NAD UBE UBD UAE UAD V7 V9 V10 3 9 4 2 9 4 4 9 4 D-1: Distribución normal D-4: Dispersión alta 10 3 5 8 4 2 11 3 4 8 4 3 38 6 D-2: Distribución uniforme D-5: Precisión entera 4 8 4 5 8 5 3 15 3 4 7 3 6 9 5 5 8 3 D-3: Dispersión baja D-6: Precisión decimal 15