Escalas multidimensionales métricas 1. Introducción Como hemos indicado en la introducción, el análisis de escalamiento multidimensional es una técnica multivariante que permite analizar la proximidad entre elementos desde un punto de vista gráfico, ya que sitúa los elementos objeto de análisis en unas dimensiones determinadas. El análisis se vuelve más complejo a medida que tenemos más elementos y a medida que queremos trabajar con más dimensiones. En este sentido, aunque en muchas ocasiones es la teoría previa la que nos determina en cuántas dimensiones se deben situar los elementos, lo más habitual será trabajar en dos dimensiones, de modo que de manera sencilla podamos tener una representación gráfica fácil de interpretar. Comenzaremos por explicar el caso más sencillo para ver cómo se debería plantear el caso más general. 2. El caso de dos elementos y dos dimensiones Para empezar, pondremos un ejemplo. Imaginad que se hace una encuesta entre usuarios de Internet que se han bajado las últimas versiones de los navegadores de Microsoft y de Netscape sobre el parecido en la usabilidad de éstos. Supongamos que en dicha encuesta se realiza la pregunta siguiente: Pregunta: ¿Crees que las últimas versiones de navegadores de Microsoft y de Netscape tienen una usabilidad parecida? (marca con una X tu respuesta) Muy parecido 0 Muy diferente 1 2 3 4 5 Del resultado de la encuesta se desprende que la media de las respuestas obtenidas revela que los usuarios de ambos navegadores valoran con un 2,8 la diferencia de usabilidad. 2 Escalas multidimensionales métricas Si ahora queremos mostrar gráficamente esta diferencia, antes de nada deberemos decidir en qué dimensiones trabajaremos (es decir, con cuántas dimensiones queremos clasificar los elementos que estamos estudiando). Habitualmente, para simplificar el análisis, trabajaremos en dos dimensiones. En el contexto del ejemplo con el que estamos trabajando se trataría de buscar dos puntos X = ( x1 , x2 ) e Y = ( y1 , y2 ), para el navegador de Microsoft y para el de Netscape, respectivamente, de forma que estuvieran a una distancia de 2,8. Matemáticamente estaríamos buscando dos puntos, X e Y, tales que: (x1 – y1)2 + (x2 – y2)2 = 2,82. Observad que tenemos cuatro incógnitas por determinar, y sólo una ecuación. Para simplificar todavía más el estudio, podemos fijar, sin pérdida de generalidad, que el navegador de Netscape se sitúa en el origen de los ejes de coordenadas. Es decir, Y = ( y1 , y2 ) = (0 , 0). Teniendo en cuenta esta última simplificación, podemos escribir la ecuación de la manera siguiente: (x1 – 0)2 + (x2 – 0)2 = 2,82 De esta manera tenemos que se puede representar el resultado de la encuesta como una circunferencia de radio 2,8 y de centro el origen, en la que situamos el navegador de Netscape en el origen y el de Microsoft en cualquier punto encima de la circunferencia. 3 Escalas multidimensionales métricas X, Microsoft 2,8 Y, Netscape Llegados a este punto, podríamos plantearnos el siguiente problema: ¿y si en lugar de comparar sólo dos navegadores comparásemos tres, añadiendo a la comparativa, por ejemplo, el navegador Opera? ¿Cómo usaríamos el análisis de escalamiento multidimensional para ver de forma gráfica los resultados de una encuesta sobre usabilidad? En primer lugar deberíamos modificar la pregunta del cuestionario: Pregunta: ¿Crees que las últimas versiones de navegadores de Microsoft, Netscape y Opera tienen una usabilidad parecida? (marca con una X tu respuesta) Muy parecido Microsoft vs. Netscape Netscape vs. Opera Opera vs. Microsoft 0 0 0 Muy diferente 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 En este caso supongamos que del resultado de la encuesta podemos escribir la siguiente matriz de diferencias o disimilitudes entre navegadores: Microsoft Netscape Microsoft 0 2,8 Netscape 2,8 0 Opera 3,4 1,3 4 Opera 3,4 Escalas multidimensionales métricas 1,3 0 Generalizando lo que hemos hecho para el caso de dos navegadores, tenemos que buscar tres puntos, X, Y y Z, uno asociado a Microsoft, el otro a Netscape y el otro a Opera, de forma que la distancia entre cada uno de ellos se corresponda a lo que nos indica la matriz de disimilitudes. Si continuamos trabajando en dos dimensiones, el problema que se nos plantea es el siguiente: Debemos encontrar tres puntos X = ( x1 , x2 ), Y = ( y1 , y2 ), y Z = ( z1 , z2 ), de forma que se cumplan las igualdades siguientes: (x1 – y1)2 + (x2 – y2)2 = 2,82 (x1 – z1)2 + (x2 – z2)2 = 3,42 (y1 – z1)2 + (y2 – z2)2 = 1,32 Como en el caso anterior, podemos suponer, sin pérdida de generalidad, que uno de los navegadores se sitúa en el origen de los ejes de coordenadas. Por coherencia con lo que hemos trabajado anteriormente, volvemos a fijar el navegador de Netscape al origen. Por tanto, las condiciones quedan escritas de la manera siguiente: (x1 – 0)2 + (x2 – 0)2 = 2,82 (x1 – z1)2 + (x2 – z2)2 = 3,42 (0 – z1)2 + (0 – z2)2 = 1,32 Ahora lo tenemos un poco más complicado para realizar la representación gráfica de los resultados. De todos modos, a partir de la primera y de la tercera ecuación podemos ver que el navegador de Microsoft y el de Opera se situarán en algún punto encima de una circunferencia de radio 2,8 y de radio 1,3 respectivamente. 5 1,3 Escalas multidimensionales métricas 2,8 Y, Netscape Sin pérdida de generalidad, situamos en el punto X = (0, 2,8) el navegador de Microsoft. Ahora sólo nos queda situar el navegador de Opera a partir de la condición siguiente: (0 – z1)2 + (2,8 – z2)2 = 3,42 Esta segunda ecuación es la que nos acabará de determinar el lugar donde se puede situar el tercer navegador. Por tanto, el navegador de Opera se encontrará situado en la intersección de una circunferencia de centro el origen y radio 1,8, y una circunferencia de origen (0, 2,8) y de radio 3,4. Así, según los valores obtenidos en la matriz de distancias, se puede dar la situación de que esta intersección exista o de que no. Si no existe, deberemos seguir un proceso diferente y más complejo (que trataremos en el apartado 3) para situar los elementos objeto de estudio en las dimensiones preestablecidas. Veamos qué sucede en nuestro ejemplo de forma gráfica: 6 3,4 Escalas multidimensionales métricas X, Microsoft Y, Netscape Z, Opera Observamos que hay dos intersecciones entre las circunferencias. Ahora, situando el tercer navegador en una de las dos intersecciones, ya tendremos la representación gráfica de los resultados de la encuesta. ¿Qué hubiera pasado en el caso de que las dos circunferencias no hubiesen tenido ningún punto en común? ¿Qué pasaría si además aumentamos el número de elementos sometidos a estudio? La respuesta es que el proceso que hemos seguido hasta ahora no nos habría resultado útil. En estos casos deberíamos usar un procedimiento más general, del que daremos algunos detalles en el apartado siguiente. En la práctica, con el proceso que acabamos de describir encontraremos siempre solución si se cumple que la mayor disimilitud se encuentra entre el valor de la menor y el valor que resulta de sumar la menor a la disimilitud que está en medio. En nuestro caso: 1,3 ≤ 3,4 ≤ 2,8 + 1,3 3. El caso general 7 Escalas multidimensionales métricas En los casos anteriores confundíamos, voluntariamente, la idea de disimilitud y la idea de distancia. Precisamente el hecho de distinguir estos dos conceptos nos ayudará, en el caso más general, a definir un procedimiento que nos permita tener una solución para todos los casos. Si tenemos m elementos y queremos trabajar con n dimensiones, se trata de buscar m vectores X1, X2,..., Xm con n componentes de forma que se cumplan las condiciones siguientes: 1. Si la disimilitud entre el elemento i y j, que denotaremos con Dij, es menor que la disimilitud entre el elemento k y l, entonces la distancia entre el vector Xi y el vector Xj, que denotaremos con dij, dij = (X − X j ) ⋅ (X i − X j ) ' i también debe ser menor que la distancia entre el vector Xk y el vector Xl. Es decir, para cualesquiera elementos i, j, k y l hay que cumplir la condición de monotonía siguiente: Dij < Dkl ↔ dij < dkl 2. La diferencia entre disimilitudes y distancias debe ser mínima. Es decir, se deben encontrar puntos Xt, de forma que la siguiente expresión debe ser mínima: ∑ (D i< j ij − d ij ) 2 Del mismo modo, el valor de esta expresión nos dará una idea de si las distancias (y por tanto los puntos) respetan o no la configuración que nos venía dada por la matriz de disimilitudes. Valores pequeños de la expresión nos indicarán que tenemos configuraciones parecidas, y valores grandes dirán que las configuraciones son diferentes. Para relativizar la idea de “grande” y “pequeño”, se suele utilizar de forma más habitual la siguiente expresión, que llamaremos stress y que está siempre situado entre 0 y 1: stress = ∑ (D i< j ij − d ij ) 2 ∑D i< j 2 ij 8 Escalas multidimensionales métricas El proceso para encontrar los puntos que cumplan las condiciones anteriores y que, posteriormente, nos ayuden a situar gráficamente los diferentes elementos, es bastante complicado. Habitualmente se necesita de la ayuda de algún paquete estadístico que permita encontrarlos. Sin embargo, en este curso nos quedaremos con la idea de cómo se puede resolver gráficamente el problema para los casos más sencillos y con la formulación del problema para el caso más general.