Tema 2. Modelos de Recuperación de Información 0.- Introducción La diferencia fundamental entre los distintos modelos de recuperación de información existentes se basa en la forma en que el concepto de relevancia se define e implementa en ellos. Es necesario establecer de antemano las premisas que debe cumplir un documento para ser relevante para una consulta dada. Distintos conjuntos de premisas nos proporcionan distintos modelos de Recuperación de Información. Además, como ya habíamos adelantado, también existe una diferenciación entorno a la forma en que los distintos modelos de Recuperación de Información plantean la extracción de los elementos semánticos y sintácticos que contribuirán a representar las necesidades del usuario y los documentos. 1.- Taxonomía de Modelos de Recuperación de Información. Nos basaremos en la taxonomía expuesta por Baeza Yates en Modern Information Retrieval, y que se puede resumir en la figura tomada de la misma fuente: 1.1.- En torno a la tarea del usuario. Existe una primera división, que es la que viene dada por el tipo de tarea que realiza el usuario. Por una parte tendríamos tareas de recuperación de información propiamente dichas, y por otra las tareas de navegación. Respecto a la navegación, no entraremos en grandes detalles acerca de ella. Se reconocen tres modelos principales, de navegación plana, de navegación guiada y de hipertexto, que son de sobra conocidos y en cualquier caso no están en el núcleo de las técnicas de recuperación de información, aunque se pueden utilizar para mejorar la interpretación de los resultados, o incluso para mejorar la representación de los documentos y las relaciones existentes entre ellos. Antes de entrar en profundidades en la descripción de los distintos modelos, es necesario decir que existen dos tipos de tareas de usuario que entran dentro del ámbito de la recuperación de información, que son la recuperación ad-hoc y el filtrado de documentos. La recuperación ad-hoc es la forma más estandarizada de recuperación de información, en la que los documentos de la colección permanecen más o menos estáticos a lo largo del tiempo mientras que las consultas varían continuamente. La recuperación mediante filtrado se basa en la idea de que las consultas permanecen más o menos estáticas a lo largo del tiempo mientras que los documentos cambian continuamente. Por lo general se construye un perfil de usuario que recoge las preferencias del mismo, es decir, una consulta tipo, y se lanzan los documentos nuevos contra esta consulta a medida que van llegando. Es posible que los nuevos documentos se ordenen según un ranking de relevancia, con lo que estaríamos hablando de routing o enrutamiento de información. Un ámbito muy común es la selección de noticias, aunque la identificación de correo basura o la selección documental pueden ser también escenarios aceptables. Independientemente de la tarea que lleve a cabo el usuario estaremos hablando de la aplicación de los modelos clásicos y sus derivados, por lo que lo que sigue es aplicable a ambos casos. 1.2.- En torno a las bases teóricas de los modelos. Dentro de los modelos propios de las tareas de recuperación de información, podemos hablar de una segunda división. En primer lugar tendríamos los modelos clásicos y sus derivados, que se basan en su referencia al contexto temático expresado a partir de términos de indización. En segundo lugar, tendríamos otros modelos que se basan en la estructura del texto, son los modelos estructurados, como el de listas no-solapadas y el de nodos proximales. No entraremos en más detalles sobre ellos, y nos centraremos sobre los modelos clásicos y sus derivados. Podemos hacer una diferenciación básica entre los modelos clásicos y los modelos denominados alternativos. Los modelos clásicos han evolucionado hacia variaciones más complejas y refinadas que intentan solucionar algunas de las debilidades detectadas en los modelos tradicionales. Sin embargo, en general se puede decir que los primeros son todavía plenamente vigentes en muchos aspectos, sea por su simplicidad o por la calidad de sus resultados. Existen tres modelos clásicos en Recuperación de Información. En el modelo Booleano los documentos y las consultas se representan como conjuntos de términos de indización. Por este motivo se suele decir que el modelo booleano está basado en la teoría de conjuntos. En el modelo vectorial, o de espacio vectorial los documentos y las consultas se representan como vectores en un espacio de t dimensiones, o tdimensional. Se dice de este modelo que es algebraico, dado que el trabajo con vectores es propio de esta disciplina. En el modelo probabilístico las representaciones de documentos y consultas se basan en la teoría de la probabilidad. Se suele decir que este modelo es probabilístico. A lo largo de los años se han propuesto paradigmas de modelización alternativos a los clásicos, que sin salir de las tres ramas principales ya enunciadas, la de teoría de conjuntos, la algebraica y la probabilística, suponen innovaciones importantes con respecto a los referentes tradicionales. Para la rama de teoría de conjuntos se han propuesto dos modelos alternativos, el de teoría de conjuntos difusa y el modelo Booleano extendido. En este caso en concreto se puede decir sin temor a dudas que las alternativas más modernas han desbancado al modelo Booleano tradicional. Para la rama algebraica se han propuesto y desarrollado tres modelos alternativos, el modelo generalizado de espacio vectorial, el modelo de indización por semántica latente y el modelo de redes neuronales. Por último para la rama probabilística se han desarrollado dos modelos estrechamente relacionados con el clásico modelo probabilístico, que son el de redes de inferencia y el de redes belief. 2.- Modelos basados en teoría de conjuntos 2.1 Modelo Booleano Es un modelo sencillo basado en teoría de conjuntos y álgebra Booleana. Se basa en la utilización de expresiones booleanas (AND, OR, NOT) para la creación de consultas, lo que permite formalizar el conjunto de condiciones que un documento debe satisfacer para considerarse relevante. Proporciona un marco de trabajo fácil de entender para un usuario de un SRI. Al mismo tiempo, desde el punto de vista formal es muy claro y preciso, y por este motivo se ha utilizado con mucha frecuencia en sistemas comerciales. Las consultas se materializan en expresiones booleanas, que tienen una semántica precisa. Cada término de la consulta se identifica con el conjunto de los documentos que contienen dicho término. Después se crean las intersecciones de conjuntos y se seleccionan aquellas que cumplen con las condiciones de la consulta. Por poner un ejemplo, la expresión muebles AND (jardín OR NOT casa), se podría resolver como (1,0,0) OR (1,1,0) OR (1,1,1). Para que un documento se estime relevante debería cumplir alguna de las anteriores condiciones, conteniendo sólo la palabra muebles, o la palabra muebles y jardín, o la palabra muebles, la palabra jardín y la palabra casa. Debido al criterio de decisión binario que se impone, ya que un documento puede cumplir alguna de las condiciones o no cumplir ninguna (1 o 0), los resultados se presentarán necesariamente en forma de un listado no ordenado. En otras palabras, no es posible llevar a cabo un ranking de relevancia de los documentos recuperados. De hecho los SRI basados en el modelo Booleano pueden ser considerados también como sistemas de recuperación de datos, o cuando menos se aproximan mucho a estos. Otro de los problemas de este modelo es que si bien las expresiones booleanas tienen un significado preciso pueden ser complejas de construir. El usuario tiende a crear consultas muy simples, por lo que la mejor ventaja que ofrece este modelo (la utilización de reglas formales muy claras) se deja de utilizar por parte de los usuarios. Por último, a pesar de que la lógica Booleana proporciona una forma elegante y clara de describir consultas existen algunos comportamientos derivados que se oponen al sentido común. Por ejemplo, en la expresión A OR B un documento que contiene ambos términos tiene igual relevancia que otro que contiene sólo uno. Al mismo tiempo, para A AND B un documento que no contiene ningún término tiene la misma relevancia que uno que contiene sólo A. 2.2 Modelos alternativos basados en teoría de conjuntos. Existen básicamente dos alternativas, como ya hemos adelantado, los modelos basados en teoría de conjuntos borrosos, y el modelo Booleano extendido. 2.2.1 Modelos basados en teoría de conjuntos borrosos. El modelo de Conjuntos Borrosos representa los documentos y las consultas como pertenecientes en “cierto grado” a los conjuntos definidos por los términos de indización. De esta manera, la relación entre un documento y una consulta de usuario es borrosa, vaga, o indefinida. Aunque la existencia de un término de indización en un documento no es borrosa, sigue siendo o no pero en términos absolutos, la importancia que dicho término tienen como factor de representación del documento sí lo es. En otras palabras, ``...aunque sepamos con certeza que un documento contiene un término, por ejemplo el término economía, algunos documentos son más económicos que otros. El grado de pertenencia de los documentos a los conjuntos designados por los términos de indización se puede obtener mediante la aplicación de técnicas de indización convencionales como tf-idf. Como resultado de esto un mismo documento pertenece en cierto grado a varios conjuntos de forma simultánea. Sin embargo, esta no es la única innovación, sino que se utilizan además operadores distintos a los tradicionales AND, OR y NOT del modelo booleano. Estos operadores, denominados operadores borrosos, permiten la utilización de consultas estructuradas muy complejas, que se resuelven como rankings en los que los documentos se ordenan decrecientemente según su relevancia. La traducción del los operadores del modelo booleano clásico se parece a esto: Operador Booleano t1 AND t2 t1 OR t2 t1 NOT t2 Fórmula para conjuntos borrosos min(sim(di,t1), sim(di,t2)) max(sim(di,t1), sim(di,t2)) sim(di,t1) * (1 – sim(di,t2)) Sin embargo este modelo no proporciona un conjunto de intuiciones claras que expliquen el funcionamiento de dichos operadores, ni su aplicación a otras necesidades de Recuperación de Información. De hecho este es un modelo que tiene bastante eco entre los investigadores del área de Teoría de Conjuntos Borrosos, pero que no ha tenido un éxito similar entre los investigadores del área de Recuperación de Información. Además no se puede llevar a cabo ninguna tarea de ponderación de las consultas, cosa que si se permite en otros modelos, como el de Espacio Vectorial. Por último, la ordenación de los resultados en un ranking puede producir efectos indeseados. Veamos un ejemplo de esto último: Si utilizamos los 3 documentos sobre decoración ya mencionados, d1 (muebles = 0’8) d2 (muebles = 0’8, jardín = 0’7) d3 (muebles = 0’8, jardín = 0’1, casa = 0’5) y una consulta no demasiado compleja, como Q = q1 (muebles) OR q2 (jardín) y la resolvemos de acuerdo con el procedimiento normal max (sim(di, q1), sim(di, q2)), tenemos que: sim(d1, muebles) = 0,8 y sim(d1, jardín = 0) o sea, sim(Q, d1) = 0,8 sim(d2, muebles) = 0,8 y sim(d2, jardín = 0,7) o sea, sim(Q, d2) = 0,8 sim(d3, muebles) = 0,8 y sim(d3, jardín = 0,1) o sea, sim(Q, d3) = 0,8 Como se puede observar, todos los documentos proporcionan un mismo valor, el valor del término más alto, a pesar de que algunos documentos parecen estar mucho más relacionados con el tema de la consulta. 2.2.1 Modelo booleano extendido. El Modelo Booleano Extendido pretende paliar algunas de las limitaciones más importantes del modelo Booleano clásico. Fundamentalmente la capacidad de utilizar algún tipo de ponderación de términos y generar rankings de la forma habitual en otros modelos de Recuperación de Información. Lo fundamental de este modelo es la utilización de operadores lógicos en conjunción con modelos de representación vectoriales de los documentos. Existe una fuerte influencia del modelo de espacio vectorial que observaremos después, aunque la base sigue siendo la de un modelo basado en teoría de conjuntos. De hecho este modelo se puede considerar a caballo entre los modelos Booleanos y los algebraicos. A pesar de ser el modelo basado en teoría de conjuntos más reputado no ha visto una gran utilización por parte de los investigadores. Esto puede deberse en parte al hecho de que existen dudas acerca de la utilidad de las funcionalidades adicionales que propone. En primer lugar se utilizan técnicas de indización automática para llevar a cabo la ponderación de los términos de los documentos, lo cuál se suele hacer entre 0 y 1. De esta forma, un término altamente representativo para un documento obtendría un valor cercano a 1, y uno con una baja capacidad de representación obtendría un valor cercano a 0 o incluso 0 si no estuviera presente en el documento. Si ponemos como ejemplo un documento sobre muebles de cocina (documento D1) en el que el término cocina tiene un valor 0,2 y el término muebles tiene un valor de 0,8, podríamos representar dicho documento sobre un plano entorno a estas dos variables: Si lanzamos a continuación una consulta, que denominaremos Qa y que tiene este aspecto: cocina AND casa, podemos representarla también en el plano en la confluencia (1,1) de muebles y casa. Evidentemente el documento antes descrito sería recuperado, aunque ahora gracias a la ponderación de los términos que contiene dicho documento podemos graduar la relevancia de dicho documento. Podemos representar el punto que mejor coincide con la consulta Qa de forma similar al documento anterior: Para encontrar la similitud existente entre la consulta Qa y el documento D1 bastará entonces con medir la distancia existente entre los puntos antes representados. Para ello se utiliza la siguiente fórmula: Donde Wk1 representa el peso del primero de los términos de indización de la consulta y Wk2 el peso del segundo. Esta fórmula mide la distancia entre los puntos, de forma que cuanto mayor sea esta menor será la similitud entre consulta y documento, y a la inversa. En el caso de la consulta OR podríamos medir mediante una fórmula similar la distancia entre ambos puntos. Sin embargo en este punto la distancia se mide con respecto al punto que minimiza la similitud entre el documento y la consulta, el punto (0,0). De esta forma, cuanto mayor sea la distancia entre el documento y el punto mencionado mayor será la similitud entre la consulta y el documento a recuperar: De hecho, lo único que hacemos es medir la longitud de la hipotenusa del triángulo que forman los puntos k1, k2 y 0. Dado que lo que intentamos es maximizar la distancia entre la “representación en negativo” de la consulta y el documento, cuanto mayor sea la distancia mayor será el grado de similitud entre Sin embargo no todas las consultas tendrán el mismo número de documentos, por lo que existe la necesidad de normalizar Para resumir, podemos decir que es un modelo interesante dado que engloba a otros modelos, como el modelo de Espacio Vectorial y el Modelo Booleano. Sin embargo tiene como desventajas que es más complejo que cualquiera de los anteriores, lo que supone mayores costes de computación, además de que desde un punto de vista de la lógica no es tan limpio como el modelo booleano, ya que las leyes asociativa y distributiva no se cumplen. Los modelos probabilísticos y los algebraicos han tenido bastante más éxito y son aplicados con asiduidad por un número muy importante de investigadores, motivo por el cual los analizamos a continuación. 3.- Modelos basados el álgebra 3.1 Modelo de Espacio Vectorial El modelo de espacio vectorial fue introducido por Salton y McGill en los años 70. Se trata de un modelo por tanto bastante antiguo, o clásico, como se prefiera. Sin embargo, a diferencia del otro modelo clásico que hemos analizado, el modelo Booleano, este es un modelo que todavía tiene plena aceptación dentro del ámbito de la Recuperación de Información, lo cual no es obstáculo para que se haya intentado refinar y mejorar, como veremos algo más adelante. Reconociendo las debilidades de representar los términos de indización de los documentos entorno a un criterio binario, una de las principales innovaciones de este modelo consistía en el desarrollo de técnicas de ponderación de los términos en los documentos. Partiendo de la posibilidad de valorar la importancia de un término para un documento concreto se pueden desarrollar algunas características muy deseables en un modelo de recuperación de información. La primera de ellas es la de posibilitar la coincidencia parcial entre el documento y la consulta en el proceso de recuperación. Esto sitúa al modelo de espacio vectorial plenamente en el ámbito de la recuperación de información, por contraste con la cercanía de otros modelos anteriores como el Booleao a las características de un modelo de recuperación de datos. Además posibilita la graduación de la relevancia de los documentos con respecto de las consultas. En otras palabras, permite establecer grados de relevancia entre un documento y una consulta concreta. Esto hace posible la elaboración de rankings, algo que es propio de los modelos de recuperación de información modernos. En el modelo de espacio vectorial los documentos se representan a también partir de vectores, de forma similar a esta: Donde n es igual al número total de elementos de representación considerables (sean palabras, n-gramas o raíces), y que se obtendría mediante una adecuada selección de los términos utilizados en la colección durante el proceso de representación de los documentos. Se trabaja entonces con un espacio vectorial n dimensional, de manera que las representaciones de todos los documentos tienen las mismas dimensiones. De esta forma si el primer término de nuestro léxico es “académico” la posición w1j se refiere precisamente “académico”. Por su parte w indica el peso que el término en concreto tiene para el documento j. El peso de un término es una medida de la importancia de dicho término como posible elemento de representación del documento, o dicho de otro modo, una medida de la importancia semántica del término para describir el contenido del documento. Existen múltiples formas de asignar peso a un elemento, pero de entre ellas sin duda la que más éxito ha tenido es la conocida como tf-idf o alguna de las múltiples variantes descritas por Salton. Este tipo de representación permite fundamentalmente un tipo de comparaciones mucho más precisas que las de las representaciones binarias. Estas comparaciones se llevan a cabo a partir del siguiente presupuesto; dos vectores se pueden representar en el hiperplano y medir las diferencias de dirección entre ambos de la misma forma que se haría en un plano bidimensional, es decir, comparando el coseno del ángulo que forman. Pongamos por ejemplo dos vectores bidimensionales: Como podemos observar en siguiente figura existe una desviación importante entre la dirección que toma cada uno de estos vectores. a b Podemos medir esta desviación por el ángulo que forman los vectores, o por una medida proporcional al mismo, el coseno del ángulo que forman dichos vectores. Esta medida nos proporciona una estimación bastante acertada de la similitud o disimilitud de los vectores o lo que es lo mismo, de los documentos que representan. Si representamos un vector con una longitud euclídea de uno sobre un eje de coordenadas, como en la figura siguiente: Tenemos que el coseno del ángulo que forma dicho vector con respecto del eje de las X se puede obtener hallando el cateto más próximo del triángulo rectángulo resultante. En la figura anterior se puede observar cómo el cateto más próximo mide 0,5. En el caso de que la hipotenusa fuera 1, el coseno del ángulo sería equivalente a la longitud de dicho cateto. En el caso de que la hipotenusa fuera diferente de 1 sería necesario normalizar, y diríamos que el coseno = cateto más próximo / hipotenusa. El cateto más próximo normalizado por la hipotenusa, en otras palabras. La ecuación necesaria para medir el coseno en un caso genérico (independientemente de la longitud y dimensiones de los vectores) se expresa como: Esto produce un valor entre 0 y 1, donde 0 indica la perpendicularidad (ortogonalidad) de los vectores, tendríamos dos vectores de dirección completamente distinta, y 1 indica que los vectores tienen idéntica dirección. En nuestro caso esta fórmula nos proporciona un resultado de 0,68. Este mismo sencillo mecanismo se puede aplicar a documentos representados a partir de vectores complejos. Pongamos un ejemplo algo más completo. Partiremos de dos documentos, el primero de los cuales, que denotaremos como da se compone de una frase simple como “La cosecha de fruta ha sido muy buena”. El segundo documento, que designaremos db también se compone de una única frase “El melocotón es una de las frutas más demandadas”. Ambos documentos pertenecen a una colección hipotética D formada por algunos documentos acerca de la agricultura, de la que se extrae un léxico L = (agricultor, cosecha, demanda, fruta, melocotón, precios, sandía). Siguiendo el modelo de espacio vectorial podemos representar ambos documentos como vectores, da = (0, 2.5, 0, 2.7, 0, 0, 0) y db = (0, 0, 1.3, 2.4, 0.8, 0, 0). Cada una de las posiciones representa un elemento del léxico ordenado en sucesión y cada uno de los valores que ocupan dichas posiciones expresan pesos otorgados durante la fase de indización. De esta forma, por ejemplo el segundo de los elementos de da corresponde a “cosecha”, a la que el sistema habría otorgado un peso de 2.5, y el tercero de los elementos a “demanda”, que no aparece en el documento, por lo que recibe una ponderación de 0. Habiendo reducido los documentos a sus representaciones vectoriales, estamos en condiciones de medir la similitud entre ambos vectores mediante la fórmula del coseno, lo que podemos expresar también de la siguiente manera: Esto nos ofrece un coeficiente de similitud de 0,71, lo que indica “bastante” similitud entre los dos vectores, a pesar de las bajas cualidades estadísticas del ejemplo. Lo que acabamos de ilustrar se utiliza en Recuperación de Información para comparar un conjunto de documentos con un una petición al sistema, pero se utiliza además para otras aplicaciones. Una ventaja fundamental de los modelos algebraicos reside en la capacidad de precisar la ponderación de los términos de las consultas, algo que no es propio de otros modelos, como los derivados de la rama de teoría de conjuntos. Esto nos permite establecer comparaciones entre documentos con mucha facilidad, y nos abre un abanico de posibles aplicaciones que hacen muy interesante la utilización de este modelo. El modelo de espacio vectorial presupone la independencia entre los términos, de tal manera que el hecho de que un término a aparezca en conjunción con un término b no ofrece al sistema ningún tipo de información aprovechable. Sin embargo, y dado que sabemos positivamente que esto no es así sino que se trata de un “presupuesto de trabajo”, existen dos modelos alternativos que intentan reflejar estas relaciones semánticas entre los términos de una colección. Ambos surgen de la constatación de esta importante debilidad del modelo de espacio vectorial e intentan paliarla de formas distintas. A pesar de su simplicidad y de la debilidad señalada el modelo de espacio vectorial produce rankings de relevancia de alta calidad, y la mayor parte de los modelos con los que se ha comparado producen rankings de calidad similar o ligeramente superior, aunque son modelos bastante más complejos. 3.2 Modelo Generalizado de Espacio Vectorial Este modelo proporciona una base teórica con la que representar la dependencia entre los términos de la colección. Es un modelo que deriva del clásico propuesto por Salton, y en realidad podemos contemplarlo como una extensión del mismo, ya que los principios en que está basado son muy similares. Fue enunciado por primera vez por Wong en 1985, directamente como un modelo para la recuperación de información con el objeto de resolver algunos de los problemas de representación más importantes del “modelo normal” de espacio vectorial. Se basa en una perspectiva dual de la representación de documentos que tiene como objetivo superar las limitaciones de la comparación superficial de documentos típica hasta el momento. No es un modelo de representación que se haya utilizado con profusión en recuperación de información, lo que posiblemente esté relacionado con el hecho de que la aparición de la Indización por Semántica Latente es ligeramente posterior en el tiempo, siendo el último modelo mucho más eficiente en términos de computación. Un caso bastante frecuente en Recuperación de Información es que un documento y una petición de información no tengan ninguna palabra en común, aunque compartan una similitud importante para un observador humano. Este fenómeno puede suponer la diferencia entre recuperar un documento relevante o no recuperarlo. Se puede deber a diferencias en el léxico que utilizan los autores, a accidentes del lenguaje natural, o simplemente a que los documentos sean tan pequeños que sea difícil equipararlos estadísticamente a pesar de que estén relacionados semánticamente. Pongamos esto en claro mediante un ejemplo. Utilizaremos un léxico compuesto por cuatro términos T = (casa, hogar, perro, mueble) y cuatro documentos como: - d1 = “Si usted tiene un perro como mascota y vive dentro de su hogar puede ahorrarse algunos destrozos haciéndole su propia casa en el jardín” - d2 = “El interés de los españoles en la decoración de sus casas crece año tras año. El incremento en la venta de muebles para el hogar así lo demuestra” - d3 = “Vuelve a casa por navidad” - d4 = “Hogar dulce hogar”. Dado lo reducido de nuestro léxico la indización habrá de ser muy tosca, aunque suficiente para ilustrar el ejemplo. Los cuatro documentos se pueden representar mediante vectores del estilo: d1 = (1,1,1,0) d2 = (1,1,0,1) d3 = (1,0,0,0) d4 = (0,1,0,0) Donde el valor de la posición 1 y referente al término casa tiene un valor de 1, lo cuál simplemente indica la presencia del término en el documento. Hasta aquí no hemos hecho otra cosa que reproducir el modelos de espacio vectorial, pero vamos a proceder a introducir los datos que ya tenemos en una estructura más compleja, en una matriz que designaremos Xd*t, donde el número de columnas corresponde al número de términos aceptados de la colección (t), en este caso los cuatro que contiene el léxico, y el número de filas corresponde al número de documentos de que consta la colección (d), en este caso también cuatro. dt 1,1 (1) dt 1,2 (1) dt 2,1 (1) dt 2,2 (1) dt 3,1 (1) dt 3,2 (0) dt 4,1 (0) dt 4,2 (1) dt 1,3 (1) dt 1,4 (0) dt 2,3 (0) dt 2,4 (1) dt 3,3 (0) dt 3,4 (0) dt 4,3 (0) dt 4,4 (0) En esta matriz podemos llevar a cabo dos lecturas: la primera de ellas de izquierda a derecha, lo que nos proporcionaría un vector que representa un documento como en: que representa el tercero de nuestros documentos “Vuelve a casa por navidad”. La segunda lectura posible se hace de arriba a abajo, y nos proporciona una representación de los términos a través de su utilización en los diversos documentos de la colección: Este vector t1 representa al término casa a través de su distribución sobre los distintos documentos en la colección. Podemos compararlo con el vector correspondiente a otro término y de esta forma medir la similitud entre ambos términos en torno a un criterio de uso. Esto supone que si dos términos se utilizan con la suficiente frecuencia en los mismos contextos se pueden llegar a considerar como semánticamente relacionados. Tradicionalmente las medidas de similitud entre documentos se basan precisamente en coincidencias de términos. Si entre dos documentos no existe ninguna coincidencia no es posible considerarlos como relacionados a pesar de que para un agente humano lo estuvieran. Esta segunda dimensión de representación a través de los términos nos permite elevarnos sobre el nivel superficial de coincidencias y establecer comparaciones entre distintos documentos a pesar de que no existan coincidencias directas de términos. En otras palabras, nos permite profundizar en el nivel conceptual y deshacernos (aunque sea parcialmente) de la superficialidad del nivel léxico. Sin embargo hay que aceptar este hecho con ciertas limitaciones, ya que en ningún caso estaremos en condiciones de apreciar si el motivo de la similitud entre los términos estudiados se debe a que expresan el mismo concepto o por el contrario cada cuál expresa un concepto distinto aunque ambos conceptos están relacionados. Simplemente se nos indica que ambos términos son apropiados para su utilización en los mismos contextos, y que por tanto dos documentos que contuvieran cada uno de ellos uno de estos términos tendrían algún grado de similitud a pesar de que no existiera ninguna coincidencia directa. A pesar de las precauciones mencionadas el tratamiento estadístico de las matrices nos puede proporcionar buenos resultados. Se nos abre además otra dimensión de información que es utilizable para complementar la anterior, y que es computable aplicando los cálculos de similitud propios de la comparación de vectores. Un ejemplo de la utilidad de este tipo de representación es el siguiente: supongamos el escenario anterior (con el léxico y los documentos que ya conocemos). Existen dos casos arquetípicos entre los documentos de ejemplo, los documentos real y aparentemente similares, y los documentos realmente similares aunque aparentemente distintos. Para el primero de los casos contamos con dos documentos evidentemente similares en cuanto a terminología, los representados por d1 = (1,1,1,0) y d2 = (1,1,0,1). Para llevar a cabo una comparación de los documentos según un modelo superficial (que sólo tiene en cuenta la distribución de los términos dentro de los documentos) podemos aplicar la medida del coseno. Esta medida nos ofrece una similitud de 0,66 sobre 1, es decir, son documentos bastante similares. Al mismo tiempo existen otros dos documentos que terminológicamente no están relacionados de forma evidente, d1 = (1,0,0,0) y d1 = (0,1,0,0). Si medimos su similitud utilizando los mismos criterios que antes tenemos que similitud (d3,d4) = 0. Y sin embargo “vuelve a casa por navidad” es con respecto a “hogar dulce hogar” un documento bastante similar en tanto que hace referencia al mismo y hogareño tema principal. Podemos indizar los documentos según el modelo generalizado de espacio vectorial llevando a cabo comparaciones entre los elementos activos de d3 y los elementos no activos de d4 en busca de términos relacionados estrechamente por su uso. Cada uno de estos elementos es en realidad un vector de iguales dimensiones, lo que nos permite compararlo tal que si fueran dos documentos, mediante la medida del coseno. Si efectuamos esta comprobación y desechamos aquellas relaciones de similitud débiles (por ejemplo las similitudes inferiores a 0,5 entre dos términos) podemos utilizar de forma provechosa esta información. Para el caso que nos ocupa “casa” y “hogar” están bastante relacionadas en torno a su uso en los diversos documentos. t1 y t2 los vectores que representan ambas palabras nos muestran que estas aparecen juntas en dos de los tres documentos en que están presentes cada una, por lo que su coeficiente de similitud es de 0,66. Si sustituimos el valor asignado para t1 (casa) en d2 (hasta ahora 0) por el valor de la similitud con el término que se sí se utiliza en d2 (hogar) y hacemos la misma operación con los términos relacionados en el otro vector pero que no se utilizan expresamente obtenemos dos vectores nuevos que reflejan estas interdependencias, d3 = (1, 0.66, 0, 0) y d4 =(0.66, 1, 0, 0). La medida de similitud de estos dos vectores es de 0,85, mucho más aproximada al resultado que esperamos obtener. En realidad las comparaciones entre documentos o entre una consulta y un documento se llevan a cabo de forma distinta. Formalizaremos ahora las ideas expuestas con el procedimiento anterior (que no está bien respaldado desde un punto de vista teórico pero sirve para explicar el efecto de este modelo). La similitud entre una consulta y un documento cualquiera de la colección se puede expresar formalmente como el resultado de aplicar la siguiente fórmula: O lo que es lo mismo, la similitud entre el documento d y la consulta q es igual al producto de la matriz transpuesta de la colección (AT) por el vector que representa a d multiplicado a su vez por el producto de la matriz transpuesta de la colección (AT) por el vector que representa a q. La primera parte de la fórmula pone en relación el documento con la información sobre la distribución de las palabras entre los documentos de la colección. La segunda parte hace lo propio con la consulta. Es decir, que en cada cálculo de relevancia de un documento se arrastra y evalúa toda la información de que disponemos sobre la interdependencia de términos por su contexto de utilización. Desde un punto de vista teórico se trata por tanto de un modelo muy sólido, ya que proporciona una buena base sobre la que explotar la interdependencia de los términos y lo hace de una manera formalmente muy elegante. Podemos aplicar esta función de relevancia sobre el ejemplo anterior para explicar el comportamiento de un sistema en estas circunstancias. En primer lugar hay que hacer notar que esta fórmula no incluye ningún elemento de normalización, mientras que la del coseno sí lo hacía. Para evitar que un documento pueda ser más similar a otro documento distinto que a sí mismo (caso que se daría si el vector que representa a ese otro documento tiene mayor longitud y la similitud es grande) es necesario normalizar la longitud de los vectores. En otras palabras, la longitud de todos los vectores que representan a los documentos debe ser la misma. En este caso elegiremos 3 porque nos simplifica los cálculos, aunque lo normal es normalizar a 1. He aquí la colección del ejemplo anterior después de una hipotética normalización: Nótese que el número de veces que aparece cada término en los documentos originales es distinto, pero hacer los cálculos sobre cifras con decimales no ayudaría en la explicación. Hay que tener en cuenta además que A es una matriz de t filas (donde t es el número de términos) por n columnas (siendo n el número de documentos). O sea, que el documento 1 de la colección equivale a la primera columna (1, 1, 1, 0). Necesitamos transponer la matriz para poder aplicar la función de relevancia, con lo que tendríamos AT, donde cada fila representa un documento de la colección, y cada columna la distribución de los términos entre los documentos de la colección. Para hallar la similitud de una consulta con respecto de todos los documentos de la colección será necesario aplicar la función de relevancia ya mencionada sobre todos los documentos de la colección. En todos los casos el resultado de multiplicar la transpuesta por el vector que representa a q (AT * q) será exactamente el mismo. Aquí tenemos la consulta: El resultado de la operación (AT * q) será siempre (3 3 0 9), por lo que esta operación no tiene por qué ser repetida. El resto del proceso consistirá en multiplicar la transpuesta de A por el vector columna que representa a cada documento (AT * d). Recordaremos cómo se hace esto para el primer documento para no extendernos demasiado. La suma de multiplicar cada elemento de la primera fila de la matriz por cada elemento de la columna que representa al documento nos proporciona el primer elemento de una nueva matriz fila: (1*1 + 1*1 + 1*1 + 0*0) = 3 Hacer lo propio con la segunda fila de la matriz transpuesta y la misma columna que representa al documento nos proporciona el segundo elemento de la matriz fila resultante, y lo mismo ocurre con la tercera y cuarta filas. (1*1 + 1*1 + 0*1 + 1*0) = 2 (3*1 + 0*1 + 0*1 + 0*0) = 3 (0*1 + 3*1 + 0*1 + 0*0) = 3 De esta forma obtenemos una nueva matriz de una sola fila con la forma (3 2 3 3). Al multiplicar esta matriz por la obtenida de la consulta por la transpuesta obtenemos un único dato, un coeficiente de similitud entre el documento y la consulta. Este producto lo podemos hacer como si fueran dos vectores, dado que se trata de dos matrices con una única fila. Para el documento primero (d1) la similitud es de 0,42. Para el segundo documento (d2) también es de 0,42. El tercer documento (d3) es bastante poco similar, ya que obtiene sólo un 0,18 y el último (d4) es idéntico, ya que obtiene un 1. Si observamos la consulta (hogar, dulce hogar, cómo me gusta mi hogar) observaremos que es idéntica al documento cuatro, por lo que el último resultado no es de extrañar. La similitud con los documentos 2 y 3 entra dentro de lo esperado. Sin embargo, es curioso observar cómo el documento 3, que no tiene ninguna palabra en común, tiene una similitud de 0,18, siendo que uno trata sobre el hogar y el otro sobre la casa. La idea de encontrar similitudes entre documentos sin necesidad de que se expliciten mediante coincidencias de términos es muy atractiva, pero existen algunas sombras además de luces. Para empezar la complejidad y magnitud de los cálculos necesarios para llevar a cabo comparaciones entre documentos es mucho más elevada que en el caso del modelo clásico de espacio vectorial o cualquiera de los modelos de la rama booleana. Lo que probablemente ha influido más en el hecho de que no se halla instalado en el ámbito de la Recuperación de Información es la aparición algunos años después del modelo de Semántica Latente, basado en las mismas intuiciones que el modelo generalizado aunque más eficiente desde el punto de vista computacional. 3.3 Modelo de Análisis de la Semántica Latente Esta es aproximación que desconfía de la capacidad de representación de documentos en términos de coincidencia de palabras, es decir, que un documento determinado no tiene por qué coincidir con una consulta debido a que puede utilizar un léxico distinto a la misma a pesar de que hubiera sido pertinente que hubiera sido recuperado para la ocasión. Este es un problema que en documentación se ataja mediante la utilización de tesauros u otros lenguajes documentales, aunque esta aproximación es poco viable en grandes entornos como Internet. Las ideas originales de Deerwester (quien introduce el modelo en 1988) han tenido bastante influencia, y han superado con mucho en popularidad a las de Wong por lo que respecta a su aplicación real. El modelo generalizado de espacio vectorial había intentado una aproximación al mismo problema, aunque la representación de los documentos utilizando análisis de la semántica latente supone que la comparación final entre documentos y consultas sea mucho más rápida. En realidad el principio esencial es el mismo, se trata de obtener información distinta a partir de una misma representación básica de las colecciones. En ambos casos se intenta trabajar con conceptos en lugar de con términos, salvo que la forma de aproximarse a los conceptos es diferente. Lo que realmente distingue a las representaciones basadas en Análisis de la Semántica Latente (a partir de ahora LSA) es la condensación de toda la información presente en la estructura de la matriz que representa el conjunto de la colección en una matriz nueva, distinta pero al mismo tiempo esencialmente válida para representar la estructura semántica de la colección en conjunto e individualmente de todos y cada uno de los documentos y términos que la componen. Tenemos por tanto una matriz que nos sirve para establecer comparaciones entre documentos y términos, términos y términos, así como conjuntos de términos y conjuntos de documentos...etc. Es decir, un marco de trabajo extraordinariamente flexible para trabajar con palabras, documentos y sus relaciones, algo en lo que supera tanto al modelo de espacio vectorial tradicional como al generalizado. Esta nueva matriz es al mismo tiempo una matriz mucho más compacta que la original. Esto supone que una vez generada la matriz los procesos de recuperación serán mucho más rápidos. La única desventaja es que el tiempo de creación de la matriz es muy elevado, aunque este proceso solo se debe realizar una vez. Cualquier matriz, como Xi que representa una colección de documentos se puede descomponer en otras tres matrices cuyo producto equivale a la matriz original a través de una técnica denominada Singular Value Descomposition o SVD. Donde T0 representa la distribución de los términos sobre los documentos, D0 la de los documentos sobre los términos y S0 es la matriz diagonal de X con r filas por r columnas, siendo r = al rango de la matriz. En este momento la diagonal ya posee valores representativos tanto de la esfera de representación de los documentos como de la esfera de representación de los términos. Este proceso se completa mediante la elección de una dimensión más reducida de la matriz diagonal, la selección de los valores más representativos de T0 y D0 y la eliminación del resto de los elementos. Un proceso algo complejo pero cuyo resultado es una matriz de dimensiones muy reducidas y alto poder de representación, ya que la matriz contiene los elementos más representativos de la estructura semántica de la colección y al mismo tiempo ha eliminado el ruido procedente de los elementos que ofrecen patrones semánticos más débiles. En realidad la capacidad de discriminación de la importancia de los elementos en torno a su valor como representantes del contenido semántico de los documentos hacen que esta sea una técnica utilizada en el ámbito de la reducción de la dimensionalidad, además de ser una técnica de representación de la colección en sí misma. 3.4 Redes neuronales artificiales El motivo fundamental por el que se utilizan redes neurales artificiales dentro del ámbito de la Recuperación de Información hay que buscarlo en la capacidad de las mismas para reconocer patrones. Wilkinson fue el primero en aplicar esta característica al desarrollo de un modelo de Recuperación de Información basado en redes neuronales artificiales. Existe una importante influencia del modelo de espacio vectorial, ya que se utilizan tanto las medidas de similitud como las formas de representación propias de dicho modelo. Sin embargo existe también un buen número de innovaciones, como veremos a continuación. Los modelos de redes neuronales consisten en una colección de nodos de procesamiento sencillos y las conexiones entre ellos. En cada momento cada nodo tiene un determinado nivel de activación y cada conexión entre nodos tiene un cierto peso de conexión. La idea básica es que los nodos se comunican entre sí enviando señales a los nodos vecinos a través de las conexiones. La fuerza de las señales depende del nivel de activación del nodo que envía la señal, que a su vez depende de la fuerza de las señales que ha recibido y los pesos de las conexiones que lo han hecho posible. En otras palabras, se puede simular el proceso neuronal de una red neuronal biológica, y se puede reproducir la propagación de los estímulos a través de la red, así como los efectos que produce en el estado de los nodos que la forman un momento concreto. Wilkinson propone “... usar un modelo de redes neurales que encapsule las relaciones entre los documentos y los términos que contiene”. Para hacer esto se establecería un nodo para cada documento de la colección, así como un nodo para cada uno de los términos que componen cada documento y un nodo para cada término de la consulta. Existen conexiones entre cada término de la consulta y cada término del documento. La intensidad (peso) de la conexión entre los nodos que representan los términos de los documentos y los documentos dependen del peso asignado durante el proceso de indización. Para cada término de la consulta se crea un nodo y su correspondiente conexión con un nodo término de documento. Cuando se inicie el proceso de activación sólo los nodos que estén conectados a los nodos consulta serán activados, y su valor de activación se derivará de la aplicación de la medida del coseno entre los pesos de las conexiones de los nodos-documento y los nodos-término-dedocumento. Al final del proceso podremos seleccionar los documentos cuyos nodos tengan un valor de activación más alto, pero además podemos utilizar estos nodos para volver a comenzar el proceso y seleccionar nodos-término-de-documento que no estaban presentes en la consulta original. Con esto podemos conseguir recuperar documentos que no contienen el léxico original propuesto en la consulta. Sin embargo las redes neuronales nos proporcionan un marco sobre el que desarrollar aplicaciones en el ámbito de la Recuperación de Información que superan el ámbito de la búsqueda de documentos. Un ejemplo claro de esto es la clasificación automática, descrita por Isasi y Galván, que se puede aplicar a documentos, o incluso a términos, como en el caso de López Pujalte o a sistemas de auto-organización, como los mapas de auto-organización de Kohonen. 4.- Modelos basados en Probabilidad El acercamiento probabilístico a la recuperación de información proporciona una forma diferente de modelar el problema de la recuperación de información, con técnicas diferentes para obtener los pesos de los términos y diferentes formas de pensar acerca del modo en que se determina la relevancia de los documentos. Modelando el problema de la recuperación de información: concepto de relevancia de los documentos En los modelos booleanos y basados en vectores la búsqueda de coincidencias entre una consulta y un documento se hace de acuerdo con principios formalmente establecidos, pero con un cálculo impreciso de los términos de indización (en el caso de los modelos booleanos) y sin una formalización teórica de los motivos por los que se modela el problema de la recuperación de la forma en que se hace (como representaciones de vectores o conjuntos de documentos, por ejemplo. Es decir, que existe un paso muy grande entre el problema real de la recuperación de información y su modelización en estos modelos. Los modelos probabilísticas ofrecen una justificación formal más sólida sobre las decisiones de abstracción que incluyen sus modelos. Por poner un ejemplo, no se asimila directamente la similitud temática de los documentos con el concepto de relevancia, sino que los documentos son relevantes con respecto de la necesidad de información del usuario, y no de su materialización como consulta o con respecto de la representación que el sistema hace de dicha consulta para su procesamiento. De esta manera tenemos que los documentos siempre se consideran en torno a la probabilidad que tienen de ser relevantes con respecto de una determinada necesidad de información, expresada (eso sí) a través de una consulta. De esta manera, no se dice que un documento es relevante en un 50% o que tiene una relevancia de 0,5 sobre 1, sino que tiene un 50% de probabilidades de ser relevante. Este es un cambio sutil, pero tiene bastante importancia, porque da pie a la introducción de estimaciones basadas en juicios empíricos de relevancia llevados a cabo por parte del usuario, quien sí está en condiciones de decidir la relevancia del documento. Incertidumbre en el proceso de recuperación de información Dada una consulta un sistema de recuperación de información tiene una comprensión incierta de la necesidad de información original. E incluso en el caso de que tengamos una representación de la consulta y del documento, el sistema también tiene que adivinar con cierta incertidumbre si el contenido del documento es relevante para la consulta. La idea fundamental de la teoría de la probabilidad es proporcionar principios fundamentados para razonar en un entorno de incertidumbre. Sobre esta idea se basa el hecho de que se parte de estimaciones que se mejoran con el contacto con el usuario, o mediante determinados datos extraídos de forma empírica, pero sin un grado de certeza total sobre los resultados, que siempre pueden mejorar en base a estimaciones más acertadas o más amplias. El principio de ranking probabilístico Asumimos que para un marco de trabajo estándar, con una colección de documentos, el usuario envía una determinada consulta y el sistema devuelve un conjunto de documentos ordenado en forma decreciente con respecto de su relevancia. En un modelo probabilístico la respuesta obvia a este escenario es ordenar los documentos por la probabilidad estimada de su relevancia con respecto de la necesidad de información. O sea, que ordenamos los documentos d por P(R|d,q). Probabilidad de que dado un documento y una consulta, dicho documento sea relevante con respecto de la consulta. Según van Rijsbergen el principio de ranking probabilístico se podría enunciar de la siguiente forma: “Si la respuesta de un sistema de recuperación de información de referencia a cada petición es un ranking de documentos en orden decreciente de probabilidad de relevancia con respecto de la necesidad de información del usuario que emitió la petición, y se estiman las probabilidades del modo más acertado posible sobre la base de los datos que se han puesto a disposición del sistema para este propósito, la efectividad global del sistema con respecto de los usuarios será la mejor posible sobre la base de los datos disponibles. ” En otras palabras, es necesario hacer buenas estimaciones sobre un conjunto de datos lo más amplio y acertado posible para luego poder ordenar los documentos en respuesta de una petición del usuario. Es importante tener en cuenta los datos disponibles. Al final todo se reduce a contar palabras o apreciar su aparición o ausencia en muchas ocasiones, pero en otras también se pueden introducir datos provenientes de otras fuentes, como los juicios del usuario para esta consulta o los juicios de otros usuarios para consultas similares. El principio de ranking de probabilidad dice en la práctica que se debería ordenar todos los documentos por P(R|d,q). En esta situación lo que dice la regla de decisión óptima de Bayes es utilizar un umbral muy simple: d es relevante si P(R|d) > P(NR|d) En otras palabras, d es relevante (R) si la probabilidad de que dado dicho documento éste sea relevante es mayor que la probabilidad de que dado el mismo documento éste no sea relevante (NR). Sin embargo, esto sólo nos da una estimación binaria de la relevancia de un documento, es decir, que P(R|d) > P(NR|d) sólo puede ser verdadero o falso, 0 o 1. Para crear un ranking nosotros necesitaremos una estimación de la probabilidad de que cada documento sea relevante a la consulta. Y esta estimación debería ser una cifra entre 0 y 1, 0 y muchos, o de 0 a 100… Para obtener dicha cifra se utiliza probabilidad relativa, lo que nos hace plantear la probabilidad de relevancia de los documentos en estos términos: P(R|d) = P(R|d) / P(NR|d) o: P(R|d) = P(R|d) / 1- P(R|d) Dado que no tenemos datos sobre la relevancia de los documentos, para hacer la estrategia de recuperación precisa necesitamos estimar cómo los términos en los documentos contribuyen a la relevancia. Con el objeto de transformar el problema para poder tener mejores oportunidades de resolverlo, la expresión anterior (cualquiera de las dos) se puede someter a algunos cambios. Si utilizamos el teorema de Bayes tenemos que podemos convertir P(R|d) en: En este caso tenemos un dato P(d) (probabilidad de elegir ese documento de entre el total de los documentos de la colección) que ya conocemos y otro P(R) (probabilidad de que un documento al azar sea relevante) que debería ser estimable, eso sí con bastante grado de incertidumbre. Nos vamos acercando a una posible solución al problema. Cualquier acercamiento a la solución de dicho problema implicará estimaciones y transformaciones de esta ecuación básica del principio de ranking probabilístico. En general podemos decir que cualquier modelo de recuperación de información probabilístico intenta averiguar los términos de la ecuación anterior utilizando estimaciones y transformaciones de los términos de la misma. En muchas ocasiones nos basaremos en la forma en que los términos que componen un documento contribuyen a su probabilidad de relevancia. Esto puede tomar la forma de estrategias de asignación de pesos a los términos, mediante el recuento de frecuencias. En otras ocasiones se confiará en el usuario o en los datos disponibles de consultas anteriores. La forma concreta en que todo esto se hace da lugar a diferentes modelos de recuperación de información probabilísticos. 4.1 Modelo de Independencia Binaria El modelo probabilístico clásico fue introducido en 1976 por Robertson y Spark Jones. Este modelo también se conoce como modelo de recuperación de independencia binaria o BIR. Se basa en una representación binaria de los documentos, de forma que un documento cualquiera sería representado como un conjunto de unos y ceros que indican la presencia o ausencia de los términos de indización. Al mismo presupone que una vez tenemos dos tipos de documentos, los relevantes y los no relevantes, dentro de cada uno de estos conjuntos todos los atributos son estadísticamente independientes de los otros. En otras palabras, el hecho de que dos términos coocurran en un mismo documento no aporta ninguna información extra. En realidad, tanto la asignación de pesos binarios a los términos de indización como la independencia de estos entre sí son simplificaciones que van en detrimento de la asimilación de estos parámetros de representación con la realidad. En otras palabras, se hacen modelizaciones más útiles que precisas. Sin embargo se reconoce que esta premisa facilita mucho la formalización del modelo y por ende la creación de sistemas de recuperación basados en él. La idea fundamental de este modelo consiste en asumir que “para una determinada consulta de usuario existe un conjunto de documentos que comprende exactamente los documentos relevantes y no otros”. Si pudiéramos describir con certeza las características de este conjunto habríamos solucionado el problema, ya que seríamos capaces de encontrar los documentos relevantes a la consulta. Sin embargo habremos de conformarnos con estimaciones más o menos rigurosas de cuáles son las características a observar. Podemos expresar la función de relevancia que estima el parecido de un documento con una consulta en términos de probabilidad como el resultado de dividir la probabilidad de que un documento sea relevante a la consulta lanzada por el usuario entre la probabilidad de que dicho documento no sea relevante a la consulta. Esto se puede formalizar como: En otras palabras, probabilidad P de que teniendo el documento dj éste sea relevante R entre la probabilidad P de que teniendo el documento dj éste no sea relevante . Para comenzar a esclarecer esta expresión podemos utilizar el teorema de Bayes, con lo que obtendríamos: Donde P(dj | R) es la probabilidad de que se de el documento dj entre el conjunto de documentos relevantes dividido entre P(dj | ¬R), o la probabilidad de que se de dj entre los documentos no relevantes. Uno de los escasos datos objetivos con los que contamos en un principio es la presencia de los diferentes términos en los documentos. Además suponemos que las relaciones derivadas de la presencia de los distintos términos de indización no será tenida en cuenta. Teniendo en cuenta estos dos aspectos podemos expresar el problema sobre la base de los términos de indización: Donde, teniendo en cuenta que el peso de los términos de indización en la consulta wi,q y el peso de los términos de indización en los documentos wi,j sólo puede ser 1 o 0, por lo que en la práctica sólo estamos considerando los términos presentes en la consulta y el documento de forma simultánea. El resto de la expresión formaliza la manera en que estimamos la relevancia de un documento de acuerdo a los términos de indización que lo componen. La clave reside en la adecuada consideración de las expresiones P(ki | R)y P(ki | ¬R). En ambas es el número de términos de que se compone la consulta, ki el término de indización considerado y por tanto P(ki | R) la probabilidad de que el término de indización ki esté presente en un documento elegido de forma aleatoria del subconjunto de documentos relevantes , mientras que P(ki | ¬R) representa la probabilidad de que el término ki no esté presente en un documento elegido del mismo subconjunto. Normalmente P(ki | R) tiene un valor inicial de 0,5 (elegido de forma bastante arbitraria) y P(ki | ¬R)tiene un valor de ni/N, el número de documentos que contienen el término de indización ni entre el número de documentos total de la colección (N). La fórmula anterior nos proporciona el “valor del status de recuperación”, por lo que contamos con una manera de establecer la probabilidad de relevancia de los documentos. En cualquier caso se trata de valores iniciales, que deberían ser refinados mediante la interacción con el usuario. Se trata pues de evaluar la distribución real de los términos de indización entre los documentos relevantes mediante la utilización de la información que el usuario proporciona al sistema de forma consciente. En otras palabras, el usuario debería seleccionar los documentos relevantes de entre los que el sistema ha devuelto. Volveríamos a aplicar la fórmula anterior para hallar el valor del status de recuperación de cada documento, pero en esta ocasión P(ki | R) tendría como valor el resultado de dividir ri / R, donde R equivale al número de documentos que el usuario estimó relevantes y ri equivale al número de documentos que el usuario consideró relevantes y en los que el término ki aparece. A su vez P(ki | ¬R) se resolvería como fi – ri / F-R, donde F es el número de documentos que se le presentó al usuario y fi es el número de documentos que se le presentó al usuario y en los que aparece ki. Este proceso se puede repetir tantas veces como sea necesario hasta hallar los documentos deseados. En realidad existen formas de que el usuario no intervenga en el proceso, aunque la idea original no se planteaba esta posibilidad. Sin embargo el modelo probabilístico crece sobre una representación de documentos que no permite apreciar la distribución de los términos de indización dentro de los documentos, y no permite tampoco establecer pesos, por lo que los rankings para consultas cortas pueden no ser tan refinados como se desearía. Por otra parte la distribución inicial de las probabilidades puede ser difícil de establecer. De hecho el modelo probabilístico clásico fue desarrollado en un momento en el que la mayor parte de las bases de datos sólo utilizaban los resúmenes de los documentos y no los incluían a texto completo. 4.1 Redes bayesianas Los modelos basados en redes bayesianas constituyen una aplicación de la teoría probabilística que ha tenido mucho impacto en Recuperación de Información, ya que están basadas en fundamentos teóricos muy sólidos. Se utilizan tanto en aprendizaje automático, como en técnicas de clustering y clasificación automática así como en cualquier aplicación que se necesite extraer información de datos incompletos. Existen básicamente dos tipos de redes bayesianas, las redes de inferencia y las “redes belief”. Baeza-Yates y Ribeiro-Neto describen las diferencias entre ambas en los siguientes términos: - En primer lugar, el modelo de “redes belief” se basa en una visión del problema que trata de ordenar los resultados en torno a su relevancia desde la perspectiva de la teoría de conjuntos y adopta un espacio de representación bien diferenciado. Las redes de inferencia toman una visión puramente epistemológica del problema de la Recuperación de Información que és más difícil de aprehender (porque por ejemplo, el espacio de representación no está claramente definido). - En segundo lugar las “redes belief” proporcionan una separación entre las porciones de la red propias del documento y de la consulta que facilita el modelado de otras fuentes de datos aprovechables, como consultas previas, e información preexistente sobre la relevancia de los documentos. - En tercer lugar, como resultado de la separación entre consultas y documentos las “redes belief” pueden reproducir cualquier estrategia de ranking generada por las redes de inferencia, mientras que lo contrario no es cierto. Una red bayesiana consiste en “un conjunto de grafos en el que los nodos representan variables arbitrarias y los arcos representan las relaciones existentes entre estas variables, siendo la fuerza de estas relaciones relaciones codificada mediante probabilidades condicionales”. La ventaja fundamental que ofrecen las redes bayesianas es la de analizar relaciones complejas de probabilidad condicionada entre los términos de indización. El modelo probabilístico tradicional, como hemos observado, asume que todos los términos son independientes entre sí, mientras que las redes bayesianas asumen que existen relaciones de independencia localizadas en subconjuntos de las variables. Esto permite una aproximación mixta que no ha de cargar con todo el peso computacional y la dificultad de modelado de asumir todas las interdependencias y al mismo tiempo no asume la simplicidad del modelo de independencia binaria. BIBLIOGRAFÍA Modelos booleanos: Baeza-Yates y Ribeiro-Neto, Modern Information Retrieval. Addison Wesley 1999. Modelo probabilístico clásico: Norbert Fuhr. “Probabilistic Models in Information Retrieval”. The Computer Journal 35, no 3, (1992), 243–255. URL: http://citeseer.ist.psu.edu/fuhr92probabilistic.html. Redes Bayesianas: Robert Fung y Brendan Favero. “Applying Bayesian networks to information retrieval.” En: Communications of the ACM, vol. 38/3 1995. (Buscar en Google. Se puede descargar desde la UCM). Modelo de espacio vectorial: Gerard Salton y Michael McGill. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983. Modelo Generalizado de espacio vectorial: Wong, Ziarko, y Wong. “Generalized Vector Space Model In Information Retrieval”. En: ACM SIGIR Conference on Research and Development in Information Retrieval. 1985, 18–25. (Buscar en Google. Se puede descargar desde la UCM) Análisis de la semántica latente: Deerwester, Dumais, Landaue, Furnas y Harshman. “Indexing by latent semantic analysis”. Journal of the American Society for Information Science, 41, no 6, (1990), 391–407. Redes neuronales: R. Wilkinson y P. Hingston. “Using the cosine measure in a neural network for document retrieval”. En ACM SIGIR conference on Research and Devlopment in Information Retrieval. Chicago, US, 1991, 202–210. (Buscar en Google. Se puede descargar desde la UCM)