Tema 2. Modelos de Recuperación de Información 0.

Anuncio
Tema 2. Modelos de Recuperación de Información
0.- Introducción
La diferencia fundamental entre los distintos modelos de recuperación de
información existentes se basa en la forma en que el concepto de relevancia se
define e implementa en ellos. Es necesario establecer de antemano las premisas
que debe cumplir un documento para ser relevante para una consulta dada.
Distintos conjuntos de premisas nos proporcionan distintos modelos de
Recuperación de Información.
Además, como ya habíamos adelantado, también existe una diferenciación
entorno a la forma en que los distintos modelos de Recuperación de
Información plantean la extracción de los elementos semánticos y sintácticos
que contribuirán a representar las necesidades del usuario y los documentos.
1.- Taxonomía de Modelos de Recuperación de Información.
Nos basaremos en la taxonomía expuesta por Baeza Yates en Modern
Information Retrieval, y que se puede resumir en la figura tomada de la misma
fuente:
1.1.- En torno a la tarea del usuario.
Existe una primera división, que es la que viene dada por el tipo de tarea que
realiza el usuario. Por una parte tendríamos tareas de recuperación de
información propiamente dichas, y por otra las tareas de navegación.
Respecto a la navegación, no entraremos en grandes detalles acerca de ella. Se
reconocen tres modelos principales, de navegación plana, de navegación guiada
y de hipertexto, que son de sobra conocidos y en cualquier caso no están en el
núcleo de las técnicas de recuperación de información, aunque se pueden
utilizar para mejorar la interpretación de los resultados, o incluso para mejorar
la representación de los documentos y las relaciones existentes entre ellos.
Antes de entrar en profundidades en la descripción de los distintos modelos, es
necesario decir que existen dos tipos de tareas de usuario que entran dentro del
ámbito de la recuperación de información, que son la recuperación ad-hoc y
el filtrado de documentos.
La recuperación ad-hoc es la forma más estandarizada de recuperación de
información, en la que los documentos de la colección permanecen más o menos
estáticos a lo largo del tiempo mientras que las consultas varían continuamente.
La recuperación mediante filtrado se basa en la idea de que las consultas
permanecen más o menos estáticas a lo largo del tiempo mientras que los
documentos cambian continuamente. Por lo general se construye un perfil de
usuario que recoge las preferencias del mismo, es decir, una consulta tipo, y se
lanzan los documentos nuevos contra esta consulta a medida que van llegando.
Es posible que los nuevos documentos se ordenen según un ranking de
relevancia, con lo que estaríamos hablando de routing o enrutamiento de
información. Un ámbito muy común es la selección de noticias, aunque la
identificación de correo basura o la selección documental pueden ser también
escenarios aceptables.
Independientemente de la tarea que lleve a cabo el usuario estaremos hablando
de la aplicación de los modelos clásicos y sus derivados, por lo que lo que sigue
es aplicable a ambos casos.
1.2.- En torno a las bases teóricas de los modelos.
Dentro de los modelos propios de las tareas de recuperación de información,
podemos hablar de una segunda división. En primer lugar tendríamos los
modelos clásicos y sus derivados, que se basan en su referencia al contexto
temático expresado a partir de términos de indización. En segundo lugar,
tendríamos otros modelos que se basan en la estructura del texto, son los
modelos estructurados, como el de listas no-solapadas y el de nodos
proximales. No entraremos en más detalles sobre ellos, y nos centraremos
sobre los modelos clásicos y sus derivados.
Podemos hacer una diferenciación básica entre los modelos clásicos y los
modelos denominados alternativos. Los modelos clásicos han evolucionado
hacia variaciones más complejas y refinadas que intentan solucionar algunas de
las debilidades detectadas en los modelos tradicionales. Sin embargo, en general
se puede decir que los primeros son todavía plenamente vigentes en muchos
aspectos, sea por su simplicidad o por la calidad de sus resultados.
Existen tres modelos clásicos en Recuperación de Información.
En el modelo Booleano los documentos y las consultas se representan como
conjuntos de términos de indización. Por este motivo se suele decir que el
modelo booleano está basado en la teoría de conjuntos.
En el modelo vectorial, o de espacio vectorial los documentos y las
consultas se representan como vectores en un espacio de t dimensiones, o tdimensional. Se dice de este modelo que es algebraico, dado que el trabajo con
vectores es propio de esta disciplina.
En el modelo probabilístico las representaciones de documentos y consultas
se basan en la teoría de la probabilidad. Se suele decir que este modelo es
probabilístico.
A lo largo de los años se han propuesto paradigmas de modelización alternativos
a los clásicos, que sin salir de las tres ramas principales ya enunciadas, la de
teoría de conjuntos, la algebraica y la probabilística, suponen innovaciones
importantes con respecto a los referentes tradicionales.
Para la rama de teoría de conjuntos se han propuesto dos modelos alternativos,
el de teoría de conjuntos difusa y el modelo Booleano extendido. En
este caso en concreto se puede decir sin temor a dudas que las alternativas más
modernas han desbancado al modelo Booleano tradicional.
Para la rama algebraica se han propuesto y desarrollado tres modelos
alternativos, el modelo generalizado de espacio vectorial, el modelo de
indización por semántica latente y el modelo de redes neuronales.
Por último para la rama probabilística se han desarrollado dos modelos
estrechamente relacionados con el clásico modelo probabilístico, que son el de
redes de inferencia y el de redes belief.
2.- Modelos basados en teoría de conjuntos
2.1 Modelo Booleano
Es un modelo sencillo basado en teoría de conjuntos y álgebra Booleana. Se basa
en la utilización de expresiones booleanas (AND, OR, NOT) para la creación de
consultas, lo que permite formalizar el conjunto de condiciones que un
documento debe satisfacer para considerarse relevante.
Proporciona un marco de trabajo fácil de entender para un usuario de un SRI.
Al mismo tiempo, desde el punto de vista formal es muy claro y preciso, y por
este motivo se ha utilizado con mucha frecuencia en sistemas comerciales.
Las consultas se materializan en expresiones booleanas, que tienen una
semántica precisa. Cada término de la consulta se identifica con el conjunto de
los documentos que contienen dicho término. Después se crean las
intersecciones de conjuntos y se seleccionan aquellas que cumplen con las
condiciones de la consulta.
Por poner un ejemplo, la expresión muebles AND (jardín OR NOT casa), se
podría resolver como (1,0,0) OR (1,1,0) OR (1,1,1). Para que un documento se
estime relevante debería cumplir alguna de las anteriores condiciones,
conteniendo sólo la palabra muebles, o la palabra muebles y jardín, o la palabra
muebles, la palabra jardín y la palabra casa.
Debido al criterio de decisión binario que se impone, ya que un documento
puede cumplir alguna de las condiciones o no cumplir ninguna (1 o 0), los
resultados se presentarán necesariamente en forma de un listado no ordenado.
En otras palabras, no es posible llevar a cabo un ranking de relevancia de los
documentos recuperados. De hecho los SRI basados en el modelo Booleano
pueden ser considerados también como sistemas de recuperación de datos, o
cuando menos se aproximan mucho a estos.
Otro de los problemas de este modelo es que si bien las expresiones booleanas
tienen un significado preciso pueden ser complejas de construir. El usuario
tiende a crear consultas muy simples, por lo que la mejor ventaja que ofrece este
modelo (la utilización de reglas formales muy claras) se deja de utilizar por
parte de los usuarios.
Por último, a pesar de que la lógica Booleana proporciona una forma elegante y
clara de describir consultas existen algunos comportamientos derivados que se
oponen al sentido común. Por ejemplo, en la expresión A OR B un documento
que contiene ambos términos tiene igual relevancia que otro que contiene sólo
uno. Al mismo tiempo, para A AND B un documento que no contiene ningún
término tiene la misma relevancia que uno que contiene sólo A.
2.2 Modelos alternativos basados en teoría de conjuntos.
Existen básicamente dos alternativas, como ya hemos adelantado, los modelos
basados en teoría de conjuntos borrosos, y el modelo Booleano extendido.
2.2.1 Modelos basados en teoría de conjuntos borrosos.
El modelo de Conjuntos Borrosos representa los documentos y las consultas
como pertenecientes en “cierto grado” a los conjuntos definidos por los
términos de indización. De esta manera, la relación entre un documento y una
consulta de usuario es borrosa, vaga, o indefinida.
Aunque la existencia de un término de indización en un documento no es
borrosa, sigue siendo o no pero en términos absolutos, la importancia que dicho
término tienen como factor de representación del documento sí lo es. En otras
palabras, ``...aunque sepamos con certeza que un documento contiene un
término, por ejemplo el término economía, algunos documentos son más
económicos que otros. El grado de pertenencia de los documentos a los
conjuntos designados por los términos de indización se puede obtener mediante
la aplicación de técnicas de indización convencionales como tf-idf.
Como resultado de esto un mismo documento pertenece en cierto grado a varios
conjuntos de forma simultánea. Sin embargo, esta no es la única innovación,
sino que se utilizan además operadores distintos a los tradicionales AND, OR y
NOT del modelo booleano. Estos operadores, denominados operadores
borrosos, permiten la utilización de consultas estructuradas muy complejas, que
se resuelven como rankings en los que los documentos se ordenan
decrecientemente según su relevancia.
La traducción del los operadores del modelo booleano clásico se parece a esto:
Operador
Booleano
t1 AND t2
t1 OR t2
t1 NOT t2
Fórmula para conjuntos
borrosos
min(sim(di,t1), sim(di,t2))
max(sim(di,t1), sim(di,t2))
sim(di,t1) * (1 – sim(di,t2))
Sin embargo este modelo no proporciona un conjunto de intuiciones claras que
expliquen el funcionamiento de dichos operadores, ni su aplicación a otras
necesidades de Recuperación de Información. De hecho este es un modelo que
tiene bastante eco entre los investigadores del área de Teoría de Conjuntos
Borrosos, pero que no ha tenido un éxito similar entre los investigadores del
área de Recuperación de Información.
Además no se puede llevar a cabo ninguna tarea de ponderación de las
consultas, cosa que si se permite en otros modelos, como el de Espacio
Vectorial.
Por último, la ordenación de los resultados en un ranking puede producir
efectos indeseados. Veamos un ejemplo de esto último:
Si utilizamos los 3 documentos sobre decoración ya mencionados,
d1 (muebles = 0’8)
d2 (muebles = 0’8, jardín = 0’7)
d3 (muebles = 0’8, jardín = 0’1, casa = 0’5)
y una consulta no demasiado compleja, como Q = q1 (muebles) OR q2 (jardín) y
la resolvemos de acuerdo con el procedimiento normal max (sim(di, q1), sim(di,
q2)), tenemos que:
sim(d1, muebles) = 0,8 y sim(d1, jardín = 0) o sea, sim(Q, d1) = 0,8
sim(d2, muebles) = 0,8 y sim(d2, jardín = 0,7) o sea, sim(Q, d2) = 0,8
sim(d3, muebles) = 0,8 y sim(d3, jardín = 0,1) o sea, sim(Q, d3) = 0,8
Como se puede observar, todos los documentos proporcionan un mismo valor,
el valor del término más alto, a pesar de que algunos documentos parecen estar
mucho más relacionados con el tema de la consulta.
2.2.1 Modelo booleano extendido.
El Modelo Booleano Extendido pretende paliar algunas de las limitaciones más
importantes del modelo Booleano clásico. Fundamentalmente la capacidad de
utilizar algún tipo de ponderación de términos y generar rankings de la forma
habitual en otros modelos de Recuperación de Información.
Lo fundamental de este modelo es la utilización de operadores lógicos en
conjunción con modelos de representación vectoriales de los documentos.
Existe una fuerte influencia del modelo de espacio vectorial que observaremos
después, aunque la base sigue siendo la de un modelo basado en teoría de
conjuntos. De hecho este modelo se puede considerar a caballo entre los
modelos Booleanos y los algebraicos. A pesar de ser el modelo basado en teoría
de conjuntos más reputado no ha visto una gran utilización por parte de los
investigadores. Esto puede deberse en parte al hecho de que existen dudas
acerca de la utilidad de las funcionalidades adicionales que propone.
En primer lugar se utilizan técnicas de indización automática para llevar a cabo
la ponderación de los términos de los documentos, lo cuál se suele hacer entre 0
y 1. De esta forma, un término altamente representativo para un documento
obtendría un valor cercano a 1, y uno con una baja capacidad de representación
obtendría un valor cercano a 0 o incluso 0 si no estuviera presente en el
documento.
Si ponemos como ejemplo un documento sobre muebles de cocina (documento
D1) en el que el término cocina tiene un valor 0,2 y el término muebles tiene un
valor de 0,8, podríamos representar dicho documento sobre un plano entorno a
estas dos variables:
Si lanzamos a continuación una consulta, que denominaremos Qa y que tiene
este aspecto: cocina AND casa, podemos representarla también en el plano en
la confluencia (1,1) de muebles y casa. Evidentemente el documento antes
descrito sería recuperado, aunque ahora gracias a la ponderación de los
términos que contiene dicho documento podemos graduar la relevancia de
dicho documento. Podemos representar el punto que mejor coincide con la
consulta Qa de forma similar al documento anterior:
Para encontrar la similitud existente entre la consulta Qa y el documento D1
bastará entonces con medir la distancia existente entre los puntos antes
representados. Para ello se utiliza la siguiente fórmula:
Donde Wk1 representa el peso del primero de los términos de indización de la
consulta y Wk2 el peso del segundo. Esta fórmula mide la distancia entre los
puntos, de forma que cuanto mayor sea esta menor será la similitud entre
consulta y documento, y a la inversa.
En el caso de la consulta OR podríamos medir mediante una fórmula similar la
distancia entre ambos puntos. Sin embargo en este punto la distancia se mide
con respecto al punto que minimiza la similitud entre el documento y la
consulta, el punto (0,0). De esta forma, cuanto mayor sea la distancia entre el
documento y el punto mencionado mayor será la similitud entre la consulta y el
documento a recuperar:
De hecho, lo único que hacemos es medir la longitud de la hipotenusa del
triángulo que forman los puntos k1, k2 y 0. Dado que lo que intentamos es
maximizar la distancia entre la “representación en negativo” de la consulta y el
documento, cuanto mayor sea la distancia mayor será el grado de similitud
entre
Sin embargo no todas las consultas tendrán el mismo número de documentos,
por lo que existe la necesidad de normalizar
Para resumir, podemos decir que es un modelo interesante dado que engloba a
otros modelos, como el modelo de Espacio Vectorial y el Modelo Booleano. Sin
embargo tiene como desventajas que es más complejo que cualquiera de los
anteriores, lo que supone mayores costes de computación, además de que desde
un punto de vista de la lógica no es tan limpio como el modelo booleano, ya que
las leyes asociativa y distributiva no se cumplen.
Los modelos probabilísticos y los algebraicos han tenido bastante más éxito y
son aplicados con asiduidad por un número muy importante de investigadores,
motivo por el cual los analizamos a continuación.
3.- Modelos basados el álgebra
3.1 Modelo de Espacio Vectorial
El modelo de espacio vectorial fue introducido por Salton y McGill en los años
70. Se trata de un modelo por tanto bastante antiguo, o clásico, como se
prefiera. Sin embargo, a diferencia del otro modelo clásico que hemos analizado,
el modelo Booleano, este es un modelo que todavía tiene plena aceptación
dentro del ámbito de la Recuperación de Información, lo cual no es obstáculo
para que se haya intentado refinar y mejorar, como veremos algo más adelante.
Reconociendo las debilidades de representar los términos de indización de los
documentos entorno a un criterio binario, una de las principales innovaciones
de este modelo consistía en el desarrollo de técnicas de ponderación de los
términos en los documentos. Partiendo de la posibilidad de valorar la
importancia de un término para un documento concreto se pueden desarrollar
algunas características muy deseables en un modelo de recuperación de
información.
La primera de ellas es la de posibilitar la coincidencia parcial entre el
documento y la consulta en el proceso de recuperación. Esto sitúa al modelo de
espacio vectorial plenamente en el ámbito de la recuperación de información,
por contraste con la cercanía de otros modelos anteriores como el Booleao a las
características de un modelo de recuperación de datos.
Además posibilita la graduación de la relevancia de los documentos con
respecto de las consultas. En otras palabras, permite establecer grados de
relevancia entre un documento y una consulta concreta. Esto hace posible la
elaboración de rankings, algo que es propio de los modelos de recuperación de
información modernos.
En el modelo de espacio vectorial los documentos se representan a también
partir de vectores, de forma similar a esta:
Donde n es igual al número total de elementos de representación considerables
(sean palabras, n-gramas o raíces), y que se obtendría mediante una adecuada
selección de los términos utilizados en la colección durante el proceso de
representación de los documentos. Se trabaja entonces con un espacio vectorial
n dimensional, de manera que las representaciones de todos los documentos
tienen las mismas dimensiones. De esta forma si el primer término de nuestro
léxico es “académico” la posición w1j se refiere precisamente “académico”. Por
su parte w indica el peso que el término en concreto tiene para el documento j.
El peso de un término es una medida de la importancia de dicho término como
posible elemento de representación del documento, o dicho de otro modo, una
medida de la importancia semántica del término para describir el contenido del
documento. Existen múltiples formas de asignar peso a un elemento, pero de
entre ellas sin duda la que más éxito ha tenido es la conocida como tf-idf o
alguna de las múltiples variantes descritas por Salton.
Este tipo de representación permite fundamentalmente un tipo de
comparaciones mucho más precisas que las de las representaciones binarias.
Estas comparaciones se llevan a cabo a partir del siguiente presupuesto; dos
vectores se pueden representar en el hiperplano y medir las diferencias de
dirección entre ambos de la misma forma que se haría en un plano
bidimensional, es decir, comparando el coseno del ángulo que forman.
Pongamos por ejemplo dos vectores bidimensionales:
Como podemos observar en siguiente figura existe una desviación importante
entre la dirección que toma cada uno de estos vectores.
a
b
Podemos medir esta desviación por el ángulo que forman los vectores, o por una
medida proporcional al mismo, el coseno del ángulo que forman dichos
vectores. Esta medida nos proporciona una estimación bastante acertada de la
similitud o disimilitud de los vectores o lo que es lo mismo, de los documentos
que representan.
Si representamos un vector con una longitud euclídea de uno sobre un eje de
coordenadas, como en la figura siguiente:
Tenemos que el coseno del ángulo que forma dicho vector con respecto del eje
de las X se puede obtener hallando el cateto más próximo del triángulo
rectángulo resultante. En la figura anterior se puede observar cómo el cateto
más próximo mide 0,5.
En el caso de que la hipotenusa fuera 1, el coseno del ángulo sería equivalente a
la longitud de dicho cateto. En el caso de que la hipotenusa fuera diferente de 1
sería necesario normalizar, y diríamos que el coseno = cateto más próximo /
hipotenusa. El cateto más próximo normalizado por la hipotenusa, en otras
palabras.
La ecuación necesaria para medir el coseno en un caso genérico
(independientemente de la longitud y dimensiones de los vectores) se expresa
como:
Esto produce un valor entre 0 y 1, donde 0 indica la perpendicularidad
(ortogonalidad) de los vectores, tendríamos dos vectores de dirección
completamente distinta, y 1 indica que los vectores tienen idéntica dirección. En
nuestro caso esta fórmula nos proporciona un resultado de 0,68.
Este mismo sencillo mecanismo se puede aplicar a documentos representados a
partir de vectores complejos. Pongamos un ejemplo algo más completo.
Partiremos de dos documentos, el primero de los cuales, que denotaremos como
da se compone de una frase simple como “La cosecha de fruta ha sido muy
buena”. El segundo documento, que designaremos db también se compone de
una única frase “El melocotón es una de las frutas más demandadas”. Ambos
documentos pertenecen a una colección hipotética D formada por algunos
documentos acerca de la agricultura, de la que se extrae un léxico L =
(agricultor, cosecha, demanda, fruta, melocotón, precios, sandía).
Siguiendo el modelo de espacio vectorial podemos representar ambos
documentos como vectores, da = (0, 2.5, 0, 2.7, 0, 0, 0) y db = (0, 0, 1.3, 2.4,
0.8, 0, 0). Cada una de las posiciones representa un elemento del léxico
ordenado en sucesión y cada uno de los valores que ocupan dichas posiciones
expresan pesos otorgados durante la fase de indización. De esta forma, por
ejemplo el segundo de los elementos de da corresponde a “cosecha”, a la que el
sistema habría otorgado un peso de 2.5, y el tercero de los elementos a
“demanda”, que no aparece en el documento, por lo que recibe una ponderación
de 0.
Habiendo reducido los documentos a sus representaciones vectoriales, estamos
en condiciones de medir la similitud entre ambos vectores mediante la fórmula
del coseno, lo que podemos expresar también de la siguiente manera:
Esto nos ofrece un coeficiente de similitud de 0,71, lo que indica “bastante”
similitud entre los dos vectores, a pesar de las bajas cualidades estadísticas del
ejemplo. Lo que acabamos de ilustrar se utiliza en Recuperación de Información
para comparar un conjunto de documentos con un una petición al sistema, pero
se utiliza además para otras aplicaciones. Una ventaja fundamental de los
modelos algebraicos reside en la capacidad de precisar la ponderación de los
términos de las consultas, algo que no es propio de otros modelos, como los
derivados de la rama de teoría de conjuntos. Esto nos permite establecer
comparaciones entre documentos con mucha facilidad, y nos abre un abanico de
posibles aplicaciones que hacen muy interesante la utilización de este modelo.
El modelo de espacio vectorial presupone la independencia entre los términos,
de tal manera que el hecho de que un término a aparezca en conjunción con un
término b no ofrece al sistema ningún tipo de información aprovechable. Sin
embargo, y dado que sabemos positivamente que esto no es así sino que se trata
de un “presupuesto de trabajo”, existen dos modelos alternativos que intentan
reflejar estas relaciones semánticas entre los términos de una colección. Ambos
surgen de la constatación de esta importante debilidad del modelo de espacio
vectorial e intentan paliarla de formas distintas.
A pesar de su simplicidad y de la debilidad señalada el modelo de espacio
vectorial produce rankings de relevancia de alta calidad, y la mayor parte de los
modelos con los que se ha comparado producen rankings de calidad similar o
ligeramente superior, aunque son modelos bastante más complejos.
3.2 Modelo Generalizado de Espacio Vectorial
Este modelo proporciona una base teórica con la que representar la
dependencia entre los términos de la colección. Es un modelo que deriva del
clásico propuesto por Salton, y en realidad podemos contemplarlo como una
extensión del mismo, ya que los principios en que está basado son muy
similares.
Fue enunciado por primera vez por Wong en 1985, directamente como un
modelo para la recuperación de información con el objeto de resolver algunos de
los problemas de representación más importantes del “modelo normal” de
espacio vectorial. Se basa en una perspectiva dual de la representación de
documentos que tiene como objetivo superar las limitaciones de la comparación
superficial de documentos típica hasta el momento.
No es un modelo de representación que se haya utilizado con profusión en
recuperación de información, lo que posiblemente esté relacionado con el hecho
de que la aparición de la Indización por Semántica Latente es ligeramente
posterior en el tiempo, siendo el último modelo mucho más eficiente en
términos de computación.
Un caso bastante frecuente en Recuperación de Información es que un
documento y una petición de información no tengan ninguna palabra en común,
aunque compartan una similitud importante para un observador humano. Este
fenómeno puede suponer la diferencia entre recuperar un documento relevante
o no recuperarlo. Se puede deber a diferencias en el léxico que utilizan los
autores, a accidentes del lenguaje natural, o simplemente a que los documentos
sean tan pequeños que sea difícil equipararlos estadísticamente a pesar de que
estén relacionados semánticamente.
Pongamos esto en claro mediante un ejemplo. Utilizaremos un léxico compuesto
por cuatro términos T = (casa, hogar, perro, mueble) y cuatro documentos
como:
- d1 = “Si usted tiene un perro como mascota y vive dentro de su hogar puede
ahorrarse algunos destrozos haciéndole su propia casa en el jardín”
- d2 = “El interés de los españoles en la decoración de sus casas crece año tras
año. El incremento en la venta de muebles para el hogar así lo demuestra”
- d3 = “Vuelve a casa por navidad”
- d4 = “Hogar dulce hogar”.
Dado lo reducido de nuestro léxico la indización habrá de ser muy tosca, aunque
suficiente para ilustrar el ejemplo. Los cuatro documentos se pueden
representar mediante vectores del estilo:
d1 = (1,1,1,0)
d2 = (1,1,0,1)
d3 = (1,0,0,0)
d4 = (0,1,0,0)
Donde el valor de la posición 1 y referente al término casa tiene un valor de 1, lo
cuál simplemente indica la presencia del término en el documento.
Hasta aquí no hemos hecho otra cosa que reproducir el modelos de espacio
vectorial, pero vamos a proceder a introducir los datos que ya tenemos en una
estructura más compleja, en una matriz que designaremos Xd*t, donde el
número de columnas corresponde al número de términos aceptados de la
colección (t), en este caso los cuatro que contiene el léxico, y el número de filas
corresponde al número de documentos de que consta la colección (d), en este
caso también cuatro.
dt 1,1 (1) dt 1,2 (1)
dt 2,1 (1) dt 2,2 (1)
dt 3,1 (1) dt 3,2 (0)
dt 4,1 (0) dt 4,2 (1)
dt 1,3 (1) dt 1,4 (0)
dt 2,3 (0) dt 2,4 (1)
dt 3,3 (0) dt 3,4 (0)
dt 4,3 (0) dt 4,4 (0)
En esta matriz podemos llevar a cabo dos lecturas: la primera de ellas de
izquierda a derecha, lo que nos proporcionaría un vector que representa un
documento como en:
que representa el tercero de nuestros documentos “Vuelve a casa por navidad”.
La segunda lectura posible se hace de arriba a abajo, y nos proporciona una
representación de los términos a través de su utilización en los diversos
documentos de la colección:
Este vector t1 representa al término casa a través de su distribución sobre los
distintos documentos en la colección. Podemos compararlo con el vector
correspondiente a otro término y de esta forma medir la similitud entre ambos
términos en torno a un criterio de uso. Esto supone que si dos términos se
utilizan con la suficiente frecuencia en los mismos contextos se pueden llegar a
considerar como semánticamente relacionados.
Tradicionalmente las medidas de similitud entre documentos se basan
precisamente en coincidencias de términos. Si entre dos documentos no existe
ninguna coincidencia no es posible considerarlos como relacionados a pesar de
que para un agente humano lo estuvieran. Esta segunda dimensión de
representación a través de los términos nos permite elevarnos sobre el nivel
superficial de coincidencias y establecer comparaciones entre distintos
documentos a pesar de que no existan coincidencias directas de términos. En
otras palabras, nos permite profundizar en el nivel conceptual y deshacernos
(aunque sea parcialmente) de la superficialidad del nivel léxico.
Sin embargo hay que aceptar este hecho con ciertas limitaciones, ya que en
ningún caso estaremos en condiciones de apreciar si el motivo de la similitud
entre los términos estudiados se debe a que expresan el mismo concepto o por el
contrario cada cuál expresa un concepto distinto aunque ambos conceptos están
relacionados. Simplemente se nos indica que ambos términos son apropiados
para su utilización en los mismos contextos, y que por tanto dos documentos
que contuvieran cada uno de ellos uno de estos términos tendrían algún grado
de similitud a pesar de que no existiera ninguna coincidencia directa.
A pesar de las precauciones mencionadas el tratamiento estadístico de las
matrices nos puede proporcionar buenos resultados. Se nos abre además otra
dimensión de información que es utilizable para complementar la anterior, y
que es computable aplicando los cálculos de similitud propios de la
comparación de vectores.
Un ejemplo de la utilidad de este tipo de representación es el siguiente:
supongamos el escenario anterior (con el léxico y los documentos que ya
conocemos). Existen dos casos arquetípicos entre los documentos de ejemplo,
los documentos real y aparentemente similares, y los documentos realmente
similares aunque aparentemente distintos.
Para el primero de los casos contamos con dos documentos evidentemente
similares en cuanto a terminología, los representados por d1 = (1,1,1,0) y d2 =
(1,1,0,1). Para llevar a cabo una comparación de los documentos según un
modelo superficial (que sólo tiene en cuenta la distribución de los términos
dentro de los documentos) podemos aplicar la medida del coseno. Esta medida
nos ofrece una similitud de 0,66 sobre 1, es decir, son documentos bastante
similares.
Al mismo tiempo existen otros dos documentos que terminológicamente no
están relacionados de forma evidente, d1 = (1,0,0,0) y d1 = (0,1,0,0). Si medimos
su similitud utilizando los mismos criterios que antes tenemos que similitud
(d3,d4) = 0. Y sin embargo “vuelve a casa por navidad” es con respecto a “hogar
dulce hogar” un documento bastante similar en tanto que hace referencia al
mismo y hogareño tema principal.
Podemos indizar los documentos según el modelo generalizado de espacio
vectorial llevando a cabo comparaciones entre los elementos activos de d3 y los
elementos no activos de d4 en busca de términos relacionados estrechamente
por su uso. Cada uno de estos elementos es en realidad un vector de iguales
dimensiones, lo que nos permite compararlo tal que si fueran dos documentos,
mediante la medida del coseno. Si efectuamos esta comprobación y desechamos
aquellas relaciones de similitud débiles (por ejemplo las similitudes inferiores a
0,5 entre dos términos) podemos utilizar de forma provechosa esta información.
Para el caso que nos ocupa “casa” y “hogar” están bastante relacionadas en
torno a su uso en los diversos documentos. t1 y t2 los vectores que representan
ambas palabras nos muestran que estas aparecen juntas en dos de los tres
documentos en que están presentes cada una, por lo que su coeficiente de
similitud es de 0,66. Si sustituimos el valor asignado para t1 (casa) en d2 (hasta
ahora 0) por el valor de la similitud con el término que se sí se utiliza en d2
(hogar) y hacemos la misma operación con los términos relacionados en el otro
vector pero que no se utilizan expresamente obtenemos dos vectores nuevos que
reflejan estas interdependencias, d3 = (1, 0.66, 0, 0) y d4 =(0.66, 1, 0, 0). La
medida de similitud de estos dos vectores es de 0,85, mucho más aproximada al
resultado que esperamos obtener.
En realidad las comparaciones entre documentos o entre una consulta y un
documento se llevan a cabo de forma distinta. Formalizaremos ahora las ideas
expuestas con el procedimiento anterior (que no está bien respaldado desde un
punto de vista teórico pero sirve para explicar el efecto de este modelo).
La similitud entre una consulta y un documento cualquiera de la colección se
puede expresar formalmente como el resultado de aplicar la siguiente fórmula:
O lo que es lo mismo, la similitud entre el documento d y la consulta q es igual
al producto de la matriz transpuesta de la colección (AT) por el vector que
representa a d multiplicado a su vez por el producto de la matriz transpuesta de
la colección (AT) por el vector que representa a q.
La primera parte de la fórmula pone en relación el documento con la
información sobre la distribución de las palabras entre los documentos de la
colección. La segunda parte hace lo propio con la consulta. Es decir, que en cada
cálculo de relevancia de un documento se arrastra y evalúa toda la información
de que disponemos sobre la interdependencia de términos por su contexto de
utilización.
Desde un punto de vista teórico se trata por tanto de un modelo muy sólido, ya
que proporciona una buena base sobre la que explotar la interdependencia de
los términos y lo hace de una manera formalmente muy elegante.
Podemos aplicar esta función de relevancia sobre el ejemplo anterior para
explicar el comportamiento de un sistema en estas circunstancias. En primer
lugar hay que hacer notar que esta fórmula no incluye ningún elemento de
normalización, mientras que la del coseno sí lo hacía. Para evitar que un
documento pueda ser más similar a otro documento distinto que a sí mismo
(caso que se daría si el vector que representa a ese otro documento tiene mayor
longitud y la similitud es grande) es necesario normalizar la longitud de los
vectores. En otras palabras, la longitud de todos los vectores que representan a
los documentos debe ser la misma. En este caso elegiremos 3 porque nos
simplifica los cálculos, aunque lo normal es normalizar a 1. He aquí la colección
del ejemplo anterior después de una hipotética normalización:
Nótese que el número de veces que aparece cada término en los documentos
originales es distinto, pero hacer los cálculos sobre cifras con decimales no
ayudaría en la explicación. Hay que tener en cuenta además que A es una matriz
de t filas (donde t es el número de términos) por n columnas (siendo n el
número de documentos). O sea, que el documento 1 de la colección equivale a
la primera columna (1, 1, 1, 0).
Necesitamos transponer la matriz para poder aplicar la función de relevancia,
con lo que tendríamos AT, donde cada fila representa un documento de la
colección, y cada columna la distribución de los términos entre los documentos
de la colección.
Para hallar la similitud de una consulta con respecto de todos los documentos
de la colección será necesario aplicar la función de relevancia ya mencionada
sobre todos los documentos de la colección. En todos los casos el resultado de
multiplicar la transpuesta por el vector que representa a q (AT * q) será
exactamente el mismo. Aquí tenemos la consulta:
El resultado de la operación (AT * q) será siempre (3 3 0 9), por lo que esta
operación no tiene por qué ser repetida. El resto del proceso consistirá en
multiplicar la transpuesta de A por el vector columna que representa a cada
documento (AT * d).
Recordaremos cómo se hace esto para el primer documento para no
extendernos demasiado. La suma de multiplicar cada elemento de la primera
fila de la matriz por cada elemento de la columna que representa al documento
nos proporciona el primer elemento de una nueva matriz fila:
(1*1 + 1*1 + 1*1 + 0*0) = 3
Hacer lo propio con la segunda fila de la matriz transpuesta y la misma columna
que representa al documento nos proporciona el segundo elemento de la matriz
fila resultante, y lo mismo ocurre con la tercera y cuarta filas.
(1*1 + 1*1 + 0*1 + 1*0) = 2
(3*1 + 0*1 + 0*1 + 0*0) = 3
(0*1 + 3*1 + 0*1 + 0*0) = 3
De esta forma obtenemos una nueva matriz de una sola fila con la forma (3 2 3
3). Al multiplicar esta matriz por la obtenida de la consulta por la transpuesta
obtenemos un único dato, un coeficiente de similitud entre el documento y la
consulta. Este producto lo podemos hacer como si fueran dos vectores, dado que
se trata de dos matrices con una única fila.
Para el documento primero (d1) la similitud es de 0,42. Para el segundo
documento (d2) también es de 0,42. El tercer documento (d3) es bastante poco
similar, ya que obtiene sólo un 0,18 y el último (d4) es idéntico, ya que obtiene
un 1.
Si observamos la consulta (hogar, dulce hogar, cómo me gusta mi hogar)
observaremos que es idéntica al documento cuatro, por lo que el último
resultado no es de extrañar. La similitud con los documentos 2 y 3 entra dentro
de lo esperado. Sin embargo, es curioso observar cómo el documento 3, que no
tiene ninguna palabra en común, tiene una similitud de 0,18, siendo que uno
trata sobre el hogar y el otro sobre la casa.
La idea de encontrar similitudes entre documentos sin necesidad de que se
expliciten mediante coincidencias de términos es muy atractiva, pero existen
algunas sombras además de luces. Para empezar la complejidad y magnitud de
los cálculos necesarios para llevar a cabo comparaciones entre documentos es
mucho más elevada que en el caso del modelo clásico de espacio vectorial o
cualquiera de los modelos de la rama booleana.
Lo que probablemente ha influido más en el hecho de que no se halla instalado
en el ámbito de la Recuperación de Información es la aparición algunos años
después del modelo de Semántica Latente, basado en las mismas intuiciones
que el modelo generalizado aunque más eficiente desde el punto de vista
computacional.
3.3 Modelo de Análisis de la Semántica Latente
Esta es aproximación que desconfía de la capacidad de representación de
documentos en términos de coincidencia de palabras, es decir, que un
documento determinado no tiene por qué coincidir con una consulta debido a
que puede utilizar un léxico distinto a la misma a pesar de que hubiera sido
pertinente que hubiera sido recuperado para la ocasión. Este es un problema
que en documentación se ataja mediante la utilización de tesauros u otros
lenguajes documentales, aunque esta aproximación es poco viable en grandes
entornos como Internet.
Las ideas originales de Deerwester (quien introduce el modelo en 1988) han
tenido bastante influencia, y han superado con mucho en popularidad a las de
Wong por lo que respecta a su aplicación real. El modelo generalizado de
espacio vectorial había intentado una aproximación al mismo problema, aunque
la representación de los documentos utilizando análisis de la semántica latente
supone que la comparación final entre documentos y consultas sea mucho más
rápida.
En realidad el principio esencial es el mismo, se trata de obtener información
distinta a partir de una misma representación básica de las colecciones. En
ambos casos se intenta trabajar con conceptos en lugar de con términos, salvo
que la forma de aproximarse a los conceptos es diferente.
Lo que realmente distingue a las representaciones basadas en Análisis de la
Semántica Latente (a partir de ahora LSA) es la condensación de toda la
información presente en la estructura de la matriz que representa el conjunto de
la colección en una matriz nueva, distinta pero al mismo tiempo esencialmente
válida para representar la estructura semántica de la colección en conjunto e
individualmente de todos y cada uno de los documentos y términos que la
componen.
Tenemos por tanto una matriz que nos sirve para establecer comparaciones
entre documentos y términos, términos y términos, así como conjuntos de
términos y conjuntos de documentos...etc. Es decir, un marco de trabajo
extraordinariamente flexible para trabajar con palabras, documentos y sus
relaciones, algo en lo que supera tanto al modelo de espacio vectorial tradicional
como al generalizado.
Esta nueva matriz es al mismo tiempo una matriz mucho más compacta que la
original. Esto supone que una vez generada la matriz los procesos de
recuperación serán mucho más rápidos. La única desventaja es que el tiempo de
creación de la matriz es muy elevado, aunque este proceso solo se debe realizar
una vez.
Cualquier matriz, como Xi que representa una colección de documentos se
puede descomponer en otras tres matrices cuyo producto equivale a la matriz
original a través de una técnica denominada Singular Value Descomposition o
SVD.
Donde T0 representa la distribución de los términos sobre los documentos, D0
la de los documentos sobre los términos y S0 es la matriz diagonal de X con r
filas por r columnas, siendo r = al rango de la matriz. En este momento la
diagonal ya posee valores representativos tanto de la esfera de representación
de los documentos como de la esfera de representación de los términos.
Este proceso se completa mediante la elección de una dimensión más reducida
de la matriz diagonal, la selección de los valores más representativos de T0 y D0
y la eliminación del resto de los elementos. Un proceso algo complejo pero cuyo
resultado es una matriz de dimensiones muy reducidas y alto poder de
representación, ya que la matriz contiene los elementos más representativos de
la estructura semántica de la colección y al mismo tiempo ha eliminado el ruido
procedente de los elementos que ofrecen patrones semánticos más débiles.
En realidad la capacidad de discriminación de la importancia de los elementos
en torno a su valor como representantes del contenido semántico de los
documentos hacen que esta sea una técnica utilizada en el ámbito de la
reducción de la dimensionalidad, además de ser una técnica de representación
de la colección en sí misma.
3.4 Redes neuronales artificiales
El motivo fundamental por el que se utilizan redes neurales artificiales dentro
del ámbito de la Recuperación de Información hay que buscarlo en la capacidad
de las mismas para reconocer patrones. Wilkinson fue el primero en aplicar esta
característica al desarrollo de un modelo de Recuperación de Información
basado en redes neuronales artificiales. Existe una importante influencia del
modelo de espacio vectorial, ya que se utilizan tanto las medidas de similitud
como las formas de representación propias de dicho modelo. Sin embargo existe
también un buen número de innovaciones, como veremos a continuación.
Los modelos de redes neuronales consisten en una colección de nodos de
procesamiento sencillos y las conexiones entre ellos. En cada momento cada
nodo tiene un determinado nivel de activación y cada conexión entre nodos
tiene un cierto peso de conexión. La idea básica es que los nodos se comunican
entre sí enviando señales a los nodos vecinos a través de las conexiones. La
fuerza de las señales depende del nivel de activación del nodo que envía la señal,
que a su vez depende de la fuerza de las señales que ha recibido y los pesos de
las conexiones que lo han hecho posible.
En otras palabras, se puede simular el proceso neuronal de una red neuronal
biológica, y se puede reproducir la propagación de los estímulos a través de la
red, así como los efectos que produce en el estado de los nodos que la forman un
momento concreto.
Wilkinson propone “... usar un modelo de redes neurales que encapsule las
relaciones entre los documentos y los términos que contiene”. Para hacer esto se
establecería un nodo para cada documento de la colección, así como un nodo
para cada uno de los términos que componen cada documento y un nodo para
cada término de la consulta. Existen conexiones entre cada término de la
consulta y cada término del documento. La intensidad (peso) de la conexión
entre los nodos que representan los términos de los documentos y los
documentos dependen del peso asignado durante el proceso de indización.
Para cada término de la consulta se crea un nodo y su correspondiente conexión
con un nodo término de documento. Cuando se inicie el proceso de activación
sólo los nodos que estén conectados a los nodos consulta serán activados, y su
valor de activación se derivará de la aplicación de la medida del coseno entre los
pesos de las conexiones de los nodos-documento y los nodos-término-dedocumento.
Al final del proceso podremos seleccionar los documentos cuyos nodos tengan
un valor de activación más alto, pero además podemos utilizar estos nodos para
volver a comenzar el proceso y seleccionar nodos-término-de-documento que
no estaban presentes en la consulta original. Con esto podemos conseguir
recuperar documentos que no contienen el léxico original propuesto en la
consulta.
Sin embargo las redes neuronales nos proporcionan un marco sobre el que
desarrollar aplicaciones en el ámbito de la Recuperación de Información que
superan el ámbito de la búsqueda de documentos. Un ejemplo claro de esto es la
clasificación automática, descrita por Isasi y Galván, que se puede aplicar a
documentos, o incluso a términos, como en el caso de López Pujalte o a sistemas
de auto-organización, como los mapas de auto-organización de Kohonen.
4.- Modelos basados en Probabilidad
El acercamiento probabilístico a la recuperación de información proporciona
una forma diferente de modelar el problema de la recuperación de información,
con técnicas diferentes para obtener los pesos de los términos y diferentes
formas de pensar acerca del modo en que se determina la relevancia de los
documentos.
Modelando el problema de la recuperación de información:
concepto de relevancia de los documentos
En los modelos booleanos y basados en vectores la búsqueda de coincidencias
entre una consulta y un documento se hace de acuerdo con principios
formalmente establecidos, pero con un cálculo impreciso de los términos de
indización (en el caso de los modelos booleanos) y sin una formalización teórica
de los motivos por los que se modela el problema de la recuperación de la forma
en que se hace (como representaciones de vectores o conjuntos de documentos,
por ejemplo.
Es decir, que existe un paso muy grande entre el problema real de la
recuperación de información y su modelización en estos modelos. Los modelos
probabilísticas ofrecen una justificación formal más sólida sobre las decisiones
de abstracción que incluyen sus modelos. Por poner un ejemplo, no se asimila
directamente la similitud temática de los documentos con el concepto de
relevancia, sino que los documentos son relevantes con respecto de la necesidad
de información del usuario, y no de su materialización como consulta o con
respecto de la representación que el sistema hace de dicha consulta para su
procesamiento.
De esta manera tenemos que los documentos siempre se consideran en torno a
la probabilidad que tienen de ser relevantes con respecto de una determinada
necesidad de información, expresada (eso sí) a través de una consulta. De esta
manera, no se dice que un documento es relevante en un 50% o que tiene una
relevancia de 0,5 sobre 1, sino que tiene un 50% de probabilidades de ser
relevante.
Este es un cambio sutil, pero tiene bastante importancia, porque da pie a la
introducción de estimaciones basadas en juicios empíricos de relevancia
llevados a cabo por parte del usuario, quien sí está en condiciones de decidir la
relevancia del documento.
Incertidumbre en el proceso de recuperación de información
Dada una consulta un sistema de recuperación de información tiene una
comprensión incierta de la necesidad de información original. E incluso en el
caso de que tengamos una representación de la consulta y del documento, el
sistema también tiene que adivinar con cierta incertidumbre si el contenido del
documento es relevante para la consulta.
La idea fundamental de la teoría de la probabilidad es proporcionar principios
fundamentados para razonar en un entorno de incertidumbre. Sobre esta idea
se basa el hecho de que se parte de estimaciones que se mejoran con el contacto
con el usuario, o mediante determinados datos extraídos de forma empírica,
pero sin un grado de certeza total sobre los resultados, que siempre pueden
mejorar en base a estimaciones más acertadas o más amplias.
El principio de ranking probabilístico
Asumimos que para un marco de trabajo estándar, con una colección de
documentos, el usuario envía una determinada consulta y el sistema devuelve
un conjunto de documentos ordenado en forma decreciente con respecto de su
relevancia.
En un modelo probabilístico la respuesta obvia a este escenario es ordenar los
documentos por la probabilidad estimada de su relevancia con respecto de la
necesidad de información. O sea, que ordenamos los documentos d por
P(R|d,q). Probabilidad de que dado un documento y una consulta, dicho
documento sea relevante con respecto de la consulta.
Según van Rijsbergen el principio de ranking probabilístico se podría enunciar
de la siguiente forma:
“Si la respuesta de un sistema de recuperación de información de referencia a
cada petición es un ranking de documentos en orden decreciente de
probabilidad de relevancia con respecto de la necesidad de información del
usuario que emitió la petición, y se estiman las probabilidades del modo más
acertado posible sobre la base de los datos que se han puesto a disposición del
sistema para este propósito, la efectividad global del sistema con respecto de los
usuarios será la mejor posible sobre la base de los datos disponibles. ”
En otras palabras, es necesario hacer buenas estimaciones sobre un conjunto de
datos lo más amplio y acertado posible para luego poder ordenar los
documentos en respuesta de una petición del usuario. Es importante tener en
cuenta los datos disponibles. Al final todo se reduce a contar palabras o apreciar
su aparición o ausencia en muchas ocasiones, pero en otras también se pueden
introducir datos provenientes de otras fuentes, como los juicios del usuario para
esta consulta o los juicios de otros usuarios para consultas similares.
El principio de ranking de probabilidad dice en la práctica que se debería
ordenar todos los documentos por P(R|d,q). En esta situación lo que dice la
regla de decisión óptima de Bayes es utilizar un umbral muy simple:
d es relevante si P(R|d) > P(NR|d)
En otras palabras, d es relevante (R) si la probabilidad de que dado dicho
documento éste sea relevante es mayor que la probabilidad de que dado el
mismo documento éste no sea relevante (NR).
Sin embargo, esto sólo nos da una estimación binaria de la relevancia de un
documento, es decir, que P(R|d) > P(NR|d) sólo puede ser verdadero o falso,
0 o 1. Para crear un ranking nosotros necesitaremos una estimación de la
probabilidad de que cada documento sea relevante a la consulta. Y esta
estimación debería ser una cifra entre 0 y 1, 0 y muchos, o de 0 a 100…
Para obtener dicha cifra se utiliza probabilidad relativa, lo que nos hace plantear
la probabilidad de relevancia de los documentos en estos términos:
P(R|d) = P(R|d) / P(NR|d)
o:
P(R|d) = P(R|d) / 1- P(R|d)
Dado que no tenemos datos sobre la relevancia de los documentos, para hacer la
estrategia de recuperación precisa necesitamos estimar cómo los términos en
los documentos contribuyen a la relevancia.
Con el objeto de transformar el problema para poder tener mejores
oportunidades de resolverlo, la expresión anterior (cualquiera de las dos) se
puede someter a algunos cambios. Si utilizamos el teorema de Bayes tenemos
que podemos convertir P(R|d) en:
En este caso tenemos un dato P(d) (probabilidad de elegir ese documento de
entre el total de los documentos de la colección) que ya conocemos y otro P(R)
(probabilidad de que un documento al azar sea relevante) que debería ser
estimable, eso sí con bastante grado de incertidumbre. Nos vamos acercando a
una posible solución al problema. Cualquier acercamiento a la solución de dicho
problema implicará estimaciones y transformaciones de esta ecuación básica del
principio de ranking probabilístico.
En general podemos decir que cualquier modelo de recuperación de
información probabilístico intenta averiguar los términos de la ecuación
anterior utilizando estimaciones y transformaciones de los términos de la
misma. En muchas ocasiones nos basaremos en la forma en que los términos
que componen un documento contribuyen a su probabilidad de relevancia. Esto
puede tomar la forma de estrategias de asignación de pesos a los términos,
mediante el recuento de frecuencias. En otras ocasiones se confiará en el
usuario o en los datos disponibles de consultas anteriores. La forma concreta en
que todo esto se hace da lugar a diferentes modelos de recuperación de
información probabilísticos.
4.1 Modelo de Independencia Binaria
El modelo probabilístico clásico fue introducido en 1976 por Robertson y Spark
Jones. Este modelo también se conoce como modelo de recuperación de
independencia binaria o BIR. Se basa en una representación binaria de los
documentos, de forma que un documento cualquiera sería representado como
un conjunto de unos y ceros que indican la presencia o ausencia de los términos
de indización. Al mismo presupone que una vez tenemos dos tipos de
documentos, los relevantes y los no relevantes, dentro de cada uno de estos
conjuntos todos los atributos son estadísticamente independientes de los otros.
En otras palabras, el hecho de que dos términos coocurran en un mismo
documento no aporta ninguna información extra.
En realidad, tanto la asignación de pesos binarios a los términos de indización
como la independencia de estos entre sí son simplificaciones que van en
detrimento de la asimilación de estos parámetros de representación con la
realidad. En otras palabras, se hacen modelizaciones más útiles que precisas.
Sin embargo se reconoce que esta premisa facilita mucho la formalización del
modelo y por ende la creación de sistemas de recuperación basados en él.
La idea fundamental de este modelo consiste en asumir que “para una
determinada consulta de usuario existe un conjunto de documentos que
comprende exactamente los documentos relevantes y no otros”. Si pudiéramos
describir con certeza las características de este conjunto habríamos solucionado
el problema, ya que seríamos capaces de encontrar los documentos relevantes a
la consulta. Sin embargo habremos de conformarnos con estimaciones más o
menos rigurosas de cuáles son las características a observar.
Podemos expresar la función de relevancia que estima el parecido de un
documento con una consulta en términos de probabilidad como el resultado de
dividir la probabilidad de que un documento sea relevante a la consulta lanzada
por el usuario entre la probabilidad de que dicho documento no sea relevante a
la consulta. Esto se puede formalizar como:
En otras palabras, probabilidad P de que teniendo el documento dj éste sea
relevante R entre la probabilidad P de que teniendo el documento dj éste no sea
relevante . Para comenzar a esclarecer esta expresión podemos utilizar el
teorema de Bayes, con lo que obtendríamos:
Donde P(dj | R) es la probabilidad de que se de el documento dj entre el
conjunto de documentos relevantes
dividido entre P(dj | ¬R), o la
probabilidad de que se de dj entre los documentos no relevantes.
Uno de los escasos datos objetivos con los que contamos en un principio es la
presencia de los diferentes términos en los documentos. Además suponemos
que las relaciones derivadas de la presencia de los distintos términos de
indización no será tenida en cuenta. Teniendo en cuenta estos dos aspectos
podemos expresar el problema sobre la base de los términos de indización:
Donde, teniendo en cuenta que el peso de los términos de indización en la
consulta wi,q y el peso de los términos de indización en los documentos wi,j
sólo puede ser 1 o 0, por lo que en la práctica sólo estamos considerando los
términos presentes en la consulta y el documento de forma simultánea. El resto
de la expresión formaliza la manera en que estimamos la relevancia de un
documento de acuerdo a los términos de indización que lo componen.
La clave reside en la adecuada consideración de las expresiones P(ki | R)y P(ki
| ¬R). En ambas es el número de términos de que se compone la consulta, ki
el término de indización considerado y por tanto P(ki | R) la probabilidad de
que el término de indización ki esté presente en un documento elegido de forma
aleatoria del subconjunto de documentos relevantes , mientras que P(ki | ¬R)
representa la probabilidad de que el término ki no esté presente en un
documento elegido del mismo subconjunto.
Normalmente P(ki | R) tiene un valor inicial de 0,5 (elegido de forma bastante
arbitraria) y P(ki | ¬R)tiene un valor de ni/N, el número de documentos que
contienen el término de indización ni entre el número de documentos total de la
colección (N).
La fórmula anterior nos proporciona el “valor del status de recuperación”, por lo
que contamos con una manera de establecer la probabilidad de relevancia de los
documentos.
En cualquier caso se trata de valores iniciales, que deberían ser refinados
mediante la interacción con el usuario. Se trata pues de evaluar la distribución
real de los términos de indización entre los documentos relevantes mediante la
utilización de la información que el usuario proporciona al sistema de forma
consciente. En otras palabras, el usuario debería seleccionar los documentos
relevantes de entre los que el sistema ha devuelto.
Volveríamos a aplicar la fórmula anterior para hallar el valor del status de
recuperación de cada documento, pero en esta ocasión P(ki | R) tendría como
valor el resultado de dividir ri / R, donde R equivale al número de documentos
que el usuario estimó relevantes y ri equivale al número de documentos que el
usuario consideró relevantes y en los que el término ki aparece. A su vez P(ki |
¬R) se resolvería como fi – ri / F-R, donde F es el número de documentos que
se le presentó al usuario y fi es el número de documentos que se le presentó al
usuario y en los que aparece ki.
Este proceso se puede repetir tantas veces como sea necesario hasta hallar los
documentos deseados. En realidad existen formas de que el usuario no
intervenga en el proceso, aunque la idea original no se planteaba esta
posibilidad.
Sin embargo el modelo probabilístico crece sobre una representación de
documentos que no permite apreciar la distribución de los términos de
indización dentro de los documentos, y no permite tampoco establecer pesos,
por lo que los rankings para consultas cortas pueden no ser tan refinados como
se desearía. Por otra parte la distribución inicial de las probabilidades puede ser
difícil de establecer.
De hecho el modelo probabilístico clásico fue desarrollado en un momento en el
que la mayor parte de las bases de datos sólo utilizaban los resúmenes de los
documentos y no los incluían a texto completo.
4.1 Redes bayesianas
Los modelos basados en redes bayesianas constituyen una aplicación de la
teoría probabilística que ha tenido mucho impacto en Recuperación de
Información, ya que están basadas en fundamentos teóricos muy sólidos. Se
utilizan tanto en aprendizaje automático, como en técnicas de clustering y
clasificación automática así como en cualquier aplicación que se necesite extraer
información de datos incompletos.
Existen básicamente dos tipos de redes bayesianas, las redes de inferencia y las
“redes belief”. Baeza-Yates y Ribeiro-Neto describen las diferencias entre ambas
en los siguientes términos:
- En primer lugar, el modelo de “redes belief” se basa en una visión del
problema que trata de ordenar los resultados en torno a su relevancia desde la
perspectiva de la teoría de conjuntos y adopta un espacio de representación bien
diferenciado. Las redes de inferencia toman una visión puramente
epistemológica del problema de la Recuperación de Información que és más
difícil de aprehender (porque por ejemplo, el espacio de representación no está
claramente definido).
- En segundo lugar las “redes belief” proporcionan una separación entre las
porciones de la red propias del documento y de la consulta que facilita el
modelado de otras fuentes de datos aprovechables, como consultas previas, e
información preexistente sobre la relevancia de los documentos.
- En tercer lugar, como resultado de la separación entre consultas y documentos
las “redes belief” pueden reproducir cualquier estrategia de ranking generada
por las redes de inferencia, mientras que lo contrario no es cierto.
Una red bayesiana consiste en “un conjunto de grafos en el que los nodos
representan variables arbitrarias y los arcos representan las relaciones
existentes entre estas variables, siendo la fuerza de estas relaciones relaciones
codificada mediante probabilidades condicionales”.
La ventaja fundamental que ofrecen las redes bayesianas es la de analizar
relaciones complejas de probabilidad condicionada entre los términos de
indización. El modelo probabilístico tradicional, como hemos observado, asume
que todos los términos son independientes entre sí, mientras que las redes
bayesianas asumen que existen relaciones de independencia localizadas en
subconjuntos de las variables. Esto permite una aproximación mixta que no ha
de cargar con todo el peso computacional y la dificultad de modelado de asumir
todas las interdependencias y al mismo tiempo no asume la simplicidad del
modelo de independencia binaria.
BIBLIOGRAFÍA
Modelos booleanos:
Baeza-Yates y Ribeiro-Neto, Modern Information Retrieval. Addison Wesley
1999.
Modelo probabilístico clásico:
Norbert Fuhr. “Probabilistic Models in Information Retrieval”. The Computer
Journal 35, no 3, (1992), 243–255. URL:
http://citeseer.ist.psu.edu/fuhr92probabilistic.html.
Redes Bayesianas:
Robert Fung y Brendan Favero. “Applying Bayesian networks to information
retrieval.” En: Communications of the ACM, vol. 38/3 1995. (Buscar en Google.
Se puede descargar desde la UCM).
Modelo de espacio vectorial:
Gerard Salton y Michael McGill. Introduction to Modern Information
Retrieval. McGraw-Hill, New York, 1983.
Modelo Generalizado de espacio vectorial:
Wong, Ziarko, y Wong. “Generalized Vector Space Model In Information
Retrieval”. En: ACM SIGIR Conference on Research and Development in
Information Retrieval. 1985, 18–25. (Buscar en Google. Se puede descargar
desde la UCM)
Análisis de la semántica latente:
Deerwester, Dumais, Landaue, Furnas y Harshman. “Indexing by latent
semantic analysis”. Journal of the American Society for Information Science,
41, no 6, (1990), 391–407.
Redes neuronales:
R. Wilkinson y P. Hingston. “Using the cosine measure in a neural network for
document retrieval”. En ACM SIGIR conference on Research and Devlopment
in Information Retrieval. Chicago, US, 1991, 202–210. (Buscar en Google. Se
puede descargar desde la UCM)
Descargar