RECUPERACIÓN DE INFORMACIÓN Tema III (4,5 puntos: 45% nota final) Grupo: Nota: ______________________________________________________________________ 1. Analizad el siguiente texto: “Estrictamente hablando, una necesidad de información sólo es una clase especial de estado mental, de disposición neuronal en el cerebro, que actúa de guía en la conducta informacional del usuario. No saber dónde se encuentra el restaurante en el que cenaremos o no saber si el libro que estamos buscando está o no en la biblioteca de nuestro barrio son dos ejemplos de necesidad de información. La consulta, en cambio, se puede identificar como la expresión o representación (oral o escrita) de una necesidad de información. Los enunciados “¿Dónde se encuentra el restaurante al que iremos a cenar esta noche?” y “¿El libro que estamos buscando se encuentra en la biblioteca de nuestro barrio?”, son ejemplos de consultas”. (Extraído de: Ferran, Núria y PérezMontoro, Mario (2009). Búsqueda y recuperación de información. Barcelona: EdiUOC. ISBN 978-84-9788-834-9). Tendiendo en cuenta ese análisis del texto y de su contenido, contestad a las siguientes preguntas: a) ¿Cómo sería una indización intelectual del contenido del texto? Razonad la respuesta. (Puntuación máxima: 0,2 puntos). En la indización intelectual, primeramente, extraemos los términos del texto que creemos que definen mejor el contenido del documento y añadimos términos que no aparecen pero que consideramos que son términos igualmente válidos para facilitar la recuperación de información, porque también representan bien su contenido. 1 El ejemplo de indización intelectual que nosotras haríamos del texto sería: 1. Necesidad de información 2. Información 3. Recuperación de información 4. Ciencias de la información 5. Consulta de información 6. Ecuación de búsqueda El primer, tercer y quinto término, aparecen en el texto repetidos varias veces, y describen algunos de los conceptos claves del texto. El segundo término, que es información, aparece infinidad de veces y es sobre lo que versa el texto. El término Ciencias de la información, es un término compuesto que no aparece en el texto, y representa muy bien el ámbito científico disciplinar sobre el que versa el texto. El término Ecuación de búsqueda, tampoco aparece en el texto, pero está ligado a la práctica en la recuperación de información a la que se refiere el texto. La indización intelectual permite describir el contenido con otros términos que no están en el documento pero que están relacionados, conceptos connotados, extraer y crear términos compuestos y discriminar aquellos que no representan el contenido del texto. Como desventajas, la indización intelectual supone un coste muy elevado, porqué implica tiempo y trabajo de la persona que indiza y está sujeta a cierta subjetividad y a la perspectiva del indizador. En la indización intelectual podemos describir el contenido con otros términos que no están en el documento y extraer y crear términos compuestos. b) ¿Cómo podría realizarse la indización automatizada del contenido del texto según el algoritmo nº 1? Comparad este resultado con el de la indización intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,3 puntos). 2 Algoritmo 1. Modelo de indización simple. Para realizar el Algoritmo 1 hemos realizado los siguientes pasos: 1. Identificación de la cadena de caracteres 2. Reducir las cadenas de caracteres a cadenas de caracteres únicas. 3. Presentar como resultado el listado de estos términos: a el mental actúa en necesidad al encuentra neuronal barrio enunciados no biblioteca es noche buscando escrita nuestro cambio especial o cenar esta oral cenaremos está puede cerebro estado que clase estamos restaurante como estrictamente representación conducta expresión guía saber consulta hablando se consultas identificar si de información sólo del informacional son disposición iremos una dónde la usuario dos libro y ejemplos los Las diferencias respecto a la indización intelectual es que no reconoce términos compuestos, incluye palabras vacías que no definen el contenido, y no cabe la posibilidad de crear términos relacionados que no aparecen en el texto, y en cambio incluirá otras que no versan sobre el tema. 3 c) ¿Cómo podría realizarse la indización automatizada del contenido del texto según el algoritmo nº 2a? Comparad este resultado con el de la indización intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,5 puntos). Para realizar el algoritmo 2a realizaremos los primeros pasos del modelo de Algoritmo (identificación de la cadena de caracteres y la reducción a cadenas únicas). El siguiente paso sería eliminar las palabras vacías, como por ejemplo los pronombres, artículos, etc. Seguidamente tendríamos que fusionar las cadenas de caracteres con raíces comunes, como información e informacional. Tendríamos que combinar los términos sinónimos si los hubiera. Continuaríamos con el cálculo de frecuencias absolutas, es decir, calcularemos el número de veces que aparece el término en el documento, que es la frecuencia absoluta, y esto nos dará una idea de cuáles son los mejores candidatos a ser términos de indización. Refinaremos la lista de los términos que aparecen muy poco. El siguiente punto es el cálculo del índice de discriminación de cada término, respecto al fondo, que está relacionado con el hecho que un término que describe el tema globalmente sobre el que versa el conjunto de documentos, no sirve para discriminar un documento determinado dentro de la base de datos. A continuación eliminaremos los términos con un índice de discriminación bajo, como resultado del paso anterior. Por último asignaremos los descriptores a cada documento, es decir, representaremos los términos resultantes en una tabla. La siguiente tabla es el resultado de la tokenización, la eliminación de palabras vacías, la fusión de cadenas de caracteres con raíces comunes y la combinación de términos sinónimos del texto: 4 barrio 2 enunciados 1 mental 1 biblioteca 2 escrita 1 necesidad 3 cambio 1 especial 1 neuronal 1 cerebro 1 estado 1 noche 1 clase 1 estrictamente 1 oral 1 conducta 1 expresión 1 restaurante 2 consulta 2 guía 1 representación 1 disposición 1 información 4 usuario 1 ejemplos 2 libro 2 El siguiente paso que hemos realizado es el de escoger los términos que aparecen más de una vez, a partir del cálculo de frecuencias absolutas. El resultado final es el siguiente: barrio 2 información 4 biblioteca 2 libro 2 consulta 2 necesidad 3 ejemplos 2 restaurante 2 Con el modelo de indización avanzada hemos conseguido reducir los términos significativamente, en comparación al modelo de indización simple. Los descriptores que resultan mediante este proceso de indización son más refinados. Hemos solucionado el problema de las palabras vacías, redundancia de palabras con un mismo significado, que eran limitaciones del modelo simple, pero no encontramos palabras compuestas o palabras relacionadas que no aparecen en el texto, que sí se consiguen con una indización intelectual. Para calcular el índice de discriminación de cada término respecto al fondo, deberíamos considerar el número de veces que aparece cada término en el documento respecto al número de veces que aparece en el fondo documental. 5 Si el término que queremos utilizar como descriptor aparece muchas veces en el conjunto del fondo, su índice de discriminación será bajo. Por el contrario, si aparece pocas veces será alto. Un descriptor con el índice discriminación es bajo no es útil, y por tanto lo eliminamos. Nº total de veces del término información en el fondo = 1000 Nº total de veces del término información en el documento = 4 Nº total de veces del término restaurante en el fondo = 25 Nº total de veces del término restaurante en el documento = 2 Por lo tanto, el término restaurante tendría un índice de discriminación mayor que el término información, en una base de datos que trata sobre documentos relacionados con la información y la documentación. Comprobamos que no sería muy efectivo, ya que el término restaurante no respondería al contenido del documento. El siguiente paso que sería el de la eliminación de los términos con un índice de discriminación bajo, y eliminaríamos el término información. Así que el resultado final, los descriptores asignados al documento serían los siguientes: barrio libro biblioteca necesidad consulta restaurante ejemplos d) ¿Cómo podría realizarse la indización automatizada del contenido del texto según el algoritmo nº 2b? Comparad este resultado con el de la indización intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,25 puntos). 6 El algoritmo 2b, modelo de indización avanzada, seguiría los mismos 6 pasos que en el algoritmo 2a. El algoritmo 2b incluiría el paso siguiente de formación de descriptores compuestos. En este paso, si el sistema percibiera que dos términos aparecen siempre seguidos, los discriminaría como un término compuesto. De esta manera, en un conjunto de documentos que se podría discriminar “necesidad versaran sobre información, de información” si no la hubiéramos eliminado por los pasos de lematización y el índice de discriminación bajo. Los dos últimos pasos sería realizar la eliminación de los términos con un índice de discriminación bajo y la asignación de los descriptores a cada documento, el resultado final sería el siguiente: barrio libro biblioteca necesidad consulta necesidad de información ejemplos restaurante El algoritmo 2b continúa teniendo la limitación de no incluir como descriptores términos relacionados semánticamente, característica principal que lo diferencia de la indización intelectual. Otra desventaja que presenta respecto a la indización intelectual es la extracción de términos que aparecen varias veces en el texto pero que no son relevantes respecto al contenido. 2. Indica cómo combinarías los descriptores con los operadores booleanos correspondientes. (Puntuación máxima: 0,25 puntos). a) “Universidad de Barcelona”, “Física”, “Química” y “Biología” para obtener información sobre los grados de ciencias naturales en esta universidad. Universidad de Barcelona AND (Física OR Química OR Biología) b) “Universidad de Barcelona”, “Derecho”, “Universitat Pompeu Fabra”, “Economía” y “Pedagogía” para obtener información sobre la oferta docente 7 en ciencias sociales dentro de sistema universitario público de la ciudad de Barcelona. (Universidad de Barcelona OR Universidad Pompeu Fabra) AND (Derecho OR pedagogía OR Economía) c) “Barcelona”, “Construcción”, “Empresa”, “Servicios”, “Banca” y “Comercio” para obtener información sobre el tejido empresarial en la ciudad de Barcelona. Barcelona AND Empresas Construcción OR Servicios OR Banca OR Comercio) d) “Información y Documentación”, “Monografías”, “Artículos de revista” y “Literatura gris” para obtener información sobre publicaciones del ámbito de la Información y Documentación. “Información y Documentación” AND (Monografías OR “Artículos de revista” OR “Literatura gris”) e) “Piscinas”, “Barcelona”, “Campos de fútbol”, “Girona”, “Lleida”, “Polideportivos” y “Tarragona” para obtener información sobre instalaciones en Cataluña, pero que no incluya información sobre Lleida. ((Piscinas OR Campos de futbol OR Polideportivos) AND (Girona OR Tarragona OR Barcelona)) NOT Lleida f) “Motocicletas”, “Coches”, “Camiones” y “Autobuses” para obtener información sobre vehículos a motor. Motocicletas OR coches OR camiones OR autobuses 8 3. En la página web http://www.buscadorlocal.com/basico/index.htm se ofrece la posibilidad de poder construir de una manera sencilla un buscador básico para recuperar contenidos sobre un conjunto de documentos. Leed con atención los contenidos de esa página (incluido el visionado del video) y realizar las siguientes actividades: a) Elegid cinco entradas (o voces; páginas web en este caso) del Glosario Bitrum (http://sites.google.com/site/glosariobitrum/ind) y construid un buscador a partir de la indización de las mimas. Razonad y glosad documentalmente el proceso de construcción. (Puntuación máxima: 0,2 puntos). b) Demostrad de forma razonada y mediante capturas de pantallas que el buscador que habéis construido ejemplifica las siguientes características (Puntuación máxima: 0,6 puntos): a) Permite buscar con las opciones “Con todas las palabras” (AND) y “Con alguna de las palabras” (OR). b) No diferencia entre mayúsculas y minúsculas. c) No diferencia entre palabras acentuadas y sin acentuar. d) Para incluir una palabra en el índice deberá tener más de dos caracteres. e) En el índice no se incluirán las palabras del campo “Palabras vacías”. f) Cualquier carácter no alfanumérico excepto el guión se considerará como carácter de separación de palabra. g) No permite buscar por frases u otras opciones avanzadas de búsqueda. h) No permite ordenar por relevancia el listado de resultados. i) No ofrece una frase explicativa para cada ítem en el listado de resultados. 4. Señala en los gráficos siguientes el conjunto de documentos que recuperarías al realizar las consultas que se indican. (Puntuación máxima: 0,25 puntos). a) A NO (B O C) b) (A NO B) Y C 9 c) ((A Y B) O B) NO C d) (A Y (B O C)) NO C 5. Imaginad un contexto de búsqueda y recuperación de información en el que se identifica la siguiente necesidad de información y los siguientes documentos. Necesidad de información: Estudiar cómo fue la especulación inmobiliaria en España en la década de los 90. Comprobar si esa especulación mantiene alguna relación con la evolución de los precios de la vivienda en esa década. No interesa cuál fue el comportamiento de esa especulación y precios en el resto de Europa. Documentos: D1: La especulación inmobiliaria se desarrolló en España a lo largo de la década de los ochenta. La evolución del precio de la vivienda fue muy alta en esa década. D2. En Europa no hubo especulación inmobiliaria a lo largo de la década de los noventa. La evolución del precio de la vivienda fue baja en esa década. D3: La evolución del precio de la vivienda fue muy alta en España a lo largo de la década de los noventa. D4: La especulación inmobiliaria se desarrolló en España a lo largo de la década de los noventa. La evolución del precio de la vivienda fue muy alta en esa década. D5: La especulación inmobiliaria se desarrolló en España a lo largo de la década de los noventa. La evolución del precio de la vivienda fue muy alta en esa década. En Europa, en cambio, la evolución del precio de la vivienda fue baja en la década de los noventa. A partir de ese contexto, contestad a las siguientes preguntas: (a) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación basado en el modelo booleano puro para poder ayudar a un usuario a satisfacer 10 esa necesidad de información? Razonad la respuesta (Puntuación máxima: 0,4 puntos). Un sistema de recuperación basado en el modelo booleano puro funcionaría de la siguiente manera: 1) primero realizaría una indización y la creación del índice inverso 2) seguidamente representaría los documentos como el conjunto de términos utilizados para representarlos. Dn= {t1, t2, t3….tn} 3) Finalmente determinaría cuales son las condiciones que tienen que cumplir los documentos para ser relevantes respecto a una ecuación de búsqueda. Una ecuación de búsqueda simple estaría formada por un único término y recuperaría todos los documentos indizados con ese término. En este caso deberíamos proceder a utilizar una ecuación de búsqueda compuesta con paréntesis, utilizando los booleanos AND y NOT, para discriminar documentos que no queremos recuperar (los que hablan de la especulación inmobiliaria en Europa). Respecto a la necesidad de información que se nos plantea, en un modelo booleano puro primero realizaríamos la siguiente indización (Preguntar si se pueden usar terminos compuestos): Los términos de indización clave que deberían permitirnos recuperar los documentos en la búsqueda: especulación inmobiliaria, década de los 90, precio de la vivienda, Europa, España. Los documentos representados como el conjunto de sus términos de indización quedaría de esta manera: D1: {España, especulación inmobiliaria, precio de la vivienda} D2: {Europa, especulación inmobiliaria, precio de la vivienda, década de los 90} D3: {España, precio de la vivienda, década de los 90} D4: {España, especulación inmobiliaria, precio de la vivienda, década de los 90} D5: {España, especulación inmobiliaria, precio de la vivienda, década de los 90, Europa} 11 La ecuación de búsqueda para recuperar la información fruto de esa necesidad sería: (España AND especulación inmobiliaria AND precio de la vivienda AND década de los 90) NOT Europa (b) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación basado en el modelo vectorial puro para poder ayudar a un usuario a satisfacer esa necesidad de información? Razonad la respuesta (Puntuación máxima: 0,4 puntos). Un sistema de recuperación basado en el modelo vectorial puro utilizaría un diccionario controlado en todos los casos. Así el primer paso que realizaría un sistema de recuperación basado en el modelo vectorial puro sería: 1) Establecer la lista de términos de indización. 2) El segundo paso sería generar el espacio vectorial, ordenando los términos alfabéticamente y representándolos como un vector. Esto es; si el documento versa sobre un término indicaríamos un uno, si no lo representa, lo representaríamos con un 0. 3) Finalmente crearíamos el vector de la consulta. Aquellos documentos que no tienen un 1 en común con la consulta no aparecen en los resultados, y el resto de resultados aparecerían en un ranking, en el que los primeros resultados serían aquellos documentos con más 1. En el caso de nuestra necesidad los pasos serían los siguientes: - Para establecer la lista de términos de indización tomaríamos los ya mencionados para el modelo booleano y los ordenaríamos alfabéticamente: España especulación inmobiliaria Europa década de los 90 precio de la vivienda Ej: (España, especulación inmobiliaria, Europa, década de los 90, precio de la 12 - Luego generaríamos el espacio vectorial de cada documento: D1: { España, especulación inmobiliaria, precio de la vivienda}: D1= (1, 1, 0, 0, 1) D2: {especulación inmobiliaria, Europa, década de los 90, precio de la vivienda} D2= (0, 1, 1, 1, 1) D3: {España, década de los 90, precio de la vivienda} D3= (1, 0, 0, 1, 1) D4: {España, especulación inmobiliaria, década de los 90, precio de la vivienda} D4= (1, 1, 0, 1, 1) D5: {España, especulación inmobiliaria, Europa, década de los 90, precio de la vivienda} D5= (1,1,1,1,1) Finalmente crearíamos el vector de consulta, que debería ser para esta necesidad: D= (1, 1, 0, 1, 1) Este modelo discrimina entre los documentos relevantes, que tienen al menos un 1 en común con el vector consulta, de aquellos no relevantes y permite establecer un grado de relevancia. Pero requiere definir muy bien los términos de indización inicialmente. Pregunta: ¿este modelo discrimina la posición de 0 y unos para definir el ranquing o simplemente valora según el que comparte más unos? Se quedaría entonces con el documento cuatro o con el cinco? (c) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación basado en el modelo mixto (booleano/vectorial) para poder ayudar a un usuario a satisfacer esa necesidad de información? Razonad la respuesta (Puntuación máxima: 0,4 puntos). Un sistema de recuperación basado en el modelo mixto aplicaría primero el modelo booleano puro y luego el vectorial. 1) Primero se realizaría la indización, la representación de los documentos y la ecuación de búsqueda propia del modelo booleano. 13 2) Después utilizaría los términos que aparecen en la consulta para realizar la indización de los documentos y establecería los espacios vectoriales a partir del espacio vectorial generado con la ecuación de búsqueda. En el caso de esta necesidad de información primero 6. Supongamos que partimos de una base de datos con 100 registros, de los cuales 40 son relevantes para nuestra consulta y los otros 60 no lo son. A partir de diferentes resultados de nuestras búsquedas, medid los índices de recuperación (o exhaustividad) y de precisión. (Puntuación máxima: 0,25 puntos). El índice de exhaustividad o de recuperación hace referencia a la medida en que se recuperan todos los documentos. A mayor exhaustividad menor silencio. Se calcula de esta manera: [a / (a+c)] 100 [documentos recuperados relevantes/ total de documentos relevantes]100 El índice de precisión mide el grado en que los resultados que encontramos con la búsqueda son relevantes. A mayor precisión menor es el ruido. Se mide con esta formula: [a / (a+b)] 100 [documentos recuperados relevantes/total de documentos recuperados (relevantes+no relevantes] 100 Así a serán los documentos recuperados relevantes, b los documentos recuperados no relevantes, c los documentos no recuperados relevantes, d los documentos no recuperados no relevantes, y el total, la suma de documentos del fondo. a) Búsqueda A: recuperados 77 registros, de los cuales 28 son relevantes para la consulta. Si el índice de exhaustividad consiste en el número de documentos recuperados relevantes sobre el total de documentos relevantes del fondo: 14 [a / (a+c)] 100 = [28/ 40)] 100 = 70 El índice de exhaustividad de la búsqueda a) es del 70 % Si el índice de precisión representa el número de documentos relevantes recuperados respecto el total de documentos recuperados: [a / (a+b)] 100 = [28/77] 100 = 36,36 El índice de precisión de la búsqueda a) es del 36,36 %. b) Búsqueda B: recuperados 40 registros, de los cuales 35 son relevantes para la consulta. [a / (a+c)] 100 = [35/40] 100 = 87,5 El índice de exhaustividad de la búsqueda b) es del 87,5 % [a / (a+b)] 100 = [35/40] 100 = 87,5 El índice de precisión de la búsqueda b) es del 87,5 %. c) Búsqueda C: recuperados 25 registros, de los cuales 10 son relevantes para la consulta. [a / (a+c)] 100 = [10/40] 100 = 25 El índice de exhaustividad de la búsqueda c) es del 25 % [a / (a+b)] 100 = [10/25] 100 = 40 El índice de precisión de la búsqueda c) es del 40 %. Podemos afirmar que la búsqueda que recupera más documentos relevantes, más exhaustiva, así como la más precisa ha sido la b. 7. Imaginad que en la web de la Facultat de Biblioteconomia i Documentació de la Universitat de Barcelona se acaba de actualizar el apartado de noticias incorporando el contenido que se encuentra tras este enlace: http://www.ub.edu/biblio/noticies/actes-desant-jordi-a-la-facultat.html. Siguiendo las ideas contenidas en el artículo de Sergey Brin y Lawrence Page (The Anatomy of a Search Engine; colgado en el aula del campus virtual) ¿qué tipos de operaciones y procesos aplicaría Google a ese contenido para favorecer su posterior recuperación a través de su buscador? Razonad la respuesta. (Puntuación máxima: 0,5 puntos). 15 PageRank es una de las herramientas que utiliza Google para mejorar los resultados de la búsqueda. Los enlaces que aparecen en la web permiten un cálculo rápido para medir la importancia de la web, así como las personas lo hacen de manera subjetiva. Pero aún así, los enlaces a una página no son igualmente valiosos, este sistema también tiene en cuenta cuantos enlaces tiene la página desde la que se referencia. De esta forma, PageRank prioriza los resultados de las búsquedas basándose en palabras clave, así como las búsquedas basadas en texto completo. Una página tendrá mayor PageRanks si hay varias páginas que apunten a ella, o bien si hay pocas páginas pero que tienen un Page Rank alto. EJEMPLO UB El texto ancla suele proporcionar descripciones más precisas sobre las páginas webs de las que versan, que las páginas web en sí mismas. Además, el texto ancla puede utilizarse para documentos que no puedan indexarse por un motor de búsqueda no textual, como por ejemplo imágenes, bases de datos, etc. Por ello, el texto ayuda a buscar información que no sea texto y expande la cobertura de la búsqueda. EJEMPLO UB Google estructura los datos principales de las webs para optimizar el rastreo, indexado y búsqueda dentro de una gran colección de documentos. Tiene un diseño de estructura de datos complejo, es el siguiente: BigFiles son los archivos virtuales que se encargan de reservar el espacio y liberarlo en el momento en el que parecen los mismos descriptores de archivo. El repositorio contiene el código HTML completo de todas las páginas web, cada página es comprimida usando la librería zlib. En el repositorio, los documentos son almacenados uno tras otro, y son prefijados por el docID, la longitud y la URL. El repositorio no requiere más estructuras de datos para acceder a ellos, de esta manera se utiliza únicamente un repositorio. 16 El Document Index contiene información acerca de cada documento ordenado por el docID. La información almacenada en cada entrada del índice incluye el estado actual del documento, un puntero al repositorio, un código de comprobación de validez y diferentes estadísticas. Si el documento ha sido rastreado previamente, también contiene un puntero a una variable, que contiene la URL y el título. El léxico se guarda en una memoria principal, implementada en dos partes: una lista de palabras y una tabla de pinteros. Así como un listado de palabras que contiene información auxiliar. Hit Lists es una lista que almacena las ocurrencias sobre una determinada palabra en un documento en particular, incluyendo posición, tipo de letra (mayúscula o minúscula). Es importante representarla lo más eficientemente posible. Google utiliza dos tipos de codificaciones compactas: Fancy hits, que incluyen URL, título, texto ancla o etiquetas; los Plain hits indican si es mayúscula o minúscula, el tamaño de la fuente y los 12 bits de la posición de la palabra en el documento. Los hits ancla (para una palabra en particular) son almacenados para mejorar la precisión en la posición. El índice principal se encuentra parcialmete ordenado en cubetas, ahorrando tiempo y complejidad en la fase final de indexado. El índice invertido consiste de las mismas cubetas que el índice principal, solo que han sido procesadas por el clasificador. Por cada palabra identificada, el léxico contiene una palabra que va a la cubeta de ésta palabra, y ésta apunta a una lista de docID junto a sus correspondientes hitlist. Ésta lista de docID representa toda las ocurrencias de esa palabra en todos los documentos. Google tiene un rápido sistema de indexado distribuido, un único servidor de URL sirve listas de URL a varios rastreadores. Las webs se indexan a través del análisis, la indexación de documentos en las cubetas y la clasificación de índices invertidos. El sistema de Ranking combina el texto ancla y el PageRank, considerando cada hit para título, texto ancla, etc. 17