Exercici pràctic 1 - Universitat de Barcelona

Anuncio
RECUPERACIÓN DE INFORMACIÓN
Tema III
(4,5 puntos: 45% nota final)
Grupo:
Nota:
______________________________________________________________________
1. Analizad el siguiente texto:
“Estrictamente hablando, una necesidad de información sólo es una clase
especial de estado mental, de disposición neuronal en el cerebro, que actúa de guía en la
conducta informacional del usuario. No saber dónde se encuentra el restaurante en el
que cenaremos o no saber si el libro que estamos buscando está o no en la biblioteca de
nuestro barrio son dos ejemplos de necesidad de información. La consulta, en cambio,
se puede identificar como la expresión o representación (oral o escrita) de una necesidad
de información. Los enunciados “¿Dónde se encuentra el restaurante al que iremos a
cenar esta noche?” y “¿El libro que estamos buscando se encuentra en la biblioteca de
nuestro barrio?”, son ejemplos de consultas”. (Extraído de: Ferran, Núria y PérezMontoro, Mario (2009). Búsqueda y recuperación de información. Barcelona: EdiUOC.
ISBN 978-84-9788-834-9).
Tendiendo en cuenta ese análisis del texto y de su contenido, contestad a las
siguientes preguntas:
a) ¿Cómo sería una indización intelectual del contenido del texto? Razonad la
respuesta. (Puntuación máxima: 0,2 puntos).
En la indización intelectual, primeramente, extraemos los términos del texto
que creemos que definen mejor el contenido del documento y añadimos
términos que no aparecen pero que consideramos que son términos
igualmente válidos para facilitar la recuperación de información, porque
también representan bien su contenido.
1
El ejemplo de indización intelectual que nosotras haríamos del texto sería:
1. Necesidad de información
2. Información
3. Recuperación de información
4. Ciencias de la información
5. Consulta de información
6. Ecuación de búsqueda
El primer, tercer y quinto término, aparecen en el texto repetidos varias
veces, y describen algunos de los conceptos claves del texto.
El segundo término, que es información, aparece infinidad de veces y es
sobre lo que versa el texto.
El término Ciencias de la información, es un término compuesto que no
aparece en el texto, y representa muy bien el ámbito científico disciplinar
sobre el que versa el texto.
El término Ecuación de búsqueda, tampoco aparece en el texto, pero está
ligado a la práctica en la recuperación de información a la que se refiere el
texto.
La indización intelectual permite describir el contenido con otros términos
que no están en el documento pero que están relacionados, conceptos
connotados, extraer y crear términos compuestos y discriminar aquellos que
no representan el contenido del texto.
Como desventajas, la indización intelectual supone un coste muy elevado,
porqué implica tiempo y trabajo de la persona que indiza y está sujeta a
cierta subjetividad y a la perspectiva del indizador.
En la indización intelectual podemos describir el contenido con otros
términos que no están en el documento y extraer y crear términos
compuestos.
b) ¿Cómo podría realizarse la indización automatizada del contenido del texto
según el algoritmo nº 1? Comparad este resultado con el de la indización
intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,3
puntos).
2
Algoritmo 1. Modelo de indización simple.
Para realizar el Algoritmo 1 hemos realizado los siguientes pasos:
1. Identificación de la cadena de caracteres
2. Reducir las cadenas de caracteres a cadenas de caracteres únicas.
3. Presentar como resultado el listado de estos términos:
a
el
mental
actúa
en
necesidad
al
encuentra
neuronal
barrio
enunciados
no
biblioteca
es
noche
buscando
escrita
nuestro
cambio
especial
o
cenar
esta
oral
cenaremos
está
puede
cerebro
estado
que
clase
estamos
restaurante
como
estrictamente
representación
conducta
expresión guía
saber
consulta
hablando
se
consultas
identificar
si
de
información
sólo
del
informacional
son
disposición
iremos
una
dónde
la
usuario
dos
libro
y
ejemplos
los
Las diferencias respecto a la indización intelectual es que no reconoce términos
compuestos, incluye palabras vacías que no definen el contenido, y no cabe la
posibilidad de crear términos relacionados que no aparecen en el texto, y en
cambio incluirá otras que no versan sobre el tema.
3
c) ¿Cómo podría realizarse la indización automatizada del contenido del texto
según el algoritmo nº 2a? Comparad este resultado con el de la indización
intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,5
puntos).
Para realizar el algoritmo 2a realizaremos los primeros pasos del modelo de
Algoritmo
(identificación de la cadena de caracteres y la reducción a
cadenas únicas). El siguiente paso sería eliminar las palabras vacías, como
por ejemplo los pronombres, artículos, etc. Seguidamente tendríamos que
fusionar las cadenas de caracteres con raíces comunes, como información e
informacional. Tendríamos que combinar los términos sinónimos si los
hubiera. Continuaríamos con el cálculo de frecuencias absolutas, es decir,
calcularemos el número de veces que aparece el término en el documento,
que es la frecuencia absoluta, y esto nos dará una idea de cuáles son los
mejores candidatos a ser términos de indización. Refinaremos la lista de los
términos que aparecen muy poco. El siguiente punto es el cálculo del índice
de discriminación de cada término, respecto al fondo, que está relacionado
con el hecho que un término que describe el tema globalmente sobre el que
versa el conjunto de documentos, no sirve para discriminar un documento
determinado dentro de la base de datos. A continuación eliminaremos los
términos con un índice de discriminación bajo, como resultado del paso
anterior. Por último asignaremos los descriptores a cada documento, es decir,
representaremos los términos resultantes en una tabla.
La siguiente tabla es el resultado de la tokenización, la eliminación de
palabras vacías, la fusión de cadenas de caracteres con raíces comunes y la
combinación de términos sinónimos del texto:
4
barrio 2
enunciados 1
mental 1
biblioteca 2
escrita 1
necesidad 3
cambio 1
especial 1
neuronal 1
cerebro 1
estado 1
noche 1
clase 1
estrictamente 1
oral 1
conducta 1
expresión 1
restaurante 2
consulta 2
guía 1
representación 1
disposición 1
información 4
usuario 1
ejemplos 2
libro 2
El siguiente paso que hemos realizado es el de escoger los términos que
aparecen más de una vez, a partir del cálculo de frecuencias absolutas. El
resultado final es el siguiente:
barrio 2
información 4
biblioteca 2
libro 2
consulta 2
necesidad 3
ejemplos 2
restaurante 2
Con el modelo de indización avanzada hemos conseguido reducir los términos
significativamente, en comparación al modelo de indización simple. Los
descriptores que resultan mediante este proceso de indización son más refinados.
Hemos solucionado el problema de las palabras vacías, redundancia de palabras
con un mismo significado, que eran limitaciones del modelo simple, pero no
encontramos palabras compuestas o palabras relacionadas que no aparecen en el
texto, que sí se consiguen con una indización intelectual.
Para calcular el índice de discriminación de cada término respecto al fondo,
deberíamos considerar el número de veces que aparece cada término en el
documento respecto al número de veces que aparece en el fondo documental.
5
Si el término que queremos utilizar como descriptor aparece muchas veces en el
conjunto del fondo, su índice de discriminación será bajo. Por el contrario, si
aparece pocas veces será alto. Un descriptor con el índice discriminación es bajo
no es útil, y por tanto lo eliminamos.
Nº total de veces del término información en el fondo = 1000
Nº total de veces del término información en el documento = 4
Nº total de veces del término restaurante en el fondo = 25
Nº total de veces del término restaurante en el documento = 2
Por lo tanto, el término restaurante tendría un índice de discriminación mayor
que el término información, en una base de datos que trata sobre documentos
relacionados con la información y la documentación. Comprobamos que no sería
muy efectivo, ya que el término restaurante no respondería al contenido del
documento.
El siguiente paso que sería el de la eliminación de los términos con un índice de
discriminación bajo, y eliminaríamos el término información.
Así que el resultado final, los descriptores asignados al documento serían los
siguientes:
barrio
libro
biblioteca
necesidad
consulta
restaurante
ejemplos
d) ¿Cómo podría realizarse la indización automatizada del contenido del texto
según el algoritmo nº 2b? Comparad este resultado con el de la indización
intelectual obtenido en (a). Razonad la respuesta. (Puntuación máxima: 0,25
puntos).
6
El algoritmo 2b, modelo de indización avanzada, seguiría los mismos 6
pasos que en el algoritmo 2a. El algoritmo 2b incluiría el paso siguiente de
formación de descriptores compuestos. En este paso, si el sistema percibiera
que dos términos aparecen siempre seguidos, los discriminaría como un
término compuesto. De esta manera, en un conjunto de documentos que
se podría discriminar “necesidad
versaran sobre información,
de
información” si no la hubiéramos eliminado por los pasos de lematización y
el índice de discriminación bajo. Los dos últimos pasos sería realizar la
eliminación de los términos con un índice de discriminación bajo y la
asignación de los descriptores a cada documento, el resultado final sería el
siguiente:
barrio
libro
biblioteca
necesidad
consulta
necesidad de información
ejemplos
restaurante
El algoritmo 2b continúa teniendo la limitación de no incluir como descriptores
términos relacionados semánticamente, característica principal que lo diferencia
de la indización intelectual. Otra desventaja que presenta respecto a la indización
intelectual es la extracción de términos que aparecen varias veces en el texto
pero que no son relevantes respecto al contenido.
2. Indica cómo combinarías los descriptores con los operadores booleanos
correspondientes. (Puntuación máxima: 0,25 puntos).
a) “Universidad de Barcelona”, “Física”, “Química” y “Biología” para obtener
información sobre los grados de ciencias naturales en esta universidad.
Universidad de Barcelona AND (Física OR Química OR Biología)
b) “Universidad de Barcelona”, “Derecho”, “Universitat Pompeu Fabra”,
“Economía” y “Pedagogía” para obtener información sobre la oferta docente
7
en ciencias sociales dentro de sistema universitario público de la ciudad de
Barcelona.
(Universidad de Barcelona OR Universidad Pompeu Fabra) AND (Derecho
OR pedagogía OR Economía)
c) “Barcelona”,
“Construcción”,
“Empresa”,
“Servicios”,
“Banca”
y
“Comercio” para obtener información sobre el tejido empresarial en la
ciudad de Barcelona.
Barcelona AND Empresas Construcción OR Servicios OR Banca OR
Comercio)
d) “Información y Documentación”, “Monografías”, “Artículos de revista” y
“Literatura gris” para obtener información sobre publicaciones del ámbito de
la Información y Documentación.
“Información y Documentación” AND (Monografías OR “Artículos de
revista” OR “Literatura gris”)
e) “Piscinas”, “Barcelona”, “Campos
de fútbol”, “Girona”,
“Lleida”,
“Polideportivos” y “Tarragona” para obtener información sobre instalaciones
en Cataluña, pero que no incluya información sobre Lleida.
((Piscinas OR Campos de futbol OR Polideportivos) AND (Girona OR
Tarragona OR Barcelona)) NOT Lleida
f) “Motocicletas”, “Coches”, “Camiones” y “Autobuses” para obtener
información sobre vehículos a motor.
Motocicletas OR coches OR camiones OR autobuses
8
3. En la página web http://www.buscadorlocal.com/basico/index.htm se ofrece la
posibilidad de poder construir de una manera sencilla un buscador básico para recuperar
contenidos sobre un conjunto de documentos. Leed con atención los contenidos de esa
página (incluido el visionado del video) y realizar las siguientes actividades:
a) Elegid cinco entradas (o voces; páginas web en este caso) del Glosario Bitrum
(http://sites.google.com/site/glosariobitrum/ind) y construid un buscador a partir
de la indización de las mimas. Razonad y glosad documentalmente el proceso de
construcción. (Puntuación máxima: 0,2 puntos).
b) Demostrad de forma razonada y mediante capturas de pantallas que el
buscador que habéis construido ejemplifica las siguientes características
(Puntuación máxima: 0,6 puntos):
a) Permite buscar con las opciones “Con todas las palabras” (AND) y
“Con alguna de las palabras” (OR).
b) No diferencia entre mayúsculas y minúsculas.
c) No diferencia entre palabras acentuadas y sin acentuar.
d) Para incluir una palabra en el índice deberá tener más de dos
caracteres.
e) En el índice no se incluirán las palabras del campo “Palabras vacías”.
f) Cualquier carácter no alfanumérico excepto el guión se considerará
como carácter de separación de palabra.
g) No permite buscar por frases u otras opciones avanzadas de búsqueda.
h) No permite ordenar por relevancia el listado de resultados.
i) No ofrece una frase explicativa para cada ítem en el listado de
resultados.
4. Señala en los gráficos siguientes el conjunto de documentos que recuperarías al
realizar las consultas que se indican. (Puntuación máxima: 0,25 puntos).
a) A NO (B O C)
b) (A NO B) Y C
9
c) ((A Y B) O B) NO C
d) (A Y (B O C)) NO C
5. Imaginad un contexto de búsqueda y recuperación de información en el que se
identifica la siguiente necesidad de información y los siguientes documentos.
Necesidad de información:
Estudiar cómo fue la especulación inmobiliaria en España en la década de los
90. Comprobar si esa especulación mantiene alguna relación con la evolución de
los precios de la vivienda en esa década. No interesa cuál fue el comportamiento
de esa especulación y precios en el resto de Europa.
Documentos:
D1: La especulación inmobiliaria se desarrolló en España a lo largo de la década
de los ochenta. La evolución del precio de la vivienda fue muy alta en esa
década.
D2. En Europa no hubo especulación inmobiliaria a lo largo de la década de los
noventa. La evolución del precio de la vivienda fue baja en esa década.
D3: La evolución del precio de la vivienda fue muy alta en España a lo largo de
la década de los noventa.
D4: La especulación inmobiliaria se desarrolló en España a lo largo de la década
de los noventa. La evolución del precio de la vivienda fue muy alta en esa
década.
D5: La especulación inmobiliaria se desarrolló en España a lo largo de la década
de los noventa. La evolución del precio de la vivienda fue muy alta en esa
década. En Europa, en cambio, la evolución del precio de la vivienda fue baja en
la década de los noventa.
A partir de ese contexto, contestad a las siguientes preguntas:
(a) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación
basado en el modelo booleano puro para poder ayudar a un usuario a satisfacer
10
esa necesidad de información? Razonad la respuesta (Puntuación máxima: 0,4
puntos).
Un sistema de recuperación basado en el modelo booleano puro funcionaría de
la siguiente manera:
1) primero realizaría una indización y la creación del índice inverso
2) seguidamente representaría los documentos como el conjunto de términos
utilizados para representarlos.
Dn= {t1, t2, t3….tn}
3) Finalmente determinaría cuales son las condiciones que tienen que cumplir
los documentos para ser relevantes respecto a una ecuación de búsqueda.
Una ecuación de búsqueda simple estaría formada por un único término y
recuperaría todos los documentos indizados con ese término.
En este caso deberíamos proceder a utilizar una ecuación de búsqueda
compuesta con paréntesis, utilizando los booleanos AND y NOT, para
discriminar documentos que no queremos recuperar (los que hablan de la
especulación inmobiliaria en Europa).
Respecto a la necesidad de información que se nos plantea, en un modelo
booleano puro primero realizaríamos la siguiente indización (Preguntar si se
pueden usar terminos compuestos):
Los términos de indización clave que deberían permitirnos recuperar los
documentos en la búsqueda: especulación inmobiliaria, década de los 90, precio
de la vivienda, Europa, España.
Los documentos representados como el conjunto de sus términos de indización
quedaría de esta manera:
D1: {España, especulación inmobiliaria, precio de la vivienda}
D2: {Europa, especulación inmobiliaria, precio de la vivienda, década de los 90}
D3: {España, precio de la vivienda, década de los 90}
D4: {España, especulación inmobiliaria, precio de la vivienda, década de los 90}
D5: {España, especulación inmobiliaria, precio de la vivienda, década de los 90,
Europa}
11
La ecuación de búsqueda para recuperar la información fruto de esa necesidad
sería:
(España AND especulación inmobiliaria AND precio de la vivienda AND
década de los 90) NOT Europa
(b) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación
basado en el modelo vectorial puro para poder ayudar a un usuario a satisfacer
esa necesidad de información? Razonad la respuesta (Puntuación máxima: 0,4
puntos).
Un sistema de recuperación basado en el modelo vectorial puro utilizaría un
diccionario controlado en todos los casos. Así el primer paso que realizaría un
sistema de recuperación basado en el modelo vectorial puro sería:
1) Establecer la lista de términos de indización.
2) El segundo paso sería generar el espacio vectorial, ordenando los términos
alfabéticamente y representándolos como un vector. Esto es; si el documento
versa sobre un término indicaríamos un uno, si no lo representa, lo
representaríamos con un 0.
3) Finalmente crearíamos el vector de la consulta. Aquellos documentos que no
tienen un 1 en común con la consulta no aparecen en los resultados, y el resto de
resultados aparecerían en un ranking, en el que los primeros resultados serían
aquellos documentos con más 1.
En el caso de nuestra necesidad los pasos serían los siguientes:
- Para establecer la lista de términos de indización tomaríamos los ya
mencionados para el modelo booleano y los ordenaríamos alfabéticamente:
España
especulación inmobiliaria
Europa
década de los 90
precio de la vivienda
Ej: (España, especulación inmobiliaria, Europa, década de los 90, precio de la
12
- Luego generaríamos el espacio vectorial de cada documento:
D1: { España, especulación inmobiliaria, precio de la vivienda}:
D1= (1, 1, 0, 0, 1)
D2: {especulación inmobiliaria, Europa, década de los 90, precio de la vivienda}
D2= (0, 1, 1, 1, 1)
D3: {España, década de los 90, precio de la vivienda}
D3= (1, 0, 0, 1, 1)
D4: {España, especulación inmobiliaria, década de los 90, precio de la vivienda}
D4= (1, 1, 0, 1, 1)
D5: {España, especulación inmobiliaria, Europa, década de los 90, precio de la
vivienda}
D5= (1,1,1,1,1)
Finalmente crearíamos el vector de consulta, que debería ser para esta necesidad:
D= (1, 1, 0, 1, 1)
Este modelo discrimina entre los documentos relevantes, que tienen al menos un
1 en común con el vector consulta, de aquellos no relevantes y permite
establecer un grado de relevancia. Pero requiere definir muy bien los términos de
indización inicialmente.
Pregunta: ¿este modelo discrimina la posición de 0 y unos para definir el
ranquing o simplemente valora según el que comparte más unos? Se quedaría
entonces con el documento cuatro o con el cinco?
(c) ¿Cómo actuaría y qué operaciones desarrollaría un sistema de recuperación
basado en el modelo mixto (booleano/vectorial) para poder ayudar a un usuario a
satisfacer esa necesidad de información? Razonad la respuesta (Puntuación
máxima: 0,4 puntos).
Un sistema de recuperación basado en el modelo mixto aplicaría primero el
modelo booleano puro y luego el vectorial.
1) Primero se realizaría la indización, la representación de los documentos y la
ecuación de búsqueda propia del modelo booleano.
13
2) Después utilizaría los términos que aparecen en la consulta para realizar la
indización de los documentos y establecería los espacios vectoriales a partir del
espacio vectorial generado con la ecuación de búsqueda.
En el caso de esta necesidad de información primero
6. Supongamos que partimos de una base de datos con 100 registros, de los cuales 40
son relevantes para nuestra consulta y los otros 60 no lo son. A partir de diferentes
resultados de nuestras búsquedas, medid los índices de recuperación (o exhaustividad) y
de precisión. (Puntuación máxima: 0,25 puntos).
El índice de exhaustividad o de recuperación hace referencia a la medida en que se
recuperan todos los documentos. A mayor exhaustividad menor silencio. Se calcula de
esta manera:
[a / (a+c)] 100
[documentos recuperados relevantes/ total de documentos relevantes]100
El índice de precisión mide el grado en que los resultados que encontramos con la
búsqueda son relevantes. A mayor precisión menor es el ruido. Se mide con esta
formula:
[a / (a+b)] 100
[documentos recuperados relevantes/total de documentos recuperados (relevantes+no
relevantes] 100
Así a serán los documentos recuperados relevantes, b los documentos recuperados no
relevantes, c los documentos no recuperados relevantes, d los documentos no
recuperados no relevantes, y el total, la suma de documentos del fondo.
a) Búsqueda A: recuperados 77 registros, de los cuales 28 son relevantes para la
consulta.
Si el índice de exhaustividad consiste en el número de documentos recuperados
relevantes sobre el total de documentos relevantes del fondo:
14
[a / (a+c)] 100 = [28/ 40)] 100 = 70
El índice de exhaustividad de la búsqueda a) es del 70 %
Si el índice de precisión representa el número de documentos relevantes
recuperados respecto el total de documentos recuperados:
[a / (a+b)] 100 = [28/77] 100 = 36,36
El índice de precisión de la búsqueda a) es del 36,36 %.
b) Búsqueda B: recuperados 40 registros, de los cuales 35 son relevantes para la
consulta.
[a / (a+c)] 100 = [35/40] 100 = 87,5
El índice de exhaustividad de la búsqueda b) es del 87,5 %
[a / (a+b)] 100 = [35/40] 100 = 87,5
El índice de precisión de la búsqueda b) es del 87,5 %.
c) Búsqueda C: recuperados 25 registros, de los cuales 10 son relevantes para la
consulta.
[a / (a+c)] 100 = [10/40] 100 = 25
El índice de exhaustividad de la búsqueda c) es del 25 %
[a / (a+b)] 100 = [10/25] 100 = 40
El índice de precisión de la búsqueda c) es del 40 %.
Podemos afirmar que la búsqueda que recupera más documentos relevantes, más
exhaustiva, así como la más precisa ha sido la b.
7. Imaginad que en la web de la Facultat de Biblioteconomia i Documentació de la
Universitat de Barcelona se acaba de actualizar el apartado de noticias incorporando el
contenido que se encuentra tras este enlace: http://www.ub.edu/biblio/noticies/actes-desant-jordi-a-la-facultat.html.
Siguiendo las ideas contenidas en el artículo de Sergey Brin y Lawrence Page
(The Anatomy of a Search Engine; colgado en el aula del campus virtual) ¿qué tipos de
operaciones y procesos aplicaría Google a ese contenido para favorecer su posterior
recuperación a través de su buscador? Razonad la respuesta. (Puntuación máxima: 0,5
puntos).
15
PageRank es una de las herramientas que utiliza Google para mejorar los resultados de
la búsqueda. Los enlaces que aparecen en la web permiten un cálculo rápido para medir
la importancia de la web, así como las personas lo hacen de manera subjetiva. Pero aún
así, los enlaces a una página no son igualmente valiosos, este sistema también tiene en
cuenta cuantos enlaces tiene la página desde la que se referencia. De esta forma,
PageRank prioriza los resultados de las búsquedas basándose en palabras clave, así
como las búsquedas basadas en texto completo. Una página tendrá mayor PageRanks si
hay varias páginas que apunten a ella, o bien si hay pocas páginas pero que tienen un
Page Rank alto.
EJEMPLO UB
El texto ancla suele proporcionar descripciones más precisas sobre las páginas webs de
las que versan, que las páginas web en sí mismas. Además, el texto ancla puede
utilizarse para documentos que no puedan indexarse por un motor de búsqueda no
textual, como por ejemplo imágenes, bases de datos, etc. Por ello, el texto ayuda a
buscar información que no sea texto y expande la cobertura de la búsqueda.
EJEMPLO UB
Google estructura los datos principales de las webs para optimizar el rastreo, indexado y
búsqueda dentro de una gran colección de documentos. Tiene un diseño de estructura de
datos complejo, es el siguiente:
BigFiles son los archivos virtuales que se encargan de reservar el espacio y liberarlo en
el momento en el que parecen los mismos descriptores de archivo.
El repositorio contiene el código HTML completo de todas las páginas web, cada
página es comprimida usando la librería zlib. En el repositorio, los documentos son
almacenados uno tras otro, y son prefijados por el docID, la longitud y la URL. El
repositorio no requiere más estructuras de datos para acceder a ellos, de esta manera se
utiliza únicamente un repositorio.
16
El Document Index contiene información acerca de cada documento ordenado por el
docID. La información almacenada en cada entrada del índice incluye el estado actual
del documento, un puntero al repositorio, un código de comprobación de validez y
diferentes estadísticas. Si el documento ha sido rastreado previamente, también contiene
un puntero a una variable, que contiene la URL y el título.
El léxico se guarda en una memoria principal, implementada en dos partes: una lista de
palabras y una tabla de pinteros. Así como un listado de palabras que contiene
información auxiliar.
Hit Lists es una lista que almacena las ocurrencias sobre una determinada palabra en un
documento en particular, incluyendo posición, tipo de letra (mayúscula o minúscula). Es
importante representarla lo más eficientemente posible. Google utiliza dos tipos de
codificaciones compactas: Fancy hits, que incluyen URL, título, texto ancla o etiquetas;
los Plain hits indican si es mayúscula o minúscula, el tamaño de la fuente y los 12 bits
de la posición de la palabra en el documento. Los hits ancla (para una palabra en
particular) son almacenados para mejorar la precisión en la posición.
El índice principal se encuentra parcialmete ordenado en cubetas, ahorrando tiempo y
complejidad en la fase final de indexado.
El índice invertido consiste de las mismas cubetas que el índice principal, solo que han
sido procesadas por el clasificador. Por cada palabra identificada, el léxico contiene una
palabra que va a la cubeta de ésta palabra, y ésta apunta a una lista de docID junto a sus
correspondientes hitlist. Ésta lista de docID representa toda las ocurrencias de esa
palabra en todos los documentos.
Google tiene un rápido sistema de indexado distribuido, un único servidor de URL sirve
listas de URL a varios rastreadores.
Las webs se indexan a través del análisis, la indexación de documentos en las cubetas y
la clasificación de índices invertidos. El sistema de Ranking combina el texto ancla y el
PageRank, considerando cada hit para título, texto ancla, etc.
17
Descargar