Organización de Datos – Curso Servetto

Anuncio
Organización de Datos – Curso Servetto - Ejercicios de Recuperación de Textos
1.
Se recupera la siguiente secuencia de bytes correspondientes a una lista invertida de un índice booleano codificada en Delta y
con la longitud de la lista en primer lugar. Muestre la decodificación de los valores e informe los números de documento:
10001101 11110111 11000100 10100100
2.
Decodifique la siguiente secuencia de dos números codificados en Delta y entornada a un número entero de bytes (con ceros a
la derecha de relleno), y recodifíquela en Golomb con parámetro óptimo 73, también entornándola a un número entero de
bytes: 11100011 01001001 10101011 00000000. Explicite los pasos de ambos procesos indicando las fórmulas que aplique.
3.
Decodifique la siguiente secuencia de dos números codificados en Golomb con parámetro óptimo 87 y entornada a un número
entero de bytes (con ceros a la derecha de relleno), y recodifíquela en Delta, también entornándola a un número entero de
bytes: 11101010 01100111 10000000
4.
Dada la siguiente secuencia de bytes correspondientes a una lista invertida, descomprimirla sabiendo que comienza con la
cantidad c de números comprimida con Gamma, sigue con el divisor g de Golomb comprimido con Delta, y termina con c
números comprimidos con Golomb con divisor g: 10011100 01100000 01110100 00001010 00001101
5.
Detalle la codificación en Delta de la siguiente lista invertida: 239, 241, 872.
6.
Codifique en Golomb con parámetro óptimo 89 la siguiente lista invertida: 39, 150, 372.
7.
Indique cómo comprimiría con front coding parcial en una hoja de un índice primario B# los siguientes registros: (latino, 223, 1),
(latinoamérica, 794, 6), (latinoamericano, 790, 6), (latir, 851, 7), (latitud, 354, 2), (latitudinal, 918, 8), (latitudinario, 1053, 9),
(lato, 612, 5), (laton, 491, 3), (latoneria, 779, 6), (latonero, 783, 6), (latoso, 200, 1), (latrocinio, 124, 0), (laucha, 609, 5), (laud,
1525, 12).
8.
Suponiendo que en el proceso de construcción de un índice invertido se reduce el léxico de modo que
Los sustantivos sólo se registran en singular (p.e. banco en lugar de bancos).
Los adjetivos sólo se registran en masculino singular (p.e. costoso en lugar de costosa, costosas o costosos).
Las formas verbales personales se reemplazan por el infinitivo con el símbolo $ como sufijo (p.e. voy se reemplaza por ir$,
tienes por tener$, estudiaba por estudiar$, correríamos por correr$, salieron por salir$).
Sólo se indexan sustantivos, adjetivos, formas verbales personales (excepto de los verbos auxiliares ser y haber) y formas
verbales no personales (infinitivos –estudiar, correr, salir–, gerundios –estudiando, corriendo, saliendo– y participios –
estudiado/estudiante, corrido/corriente, salido/saliente).
a. Proponga una estrategia algorítmica (estructuras de datos o procedimientos) para reconocer términos indexables en el
proceso de indexación y en las búsquedas, y para reducirlos según las reglas enunciadas. Considere que las alternativas de
reconocimiento son la comprensión (búsqueda en conjunto de positivos o cumplimiento de patrones) o la exclusión
(búsqueda en conjunto de negativos o cumplimiento de patrones), y que dependen de cada regla.
b. Indique el léxico del texto: “Primero se llevaron a los comunistas, pero a mí no me importó porque yo no lo era; enseguida
se llevaron a unos obreros, pero a mí no me importo porque yo tampoco lo era; después detuvieron a los sindicalistas, pero
a mí no me importó porque yo no soy sindicalista; luego apresaron a unos curas, pero como yo no soy religioso, tampoco me
importó; ahora me llevan a mí, pero ya es demasiado tarde.”
9.
Se desea crear un índice booleano sobre el campo “título” de un archivo de libros
a.
Describir y ejemplificar la construcción del índice para los siguientes pares (nroReg, título):
(0, Producción de conocimiento y transferencia en las ciencias sociales), (1, Marxismo y ciencias sociales), (2, Problemas de
fenomenología social), (3, La racionalidad en las ciencias sociales).
b.
Analice y describa cómo actualizaría el índice ante el alta de nuevos registros sin reconstruirlo completamente ante cada
operación. Ejemplifique con (4, Pensadores sociales contemporáneos).
10. Suponiendo que se tiene un índice invertido para consultas por similitud, analice las aproximaciones que se efectúan al cálculo
de similitudes respecto del modelo formal e indique sus motivos (diferencias entre la fórmula de distancia coseno y la de
similitud que efectivamente se calcula en las consultas)
a.
Para búsquedas con recuperación precisa (cálculo de similitud de todos los documentos)
b.
Para búsquedas de los n documentos más relevantes
11. Dadas las listas invertidas con frecuencias normalizadas de los términos correspondientes a la consulta “cancilleres
latinoamericanos” en una base de 1317 documentos:
cancilleres, 3 ((390, 0.200), (27, 0.091), (1308, 0.071))
latinoamericanos, 12 ((542, 0.500), (442, 0.333), (994, 0.333), (427, 0.222), (311, 0.143), (995, 0.143), (330, 0.111), (390,
0.100), (402, 0.077), (509, 0.077), (593, 0.091), (322, 0.056))
Resolver indicativamente cuáles son los 4 documentos en orden descendente de relevancia para la consulta, sin calcular todas
las similitudes.
12. Dadas las siguientes listas (idDoc, frecNorm) de un índice para búsquedas por similitud sobre 1385 documentos:
t1: 5 ( (244, 0.083), (249, 0.167), (354, 0.059), (683, 0.200), (1137, 0.053) )
t2: 2 ( (249, 0.167), (673, 0.125) )
t3: 3 ( (683, 0.200), (890, 0.200), (999, 0.111) )
a.
Detalle el cálculo de la similitud de todos los documentos con la consulta: t1 t2 t3
b.
Detallar la resolución de la consulta: t1 +t2 t3
13. En el recorrido secuencial de un documento para su indexación por el modelo vectorial con un índice secundario de trigramas,
se obtiene el término indexable “circadiano”.
a.
Suponiendo que no se lo encuentra en el vocabulario y que el archivo de términos por orden de aparición ya cuenta con
1723 registros (0..1722), indique qué debe registrar y en qué archivos para la construcción de ambos índices.
b.
Describa el proceso para construir ambos índices luego de haber recorrido todos los documentos a indexar sabiendo que
para el índice vectorial las búsquedas serán siempre de los n documentos más relevantes, sin calcular todas las similitudes
de la consulta con los documentos que contienen sus términos.
c.
Esquematice el proceso de obtención de los n documentos más relevantes para una consulta con términos t1 y t2.
d.
Indique cómo obtener los términos correspondientes al patrón *diano.
14. En el recorrido secuencial de un documento para su indexación por el modelo vectorial con un índice secundario de trigramas,
se obtiene el término indexable “procrastinar”.
a.
Suponiendo que no se lo encuentra en el vocabulario (árbol B#) y que el archivo de términos por orden de aparición ya
cuenta con 2147 registros (0..2146), indique qué debe registrar y en qué archivos para la construcción de ambos índices.
b.
Describa el proceso para construir ambos índices luego de haber recorrido todos los documentos a indexar, sabiendo que
para el índice vectorial las búsquedas serán siempre de TODOS los documentos relevantes.
c.
Indique cómo obtener los términos correspondientes al patrón pro*.
15. Detalle el proceso de construcción de un índice de digramas, indicando puntualmente:
a.
La estructura del índice en términos de los archivos que requiera su soporte con la composición de sus registros.
b.
Los registros que debe escribir en el archivo de trabajo requerido para su construcción, al incorporar el término nuevo
“fiuba” con identificador 947 en el índice primario.
c.
Cómo procesar el archivo de trabajo para construir las listas invertidas de términos por digrama.
16. Suponiendo que en el vocabulario de un índice de textos se encuentran los siguientes términos con el sufijo “americano”:
afroamericano, americano, centroamericano, hispanoamericano, iberoamericano, interamericano, latinoamericano,
norteamericano, panamericano, sudamericano
Indique la secuencia de rotaciones que obtendría al buscarlos en un índice de léxico rotado y con qué patrón de búsqueda.
17. Suponiendo que el resultado de una búsqueda de términos con el patrón “am*ando” es (amando, amansando, amasijando,
amolando, amoldando, ampliando y amputando):
a.
Indique la secuencia de rotaciones que se debió encontrar en un índice secundario de léxico rotado para obtener ese
resultado.
b.
Detalle los pasos que se debió completar para obtener ese resultado de un índice secundario trigramas(trig, (idT)+).
18. Dado el vocabulario normalizado V={informatica, ofimatica, domotica, automatica, electronica, mecanica, tecnica, mecatronica,
logitronica, economica, metrica, econometrica}, construya los índices que se piden para búsqueda de términos parecidos y
resuelva para cada uno la búsqueda de términos parecidos a ‘infromatica’ con radio de tolerancia 2. Seleccione los
pivotes/centros de clusters con coeficiente 0.4.
a.
SSS
b.
De clusters
19. Explique cómo realizar una consulta de documentos que contengan dos términos, en un índice de porciones de firmas. Grafique
la explicación asumiendo que las firmas son de F bits, y la cantidad de documentos indexados es D.
20. Se desea indexar documentos por porciones de firmas y se estima que el léxico de los mismos rondaría 28000 términos.
a.
Proponga un tamaño de firma y una cantidad de funciones de hash para implementar el índice y justifique.
b.
Suponiendo que no se puede manejar las firmas en RAM para la construcción del índice, describa un proceso similar al de
construcción de índices invertidos que permita construirlo (indique archivos con sus estructuras de registros, y pasos
necesarios).
Descargar