Catalogación y búsqueda semántica en un sitio web

Anuncio
Catalogación y búsqueda semántica en un sitio web
Juan Barrios N. - Claudio Gutiérrez
Universidad de Chile, Departamento de Ciencias de la Computación,
Blanco Encalada 2120, Santiago, Chile
[email protected] - [email protected]
Resumen
La Web Semántica es una propuesta de la W3C que permite automatizar el procesamiento semántico de la
información en la Web actual. Una de las aplicaciones que más se potencia con este enfoque es la catalogación,
es decir, el proceso de creación de información agregada a nivel semántico. Este trabajo propone un modelo
para la catalogación semi-automática de un sitio web a partir de la creación de un conjunto de metadatos
sobre los contenidos de un sitio. A partir de esto crea un catálogo y ofrece al usuario distintos buscadores
sobre estos conceptos semánticos. Este enfoque mejora los resultados de los buscadores sintácticos en el
ámbito de intranets, donde las técnicas de recuperación de información clásica no han mostrado los éxitos
que tienen en Internet global. Este artı́culo reporta el modelo, su implementación, un caso de estudio, y su
comparación con buscadores sintácticos en un sitio.
Palabras claves: Catálogos, Metadatos, Web Semántica, Intranet, Búsqueda Semántica
Abstract
The Semantic Web is a proposal of the W3C to allow automatic processing of semantic information in
the current Web. One of the applications which benefits more with this approach is cataloguing, that is,
the process of creation of aggregate information at a semantic level. This work proposes a model for semiautomatic cataloguing of a Web site based on the creation of a set of metadata about the site contents. It
builds a catalog and offers the user different search procedures based on semantic concepts. This approach
improves results of syntactic search engines in the scope of intranets, where classical information retrieval
techniques are far from having the success they enjoy in the global Internet. This paper reports a model, its
design and implementation, tests it against a study case, and compares it with syntactic search engines in a
single Web site.
Keywords: Catalog, Metadata, Semantic Web, Intranet, Semantic Search
1.
Introducción
La Web Semántica es una extensión de la Web tradicional donde a la información publicada en lenguaje natural se le agrega un significado estructurado, con el objetivo de permitir que el contenido de un
documento pueda ser procesado y entendido por una computadora [3]. Para aumentar la comprensión de
los computadores, los humanos deben extraer la información relevante de cada documento y mantenerla
como datos agregados o metadatos. Una de las aplicaciones más interesantes que ha potenciado este enfoque
es la catalogación, debido a las técnicas proporcionadas para la creación de información agregada a nivel
semántico. En particular, hoy tenemos las herramientas conceptuales para enfrentar la tarea de catalogación de páginas web. Los Directorios Web -como el Open Directory Project- son una demostración de las
posibilidades que proporciona la catalogación dentro de la Web, como reunir sitios relacionados o realizar
búsquedas restringidas a ámbitos temáticos.
La catalogación ha sido utilizada con anterioridad a la existencia de la Web, particularmente en las
bibliotecas, donde se extrae información de cada libro por bibliotecarios especializados creando una ficha
correspondiente bajo un formato y reglas definidas, formando un catálogo. Sin embargo, aún cuando este
proceso sea una técnica antigua y esté estandarizada desde los años ’60 en formatos como el MARC (Machine
Readable Catalogue Format) [6], los documentos digitales de la Web no pueden catalogarse en el sentido
tradicional y estricto de una biblioteca [11]. Esto se debe a que existen caracterı́sticas especı́ficas de la
información electrónica que hacen que un registro de metadatos de un documento electrónico (un texto,
un sonido, una imagen digital, un programa, etc.) difiera de los registros catalográficos tradicionales de la
información tangible (libros, revistas, etc.). Cualquier forma de catalogación debe tomar en cuenta, además,
la naturaleza de la Web y sus principales dificultades para esta área: Masividad, Dinamismo y Distribución
[2, 7].
Por otra parte, los buscadores sintácticos de Internet se han transformado en la principal puerta de acceso
a la gran cantidad de información disponible en lı́nea. Los usuarios incluso han comenzado a utilizarlos como
“buscadores de respuestas”, visualizando a la Web como un solo gran recurso que proporciona información
sin importar de donde provenga ésta [14]. Diversos estudios de satisfacción demuestran la buena evaluación
que tienen los buscadores de Internet por parte de los usuarios, por ejemplo, en un estudio de la American
Customer Satisfaction Index publicado en agosto del 2004, la satisfacción de los usuarios con los motores de
búsquedas alcanza 80 puntos de un máximo de 100 [1].
Junto con el éxito en el crecimiento de Internet se ha verificado un aumento del número de sitios de
intranets, es decir, de sitios web intra-organizacionales separados de Internet por firewalls o proxies, lo
que ha generado una necesidad de motores de búsqueda con caracterı́sticas especiales para intranets. Sin
embargo, aún cuando la búsqueda de páginas en Internet ha recibido gran atención académica y comercial,
se ha realizado poca investigación sobre formas especı́ficas para realizar búsquedas dentro de un sitio web
[5, 16]. Un estudio de Keynote Systems publicado en enero del 2005 además de reafirmar la supremacı́a
de Google en las búsquedas de Internet, hace notar la alta frustración de los usuarios (un 22 %) con las
búsquedas locales en un sitio [9].
Un informe de Jakob Nielsen del año 2002 [13] señala que las búsquedas en sitios de intranet tienen un
pobre desempeño, independiente de si son implementadas con un motor de búsqueda propio o utilizando
alguno de los servicios públicos. Los problemas encontrados se deben principalmente a que el conjunto de
resultados no es priorizado correctamente y la información en el despliegue de resultados no es suficientemente
explicativa para que un usuario encuentre lo buscado. Las causas principales para estas fallas son:
Grandes grupos de páginas normalmente contienen idénticos tı́tulos y resúmenes aún cuando la información contenida sea diferente, lo que afecta el despliegue de información encontrada en su detalle.
Los links entre páginas no existen debido a la importancia de la información de una página, sino que
principalmente por motivos de navegación y estructura del sitio, lo que afecta los algoritmos de rankeo
de páginas.
El contexto en el cual una página existe y las relaciones con otras páginas no puede ser vista a través
de la visualización estándar de resultados [5].
Estos problemas dificultan la utilización de las intranets y hacen perder tiempo a los usuarios en búsquedas
ineficaces. Una mejora en las intranets, en su diseño, forma de navegación y búsquedas podrı́a disminuir estas
pérdidas de tiempo y dinero en hasta un 43 % [13].
El presente trabajo utiliza conceptos de la Web Semántica con el objetivo de obtener mejores resultados
que los que se obtienen actualmente al utilizar búsquedas tradicionales en un sitio de intranet. Para esto, se
propone un modelo para la catalogación semi-automática del sitio, creando un conjunto de metadatos sobre
los contenidos de los recursos disponibles en un sitio, los que son organizados formando un catálogo. Los
visitantes del sitio web realizan diferentes tipos de consultas en el servidor de catalogación para encontrar
el o los recursos del sitio que responden a sus necesidades. Los metadatos son creados según un esquema
particular del sitio y son ingresados, revisados y mantenidos por un grupo de usuarios catalogadores que
agregan a su navegador una herramienta especializada llamada el cliente de catalogación.
Se desarrolló una implementación de este modelo llamada Sistema Catálogo 1 . Éste se compone de un
conjunto de aplicaciones web para búsqueda de recursos, mantención de metadatos y definición de esquemas
de metadatos, y de un plugin para navegadores basados en Mozilla. Se realizó además un caso de estudio
con la instalación de este sistema para un sitio web corporativo. Para esto se creó un esquema de metadatos
particular al sitio, se efectuó una catalogación automática y manual, y luego se realizaron búsquedas de
pruebas para evaluar las caracterı́sticas y los resultados de este modelo.
Al utilizar el sistema de catalogación para realizar búsquedas se verificó que la cantidad de resultados
encontrados es menor que la cantidad que se puede encontrar con un buscador sintáctico, siendo el primero
1 http://putu.dcc.uchile.cl/catalogo/
2
normalmente el conjunto de los resultados más relevantes para la búsqueda realizada. El sistema permite
realizar búsquedas similares a las de un buscador tradicional, siendo posible además restringir el contexto
de las palabras. Se pueden realizar también búsquedas de recursos asociados con alguna instancia de clase
(por ejemplo, con alguna persona en particular) o de páginas que referencien a cierto recurso.
Este modelo de catalogación permite, además, utilizar metadatos en la web actual sin necesidad de
modificar las páginas web publicadas, lo que permite comenzar a utilizar la Web Semántica sin necesidad de
intervenir cada sitio ya existente. Es importante notar también que el catálogo es extensible y puede tener
diferentes usos aparte de realizar búsquedas de recursos disponibles en el sitio.
A continuación se presenta el contexto en el cual se desarrolló este trabajo y las investigaciones que lo
han influenciado. En la sección 2 se explican detalles generales sobre la catalogación y se presenta el modelo
de catalogación propuesto. En la sección 3 se presenta el software desarrollado con la implementación del
modelo de catalogación. La sección 4 muestra un caso de estudio con la instalación del sistema para un sitio
corporativo. Finalmente la sección 5 muestra los resultados de la catalogación aplicada a un sitio web y se
presenta una comparación entre ésta y un buscador tradicional en un sitio web.
1.1.
Trabajo relacionado
Este trabajo se enmarca dentro de los proyectos realizados por el Grupo Metadatos de la Universidad
de Chile para avanzar hacia la Web Semántica y está basado en la presentación de Tesis de Magı́ster del
año 2003 Catalogación semántica de sitios web [12]. Entre los proyectos realizados por el Grupo Metadatos,
el presente trabajo se relaciona con DepMark [10] al utilizar parte de su ontologı́a para la instalación del
sistema de catalogación en el sitio web del Departamento de Ciencias de la Computación de la Universidad
de Chile (DCC).
El problema de los buscadores sintácticos relacionado con el despliegue de resultados es tratado por
el sistema Cha-Cha [5] de la Universidad de California. Este sistema propone un cambio en el diseño de
la visualización de los resultados de búsqueda para permitir ver el contexto temático de cada página. Sin
embargo, este contexto es deducido según los directorios contenidos dentro de la URL que tiene asignada
cada página y no como información que ha sido agregada por humanos, como lo propone la Web Semántica.
El proyecto Annotea [19, 8] de la W3C tiene por objetivo permitir la creación y publicación de comentarios
sobre documentos web utilizando un esquema basado en RDF y XML. Estas anotaciones son acumuladas en
servidores centrales y son ingresadas y visualizadas por programas clientes creados o adaptados para ello. Un
programa cliente de este proyecto es Annozilla 2 , el cual es un plugin para el navegador Mozilla que permite
ingresar anotaciones para las páginas web que se estén visitando. El presente trabajo utilizó el código fuente
de Annozilla como ejemplo para la implementación del cliente de catalogación.
Los Directorios Web intentan lograr una catalogación global de Internet clasificando todos los sitios
disponibles en la Web a través de un árbol temático universal. La clasificación es realizada y mantenida
por personas -ya sea voluntarios o contratados- que asignan manualmente cada sitio en uno o más grupos
dentro del árbol. Los directorios más utilizados en la actualidad son Open Directory Project,Yahoo! Directory
y LookSmart 3 . Sin embargo, los Directorios Web no han tenido impacto como una forma para efectuar
búsquedas en Internet a través de un catálogo, sino que han tenido mayor efectividad como apoyo a los
buscadores sintácticos, presentando temas y sitios relacionados a las palabras buscadas [4].
El enfoque más utilizado actualmente en Internet para usar metadatos es agregar etiquetas <META>,
también llamadas meta-etiquetas, a un documento HTML, con información relevante del texto como palabras
claves, tı́tulo, descripción, tiempo de actualización, etc. Las meta-etiquetas tienen el objetivo de guiar a los
buscadores sintácticos en la indexación, búsqueda de resultados y medición de relevancia. Sin embargo,
principalmente debido al mal uso dado a este tipo de información extra, los mayores motores de búsqueda
han disminuido, y algunos eliminado, el soporte para las meta-etiquetas, con lo cual cada vez pierden mayor
importancia, al menos en el ámbito de la búsqueda tradicional [17]. Por esta razón y a la infactibilidad de
modificar la web existente para agregar meta-etiquetas, es que el presente trabajo apoya el uso de catálogos
sobre sitios web como opción para el uso de metadatos en Internet.
Existe una gran variedad de software de catalogación para la implementación de bibliotecas digitales, sin
embargo el presente trabajo no tiene por objetivo final la catalogación formal de recursos en Internet, sino
que uno más pragmático como es la mejora de búsquedas en sitios de intranet. En este aspecto el presente
2 http://annozilla.mozdev.org
3 http://www.dmoz.org,
http://dir.yahoo.com y http://www.looksmart.com, respectivamente.
3
trabajo se aleja -en principio- de las bibliotecas digitales y sus proyectos relacionados y de los softwares de
representación del conocimiento.
La compañı́a australiana Metabrowser Systems 4 ha desarrollado dos productos comerciales para la creación de depósitos de metadatos. El primero es un navegador de Internet basado en MS IE que permite ver las
meta-etiquetas de las páginas visitadas y crear nuevos metadatos según diferentes esquemas de metadatos,
entre ellos Dublin Core. El segundo es un software repositorio de metadatos que ha sido liberado recientemente como software de prueba. Está basado en tecnologı́a .NET y permite contener y administrar los
metadatos ingresados. Metabrowser utiliza una arquitectura similar a la propuesta por el presente trabajo,
aunque este último la utiliza con el objetivo de mejorar las búsquedas en una intranet proporcionando el
software libre necesario para lograrlo.
1.2.
Contribuciones
Las principales contribuciones de este trabajo son las siguientes:
Presentar y detallar una opción para mejorar los resultados que se obtienen actualmente al utilizar
búsquedas sintácticas en un sitio de intranet que utiliza técnicas de Web Semántica.
Proporcionar la implementación del software libre que permite mantener catálogos de recursos en la
Web y de una herramienta de catalogación en la forma de plugin de navegador.
Realizar una instalación piloto en un sitio particular, a partir de la cual se realizaron pruebas y
obtuvieron conclusiones sobre el modelo propuesto, comparándolo con un buscador tradicional.
2.
Catalogación de un sitio web
Catalogar corresponde al proceso de crear un registro substituto o metadato para grupos de información
como libros, vı́deos, discos, sitios web, etc. [2]. El conjunto de registros conforma un catálogo y cumple con
tres funciones básicas:
Conocer qué recursos hay disponibles.
Conocer dónde se encuentra cada uno de estos recursos.
Reunir recursos relacionados.
Para el caso particular de documentos electrónicos, el proceso de creación de metadatos se puede definir
como la actividad que consiste en extraer y añadir información sobre documentos publicados en aras de su
posterior recuperación o para incrementar su utilidad. Se trata, por tanto, de un arte de ı́ndole técnico,
ya que requiere cierta destreza y conocimiento de lenguajes de marcado, formato en que está realizada la
publicación electrónica, ası́ como del estándar de metadatos aplicable a tal efecto y del sistema de búsqueda
utilizado [11]. El responsable de la creación de los metadatos puede ser el autor del documento mismo, en el
caso de bibliotecas digitales tenderán a ser personas especialistas en técnicas de catalogación, y en el caso de
sistemas de información especializados los catalogadores deben manejar además los detalles de los conceptos
especı́ficos involucrados.
Para el caso de este trabajo, la catalogación es realizada por un conjunto de usuarios que deben tener
conocimientos básicos en la herramienta de catalogación y del esquema de metadatos usado. Los autores
de los documentos pueden ser -y normalmente los son- usuarios catalogadores del sistema, donde pueden
ingresar o actualizar los metadatos de los documentos existentes en el sitio.
Uno de los modelos más utilizados en la actualidad para la creación de la información agregada de
un documento es el Resource Description Framework (RDF), que permite expresar afirmaciones del tipo:
un recurso tiene una propiedad con un cierto valor. Por tanto, sus sentencias son tripletas de la forma
sujeto-predicado-objeto, donde sujeto puede ser, por ejemplo, una persona, una página web, etc.; predicado
puede ser la relación “es autor de”, “es hermano de”, etc.; y objeto puede ser un libro, otra persona, etc.
Las sentencias de RDF son representadas mediantes grafos dirigidos, donde el sujeto tiene un arco hacia
4 http://metabrowser.spirit.net.au/
4
Figura 1: Acciones del sistema de catalogación. A. Agregar metadatos. 1. Ver Página. 2. Asignar metadatos a URL.
B. Apoyar la navegación. 1. Ver Página. 2. Ver metadatos de URL. C. Buscar recursos. 1. Ingresar condiciones de
búsqueda. 2. Búsqueda entre metadatos. 3. Redirigir hacia URL de los metadatos encontrados.
el objeto mediante el predicado. Un grupo de sentencias forman un grafo RDF, el cual contiene todas las
relaciones existentes entre los elementos involucrados en las sentencias [18].
En tareas de catalogación de páginas web, RDF permite describir los contenidos mediante sentencias que
contienen al recurso web como sujeto y los predicados corresponden a cada uno de los aspectos a registrar, los
que son definidos mediante ontologı́as. Una ontologı́a es la especificación de un vocabulario para un dominio
común, es decir, es un modelo para el registro de información, que puede ser definido utilizando RDF a través
del lenguaje RDF Schema, o utilizando un lenguaje especializado para crear ontologı́as llamado OWL.
Entre los modelos comúnmente usados para registrar datos en Internet se ha destacado el Dublin Metadata
Core Element Set 5 . Dublin Core es una lista básica de quince elementos diseñada para que los autores y
publicadores de documentos de Internet puedan crear sus propios registros sin gran entrenamiento previo.
Para este trabajo, se plantea la creación de un esquema de metadatos especı́fico al sitio en catalogación
diseñado pensando en las búsquedas que se desee mejorar, o en su defecto, la utilización de un esquema de
metadatos genérico basado en Dublin Core.
2.1.
Modelo de catalogación
El modelo propuesto para el sistema de catalogación está compuesto de dos elementos: el servidor de
catalogación y el cliente de catalogación. El servidor de catalogación se encarga de la persistencia de
la información del catálogo y de publicar aplicaciones para que los diferentes usuarios puedan hacer uso del
catálogo. Permite definir el esquema de metadatos a utilizar, crear y mantener metadatos de los recursos
catalogados y presenta diferentes tipos de buscadores y navegadores de metadatos. El cliente de catalogación
corresponde a una herramienta que reside en el computador del usuario como un plugin para un navegador.
Permite visualizar los metadatos asignados a cada página que se esté visitando, y en el caso que el usuario
tenga los permisos necesarios, permite agregar y modificar metadatos en el catálogo.
La figura 1 resume los tres posibles usos que permite el modelo de catalogación:
Agregar metadatos (figura 1-A), que corresponde a crear un registro para cierta página y agregarlo al
catálogo. El ingreso del metadato se puede realizar ya sea utilizando el cliente de catalogación o una
aplicación adecuada en el servidor de catalogación.
5 http://dublincore.org/
5
Apoyar la navegación (figura 1-B), que corresponde a obtener los metadatos en el catálogo de cierta
página que se esté visualizando, utilizando el cliente de catalogación.
Buscar recursos (figura 1-C), que corresponde a realizar búsquedas o navegaciones en el catálogo para
encontrar páginas con la información requerida.
2.2.
Roles de usuario
En el sistema de catalogación se diferencian cuatro diferentes roles involucrados, cada uno con diferentes
tareas y responsabilidades:
Interesado o Dueño del sitio Corresponde a la persona u organización que desea tener un catálogo para
mejorar las búsquedas en su sitio. Las labores principales que realiza en el sistema son: definir los lı́mites del
sitio a catalogar; asignar los usuarios Catalogadores del sistema; y proponer posibles necesidades de interfaz
gráfica en los buscadores de recursos.
Administrador Corresponde al usuario experto en el sistema de catalogación. Sus principales acciones en
el sistema son: estudiar el sitio a catalogar, su nivel de estructuración, su ámbito temático y sus caracterı́sticas
particulares; definir el o los esquemas de metadatos a utilizar en el sistema, es decir, debe decidir los metadatos
a capturar de una página, las definiciones de clase que contendrá el esquema y definir los valores de referencia
a utilizar; realizar una carga inicial de metadatos de las páginas creando un script que ingrese masivamente
metadatos para la mayor cantidad de páginas posibles; y monitorear el sistema a través de indicadores
generales con el objeto de revisar la calidad de los metadatos una vez que el sistema esté en funcionamiento.
Catalogador Corresponde al usuario encargado de mantener los metadatos en el catálogo. Normalmente
corresponde a una gran cantidad de personas que deben tener conocimiento básico sobre catalogación de
páginas, la herramienta de mantención de metadatos e instancias, y el esquema de metadatos usado en el
sitio. Sus labores principales en el sistema son: crear, revisar y mantener los metadatos existentes en el
sistema; crear, revisar y mantener las instancias de las clases existentes en el sistema; y recibir y procesar
las notificaciones de metadatos erróneos en una página.
Público General o Visitantes Corresponde al usuario que visita el sitio y utiliza el sistema para buscar
recursos en él. No tiene conocimiento previo del sistema. Sus acciones son: realizar búsquedas de recursos
utilizando alguno de los diferentes buscadores que provee el sistema; navegar el sitio y, en el caso de contar
con el cliente de catalogación, puede obtener los metadatos de una página como guı́a para su navegación; y
notificar posibles datos erróneos o imprecisos existentes en el catálogo.
2.3.
Esquema de metadatos
Para poder ingresar metadatos dentro del catálogo, es necesario definir previamente el o los esquemas de
metadatos que se utilizarán. La definición del esquema de metadatos está representado como un conjunto de
tipos de campo organizados en forma de árbol donde cada uno debe tener un elemento padre. Existen cinco
posibles tipos de campo (ver figura 2):
Ontologı́a. Es el campo raı́z de un esquema de metadatos, permite agrupar los campos en una sola
unidad temática. Existen tantos esquemas de metadatos como campos tipo Ontologı́a se hayan definido.
Cada Campo de Información hijo corresponde a cada uno de los tipos de metadatos que se capturarán
de cada recurso del sitio.
Definición de Clase. Permite declarar una clase dentro de la ontologı́a. Debe ser hijo de un campo
Ontologı́a o, en el caso que se defina una subclase, otro campo Definición de Clase. Cada Campo de
Información hijo corresponde a cada uno de los atributos de la clase que define.
Conjunto de Referencia. Permite declarar un grupo de valores que corresponden a las posibles
opciones de un campo de tipo Elección de Referencia. Debe ser hijo de un campo Ontologı́a o, en el
caso que se defina un subgrupo, otro Grupo de Referencia. Cada campo tipo Valor de Referencia hijo
corresponde a cada una de las opciones posibles de elección.
6
Figura 2: Estructura que cumple cada esquema de metadatos definido en el servidor de catalogación.
Valor de Referencia. Es un campo que representa una opción dentro de un Conjunto de Referencia.
Debe ser hijo de un Grupo de Referencia o, en el caso que se defina una especificación, otro Valor de
Referencia.
Campo de Información. Es un campo que permite que un usuario catalogador ingrese información
sobre cierto elemento. Esta información corresponderá a metadatos de un recurso del sitio en el caso
que el campo sea hijo de una ontologı́a, o a atributos de una instancia en el caso que el campo sea hijo
de una Definición de Clase. Cada campo de Información puede ser hijo de otro campo de Información
para señalar una especificación del campo. Este tipo de campo debe ser uno de los siguientes cinco
tipos según el formato aceptable para su valor:
• Texto. Es un campo cuyo valor es un texto sin restricciones.
• Fecha. Es un campo cuyo valor corresponde a una fecha seleccionable de un calendario.
• URL. Es un campo cuyo valor representa una página web. En el caso que la página referenciada
exista dentro del servidor esta última aumentará su relevancia base.
• Elección de Instancia. Es un campo cuyo valor debe ser alguna de las instancias creadas para una
Definición de Clase definida.
• Elección de Referencia. Es un campo cuyo valor debe ser uno de los Valores de Referencia dentro
de un Conjunto de Referencia definido.
2.4.
Instalación y puesta en marcha
Para poder contar con el sistema de catalogación en un sitio web se debe realizar una serie de tareas cada
una con diferentes responsables:
1.
El usuario Interesado debe decidir el tamaño del sitio a catalogar.
2.
El usuario Administrador debe estudiar el sitio, la información que contiene y su nivel de estructuración
para decidir los recursos que deben ser catalogados. El nivel de estructuración muestra además como
se puede realizar la carga inicial de datos, lo que permite estimar los beneficios que se pueden lograr y
el tiempo requerido.
3.
El usuario Administrador debe definir e ingresar en el servidor de catalogación el o los esquemas de
metadatos a utilizar. Para esto se debe decidir los metadatos a ingresar por cada página y las clases y
valores de referencia a crear.
4.
El usuario Administrador debe ingresar al catálogo las instancias conocidas de antemano para las clases
definidas en el esquema de metadatos.
7
Figura 3: Buscador de recursos catalogados. En el ejemplo se buscan las páginas que posean algún metadato que
contenga las palabras “clase” y “auxiliar” y que pertenezcan al curso “CC10A - Computación I”.
5.
El usuario Administrador debe hacer una carga inicial de metadatos de las páginas del sitio, que
contengan la mayor cantidad de datos del esquema. En lo posible que contengan el tı́tulo de la página,
las referencias entre páginas y las asociaciones con las instancias ya creadas.
6.
El usuario Interesado debe decidir quienes cumplirán la labor de usuarios Catalogadores del sistema.
7.
Los usuarios Catalogadores deben realizar la catalogación manual de páginas, verificando el marcado
automático e ingresando nuevas páginas y metadatos al catálogo.
8.
El usuario Administrador debe implementar buscadores particulares al sitio y/o modificar los buscadores genéricos para asemejarse al diseño gráfico del sitio.
9.
El usuario Administrador debe hacer ajustes sobre los puntos de rankeo de los campos de metadatos y
de las referencias entre páginas, realizando búsquedas de prueba hasta verificar resultados satisfactorios
en el rankeo de resultados.
Una vez que el sistema está en funcionamiento, los visitantes del sitio realizan búsquedas de recursos
utilizando las aplicaciones correspondientes. En ese momento se inicia el proceso de mantención de metadatos,
que comprende las siguientes tareas:
1.
Los usuarios Visitantes del sitio, en el caso de encontrar anomalı́as en los metadatos existentes en el
catálogo, notifican los posibles problemas de datos en el sistema.
2.
Los usuarios Catalogadores deben realizar mantención periódica de los metadatos en el sistema, agregando metadatos para nuevas páginas, actualizando metadatos para páginas que hayan sido modificadas, o eliminando metadatos de páginas borradas del sitio. Reciben y procesan además las notificaciones
de metadatos erróneos recibidas.
3.
El usuario Administrador monitorea la calidad de los metadatos del sistema a través de indicadores
proporcionados por el servidor de catalogación.
3.
Sistema Catálogo
Sistema Catálogo es el sistema de catalogación desarrollado en el marco de este trabajo con el objetivo de
demostrar las capacidades del modelo presentado en obtener mejores resultados que los buscadores sintácticos
en un sitio web. Se compone del servidor de catalogación y cliente de catalogación descritos a continuación.
8
Figura 4: Buscador de recursos por palabras claves. En el ejemplo se buscan las páginas que posean algún metadato
que contenga la frase “bases de datos”.
3.1.
Servidor de catalogación
Es un conjunto de aplicaciones desarrolladas utilizando tecnologı́a Java sobre un servidor web para las
implementaciones y una base de datos relacional para la persistencia de los esquemas y metadatos. Contiene
tres aplicaciones web: Búsqueda, Catalogación y Administración, las que pueden ser accedidas por un usuario
tipo Visitante, Catalogador y Administrador, respectivamente. Los requerimientos técnicos para instalar el
servidor de catalogación son los siguientes:
J2SDK 1.4.
Jakarta Tomcat 5.0.
PostgreSQL 7.4.
La figura 3 muestra un buscador de recursos catalogados. El ingreso de los parámetros se realiza definiendo
primero la ontologı́a o el campo especı́fico sobre el cual se desea realizar la búsqueda y luego el valor a buscar.
Según el tipo del campo seleccionado se despliega la forma de ingresar el valor correspondiente: una lista
de instancias para un campo tipo Elección de Instancia, una lista de Valores de Referencia para un campo
tipo Elección de Referencia, un calendario para un campo tipo Fecha o un cuadro de texto para un campo
tipo Texto Libre o URL. En el ejemplo de la figura se realiza una búsqueda de las páginas cuyo conjunto de
metadatos cumpla con dos condiciones simultáneamente: que posea un metadato clasificado bajo la ontologı́a
Datos Académicos cuyo texto contenga las palabras “clase” y “auxiliar”, y que posea un metadato para el
campo Pertenece al Curso cuyo valor sea una referencia a la instancia “CC10A - Computación I” de la clase
Curso.
La figura 4 muestra un buscador de recursos basado sólo en palabras claves. Su interfaz es similar a
un buscador sintáctico tradicional, permite ingresar un texto a buscar entre los metadatos definidos para
las páginas catalogadas, restringiendo el universo de búsqueda a los metadatos asignados bajo una o más
ontologı́as. En el ejemplo de la figura se realiza una búsqueda de las páginas que contengan en alguno de
sus metadatos la frase “bases de datos”. En el caso de la búsqueda avanzada, se pueden realizar múltiples
búsquedas de palabras restringiendo cada una a los metadatos asignados bajo una ontologı́a o algún campo
especı́fico de ésta.
3.2.
Cliente de catalogación
Es una herramienta desarrollada utilizando tecnologı́a de Mozilla (XUL y JavaScript), que puede ser
agregada como barra lateral del navegador. El cliente está empaquetado en un archivo XPI lo que permite
que sea instalado automáticamente dentro del navegador. Una vez instalado el cliente se debe agregar una
referencia en la barra lateral del navegador a la dirección chrome://cliente/content/panel.xul. Los requerimientos técnicos para instalar el cliente es utilizar un navegador Mozilla o Mozilla-Firefox 1.0 o mayor, que
tenga habilitada la capacidad de instalar software.
El plugin permite dos tareas: Ver metadatos y Modificar metadatos, las que pueden ser accedidas por un
usuario tipo Visitante y Catalogador, respectivamente.
La figura 5 muestra el navegador con la barra lateral del cliente de catalogación. Al presionar el botón
Refresh, se realiza una consulta al servidor de catalogación por los metadatos correspondientes a la URL de
la página que se encuentra en la ventana central del navegador, los que son desplegados en forma de árbol.
9
Figura 5: Visualización de los metadatos de un recurso catalogado utilizando el cliente de catalogación.
Al marcar el recuadro auto-refresh se habilita el modo automático, donde cada 10 segundos se realiza la
acción del botón Refresh.
4.
Caso de estudio
Como prueba del sistema, se realizó la catalogación del sitio web del Departamento de Ciencias de la
Computación de la Universidad de Chile (DCC), cuya URL es http://www.dcc.uchile.cl.
Se utilizó un esquema de metadatos particular al sitio, el cual es el resultado del estudio del conjunto
de páginas a catalogar y de la ontologı́a utilizada por el proyecto DepMark [10]. Contiene cuatro campos de
tipo Texto: Tı́tulo, Subtı́tulo, Resumen y Sección; dos campos de tipo URL: Link principal y Link lateral ;
y tres campos de tipo Elección de Instancia: Pertenece a la Carrera, Pertenece al Curso y Se refiere a la
Persona que referencian a instancias de las clases Carrera, Curso y Persona, respectivamente. Además del
esquema particular al sitio, se ingresó en el sistema el esquema de datos definidos por Dublin Core para sus
elementos básicos y sus calificadores.
Para realizar la carga automática primero se hizo una copia local del sitio web publicado. Se recolectaron
15 MB en 835 archivos, de las cuales sólo se seleccionaron 353 páginas para ser catalogadas con un espacio
total de 1 MB. Las páginas restantes no fueron catalogadas por ser páginas de enlace, que sólo presentan
resúmenes de otras o son versiones imprimibles.
Luego se procedió a implementar un conjunto de scripts para procesar el texto del HTML utilizando
expresiones regulares. Se capturaron los campos de tipo Texto y URL, y se insertaron en la base de datos
del sistema de catalogación. La creación de instancias fue manual y correspondió a un total de 99 instancias:
4 carreras, 51 cursos y 44 personas. Después se realizaron, también manualmente, las asociaciones entre
instancias y páginas a través de los campos de tipo Elección de Instancia.
El conjunto de metadatos ingresados finalmente, sumando metadatos de páginas y atributos de instancia,
1.
2.
3.
4.
5.
6.
Tarea
Definición del conjunto a catalogar y estudio de la estructura del sitio.
Definición el esquema de metadatos.
Ingreso de instancias en forma manual.
Carga inicial de metadatos.
Marcado manual del sitio.
Pruebas de búsquedas y ajuste de los puntos de rankeo del esquema.
Total
Cuadro 1: Resumen del tiempo para la puesta en marcha del sistema.
10
t
2 dı́as
2 dı́as
1 dı́a
2 dı́as
7 dı́as
2 dı́as
16 dı́as
Aspecto
Costos
Mantención
Resultados
Formas de
búsqueda
Catalogación de un sitio
Mayor cantidad de trabajo y tiempo para lograr catalogar un sitio. Necesidad de un experto en el sistema de catalogación.
Requiere de un usuario administrador para
monitorear el estado del sistema y de usuarios catalogadores para verificar y actualizar
los metadatos.
Menor cantidad de resultados encontrados, pero los encontrados son de mayor relevancia para la búsqueda.
Contexto de
resultados
Recursos
indexados
Diferentes tipos de buscadores que pueden ser
usados según la cantidad de información que
se tenga sobre lo buscado. En el caso de tener
pocos conocimientos se puede intentar una navegación del catálogo.
Permite conocer el contexto de cada página,
independiente de la forma de navegación.
Se puede agregar al catálogo todo tipo de documento, incluido cualquier archivo binario.
Uso de metadatos
Permite hacer uso de metadatos en la web sin
necesidad de modificar la web existente.
Buscador sintáctico de un sitio
Baja cantidad de tiempo y conocimientos necesarios para tener el sistema en funcionamiento.
Requiere de un usuario administrador para
monitorear el estado del sistema.
Al encontrar todas las páginas donde se encuentra cierta palabra, normalmente los resultados son una gran cantidad de páginas muy
similares.
Interfaz simple de búsqueda. Poca utilización
de las búsquedas avanzadas. Difı́cil de utilizar
en el caso de tener poco conocimiento en el
área buscada.
No existe forma de conocer el contexto de una
página.
Se pueden indexar archivos de texto y archivos binarios que puedan ser transformados automáticamente en texto.
Para hacer uso de metadatos requiere de la
modificación de las páginas web ya publicadas para agregar las meta-etiquetas correspondientes.
Cuadro 2: Comparación entre el sistema de catalogación y los buscadores sintácticos de un sitio.
fue un total de 2440 los que ocuparon un espacio aproximado de 104 KB (tamaño en bytes de los textos de
todos los metadatos). Por lo cual, los metadatos correspondieron a aproximadamente un 10 % del tamaño
de las paginas catalogadas y a un 0,7 % del tamaño total del sitio.
El cuadro 1 resume el tiempo tomado para que el sistema de catalogación haya quedado disponible
para realizar búsquedas al público. El esfuerzo realizado fue de aproximadamente tres semanas por una sola
persona. Se verificó que la tarea que toma mayor tiempo es la marcación manual del sitio. Una de las razones
que incidió en esto fue que la carga inicial de metadatos no incluyó asociaciones con instancias las cuales
debieron ser enlazadas en forma manual.
El sistema se encuentra actualmente disponible para uso público en la dirección web
http://putu.dcc.uchile.cl/catalogo/.
5.
Conclusiones
Al utilizar el sistema de catalogación para realizar búsquedas se verifica que la cantidad de resultados
encontrados es menor que la cantidad que se puede encontrar con un buscador sintáctico, correspondiendo
normalmente al conjunto de los resultados más relevantes para la búsqueda realizada.
Al desarrollar el buscador de metadatos quedó de manifiesto que en un catálogo no puede existir sólo
una interfaz de búsqueda, sino que debe permitir múltiples y variadas formas para realizar consultas. Es
de esperarse que en un principio el tipo de buscador más utilizado sea el presentado en la figura 4 por su
mayor similitud con un buscador sintáctico. Sin embargo, una vez que los usuarios adquieren conocimiento
sobre el catálogo y sus capacidades, se hace más factible utilizar alguno de los navegadores o buscadores
proporcionados que hacen mayor uso del potencial de los metadatos.
Desarrollar una interfaz genérica para los diferentes buscadores es un problema que no pudo ser solucionado satisfactoriamente. Se intentó realizar una interfaz más amigable incluso disminuyendo la potencia
del buscador (permitiendo ingresar búsquedas anidadas en un solo nivel cuando el motor permite múltiples
niveles), sin embargo el problema aún está abierto para mejores soluciones genéricas. Se puede afrontar este
problema implementando buscadores especializados para cada sitio en particular que se adecuen al diseño
de éste y a sus esquemas de metadatos.
Una caracterı́stica importante del sistema de catalogación es que no es necesario modificar las páginas
11
web existentes para hacer uso de él. Esto permite la utilización de metadatos para mejorar las búsquedas
sin necesidad de modificar un sitio ya existente.
La información contenida en el catálogo además es extensible para otros posibles usos independientes
del buscador semántico. Por tanto, el catálogo es un recurso que tiene gran potencial y sirve de base para
desarrollar futuras ideas y proyectos relacionados con la Web Semántica, como por ejemplo realizar mapas
de sitio o implementar búsquedas inter-sitios.
A modo de resumen, el cuadro 2 presenta una comparación entre el modelo de catalogación propuesto y
los buscadores sintácticos de un sitio, según diferentes aspectos.
6.
Trabajo futuro
Estudiar los problemas asociados a la unicidad de una página según su URL. En particular estudiar
los casos de páginas dinámicas, páginas por defecto y mirrors de sitios.
Estudiar el problema de la interfaz de usuarios para un buscador semántico. Debe ser lo suficientemente
poderosa para permitir el ingreso de consultas complejas, pero debe permitir que un usuario promedio
sin conocimiento previos pueda hacer uso de ella.
Estudiar formas de integración entre catálogos, y por consiguiente, estudiar la integración entre diferentes esquemas de metadatos.
Estudiar el uso del sistema de catalogación como depósito de referencias de Internet. Se puede utilizar
el mismo software de catalogación con el objeto de organizar en forma colaborativa un conjunto muy
grande de referencias a páginas de Internet. Se ingresan datos para cada página de interés según cierto
esquema de metadatos y luego se realizan consultas sobre estos metadatos para encontrar los links
relevantes entre el conjunto de referencias.
Estudiar el perfilamiento en la web. Al poder realizar búsquedas restringiendo los ámbitos de interés a
ciertos temas en particular (por ejemplo, artes) y cada página ser catalogada según una persona con
el perfil del área (por ejemplo, un artista), se pueden realizar búsquedas y navegar la web bajo cierta
forma de ver la información, es decir bajo un perfil particular.
Agradecimientos
Los autores agradecen financiamiento al Proyecto FONDECYT 1030810, “Metadatos para describir y
consultar la Web Oculta”. Claudio Gutiérrez agradece también al Nucleo Milenio, Centro de Investigación
de la Web, P04-067-F, Mideplan.
Referencias
[1] American Customer Satisfaction Index. Second Quarter Scores: Manufacturing/Durable Goods & E-Business: Search
Engines, Agosto 2004. http://www.theacsi.org.
[2] Susan Atkey. Issues in Cataloguing the Web. School of Library, Archival and Information Studies/UBC, Diciembre 2002.
[3] Tim Berners-Lee, James Hendler, and Ora Lassila. The Semantic Web. Scientific American, Inc, Mayo 2001.
[4] Fidel Cacheda and Angel Viña. Understanding how people use search engines: a statistical analysis for e-Business.
Proceedings of the e-Business and e-Work Conference and Exhibition (e-2001), Venice, Italy, Octubre 2001.
[5] Michael Chen, Marti Hearst, Jason Hong, and James Lin. Cha-Cha: A System for Organizing Intranet Search Results.
Proceedings of the 2nd USENIX Symposium on Internet Technologies and SYSTEMS (USITS), Octubre 1999.
[6] Lorcan Dempsey and Rachel Heery. A review of metadata: a survey of current resource description formats. UKOLN
Metadata Group, Marzo 1997.
[7] Jeff Heflin, James Hendler, and Sean Luke. SHOE: A Blueprint for the Semantic Web. Data and Knowledge Engineering.
Spinning the Semantic Web. MIT Press, Cambridge, Marzo 2003.
[8] José Kahan and Marja-Riita Koivunen. Annotea: An Open RDF Infrastructure for Shared Web Annotations. World Wide
Web Consortium, Mayo 2001.
[9] Keynote Systems. Yahoo! Search and MSN Search Close the Gap with Google. Press Release 05-01-13, Enero 2005.
http://www.keynote.com.
[10] Ernesto Krsulovic Morales and Claudio Gutiérrez. Building Yearbooks with RDF. Centro de Investigación de la Web.
Departamento de Ciencias de la Computación. Universidad de Chile, Diciembre 2002.
12
[11] Eva Ma Méndez. Metadatos y recuperación de información: Estándares, problemas y aplicabilidad en bibliotecas digitales.
Departamento de Biblioteconomı́a y Documentación de la Universidad Carlos III de Madrid. Ediciones Trea. ISBN: 849704-055-4, Junio 2002.
[12] Juan Manuel Barrios N. Presentación Tema de Tesis para Magister en Ciencias, mención Computación: Catalogación
semántica de sitios web. Departamento de Ciencias de la Computación. Universidad de Chile, Diciembre 2003.
[13] Jakob Nielsen. Intranet Usability: The Trillion-Dollar Question. Useit.com Alertbox, Noviembre 2002.
[14] Jakob Nielsen. When Search Engines Become Answer Engines. Useit.com Alertbox, Agosto 2004.
[15] Natalya Fridman Noy and Deborah L. McGuinnes. Ontology Development 101: A Guide to Creating Your First Ontology.
Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report SMI-2001-0880. Stanford Knowledge
Systems Laboratory, Marzo 2001.
[16] Dick Stenmark. A Methodology for Intranet Search Engine Evaluation. In Käkölä, T. (ed.), Proceedings of IRIS22, August
7-10, Department of CS/IS, University of Jyväskylä, Finland, Agosto 1999.
[17] Danny Sullivan. Death Of A Meta Tag. Search Engine Watch, Octubre 2002.
[18] World Wide Web Consortium. Resource Description Framework Model and Syntax Specification. W3C Recommendation,
Febrero 1999.
[19] World Wide Web Consortium. Annotea Protocols. W3C Draft, Diciembre 2002.
13
Descargar