BUSCADORES Y METABUSCADORES Hay dos tipos principales

Anuncio
BUSCADORES Y METABUSCADORES
Hay dos tipos principales de buscadores en la Web:
Los Directorios o Índices temáticos (también conocidos como directorios, catálogos
o buscadores por categorías)
Los Motores de búsqueda (o buscadores por contenido).
Delgado Domínguez establece las diferencias entre estos dos tipos de buscadores:
Presentación
de los
resultados
Descubrimiento
de recursos
Representación
del contenido
Representación
de la consulta
Directorios
Lo realizan las
personas
Clasificación
manual Implícita
(navegación por
categorías)
Páginas creadas
antes de la
consulta.
Poco
exhaustivos,
muy precisos.
Motores de
búsqueda
Principalmente
de forma
automática por
medio de robots
Indización
automática
Explícita
(palabras clave,
operadores,
etc.)
Páginas creadas
dinámicamente
en cada
consulta.
Muy
exhaustivos,
poco precisos
BUSCADOR:
Es un medio de acercamiento a la cantidad de información disponible en internet, y
no son más que páginas web que permiten al usuario encontrar información
disponible acerca de un tema específico a partir de palabras o frases.
Entre los principales buscadores, tenemos:
http://www.google.com
http://www.altavista.com
http://www.alltheweb.com
http://www.dmoz.org Open Directory Project
http://www.excite.com
http://www.dogpile.com
http://www.yahoo.com
http://www.hotbot.com
http://www.lycos.com
http://search.msn.com/
http://search.aol.com
http://www.netscape.com
http:/www./webcrawler.com
http://www.about.com
http://www.overture.com
http://www.infospace.com
http://www.alexa.com
http://www.entireweb.com
http://www.looksmart.com
http://www.ask.com
http://www.teoma.com
http://www.wisenut.com
Los multibuscadores se limitan a colocar en una página web una lista con los
buscadores más comunes y con una ventana de texto para poder enviar la cadena
de búsqueda introducida por el usuario a cada uno de ellos. También pueden enviar
la cadena de búsqueda a una serie de motores de búsqueda e índices temáticos
previamente definidos. Una vez realizada la consulta a los buscadores prefijados, el
multibuscador devolverá la información de todos los enlaces encontrados. Con la
utilización de multibuscadores, el usuario se evita tener que ir de buscador en
buscador hasta encontrar la información deseada. El usuario elige los buscadores
que quiere utilizar y desde allí realiza su consulta que ofrecerá las respuestas
buscador por buscador. La única ventaja es la posibilidad de consultar un gran
número de buscadores partiendo de una única página. La exhaustividad primará
sobre la precisión, ya que el usuario encontrará un gran número de enlaces y
muchas páginas repetidas. Un buen ejemplo de multibuscador es el ofrecido por
CyberJournalist: http://cyberjournalist.ourtoolbar.com/xpi (María Jesús Lamarca
Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen)
Consideraciones para la Utilización de los Buscadores:
A continuación un cuadro con las principales instrucciones o comandos que
permitirán en una búsqueda lograr a través de una pesquisa más rápida y acertada.
COMANDO
Or
And
Not
Near
T
U
Comillas (“”)
Asterisco (*)
Sintaxis:
Any:
Title:
Host:
URL:
Link:
FUNCIÓN
Cuando se utiliza entre dos frases el resultado de la búsqueda remite a
páginas que contengan alguna de las dos palabras.
And Si se coloca entre dos palabras mostrará los resultados de páginas
que contengan ambos términos.
Se utiliza para excluir algún término.
Se usa para localizar dos términos que se encuentren entre cierta
cantidad de palabras.
Realiza la búsqueda únicamente en los títulos de los artículos.
Realiza la búsqueda únicamente en los URL de los documentos.
Al encerrar una o varias palabras en comillas se obtendrá información
sobre lo que esté exactamente encerrado en ellas. Facilita la búsqueda
de frases.
Si se coloca a la derecha de una palabra buscará todo lo que tenga
relación con ella hacia el lado derecho.
Se puede hacer uso de algunas operaciones combinadas a la vez. Ej.
T:elecciones+Venezuela, deberá encontrar todo lo relacionado con
elecciones en Venezuela, únicamente en los títulos.
Encontrará cualquier página que contenga el término que buscamos.
Buscará el término deseado en los títulos de las páginas web.
Se útil.iza para buscar páginas web.
Cuando se buscan palabras en el texto de una dirección URL.
Si queremos saber que páginas tienen enlace con la nuestra.
Para valorar la calidad de un buscador se deben tener en cuenta una serie de
factores:
la exhaustividad: es decir, el número de documentos que almacena en su
base de datos
la periodicidad con que se actualiza su base de datos (tanto para verificar si
hay nuevas páginas, si otras se han actualizado y si otras han desaparecido)
la calidad, flexibilidad y facilidad del lenguaje de consulta
la calidad y facilidad que ofrecen tanto la interfaz de consulta, como la
interfaz de resultados
la pertinencia de los resultados
la velocidad de respuesta (el tiempo que gasta en consultar el índice, aplicar
el algoritmo de respuesta y ofrecer los resultados)
Los motores de búsqueda a veces ofrecen la posibilidad de conocer cuántas y qué
páginas mantienen enlaces a un sitio web. Para ello se suele utilizar el operador link
seguido de dos puntos y la URL de la que queremos conocer cuántas páginas
apuntan a ella, aunque los diferentes buscadores utilizan distintos métodos:
AltaVista y Google: se introduce link:dominio. También se puede reducir la
búsqueda a una URL particular: link:dominio/paginahtml. Para que no aparezcan las
páginas del mismo sitio que se enlazan entre sí, se usa el comando -url: link:dominio
-url:dominio.
AllTheWeb: se introduce link.all:dominio.
La mayor ventaja de utilizar un motor de búsqueda es la rapidez e inmediatez, pero
una gran desventaja radica en que puede resultar difícil encontrar lo que se busca si
no se domina el lenguaje de interrogación a su base de datos. Si no se sabe buscar,
el internauta puede encontrarse con una gran cantidad de enlaces que no le
interesen (lo que se denomina “ruido”) o, por el contrario, con que no le devuelvan
ningún enlace (“silencio”). Pero si se conoce mínimamente el sistema de búsqueda los buscadores suelen contar con alguna página de información o ayuda sobre
cómo se deben realizar las búsquedas- los buscadores suelen ser una solución muy
potente. Para las búsquedas precisas, los motores tienen su propio lenguaje de
interrogación y suelen permitir acotar las búsquedas utilizando interfaces sencillas
de búsqueda que permiten la introducción de texto en alguna de estas variantes:
Todas las palabras: esto permite recuperar los resultados que contengan
todas las palabras que se introducen en la caja de interrogación. Por
ejemplo, buscando "hipertexto documento historia" mediante Todas las
Palabras, se localizarán los resultados que incluyan todos los términos,
aunque estén separados: hipertexto y documento e historia.
Alguna de las palabras: permite recuperar los resultados que contienen una
de las palabras. Por ejemplo, la interrogación: "documento digital virtual"
devolvería los resultados que contuvieran alguna de estas tres palabras:
documento o digital o virtual.
La frase exacta: es la más adecuada para búsqueda por nombres propios y
expresiones que deben ser buscadas en el orden especificado. Para
introducirla se suelen utilizar comillas. Por ejemplo, la consulta: "historia del
hipertexto" localizaría los documentos que contuvieran dicha frase.
La búsqueda booleana: se trata de un tipo de interrogación que incluye
alguno de los operadores lógicos.
METABUSCADORES:
Son buscadores que realizan exploraciones en otros buscadores, analizan los
resultados de la página y presentan sus propios resultados.
Los metabuscadores también permiten buscar en varios buscadores al mismo
tiempo. Los metabuscadores no almacenan las descripciones de páginas en sus
bases de datos, sino que contienen los registros de los motores de búsqueda y la
información sobre ellos, adecuando su expresión a los diferentes motores para
remitir la consulta a los motores. Una vez que reciben la respuesta, la remiten al
usuario no directamente, sino tras realizar un filtrado de los resultados. Este filtrado
consiste en eliminar y depurar los enlaces repetidos y en ordenar los enlaces.
Además, sólo aparecerá un número limitado de enlaces, los que se consideren más
importantes. Los más repetidos ocuparán los primeros puestos ya que el
metabuscador considerará que son los más relevantes por estar dados de alta en
mayor número de buscadores. Se trata de herramientas muy útiles, el único
problema es que, por lo general, no permiten realizar búsquedas tan avanzadas
como en un motor de búsqueda, con lo que las consultas tienen que ser generales y
no se puede buscar en profundidad.
Un metabuscador es un verdadero programa que pueden actuar bien integrado en
la propia WWW como el caso de MetaCrawler o Buscopio, o bien como un
programa autónomo, como Copernic, una pequeña herramienta de software que se
instala en el ordenador y permite hacer búsquedas en varios buscadores a la vez.
Existen incluso metabuscadores especializados en determinadas materias: noticias,
bibliotecas, diccionarios, blogs, software, etc; otros que permiten búsquedas
multilingües, e incluso algunos permiten personalizar las búsquedas con los
buscadores elegidos.
Sin duda, uno de los más conocidos y potentes multibuscadores es MetaCrawler,
que permite buscar en Google, AltaVista, Excite, Infoseek, Yahoo, WebCrawler y
Lycos al mismo tiempo, mostrando todos los resultados de forma conjunta y por
orden de importancia. MetaCrawler también permite la utilización de operadores
booleanos y acotaciones geográficas. Además de buscar en la Web, permite
búsquedas en grupos de noticias y ofrece el servicio MiniCrawler, una pequeña
ventana flotante que permite realizar búsquedas rápidas en MetaCrawler desde
cualquier punto en que nos encontremos.
http://www.uc3m.es/uc3m/gral/IT/1metabuscadores.htm
BUSCADOR
METACRAWLER
IXQUICK
CLUSTY
KARTOO
TURBO10
ILECTRIC
DOGPILE
WEBCRAWLER
METASEARCH
MAMMA
BIWE:
BUSCAMULTIPLE:
INFO.COM
MONSTER CRAWLER
STARTINGPOINT
DIRECCIÓN
http://www.metacrawler.com
http://www.ixquick.com/
http://clusty.com
http://www.kartoo.com/
http://turbo10.com/
http://ilectric.com
http://www.dogpile.com
http://www.webcrawler.com/
http://www.metasearch.com/
http://www.mamma.com/
http://www.biwe.com
http://www.buscamultiple.com/
http://www.info.com/ (Busca separada o simultáneamente en
Google, Yahoo, MSN Ask Jeeves)
http://monstercrawler.com/ (Busca simultáneamente en Yahoo,
MSN, AltaVista, FastSearch y OpenDirectory)
http://www.stpt.com/ (Busca simultáneamente en Ask Jeeves,
Excite, Google, Looksmart, Lycos, MSN, Yahoo y Northern
Light)
Caso de especial atención es Copernic Agent Personal, este metabuscador
permite el acceso a la Web invisible, utiliza más de 1200 buscadores y permite crear
las propias búsquedas por categorías. Incluye además otra herramienta llamada
GuruNet (http://www.gurunet.com/) que permite, con un solo clic, acceder a
información contextual dando acceso a más de 100 enciclopedias, diccionarios y
anuarios.
http://www.copernic.com/en/products/agent/download.html
Los “buscadores especializados” se centran en un tema concreto, la búsqueda se
realiza sobre un campo específico sin necesidad de que el usuario lo indique.
Scirus y Google Scholar son dos buscadores especializados en información
científica y académica. Y más especializados aún son por ejemplo TechXtra, un
multibuscador de documentos y contenidos especializados en ingeniería,
matemáticas y computación que rastrea simultáneamente 29 fuentes de Internet o
GlobalSpec, que incluye un motor de búsqueda especializado en informaciones
técnicas y relativas a la Ingeniería, así como acceso a contenidos muy relevantes
para este campo: normas, patentes, una base de datos de propiedades de
materiales, información empresarial y comercial, etc.
Directorios o Índices temáticos
Los directorios son listas de recursos organizados por categorías temáticas que se
estructuran jerárquicamente en un árbol de materias que permite visualizar los
recursos descendiendo desde los temas más generales situados en las ramas
superiores, a los temas más específicos situados en las ramas inferiores. Las
categorías ofrecen una lista de enlaces a las páginas que aparecen referenciadas
en el buscador. Cada enlace también ofrece una breve descripción de su contenido.
Así pues, los directorios o índices se estructuran por temas o categorías principales
que, a su vez, contienen otras subcategorías, y así sucesivamente hasta que al final
se ofrecen enlaces directos a otras páginas o recursos de Internet.
El Índice o Directorio permite acceder a los recursos referenciados por medio de 2
sistemas:
navegando a través de la estructura de las categorías temáticas
buscando por palabras clave sobre el conjunto de referencias del buscador
o sobre una categoría concreta
Los Índices o Directorios se componen de 2 partes:
Una base de datos que contiene las páginas de los sitios registrados
Una estructura jerárquica que facilita la consulta a la base de datos
Sin embargo, la formación de un directorio presenta graves problemas ya que sólo
listan una pequeña parte de los documentos existentes y no suelen estar
actualizados. Además, la clasificación y categorización requieren una intervención
manual y en muchos casos, debido a la heterogeneidad de los temas tratados,
algunas páginas presentan problemas de categorización ya que los índices suelen
mantener su base de datos de forma manual.
La inclusión en un directorio puede hacerse mediante registro del autor o editor de la
página, definiendo las palabras clave con las que se quiera identificarlo u
optimizando el propio diseño de la página a través de metadatos para que pueda ser
indexada de forma automática.
Motores de búsqueda
La diferencia fundamental entre un índice y un motor de búsqueda es que mientras
los índices mantienen su base de datos “manualmente”, utilizando para la inclusión
de las direcciones a sus empleados o a los propios internautas que dan de alta sus
páginas, los motores de búsqueda emplean para ello un robot de búsqueda. Estos
robots no son otra cosa que potentes programas que se dedican a recorrer la Web
automáticamente recopilando e indexando todo el texto que encuentran, formando
así enormes bases de datos en las que luego los internautas hacen sus búsquedas
mediante la inclusión de palabras clave. Los robots recorren los distintos servidores
de forma recursiva, a través de los enlaces que proporcionan las páginas que allí se
encuentran, descendiendo como si de un árbol se tratara a través de las distintas
ramas de cada servidor. Luego, periódicamente, visitarán de nuevo las páginas para
comprobar si ha habido incorporaciones o si las páginas siguen activas, de modo
que su base de datos se mantenga siempre actualizada. Además, estas
actualizaciones se realizarán de forma “inteligente”, visitando con más asiduidad
aquellos servidores que cambien más a menudo, como por ejemplo los de los
servicios de noticias.
Y esa es la principal ventaja de los motores de búsqueda frente a los índices
temáticos: la gran cantidad de información que recogen y la mayor actualización de
sus bases de datos. Además, estos robots permiten a los creadores de las páginas
web la inclusión de “metatags” o etiquetas en lenguaje HTML (entre las cuales
pueden incluirse metadatos normalizados tipo Dublin Core) para resumir los
contenidos de sus páginas y para incluir las palabras claves que las definan.
Mediante los metadatos y las etiquetas, los motores de búsqueda podrán indizar las
páginas web de forma correcta.
Por el contrario, la ventaja de los Directorios frente a los motores radica en la mayor
precisión y un menor ruido, aunque son menos exhaustivos que los motores de
búsqueda, ya que se obtienen menos resultados.
Los motores de búsqueda no son otra cosa que enormes bases de datos generadas
como resultado de la indexación automática de documentos que han sido
analizados previamente en la Web. Recogen documentos en formato HTML y otro
tipo de recursos. Esta tarea la lleva a cabo un programa denominado crawler (robot)
que rastrea la red explorando todos los servidores, o limitándose a ciertos
servidores siguiendo un criterio temático, geográfico o idiomático.
La posterior recuperación se lleva a cabo gracias a la gestión de esta enorme base
de datos que permite diferentes tipos de consulta y ordena los resultados por
relevancia, dependiendo de la estrategia de consulta. Los motores son más
exhaustivos en cuanto al volumen de páginas, pero son menos precisos ya que no
interviene la indexación humana.
Fuente: Rogelio Aguilar González. Monografía sobre motores de búsqueda.
Yahoo, Geocities, 2002.
Bibliografía
Aguilar González, Rogelio. Monografía sobre motores de búsqueda. Yahoo,
Geocities, 2002. http://www.geocities.com/motoresdebusqueda/introduccion.html
Delgado Domínguez, A. Mecanismos de recuperación de información en la
WWW. Palma de Mallorca, Universidad de les Illes Ballears, 1998.
http://dmi.uib.es/people/adelaida/tice/modul6/memfin.pdf [Volver]
López Yepes, Alfonso. "Bancos de imágenes en Internet". Red Digital. Revista de
Tecnologías de la Información y Comunicación Educativas, núm. 3, enero 2003.
http://reddigital.cnice.mecd.es/3/firmas_nuevas/informes/infor_yepes_res.html
Martínez Méndez, Francisco Javier. Propuesta y desarrollo de un modelo para la
evaluación de la recuperación de información en Internet. Tesis doctoral.
Universidad de Murcia, 2002.
http://cervantesvirtual.com/FichaObra.html?Ref=10010&ext=pdf
Orihuela, José Luis. Santos, María. Portal de buscadores. Web Searching Tools.
http://mccd.udc.es/orihuela/voz/
Search
Tools
for
Web
Sites
and
Intranets.
Home
Page.
http://www.searchtools.com/index.html
Serrano Cobos, Jorge y Quintero Orta, Ana. "Elección de un motor de búsqueda:
Pasos a seguir." Hipertext.net, núm. 1, 2003. http://www.hipertext.net
Tramullas Saz, Jesús. "Bibliotecas y Centros de Documentación: Internet para
bibliotecarios y documentalistas". En Bibliotecas y Centros de Documentación:
Internet para bibliotecarios y documentalistas. Madrid, Servicio de Documentación
Multimedia UCM y Fundación Sánchez Albornoz, julio 2001.
http://multidoc.rediris.es/avila/paginas/tramullas.pdf
Web Indicators Portal. http://www.webindicators.org/
Descargar