BUSCADORES Y METABUSCADORES Hay dos tipos principales de buscadores en la Web: Los Directorios o Índices temáticos (también conocidos como directorios, catálogos o buscadores por categorías) Los Motores de búsqueda (o buscadores por contenido). Delgado Domínguez establece las diferencias entre estos dos tipos de buscadores: Presentación de los resultados Descubrimiento de recursos Representación del contenido Representación de la consulta Directorios Lo realizan las personas Clasificación manual Implícita (navegación por categorías) Páginas creadas antes de la consulta. Poco exhaustivos, muy precisos. Motores de búsqueda Principalmente de forma automática por medio de robots Indización automática Explícita (palabras clave, operadores, etc.) Páginas creadas dinámicamente en cada consulta. Muy exhaustivos, poco precisos BUSCADOR: Es un medio de acercamiento a la cantidad de información disponible en internet, y no son más que páginas web que permiten al usuario encontrar información disponible acerca de un tema específico a partir de palabras o frases. Entre los principales buscadores, tenemos: http://www.google.com http://www.altavista.com http://www.alltheweb.com http://www.dmoz.org Open Directory Project http://www.excite.com http://www.dogpile.com http://www.yahoo.com http://www.hotbot.com http://www.lycos.com http://search.msn.com/ http://search.aol.com http://www.netscape.com http:/www./webcrawler.com http://www.about.com http://www.overture.com http://www.infospace.com http://www.alexa.com http://www.entireweb.com http://www.looksmart.com http://www.ask.com http://www.teoma.com http://www.wisenut.com Los multibuscadores se limitan a colocar en una página web una lista con los buscadores más comunes y con una ventana de texto para poder enviar la cadena de búsqueda introducida por el usuario a cada uno de ellos. También pueden enviar la cadena de búsqueda a una serie de motores de búsqueda e índices temáticos previamente definidos. Una vez realizada la consulta a los buscadores prefijados, el multibuscador devolverá la información de todos los enlaces encontrados. Con la utilización de multibuscadores, el usuario se evita tener que ir de buscador en buscador hasta encontrar la información deseada. El usuario elige los buscadores que quiere utilizar y desde allí realiza su consulta que ofrecerá las respuestas buscador por buscador. La única ventaja es la posibilidad de consultar un gran número de buscadores partiendo de una única página. La exhaustividad primará sobre la precisión, ya que el usuario encontrará un gran número de enlaces y muchas páginas repetidas. Un buen ejemplo de multibuscador es el ofrecido por CyberJournalist: http://cyberjournalist.ourtoolbar.com/xpi (María Jesús Lamarca Lapuente. Hipertexto: El nuevo concepto de documento en la cultura de la imagen) Consideraciones para la Utilización de los Buscadores: A continuación un cuadro con las principales instrucciones o comandos que permitirán en una búsqueda lograr a través de una pesquisa más rápida y acertada. COMANDO Or And Not Near T U Comillas (“”) Asterisco (*) Sintaxis: Any: Title: Host: URL: Link: FUNCIÓN Cuando se utiliza entre dos frases el resultado de la búsqueda remite a páginas que contengan alguna de las dos palabras. And Si se coloca entre dos palabras mostrará los resultados de páginas que contengan ambos términos. Se utiliza para excluir algún término. Se usa para localizar dos términos que se encuentren entre cierta cantidad de palabras. Realiza la búsqueda únicamente en los títulos de los artículos. Realiza la búsqueda únicamente en los URL de los documentos. Al encerrar una o varias palabras en comillas se obtendrá información sobre lo que esté exactamente encerrado en ellas. Facilita la búsqueda de frases. Si se coloca a la derecha de una palabra buscará todo lo que tenga relación con ella hacia el lado derecho. Se puede hacer uso de algunas operaciones combinadas a la vez. Ej. T:elecciones+Venezuela, deberá encontrar todo lo relacionado con elecciones en Venezuela, únicamente en los títulos. Encontrará cualquier página que contenga el término que buscamos. Buscará el término deseado en los títulos de las páginas web. Se útil.iza para buscar páginas web. Cuando se buscan palabras en el texto de una dirección URL. Si queremos saber que páginas tienen enlace con la nuestra. Para valorar la calidad de un buscador se deben tener en cuenta una serie de factores: la exhaustividad: es decir, el número de documentos que almacena en su base de datos la periodicidad con que se actualiza su base de datos (tanto para verificar si hay nuevas páginas, si otras se han actualizado y si otras han desaparecido) la calidad, flexibilidad y facilidad del lenguaje de consulta la calidad y facilidad que ofrecen tanto la interfaz de consulta, como la interfaz de resultados la pertinencia de los resultados la velocidad de respuesta (el tiempo que gasta en consultar el índice, aplicar el algoritmo de respuesta y ofrecer los resultados) Los motores de búsqueda a veces ofrecen la posibilidad de conocer cuántas y qué páginas mantienen enlaces a un sitio web. Para ello se suele utilizar el operador link seguido de dos puntos y la URL de la que queremos conocer cuántas páginas apuntan a ella, aunque los diferentes buscadores utilizan distintos métodos: AltaVista y Google: se introduce link:dominio. También se puede reducir la búsqueda a una URL particular: link:dominio/paginahtml. Para que no aparezcan las páginas del mismo sitio que se enlazan entre sí, se usa el comando -url: link:dominio -url:dominio. AllTheWeb: se introduce link.all:dominio. La mayor ventaja de utilizar un motor de búsqueda es la rapidez e inmediatez, pero una gran desventaja radica en que puede resultar difícil encontrar lo que se busca si no se domina el lenguaje de interrogación a su base de datos. Si no se sabe buscar, el internauta puede encontrarse con una gran cantidad de enlaces que no le interesen (lo que se denomina “ruido”) o, por el contrario, con que no le devuelvan ningún enlace (“silencio”). Pero si se conoce mínimamente el sistema de búsqueda los buscadores suelen contar con alguna página de información o ayuda sobre cómo se deben realizar las búsquedas- los buscadores suelen ser una solución muy potente. Para las búsquedas precisas, los motores tienen su propio lenguaje de interrogación y suelen permitir acotar las búsquedas utilizando interfaces sencillas de búsqueda que permiten la introducción de texto en alguna de estas variantes: Todas las palabras: esto permite recuperar los resultados que contengan todas las palabras que se introducen en la caja de interrogación. Por ejemplo, buscando "hipertexto documento historia" mediante Todas las Palabras, se localizarán los resultados que incluyan todos los términos, aunque estén separados: hipertexto y documento e historia. Alguna de las palabras: permite recuperar los resultados que contienen una de las palabras. Por ejemplo, la interrogación: "documento digital virtual" devolvería los resultados que contuvieran alguna de estas tres palabras: documento o digital o virtual. La frase exacta: es la más adecuada para búsqueda por nombres propios y expresiones que deben ser buscadas en el orden especificado. Para introducirla se suelen utilizar comillas. Por ejemplo, la consulta: "historia del hipertexto" localizaría los documentos que contuvieran dicha frase. La búsqueda booleana: se trata de un tipo de interrogación que incluye alguno de los operadores lógicos. METABUSCADORES: Son buscadores que realizan exploraciones en otros buscadores, analizan los resultados de la página y presentan sus propios resultados. Los metabuscadores también permiten buscar en varios buscadores al mismo tiempo. Los metabuscadores no almacenan las descripciones de páginas en sus bases de datos, sino que contienen los registros de los motores de búsqueda y la información sobre ellos, adecuando su expresión a los diferentes motores para remitir la consulta a los motores. Una vez que reciben la respuesta, la remiten al usuario no directamente, sino tras realizar un filtrado de los resultados. Este filtrado consiste en eliminar y depurar los enlaces repetidos y en ordenar los enlaces. Además, sólo aparecerá un número limitado de enlaces, los que se consideren más importantes. Los más repetidos ocuparán los primeros puestos ya que el metabuscador considerará que son los más relevantes por estar dados de alta en mayor número de buscadores. Se trata de herramientas muy útiles, el único problema es que, por lo general, no permiten realizar búsquedas tan avanzadas como en un motor de búsqueda, con lo que las consultas tienen que ser generales y no se puede buscar en profundidad. Un metabuscador es un verdadero programa que pueden actuar bien integrado en la propia WWW como el caso de MetaCrawler o Buscopio, o bien como un programa autónomo, como Copernic, una pequeña herramienta de software que se instala en el ordenador y permite hacer búsquedas en varios buscadores a la vez. Existen incluso metabuscadores especializados en determinadas materias: noticias, bibliotecas, diccionarios, blogs, software, etc; otros que permiten búsquedas multilingües, e incluso algunos permiten personalizar las búsquedas con los buscadores elegidos. Sin duda, uno de los más conocidos y potentes multibuscadores es MetaCrawler, que permite buscar en Google, AltaVista, Excite, Infoseek, Yahoo, WebCrawler y Lycos al mismo tiempo, mostrando todos los resultados de forma conjunta y por orden de importancia. MetaCrawler también permite la utilización de operadores booleanos y acotaciones geográficas. Además de buscar en la Web, permite búsquedas en grupos de noticias y ofrece el servicio MiniCrawler, una pequeña ventana flotante que permite realizar búsquedas rápidas en MetaCrawler desde cualquier punto en que nos encontremos. http://www.uc3m.es/uc3m/gral/IT/1metabuscadores.htm BUSCADOR METACRAWLER IXQUICK CLUSTY KARTOO TURBO10 ILECTRIC DOGPILE WEBCRAWLER METASEARCH MAMMA BIWE: BUSCAMULTIPLE: INFO.COM MONSTER CRAWLER STARTINGPOINT DIRECCIÓN http://www.metacrawler.com http://www.ixquick.com/ http://clusty.com http://www.kartoo.com/ http://turbo10.com/ http://ilectric.com http://www.dogpile.com http://www.webcrawler.com/ http://www.metasearch.com/ http://www.mamma.com/ http://www.biwe.com http://www.buscamultiple.com/ http://www.info.com/ (Busca separada o simultáneamente en Google, Yahoo, MSN Ask Jeeves) http://monstercrawler.com/ (Busca simultáneamente en Yahoo, MSN, AltaVista, FastSearch y OpenDirectory) http://www.stpt.com/ (Busca simultáneamente en Ask Jeeves, Excite, Google, Looksmart, Lycos, MSN, Yahoo y Northern Light) Caso de especial atención es Copernic Agent Personal, este metabuscador permite el acceso a la Web invisible, utiliza más de 1200 buscadores y permite crear las propias búsquedas por categorías. Incluye además otra herramienta llamada GuruNet (http://www.gurunet.com/) que permite, con un solo clic, acceder a información contextual dando acceso a más de 100 enciclopedias, diccionarios y anuarios. http://www.copernic.com/en/products/agent/download.html Los “buscadores especializados” se centran en un tema concreto, la búsqueda se realiza sobre un campo específico sin necesidad de que el usuario lo indique. Scirus y Google Scholar son dos buscadores especializados en información científica y académica. Y más especializados aún son por ejemplo TechXtra, un multibuscador de documentos y contenidos especializados en ingeniería, matemáticas y computación que rastrea simultáneamente 29 fuentes de Internet o GlobalSpec, que incluye un motor de búsqueda especializado en informaciones técnicas y relativas a la Ingeniería, así como acceso a contenidos muy relevantes para este campo: normas, patentes, una base de datos de propiedades de materiales, información empresarial y comercial, etc. Directorios o Índices temáticos Los directorios son listas de recursos organizados por categorías temáticas que se estructuran jerárquicamente en un árbol de materias que permite visualizar los recursos descendiendo desde los temas más generales situados en las ramas superiores, a los temas más específicos situados en las ramas inferiores. Las categorías ofrecen una lista de enlaces a las páginas que aparecen referenciadas en el buscador. Cada enlace también ofrece una breve descripción de su contenido. Así pues, los directorios o índices se estructuran por temas o categorías principales que, a su vez, contienen otras subcategorías, y así sucesivamente hasta que al final se ofrecen enlaces directos a otras páginas o recursos de Internet. El Índice o Directorio permite acceder a los recursos referenciados por medio de 2 sistemas: navegando a través de la estructura de las categorías temáticas buscando por palabras clave sobre el conjunto de referencias del buscador o sobre una categoría concreta Los Índices o Directorios se componen de 2 partes: Una base de datos que contiene las páginas de los sitios registrados Una estructura jerárquica que facilita la consulta a la base de datos Sin embargo, la formación de un directorio presenta graves problemas ya que sólo listan una pequeña parte de los documentos existentes y no suelen estar actualizados. Además, la clasificación y categorización requieren una intervención manual y en muchos casos, debido a la heterogeneidad de los temas tratados, algunas páginas presentan problemas de categorización ya que los índices suelen mantener su base de datos de forma manual. La inclusión en un directorio puede hacerse mediante registro del autor o editor de la página, definiendo las palabras clave con las que se quiera identificarlo u optimizando el propio diseño de la página a través de metadatos para que pueda ser indexada de forma automática. Motores de búsqueda La diferencia fundamental entre un índice y un motor de búsqueda es que mientras los índices mantienen su base de datos “manualmente”, utilizando para la inclusión de las direcciones a sus empleados o a los propios internautas que dan de alta sus páginas, los motores de búsqueda emplean para ello un robot de búsqueda. Estos robots no son otra cosa que potentes programas que se dedican a recorrer la Web automáticamente recopilando e indexando todo el texto que encuentran, formando así enormes bases de datos en las que luego los internautas hacen sus búsquedas mediante la inclusión de palabras clave. Los robots recorren los distintos servidores de forma recursiva, a través de los enlaces que proporcionan las páginas que allí se encuentran, descendiendo como si de un árbol se tratara a través de las distintas ramas de cada servidor. Luego, periódicamente, visitarán de nuevo las páginas para comprobar si ha habido incorporaciones o si las páginas siguen activas, de modo que su base de datos se mantenga siempre actualizada. Además, estas actualizaciones se realizarán de forma “inteligente”, visitando con más asiduidad aquellos servidores que cambien más a menudo, como por ejemplo los de los servicios de noticias. Y esa es la principal ventaja de los motores de búsqueda frente a los índices temáticos: la gran cantidad de información que recogen y la mayor actualización de sus bases de datos. Además, estos robots permiten a los creadores de las páginas web la inclusión de “metatags” o etiquetas en lenguaje HTML (entre las cuales pueden incluirse metadatos normalizados tipo Dublin Core) para resumir los contenidos de sus páginas y para incluir las palabras claves que las definan. Mediante los metadatos y las etiquetas, los motores de búsqueda podrán indizar las páginas web de forma correcta. Por el contrario, la ventaja de los Directorios frente a los motores radica en la mayor precisión y un menor ruido, aunque son menos exhaustivos que los motores de búsqueda, ya que se obtienen menos resultados. Los motores de búsqueda no son otra cosa que enormes bases de datos generadas como resultado de la indexación automática de documentos que han sido analizados previamente en la Web. Recogen documentos en formato HTML y otro tipo de recursos. Esta tarea la lleva a cabo un programa denominado crawler (robot) que rastrea la red explorando todos los servidores, o limitándose a ciertos servidores siguiendo un criterio temático, geográfico o idiomático. La posterior recuperación se lleva a cabo gracias a la gestión de esta enorme base de datos que permite diferentes tipos de consulta y ordena los resultados por relevancia, dependiendo de la estrategia de consulta. Los motores son más exhaustivos en cuanto al volumen de páginas, pero son menos precisos ya que no interviene la indexación humana. Fuente: Rogelio Aguilar González. Monografía sobre motores de búsqueda. Yahoo, Geocities, 2002. Bibliografía Aguilar González, Rogelio. Monografía sobre motores de búsqueda. Yahoo, Geocities, 2002. http://www.geocities.com/motoresdebusqueda/introduccion.html Delgado Domínguez, A. Mecanismos de recuperación de información en la WWW. Palma de Mallorca, Universidad de les Illes Ballears, 1998. http://dmi.uib.es/people/adelaida/tice/modul6/memfin.pdf [Volver] López Yepes, Alfonso. "Bancos de imágenes en Internet". Red Digital. Revista de Tecnologías de la Información y Comunicación Educativas, núm. 3, enero 2003. http://reddigital.cnice.mecd.es/3/firmas_nuevas/informes/infor_yepes_res.html Martínez Méndez, Francisco Javier. Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet. Tesis doctoral. Universidad de Murcia, 2002. http://cervantesvirtual.com/FichaObra.html?Ref=10010&ext=pdf Orihuela, José Luis. Santos, María. Portal de buscadores. Web Searching Tools. http://mccd.udc.es/orihuela/voz/ Search Tools for Web Sites and Intranets. Home Page. http://www.searchtools.com/index.html Serrano Cobos, Jorge y Quintero Orta, Ana. "Elección de un motor de búsqueda: Pasos a seguir." Hipertext.net, núm. 1, 2003. http://www.hipertext.net Tramullas Saz, Jesús. "Bibliotecas y Centros de Documentación: Internet para bibliotecarios y documentalistas". En Bibliotecas y Centros de Documentación: Internet para bibliotecarios y documentalistas. Madrid, Servicio de Documentación Multimedia UCM y Fundación Sánchez Albornoz, julio 2001. http://multidoc.rediris.es/avila/paginas/tramullas.pdf Web Indicators Portal. http://www.webindicators.org/