Panorama de los buscadores en Internet

Panorama de los buscadores en Internet Cuando hablamos de buscadores o motores de búsqueda, nos referimos a las herramientas que utilizamos para encontrar los servicios, productos o información que necesitamos en Internet. En este documento abordamos su historia, se muestra una definición de buscador y su clasificación, así como una breve descripción sobre el funcionamiento de los buscadores. CONRENIDO 1. Historia de los buscadores 2. Definición y objetivo de los buscadores 3. Clasificación de los buscadores 4. Componentes de un buscador 5. Funcionamiento de los buscadores Documento elaborado por Héctor Diez Rodríguez, para ser utilizado como material docente en la Benemérita Universidad Autónoma de Puebla, sin fines lucrativos 1 2 Historia de los buscadores Sin los buscadores como Google, Yahoo o MSN sería extremadamente difícil encontrar información entre los miles de millones de páginas web que existen en la Web. Los buscadores son tan viejos como la Web en sí. Se puede decir que la primera herramienta especializada de búsqueda del Web era ARCHIE y fue creada en 1990, por Alan Emtage de la Universidad de Montreal. ARCHIE se utilizaba para buscar archivos alojados en servidores FTP públicos. En 1991 se creó el sistema Gopher, por un estudiante de la Universidad de Minnesota con el objetivo de indexar archivos simples de texto. La web se comenzó a idear en 1980 cuando Tim Berners-Lee se plantea lo que más adelante, 10 años después, sería lo que hoy conocemos como sitios web. A finales de 1990 comenzó a aplicar sus ideas creando el primer servidor web en NeXT, el primer navegador web llamado WorldWideWeb (que también era editor HTML) y la primera página web. Sir Timothy "Tim" John Berners-Lee, OM, KBE (TimBL o TBL) nació el 8 de junio de 1955 en Londres, Reino Unido, se licenció en Física en 1976 en el Queen's College de la Universidad de Oxford. Es considerado como el padre de la web. Una vez que comenzó la web a tener contenido, en junio de 1993 y desde el MIT (con Matthew Gray a la cabeza), se desarrolló World Wide Web Wanderer, un robot de búsqueda creado en Perl que pretendía medir el tamaño de la red. Ese robot se amplió pudiendo leer direcciones URL creándose así Wandex, el que se podría considerar el primer buscador de internet, y que tuvo grandes problemas de infraestructura y velocidad cuando alcanzó los cientos de visitas diarias, ya que su robots conseguía “tirar” los sitios que indexaba. El siguiente buscador (quizá mejor llamarlo directorio) fue Aliweb (Archie Like Indexing on the Web), también apareció en octubre de 1993 y todavía está en marcha. Creado por Martijn Koster, lo que hacía era indexar los metatags de las páginas que se le daban a su índice, es decir, que no tenía un robot de búsqueda que consumiera gran cantidad de ancho de banda como Wandex. Tras estos primeros procesos de rastreo en la red, Martijn Koster propuso unas sugerencias para lo que sería el fichero robots.txt que limita la acción de los robots de búsqueda en los sitios web. En ese momento se comenzaba a poder 3 detectar cada uno de los robots mediante su agente, se sugería usar siempre una DNS única, filtrar determinados lugares del sitio para que no fuera accesible. Aquí comenzaron a desarrollarse los primeros robots (arañas) como Jumpstation que indexaba el título, URL y cabecera del sitio, al igual que World Wide Web Worm, creado por Oliver Mc.Bryan en 1994 (y comprado en 1998 por Goto.com) que funcionaba de la misma manera. Aunque era interesante que indexaran, el problema de estos motores era la forma de mostrar resultados, ya que lo hacían sin aplicar ningún algoritmo, simplemente mostrando los resultados según la fecha de indexación. Más adelante, en diciembre, también lo hizo así el RBSE (Repository-Based Software Engineering) comenzando a aplicar un primer ranking en base a la relevancia de la palabra dada. David Filo De forma paralela iban apareciendo algunos directorios como EINet Galaxy, que en enero de 1994 podría considerarse el primer directorio tal y como los conocemos en la actualidad. Pero, fue en abril de 1994 cuando David Filo y Jerry Yang crearon Yahoo! (anteriormente conocido como Jerry’’s Guide to the World Wide Web), una colección de las páginas web favoritas. El gran problema de Yahoo! era que comenzó siendo un directorio hecho por personas y eso llevaba mucho tiempo, por lo que tuvo que evolucionar incorporando un buscador para ese directorio. Es curiosa la historia de su nombre debido a que muchos le otorgan el nombre de Yet Another Hierachical Officious Oracle, aunque sus fundadores insisten en que se basa en los personajes de unas aventuras de Gulliver. Jerry Yang 4 Así hasta que el 20 de abril de 1994 Brian Pinkerton, desde la Universidad de Washington, presentase WebCrawler. En realidad este buscador era de escritorio pero en 3 meses se convirtió en un robot de la red. La gran diferencia y paso diferencial que podríamos llamar la versión 1 de los buscadores era que indexaba las páginas de forma completa y que buscaba información en ellas, al contrario de sus antecesores, que sólo buscaban en la dirección web, título o metatags. Esto hizo que la relevancia de los resultados fuera mucho mayor. Además, tenía la peculiaridad de poder ver las búsquedas en tiempo real con su Webcrawler Search Voyeur. Hay que tener en cuenta que al cabo de 7 meses llegó a su millón de consultas, que en 1995 fue comprado por AOL, en 1997 por Excite y que en 2001 pasó a ser parte de InfoSpace. Brian Pinkerton InfoSeek también apareció a principios de 1994, y aunque no llegó a tener nada especial, tuvo un gran salto en diciembre de 1995 cuando fue el motor de búsqueda por defecto en Netscape. En esta época comenzaron también a aparecer los primeros metabuscadores. Este sistema lo que hace realmente es unificar los resultados de varios motores de búsqueda para ofrecer los resultados mezclados. En 1995 apareció el primero de ellos llamado MetaCrawler creado por Erik Selberg y Oren Etzioni en la Universidad de Washington (como Webcrawler). En este caso devolvía resultados de Lycos, Altavista, Yahoo!, Excite, Webcrawler e Infoseek. El problema era su velocidad. Como curiosidad, en noviembre de 1996 ya tenía una nueva versión, en beta, para probar. En diciembre de 1995 seis estudiantes de Stanford lanzaron Excite gracias al proyecto Architext (iniciado en 1994) que introdujo uno de los conceptos base de las búsquedas. El complicado algoritmo intentaba crear un sistema parecido a los sinónimos mediante estadísticas entre las relaciones de palabras, de forma que se podía realizar una búsqueda obteniendo resultados aunque la misma no existiera en la página (si tenía alguna relación, claro). En 1996 compró Magellan y Webcrawler y creó su propio directorio. Fue el buscador de referencia hasta mediados de 1999 y en 2002 perdió su sistema de búsqueda pasando a ser un metabuscador. 5 El siguiente gran lanzamiento fue AltaVista. Fue en Diciembre de 1995 cuando hizo su aparición en escena y es muy importante este lanzamiento por las mejoras que proponía: tenía ancho de banda casi ilimitado, permitía consultas en lenguaje natural (las que utilizamos habitualmente para hacer búsquedas), consultas avanzadas mediante operadores lógicos (AND - OR), añadir o eliminar direcciones web en 24 horas, comprobar los enlaces entrantes a un sitio web e incluso permitía hacer búsquedas en los nombres de imágenes y algunos ficheros multimedia. No sólo era grande en resultados sino veloz al entregarlos. Además, ofrecía una serie de “ayudas / trucos” para mejorar la calidad de las consultas. El proyecto Google comenzó a desarrollarse en enero de 1996 por Sergey Brin y Larry Page en la Universidad de Stanford, llamándose BackRub debido a la tecnología que utilizaba, que calculaba la importancia de un sitio web en base a los enlaces que recibía. En esa época fue cuando Page fabricó una computadora con piezas de Lego y con tecnología antigua que más adelante se convertiría en lo que hoy es Google. El 15 de septiembre de 1997 el dominio google.com era comprado y el 7 de septiembre de 1998 se creaba Google Inc. Una peculiaridad de Google es que en momentos especiales cambia su logo para adaptarlo a esa ocasión. Hay que destacar dos razones por las que Google se hizo muy interesante: una interfaz muy clara y sencilla (como la de Altavista en sus inicios) y unos resultados muy relevantes. El secreto de los resultados, la tecnología PageRank , hizo que el mundo de los motores de búsqueda cambiase completamente dando por iniciado lo que se puede llamar la versión 2 de los buscadores. Page lo que implementó fue un sistema mediante el cuál no sólo se Sergey Brin Originario de Moscú, (21 de agosto de 1973) es creador y co-fundador del popular motor de búsqueda Google. se licenció con honores en Ciencias matemáticas y en Ciencias de la Computación por la Universidad de Maryland en College Park. Fue en Stanford donde conoció a Larry Page con quien desarrolló lo que se convertiría en el famoso buscador, juntos fundaron Google Inc. en 1998. 6 tenían en cuenta los factores de la propia página en la que se buscaba información, sino que se tenían en cuenta otros factores externos que daban mayor o menos importancia al sitio web. Hoy en día todos los motores de búsqueda utilizan una tecnología similar. El 15 noviembre de 2003, Google implementó uno de los primeros grandes cambios en su motor de búsqueda añadiendo mejoras en la búsqueda semántica. Los motores de búsqueda tenían unas necesidades básicas: clustering y semántica. Lawrence Edward "Larry" Page Nació el 26 de marzo de 1973, es un empresario estadounidense de origen judío. Page estudió Ciencias de la Computación antes de co-fundar el motor de búsqueda de Internet Google (ahora Google Inc.), junto a Sergey Brin. En 1998 apareció MSN Search, de la mano de Microsoft, utilizando los datos de Inktomi y también apareció el Open Directory Project (DMOZ), que, aunque no era el primer directorio hecho por personas, sí que era el primero en hacerlo de forma colaborativa. Creado por Rich Skrenta y Bob Truel y llamado inicialmente Gnuhoo, pasó a llamarse Newhoo el 5 de junio de 1998 y finalmente fue adquirido por Netscape en octubre de 1998 cuando pasó a ser el ODP, momento en el cual ya disponía de 100.000 direcciones y cerca de 4.500 editores. Nutch es un motor de búsqueda en código abierto y creado en Java. Aunque su desarrollo es costoso, ha conseguido el apoyo de Yahoo!. En noviembre de 2004, MSN Search y de la mano de Christopher Payne y Oshoma Momoh pusieron en marcha una primera fase pública del motor de Microsoft, que se hizo pública el 20 de enero de 2005. El 1 de noviembre de 2005 se presentaba la plataforma Windows Live que sería la nueva interfaz del motor de búsqueda. 7 También hay que hacer referencia a buscadores como Noxtrum del que se comenzó a saber a finales de Junio de 2005, haciendo referencia a estar enfocado principalmente en sitios en español y portugués, además de contener toda la información de Páginas Amarillas. El 30 de Noviembre de 2005 se lanzaba la versión beta, y el 22 de Abril de 2006 era presentada la primera versión final del buscador. El 1 de Abril de 2008 dejaba de estar en línea este proyecto. La presentación de Quaero, el buscador europeo que se presentaba los primeros días de 2006, impulsado principalmente por los gobiernos de Francia y Alemania, y potenciado por grandes empresas tecnológicas europeas. Finalmente a principios de Abril, se lanza como Exalead (buscador que llevaba años en funcionamiento con los resultados de AOL, y que tras el acuerdo de éste último con Google, decidió usar el índice de Quaero). Desde Septiembre de 2006 su índice cuenta con 8.000 millones de resultados. En los últimos meses han aparecido dos motores centrados en las búsquedas semánticas. El primero es Hakia, que, aunque lleva desarrollándose desde 2004, se ha lanzado en beta en 2006 y se está dando a conocer desde 2007. Su planteamiento es el lanzamiento oficial a lo largo de 2008. El segundo es Powerset, lanzado en beta privada el 17 de septiembre de 2007 bajo el nombre de Powerlabs, comienza a hacer sus primeras pruebas con la Wikipedia y utiliza un algoritmo desarrollado por Xerox PARC. 8 ¾ Actualidad de los buscadores • • • • • • • • • ARCHIE ya no es utilizado. En la actualidad existen algunos servidores Gopher, mantenidos por el gobierno estadounidense y alguno que otro entusiasta. Excite fue comprado por la compañía AskJeeves. Yahoo! En un principio utilizaba la tecnología de Google para sus búsquedas, pero al adquirir al buscador Inktomi, se independizó y lanzó su propio buscador. Es actualmente el segundo buscador más popular del mundo. Infoseek fue comprado por Walt Disney para fusionarlo a su buscador Go.com. Altavista es parte ahora de la red Overture, subsidiario de Yahoo! Inktomi fue comprado por Yahoo en 2003. Lycos ha comprado ciertos buscadores como HotBot y servicios de páginas web gratuitas como Angelfire y Tripod para reforzar su participación en el mercado. Google se ha convertido en el buscador más popular del mundo manejando cerca del 45% de las búsquedas en Estados Unidos solamente y posee una base de datos que sobrepasa los 8 billones de páginas web. 9 ¾ Tabla resumen de la aparición de los buscadores 1993 Wandex Aliweb robots.txt 1994 EInet Galaxy JumpStation Yahoo! (directorio) WebCrawler WWWWorm InfoSeek Lycos RBSE 1995 MetaCrawler Excite LookSmart Altavista Ozú 1996 Hotbot / Inktomi Dónde? Ask Jeeves Backrub / Google 1997 Norther Light 1998 MSN Search ODP / DMOZ 1999 AllTheWeb Baidu 2000 Teoma 2003 Seekport 2004 Yahoo! (buscador) Nutch Clusty MSN Search (buscador) 2005 Windows Live Noxtrum 2006 Exalead (motor Quaero) Hakia 2007 Powerset 10 Definición y Objetivos de los Buscadores En informática, un buscador es un sistema informático que permite al usuario encontrar archivos almacenados en servidores. Los buscadores son sistemas que buscan en Internet (algunos buscan sólo en la Web pero otros buscan además en News, Gopher, FTP, etc.) cuando les pedimos información sobre algún tema. Las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas; el resultado de la búsqueda es un listado de direcciones Web en los que se mencionan temas relacionados con las palabras clave buscadas. Definición: Aquellos que a partir de cierta información entregada en lenguaje natural o en alguna especificación puede deducir y recuperar la información que uno está buscando. Objetivo: Encontrar los documentos que contengan las palabras claves introducidas. Habitualmente localiza las páginas Web que mejor se adapten a las palabras introducidas. Clasificación de los buscadores Cada tipo de buscador tiene sus propias características. Conocerlas puede ayudarnos a decidir cuál utilizar en función de las necesidades de nuestra búsqueda. No obstante, hoy en día todos los buscadores tienden a ofrecer el mayor número de servicios posible, con lo que sus ofertas de búsqueda se asemejan cada vez más, siendo difícil adivinar de qué tipo de buscador estamos hablando. Los buscadores se pueden clasificar en tres tipos según la forma de obtener las direcciones que almacenan en su base de datos: los índices o directorios, los motores de búsqueda y los metabuscadores. En los índices, hay personas detrás de ellos que clasifican inteligentemente las páginas web y los recursos de la red en categorías predeterminadas, a modo de gran árbol. Los motores de búsqueda son, en cambio, bases de datos que almacenan, una versión reducida de todas las páginas web y recursos que encuentran en la red y que, aunque almacenan más información, son 11 ligeramente menos precisos. Los metabuscadores son páginas web en las que nos ofrece una búsqueda sin que haya una base de datos propia. La ventaja de los motores y metabuscadores es la gran cantidad de información que recogen y la constante actualización de sus bases de datos. La desventaja, es lo difícil que resulta encontrar lo que se desea si no se domina el lenguaje de interrogación. A continuación una descripción de cada uno de ellos: ¾ Índices (Directorios, Índices temáticos, índices de búsqueda o árboles de categorías) Índices o índices temáticos: Son sistemas de búsqueda por temas o categorías jerarquizados (aunque también suelen incluir sistemas de búsqueda por palabras clave). Se trata de bases de datos de direcciones Web elaboradas "manualmente", es decir, hay personas que se encargan de asignar cada página web a una categoría o tema determinado. Es el primer tipo de buscador que surgió. En los índices de búsqueda, la base de datos con direcciones la construye un equipo humano. Es decir, un grupo de personas va rastreando la red en busca de páginas. Vistas éstas son clasificadas por categorías ó temas y subcategorías en función de su contenido. De este modo, la base de datos de un índice de búsqueda contiene una lista de categorías y subcategorías relacionadas con un conjunto de direcciones de páginas web que tratan esos temas. Los índices temáticos se estructuran por temas o categorías principales que contienen subcategorías. La ventaja, es que es muy fácil hallar la información buscada (si ésta se encuentra en la base de datos), descendiendo por los árboles temáticos (de una categoría a otra subcategoría), o usando palabras clave en los cuadros de búsqueda existentes en la página principal o dentro de los distintos niveles. La desventaja consiste en que no siempre está actualizada y las bases de datos son más pequeñas que las de un motor de búsqueda. Otra diferencia interesante es que aquellos índices que además ofrecen servicios (como e-mail, publicidad, noticias, etc.) y que tienen el respaldo de entidades comerciales, son conocidos como portales. La consulta de un índice se realiza, pues, a través de categorías. Por ejemplo, si buscamos información sobre el Museo del Prado deberemos pinchar sobre una secuencia de categorías y subcategorías como la siguiente: Arte / museos / pinacotecas y seguro que dentro de ésa última subcategoría hay algún enlace que hace referencia al museo del Prado. Ejemplo: Uno de los directorios más conocidos es Yahoo 12 El primer índice de búsqueda que apareció fue Yahoo! que sigue ofreciendo sus servicios. La ventana de su versión en castellano tiene el aspecto de la imagen. Se puede observar que, a pesar de tratarse de un índice de búsqueda, ofrece también un espacio para introducir palabras clave (bajo el título de la web). Esto se debe a que todos los buscadores que ofrecen servicios en la red tienden a satisfacer al máximo las necesidades de los navegantes, de forma que intentan abarcar toda la gama de posibilidades. ¾ Motores de búsquedas (buscadores de contenidos) Temporalmente, los motores de búsqueda son posteriores a los índices. El concepto es diferente: en este caso, el rastreo de la web lo hace un programa, llamado araña ó motor (de ahí viene el nombre del tipo de buscador). Este programa va visitando las páginas y, a la vez, creando una base de datos en la que relaciona la dirección de la página con las 100 primeras palabras que aparecen en ella. Como era de esperar, el acceso a esta base de datos se hace por palabras clave: la página del buscador me ofrece un espacio para que yo escriba la ó las palabras relacionadas con el tema que me interesa, y como resultado me devuelve directamente un listado de páginas que contienen esas palabras clave. Por ejemplo, si utilizo un motor de búsqueda para localizar información sobre el Museo del Prado, simplemente tendré que escribir 13 "Museo del Prado" en el espacio de búsqueda y pinchar en el botón Buscar. A continuación se me devolverá otra página con los resultados de la búsqueda: un listado con enlaces a las páginas solicitadas. Son sistemas de búsqueda por palabras clave. Son bases de datos que incorporan automáticamente páginas web mediante "robots" de búsqueda por la red. Ejemplo: Google Un buen ejemplo de motor de búsqueda es Google. Aquí mostramos el aspecto de su página principal. Observando esta ventana vemos que, en la parte central-derecha hay una pestaña con el nombre Directorio. Si hacemos clic sobre ella nos llevará a otra página en la que se nos ofrece realizar la búsqueda por categorías. Como en el caso de los índices, los motores también tienden a ofrecer todos los servicios posibles al usuario, y le dan la posibilidad de realizar una búsqueda por categorías. ¾ Metabuscadores Los metabuscadores son páginas web en las que se nos ofrece una búsqueda sin que haya una base de datos propia detrás: utilizan las bases de varios buscadores ajenos para ofrecernos los resultados. Los metabuscadores no disponen de una base de datos propia, sino que utilizan la información almacenada en las bases de datos de otros buscadores y directorios. Hacen las búsquedas simultáneamente en varios motores seleccionados respetando el formato original de los buscadores e incorporan funciones adicionales, por ejemplo Coopernic . Lo que hacen, es realizar búsquedas en auténticos buscadores, analizan los resultados de la página, y presentan sus propios resultados, según un orden definido por el sistema estructural del metabuscador. Un ejemplo de metabuscador es Metacrawler y Vivisimo Vivisimo (http://vivisimo.com). Muy recomendado por la forma en que presenta los 14 resultados, agrupándolos por conceptos relacionados. Además exhibe en primer lugar aquellos servidores que obtienen los mejores resultados en varios buscadores y la posición que han obtenido. Otras clasificaciones de buscadores son: 1) Buscadores de nueva generación: • Clasificadores semánticos: ordenan por temas, pero no mediante humanos, sino mediante algoritmos, por ejemplo Vivísimo 2) Buscadores especializados: Son los buscadores que se limitan a un tema en concreto, recogen todo sobre lo que de ese tema existe en la red. En esta categoría se encuentran los directorios académicos temáticos, generados por universidades, bibliotecas o centros de investigación, cuya característica principal es la alta calidad en los links seleccionados. Entre ellos encontramos a: • • • • • • • • • • • • Thesauros visuales, redes conceptuales que al mismo tiempo son buscadores Sitios con búsquedas más académicas, o de sitios arbitrados Bases de datos especializadas (sobre cine, sobre otros medios) Herramientas de búsqueda que organizan los resultados de formas útiles, tales como grupos de conceptos o mapas mentales (ej. KartOO ) Nuevas herramientas (ej. Headline Spot, Yahoo! Full Coverage, World News Network). Herramientas de imágenes y medios (ej. Google , AP Photo Archive, Library of Congress’s American Memory Collections, Pics4Learning). Herramientas de referencia tales como diccionarios en línea, bases de datos de citas, enciclopedias, y “Un día como hoy” en los sitios de Historia (ej. Real Academia Española , Encarta , Mapas , Map Machine, Merriam-Webster Online, World Book, Un día como hoy en la Historia ). Servicios de suscripción (ej. EBSCO-host, GaleNet, Wilson Web, Facts on File, SIRS, Bigchalk) Herramientas de búsqueda específica por materia (ej. Scirus, Artchive) Portales (ej. Kathy Schrock’s Guide for Educators, Multnomah Homework Center, FirstGov, Internet Public Library, Eduteka). Directorios de temas (ej. Google, Librarians’ Index to the Internet, About.com, Infomine). Herramientas especiales para niños (ej. Ithaki , Yahooligans! , México para niños, Searchasaurus, FirstGov for Kids) 15 • • • Buscadores verticales: Buscadores especializados en un sector concreto, lo que les permite analizar la información con mayor profundidad, disponer de resultados más actualizados y ofrecer al usuario herramientas de búsqueda avanzadas. Es importante resaltar que utilizan indices especializados de esta manera acceder a la información de una manera más específica y fácil. Ejemplos de este tipo de buscadores son: Trovit, Nestoria. Vortals: Nombre que deriva de la contracción de las palabras inglesas vertical portal, estos sitios se focalizan en un tema, tipo de recurso o región geográfica. Por ejemplo www.achoo.com es un sitio dedicado a médicos, www.vortalexperts.com compila vortals dedicados a educación, negocios, arte, salud, medicina, gobierno, historia, medio ambiente, etc.. Agentes inteligentes: Para cada búsqueda estos agentes consultan muchos buscadores de manera simultánea y combinan sus resultados eliminando los duplicados y los enlaces muertos y conservando los documentos más relevantes. Los resultados se pueden ordenar y enviar por correo electrónico, también permiten guardar las estrategias de búsqueda para usarlas con posterioridad. El más conocido es Copernic, del cual te puedes descargar una versión básica y gratuita en castellano. Componentes de los buscadores Los buscadores automáticos emplean programas de ordenador llamados robots o arañas, que saltan de una página a otra de la Web recogiendo páginas y almacenando toda la información en una gigantesca base de datos. Esta base de datos contiene, entre otros datos, el título de la página, una descripción, palabras clave y los enlaces. Están compuestos por cuatro partes: Los robots que recorren la red escrutándola (también llamados spider, robot o crawler) o La base de datos que es construida por los robots o El motor de búsqueda que facilita la consulta a la base (también conocido con indicador) o La interfaz de búsqueda en la cual hacen la solicitud los usuarios o A continuación se explican cada uno de ellos: 16 ¾ Spider/Robot/Crawler Spider, crawlers, robots o agentes de búsqueda son los nombres que reciben el software que recopila los documentos. Funciona de manera que comienza en una página (A) y recopila todas sus URLs, luego envía la página (A), y comprueba que no está indizada y que no se tiene una versión menos actualizada, para luego indizar la página (A). Luego recupera la página (B) que está la primera en la lista... y así sucesivamente. El recorrido de las direcciones de Internet es, evidentemente, realizado en forma automática por cada uno de los Robots. Al no ser todos los Robots iguales -y tampoco lo son sus técnicas de búsqueda- cada Robot tiene una visión de la red que difiere de las otras. Algunos de los Robots de indización de la Web construyen una base de datos central de documentos la cual no es un buen modelo para el universo que es la Web con millones de documentos en millones de sitios. Esto sucede debido a que los Robots son programados por humanos y, en ocasiones, éstos cometen errores cuando configuran o simplemente no consideran todas las implicaciones de sus acciones. ¾ Bases de Datos Actualmente existen seis grandes bases de datos: • • • • • • • Google Yahoo MSN Teoma Wisenut Gigablast Exalead/Quaero Los demás buscadores utilizan estas Bases de Datos. Las Base de Datos de los buscadores está constituida principalmente por un índice de palabras, frases y datos asociados a la dirección de cada recurso (URL), si bien cada vez con más frecuencia incorporan también programas, imágenes, archivos, etc. La lista de elementos indizados en la base de datos varía de una herramienta de búsqueda a otra. Algunas indizan cada palabra de las páginas web, incluyendo el URL y el texto de algunas metaetiquetas como author, title, keywords o description. Esta información puede mejorar sensiblemente la eficacia en la recuperación y en la ordenación de los resultados o ranking. Otros indizan únicamente las palabras de aparición más frecuente, o las incluidas en ciertas etiquetas, o sólo las primeras palabras o líneas de los documentos HTML. Pueden incluir o no las palabras vacías de significado como 17 los determinantes, preposiciones y conjunciones aunque, si las elimina, también pueden considerar como vacías las palabras de frecuencia muy alta, como Web, Internet, información, etc. ¾ Indizador. El programa de Indización Las herramientas de búsqueda disponibles en la W3 utilizan métodos para indizar los recursos que incorporan a sus bases de datos. Por ejemplo, la indización puede contemplarse en el nivel submorfológico, por palabras clave y por conceptos. La indización en el nivel submorfológico, esto es sin análisis morfológicos, sintácticos o semántico, ofrece un método muy flexible para la recuperación. Así indizan las fuentes de información como patrones de bits o bit patterns de manera que texto, sonido e imágenes en movimiento, pueden indicarse y recuperarse usando la misma forma de representación. Algunas herramientas de consulta comienzan a incorporar sistemas como, por ejemplo, Excalibur Visual RetrievalWare, que ofrecen recuperación de imágenes y de texto. Las técnicas estadísticas de recuperación de información ahora incorporadas a una amplia gama de motores de búsqueda se basan en dos métodos principales de representación e indización de la información: • • Indización por palabra clave. Se crean índices inversos de raíces y palabras clave, direcciones, ubicación y frecuencia de apariciones. Este enfoque, esencialmente morfológico y estadístico, basa la recuperación de información en la similitud formal de las palabras, y las estadísticas de su presencia en documentos y colecciones de documentos. Es la forma más común de indización de textos en la Web. Algunos buscadores obtienen las palabras clave de determinados campos, las metaetiquetas HTML, pero la mayoría indiza el texto completo de las páginas, incluyendo o no las palabras vacías. Indización por conceptos. Existen varios procedimientos para construir bases de datos basadas en conceptos, algunas de ellas muy complejas y basadas en sofisticadas teorías lingüísticas y de inteligencia artificial. En otros casos, como Excite, se basan en una aproximación numérica, calculando la frecuencia de aparición de ciertas palabras significativas. A partir de análisis estadísticos el buscador determina qué conceptos aparecen juntos o relacionados en textos que se centran en un tema concreto. Mediante este sistema se pueden recuperar recursos que tratan un tema dado, incluso aunque las palabras incluidas en el documento no coincidan formalmente con las de la pregunta. Otros sistemas, como DR‐Link, realizan un análisis más profundo e indizan a nivel sintáctico, semántico pragmático. Sin embargo, el mayor nivel de análisis semánticos, posiblemente sea el de los sistemas que ofrecen información evaluada, revisada e indizada por humanos, que se presenta en directorios temáticos como los de Yahoo, LookSmart, Excite o Infoseek. 18 ¾ Interfaz de búsqueda. Interfaces de Recuperación. Ya en 1990, en un seminario interno de ESRIN –organismo perteneciente a la Agencia Espacial Europea- sobre interfaces de usuario para sistemas de información, se llegó a la conclusión de que los sistemas de información científicos de próxima generación serían para uso directo de los usuarios finales, capaces de soportar poblaciones de usuarios heterogéneas y de ofrecer respuesta directa a sus problemas de información mediante el uso de una completa variedad de fuentes de información necesarias para alcanzar los objetivos del usuario. Las interfaces de muchas herramientas de búsqueda de Internet, sobre todo en el entorno de la W3, presentan esa tendencia. Una de las causas de fracaso y frustración en las búsquedas se produce cuando el usuario desconoce o no domina suficientemente el lenguaje de interrogación del motor que está utilizando. En ese caso, encuentra grandes dificultades para localizar la información que necesita. Si la consulta no se formula de manera adecuada, aprovechando las prestaciones del sistema, éste responde con gran número de referencias irrelevantes produciéndose lo que se denomina ruido o, por el contrario, no localiza ningún documento pese a que existan recursos útiles y pertinentes, lo que se denomina silencio. No obstante, no es el usuario el único responsable de que el proceso de búsqueda resulte insatisfactorio. Una parte fundamental de las herramientas de consulta de la W3 es la interfaz, que hace posible la interacción usuario-máquina y que está diseñada para usuarios inexpertos en la búsqueda y recuperación de información, por lo que suele ser más sencilla e incluir más ayuda. La documentación ofrecida, es decir la información que presenta el servicio sobre su estructura, funcionamiento o prestaciones en forma de pantalla de ayuda y la sencillez de uso de la interfaz desempeñan un importante papal en la selección de buscadores por parte de los usuarios. En cuanto a la descripción de sus bases de datos, no siempre se ofrecen detalles sobre su cobertura, periodicidad de actualización, sistema de indización o el funcionamiento de su robot. Sin embargo, esta información es crucial para decidir si ése es el servicio de búsqueda que interesa en ese momento. La orientación en la realización de las búsquedas se lleva a cabo mediante pantallas de ayuda. Todas las herramientas de consulta incluyen, en mayor o menor medida, pantallas de ayuda aunque, a veces, ésta se encuentra dispersa en diferentes opciones o apartados. No siempre es fácil encontrarla y la mayoría de los buscadores no ofrecen ayuda en contexto, que puede resultar de gran utilidad cuando se presenta alguna duda o problema. Es importante que se indiquen claramente todas las posibilidades de búsqueda con que cuenta, pero también las limitaciones. También resultan de gran ayuda los ejemplos de búsqueda, ya que, aunque las explicaciones sean claras, lo más ilustrativo y útil es indicar ejemplos sobre el modo de plantear las consultas correctamente. A veces incluyen una sección de “dudas frecuentes” (Frecuently Asked Questions, o FAQs), que presenta, mediante un sistema de preguntas y respuestas, las cuestiones y problemas que pueden plantearse de forma más habitual en relación al uso del servicio de búsqueda, pero, desgraciadamente, no todos cuentan con este 19 complemento de ayuda. Los menús desplegables hacen que la interfaz sea mucho más intuitiva y facilitan las búsquedas, por lo que muchas herramientas de consulta han ido incorporando opciones presentadas de esta manera. Por otra parte, los gráficos contribuyen a una presentación agradable del servicio. Los hay que, desde el principio, optaron por propuestas llamativas y ciertamente arriesgadas, como Hotbot, hasta los que se mantienen en un nivel de serena austeridad, como Magullen. Estas presentaciones, pensadas para gustos muy diversos, no son nunca determinantes para decidir la valía de un buscador pero, desde luego, influyen en la primera impresión que se obtiene del servicio. La interfaz de consulta estructura la búsqueda en una versión simple y otra avanzada, que ofrece más prestaciones. Es recomendable que este tipo de servicios presenten estas dos opciones: la simple, para búsquedas sencillas y/o usuarios no expertos, y la avanzada, para ecuaciones de búsqueda con un planteamiento más complejo. De este modo, la pantalla no se sobrecarga innecesariamente de información y opciones, ni se confunde al usuario que únicamente pretende realizar una búsqueda simple. La opción simple de búsquedas es la que aparece por defecto cuando se conecta el buscador. Se presenta como una ventana de consulta sencilla que permite introducir una expresión de búsqueda formada por un término o frase, o bien varios términos unidos por los operadores lógicos correspondientes. La pantalla de búsquedas avanzadas, para usuarios más familiarizados con las posibilidades del buscador, se presenta cuando se pulsa el hiperenlace advanced search o powered search. Dado el alto índice de sobre carga que sufren las herramientas de consulta de la W3 debido a las continuas visitas de los usuarios de la red, se hacen duplicados o mirror de su base de datos y se ubican en otros servidores dispersos por la red. Es decir, los duplicados son una copia exacta del servidor original, que se sitúa en otros países o zonas para descongestionar la carga del servicio y hacer más fluido el tráfico en la red. A veces se presenta la interfaz, principalmente las diferentes opciones de búsqueda y las pantallas de ayuda, traducida a varias lenguas para los internautas puedan acceder más fácilmente a los recursos de la W3. En otras ocasiones, se trata de verdaderas versiones nacionales o regionales donde se recogen especialmente informaciones relacionadas con esa zona geográfica o de particular interés para los usuarios de la misma y que en algunos casos son versiones reducidas de la base de datos original. La capacidad de personalizar y ajustar la interfaz a los gustos concretos del usuario contribuye a que éste, al adaptarlo a sus preferencias, se identifique con el servicio de búsqueda utilizado y obtenga mayor grado de satisfacción. Para recoger las preferencias de las personas que acceden a estos servicios en la realización de las búsquedas, éstos han de configurar las búsquedas determinando sus intereses respecto a los resultados. El programa, mediante cookies, o el usuario, mediante bookmarks (enlaces favoritos), almacenan esta información de manera que no ha de indicarse nuevamente cada vez que se solicite y ejecute una consulta. 20 Funcionamiento de los buscadores El funcionamiento de los buscadores puede resumirse en tres pasos: 1. Recolectan información de todas las páginas que hay en Internet explorando de manera automática cada una de ellas y crean un archivo de las páginas exploradas. 2. Indexan el archivo, es decir, crean un índice a partir de las palabras clave y criterios predeterminados. Ante la solicitud de información de un usuario, revisan este índice para arrojar los resultados. 3. Producen resultados ante determinada búsqueda relacionando las palabras claves y la calidad de la página con las palabras que ha ingresado el usuario para realizar su búsqueda. Al conectar con algún buscador nos encontraremos con una página que contiene formulario para definir nuestra búsqueda y las opciones de la misma; tras rellenar formulario, enviarlo y esperar unos segundos, el buscador nos devolverá una lista lugares donde figura nuestra búsqueda. Así pues tendremos dos áreas según propósito: 1. 2. un un de el Formular la búsqueda y enviarla. Lista de resultados, ordenados según su semejanza con las palabras claves introducidas. Fuentes de Información http://es.wikipedia.org/wiki/Buscador Harris, R. (2007). Evaluating Internet Research Sources. Recuperado el 13 de abril de 2009 de http://www.virtualsalt.com/evalu8it.htm Ask Bruce! (s.f.). Las cinco W de la BBC. Recuperado el 13 de abril de 2009 de http://www.bbc.co.uk/webwise/askbruce/articles/browse/goodsites_1.shtml Valenza, J, (2004). Búsqueda Significativa: Pensar y Comportarse de manera Info‐Competente, recuperado el 13 de abril de 2009 de http://www.eduteka.org/BusquedaSignificativa.php 21 22

Panorama de los buscadores en Internet

Documentos relacionados

Productos

Apoyo

Panorama de los buscadores en Internet

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib