Panorama de los buscadores en Internet

Anuncio
Panorama de los
buscadores en
Internet
Cuando hablamos de buscadores o motores de búsqueda, nos referimos a las
herramientas que utilizamos para encontrar los servicios, productos o información que
necesitamos en Internet. En este documento abordamos su historia, se muestra una
definición de buscador y su clasificación, así como una breve descripción sobre el
funcionamiento de los buscadores.
CONRENIDO
1. Historia de los buscadores
2. Definición y objetivo de los buscadores
3. Clasificación de los buscadores
4. Componentes de un buscador
5. Funcionamiento de los buscadores
Documento elaborado por Héctor Diez Rodríguez, para ser utilizado
como material docente en la Benemérita Universidad Autónoma de
Puebla, sin fines lucrativos
1
2
Historia de los buscadores
Sin los buscadores como Google, Yahoo o MSN sería extremadamente difícil encontrar
información entre los miles de millones de páginas web que existen en la Web.
Los buscadores son tan viejos como la Web en sí. Se puede decir que la primera
herramienta especializada de búsqueda del Web era ARCHIE y fue creada en 1990, por
Alan Emtage de la Universidad de Montreal. ARCHIE se utilizaba para buscar archivos
alojados en servidores FTP públicos.
En 1991 se creó el sistema Gopher, por un estudiante de la Universidad de Minnesota
con el objetivo de indexar archivos simples de texto.
La web se comenzó a idear en 1980 cuando Tim Berners-Lee
se plantea lo que más adelante, 10 años después, sería lo que
hoy conocemos como sitios web. A finales de 1990 comenzó
a aplicar sus ideas creando el primer servidor web en NeXT,
el primer navegador web llamado WorldWideWeb (que
también era editor HTML) y la primera página web.
Sir Timothy "Tim"
John
Berners-Lee,
OM, KBE (TimBL o
TBL) nació el 8 de junio
de 1955 en Londres,
Reino Unido, se licenció
en Física en 1976 en el
Queen's College de la
Universidad de Oxford.
Es considerado como el
padre de la web.
Una vez que comenzó la web a tener contenido, en junio de
1993 y desde el MIT (con Matthew Gray a la cabeza), se
desarrolló World Wide Web Wanderer, un robot de
búsqueda creado en Perl que pretendía medir el tamaño de la
red. Ese robot se amplió pudiendo leer direcciones URL
creándose así Wandex, el que se podría considerar el primer
buscador de internet, y que tuvo grandes problemas de
infraestructura y velocidad cuando alcanzó los cientos de
visitas diarias, ya que su robots conseguía “tirar” los sitios
que indexaba.
El siguiente buscador (quizá mejor llamarlo directorio) fue
Aliweb (Archie Like Indexing on the Web), también apareció
en octubre de 1993 y todavía está en marcha. Creado por
Martijn Koster, lo que hacía era indexar los metatags de las
páginas que se le daban a su índice, es decir, que no tenía un
robot de búsqueda que consumiera gran cantidad de ancho de
banda como Wandex.
Tras estos primeros procesos de rastreo en la red, Martijn
Koster propuso unas sugerencias para lo que sería el fichero
robots.txt que limita la acción de los robots de búsqueda en
los sitios web. En ese momento se comenzaba a poder
3
detectar cada uno de los robots mediante su agente, se sugería
usar siempre una DNS única, filtrar determinados lugares del
sitio para que no fuera accesible.
Aquí comenzaron a desarrollarse los primeros robots (arañas)
como Jumpstation que indexaba el título, URL y cabecera del
sitio, al igual que World Wide Web Worm, creado por
Oliver Mc.Bryan en 1994 (y comprado en 1998 por
Goto.com) que funcionaba de la misma manera. Aunque era
interesante que indexaran, el problema de estos motores era la
forma de mostrar resultados, ya que lo hacían sin aplicar
ningún algoritmo, simplemente mostrando los resultados
según la fecha de indexación. Más adelante, en diciembre,
también lo hizo así el RBSE (Repository-Based Software
Engineering) comenzando a aplicar un primer ranking en
base a la relevancia de la palabra dada.
David Filo
De forma paralela iban apareciendo
algunos directorios como EINet
Galaxy, que en enero de 1994 podría
considerarse el primer directorio tal y
como los conocemos en la actualidad.
Pero, fue en abril de 1994 cuando
David Filo y Jerry Yang crearon
Yahoo! (anteriormente conocido como
Jerry’’s Guide to the World Wide
Web), una colección de las páginas
web favoritas. El gran problema de
Yahoo! era que comenzó siendo un
directorio hecho por personas y eso
llevaba mucho tiempo, por lo que tuvo
que evolucionar incorporando un
buscador para ese directorio. Es
curiosa la historia de su nombre
debido a que muchos le otorgan el
nombre de Yet Another Hierachical
Officious
Oracle,
aunque
sus
fundadores insisten en que se basa en
los personajes de unas aventuras de
Gulliver.
Jerry Yang
4
Así hasta que el 20 de abril de 1994 Brian Pinkerton, desde la
Universidad de Washington, presentase WebCrawler. En realidad
este buscador era de escritorio pero en 3 meses se convirtió en un
robot de la red. La gran diferencia y paso diferencial que
podríamos llamar la versión 1 de los buscadores era que indexaba
las páginas de forma completa y que buscaba información en
ellas, al contrario de sus antecesores, que sólo buscaban en la
dirección web, título o metatags. Esto hizo que la relevancia de
los resultados fuera mucho mayor. Además, tenía la peculiaridad
de poder ver las búsquedas en tiempo real con su Webcrawler
Search Voyeur. Hay que tener en cuenta que al cabo de 7 meses
llegó a su millón de consultas, que en 1995 fue comprado por
AOL, en 1997 por Excite y que en 2001 pasó a ser parte de
InfoSpace.
Brian Pinkerton
InfoSeek también apareció a principios de 1994, y aunque no llegó a tener nada
especial, tuvo un gran salto en diciembre de 1995 cuando fue el motor de búsqueda por
defecto en Netscape.
En esta época comenzaron también a aparecer los primeros
metabuscadores. Este sistema lo que hace realmente es unificar los
resultados de varios motores de búsqueda para ofrecer los resultados
mezclados. En 1995 apareció el primero de ellos llamado MetaCrawler
creado por Erik Selberg y Oren Etzioni en la Universidad de
Washington (como Webcrawler). En este caso devolvía resultados de
Lycos, Altavista, Yahoo!, Excite, Webcrawler e Infoseek. El
problema era su velocidad. Como curiosidad, en noviembre de 1996 ya
tenía una nueva versión, en beta, para probar.
En diciembre de 1995 seis estudiantes de Stanford lanzaron Excite gracias al proyecto
Architext (iniciado en 1994) que introdujo uno de los conceptos base de las búsquedas.
El complicado algoritmo intentaba crear un sistema parecido a los sinónimos mediante
estadísticas entre las relaciones de palabras, de forma que se podía realizar una
búsqueda obteniendo resultados aunque la misma no existiera en la página (si tenía
alguna relación, claro). En 1996 compró Magellan y Webcrawler y creó su propio
directorio. Fue el buscador de referencia hasta mediados de 1999 y en 2002 perdió su
sistema de búsqueda pasando a ser un metabuscador.
5
El siguiente gran lanzamiento fue AltaVista. Fue en
Diciembre de 1995 cuando hizo su aparición en escena y es muy importante este
lanzamiento por las mejoras que proponía: tenía ancho de banda casi ilimitado, permitía
consultas en lenguaje natural (las que utilizamos habitualmente para hacer búsquedas),
consultas avanzadas mediante operadores lógicos (AND - OR), añadir o eliminar
direcciones web en 24 horas, comprobar los enlaces entrantes a un sitio web e incluso
permitía hacer búsquedas en los nombres de imágenes y algunos ficheros multimedia.
No sólo era grande en resultados sino veloz al entregarlos. Además, ofrecía una serie de
“ayudas / trucos” para mejorar la calidad de las consultas.
El proyecto Google comenzó a desarrollarse en enero de
1996 por Sergey Brin y Larry Page en la Universidad de
Stanford, llamándose BackRub debido a la tecnología que
utilizaba, que calculaba la importancia de un sitio web en
base a los enlaces que recibía. En esa época fue cuando
Page fabricó una computadora con piezas de Lego y con
tecnología antigua que más adelante se convertiría en lo
que hoy es Google. El 15 de septiembre de 1997 el
dominio google.com era comprado y el 7 de septiembre de
1998 se creaba Google Inc. Una peculiaridad de Google
es que en momentos especiales cambia su logo para
adaptarlo a esa ocasión.
Hay que destacar dos razones por las que Google se hizo
muy interesante: una interfaz muy clara y sencilla (como
la de Altavista en sus inicios) y unos resultados muy
relevantes. El secreto de los resultados, la tecnología
PageRank , hizo que el mundo de los motores de búsqueda
cambiase completamente dando por iniciado lo que se
puede llamar la versión 2 de los buscadores. Page lo que
implementó fue un sistema mediante el cuál no sólo se
Sergey Brin
Originario de Moscú, (21
de agosto de 1973) es
creador y co-fundador del
popular
motor
de
búsqueda Google. se
licenció con honores en
Ciencias matemáticas y en
Ciencias
de
la
Computación
por
la
Universidad de Maryland
en College Park. Fue en
Stanford donde conoció a
Larry Page con quien
desarrolló lo que se
convertiría en el famoso
buscador, juntos fundaron
Google Inc. en 1998.
6
tenían en cuenta los factores de la propia página en la que
se buscaba información, sino que se tenían en cuenta otros
factores externos que daban mayor o menos importancia al
sitio web. Hoy en día todos los motores de búsqueda
utilizan una tecnología similar.
El 15 noviembre de 2003, Google implementó uno de los
primeros grandes cambios en su motor de búsqueda
añadiendo mejoras en la búsqueda semántica. Los motores
de búsqueda tenían unas necesidades básicas: clustering y
semántica.
Lawrence Edward
"Larry" Page
Nació el 26 de marzo de
1973, es un empresario
estadounidense de origen
judío. Page estudió Ciencias
de la Computación antes de
co-fundar el motor de
búsqueda de Internet Google
(ahora Google Inc.), junto a
Sergey Brin.
En 1998 apareció MSN Search, de la mano de Microsoft, utilizando los datos de
Inktomi y también apareció el Open Directory Project (DMOZ), que, aunque no era el
primer directorio hecho por personas, sí que era el primero en hacerlo de forma
colaborativa. Creado por Rich Skrenta y Bob Truel y llamado inicialmente Gnuhoo,
pasó a llamarse Newhoo el 5 de junio de 1998 y finalmente fue adquirido por Netscape
en octubre de 1998 cuando pasó a ser el ODP, momento en el cual ya disponía de
100.000 direcciones y cerca de 4.500 editores.
Nutch es un motor de búsqueda en código abierto y creado en
Java. Aunque su desarrollo es costoso, ha conseguido el apoyo de
Yahoo!.
En noviembre de 2004, MSN Search y de la mano de
Christopher Payne y Oshoma Momoh pusieron en marcha una
primera fase pública del motor de Microsoft, que se hizo
pública el 20 de enero de 2005. El 1 de noviembre de 2005 se
presentaba la plataforma Windows Live que sería la nueva
interfaz del motor de búsqueda.
7
También hay que hacer referencia a buscadores
como Noxtrum del que se comenzó a saber a
finales de Junio de 2005, haciendo referencia a
estar enfocado principalmente en sitios en
español y portugués, además de contener toda la
información de Páginas Amarillas. El 30 de
Noviembre de 2005 se lanzaba la versión beta, y
el 22 de Abril de 2006 era presentada la primera
versión final del buscador. El 1 de Abril de 2008
dejaba de estar en línea este proyecto.
La presentación de Quaero, el buscador europeo que se presentaba los primeros días de
2006, impulsado principalmente por los gobiernos de Francia y Alemania, y potenciado
por grandes empresas tecnológicas europeas. Finalmente a principios de Abril, se lanza
como Exalead (buscador que llevaba años en funcionamiento con los resultados de
AOL, y que tras el acuerdo de éste último con Google, decidió usar el índice de
Quaero). Desde Septiembre de 2006 su índice cuenta con 8.000 millones de resultados.
En los últimos meses han aparecido dos
motores centrados en las búsquedas
semánticas. El primero es Hakia, que,
aunque lleva desarrollándose desde 2004,
se ha lanzado en beta en 2006 y se está
dando a conocer desde 2007. Su
planteamiento es el lanzamiento oficial a
lo largo de 2008. El segundo es
Powerset, lanzado en beta privada el 17
de septiembre de 2007 bajo el nombre de
Powerlabs, comienza a hacer sus primeras
pruebas con la Wikipedia y utiliza un
algoritmo desarrollado por Xerox PARC.
8
¾ Actualidad de los buscadores
•
•
•
•
•
•
•
•
•
ARCHIE ya no es utilizado.
En la actualidad existen algunos servidores Gopher, mantenidos por el gobierno
estadounidense y alguno que otro entusiasta.
Excite fue comprado por la compañía AskJeeves.
Yahoo! En un principio utilizaba la tecnología de Google para sus búsquedas,
pero al adquirir al buscador Inktomi, se independizó y lanzó su propio buscador.
Es actualmente el segundo buscador más popular del mundo.
Infoseek fue comprado por Walt Disney para fusionarlo a su buscador
Go.com.
Altavista es parte ahora de la red Overture, subsidiario de Yahoo!
Inktomi fue comprado por Yahoo en 2003.
Lycos ha comprado ciertos buscadores como HotBot y servicios de páginas web
gratuitas como Angelfire y Tripod para reforzar su participación en el mercado.
Google se ha convertido en el buscador más popular del mundo manejando
cerca del 45% de las búsquedas en Estados Unidos solamente y posee una base
de datos que sobrepasa los 8 billones de páginas web.
9
¾ Tabla resumen de la aparición de los buscadores
1993
Wandex
Aliweb
robots.txt
1994
EInet Galaxy
JumpStation
Yahoo! (directorio)
WebCrawler
WWWWorm
InfoSeek
Lycos
RBSE
1995
MetaCrawler
Excite
LookSmart
Altavista
Ozú
1996
Hotbot / Inktomi
Dónde?
Ask Jeeves
Backrub / Google
1997
Norther Light
1998
MSN Search
ODP / DMOZ
1999
AllTheWeb
Baidu
2000
Teoma
2003
Seekport
2004
Yahoo! (buscador)
Nutch
Clusty
MSN Search (buscador)
2005
Windows Live
Noxtrum
2006
Exalead (motor Quaero)
Hakia
2007
Powerset
10
Definición y Objetivos de los
Buscadores
En informática, un buscador es un sistema informático que permite al usuario
encontrar archivos almacenados en servidores. Los buscadores son sistemas que
buscan en Internet (algunos buscan sólo en la Web pero otros buscan además en
News, Gopher, FTP, etc.) cuando les pedimos información sobre algún tema. Las
búsquedas se hacen con palabras clave o con árboles jerárquicos por temas; el
resultado de la búsqueda es un listado de direcciones Web en los que se mencionan
temas relacionados con las palabras clave buscadas.
Definición:
Aquellos que a partir de cierta información entregada en lenguaje
natural o en alguna especificación puede deducir y recuperar la
información que uno está buscando.
Objetivo:
Encontrar los documentos que contengan las palabras claves
introducidas. Habitualmente localiza las páginas Web que mejor se
adapten a las palabras introducidas.
Clasificación de los
buscadores
Cada tipo de buscador tiene sus propias características. Conocerlas puede ayudarnos a
decidir cuál utilizar en función de las necesidades de nuestra búsqueda. No obstante,
hoy en día todos los buscadores tienden a ofrecer el mayor número de servicios
posible, con lo que sus ofertas de búsqueda se asemejan cada vez más, siendo difícil
adivinar de qué tipo de buscador estamos hablando.
Los buscadores se pueden clasificar en tres tipos según la forma de obtener las
direcciones que almacenan en su base de datos: los índices o directorios, los motores
de búsqueda y los metabuscadores. En los índices, hay personas detrás de ellos que
clasifican inteligentemente las páginas web y los recursos de la red en categorías
predeterminadas, a modo de gran árbol. Los motores de búsqueda son, en cambio,
bases de datos que almacenan, una versión reducida de todas las páginas web y
recursos que encuentran en la red y que, aunque almacenan más información, son
11
ligeramente menos precisos. Los metabuscadores son páginas web en las que nos
ofrece una búsqueda sin que haya una base de datos propia.
La ventaja de los motores y metabuscadores es la gran cantidad de información que
recogen y la constante actualización de sus bases de datos. La desventaja, es lo difícil
que resulta encontrar lo que se desea si no se domina el lenguaje de interrogación.
A continuación una descripción de cada uno de ellos:
¾ Índices (Directorios, Índices temáticos, índices de búsqueda o
árboles de categorías)
Índices o índices temáticos: Son sistemas de búsqueda por temas o categorías
jerarquizados (aunque también suelen incluir sistemas de búsqueda por palabras clave).
Se trata de bases de datos de direcciones Web elaboradas "manualmente", es decir, hay
personas que se encargan de asignar cada página web a una categoría o tema
determinado.
Es el primer tipo de buscador que surgió. En los índices de búsqueda, la base de datos
con direcciones la construye un equipo humano. Es decir, un grupo de personas va
rastreando la red en busca de páginas. Vistas éstas son clasificadas por categorías ó
temas y subcategorías en función de su contenido. De este modo, la base de datos de
un índice de búsqueda contiene una lista de categorías y subcategorías relacionadas
con un conjunto de direcciones de páginas web que tratan esos temas.
Los índices temáticos se estructuran por temas o categorías principales que contienen
subcategorías. La ventaja, es que es muy fácil hallar la información buscada (si ésta se
encuentra en la base de datos), descendiendo por los árboles temáticos (de una
categoría a otra subcategoría), o usando palabras clave en los cuadros de búsqueda
existentes en la página principal o dentro de los distintos niveles. La desventaja
consiste en que no siempre está actualizada y las bases de datos son más pequeñas que
las de un motor de búsqueda. Otra diferencia interesante es que aquellos índices que
además ofrecen servicios (como e-mail, publicidad, noticias, etc.) y que tienen el
respaldo de entidades comerciales, son conocidos como portales.
La consulta de un índice se realiza, pues, a través de categorías. Por ejemplo, si
buscamos información sobre el Museo del Prado deberemos pinchar sobre una
secuencia de categorías y subcategorías como la siguiente: Arte / museos / pinacotecas
y seguro que dentro de ésa última subcategoría hay algún enlace que hace referencia al
museo del Prado.
Ejemplo: Uno de los directorios más conocidos es Yahoo
12
El primer índice de búsqueda
que apareció fue Yahoo! que
sigue
ofreciendo
sus
servicios. La ventana de su
versión en castellano tiene el
aspecto de la imagen.
Se puede observar que, a
pesar de tratarse de un índice
de búsqueda, ofrece también
un espacio para introducir
palabras clave (bajo el título
de la web). Esto se debe a
que todos los buscadores que
ofrecen servicios en la red
tienden a satisfacer al
máximo las necesidades de
los navegantes, de forma que
intentan abarcar toda la gama
de posibilidades.
¾ Motores de búsquedas (buscadores de contenidos)
Temporalmente, los motores de búsqueda son posteriores a los índices. El concepto
es diferente: en este caso, el rastreo de la web lo hace un programa, llamado araña
ó motor (de ahí viene el nombre del tipo de buscador). Este programa va visitando las
páginas y, a la vez, creando una base de datos en la que relaciona la dirección de la
página con las 100 primeras palabras que aparecen en ella. Como era de esperar,
el acceso a esta base de datos se hace por palabras clave: la página del buscador me
ofrece un espacio para que yo escriba la ó las palabras relacionadas con el tema que
me interesa, y como resultado me devuelve directamente un listado de páginas que
contienen esas palabras clave. Por ejemplo, si utilizo un motor de búsqueda para
localizar información sobre el Museo del Prado, simplemente tendré que escribir
13
"Museo del Prado" en el espacio de búsqueda y pinchar en el botón Buscar. A
continuación se me devolverá otra página con los resultados de la búsqueda: un
listado con enlaces a las páginas solicitadas.
Son sistemas de búsqueda por palabras clave. Son bases de datos que incorporan
automáticamente páginas web mediante "robots" de búsqueda por la red.
Ejemplo: Google
Un buen ejemplo de motor de
búsqueda es Google. Aquí
mostramos el aspecto de su
página principal.
Observando esta ventana vemos
que, en la parte central-derecha
hay una pestaña con el nombre
Directorio. Si hacemos clic
sobre ella nos llevará a otra
página en la que se nos ofrece
realizar la búsqueda por
categorías. Como en el caso de
los índices, los motores también
tienden a ofrecer todos los
servicios posibles al usuario, y
le dan la posibilidad de realizar
una búsqueda por categorías.
¾ Metabuscadores
Los metabuscadores son páginas web en las que se nos ofrece una búsqueda sin que
haya una base de datos propia detrás: utilizan las bases de varios buscadores ajenos
para ofrecernos los resultados.
Los metabuscadores no disponen de una base de datos propia, sino que utilizan la
información almacenada en las bases de datos de otros buscadores y directorios. Hacen
las búsquedas simultáneamente en varios motores seleccionados respetando el formato
original de los buscadores e incorporan funciones adicionales, por ejemplo Coopernic
.
Lo que hacen, es realizar búsquedas en auténticos buscadores, analizan los resultados
de la página, y presentan sus propios resultados, según un orden definido por el
sistema estructural del metabuscador.
Un ejemplo de metabuscador es Metacrawler y Vivisimo
Vivisimo (http://vivisimo.com). Muy recomendado por la forma en que presenta los
14
resultados, agrupándolos por conceptos relacionados. Además exhibe en primer lugar
aquellos servidores que obtienen los mejores resultados en varios buscadores y la
posición que han obtenido.
Otras clasificaciones de buscadores son:
1) Buscadores de nueva generación:
•
Clasificadores semánticos: ordenan por temas, pero no mediante humanos,
sino mediante algoritmos, por ejemplo Vivísimo
2) Buscadores especializados:
Son los buscadores que se limitan a un tema en concreto, recogen todo sobre lo que
de ese tema existe en la red. En esta categoría se encuentran los directorios
académicos temáticos, generados por universidades, bibliotecas o centros de
investigación, cuya característica principal es la alta calidad en los links
seleccionados. Entre ellos encontramos a:
•
•
•
•
•
•
•
•
•
•
•
•
Thesauros visuales, redes conceptuales que al mismo tiempo son
buscadores
Sitios con búsquedas más académicas, o de sitios arbitrados
Bases de datos especializadas (sobre cine, sobre otros medios)
Herramientas de búsqueda que organizan los resultados de formas útiles,
tales como grupos de conceptos o mapas mentales (ej. KartOO )
Nuevas herramientas (ej. Headline Spot, Yahoo! Full Coverage, World
News Network).
Herramientas de imágenes y medios (ej. Google , AP Photo
Archive, Library
of
Congress’s
American
Memory
Collections, Pics4Learning).
Herramientas de referencia tales como diccionarios en línea, bases de datos
de citas, enciclopedias, y “Un día como hoy” en los sitios de Historia
(ej. Real
Academia
Española , Encarta , Mapas , Map
Machine, Merriam-Webster Online, World Book, Un día como hoy
en la Historia ).
Servicios de suscripción (ej. EBSCO-host, GaleNet, Wilson Web, Facts
on File, SIRS, Bigchalk)
Herramientas de búsqueda específica por materia (ej. Scirus, Artchive)
Portales (ej. Kathy Schrock’s Guide for Educators, Multnomah
Homework Center, FirstGov, Internet Public Library, Eduteka).
Directorios de temas (ej. Google, Librarians’ Index to the
Internet, About.com, Infomine).
Herramientas especiales para niños (ej. Ithaki , Yahooligans! , México
para niños, Searchasaurus, FirstGov for Kids)
15
•
•
•
Buscadores verticales: Buscadores especializados en un sector concreto, lo
que les permite analizar la información con mayor profundidad,
disponer de resultados más actualizados y ofrecer al usuario
herramientas de búsqueda avanzadas. Es importante resaltar que
utilizan indices especializados de esta manera acceder a la información
de una manera más específica y fácil. Ejemplos de este tipo de
buscadores son: Trovit, Nestoria.
Vortals: Nombre que deriva de la contracción de las palabras inglesas
vertical portal, estos sitios se focalizan en un tema, tipo de recurso o
región geográfica. Por ejemplo www.achoo.com es un sitio dedicado a
médicos, www.vortalexperts.com compila vortals dedicados a
educación, negocios, arte, salud, medicina, gobierno, historia, medio
ambiente, etc..
Agentes inteligentes: Para cada búsqueda estos agentes consultan muchos
buscadores de manera simultánea y combinan sus resultados
eliminando los duplicados y los enlaces muertos y conservando los
documentos más relevantes. Los resultados se pueden ordenar y enviar
por correo electrónico, también permiten guardar las estrategias de
búsqueda para usarlas con posterioridad. El más conocido es
Copernic, del cual te puedes descargar una versión básica y gratuita en
castellano.
Componentes de los
buscadores
Los buscadores automáticos emplean programas de ordenador llamados robots o
arañas, que saltan de una página a otra de la Web recogiendo páginas y almacenando
toda la información en una gigantesca base de datos. Esta base de datos contiene, entre
otros datos, el título de la página, una descripción, palabras clave y los enlaces.
Están compuestos por cuatro partes:
Los robots que recorren la red escrutándola (también llamados spider, robot o
crawler)
o La base de datos que es construida por los robots
o El motor de búsqueda que facilita la consulta a la base (también conocido con
indicador)
o La interfaz de búsqueda en la cual hacen la solicitud los usuarios
o
A continuación se explican cada uno de ellos:
16
¾
Spider/Robot/Crawler Spider, crawlers, robots o agentes de búsqueda son los nombres que reciben el software
que recopila los documentos. Funciona de manera que comienza en una página (A) y
recopila todas sus URLs, luego envía la página (A), y comprueba que no está indizada
y que no se tiene una versión menos actualizada, para luego indizar la página (A).
Luego recupera la página (B) que está la primera en la lista... y así sucesivamente.
El recorrido de las direcciones de Internet es, evidentemente, realizado en forma
automática por cada uno de los Robots. Al no ser todos los Robots iguales -y tampoco
lo son sus técnicas de búsqueda- cada Robot tiene una visión de la red que difiere de
las otras. Algunos de los Robots de indización de la Web construyen una base de datos
central de documentos la cual no es un buen modelo para el universo que es la Web
con millones de documentos en millones de sitios. Esto sucede debido a que los Robots
son programados por humanos y, en ocasiones, éstos cometen errores cuando
configuran o simplemente no consideran todas las implicaciones de sus acciones.
¾
Bases de Datos Actualmente existen seis grandes bases de datos:
•
•
•
•
•
•
•
Google
Yahoo
MSN
Teoma
Wisenut
Gigablast
Exalead/Quaero
Los demás buscadores utilizan estas Bases de Datos.
Las Base de Datos de los buscadores está constituida principalmente por un índice de
palabras, frases y datos asociados a la dirección de cada recurso (URL), si bien cada
vez con más frecuencia incorporan también programas, imágenes, archivos, etc. La
lista de elementos indizados en la base de datos varía de una herramienta de búsqueda a
otra. Algunas indizan cada palabra de las páginas web, incluyendo el URL y el texto de
algunas metaetiquetas como author, title, keywords o description. Esta información
puede mejorar sensiblemente la eficacia en la recuperación y en la ordenación de los
resultados o ranking. Otros indizan únicamente las palabras de aparición más
frecuente, o las incluidas en ciertas etiquetas, o sólo las primeras palabras o líneas de
los documentos HTML. Pueden incluir o no las palabras vacías de significado como
17
los determinantes, preposiciones y conjunciones aunque, si las elimina, también pueden
considerar como vacías las palabras de frecuencia muy alta, como Web, Internet,
información, etc.
¾
Indizador. El programa de Indización Las herramientas de búsqueda disponibles en la W3 utilizan métodos para indizar los
recursos que incorporan a sus bases de datos. Por ejemplo, la indización puede
contemplarse en el nivel submorfológico, por palabras clave y por conceptos. La
indización en el nivel submorfológico, esto es sin análisis morfológicos, sintácticos o
semántico, ofrece un método muy flexible para la recuperación. Así indizan las fuentes
de información como patrones de bits o bit patterns de manera que texto, sonido e
imágenes en movimiento, pueden indicarse y recuperarse usando la misma forma de
representación. Algunas herramientas de consulta comienzan a incorporar sistemas
como, por ejemplo, Excalibur Visual RetrievalWare, que ofrecen recuperación de
imágenes y de texto. Las técnicas estadísticas de recuperación de información ahora
incorporadas a una amplia gama de motores de búsqueda se basan en dos métodos
principales de representación e indización de la información:
•
•
Indización por palabra clave. Se crean índices inversos de raíces y palabras
clave, direcciones, ubicación y frecuencia de apariciones. Este enfoque,
esencialmente morfológico y estadístico, basa la recuperación de información
en la similitud formal de las palabras, y las estadísticas de su presencia en
documentos y colecciones de documentos. Es la forma más común de
indización de textos en la Web. Algunos buscadores obtienen las palabras clave
de determinados campos, las metaetiquetas HTML, pero la mayoría indiza el
texto completo de las páginas, incluyendo o no las palabras vacías.
Indización por conceptos. Existen varios procedimientos para construir bases de
datos basadas en conceptos, algunas de ellas muy complejas y basadas en
sofisticadas teorías lingüísticas y de inteligencia artificial. En otros casos, como
Excite, se basan en una aproximación numérica, calculando la frecuencia de
aparición de ciertas palabras significativas. A partir de análisis estadísticos el
buscador determina qué conceptos aparecen juntos o relacionados en textos que
se centran en un tema concreto. Mediante este sistema se pueden recuperar
recursos que tratan un tema dado, incluso aunque las palabras incluidas en el
documento no coincidan formalmente con las de la pregunta.
Otros sistemas, como DR‐Link, realizan un análisis más profundo e indizan a nivel
sintáctico, semántico pragmático. Sin embargo, el mayor nivel de análisis semánticos,
posiblemente sea el de los sistemas que ofrecen información evaluada, revisada e
indizada por humanos, que se presenta en directorios temáticos como los de Yahoo,
LookSmart, Excite o Infoseek.
18
¾
Interfaz de búsqueda. Interfaces de Recuperación. Ya en 1990, en un seminario interno de ESRIN –organismo perteneciente a la Agencia
Espacial Europea- sobre interfaces de usuario para sistemas de información, se llegó a
la conclusión de que los sistemas de información científicos de próxima generación
serían para uso directo de los usuarios finales, capaces de soportar poblaciones de
usuarios heterogéneas y de ofrecer respuesta directa a sus problemas de información
mediante el uso de una completa variedad de fuentes de información necesarias para
alcanzar los objetivos del usuario. Las interfaces de muchas herramientas de búsqueda
de Internet, sobre todo en el entorno de la W3, presentan esa tendencia.
Una de las causas de fracaso y frustración en las búsquedas se produce cuando el
usuario desconoce o no domina suficientemente el lenguaje de interrogación del motor
que está utilizando. En ese caso, encuentra grandes dificultades para localizar la
información que necesita. Si la consulta no se formula de manera adecuada,
aprovechando las prestaciones del sistema, éste responde con gran número de
referencias irrelevantes produciéndose lo que se denomina ruido o, por el contrario, no
localiza ningún documento pese a que existan recursos útiles y pertinentes, lo que se
denomina silencio. No obstante, no es el usuario el único responsable de que el proceso
de búsqueda resulte insatisfactorio.
Una parte fundamental de las herramientas de consulta de la W3 es la interfaz, que
hace posible la interacción usuario-máquina y que está diseñada para usuarios
inexpertos en la búsqueda y recuperación de información, por lo que suele ser más
sencilla e incluir más ayuda. La documentación ofrecida, es decir la información que
presenta el servicio sobre su estructura, funcionamiento o prestaciones en forma de
pantalla de ayuda y la sencillez de uso de la interfaz desempeñan un importante papal
en la selección de buscadores por parte de los usuarios. En cuanto a la descripción de
sus bases de datos, no siempre se ofrecen detalles sobre su cobertura, periodicidad de
actualización, sistema de indización o el funcionamiento de su robot. Sin embargo, esta
información es crucial para decidir si ése es el servicio de búsqueda que interesa en ese
momento.
La orientación en la realización de las búsquedas se lleva a cabo mediante pantallas de
ayuda. Todas las herramientas de consulta incluyen, en mayor o menor medida,
pantallas de ayuda aunque, a veces, ésta se encuentra dispersa en diferentes opciones o
apartados. No siempre es fácil encontrarla y la mayoría de los buscadores no ofrecen
ayuda en contexto, que puede resultar de gran utilidad cuando se presenta alguna duda
o problema. Es importante que se indiquen claramente todas las posibilidades de
búsqueda con que cuenta, pero también las limitaciones. También resultan de gran
ayuda los ejemplos de búsqueda, ya que, aunque las explicaciones sean claras, lo más
ilustrativo y útil es indicar ejemplos sobre el modo de plantear las consultas
correctamente. A veces incluyen una sección de “dudas frecuentes” (Frecuently Asked
Questions, o FAQs), que presenta, mediante un sistema de preguntas y respuestas, las
cuestiones y problemas que pueden plantearse de forma más habitual en relación al uso
del servicio de búsqueda, pero, desgraciadamente, no todos cuentan con este
19
complemento de ayuda.
Los menús desplegables hacen que la interfaz sea mucho más intuitiva y facilitan las
búsquedas, por lo que muchas herramientas de consulta han ido incorporando opciones
presentadas de esta manera. Por otra parte, los gráficos contribuyen a una presentación
agradable del servicio. Los hay que, desde el principio, optaron por propuestas
llamativas y ciertamente arriesgadas, como Hotbot, hasta los que se mantienen en un
nivel de serena austeridad, como Magullen. Estas presentaciones, pensadas para gustos
muy diversos, no son nunca determinantes para decidir la valía de un buscador pero,
desde luego, influyen en la primera impresión que se obtiene del servicio.
La interfaz de consulta estructura la búsqueda en una versión simple y otra avanzada,
que ofrece más prestaciones. Es recomendable que este tipo de servicios presenten
estas dos opciones: la simple, para búsquedas sencillas y/o usuarios no expertos, y la
avanzada, para ecuaciones de búsqueda con un planteamiento más complejo. De este
modo, la pantalla no se sobrecarga innecesariamente de información y opciones, ni se
confunde al usuario que únicamente pretende realizar una búsqueda simple. La opción
simple de búsquedas es la que aparece por defecto cuando se conecta el buscador. Se
presenta como una ventana de consulta sencilla que permite introducir una expresión
de búsqueda formada por un término o frase, o bien varios términos unidos por los
operadores lógicos correspondientes. La pantalla de búsquedas avanzadas, para
usuarios más familiarizados con las posibilidades del buscador, se presenta cuando se
pulsa el hiperenlace advanced search o powered search.
Dado el alto índice de sobre carga que sufren las herramientas de consulta de la W3
debido a las continuas visitas de los usuarios de la red, se hacen duplicados o mirror de
su base de datos y se ubican en otros servidores dispersos por la red. Es decir, los
duplicados son una copia exacta del servidor original, que se sitúa en otros países o
zonas para descongestionar la carga del servicio y hacer más fluido el tráfico en la red.
A veces se presenta la interfaz, principalmente las diferentes opciones de búsqueda y
las pantallas de ayuda, traducida a varias lenguas para los internautas puedan acceder
más fácilmente a los recursos de la W3. En otras ocasiones, se trata de verdaderas
versiones nacionales o regionales donde se recogen especialmente informaciones
relacionadas con esa zona geográfica o de particular interés para los usuarios de la
misma y que en algunos casos son versiones reducidas de la base de datos original.
La capacidad de personalizar y ajustar la interfaz a los gustos concretos del usuario
contribuye a que éste, al adaptarlo a sus preferencias, se identifique con el servicio de
búsqueda utilizado y obtenga mayor grado de satisfacción. Para recoger las
preferencias de las personas que acceden a estos servicios en la realización de las
búsquedas, éstos han de configurar las búsquedas determinando sus intereses respecto a
los resultados. El programa, mediante cookies, o el usuario, mediante bookmarks
(enlaces favoritos), almacenan esta información de manera que no ha de indicarse
nuevamente cada vez que se solicite y ejecute una consulta.
20
Funcionamiento de los
buscadores
El funcionamiento de los buscadores puede resumirse en tres pasos:
1. Recolectan información de todas las páginas que hay en Internet explorando de
manera automática cada una de ellas y crean un archivo de las páginas exploradas.
2. Indexan el archivo, es decir, crean un índice a partir de las palabras clave y criterios
predeterminados. Ante la solicitud de información de un usuario, revisan este índice
para arrojar los resultados.
3. Producen resultados ante determinada búsqueda relacionando las palabras claves y la
calidad de la página con las palabras que ha ingresado el usuario para realizar su
búsqueda.
Al conectar con algún buscador nos encontraremos con una página que contiene
formulario para definir nuestra búsqueda y las opciones de la misma; tras rellenar
formulario, enviarlo y esperar unos segundos, el buscador nos devolverá una lista
lugares donde figura nuestra búsqueda. Así pues tendremos dos áreas según
propósito:
1.
2.
un
un
de
el
Formular la búsqueda y enviarla.
Lista de resultados, ordenados según su semejanza con las palabras claves
introducidas.
Fuentes de Información
http://es.wikipedia.org/wiki/Buscador Harris, R. (2007). Evaluating Internet Research Sources. Recuperado el 13 de abril de 2009 de http://www.virtualsalt.com/evalu8it.htm Ask Bruce! (s.f.). Las cinco W de la BBC. Recuperado el 13 de abril de 2009 de http://www.bbc.co.uk/webwise/askbruce/articles/browse/goodsites_1.shtml Valenza, J, (2004). Búsqueda Significativa: Pensar y Comportarse de manera Info‐Competente, recuperado el 13 de abril de 2009 de http://www.eduteka.org/BusquedaSignificativa.php 21
22
Descargar