motores de búsqueda en internet

Anuncio
MOTORES DE BÚSQUEDA EN INTERNET
Trabajo de Investigación
MOTORES DE BÚSQUEDA EN INTERNET
Natalia S. Stark
[email protected]
Teleinformática y Redes
Licenciatura en Sistemas de Información
Universidad Nacional de Luján
Resumen
En este trabajo se describe la arquitectura de un motor de búsqueda convencional y su modo de operación. Se presenta
el relevamiento de los motores de búsqueda: Google, Yahoo, Altavista, Infoseek y Terra, en base a sus características
generales, modo de operación, capacidad para expresar condiciones de búsqueda, formato de salida y capacidad de
personalización. Así mismo se explican en detalle métodos de indexación.
Introducción
Uno de los problemas actuales de las búsquedas en Internet es el enorme crecimiento que se evidencia en la Web,
además de la cantidad de altas, bajas y modificaciones de recursos que se realizan. Un motor de búsqueda tiene por
finalidad la selección de páginas web que respondan a las solicitudes de información que emiten los usuarios, es decir,
buscar qué es lo que hay y para qué sirve, de manera de demostrar que las páginas web que se proporcionan son
relevantes para el usuario y no para los intereses de los distintos sitios web o para los propietarios de los motores de
búsqueda.
Los motores de búsqueda visitan las páginas Web y realizan la indexación. La manera en que se efectúa dicha
indexación es propia de cada motor. Uno de los elementos claves de un motor de búsqueda es el crawler (araña) que se
ocupa de recuperar páginas web, generalmente se lo describe como un softbot (robot de software) usado por los
motores de búsqueda automatizados que crean índices de URLs, palabras claves, textos, etc. En el mercado existen
motores muy populares que no utilizar crawlers y se les denomina directorios, trabajan usando descripciones de las
páginas que les proporcionan sus propietarios [1].
En un principio la cantidad de páginas que un motor era capaz de escanear, el tamaño del motor, constituía una medida
de calidad o excelencia. Actualmente este criterio se está desplazando hacia otros como la indexación y el ranking.
Estos dos factores están relacionados con la importancia de las páginas para el usuario que realiza una búsqueda, lo
que lleva al desarrollo de modelos para crear criterios aplicables de forma coherente y sin ambigüedades
Motores de Búsqueda y Arquitectura de un Motor de Búsqueda
Los motores de búsqueda (search engines) son programas encargados de realizar las búsquedas dentro de las bases
de datos de documentos web. Actualmente se clasifican en tres categorías principales: motores de búsqueda temática,
también conocidos como directorios o catálogos; motores de búsqueda por palabras claves o "crawlers" y sistemas
basados en el "content-routing [1, 2].
Los primeros se caracterizan por ser un índice de documentos recopilados manualmente, los mismos son sugeridos por
sus propietarios, quienes además los clasifican en áreas específicas y brindan una descripción de la información que
contiene el sitio, formando así una jerarquía de URLs. Para realizar búsquedas se debe recorrer un árbol jerárquico
hasta dar con la información requerida. Debido a que la indexación se realiza en forma manual, la información que se
encuentra no siempre está actualizada.
Los crawlers están basados en el concepto de una única base de datos centralizada en donde se almacena toda la
información. Algunos sistemas contienen varias bases de datos en una misma máquina, sin ningún tipo de conexión y
cada una es tratada autónomamente . Se componen de un índice de URLs recopiladas en forma automática por un
robot o mediante el envío de las mismas por parte de los administradores web. Cada sistema de esta categoría tiene sus
propias características, herramienta de indexación y opciones de consulta, pero casi todos ofrecen la misma
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (1 of 12) [10/11/2001 8:38:26 AM]
MOTORES DE BÚSQUEDA EN INTERNET
funcionalidad.
Finalmente, el tercer grupo de motor de búsqueda es el llamado sistemas basados en "content-routing". Estos sistemas se caracterizan
por poseer una estructura distribuida y mecanismos de "content-routing" para guiar las peticiones de los usuarios a través de los
servidores de información.
En general, todos los motores de búsqueda reciben la consulta del usuario, que consiste en el ingreso de una o varias
palabras claves, realizan la búsqueda en la base de datos y extraen una lista ordenada de documentos que responden a
la consulta en forma total o parcial. El orden de las respuestas depende de una puntuación, que asocia el programa a
cada documento cuando realiza la búsqueda y varía en cada caso, como por ejemplo cuanto antes aparecen las
palabras o por proximidad entre las mismas. Están compuestos básicamente por: un robot, un índice y un mecanismo de
búsqueda. [3]
● Un robot, es el programa que rastrea la web, tomando información sobre las páginas que encuentra. Cada robot
trabaja en forma particular, generalmente parten de una lista determinada y a partir de ahí, hacen un rastreo
recursivo de los documentos que se referencia en un documento.
●
Un índice es la base de datos que contiene una copia completa o parcial de los documentos reunidos por el robot.
●
Un Mecanismo de búsqueda, programa que permite al usuario encontrar páginas de su interés que estén en el
índice a través de una página web y que devuelve resultados correspondientes a la búsqueda ordenados según
los criterios establecidos previamente por el usuario.
Operacionalmente, para recuperar determinada información, el usuario realiza una consulta (query), la cual llega al
motor de búsqueda y donde es tomada por un componente (Query Expansion) que se encarga de transformar la
consulta del usuario en un conjunto de incógnitas posibles en base a las palabras claves ingresadas por el usuario. Esto
se realiza de acuerdo con el conjunto de términos indexados que posee el motor de búsqueda (topic terms). Una vez
que se tienen las posibles incógnitas, las mismas son pasadas a un "Clustering" en donde se construye la información
que se le mostrará al usuario, para lo cual se envían las palabras claves posibles al generador de frases (phase
generation) y al mecanismo de rankeo de búsqueda (search engine ranking). El generador de frases selecciona la serie
de títulos posibles para cada palabra buscada y el mecanismo de rankeo, al tener el rankeo de todas las búsquedas
realizadas, completa los lugares de las palabras claves después del encabezado que creo para cada una de las frases
generadas.
La indexación de la información puede realizarse de dos maneras: los robots toman las listas de URLs provistas por
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (2 of 12) [10/11/2001 8:38:26 AM]
MOTORES DE BÚSQUEDA EN INTERNET
servicios que promueven sitios o páginas web o que son registradas por los usuarios al completar un formularios en
forma manual en el que se sugiere una URL para su indexación proporcionando categoría, palabras claves e
información adicional del sitio; o a través de los robots que son activados por los motores de búsqueda para que visiten
las Web en busca de URLs o tópicos de interés. Se activa el "Neighborhood-based Topic Identification" para buscar
URLs que pueden o no estar catalogadas y que se envían al "search engine selection index" para selecciona términos y
tópicos de interés dentro de las mismas. En el caso de que el robot ya tuviese catalogada o registrada una URL
encontrada verificará si fue modificada y de ser así, actualizará la información que contiene sobre ella.
Cuando el "search engine selection index" finaliza la selección, envía los resultados obtenidos al mecanismo de rankeo
de búsqueda (search engine ranking).
A continuación se presenta el relevamiento de cinco motores de búsqueda seleccionados aleatoriamente.
GOOGLE: surgió como un proyecto en la Universidad de Standford [4,5,6,7]. A pesar que no es uno de los primeros
motores de búsqueda que aparecieron en la web, se ha convertido rápidamente en uno de los más usados.
Modo de operación: Google cuenta con la tecnología de PageRank, con lo que aprovecha los vínculos directos entre
las páginas web de distintos sitios, evitando la jerarquía de páginas. PageRank usa la gran estructura de vínculos como
una herramienta para organizar la información. Google considera que un vínculo de una página a otra es como un "voto"
que la primer página hace a la segunda. Una página es posicionada más arriba, al ser ordenada, que otra según tenga
un PageRank mayor. La página que emite el voto es evaluada y si es considerada importante también dará mayor
ponderación a la página votada y en consecuencia más importancia. PageRank es un indicador de Google y no depende
de una consulta específica, se trata de la característica de una página, basada en datos de la web que Google analiza
utilizando algoritmos complejos que evalúan la estructura de vínculo. Además utiliza técnicas de coincidencia de textos
para encontrar páginas de resultado a una determinada consulta.
Recibe sitios web enviados por los usuarios pero no garantiza su aparición en su índice. Se envían a través de un
formulario donde se les solicita la URL del sitio (no es necesario enviar cada página individualmente) y un comentario o
palabras claves que es optativo, a modo de información y no afecta la manera en que la página es indexada.
Capacidad para expresar condiciones de búsqueda: para búsquedas básicas sólo requiere que se tipeen palabras
descriptivas en el campo de búsqueda y buscará la coincidencia exacta permitiendo ajustar el número de resultados que
se desea ver en cada página (10, 30 o 100, por defecto es 10). El operador lógico predeterminado es "AND" por lo que
devuelve páginas que contengan la totalidad de los términos. Permite limitar una búsqueda o buscar en los resultados
de la búsqueda actual. Para evitar una palabra en la búsqueda debe usarse el signo (-). No admite el operador OR, ni
las búsquedas de raíz, ni las búsquedas con comodines. Google considera todas las letras como minúsculas.
Acepta varios signos (guiones, barras, signos igual, puntos y apóstrofes) como conectores de frases los que funcionan
como comillas, devolverá las páginas donde las palabras estén juntas.
Permite realizar búsquedas por categorías y subcategorías.
Para la búsqueda avanzada presenta un formulario que permite seleccionar entre buscar resultados con todas las
palabras ingresadas y la cantidad de resultados que se desea (10,20,30,50,100) , por frases exactas, con alguna
palabra o sin las palabras ingresadas. Permite búsquedas por páginas actualizadas en base a determinada fecha y por
algún idioma en particular. Se puede especificar entre buscar páginas donde los términos ingresados se encuentren en
el título, en la URL o en cualquier parte de la página. También se puede condicionar si las búsquedas se harán sólo de
un determinado dominio o sitio web o si no se desea que pertenezcan a un dominio o sitio.
Permite la búsqueda de imágenes y búsqueda específica a una página, esto es encontrar páginas similares o páginas
con enlaces a una dada.
Formatos de salida: los resultados devueltos se corresponden con todos los términos ingresados para la consulta y
analiza la proximidad de esos términos dentro de una página, para evitar devolver páginas que no tengan nada que ver
con lo que se desea encontrar.
La primer línea del resultado es el título de la página web que cumple con la consulta. Si la página aún no fue indexada
por Google o no se conoce su título, en vez del título se observa la URL de la página. En lugar de mostrar resúmenes
del contenido de las páginas web encontradas, muestra el párrafo que coincide con la consulta, con las palabras de
búsqueda remarcadas.
En algunos resultados puede aparecer la marca RN (RealName), indica que se trata de una palabra clave en Internet
como el nombre un producto, marca, empresa o servicio y que vinculará al sitio web del propietario. Cuando la palabra
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (3 of 12) [10/11/2001 8:38:26 AM]
MOTORES DE BÚSQUEDA EN INTERNET
clave de Internet coincide con el primer resultado de la búsqueda, la palabra clave de Internet y la marca RN
aparecerán al final del título. Cuando la palabra clave de Internet es diferente del primer resultado de la búsqueda,
aparecerá sobre los resultados de Google.
Para todos los resultados muestra una línea de estadística donde se observa el número de resultados devueltos y el
tiempo que tardó la búsqueda.
Cuando devuelve varios resultados del mismo sitio web, el más importante va al inicio y los demás aparecen con
sangría.
Después de la dirección URL aparece un vínculo en caché y el tamaño de la parte del texto de la pagina web.
Muestra la opción GoogleScout para usarla en caso de que se desee encontrar páginas relacionadas.
Si los resultados están en inglés, se encuentra un vínculo que lo lleva directamente a una versión de la página en
español
Cuenta con un botón "me siento afortunado" que lleva directamente al sitio Web del primer resultado de búsqueda.
Google almacena páginas Web en la memoria caché de la PC del usuario con el fin de recuperarlas para los usuarios
como una copia de seguridad, en caso de que el servidor de la página falle temporalmente, se observan vínculos al final
de los enlaces resultantes.
Opciones anexas: brinda la opción de contactos para realizar preguntas de tipo comercial, técnicas o de cualquier tipo,
además de su sistema de ayuda.
No presenta carteles de publicidad en su página principal, sí un enlace para servicio de publicidad.
Capacidad de personalización:
● Permite que los usuarios puedan configurarlo como motor de búsqueda predeterminado o como página de inicio
del navegador.
●
●
Brinda logotipos y un pequeño código para quienes quieran incorporarlos en sus propias páginas web.
Presenta un sector de preferencias donde los usuarios pueden seleccionar el idioma de la interfaz y si desean
traducir los resultados de la búsqueda a dicho idioma. También pueden seleccionar el o los idiomas de
búsquedas, especificar la cantidad de resultados a mostrar por páginas y si se desean ver los resultados de la
búsqueda en una nueva ventana del navegador.
ALTAVISTA: fue construido por la empresa Digital, inició sus servicios en 1995. Es un buscador de contenido
internacional con versiones en distintos idiomas. Posee sitios de búsqueda en Brasil, Canadá, Estados Unidos, Austria,
Bélgica, Suiza, Alemania, Dinamarca, España, Francia, Irlanda, Italia, Países Bajos, Noruega, Portugal, Suecia, Reino
Unido, Australia, India , Corea del Sur. [3,5,8]
Modo de operación: las páginas son recogidas por un robot que las indexa tomando todas las palabras de un
documento, excepto los comentarios. Esto incluye todo el texto, el texto del código ALT de las imágenes, vínculos,
enlaces, títulos, códigos META, nombres de objeto applet y ActiveX, la dirección URL de la página, el nombre del host y
el nombre de dominio. Usa las primeras palabras del documento como un breve resumen.
Para dar de alta una página el usuario debe completar un formulario con solamente la URL de la página. El sistema es
capaz de reconocer las etiquetas META de título, descripción y palabras-clave y extraer la información que contienen. El
usuario puede usar códigos META para especificar palabras clave adicionales y una breve descripción, como única
manera de controlar la forma como se incluye la página en el índice.
Cuando se recibe una URL, ésta se agrega al índice junto con todas las de los demás sitios con los que tenga enlace.
Capacidad para expresar condiciones de búsqueda: presenta dos formularios, uno para búsquedas simples y otro
para avanzadas.
En los formularios para búsquedas simples, permite especificar el idioma de búsqueda. Trata a las frases ingresadas en
el campo de búsqueda como si fuesen un conjunto de palabras separadas por espacios. Para que tome toda una frase
debe "encerrársela" entre comillas, o reemplazar los espacios por ";". Es posible usar las opciones de intersección "+",
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (4 of 12) [10/11/2001 8:38:26 AM]
MOTORES DE BÚSQUEDA EN INTERNET
de exclusión (-) y de unión (OR) además de paréntesis para acotar búsquedas. Para buscar palabras que derivan de
una misma raíz se usa el "*".
En las búsquedas avanzadas además del idioma se puede limitar resultados a fechas específicas (por intervalos de
tiempo o intervalos de fechas), limitar la cantidad de resultados por páginas (10,20,30,40,50) o limitar la búsqueda a una
URL determinada. En búsquedas avanzadas no se permiten comillas simples, operadores , ni palabras sueltas.
Si las palabras claves se escriben en minúscula las buscará tanto en minúscula como en mayúscula, en cambio si se
escribe alguna letra mayúscula buscará la coincidencia exacta.
Formatos de salida: cada documento obtiene una categoría o puntuación para determinar el orden de aparición en la
página de resultados. Esa puntuación está basada en la cantidad de palabras, coincidentes con la consulta, que
contiene el documento, según el lugar que ocupan las palabras en el documento y según la proximidad que existe entre
ellas. En los formularios simples las páginas seleccionadas son presentadas por un orden de relevancia establecido por
el propio sistema. En el formulario de búsqueda avanzada el usuario decide el orden de presentación haciendo uso de la
opción ranqueo (Ranking), indicando el término que deben contener las páginas presentadas en primer lugar.
De cada página de resultado se visualiza: el título, la URL y las primeras palabras en el caso de que no contenga
etiqueta META de descripción; si contiene etiqueta META, aparece el contenido de la misma. Según el tipo de búsqueda
y la personalización de la misma, se muestra el tamaño de la página (bits), el idioma y la fecha de la última modificación.
Se pueden mantener abiertas simultáneamente la página de resultados y uno de los documentos presentados.
Opciones anexas: cuenta con otras opciones tales como un sistema de ayuda en línea, software de traducción a
numerosos idiomas y permite búsqueda de multimedia: sonido, mp3, video e imágenes.
Capacidad de personalización: cuenta con una sección, en la que el usuario puede personalizar el buscador a su
manera :
● especificar si desea buscar resultados en una determinada región o a nivel mundial.
●
configurar para obtener resultados como sólo texto o texto e imágenes,
●
determinar la información de los resultados en forma compacta o de página completa (fecha de la última
modificación, el tamaño HTML en Kb. y el idioma para cada página).
●
establecer la cantidad de resultados a mostrar por páginas (por defecto es 10),
●
realizar búsquedas en uno o más idiomas.
●
activar o desactivar la traducción de páginas.
agregar Altavista al navegador mediante la barra de vínculos (Power Browser) o agregar un cuadro de búsqueda
de Altavista a una página web propia.
●
YAHOO (Ya Another Hiererchical Officious Oracle): pertenece a la empresa Yahoo! Inc. Es uno de los motores de
búsqueda temática más antiguo en Internet. [3,5,8]. En cuanto a contenidos, su alcance es internacional, con versiones
en distintos idiomas.
Modo de operación: Yahoo evalúa los sitios web sugeridos por sus usuarios y los indexa en forma manual. Estos
rellenan un formulario donde se solicita la URL, el título y la descripción del recurso a incluir como así la categoría o las
categorías a las que pretende que pertenezca. El motor de búsqueda de Yahoo se basa en el título y la descripción, no
permite incluir palabras claves y no trabaja con los elementos META.
Capacidad para expresar condiciones de búsqueda: una de las formas de búsqueda es a través de la clasificación
temática donde se pueden ir seleccionando los links de interés mientras se avanza por categorías y subcategorías hasta
donde se considere necesario. Es conveniente usarla cuando se desea encontrar todo lo relacionado con un tema.
Otra manera de realizar la búsqueda, cuando se trata de una página o servidor en concreto, es ingresando en el campo
de búsqueda la palabra o las palabras consideradas claves de lo que se necesita encontrar, de esta forma se podrá
buscar
● siguiendo la categorización mostrada,
●
siguiendo el link de los sitios web que han sido enumerado por yahoo, que contienen las palabras ingresadas, o
●
siguiendo las páginas web contenidas en el índice de Google.
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (5 of 12) [10/11/2001 8:38:26 AM]
MOTORES DE BÚSQUEDA EN INTERNET
Para los dos primeros casos Yahoo busca las correspondencias en su base de datos y luego ordena los resultados por
orden de relevancia, que está dado por la cantidad de palabras claves que se hayan encontrado (a mayor cantidad de
palabras claves mayor relevancia), las coincidencias exactas con las palabras claves y en qué parte del documento se
encontraron las palabras claves (las encontradas en el título son de mayor relevancia que las encontradas en las URL o
en los comentarios).
Dado que Google es un buscador especializado si Yahoo no encuentra correspondencias para la búsqueda en sus
bases de datos, arroja los resultados obtenidos en su asociado, Google.
A veces puede resultar de utilidad combinar las dos formas de búsqueda.
Las búsquedas pueden ampliarse o acotarse de acuerdo a las opciones de búsqueda y a la sintaxis usada. Si la
consulta no fuese satisfactoria se podría enlazar con otros buscadores mencionados por yahoo.
El sistema permite truncar, buscar por frases mediante el uso de comillas, el uso de los operadores boléanos AND (+),
NOT (-) y OR, pero no permite el uso de paréntesis, lo que hace a las posibilidades de búsqueda medianamente
satisfactorias.
No es sensible a mayúsculas / minúsculas.
Formatos de salida: si la búsqueda se realizó en las bases de datos de Yahoo, los sitios web resultantes de la misma
mostraran el título con el enlace y devolverán la categoría a la que pertenece. Tendrán mayor rango en la presentación
aquellos documento que contengan más cantidad de palabras claves o si las palabras claves ingresadas pertenecen al
título del recurso o a una categorización general.
No se pueden mantener abiertas paralelamente la lista de resultados de la búsqueda y una de las direcciones
recuperadas.
Algunos signos brindan mayor información sobre un enlace determinado.
● El signo @ al final de un enlace: significa que el encabezado del enlace está incluido en más de un lugar dentro
de la jerarquía de Yahoo.
●
[Xtra!]: existe información que se actualiza diariamente sobre el tema elegido.
●
NEW!: significa que el enlace fue dado de alta durante la última semana.
●
Números entre paréntesis luego de las categorías de Yahoo: indican la cantidad de documentos enumerados
directamente bajo ese encabezado temático.
●
Unas gafas: para destacar los servidores que considera más interesantes por contenido, novedad, diseño, etc.
Opciones anexas: las ayudas detallan ejemplos de cómo realizar las búsquedas. Desde su página principal se puede
acceder a distintas opciones, como por ejemplo: lista de servicios añadidos durante la última semana, casilla de correo
electrónico, agendas, chats, finanzas, páginas amarillas, juegos, etc.
Capacidad de personalización: permite convertirlo en la página de inicio.
INFOSEEK: fue lanzado en febrero de 1995, creado por la empresa The Infoseek Corp. Es un buscador dee cobertura
internacional.[3,5,10]
Modo de operación: las páginas son localizadas e indexadas por un robot. Pueden darse de alta página a página,
completando en un formulario dado por el sistema, solamente la URL de la página web. El robot es capaz de identificar
las etiquetas META de palabras clave y de descripción existentes en las páginas utilizando la primera para la indización
de la página y la segunda como resumen del contenido en la visualización de resultados.
Capacidad para expresar condiciones de búsqueda: el método que sigue para indexar y ordenar los resultados de las búsquedas se
basa en criterios: en primer lugar aquellas páginas en cuyo título ( o cerca de éste) se encuentra la palabra clave ingresada, cantidad
de palabras claves o frases que aparecen en la pagina web o si el término ingresado es poco común en la base de datos. Presenta dos
formularios de búsquedas, uno para búsquedas simples y otras para búsquedas avanzadas. La sintaxis por defecto es "o", es decir que
los espacios entre las palabras claves ingresadas se interpretan como "o". Si se ingresan palabras que contengan alguna o todas las
letras en mayúscula busca la coincidencia exacta, si los términos se ingresan en minúscula busca tanto mayúsculas como minúsculas.
Para buscar por frases, deberá escribírselas entre comillas o separadas por guiones. Permite el uso del signo + en lugar del AND y el –
en lugar del OR, pero no el uso de paréntesis. En el idioma Inglés ofrece reconocimiento de conceptos (ej. sinónimos) y el
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (6 of 12) [10/11/2001 8:38:27 AM]
MOTORES DE BÚSQUEDA EN INTERNET
truncamiento de términos es automático, no existe un símbolo para representarlo en otro idioma. Las búsquedas pueden hacerse en
texto libre o bien limitarse a los campos URL y título. No limita la cantidad de palabras a ingresarse en el campo de búsqueda.
Permite separar nombres propios con una coma y la barra vertical para buscar por el segundo término en aquellos documentos que
contengan el primero.
Formatos de salida: En cada página de resultado aparece el título, la URL, la descripción (la que aparece en la etiqueta
META, en el caso de que exista, o las primera líneas que aparecen en la página propiamente dicha), el tamaño de la
página (bits) y la fecha de alta en el sistema. Agrupa los resultados provenientes del mismo sitio, asociándolos con el
más relevante de ellos, de manera que se tiene la opción de pedir que los presente juntos en una misma página.
Existe un único formato de presentación que es el propuesto por el sistema. No permite acotar búsquedas por el criterio
fecha de alta de las páginas.
Se recuperan páginas y no recursos que además no pueden ser agrupadas por servidores.
Permite ocultar la descripción de las páginas arrojadas como resultado mostrando únicamente los títulos
Opciones anexas: en las ayudas se explica cómo realizar la búsqueda y los criterios de presentación de los resultados.
Presenta secciones de páginas clasificadas y noticias.
TERRA: es una herramienta de búsqueda con contenidos realizados en español, catalán, euskera, gallego, bable y
portugués para facilitar la navegación de usuarios de Internet de habla hispana. [11] Este buscador está presente en
Argentina, Brasil, Colombia, Costa Rica, Chile, El Salvador, España, Guatemala, Honduras, México, Nicaragua,
Panamá, Perú, Uruguay, USA, Venezuela.
Modo de operación: Contiene un directorio tipo índice con sitios clasificados temáticamente en 16 categorías, con
distintas subcategorías. El directorio se actualiza diariamente con el alta de páginas que se cargan en forma manual a
través de una formulario. Los datos solicitados en el formulario son: sector en donde ubicar la página web, título, URL,
idioma en que está redactada la página, país de origen, zona geográfica de influencia, tipo de servicio o tipo de
documento que proporciona la página, explicación que acompañará al título, palabras claves (hasta siete), e-mail de
contacto técnico, e-mail de contacto contenido y clave de borrador.
Capacidad para expresar condiciones de búsquedas: presenta una categorización temática, donde se puede
inspeccionar la jerarquía hasta dar con el tema de interés.
Para búsquedas específicas puede introducirse una o más palabras claves en el campo de búsqueda separadas por
espacio. A través de un formulario se pueden expresar las condiciones de búsqueda avanzadas: buscar ocurrencias en
título, URL, palabras clave, descripción, servicios o zonas de influencia; se puede especificar el ámbito de búsqueda en
local, regional o mundial; por idioma de páginas; por antigüedad de las mismas; por país de origen y por tipo de servicio.
Las búsquedas avanzadas pueden ser por páginas o por sitios web. Para sitios se debe seleccionar en un formulario los
campos donde se pretenden estén las palabras consultadas (título, URL, etc), el idioma de la página, el ámbito (local,
internacional), tipo de servicio, antigüedad de la página y país de origen. Para búsquedas por páginas se debe
especifica la o las palabras a buscar separadas solamente por espacios, el método de búsqueda (OR/ AND entre
palabras, por frases, en el título, frases con links a ese dominio, como nombre de personas, frases lógicas), idioma de
las páginas, filtrado de recursos según otras palabras (páginas de resultados con todas las palabras, con algunas o con
ninguna), control de fechas (después de o antes de), control geográfico, control del servicio donde se encuentra la
página, profundidad de la página en el servidor (principal, página personal, profundidad entre 0 y 4, o cualquiera).
Brinda la opción de "búsquedas al azar", que sugiere en forma aleatoria una página web para comenzar a navegar y un
abecedario donde buscar los temas de interes sin tener que explorar el directorio temático.
Formatos de salida: presenta los siguientes elementos de resultados:
● enlaces a empresas, productos, servicios y marcas que cumplen la condición de búsqueda,
●
servicios ofrecidos por Terra relacionados con el término de búsqueda,
●
URLs relacionadas que se ajusten a la búsqueda, en función del volumen de resultados obtenido puede presentar
los resultados agrupados por sectores de a 25 sitios o datos de cada uno los enlaces resultantes de la consulta
con el título, URL y una breve explicación de la misma, presentados de diez en diez y sin límite de cantidad.
Se detalla el número de resultados obtenidos para los idiomas: español, catalán, euskera, bable, gallego y portugués.
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (7 of 12) [10/11/2001 8:38:27 AM]
MOTORES DE BÚSQUEDA EN INTERNET
En la presentación también se distinguen los resultados según correspondan a sitios, páginas web o productos
En "estrenos" se encuentra la selección de las mejores páginas webs dadas de alta en los últimos siete días. Las webs
seleccionadas son identificadas por estrellas rojas. Con "N , nuevos" se indican los Webs de resultado dadas de alta en
los últimos quince días.
Opciones anexas: tiene una base de datos Realnames con sitios de empresas, productos, servicios y marcas y una
base de datos Inktomi que contiene páginas web a diferencia del buscador de Terra que contiene sitios web.
Presenta un "Árbol de sectores" que muestra la organización jerárquica de las categorías y subcategorías en las que se
distribuyen las webs dadas de alta para poder visualizar fácilmente la estructura que hay debajo de un sector
determinado.
Servicio de publicidad para que las páginas aparezcan en los primeros lugares de una determinada categoría.
En su página principal presenta opciones como por ejemplo: diccionario de traducción online a varios idiomas, la opción
disco virtual, y la de "newsletter" donde se recibe lo mejor de Terra, permite enviar tarjetas de vos, participar de foros,
chats, compras, noticias, horóscopo, etc.
Capacidad de personalización: Permite introducir enlaces hacia Terra desde una página web del usuario así como
realizar búsquedas desde la página del usuario.
Modo de Operación
Google
Altavista
Robot
X
X
Manual
X
X
Yahoo
Infoseek
Terra
X
Recolección de datos
Organización de datos
X
X
X
Palabras
claves
X
X
X
Categorías
X
X
X
X
Conceptos
X
PageRank
X
Título
URL
Datos imprescindibles para dar de alta una
Pág. (por el usuario)
X
X
X
X
Descripción
X
X
Categoría
X
X
otras
Condiciones de búsquedas
Coincidencia exacta
Búsqueda por
X
X
Google
Altavista
X
Yahoo
Infoseek
X
Nro. de palabras claves
X
X
X
Ubicación en la Pág.
X
X
X
Proximidad entre
palabras
X
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (8 of 12) [10/11/2001 8:38:27 AM]
X
Terra
MOTORES DE BÚSQUEDA EN INTERNET
Seleccionar cant. de rtas.
(10 por defecto)
X
X
X
AND
X pred.
X
X
X
X
NOT
X
X
X
X
X
X
X
X pred.
X
(;)
X
X
X
OR
Operadores
""
(-, /, =, ‘)
()
X
*
X
X
X
X
X
Parcial
Parcial
X
Parcial
X
Simple
X
X
X
X
X
Avanzado
X
X
X
X
X
Todos/algunos/ninguno
X
X
De actualización
X
X
Por idioma
Por categorías
Formulario de Búsqueda
Búsqueda por términos
Búsqueda por fechas
Intervalos de tiempo
X
X
Entre fechas
X
X
URL
X
X
X
X
X
Título
X
X
X
X
X
Descripción
X
X
X
Dominios
X
X
X
X
Todo min
X
X
X
Google
Altavista
Yahoo
Infoseek
Terra
Título
X
X
X
X
X
URL
X
X
X
X
X
Búsqueda en
Búsqueda de imágenes
Mayúsculas - minúsculas
No sensible
Formatos de Salida
Párrafo que coincide con la
consulta
Comentario
X
X
Contenido de <META>
X
Resumen o comentario
Estadísticas:
tiempo y nro de
resultados
X
X
X
X
Categoría
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (9 of 12) [10/11/2001 8:38:28 AM]
X
X
X
X
MOTORES DE BÚSQUEDA EN INTERNET
Marca RN
Información sobre
enlaces
X
X
enlace nuevo
X
X
Sitios interesantes
X
X
Varios resultados de un mismo
sitio
X
X
Actualizado permanentemente
X
Fecha de última
actualización
X
X
Tamaño de la Pág.
X
X
Vínculos
en otro idioma
X
A pág. relacionadas
X
A pág. en memoria caché
X
lista de resultados y
dirección
recuperada
Capacidad de Personalización
X
Google
X
Altavista
Buscar en índices locales o mundiales
X
Formato de resultados (solo texto /texto e
imágenes)
X
información compacta o detallada de los resultados
X
Cantidad de resultados por página
X
X
Idioma de búsqueda
X
X
Activar / desactivar Traducción
X
X
Idioma de interfaz
X
Ver resultados de búsqueda en ventanas nuevas
X
Como página de inicio
Yahoo
X
Infoseek
Terra
X
Métodos de Indexación
Con la operación de indexación se representan los resultados del análisis de contenido de un documento o de una parte
del mismo, mediante elementos que facilitan la recuperación, generalmente denominados "términos de indexación".
A diferencia de los directorios, cuya indexación es intelectual, los motores de búsqueda realizan una indexación
automática, haciendo uso de distintos métodos para indexar recursos que se incorporan a sus bases de datos.[12]:
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (10 of 12) [10/11/2001 8:38:28 AM]
MOTORES DE BÚSQUEDA EN INTERNET
La indexación en el nivel submorfológico, es decir, sin hacer un análisis morfológico, sintáctico o semántico ofrece un
método muy flexible para la recuperación de información: las fuentes de información se indexan como patrones de bits
(bit patterns) con lo que texto, sonido e imágenes en movimiento, pueden indexarse y recuperarse usando la misma
forma de representación.
La indexación por palabra clave es la forma de indexación más común en la web. Para que las búsquedas recuperen
datos rápidamente, se utilizan árboles y palabras clave, direcciones, ubicación y frecuencia de apariciones. Este método,
básicamente morfológico y estadístico, basa la recuperación de información en la similitud formal de las palabras, y las
estadísticas de su presencia en un mismo documento y en distintos documentos. Crean en sus índices de trabajo
interno una entrada para cada una de las palabras únicas que figuran en la base de datos. Cada una de las palabras
tiene asociada información sobre su frecuencia estadística y , un puntero para cada registro que describe cada una de
las páginas donde ocurre, el cual a su vez incluye la dirección URL.
Los artículos, preposiciones, conjunciones, y en general palabras que aparecen con mucha frecuencia en el conjunto de
documentos, conocidas como palabras vacías son filtradas comparándolas con una lista de palabras vacías o
"antidiccionario" y no se incluyen en el índice.
Las palabras asignadas mediante la indexación automática se complementan con palabras de indexación que sugiere el
autor del documento HTML en los tag<META>. A veces, los autores no son honestos (por desear que su sitio aparezca
entre los primeros resultados o por motivos comerciales) y colocan palabras que, aunque no se corresponden con el
contenido del sitio, tienen posibilidades de ser tipeadas en la consulta de un usuario como por ejemplo sex, free,
Microsoft, Netscape, etc.
La Indexación por conceptos es el método de indexación más usado en la Web después del de indexación por palabra
clave. Existen varios procedimientos para construir bases de datos basadas en conceptos. Algunos se apoyan en
teorías lingüísticas y de inteligencia artificial, otros se basan en aproximaciones numéricas, calculando la frecuencia de
aparición de palabras significativas. Con el análisis estadístico, se puede determinar qué conceptos están relacionados o
aparecen juntos en textos que tratan sobre un tema concreto. Mediante este sistema se pueden recuperar sitios que
tratan un tema dado, aunque las palabras del sitio no coincidan con las ingresadas por el usuario para realizar la
consulta.
Otros sistemas de indexación por concepto realizan un análisis profundo a nivel semántico y sintáctico. El mayor nivel de
análisis semántico lo ofrecen los sistemas que brindan información evaluada, revisada e indexada por humanos, que se
presenta en algunos directorios temáticos.
Existen variaciones en cada motor de búsqueda: algunos no seleccionan términos para ingresar en sus bases de datos,
sino que indexan el texto completo de los documentos que captan, exceptuando las palabras vacías mientras que otros
incluyen el contenido de tags y toman como términos para indexar las 3 o 4 palabras del texto que más se repiten.
Existen los que ponderan las páginas según los términos se encuentren en el título, en la URL, en la cabecera, en los
enlaces a otros documentos o en otra parte del documento.
La Indexación por hiperenlaces representa a la web como un grafo , en el que cada página es un nodo y cada enlace un
arco. Se puede decir que hay un grafo dirigido entre una página que apunta o se relaciona con otra, es decir un arco con
dirección determinada. Los vínculos permiten de esta manera obtener información de las páginas, por ejemplo puede
pensarse que dos páginas que reciben enlaces desde los mismos nodos tienen contenido parecido o relacionado con un
mismo tema. Con este tipo de método de indexación se trabajan los hipervínculos como palabras claves o conceptos,
pero permite eliminar diferencias idiomáticas y reducir la capacidad de almacenamiento y procesamiento necesaria.
Conclusión
No se puede dejar de dar importancia a la calidad de los resultados de las búsquedas de información en Internet. Este
planteamiento es válido tanto para los usuarios de la información como para quienes posibilitan las búsquedas, los
motores de búsqueda.
Se ha mostrado que cada motor de búsqueda, tiene su propia arquitectura. Los motores de búsquedas temáticos son
más apropiados para encontrar todo lo relacionado con un tema, mientras que los motores de búsqueda que utilizan
robots presentan resultados más actualizados. El conocimiento por parte de los usuarios (que generalmente no leen las
ayudas propias de cada buscador) y la aplicación de las capacidades de búsqueda y personalización posibilitarían que
los resultados sean lo más acordes posibles a sus propios intereses.
Principalmente para representación e indexación de la información se usan los métodos de indexación por palabra clave
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (11 of 12) [10/11/2001 8:38:28 AM]
MOTORES DE BÚSQUEDA EN INTERNET
o concepto. La indexación por palabra clave es la forma más común en la web. Dado el creciente volumen de
información en Internet, a pesar de la utilización de robots, la información encontrada no estará siempre actualizada.
Bibliografía
[1] Grupo Interuniversitario de Certificación de Redes - "Motores de búsqueda en Internet" http://www.ispjae.cu/gicer.
[2] Rodríguez G. "Estudio técnico de los buscadores Web" - http://www.AlephWeb-ISOCCAT.htm
[3] Cowan A. - "Motores de búsqueda" – disponible en
http://www.desde-el-atico.com.ar/buscadores/search.html
[4] Brin. S y Page. L. "The Anatomy of a Large-Scale Hyper Textual Web Search Engine"
http://dbpubs.standford.edu:8090/pub/1998-8
[5] Martínez A. Sánchez E. "Evaluación de los principales buscadores desde un punto de vista documental
recogida, análisis y recuperación de recursos de información"
http://fesabid98.florida-uni.es/Comunicaciones/a_maldonado/A_Maldonado.htm
[6] Proyecto GOOGLE -http://google.standford.edu
[7] Google - http://google.com/intl/es/about.html
[8] Altavista - http://es-es.www.altavista.com/foother/about.htm
[9] Yahoo – http://www.yahoo.com/help.htm
[10] Infoseek – http://infoseek.com/about.html
[11] Terra – http://www.terra.com
[12] Leal. J. "Cómo se realiza el descubrimiento y la selección e indexación de recursos en el Web" –
disponible en http://acoruna.tuportal.com/proyecto/3.htm
file:///C|/WINDOWS/Escritorio/zzz/stark-motor.htm (12 of 12) [10/11/2001 8:38:28 AM]
Descargar