Sato, Alexis

Anuncio
Buscadores de paginas en Internet
Motores de Búsqueda
Métodos de indexación
SATO ALEXIS (54771)
Motores de Búsqueda
Resumen
En este documento se habla de los diferentes motores de búsqueda y sus métodos de indexación. También se hace una
ligera comparación entre algunos motores de búsqueda reflejando sus características desde los más comunes entre si hasta
los específicos de cada uno.
Introducción
En el mundo la informática una de las cosas más desarrollada sea tal ves Internet. Esto se debe a su gran potencial en la
interconexión de información a través de todo el mundo. Esto también trae aparejado otros problemas. El crecimiento
global de Internet (que llega a alcanzar hasta a un 3000% anual[8*]), y la forma de localización de cierto tipo de
información puede ser complicado en gran medida [7*], ahí es donde entran los "motores de búsqueda", herramientas para
la localización de información.
En este estudio se investigara sobre que son los motores de búsqueda en Internet, las distintas marcas que existen en la
actualidad, las características que los diferencian entre sí, e intentaremos caracterizar la tendencia del uso de estos
buscadores. Además subclasificaremos cada uno de estos por sus métodos en la estructuración como corresponda y
estudiaremos con más detenimiento la forma en que guardan y ordenan la información cada uno de estos para luego
satisfacer los requerimientos de los usuarios.
[ 2*, 3*, 7*, 8*, 13*, 14*,15,*,16*]
Motores de Búsqueda
Los motores de búsqueda (también llamados buscadores de conceptos o herramientas de búsqueda) son herramienta que
basan su funcionamiento en palabras clave que tienen por objetivo recoger e indexar los recursos disponibles en la Red de
forma más automatizada para formar una gran base de datos. [2*, 3*, 7*,8*,13*, 14*, 15*,16*]
En la red (Internet) se encuentran una gran variedad de motores de búsqueda los cuales se diferencian tanto por su diseño
como por la potencialidad para la localización de la información en la gran red (Internet). Existe una gran variedad de
herramientas de motores de búsqueda en Internet de los cuales la gran mayoría son poco eficaces.
Entre estos motores de búsqueda se pueden clasificar en buscadores y meta buscadores donde los buscadores son motores
de búsqueda que realizan la búsqueda en sus bases de datos, [7*]en cambio los meta buscadores trabajan con un conjunto
de buscadores ampliando el horizonte de búsqueda.
En muchos casos se combinan los motores de búsqueda con los conocidos índices temáticos donde se pueden encontrar
cierta información siguiendo un una cadena de opciones que comienza a partir de un tema especifico. Uno de estos
buscadores más conocido es Yahoo el cual ya lo viene implementando desde un prolongado tiempo. Este diseño se ha
vuelto bastante popular por lo cual la mayoría de los buscadores ha empezado a implementar lo desde hace un tiempo
atrás. Este método suele simplificar la tarea de búsqueda para los usuarios poco experimentados en motores de búsqueda y
métodos de búsqueda.
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (1 of 11) [10/11/2001 10:05:18 AM]
Buscadores de paginas en Internet
Estructura
Los motores de búsqueda están integrados por cuatro componentes según lo define "CODINA" que son [8*]: un robot, un
sistema automático, un sistema de interrogación y un programa, donde el robot se encarga de buscar en la Web buscando
las paginas y sus direcciones. El sistema automático se encarga de revisar el contenido de la página e indexar lo
(agregando lo en la lista) junto con los ya encontrados. El sistema de interrogación. Y el programa que actúa de enlace
entre el navegador y la base de datos. Otros opinan que en realidad solo están compuestos por tres partes: los robots que
recorren la red escrutándola; la base de datos que es construida por los robots; el motor de búsqueda que facilita la consulta
a la base [19*].
Funcionamiento
[5*, 7*, 8*]
A través de estos componentes, generalmente, los motores de búsqueda realizan sus tarea basando su funcionamiento de la
siguiente forma:
● El usuario realiza una consulta (cumpliendo con una estructura sintáctica)
● El motor de búsqueda recibe la consulta del usuario que a su vez lo estructura y transforma a un formato en el que
luego se lo envía a la base de dato.
●
La base de datos le devuelve el resultado al motor de búsqueda que lo re transforma para entregarse lo al usuario.
Este resultado esta ordenado de acuerdo a un orden definido por una puntuación donde esta puntuación determina
el grado de certeza en el contenido del documento respecto de la consulta.
Es fundamental que el usuario conozca la sintaxis para la realización de una consulta a los motores de búsqueda.
Operadores para las consultas
[7*, 8*, 13*, 15*, 16*]
Los operadores que se utilizan son en realidad muy sencillos pero suelen variar entre cada motor de búsqueda. Los
operadores se pueden clasificar en 4 tipos:
● Lógicos: Normalmente se utilizan los operadores lógicos conocidos como "álgebra de Boole"(
http://docdigital.upf.es/digital/aula2000/aula.htm). Las operaciones que se pueden utilizar son tres, la suma o
unión(+,and), la resta o exclusión(-,not) y el producto lógico o intersección (or).
●
●
De comparación para la búsqueda de un valor o conjunto de valores numéricos o alfabéticos.
De mascara y truncamiento, sirven para reemplazar un conjunto de caracteres (*) o un carácter (¿) de un texto del
cual no sabemos o conocemos 1 o más letras (Ej.: esote *, alcornoqu?).
●
De proximidad (near), sirven para obtener una mayor amplitud en el rango de la búsqueda (ej. "contador near
empresa").
●
De especificación de campo(title, text), es para limitar la amplitud en el rango de búsqueda (ej: title:
"Comunicaciones").
Los mas usados
Como se menciona anteriormente en Internet existe una gran variedad de motores de búsqueda, entre estos motores se
encuentran los más utilizados clasificados por la cantidad de visitas recibidas (este tipo de mediciones de control de
audiencia son realizadas por las compañías especializadas Media Metrix y Nielsen/NetRatings) y son: [12*]
Yahoo
Infoseek
Lycos
Excite
Alta Vista
Hot Bot
WebCrawler
40%
24%
16%
15%
11%
6%
4%
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (2 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
[Tabla obtenida de la pagina: http://www.indexmarketing.com/indextutorial.htm]
Debemos considerar que la mayoría de los usuarios utilizan más de un motor de búsqueda, sea tanto por su popularidad
como por su potencia de búsqueda para determinados temas especiales o por la facilidad de uso.
Características de cinco motores de búsqueda más populares
A continuación tomaremos cinco de estos buscadores de los cuales se describirán sus características forma de uso métodos
de consulta entre otras cosas. La comparación entre los distintos motores de búsqueda se debe tener en cuenta la cantidad
de referencias que contiene, la forma de indexación de cada página, el tipo de interfaz utilizada, el algoritmo de cálculo
utilizado para la relevancia y el tipo de lenguaje utilizada para la realización de las consultas.
● Alta Vista
Alta vista es uno de los buscadores más populares en el país y en el mundo. Se lo trata como un "Buscador de conceptos"
y es un servicio brindado por "Digital". [1*,3*, 4*, 5*, 6*, 7*, 8*, 9*, 11*, 12*, 16*]
La dimensión de la base de datos de Alta Vista es de un tamaño activo con unos 30 millones de paginas Web y unos 12
millones de palabras indexadas (que ocupan alrededor de 40 GB). También mantiene un enlace con la red de "USENET"
al cual explora diariamente. Suele recibir alrededor de 10 millones de consultas diarias para lo cual mantiene su
infraestructura física. Actualmente esta compuesto por un conjunto de potentes programas y bases de datos, una serie de
servidores ALPHA con 6 GB de RAM y uno 210 GB en discos rígidos RAID. Y maneja un ancho de banda de uno
100mb/s.
Con respecto a su funcionamiento, Alta Vista como cualquier otro buscador, es muy sencillo de utilizar y solo hay que
tener en cuenta los operadores que utiliza (que normalmente son similares a los del resto de los buscadores). En todo caso
la dificultad se presentaría en búsquedas muy complejas en donde pueden diferir los operadores entre un buscador y otro.
Normalmente realizando una consulta sencilla Alta Vista retornara el resultado presentando lo de forma ordenada respecto
del valor calculado por la cantidad de aciertos contenidos respecto a la consulta realizada.
Una de las características más ventajosas de Alta Vista es que permite realizar consultas especiales o avanzadas en donde
se permiten realizar consultas mucho más complejas y acotadas permitiendo inclusive definir rangos de fechas. También
permite el uso de paréntesis en el armado de las consultas. Entre otras cosas, el buscador suele consultar a USENET que
mantiene una información más actualizada.
Los operadores
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (3 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
Los operadores básicos de Alta Vista se encuentran:
● Comillas (""): esta permite el pegado de palabras el cual indica que si en la búsqueda no se encuentra exactamente
de la misma forma se disminuye el puntaje correspondiente a esa referencia.
●
●
Suma (+): esta indica que la palabra que precede al signo (+) y se debe incluir dentro de la búsqueda.
Resta (-): esto indica que las paginas que contengan la palabra que precede al signo (-) se deben eliminar del
resultado.
●
Mayúsculas y minúsculas: permiten forzar a que la palabra coincidente que figure en las páginas respeten esta
literalmente.
●
Raíz (*): esta sirve para indicar raíces de palabras como México o mexicano.
Otros datos
Alta Vista indexa las páginas que parten de la página principal hasta tres niveles por debajo.
Alta Vista no indexa las páginas que contienen el Meta tag "refresh", es decir páginas que pasan automáticamente a otra
página al cabo de un tiempo. Tampoco dará de alta páginas con 'texto invisible' o muy pequeño. Alta Vista es el único
buscador que revisita los Webs dependiendo de la frecuencia de actualización que tenga. El plazo para aparecer en Alta
Vista es de 3 días a una semana.
AltaVista es tremendamente respetuoso y "ecológico" con la Red. Entre otras cosas, viaja de página en página procurando
no sobrecargar ningún servidor con consultas continuadas. Adicionalmente, los usuarios pueden añadir código HTML a
sus páginas personales o de empresa para evitar que sean indizadas por el robot.
Es muy inteligente puesto a que las páginas que más a menudo cambian (como las de noticias) son las más visitadas.
Además, automáticamente, las que no pueden ser revisitadas en varios días son eliminadas para evitar enlaces que no
lleven a ningún lugar.
● Yahoo
Yahoo es uno de los más populares y antiguo índice conocidos de la World Wide Web. Uno de los elementos que lo
caracteriza es su completes, su sencilla y atractiva interfaz y su facilidad de uso. [ref:3*,4*, 6*,7*,8*, 9*, 11*, 12*]
Yahoo funciona examinando las paginas Web y recursos de todo el mundo y las incluye en una guía jerárquica universal.
En realidad lo que hace es clasificar cada uno de los recursos encontrados y colocar un enlace dentro de las jerarquías de
temas a las que correspondan donde cada índice o carpeta mantiene un enlace a la página de incumbencia (e incluye ‘alias’
a otras si es necesario), y esta indica también la cantidad de elementos que contiene cada subclasificación. Como se
ejemplifica a continuación:
Resultado: (3)
_ Bolsas de Trabajo (56) vínculos
_ Curriculum Vitae (23) vínculos
_ Centro del desempleado (15) vínculos
Este modo de trabajo simplifica en gran medida la dificultad en la búsqueda de información en Internet
Yahoo contiene alrededor de 20.000 categorías, completamente organizada. Los punteros finales solo son enlaces al
recurso en Internet como Usenet, sitios FTP, y paginas Web.
De esta forma, si un sitio Web con el mismo título y descripción aparece antes en las categorías en ves de que si éstos son
distintos.
También permite buscar en grupos de News, direcciones de correo, en noticias de prensa de actualidad (que se encuentren
anexados en la base de datos) y en el motor Inktomi. Es capaz de lanzar la frase de consulta a varios de los mejores
motores de búsqueda en Internet, con sólo pulsar el nombre del motor. Otra ventaja de Yahoo es que cataloga de forma
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (4 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
proritaria las FAQ y los recursos que contienen índices de cualquier tipo, esto le convierte en un verdadero Metaíndice.
Las FAQs son listas de las respuestas a las preguntas más frecuentes. Una lista de FAQ's es un documento, recopilado por
un voluntario, que identifica y responde las preguntas que se realizan más a menudo en un grupo particular. Es la
contracción de Frequently Asked Questions.
Cuando se da de alta una Web, y debido a que Yahoo es una estructura jerárquica, esta no se hace efectiva de forma
inmediata ya que: primero los encargados del mantenimiento de Yahoo revisan el contenido de la Web y luego la analizan
y reconsideran su categoría respecto del ingresado por el interesado. En la actualidad solo ingresan 1 de cada 10
solicitantes y se restringe la colocación de paginas de venta.
Como ya habrá notado, Yahoo no tiene robot ni cuenta con Meta-tags. Esto se debe principalmente por la política utilizada
para realizar las altas de páginas Web y su método de búsqueda jerárquico por temas.
● HotBot
HotBot es uno de los últimos buscadores que ha conseguido estar entre los 10 primeros.
El HotBot al igual que Alta Vista cuenta con dos formularios de persiana: uno simple y otro más complejo. En el primero
se puede acotar por continente y fecha de alta. En el más complejo, además de por los conceptos anteriores, se añaden más
elementos. En ambos casos se pueden utilizar las siguientes Meta words (etiquetas de campo): dominio, título, links,
fechas de creación y modificación de las páginas. También se pueden localizar páginas dentro del servidor designado.
Reconoce términos compuestos y se pueden utilizar: operadores booleanos (AND, OR y NOT), operadores de proximidad,
paréntesis y truncado. [3*, 5*, 6*, 7* ,8*, 9*, 11*, 12*]
Funcionamiento
HotBot permite visualizar los resultados de una búsqueda de tres formas distintas. También visualiza el grado de
relevancia de cada una de las entradas encontradas el cual define el orden en el que las páginas se visualizan.
HotBot determina el grado de relevancia mediante la frecuencia con la que aparece el termino buscado, teniendo en cuenta
la posición de los términos y la profundidad de la misma. Utiliza los mismos operadores que Alta Vista y estas se aplican
sobre la presentación del resultado. De la misma forma sucede con los criterios de relevancia.
Cuando se realiza una alta lo primero que se presenta en el análisis de la Web es:
_ Primero las páginas que tienen sentencias lo más parecidas a las buscadas. Si sólo coinciden algunos términos se le da
menos peso;
_ En segundo lugar, la frecuencia de las palabras en los diferentes Meta-tags y por este orden: título, palabras clave y
descripción.
Lo anterior, junto con el texto de la página, definirá la posición final de la web en una búsqueda. En igualdad de
frecuencia, las páginas con menos textos se presentan antes que las que tienen más texto.
Si se detectan técnicas maliciosas (repeticiones, comentarios, etc.) se penaliza la página y se presenta al final en una
búsqueda.
Ideas a tener en cuenta son:
. El tener una página índice del Web en Hot Bot, a la que se llega desde la página principal, da buen resultado en este
buscador. Elija cuidadosamente las palabras o frases claves y piense en qué tipo de usuario le interesa atraer a su Web.
. Utilice los metatags Title, keywords y description en todas las páginas de su web.
. Incluya algunas palabras clave de la pagina en el titulo y la descripción.
. Haga las páginas cortas e interesantes.
. Utilice el máximo de enlaces desde su página principal al resto del Web, si no pensaba hacerlo utilice el truco de poner
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (5 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
estos enlaces en el color de fondo al final de su home-page. Ésta es la única garantía de que su web sea indexado en su
conjunto de una sola vez.
. En ningún caso de de alta más de 20 páginas durante 24 horas de una misma web, si se piensa hacer vaya dando los de
alta poco a poco.
● LYCOS
Lycos es uno de los primeros motores de búsqueda y de los pocos que ha patentado su tecnología de búsqueda y
clasificación (spider). Este es de los que mejor guardan sus criterios de clasificación. En principio, utiliza los 250 primeros
caracteres de la pagina principal como elemento de mayor peso para hacer su propia descripción. [3*, 5*, 6*, 7*, 8*, 9*,
11*, 12*]
Para dar de alta solo hay que dar la URL de la pagina principal. El tiempo desde que se solicita hasta que el Web es
visitado por el motor puede llegar a ser muy corto aunque el resultado no aparece durante varias semanas (el tiempo
promedio de espera es de 1 mes).
Temas a tener en cuenta:
. Si solo va a estar en Lycos no necesita tener activos los Meta-tags de la descripción, pero se debe asegurar que en la
pagina principal esta bien descripto el contenido de la web.
. Poner las palabras clave, si puede en el titulo de cada página.
. Lycos es de los pocos buscadores que reconoce, al menos en ingles, sinónimos, es decir si ponemos la palabra banco en el
título, también nos encontraran por finanzas o por inversiones, etc.
. No poner al comienzo de la página gráficos ya que si no Lycos deja de indexar.
. Incluir los signos de puntuación en los textos.
. Chequear si Lycos ha indexado todas sus paginas y sino es así hacerlo manualmente.
. Dé el nombre completo de la URL incluyendo el nombre de la página html sino puede que ignore la petición.
. Incluya enlaces a la pagina principal en el resto de las paginas.
. Usar las palabras clave en el texto de las diferentes páginas.
El robot de Lycos localiza las paginas a partir de las URL’s dadas de alta en el formulario, donde sólo se solicita la URL y
el e-mail de la persona que realiza el alta.
Para la búsqueda cuenta con un formulario simple y otro más complejo. En ambos se puede acotar el idioma y utilizar:
operadores boleanos, operadores de proximidad y paréntesis. Sin embargo, no se admite el truncado. Además en el
formulario complejo se puede elegir entre buscar los términos de búsqueda en todo el documento, el título o la URL.
También se pueden hacer búsquedas en una web determinado existente en Lycos, indicando su dominio en el formulario
de búsqueda. La opción "más resultados" permite visualizar las páginas de iguales características que una seleccionada.
● INFOSEEK (Infoseek Corp.)
En Infoseek la búsqueda se puede realizar utilizando cualquiera de los dos formularios existentes (la búsqueda común y la
avanzada): uno para búsquedas simples y otro para las más complejas. El sistema permite localizar palabras y frases que
pueden ser combinadas con los operadores AND, OR y NOT, aunque en este no se puede utilizar paréntesis pero si se
pueden truncar términos. [3*, 7*, 8*, 9*, 11*, 12*]
Las búsquedas pueden hacerse en texto libre o bien limitarse a los siguientes campos: URL, "hyperlinks", título y lugar
geográfico.
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (6 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
Los resultados de una consulta cualquiera son presentados siguiendo un orden de relevancia, apareciendo primero aquellas
páginas en las que los términos requeridos aparecen en el título o cerca del inicio, contienen un mayor número de
ocurrencias o los términos solicitados son considerados relevantes (palabras poco comunes en una base de datos). De cada
página seleccionada aparece el título con el enlace, la URL, la descripción (la que aparece en la etiqueta META
"descripción", en el caso de que exista, o las primeras líneas que aparecen en la página propiamente dicha), el tamaño de la
página (bits) y la fecha de alta en el sistema.
Infoseek también presenta una sección de páginas clasificadas directamente por un equipo de personas como lo hace
Yahoo.
Infoseek, como todos los anteriores presenta las siguientes característica:
● Reconoce las etiquetas META de palabras-clave y de descripción.
●
Posibilidades de búsqueda bastante completas: truncado, búsqueda de términos compuestos y operadores booleanos
(AND, OR, NOT).
●
Las páginas recuperadas se presentan siguiendo un orden de relevancia.
Detección de novedades por la fecha de alta en el sistema.
No permite el uso del paréntesis.
No se puede buscar ni en el campo de palabras-clave ni en el de descripción.
No se controla el vocabulario.
Existe un único formato de presentación.
Se recuperan páginas y no recursos que además no pueden ser agrupadas por servidores.
Se conoce la fecha de alta de las páginas, pero no se puede acotar por este criterio.
Posibilidad de buscar por los siguientes campos: URL, "hiperlink", título y lugar geográfico.
Se utiliza el texto de la etiqueta META de descripción para resumir el contenido de cada página recuperada.
El alta debe hacerse página a página.
Las páginas se encuentran parcialmente clasificadas.
●
●
●
●
●
●
●
●
●
●
●
Cuadro comparativo de buscadores
Yahoo
Alta Vista
Lycos
Hot Bot
Infoseek
Reconoce Meta-tags
No
Sí
No
Sí
Sí
Sensible a las minúsculas
No
Sí
No
No
Sí
Tiempo para procesar un
alta
4 semanas
1 a 3 Días
2 a 4 sem.
2 a 4 semanas
3 semanas
Sensible a los signos de
puntuación
No
No
Sí
No
No
Incluye los textos
alternativos
No
Sí
No
Sí
Sí
Numero de palabras
indexadas
N/A
Todas
Todas
Todas
Todas
Limitaciones a los meta-tags
N/A
1024
1024
No repita los
contenidos
1024
Frecuencia de actualización
N/A
6 a 12 sem.
4 a 12
semanas
2 semanas
3 semanas
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (7 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
Relevancia de las direcciones
Web
N/A
Sí
No
No
Sí
Buscador real
No
Sí
Sí
Sí
Sí
Métodos de indexación
Existen dos métodos de indexación principales que son motores de búsqueda por palabras o conceptos y los llamados
índices o directorios que se diferencian de los motores de búsqueda principalmente por su organización de recurso en
categorías temáticas. [3*, 4*, 6*, 7*, 11*, 12*]
INDICES TEMATICOS
Los llamados índices temáticos o directorios identifican en un principio a los conocidos portales donde cada portar suele
corresponder a un tema, carrera, rubro o categoría de influencia a la cual se le suele hacer referencia. Estas están
compuestas de dos partes. La base de datos que es construida por los URL's remitidos. Una estructura jerárquica que
facilita la consulta a la base de datos.
Estos normalmente se los suele identificar fácilmente en los portales de Internet orientados o no a un grupo temático. Estas
se organizan de forma jerárquica lo cual permite profundizar y alcanzar los temas específicos a los que cada usuario desea
alcanzar. El árbol de categorías termina en un listado de enlaces a las paginas referenciadas las cuales contienen una breve
descripción sobre su contenido. El cargado de los datos en esta estructura jerárquica se realiza tanto por los responsables
del mantenimiento de la pagina índice o (dependiendo de su diseño) por los creadores de la página a las que hacen
referencia.
La mayoría de los índices permiten dos formas de acceso a los recursos referenciadas:
● La primera es navegando a través de la jerarquía temática.
●
La segunda mediante la búsqueda de palabras clave sobre el conjunto de referencias.
Suelen diferenciarse especialmente al nivel de precisión alcanzado y trabajo de búsqueda realizado por ambos.
Los índices o directorios son más precisos (por el trabajo de indexación realizada por humanos) pero menos exhaustivos.
En cambio los motores de búsqueda son más exhaustivos (por la cantidad de referencias que pueden alcanzarce por su
automatización) pero menos precisos que los alcanzados por los índices.
Herramientas de búsqueda como alta vista tienen bases de datos es un sistema activo que en el momento en el que recibe
una nueva alta, esta visita la dirección URL para analizar e indexar su contenido para clasificar automáticamente la página
según su contenido.
También mantiene un enlace con la red de "USENET" al cual explora diariamente. Suele recibir alrededor de 10 millones
de consultas diarias para lo cual mantiene su infraestructura física.
El modo de trabajo de un índice o carpeta simplifica en gran medida la dificultad en la búsqueda de información en
Internet pero no se ejerce una búsqueda exhaustiva sobre todas las páginas con potencialidad por lo cual suele suceder que
se pierde un rango de posibles enlaces de gran relevancia. Además, tiene mayor precisión, menor ruido, y el poder contar
en algunos casos con comentarios y valoraciones de los recursos referenciadas realizados por especialistas en el tema.
Yahoo contiene alrededor de 20.000 categorías, completamente organizada. Los punteros finales solo son enlaces al
recurso en Internet como Usenet, sitios FTP, y paginas Web.
Los punteros finales en los índices solo son enlaces al recurso en Internet como Usenet, sitios FTP, y paginas Web.
La metodología de búsqueda en estos índices es realmente sencilla puesto que solo hay que descender por las áreas
temáticas deseada hasta llegar a la pagina de los vínculos.
Curiosamente, Yahoo viene con un buscador de palabras clave a través de la cual se puede localizar las paginas deseadas
en una base de datos cargada por los encargados del mantenimiento. Yahoo como resultado a una búsqueda o "search" no
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (8 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
retorna una lista ordenada por el análisis del contenido de la página Web sino que lo retorna respetando el orden de
prioridad que se le da a la categoría, Titulo y por ultimo a la descripción.
Cuando se da de alta una Web, en una estructura jerárquica (índice o carpeta), esta no se hace efectiva de forma inmediata
ya que: primero revisan el contenido de la Web y luego la analizan y reconsideran su categoría respecto del ingresado por
el interesado. Debido a esto suelen tener un retraso de hasta 6 meses. Yahoo en la actualidad sólo ingresa 1 de cada 10
solicitantes y se restringe la colocación de paginas de venta. [3*, 4*, 7*, 12*, 16*]
MOTORES DE BUSQUEDA
Como ya se a mencionado anteriormente los motores de búsqueda están construidos en tres parte (el robot, la base de datos
y los programas que realizan las consultas) pero cada uno de ellos cambia considerablemente dependiendo de los
proveedores del servicio. Generalmente suelen cambiar en la lógica de funcionamiento del robot, los datos a indexar y los
operadores disponibles (en su mayoría vistos anteriormente).
En esta las páginas son localizadas por un robot a partir de las URL’s dadas de alta en un formulario, donde debe indicarse
la URL y el e-mail de la persona que la realiza. El robot extrae información de las etiquetas META de título, descripción y
palabras clave.
Los robot que buscan dentro de las página no funcionan todos de la misma forma y estos suelen cambiar dependiendo de
los proveedores del servicio.
Por ejemplo, HotBot indexa todos los enlaces que encuentra en la página principal y sólo éstos. Esto quiere decir que si
hacemos una página home-page con un sólo enlace, únicamente revisará este enlace e ignorara el resto del Web. Indexa
todas las palabras incluidas los textos alternativos. El mayor peso a la hora de clasificar lo asigna al titulo, el segundo a las
palabras clave, el tercero a la descripción y el cuarto al resto de textos.
Si repite con demasiada frecuencia una palabra, puede que lo consideren como spanning y le envíen al final en las
búsquedas.
Cuando se indexa se toma normalmente la frecuencia de las palabras en los diferentes Meta-tags y por este orden: título,
palabras clave y descripción. Esta característica de indexado en la base de datos depende mucho de cada servicio donde se
suele agregar, cambiar o quitar algunos de estos campos. Tenga en cuenta que el tamaño de cada uno también depende de
los servicios puesto que algunos restringen el indexado y otros toman párrafos completos.
Lycos indexa todo el texto visible del WEB, no indexa los Meta-tags ni los textos alternativos. Sólo reconoce el meta-tag
de palabras clave o keywords de hasta 1024 caracteres, si utiliza mas el resto lo ignora. Además, la actualización de
páginas la realiza sistemáticamente aunque no sean muy visitadas.
Lycos organiza su base de datos utilizando los siguientes campos:
_ Título de la página: Es muy importante que contenga en primer lugar el término de búsqueda por el que se va a optimizar
la inserción. Después se debe incluir otras palabras clave. Lycos toma en cuenta la frecuencia con que van apareciendo las
palabras clave en el título.
_ Cuerpo de la página: Registra los primeros 270 caracteres del texto contenido en la página y organiza los resultados
dependiendo de la frecuencia de aparición de las palabras buscadas.
_ Ignora las etiquetas META de descripción y palabras clave.
Existen algunos que permiten localizar imágenes y sonidos.
El robot de Infoseek localiza e indexa las páginas que contiene en su base de datos, también se pueden dar de alta usando
un cuestionario que el propio sistema presenta donde exclusivamente se solicita la URL de la página. Cada página se da de
alta individualmente. El robot es capaz de identificar las etiquetas META de palabras clave ("keywords") y de la
descripción existente en las páginas utilizando la primera para la indexación de la página y la segunda como resumen del
contenido en la visualización de resultados.
[3*, 4*, 5*, 7*, 12*, 17*, 18*]
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (9 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
Conclusión:
Como podemos apreciar, la diferencia entre estos tipos de buscadores y sus métodos de búsqueda, permiten el acceso y
utilización a todo tipo de usuarios (tanto principiantes como usuarios experimentados). Además, la documentación de
ayuda que se presenta (normalmente de difícil comprensión para un usuario principiante) permite generalmente un rápido
aprendizaje para los usuarios sobre los métodos y operadores básicos usados en una búsqueda.
También, es importante tener en cuenta la utilización de un conjunto de buscadores para la realización de las búsquedas
puesto que, como se menciono anteriormente, el constante crecimiento de la WWW hace difícil hallar cierto tipo de
información con un solo buscador.
Entre otras cosas, el gran crecimiento de la WWW denotan un temprano cambio o migración a los meta/multi buscadores
para las futuras consultas a realizar en busca de información. Por ello podríamos pronosticar no solo un aumento en la
popularidad en estos meta buscadores sino que también un aumento gradual (iniciado ase poco más de un año) de meta
buscadores en Internet y tendiendo a la desaparición de los actuales conocido motores de búsqueda.
A pesar de estos cambios graduales no podremos estar seguros del futuro que corren los buscadores puesto que todo
cambia y todos nos adaptamos al medio en el que subsistimos. Por esto no podemos saber nunca que es lo que sucederá
con los motores de búsqueda en el futuro, solo podemos observar y ver que es lo que sucede.
Referencias:
1*_ Ayuda rápida de Alta Vista. http://es-es.altavista.com/help/introduction?t=1.
2*_ La Búsqueda Académica en Internet. http://www.geocities.com/Paris/Arc/7824/Remodelacion/motores3.html.
3*_ Principales Motores de Búsquedas. http://www.uco.es/investiga/grupos/rea/search/descripcion.htm.
4*_ Búsqueda en Internet. http://www.netport.com.ni/netport/tips/busqueda/intro.htm.
5*_ Motores de Búsqueda. Universidad de Chile. http://www.uchile.cl/bibliotecas/navegando/motores.htm.
6*_ Boletín "InfoAUI" Número 004 - Febrero 1998. Infoaui. http://www.aui.es/biblio/bolet/bole004/boletin.htm.
7*_ Buscadores de información en Internet: directorios y motores de búsqueda. Tony Hernández y Jesús Robledano.
http://www.bib.uc3m.es/~jroble/documentac/buscar.htm.
8*_ Los motores de búsqueda en Internet: características básicas. Jaume Baró i Queralt y Francesc Martín.
http://www.microsoft.com/search/Worldwide/spain/enginetips.htm.
9*_ Evaluación de los principales "Buscadores" desde un punto de vista documental. Angeles Maldonado Martínez.
CINDOC-CSIC. Elena Fernández Sánchez. CINDOC-CSIC.
http://195.235.97.200/personal6/biblioteconomie/articulos/art9.html.
10*_ http://www.security-informer.com/english/crd_es_291064.html.
Métodos de indexación
11*_ Métodos de indexación. Grupo activa. http://www.grupoactiva.net/productos/altas_tutorial02.htm.
12*_ Tutoríal sobre buscadores - Que son y como funcionan los principales índices y buscadores. Index Internet
marketing. http://www.indexmarketing.com/indextutorial.htm.
Métodos de búsqueda:
13*_ Internet al Día – La búsqueda en Internet. Ing. Margarita Aste. http://www.quipus.com.mx/r14inter.htm.
14*_ Educación Matemática e Internet Una introducción para profesores de secundaria. Antonio Pérez Sanz.
http://platea.pntic.mec.es/~aperez4/internet/sevilla1.htm.
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (10 of 11) [10/11/2001 10:05:19 AM]
Buscadores de paginas en Internet
15*_ Búsqueda e Investigación en la Internet - estrategia de busqueda.htm.
http://www.uprm.edu/socialsciences/recursos-internet/id43.htm.
16*_ Tenis_net - Lecciones de tenis - Como buscar información en Internet. Pablo Machon.
http://www.tenis.net/02/01-02-04-10.htm.
17*_ Motores de Búsqueda. http://members.es.tripod.de/DAchiardi/pagina_n8.htm.
18*_ Preguntas más frecuentes (FAQ).http://es-es.altavista.com/help/faq?t=8.
19*_ Búsqueda en Internet. http://www.netport.com.ni/netport/tips/busqueda/buscadores.htm.
file:///C|/WINDOWS/Escritorio/zzz/sato-motor.htm (11 of 11) [10/11/2001 10:05:19 AM]
Descargar