Motores de búsqueda

Anuncio
Motores de Búsqueda
Los motores de búsqueda son la forma principal que permite a los usuarios de Internet encontrar sitios con
información. Esa es la razón por la cual los sitios publicados en los listados de los motores de búsqueda
incrementan dramáticamente su tráfico. Todos quieren aparecer en los listados, desafortunadamente muchos
no lo logran por desconocer el modo en el cual trabajan los motores de búsqueda. Existen tres tipos de
motores de búsqueda, los basados en crawlers, los basados en índices o directorios, y los meta motores de
búsqueda. Estos se diferencian por la forma como organizan la información y los enlaces a las páginas que se
encuentran en Internet. La elección del tipo de motor de búsqueda depende, principalmente, de la necesidad
de información, el número de páginas que tienen indexadas, el nivel de actualización y un tanto de la
experiencia y gusto que se tenga sobre alguna herramienta de búsqueda en especial. Las capacidades de
búsqueda pueden construir o dividir la usabilidad de un sitio. Las herramientas de búsqueda efectivas destacan
el poder de un sitio para transportar información.
Motores de Búsqueda basados en crawelr
Los motores de búsqueda basados en crawlers consisten en bases de datos muy voluminosas generadas como
resultado de la indexación de partes significativas de los documentos que han sido analizados previamente en
Internet. Los motores de búsqueda suelen recoger documentos en formato HTML y otros tipos de recursos,
como noticias. La tarea es realizada por un programa denominado crawler (robot o spider) que recorre la red
de forma automática explorando los servidores a nivel mundial, o en el ámbito de especialización del
buscador (geográfico, idiomático o temático). La recuperación se realiza gracias a un sistema de gestión de
base de datos que permite distintos tipos de consulta y a la ordenación de los resultados por relevancia, en
función a la estrategia de consulta. Los motores de búsqueda son más exhaustivos que los índices en cuanto al
volumen de páginas referenciadas, pero son mucho menos precisos que los índices, al no ser su contenido
objeto de indexación humana.
Motores de búsqueda basados en directorios
Listan sitios en categorías, significando esto que solamente indexan la página principal de su sitio (o secciones
de su sitio), y no todas las páginas. Normalmente ignoran toda la pre−promoción y usted debe proveer el
título, la descripción y las palabras clave de su sitio al sugerir la URL al motor de búsqueda. Estos motores de
búsqueda por lo general son operados por humanos quienes hechan una mirada a su sitio y se reservan el
derecho de cambiar el título, descripción y palabras claves si lo consideran apropiado. Los sitios en una
categoría usualmente se listan en orden alfabético.
Meta Motores de Búsqueda
La red de Internet es muy amplia y cambia constantemente, un solo motor de búsqueda no puede cubrirla y
mantenerse actualizado al mismo tiempo. Al usar muchos motores, el poder en la búsqueda de la información
es más grande. Los meta motores de búsqueda no contienen URL y descripciones en su base de datos, en lugar
de eso contienen registros de motores de búsqueda e información sobre ellos. Envían la petición del usuario a
todos los motores de búsqueda (basados en directorios y crawlers) que tienen registrados y obtienen los
resultados que les devuelven. Algunos más sofisticados detectan las URL duplicadas provenientes de varios
motores de búsqueda y eliminan la redundancia, es decir solo presentan una al usuario. En base a esa
característica algunas personas los llegan a clasificar en dos tipos, los multi buscadores y los meta
buscadores:
Los multi buscadores: ejecutan la consulta contra varios motores de forma simultánea y presentan los
resultados sin más organización que la derivada de la velocidad de respuesta de cada motor de búsqueda. Un
1
ejemplo es All4one.com, el cual busca en una gran cantidad de motores de búsqueda y directorios.
Los meta buscadores: funcionan de manera similar a los multi buscadores pero, a diferencia de éstos,
eliminan las referencias duplicadas, agrupan los resultados y generan nuevos valores de pertinencia para
ordenarlos. Algunos ejemplos son MetaCrawle.com, Cyber411.com, digisearch, y search.com.
Los motores de búsqueda se reservan el derecho de indexar su sitio o rechazarlo. El motor de búsqueda más
estricto posiblemente sea el Open Directory Project cuyos editores de categoría rechazan sitios que caen en
alguna de las siguientes categorías:
• Sitios en construcción
− Sitios con enlaces rotos
− Sitios sin suficiente material para ser considerados valiosos para
el visitante, o con material copiado de otros sitios
− Sitios con contenidos ilegales o engañosos
− Sitios que consisten solamente o principalmente de enlaces a otros sitios
− Sitios cuya página principal tiene un tag <BASE> o un meta−tag
REFRESH
− Sitios que se ven bien con un navegador determinado y muy pobremente con otros navegadores
− Sitios que se ven mejor en una determinada resolución y muy
pobremente en otras resoluciones
− Sitios que intentan "engañar" al motor de búsqueda de alguna forma (por ejemplo con palabras
clave no relacionadas con sus contenidos).
Características del funcionamiento de los motores de búsqueda
CARACTERÍSTICAS DE RASTREO (CRAWLING)
Es importante conocer la forma como los crawlers actuarán sobre las páginas que rastrean, ya que de ello
depende el éxito del registro completo del sitio y alcanzar una buena clasificación.
• Rastreo profundo: el motor de búsqueda lista muchas páginas de un sitio, aún si no están
explícitamente registradas en él.
• Soporte de marcos: es una característica que permite a los motores de búsqueda seguir los enlaces a
través de los marcos (frames).
• Mapas de imágenes: son enlaces a otras páginas a través de imágenes.
• Robots.txt: es un archivo de texto que permite indicar que páginas no deben ser indexadas en el sitio.
• Meta índice robot: tiene el mismo objetivo que el robots.txt, pero este es una instrucción del código
HTML de la página.
• Rastreo por enlaces de popularidad: la popularidad de una página se detecta analizando cuantos
enlaces existen hacia otra página. Los motores de búsqueda usan esa característica para determinar
que páginas deben incluir en el índice de su base de datos, aunque esto no necesariamente indica que
obtendrán una buena clasificación.
• Aprende por frecuencia: el motor de búsqueda aprende con que frecuencia se modifican las páginas,
para estimar el tiempo en el que volverá a visitarlas el crawler.
• Inclusión pagada: muestra si el motor de búsqueda ofrece un programa donde se pueda pagar para
garantizar que las páginas de un sitio se incluyan en el índice. Esto no es lo mismo que colocación
pagada, la cual además de la inclusión en el índice, garantiza una posición en particular en relación a
un término de búsqueda.
CARACTERÍSTICAS DE INDEXACIÓN
Las características de indexación indican lo que se indexa cuando el motor de búsqueda rastrea la página.
2
• Texto completo: indexan todo el texto visible en el cuerpo de la página, aunque algunos no indexan
algunas palabras (stop words) o las excluyen por parecer spam.
• Stop words: algunos motores de búsqueda omiten palabras cuando indexan la página o al menos no
las consideran durante la consulta. Estas palabras son excluidas para ahorrar espacio o aumentar la
rapidez de búsqueda, ya que son palabras que aparentan ser spam.
• Meta descripción y meta palabras claves: son meta índices que describen el contenido de la página y
los términos con los que se le asocia para la búsqueda.
• Texto alternativo y comentarios: el texto alternativo es aquel que se asocia con una imagen para
describirla brevemente, el texto alternativo es parte del lenguaje HTML. Los comentarios suelen ser
una anotación sobre la página y son un tipo de meta índice.
CARACTERÍSTICAS DE CLASIFICACIÓN
La mayoría de los motores de búsqueda usan la ubicación y la frecuencia de las palabras claves en las páginas
como la base de clasificación en respuesta a una consulta. Además pueden ser relevantes algunos factores que
estimulan la clasificación, tales como:
• Estímulo de clasificación por meta índices: algunos motores de búsqueda suelen dar un estímulo a
las páginas que contienen meta índices si coinciden con los términos de búsqueda.
• Estímulo de clasificación por enlaces de popularidad: los motores de búsqueda pueden determinar la
popularidad de una página por el número de enlaces que existen a ella desde otras páginas.
• Estímulo de clasificación por aciertos directos: es un sistema que mide las preferencias de los
usuarios sobre la lista de resultados que le presentan para refinar la relevancia de la clasificación.
CARACTERÍSTICAS DE SPAM
El spam es el uso de técnicas para obtener una mejor clasificación, estas técnicas están prohibidas por la
mayoría de los motores de búsqueda, ya que atentan contra la eficiencia de sus algoritmos.
• Meta refrescante: algunos propietarios de sitios crean páginas objetivo (target pages) que
automáticamente conducen a los visitantes a diferentes páginas dentro del sitio. El índice meta
refrescante es una de las formas de hacerlo. Algunos motores de búsqueda no indexarán páginas con
un rango de meta refrescantes alto, o redireccionadas.
• Texto Invisible: es la técnica de colocar texto en una página del mismo color que el fondo, haciéndolo
invisible a la vista humana.
• Texto pequeño: es una técnica que coloca texto sobre una página en un tamaño de fuente muy
pequeño. Las páginas donde predomina el texto pequeño se confunden con spam, o en su defecto no
se indexa el texto pequeño.
Tipos de Motores de Búsqueda Especializados
Los motores de búsqueda especializados se enfocan en un tipo de información y producen resultados mucho
mejores que los buscadores generales. Son muy parecidos a los índices o directorios, aunque sólo abordan
algún área concreta. Suelen ser grandes recopilaciones del conjunto de recursos sobre un tema específico. A
continuación se presentan algunos de sus temas de especialización.
BUSCADORES DE PROGRAMAS Y DATOS
Buscadores como shareware.com, filez.com y aminet.org permiten la búsqueda de programas y datos, donde
cada archivo que se encuentra en el sitio contiene una breve descripción de su función y algunas palabras
claves, con lo cual la búsqueda se hace más simple.
BUSCADORES DE MP3
Existen sitios con motores de búsqueda exclusivos para mp3 (formato de archivos de música, cuya principal
característica es su alta compresión, su tamaño varia entre los 2 y 5mb por canción), algunos de los más
3
populares son napster, audiogalaxy y lycos. La forma como operan es la siguiente: los usuarios se registran y
comparten un directorio dentro de su computadora, al cual se puede conectar cualquier otro usuario para
extraer una canción, y es el mismo donde el usuario hace sus propias descargas de música. Funciona como un
intercambio de mp3 en tiempo real de computadora a computadora, algo similar a los mensajeros instantáneos
(como ICQ o IRC ) pero de uso exclusivo al mp3. Como característica destacada, estos buscadores contienen
programas que permiten hacer descargas parciales, es decir, si la canción no se ha terminado de bajar se puede
reanudar la descarga posteriormente, a partir de donde se quedo.
Napster, a partir de la versión 7, permite crear canales de charla, por ejemplo rock nacional, tropical e
intercambiar solo en ese genero musical. Además de los distintos salones de charla e intercambio que ya tiene
por defecto.
BUSCADORES DE GENTE
Encontrar direcciones postales, números telefónicos y direcciones de correo electrónico se ha vuelto muy
simple para los motores de búsqueda especializados. Los buscadores genéricos sólo encontraran la
información si está contenida dentro de una página HTML, pero muchas de las bases de datos usan creación
dinámica de páginas, lo cual evita que sean encontradas por los crawlers.
Para buscar el correo electrónico de personas se puede utilizar Whowhere, four11 y Bigfoot. Además del
correo electrónico presentan otros datos de interés. Por su parte Switchboard tiene números de teléfono de
más de 90 millones de personas. TeleAuskunft.de permite realizar búsquedas de números telefónicos y
direcciones postales en Alemania. Infospace.com permite consultar información como números telefónicos,
direcciones postales, datos financieros (como el límite de la tarjeta de crédito), conocer si alguna persona ha
estado en la corte, licencia de manejo y nombres de los vecinos, sin embargo el servicio no está libre de
cargos. El rastreo de personas se ha vuelto más sencillo con las nuevas tecnologías, el número de seguro es
muy útil para las búsquedas en Estados Unidos, ya que permite llegar a bases de datos restringidas para las
personas que lo poseen. El sitio DigDirt busca detalles como visitas al doctor y facturas de la tarjeta de
crédito. Se puede obtener información adicional de los periódicos que ofrecen sitios en línea, donde se puede
accesar a toda la base de datos del periódico. La información que proporcionan puede ser usada para definir si
un candidato es apto para algún empleo, los comerciantes pueden verificar información del cliente antes de
enviarle los productos, etc.
BUSCADORES DE NOTICIAS Y LISTAS DE DISTRIBUCIÓN
Los sitios tile.net y dejanews son fáciles de usar y están bien organizados. InReference permite buscar en los
archivos de más de 16,000 grupos de noticias y en más de 1,000 listas de distribución. Liszt tiene registradas
más de 65,000 listas de distribución.
BUSCADORES DE LUGARES
City.Net ahora parte de excite (en la categoría de viajes) es un buen directorios para encontrar ciudades y
mapas de cualquier parte del mundo. MetroScope también ofrece información sobre ciudades. AltaVista
ofrece mapas sobre los Estados Unidos. Supermapa.com es un sitio bastante bueno para localización de calles
en México, proporciona un croquis de la sección donde se ubica esa calle, el cual puede hacerse más general
(ampliar el croquis) o enfocarse a una sección de la calle en particular.
BUSCADORES DE EDUCACIÓN
En el área de la educación se pueden visitar los sitios: Buscador del Programa de Nuevas Tecnologías
(http://www.search.pntic.mec.es/buscador/) y Education World (http://www.education−world.com/)
BUSCADORES DE SOFTWARE
Uno de los más populares es download.com, el cual presenta buenas características de clasificación hechas por
los propios usuarios, para determinar la relevancia o popularidad del software que ofrece y lo clasifica como
freeware (gratuito), shareware (lo ofrece de forma gratuita por un periodo de tiempo limitado para
4
evaluación) o demo (ofrece solo algunas de las características del programa). Además del software para PC
(computadora personal), ofrece para MAC y para Linux
Existen muchos más tipos de motores de búsqueda especializados, de hecho casi para cualquier tema.
5
Descargar