"Motores de Búsqueda" - Universidad Nacional de Luján

Anuncio
"Motores de Búsqueda"
Universidad Nacional de Luján
Delegación Pergamino
Paola Aquiles
[email protected]
Nro. Legajo: 54693
RESUMEN
Las bases de datos de los buscadores tienen una enorme cantidad de información entre
la que muy probablemente se encuentre lo que se busca. Para realizar consultas debe
utilizarse una herramienta 'motores de búsqueda' aprovechando todas sus posibilidades. Es
muy importante tener en cuenta que el buscador es un programa y por tanto hará lo que se le
dice y no lo que se le quiere decir.
Este motor de búsqueda posee tres elementos bien diferenciados; una interfaz, un robot
y una base de datos.
En Internet existen diferentes motores de búsqueda cada una de estos posee diferentes
métodos para realizar consultas y presentan diversas características. La idea principal es
conocer las posibilidades de los distintos buscadores, y establecer una comparación entre las
características de cada uno de ellos.
INTRODUCCIÓN:
El espacio Web se encuentra hoy día en constante crecimiento. La información que se haya
publicada puede variar, ya sea su ubicación y su contenido.
Para acceder al mundo Web existen herramientas llamadas 'motores de búsqueda'.
Un motor de búsqueda o mecanismo de búsqueda (search engine) es un programa que realiza
búsquedas dentro de una base de datos. Pueden entrar a un sin número de material en la Web, e
informar sobre cualquier artículo que encuentre que combine con las palabras claves que se
especificaron en la búsqueda. Cabe aclarar que uno de los problemas que se presenta en el momento
de la búsqueda es que el resultado de la misma, las páginas obtenidas, no sean las más relevantes y
que el ranking no obedezca a la realidad en término de la relevancia de la información que se
proporciona.
 Arquitectura de los Motores de Búsqueda: los motores de búsqueda están compuestos por los
siguientes elementos:
1. Interfaz: es la página Web a la que acceden los usuarios. En ella se establece el tipo de
búsqueda:
a) Formulario: se presenta una página con formularios en la que se introducen las palabras
claves de búsqueda relacionada con el tema que nos interesa, junto con la lógica a
emplear.
b) Con directorios: además de contar con formularios, estructuran la información
jerárquicamente por materias. Para encontrar la información hay que ir descendiendo por
el árbol de los temas más generales hasta los más específicos.
2. Base de datos textual: índice de palabras, frases y datos asociados con la dirección de páginas
Web (URL), programas, ficheros, etc. La información se da de alta y de baja pero siempre
dejando una referencia para que después, quien busque un tema relacionado, pueda encontrar la
dirección y un pequeño resumen de lo que contiene.
3. Robot: programa de un ordenador que está diseñado para recorrer de forma automática la
estructura hipertexto de la Web con el fin de llevar a cabo una o varias de las siguientes
funciones:
1
 Análisis estadístico: mide el crecimiento de la Web, número de servidores conectados,
etc.
 Mantenimiento de la estructura hipertextual de la World Wide Web(WWW): verificando
la corrección de los enlaces entre documentos y eliminando o guardando información de los
denominados 'enlaces muertos' (dead links), es decir, págians Web que ya han desaparecido.
 Duplicación de directorios Ftp (Mirrors): incrementando su utilidad a un número mayor
de usuario.
 Creación autmática de base de datos textuales: a partir de los documentos HTML
distribuidos por los distintos servidores.
Debido a que cada robot está programada para buscar en la Red de distinta forma, la
información almacenada en cada base de datos puede ser diferente.
 Modo de operación:
Operaciones de consulta: las consultas a los motores de búsqueda se expresan por medio
de sentencias formales dependiendo de la necesidad de información de los usuarios del
sistema. Por ejemplo una de las operaciones más común es la denominada Parsing, que
consiste en la división de la consulta en sus elementos constituyentes. Las búsquedas
booleanas deben ser divididas en sus correspondientes términos de la indización o palabra
clave y los operadores asociados a ellas para formular la expresión formal de la consulta. El
conjunto de los documentos asociados con cada término de consulta es recuperado y estos
conjuntos, son entonces, combinados de acuerdo a los operadores booleanos. La operación
denominada Reutilización, consiste en la reutilización de una búsqueda anteriormente
efectuada.

Operaciones sobre los términos: las operaciones que se llevan a cabo sobre los términos
en un motor de búsqueda conforme el conjunto:
--- Stemming: proceso de corte de las palabras, reduciéndolas normalmente a su
forma de raíz más común.
--- Truncamiento: proceso de corte de palabras pero realizado de forma manual por
el usuario en los procesos de recuperación de la información.
--- Tesauro: ofrece una lista de términos, sus términos sinónimos y las relaciones
semánticas mantenidas entre los términos del mismo.
--- Palabras vacías: la lista de palabras vacías
es una relación de término
considerada como valores no indizables. Los términos de estas listas tienen poco
significado a la hora de recuperar información, como por ejemplo el término 'la'.
--- Ponderación de términos: a éstos se le puede asignar un valor numérico basado
en su distribución estadística, o sea, en la frecuencia con la que los términos aparecen
en documentos, colecciones de documentos, etc.

Operaciones sobre documentos: los documentos son los objetos primarios en un
buscador y hay muchas operaciones para ellos. La operación común es la de ordenar los
documentos recuperados por algún campo determinado, por ejemplo el campo autor.

 Vista funcional del paradigma de un motor de búsqueda: gráfico demostrativo.
2
DOCUMENTOS
Cortes en
palabras
Palabras
vacias
Identificador
Ponderación
Stemming
BASE
DE
DATOS
Stemming
Operaciones
booleanas
Búsqueda
ranking
INTERFAZ
Juicios de
relevancia
USUARIO
3
*** Explicación del gráfico anterior desde el punto de vista del documento que
se introduce:
1. A cada documento que entra se le asigna un identificador.
2. Se identifican las palabras contenidas en el documento.
3. Se excluyen las palabras vacías.
4. Se 'cortan' las palabras, es decir, se extraen las raíces de las palabras.
5. Se establece un peso de ponderación para cada raíz.
6. Finalmente las raíces debidamente ponderadas se introducen en la base de datos.
*** Explicación del gráfico anterior desde el punto de vista del usuario en el
momento de la búsqueda:
1. El usuario en función de sus necesidades y conveniencias lleva a cabo una serie de juicios
de relevancia para confeccionar su ecuación de búsqueda, ayudándose de las prestaciones
que le proporciona el Interfaz de búsqueda.
2. La ecuación de búsqueda una vez introducida, se descompone en sus partes
fundamentales.
3. Los términos clave empleados en la ecuación de búsqueda son 'cortados' para extraer de
ellos sus raíces y de esta forma proceder a su localización en la base de datos.
4. Una vez localizados los distintos subconjuntos de documentos asociados a los términos
clave, se llevan a cabo las operaciones booleanas pertinentes, que han sido introducidas
por el usuario en la ecuación de búsqueda.
5. Posteriormente los documentos pueden alinearse para su presentación según un ranking
determinado.
Como se describió anteriormente el crecimiento del volumen de información disponible en
Internet es muy rápido, por este motivo es necesario mejorar los mecanismos de búsqueda y
aprovechar todo lo que ofrece Internet. Para ello es necesario conocer como operan cada buscador
como herramienta básica y los métodos que utilizan para realizar la búsqueda y de esta manera se
logrará elegir el método de búsqueda adecuado para cada caso.
---
 Características de distintos motores de búsqueda:
Motor de Búsqueda: 'GOOGLE' (WWW.GOOGLE.COM)
Es un motor de búsqueda desarrollado en la Universidad de Stanford en California, creado
para utilizar de forma eficiente el espacio de almacenamiento, por esto su objetivo principal es
mejorar los índices de precisión en la recuperación de la información y mejorar la presentación de
los documentos encontrados en una búsqueda para conseguir que los primeros sean los que
verdaderamente contienen información relevante.
4
Características del Google: posee dos características importantes. La primera está
relacionada con (PageRank) de todas las páginas disponibles en la Web se calcula el grado de
calidad de la información de cada página.
La segunda característica se basa en el aprovechamiento del cálculo efectuado para mejorar
los resultados de la búsqueda.
El cálculo para obtener el PageRank de una página 'X' se resuelve con la siguiente expresión:
PR(X) = (1-d) + d(PR(T1) / c(T1)+ .... + PR(Tn) / c(Tn))
X: página en la Web.
T1...Tn: página a que apunta a la página 'X' por medio de enlaces.
Parámetro d: es un factor que se puede establecer entre 0 y 1.
C(X): número de enlace que sale de la página 'X'.
El coeficiente de PageRank de la página 'X' es muy elevado si muchas páginas apuntan a X o
si a 'X' apuntan pocas páginas pero estas poseen muchos enlaces.
Arquitectura de Google:
URLServer
Agentes
Indexador
Servidor de
almacenamiento
Repositor
Fichero
De
Enlace
URLresolver
Doc
Index
Searcher
En Google el análisis de las páginas Web se realiza por diferentes procesos. Hay un
URLServer que envía la lista de direcciones URLs a los agentes, estos analizan las listas y las
envían al Servidor de Almacenamiento que es el que comprime y almacena las páginas Web. Cada
una de estas páginas van a poseer un identificador numérico llamado 'DocId'. El Indexador lee las
páginas Web que se encuentran en el Repositor, descomprime los documentos y eligen los términos
5
incluidos en estos. El Indexador almacena una información muy importante de los enlaces de cada
página Web en el 'Fichero De Enlace'.
El componente URLresolver lee el fichero y convierte las URLs relativas en direcciones
absolutas. De esta manera se crea una base de datos de pares de DOCsIds, esta base es utilizada por
el PageRank para calcular las páginas que apuntan a esa página.
Búsqueda de información en GOOGLE:
1. Se descompone la pregunta.
2. Se convierten las palabras en identificadores de palabras.
3. Se localiza la posición de cada palabra en el barril Repositor.
4. Se busca en la lista de documentos hasta encontrar un documento que contenga los
términos de la búsqueda.
5. Se calcula el rango de este documento para esa pregunta.
6. Una vez finalizado el proceso se repiten los pasos 4 y 5 para cada palabra en la búsqueda.
7. Se ordena de mayor a menor los rangos y se presenta al usuario.
Motor de Búsqueda: 'ALTAVISTA' (WWW.ALTAVISTA.COM)
Este buscador está disponible desde Diciembre de 1995, desarrollado por Digital. El objetivo
es crear una base de datos completa de Internet combinando un rápido robot que husmea 3 millones
de páginas por día con un potente programa de indexación.
Altavista rastrea la Web, añade sus direcciones y las asocia a las palabras claves que aparecen
en la cabecera. Da de alta la dirección para que el robot actúe sobre ella.
--Se pueden realizar búsquedas simples o avanzadas.


Búsquedas simples: si se aprovecha al máximo esta opción no será necesario usar la
búsqueda avanzada. Hay diversas maneras de realizar una búsqueda, dentro de estas se pueden
mencionar los siguientes puntos:
*** al ingresar una palabra escrita toda en minúscula, Altavista buscará en los documentos tanto
minúscula como mayúscula.
*** al ingresar una palabra escrita en mayúscula, Altavista buscará solamente la palabra que
coincida exactamente con la ingresada.
*** se pueden realizar búsquedas por medio de la introducción de frases, separando las palabras que
la forman con un espacio.
*** también se puede realizar búsqueda utilizando frases separadas por signos: '+', '-' y 'x'.
En cuanto a la presentación en las respuestas, Altavista posee un 80% de precisión.
Motor de Búsqueda: 'INFOSEEK'
(WWW.INFOSEEK.COM)
Este buscador fue lanzado en el año 1995, creado por la empresa The Infoseek Corp.
6
Posee un método de recopilación de página por medio de un robot. Este buscador se financia
por medio de las propagandas que se introducen en sus páginas.
Tiene dos tipos de búsqueda: el Infoseek y el Infoseek Ultra.
La indexación de página en este buscador se realiza mediante todo el texto.

 Método de Indexación y puntuación de los resultados (score)
*** Número de veces que la palabra o frase aparece en el documento.
*** Las frases provocan una puntuación mayor que las palabras sueltas.
Para realizar las consultas de palabras se puede utilizar signos '+', '- '. En el caso del signo '+'
delante de una palabra se obliga su presencia y con el signo '-' se obliga su ausencia. Este buscador
distingue mayúscula de minúscula en la búsqueda y así realza una búsqueda exacta. Las
operaciones de búsqueda avanzadas son muy potentes y completas. Se puede preguntar sobre
cuestiones específicas sobre imágenes, sitios, enlaces, URLs e índices.
Infoseek brinda otra alternativa como es: página de noticias, donde se puede observar un
calendario de los sucesos mas importantes de la Red, una base de datos interrogable de compañías
norteamericanas y mapas a los que al suministrar el nombre de la calle y el estado nos devuelve un
mapa de la zona.
Motor de Búsqueda: 'LYCOS'
(WWW.LYCOS.COM)
Es un buscador que consta de un robot que explora el WWW, indexa las páginas y actualiza la
base de datos.
La base de datos es interrogada por el motor de búsqueda. El tamaño de la base de datos es
difícil de comparar. En este buscador se contabiliza como nuevas referencias todos los enlaces de
cada página que indexa, aunque estos nuevos enlaces no los explora. Cuando se da de alta una
nueva referencia tarde en incluirse en la base de datos unas 4 a 6 semanas aproximadamente.

 Método de Indexación y puntuación de los resultados (score)
Este buscador crea un índice con el título, cabecera del documento, de las 100 palabras más
utilizadas en el documento y las primeras 20 líneas.
Método para mostrar el resultado de la búsqueda:
*** Número de veces que la palabra aparece en el documento.
*** En que campos aparece (título, cabecera o texto).
*** Número de veces que este documento está referenciado en otros.
Lycos asocia una puntuación de 1 a 1000 a las páginas respetando los criterios anteriores. En
la lista de resultados cada página tiene asociada esta puntuación.
Lycos nos permite personalizar demasiado la búsqueda. Las posibilidades que ofrece son:
*** Utilizar el signo '-' delante de una palabra para obligar a que esta se encuentre ausente en
la búsqueda.
*** Un punto inmediatamente detrás de una palabra, buscará la coincidencia exacta.
*** El símbolo $ (pesos) se puede utilizar como comodín, por ejemplo: Pla$: buscará Placa,
Placard, Plaqueta, etc.
7
Nota: no incluye la búsqueda por frase literal. Posee 10 categorías especiales, desde donde se
accede a Top News (las últimas noticias generales), guía de las ciudades más importantes de los
EE.UU, búsqueda de información por empresa.
Motor de Búsqueda: 'YAHOO'
(WWW.YAHOO.COM)
Es un índice jerárquico de la Internet, con el que se puede navegar o realizar búsquedas.
Este buscador fue creado por dos estudiantes predoctorales de la Universidad de Stanford, en
el año 1994.
Posee un total de 14 grandes categorías que a su vez se dividen en una multitud de
subcategorías.

 Para dar de alta una URL el proceso es el siguiente: es necesario desplazarse por el índice
hasta encontrar la categoría donde se desea incluirla y pulsar en el gráfico 'ADD URL'. Se
completa un cuestionario para que luego un robot verifique la existencia del Web y luego de
una semana aproximadamente se da de alta.

 Método de Indexación y puntuación de los resultados (score)
El indexado se realiza manualmente. El usuario solicita que desea incluir una página y como
se explicó anteriormente propone en que directorio desea incluirla.
Los resultados de la búsqueda no se expresan siguiendo una puntuación, sino que se presenta
respecto al orden en que se encuentra en el directorio.
Búsquedas: en este buscador se realizan las búsquedas dentro de categorías "títulos" y
descripción de las páginas listadas. En este caso el título no coincide con el título de la página que
utilizan los robots.
Los resultados de la búsqueda contienen 3 tipos de información:
*** Categorías en Yahoo! que cumplen con el criterio de la búsqueda.
*** Servidores o páginas que cumplen el criterio.
*** Categorías de Yahoo! donde estas páginas están listadas.
REFERENCIAS:

 Sitio de Internet: WWW.INATEC-EDU-NI.HTM

 Sitio de Internet: WWW.UCHILE-CL.HTM

 Sitio de Internet: WWW.VOILA-COM.HTM

 Sitio de Internet: WWW.WEBTEACHER-ORG.HTM

 Sitio de Internet: WWW.QUADERNSDIGITALS.NET
8

 Sitio de Internet: WWW.CYBERCURSOS.NET
9
Descargar