Herramientas Informáticas para la Documentación Práctica 5

Anuncio
Herramientas Informáticas para la Documentación
Práctica 5. Búsqueda por palabra clave (Altavista)
Introducción y objetivos
La enorme expansión del servicio web en Internet hace que lo difícil no sea tanto
encontrar información como saber ser selectivo al buscarla. Cada día es más
importante la información sobre cómo se organiza y busca otra información.
Podemos clasificar las distintas herramientas de búsqueda de páginas web en
función de diversos criterios. En función de cómo se almacena la información en el
buscador y cómo se presentan los resultados al usuario, podemos diferenciar entre
motores de búsqueda y catálogos. En los primeros toda las páginas se almacenan a
un mismo nivel y se presentan al usuario como una lista uniforme. En el caso de los
catálogos las páginas se clasifican en un árbol de categorías en función de su
contenido y los resultados se presentan diferenciando las categorías a las que
pertenecen las distintas páginas encontradas.
En esta práctica estudiaremos cómo utilizar los motores de búsqueda mediante
el método de búsqueda por palabra clave. Así pues, los objetivos básicos de la misma
serán los siguientes:
• Aprender a buscar en la red por palabra clave.
• Aprender a utilizar criterios de búsqueda simples y avanzados, incluyendo
expresiones boolenas.
• Aprender la sintaxis de búsqueda de algún motor en particular.
Motores de búsqueda
El tipo de búsqueda efectuado más habitualmente por los internautas es, sin duda, la
búsqueda mediante la introducción de palabras clave. En este sentido, existen cada
vez más herramientas que nos permiten utilizar este método. Su principio es simple:
el buscador crea previamente un índice con un cierto número de páginas web de todo
el planeta o restringido a alguna zona, tema o idioma concreto. La creación de este
índice se suele efectuar por el texto completo, y todas las palabras de todas las
páginas referenciadas se convierten en entradas del índice, para ser potenciales
objetos de búsqueda.
El usuario introduce en el formulario del buscador una o más palabras clave,
enlazadas entre sí mediante operadores booleanos u otros símbolos especiales, y el
motor busca las ocurrencias de estas palabras en las páginas fuente almacenadas. Se
establece, a continuación, una clasificación de las páginas más relevantes sobre tema
buscado y se presenta finalmente una lista de enlaces hacia dichas páginas.
Existe un gran número de buscadores por palabras clave, el más conocido de
los cuales es sin duda Altavista (www.altavista.com). Un problema que puede
plantear el uso de este buscador es que todo su contenido se encuentra en inglés, por
Práctica 5. Motores de búsqueda (Altavista)
lo que no lo utilizaremos en esta práctica. Afortunadamente, podemos acceder a una
versión de este buscador en castellano denominada Altavista España (eses.altavista.com).
En la parte superior de la ventana podemos ver que el buscador contiene
diversos paneles que nos permiten realizar distintos tipos de búsquedas. Así, los dos
primeros, Principal y Búsqueda avanzada, nos permiten realizar búsquedas
mediante palabra clave utilizando una sintaxis más o menos compleja. Los tres
siguientes, Imágenes, MP3/Audio y Clips de vídeo, nos permiten buscar distintos
tipos de documentos gráficos y de sonido. El panel Herramientas de búsqueda
permite entre otras cosas personalizar la presentación de los resultados o traducir el
contenido de las páginas. Finalmente, el panel Directorio web, nos permite acceder
a los contenidos de Altavista por categorías utilizando un catálogo asociado. En esta
práctica nos centraremos en aprender a utilizar los mecanismos de búsqueda
proporcionados por los dos primeros paneles.
Como hemos comentado, Altavista nos ofrece dos modos de búsqueda. Con la
búsqueda principal o simple, que se utiliza por defecto, podremos realizar la mayoría
de nuestras peticiones. Sin embargo, si queremos establecer requisitos más
complejos que deban cumplir las páginas encontradas, podemos utilizar ciertos
mecanismos de selección adicionales accediendo al modo de búsqueda avanzada.
-2-
Práctica 5. Motores de búsqueda (Altavista)
Búsqueda principal o simple
El formulario que utilizaremos para realizar las búsquedas es la siguiente zona de su
página principal:
En el recuadro Buscar esto: escribiremos nuestro criterio de búsqueda, que
podrá ser una o varias palabras con algunos símbolos especiales que nos permiten
restringir los resultados encontrados. Una vez escrito el criterio de búsqueda,
pulsaremos el botón Buscar o la tecla Enter.
En primera instancia podemos restringir el ámbito de búsqueda de dos formas.
En primer lugar, utilizando el menú desplegable de la parte derecha, podemos elegir
el idioma de las páginas a encontrar. Por defecto, se buscan páginas en cualquier
idioma. En segundo lugar, utilizando las dos opciones de Resultados de la
búsqueda, podemos restringir la misma a páginas en España o permitir una
búsqueda en toda la web.
Podemos distinguir tres zonas en los resultados obtenidos con las búsquedas.
En primer lugar (ver siguiente figura) vemos una zona en la que se nos indica el
número de páginas encontradas (En este caso 1.695). Además se nos permite repetir
la búsqueda A nivel mundial, ya que la habíamos restringido a páginas en España,
Asimismo, pulsando los enlaces correspondientes podemos buscar Imágenes,
ficheros de sonido y de vídeo utilizando el mismo criterio de búsqueda. Realmente
Altavista ha realizado ya la búsqueda en todas las categorías citadas, pero nos
permite elegir en cada momento qué resultados queremos visualizar.
El enlace Directorio web nos permite acceder a las páginas relacionadas con el
criterio de búsqueda elegido que han sido incluidas en alguna de las categorías del
catálogo de Altavista.
En una segunda zona, los resultados de la búsqueda se presentan como una
lista con las primeras páginas encontradas. Altavista utiliza un sofisticado criterio de
ordenación para presentar en primer lugar las páginas más relevantes con respecto al
criterio de búsqueda utilizado. Por ejemplo, se presentarán en primer lugar las
páginas en las que la palabra o palabras buscadas aparezcan en el título de la página.
Cada elemento de la lista contiene en primer lugar un enlace con el título de la
página, a continuación una breve descripción de su contenido y la dirección de la
misma.
-3-
Práctica 5. Motores de búsqueda (Altavista)
El enlace Más páginas de este sitio asociado a cada elemento de la lista, nos
permite acceder a diversas páginas relacionadas situadas en el mismo servidor. Por
ejemplo, la segunda de las páginas de la lista se encuentra en la dirección
www.ciudadfutura.net/asimov/ y corresponde a la página asimovii.htm. Si utilizamos
el enlace comentado, se listarán otra página con la misma dirección inicial, pero
denominada curioso.htm.
En la parte inferior de la lista aparecen una serie de números de la forma:
que nos permiten acceder a los siguientes grupos de diez páginas encontradas. En
total es posible acceder a las primeras 200 páginas encontradas. Se supone que, dado
el criterio de ordenación por relevancia utilizado por Altavista, estas primeras 200
páginas son las “más relacionadas” con el tema buscado y normalmente no será
necesario acceder a un número mayor. De todas formas, si las páginas encontradas
no son satisfactorias, lo mejor es utilizar un criterio de búsqueda más ajustado que
permita encontrar un número de páginas más reducido y más acorde con el tema
buscado. En los siguientes apartados veremos cómo lograr esto.
-4-
Práctica 5. Motores de búsqueda (Altavista)
◊
Ejercicios
1.
Añadir a tu página web dos enlaces, uno a Altavista (www.altavista.com) y otro a
Altavista España (es-es.altavista.com). Publicar la nueva versión de la página y
comprobar el funcionamiento de los nuevos enlaces.
2.
Encontrar todas las páginas en las que aparezca Asimov. Realizar la búsqueda
en España y a nivel mundial y comparar el número de páginas encontradas.
Acceder a la primera de ellas en cada caso.
3.
Encontrar todas las páginas en las que aparezca Heinlein. Realizar la búsqueda
en inglés y a continuación buscar más páginas relacionadas con el primer sitio
encontrado y observar las direcciones listadas como resultado.
4.
Encontrar todas las páginas en las que aparezca Brin. Realizar la búsqueda a
nivel mundial y buscar otras palabras relacionadas utilizando el enlace
correspondiente que aparece justo encima de la lista de páginas encontradas.
Como hemos podido comprobar en los ejercicios anteriores, el número de
páginas encontradas utilizando una sola palabra puede ser enorme, sobre todo si
realizamos la búsqueda en cualquier idioma y a nivel mundial. Además, muchas de
las páginas pueden contener la palabra buscada pero no referida al tema que nos
interesa.
Idioma
Una de las formas de restringir el criterio de búsqueda es pedir a Altavista que tan
sólo encuentre las páginas cuyo contenido se encuentre en un idioma dado. Para
elegir el idioma deseado utilizaremos el menú desplegable incorporado en el
formulario.
◊
Ejercicios
5.
Repetir las búsquedas de los ejercicios 2 y 4 restringiendo la búsqueda primero a
las páginas en español, después en inglés y finalmente en chino. Entrar a la
primera de las páginas encontradas en cada caso.
Mayúsculas y minúsculas
Si escribimos una palabra en minúsculas, Altavista encontrará tanto las páginas que
la contengan en minúsculas como aquellas que contengan cualquiera de sus letras en
mayúsculas.
Por ejemplo, si buscamos asimov, encontrará las páginas que contengan
asimov, Asimov, ASIMOV, e incluso aSimOv.
Sin embargo, si escribimos una palabra utilizando mayúsculas, Altavista
encontrará las páginas que la contengan exactamente igual a como la hemos escrito.
-5-
Práctica 5. Motores de búsqueda (Altavista)
◊
Ejercicios
6.
Buscar las páginas que contengan asimov sin importar las mayúsculas ni
minúsculas.
7.
Buscar las páginas que contengan asimov, Asimov, ASIMOV y aSimOv.
Acentos y caracteres especiales
En la palabra o palabras buscadas podemos utilizar acentos u otros caracteres
especiales, como ñ, ç, ü, etc. Si al realizar una búsqueda no utilizamos acentos,
Altavista encontrará tanto las páginas que contengan la palabra acentuada como sin
acentuar.
Por ejemplo, si buscamos informatica, encontrará las páginas que contengan
informatica e informática.
Si escribimos una palabra acentuada, Altavista encontrará tan sólo las páginas
que la contengan con el acento.
◊
Ejercicios
8.
Buscar las páginas que contengan fundación con y sin acento.
9.
Buscar las páginas que contengan valencia y las que contengan valència. Probar
con valéncia y valencía.
Comodines
Imaginemos que queremos encontrar las páginas con palabras que empiecen por
super, como supermercado, superación o Superman. Podríamos intentar escribir una
lista con todas ellas, pero sería interminable. Para solucionarlo utilizaremos el
carácter comodín '*' (asterisco). Por ejemplo, si utilizamos: super* encontrará todas
las palabras que comiencen por super, mientras que si utilizamos huma*, encontrará
páginas que contengan humano, humanidades, humanismo, ...
En definitiva, el carácter comodín, tal y como su nombre indica, equivale a
cualquier sucesión de cero o más caracteres que aparezcan en su misma posición.
◊
Ejercicios
10. Buscar todas las páginas que contengan la palabra robótica.
11. Buscar todas las páginas que contengan las palabras robot o robótica.
Búsquedas con varias palabras
Si utilizamos varias palabras como criterio de búsqueda y las separamos mediante
espacios en blanco, Altavista encontrará todas las páginas que contengan al menos
una de ellas, lo que incrementará aun más los resultados mostrados.
-6-
Práctica 5. Motores de búsqueda (Altavista)
◊
Ejercicios
12. Encontrar todas las páginas en las que aparezca Heinlein, después aquellas en
las que aparezcan Heinlein o Bujold y finalmente aquellas en las que aparezcan
Heinlein, Bujold o Clarke. Comprobar el incremento de las páginas encontradas
con cada una de las búsquedas.
Frases exactas
Si queremos encontrar una página en la que aparezca una frase exactamente como la
escribimos, incluyendo las mayúscula y los acentos, debemos escribirla entre
comillas dobles.
Por ejemplo: para encontrar El juego de Ender escrito exactamente de esa
forma, debemos escribir "El juego de Ender".
◊
Ejercicios
13. Utilizar como criterio de búsqueda las palabras El juego de Ender sin
entrecomillar. Observar si las primeras páginas encontradas contienen todas las
palabras buscadas. Si es así, ¿Por qué crees que ocurre esto?
14. Buscar todas las páginas en las que aparezca El juego de Ender como frase
exacta. Comparar el número de páginas encontradas con las del ejercicio
anterior.
15. Buscar todas las páginas en las que aparezcan exactamente alguno de los
siguientes títulos: La voz de los muertos, Ender el xenocida e Hijos de la mente.
Términos requeridos
Supongamos que queremos encontrar páginas en las que aparezcan Brin, Bear o
Benford, pero en las que además aparezca necesariamente Asimov. Para ello
colocaremos el signo + justo delante de la palabra o palabras requeridas (sin espacios
en blanco intermedios).
Brin Bear Benford +Asimov
◊
Ejercicios
16. Buscar todas las páginas en las que aparezca Fundación o Robot
17. Buscar todas las páginas en las que aparezca cualquiera de las palabras del
ejercicio anterior, pero además aparezca Asimov.
-7-
Práctica 5. Motores de búsqueda (Altavista)
Términos excluidos
Ahora supongamos que queremos encontrar información sobre las páginas que
contengan la palabra Fundación, pero no la palabra Asimov. Para ello colocaremos el
signo - justo delante de la palabra o palabras excluidas (sin espacios en blanco
intermedios).
Fundación -Asimov
◊
Ejercicios
18. Buscar todas las páginas en las que aparezca Fundación o Robot, pero no
Asimov.
19. Buscar todas las páginas en las que aparezca el término Fundación junto con
ciencia y ficción, pero no aparezca Asimov.
Búsquedas avanzadas
Si elegimos el panel Búsqueda avanzada accederemos a un formulario de búsqueda
con un mayor número de opciones que nos permitirán restringir mejor los resultados
obtenidos.
El modo de búsqueda avanzada nos permite establecer criterios de búsqueda
más complejos utilizando expresiones booleanas, restringiendo las páginas
encontradas a una rango de tiempo o limitando las búsquedas a un determinado sitio
(host o URL).
Las expresiones booleanas reúnen uno o más términos mediante operadores
booleanos. En el caso de Altavista estos operadores son AND, OR, NOT y NEAR.
Las expresiones deben escribirse en la ventana Consulta: del formulario,
mientras el recuadro Ordenar por: nos permite definir un criterio para ordenar las
páginas resultantes.
-8-
Práctica 5. Motores de búsqueda (Altavista)
La sintaxis a utilizar y la forma en que se presentan los resultados en la
búsqueda avanzada es distinta a la utilizada en la búsqueda principal o simple. Así, el
criterio principal de búsqueda a utilizar se incluye en la ventana Consulta: utilizando
expresiones boolenas. Sin embargo, en esta ventana no se aplica el uso especial de
los símbolos + o – que hemos comentado con la búsqueda simple. Para lograr el
mismo resultado es necesario utilizar adecuadamente los operadores booleanos.
Además, no es necesario utilizar las comillas dobles para indicar una combinación de
palabras, sino que basta separarlas mediante espacios en blanco.
Por otro lado, en la búsqueda avanzada los resultados no se ordenan de modo
automático siguiendo un criterio de relevancia definido por Altavista, sino que es
necesario indicar explícitamente el criterio de ordenación utilizando el recuadro
Ordenar por:
Por ejemplo, si utilizamos el siguiente criterio de búsqueda
se encontrarán páginas que contengan las palabras isaac y asimov al mismo tiempo.
Además, aparecerán en primer lugar las páginas que contengan las palabras
fundación o robot. De hecho, presentará en primer lugar las páginas que contengan
fundación y robot al mismo tiempo y después las que contengan alguno de ellos.
El criterio de ordenación es una sucesión de palabras o frases entrecomilladas
separadas por espacios en blanco. En este recuadro no tiene ningún efecto adicional
el uso de los símbolos +, - o de los operadores booleanos.
El operador AND
El operador AND permite localizar páginas que contengan varios términos a la vez.
Por ejemplo, si queremos encontrar páginas que contengan los términos Vor y
Bujold, utilizaremos la expresión Vor AND Bujold.
En las páginas encontradas los términos no tienen porqué aparecer
consecutivos ni en el mismo orden.
El operador OR
El operador OR permite localizar páginas que contengan al menos una ocurrencia de
los términos enlazados
Por ejemplo, si queremos encontrar páginas en las que aparezcan los términos
Barrayar o Cetaganda utilizaremos la expresión Barrayar OR Cetaganda.
El siguiente ejemplo nos permitirá además establecer un criterio de ordenación
de resultados. Si queremos encontrar las páginas en las que aparezcan los títulos de
los libros Barrayar o Cetaganda y además queremos que aparezcan primero las que
-9-
Práctica 5. Motores de búsqueda (Altavista)
contengan el nombre de su autora Lois McMaster Bujold, escribiremos Barrayar OR
Cetaganda en el recuadro Consulta y "Lois McMaster Bujold" en Ordenar por.
◊
Ejercicios
20. Buscar todas las páginas en las que aparezcan las palabras cartero o postman.
Utilizar tanto la búsqueda principal como la avanzada y comparar el número y
orden de las páginas encontradas.
21. Buscar todas las páginas en las que aparezcan las dos palabras anteriores y
además se ordenen en función del escritor David Brin. Comprobar que en las
primeras dos páginas encontradas aparecen todos los términos buscados. Para
ello, una vez abierta la página correspondiente, puede utilizarse la opción
Edición|Buscar en la página del navegador.
22. Buscar todas las páginas en las que aparezca la palabra cartero y el nombre
Pablo Neruda. Realizar la misma búsqueda haciendo que aparezcan primero las
que contengan el nombre. Comprobar si cambia el orden en que aparecen los
resultados al eliminar el criterio de ordenación.
El operador NOT
El operador NOT permite localizar páginas que no contengan un término
especificado.
Por ejemplo, si queremos encontrar páginas relacionadas con Arthur C. Clarke,
pero en las que no aparezca el término odisea, usaremos la expresión "Arthur C.
Clarke" AND NOT odisea.
◊
Ejercicios
23. Buscar todas las páginas en las que aparezca Tolkien y no aparezca Hobbit.
Repetir la búsqueda forzando a que aparezcan en primer lugar las páginas
conteniendo la palabra Silmarillion. Comprobar si cambia el orden y número de
páginas encontradas.
El operador NEAR
El operador NEAR permite localizar páginas en las que aparezcan varios términos a
la vez y en la que éstos se encuentren próximos entre sí (separados por menos de 10
palabras). De esta forma es probable que la página se refiera a la relación entre
ambos términos y no a los mismos por separado.
Por ejemplo: si queremos encontrar las páginas en las que aparezcan próximos
el nombre de Connie Willis y de su libro Remake, usaremos la expresión "Connie
Willis" NEAR Remake.
- 10 -
Práctica 5. Motores de búsqueda (Altavista)
◊
Ejercicios
24. Buscar las páginas que contengan referencias al libro Neuromante y a su autor
William Gibson aunque no necesariamente estén próximas entre sí. Después
buscar los mismos términos pero forzando a que estén próximos entre sí.
25. Repetir la última búsqueda anterior haciendo que aparezcan primero las páginas
con el nombre del autor.
26. Entrar en la Ayuda del buscador y averiguar cómo utilizar el resto de restricciones
de búsqueda avanzada del formulario. Realizar algunas búsquedas restringiendo
la fecha de las páginas encontradas y el sitio en el que se encuentran.
27. Entrar en el buscador Google (www.google.com/intl/es/) y realizar algunas
búsquedas. Averiguar en la ayuda proporcionada por la aplicación si el buscador
distingue mayúsculas de minúsculas y si admite expresiones booleanas.
Comprobar el efecto de pulsar el botón Voy a Tener Suerte.
28. Entrar en la versión en inglés de Altavista (www.altavista.com) y realizar alguna
búsqueda. Comparar si se obtienen más o menos resultados que con la versión
Altavista España.
Búsqueda en campos o atributos
Normalmente los motores de búsqueda como Altavista restringen por defecto las
búsquedas mediante palabra clave al texto contenido en las páginas web. No
obstante, algunos de ellos permiten definir condiciones de búsqueda que permiten
encontrar palabras o frases en determinados campos de la página, tales como el
título, la dirección web (URL) o los enlaces, entre otros.
En el caso del buscador Altavista, podemos realizar este tipo de búsquedas
mediante lo que se denominan “funciones especiales de búsqueda”. Se trata de
palabras especiales en inglés que pueden añadirse a la condición de búsqueda para
restringir la ubicación de las palabras o frases buscadas.
Por ejemplo, la palabra domain: permite restringir las páginas encontradas a
un determinado dominio (p.e. es, uk, com, edu, …). Por ejemplo, si añadimos al
criterio de búsqueda domain:edu, se encontrarán tan sólo páginas en el dominio edu.
◊
Ejercicios
29. Buscar en la ayuda de Altavista España información sobre las funciones
especiales de búsqueda disponibles.
30. Buscar páginas que hablen de Alfred Bester y que se encuentren en el dominio
es. Repetir la búsqueda con los dominios edu y uk.
31. Buscar páginas que contengan en el título el nombre Ursula K. Leguin, que
hablen de la novela the dispossessed y que se encuentren en el dominio com.
32. Buscar páginas que tengan alguna imagen en un fichero con el texto Bradbury y
que hablen del libro martian chronicles. Encontrar la imagen en la página.
- 11 -
Descargar