Herramientas Informáticas para la Documentación Práctica 5. Búsqueda por palabra clave (Altavista) Introducción y objetivos La enorme expansión del servicio web en Internet hace que lo difícil no sea tanto encontrar información como saber ser selectivo al buscarla. Cada día es más importante la información sobre cómo se organiza y busca otra información. Podemos clasificar las distintas herramientas de búsqueda de páginas web en función de diversos criterios. En función de cómo se almacena la información en el buscador y cómo se presentan los resultados al usuario, podemos diferenciar entre motores de búsqueda y catálogos. En los primeros toda las páginas se almacenan a un mismo nivel y se presentan al usuario como una lista uniforme. En el caso de los catálogos las páginas se clasifican en un árbol de categorías en función de su contenido y los resultados se presentan diferenciando las categorías a las que pertenecen las distintas páginas encontradas. En esta práctica estudiaremos cómo utilizar los motores de búsqueda mediante el método de búsqueda por palabra clave. Así pues, los objetivos básicos de la misma serán los siguientes: • Aprender a buscar en la red por palabra clave. • Aprender a utilizar criterios de búsqueda simples y avanzados, incluyendo expresiones boolenas. • Aprender la sintaxis de búsqueda de algún motor en particular. Motores de búsqueda El tipo de búsqueda efectuado más habitualmente por los internautas es, sin duda, la búsqueda mediante la introducción de palabras clave. En este sentido, existen cada vez más herramientas que nos permiten utilizar este método. Su principio es simple: el buscador crea previamente un índice con un cierto número de páginas web de todo el planeta o restringido a alguna zona, tema o idioma concreto. La creación de este índice se suele efectuar por el texto completo, y todas las palabras de todas las páginas referenciadas se convierten en entradas del índice, para ser potenciales objetos de búsqueda. El usuario introduce en el formulario del buscador una o más palabras clave, enlazadas entre sí mediante operadores booleanos u otros símbolos especiales, y el motor busca las ocurrencias de estas palabras en las páginas fuente almacenadas. Se establece, a continuación, una clasificación de las páginas más relevantes sobre tema buscado y se presenta finalmente una lista de enlaces hacia dichas páginas. Existe un gran número de buscadores por palabras clave, el más conocido de los cuales es sin duda Altavista (www.altavista.com). Un problema que puede plantear el uso de este buscador es que todo su contenido se encuentra en inglés, por Práctica 5. Motores de búsqueda (Altavista) lo que no lo utilizaremos en esta práctica. Afortunadamente, podemos acceder a una versión de este buscador en castellano denominada Altavista España (eses.altavista.com). En la parte superior de la ventana podemos ver que el buscador contiene diversos paneles que nos permiten realizar distintos tipos de búsquedas. Así, los dos primeros, Principal y Búsqueda avanzada, nos permiten realizar búsquedas mediante palabra clave utilizando una sintaxis más o menos compleja. Los tres siguientes, Imágenes, MP3/Audio y Clips de vídeo, nos permiten buscar distintos tipos de documentos gráficos y de sonido. El panel Herramientas de búsqueda permite entre otras cosas personalizar la presentación de los resultados o traducir el contenido de las páginas. Finalmente, el panel Directorio web, nos permite acceder a los contenidos de Altavista por categorías utilizando un catálogo asociado. En esta práctica nos centraremos en aprender a utilizar los mecanismos de búsqueda proporcionados por los dos primeros paneles. Como hemos comentado, Altavista nos ofrece dos modos de búsqueda. Con la búsqueda principal o simple, que se utiliza por defecto, podremos realizar la mayoría de nuestras peticiones. Sin embargo, si queremos establecer requisitos más complejos que deban cumplir las páginas encontradas, podemos utilizar ciertos mecanismos de selección adicionales accediendo al modo de búsqueda avanzada. -2- Práctica 5. Motores de búsqueda (Altavista) Búsqueda principal o simple El formulario que utilizaremos para realizar las búsquedas es la siguiente zona de su página principal: En el recuadro Buscar esto: escribiremos nuestro criterio de búsqueda, que podrá ser una o varias palabras con algunos símbolos especiales que nos permiten restringir los resultados encontrados. Una vez escrito el criterio de búsqueda, pulsaremos el botón Buscar o la tecla Enter. En primera instancia podemos restringir el ámbito de búsqueda de dos formas. En primer lugar, utilizando el menú desplegable de la parte derecha, podemos elegir el idioma de las páginas a encontrar. Por defecto, se buscan páginas en cualquier idioma. En segundo lugar, utilizando las dos opciones de Resultados de la búsqueda, podemos restringir la misma a páginas en España o permitir una búsqueda en toda la web. Podemos distinguir tres zonas en los resultados obtenidos con las búsquedas. En primer lugar (ver siguiente figura) vemos una zona en la que se nos indica el número de páginas encontradas (En este caso 1.695). Además se nos permite repetir la búsqueda A nivel mundial, ya que la habíamos restringido a páginas en España, Asimismo, pulsando los enlaces correspondientes podemos buscar Imágenes, ficheros de sonido y de vídeo utilizando el mismo criterio de búsqueda. Realmente Altavista ha realizado ya la búsqueda en todas las categorías citadas, pero nos permite elegir en cada momento qué resultados queremos visualizar. El enlace Directorio web nos permite acceder a las páginas relacionadas con el criterio de búsqueda elegido que han sido incluidas en alguna de las categorías del catálogo de Altavista. En una segunda zona, los resultados de la búsqueda se presentan como una lista con las primeras páginas encontradas. Altavista utiliza un sofisticado criterio de ordenación para presentar en primer lugar las páginas más relevantes con respecto al criterio de búsqueda utilizado. Por ejemplo, se presentarán en primer lugar las páginas en las que la palabra o palabras buscadas aparezcan en el título de la página. Cada elemento de la lista contiene en primer lugar un enlace con el título de la página, a continuación una breve descripción de su contenido y la dirección de la misma. -3- Práctica 5. Motores de búsqueda (Altavista) El enlace Más páginas de este sitio asociado a cada elemento de la lista, nos permite acceder a diversas páginas relacionadas situadas en el mismo servidor. Por ejemplo, la segunda de las páginas de la lista se encuentra en la dirección www.ciudadfutura.net/asimov/ y corresponde a la página asimovii.htm. Si utilizamos el enlace comentado, se listarán otra página con la misma dirección inicial, pero denominada curioso.htm. En la parte inferior de la lista aparecen una serie de números de la forma: que nos permiten acceder a los siguientes grupos de diez páginas encontradas. En total es posible acceder a las primeras 200 páginas encontradas. Se supone que, dado el criterio de ordenación por relevancia utilizado por Altavista, estas primeras 200 páginas son las “más relacionadas” con el tema buscado y normalmente no será necesario acceder a un número mayor. De todas formas, si las páginas encontradas no son satisfactorias, lo mejor es utilizar un criterio de búsqueda más ajustado que permita encontrar un número de páginas más reducido y más acorde con el tema buscado. En los siguientes apartados veremos cómo lograr esto. -4- Práctica 5. Motores de búsqueda (Altavista) ◊ Ejercicios 1. Añadir a tu página web dos enlaces, uno a Altavista (www.altavista.com) y otro a Altavista España (es-es.altavista.com). Publicar la nueva versión de la página y comprobar el funcionamiento de los nuevos enlaces. 2. Encontrar todas las páginas en las que aparezca Asimov. Realizar la búsqueda en España y a nivel mundial y comparar el número de páginas encontradas. Acceder a la primera de ellas en cada caso. 3. Encontrar todas las páginas en las que aparezca Heinlein. Realizar la búsqueda en inglés y a continuación buscar más páginas relacionadas con el primer sitio encontrado y observar las direcciones listadas como resultado. 4. Encontrar todas las páginas en las que aparezca Brin. Realizar la búsqueda a nivel mundial y buscar otras palabras relacionadas utilizando el enlace correspondiente que aparece justo encima de la lista de páginas encontradas. Como hemos podido comprobar en los ejercicios anteriores, el número de páginas encontradas utilizando una sola palabra puede ser enorme, sobre todo si realizamos la búsqueda en cualquier idioma y a nivel mundial. Además, muchas de las páginas pueden contener la palabra buscada pero no referida al tema que nos interesa. Idioma Una de las formas de restringir el criterio de búsqueda es pedir a Altavista que tan sólo encuentre las páginas cuyo contenido se encuentre en un idioma dado. Para elegir el idioma deseado utilizaremos el menú desplegable incorporado en el formulario. ◊ Ejercicios 5. Repetir las búsquedas de los ejercicios 2 y 4 restringiendo la búsqueda primero a las páginas en español, después en inglés y finalmente en chino. Entrar a la primera de las páginas encontradas en cada caso. Mayúsculas y minúsculas Si escribimos una palabra en minúsculas, Altavista encontrará tanto las páginas que la contengan en minúsculas como aquellas que contengan cualquiera de sus letras en mayúsculas. Por ejemplo, si buscamos asimov, encontrará las páginas que contengan asimov, Asimov, ASIMOV, e incluso aSimOv. Sin embargo, si escribimos una palabra utilizando mayúsculas, Altavista encontrará las páginas que la contengan exactamente igual a como la hemos escrito. -5- Práctica 5. Motores de búsqueda (Altavista) ◊ Ejercicios 6. Buscar las páginas que contengan asimov sin importar las mayúsculas ni minúsculas. 7. Buscar las páginas que contengan asimov, Asimov, ASIMOV y aSimOv. Acentos y caracteres especiales En la palabra o palabras buscadas podemos utilizar acentos u otros caracteres especiales, como ñ, ç, ü, etc. Si al realizar una búsqueda no utilizamos acentos, Altavista encontrará tanto las páginas que contengan la palabra acentuada como sin acentuar. Por ejemplo, si buscamos informatica, encontrará las páginas que contengan informatica e informática. Si escribimos una palabra acentuada, Altavista encontrará tan sólo las páginas que la contengan con el acento. ◊ Ejercicios 8. Buscar las páginas que contengan fundación con y sin acento. 9. Buscar las páginas que contengan valencia y las que contengan valència. Probar con valéncia y valencía. Comodines Imaginemos que queremos encontrar las páginas con palabras que empiecen por super, como supermercado, superación o Superman. Podríamos intentar escribir una lista con todas ellas, pero sería interminable. Para solucionarlo utilizaremos el carácter comodín '*' (asterisco). Por ejemplo, si utilizamos: super* encontrará todas las palabras que comiencen por super, mientras que si utilizamos huma*, encontrará páginas que contengan humano, humanidades, humanismo, ... En definitiva, el carácter comodín, tal y como su nombre indica, equivale a cualquier sucesión de cero o más caracteres que aparezcan en su misma posición. ◊ Ejercicios 10. Buscar todas las páginas que contengan la palabra robótica. 11. Buscar todas las páginas que contengan las palabras robot o robótica. Búsquedas con varias palabras Si utilizamos varias palabras como criterio de búsqueda y las separamos mediante espacios en blanco, Altavista encontrará todas las páginas que contengan al menos una de ellas, lo que incrementará aun más los resultados mostrados. -6- Práctica 5. Motores de búsqueda (Altavista) ◊ Ejercicios 12. Encontrar todas las páginas en las que aparezca Heinlein, después aquellas en las que aparezcan Heinlein o Bujold y finalmente aquellas en las que aparezcan Heinlein, Bujold o Clarke. Comprobar el incremento de las páginas encontradas con cada una de las búsquedas. Frases exactas Si queremos encontrar una página en la que aparezca una frase exactamente como la escribimos, incluyendo las mayúscula y los acentos, debemos escribirla entre comillas dobles. Por ejemplo: para encontrar El juego de Ender escrito exactamente de esa forma, debemos escribir "El juego de Ender". ◊ Ejercicios 13. Utilizar como criterio de búsqueda las palabras El juego de Ender sin entrecomillar. Observar si las primeras páginas encontradas contienen todas las palabras buscadas. Si es así, ¿Por qué crees que ocurre esto? 14. Buscar todas las páginas en las que aparezca El juego de Ender como frase exacta. Comparar el número de páginas encontradas con las del ejercicio anterior. 15. Buscar todas las páginas en las que aparezcan exactamente alguno de los siguientes títulos: La voz de los muertos, Ender el xenocida e Hijos de la mente. Términos requeridos Supongamos que queremos encontrar páginas en las que aparezcan Brin, Bear o Benford, pero en las que además aparezca necesariamente Asimov. Para ello colocaremos el signo + justo delante de la palabra o palabras requeridas (sin espacios en blanco intermedios). Brin Bear Benford +Asimov ◊ Ejercicios 16. Buscar todas las páginas en las que aparezca Fundación o Robot 17. Buscar todas las páginas en las que aparezca cualquiera de las palabras del ejercicio anterior, pero además aparezca Asimov. -7- Práctica 5. Motores de búsqueda (Altavista) Términos excluidos Ahora supongamos que queremos encontrar información sobre las páginas que contengan la palabra Fundación, pero no la palabra Asimov. Para ello colocaremos el signo - justo delante de la palabra o palabras excluidas (sin espacios en blanco intermedios). Fundación -Asimov ◊ Ejercicios 18. Buscar todas las páginas en las que aparezca Fundación o Robot, pero no Asimov. 19. Buscar todas las páginas en las que aparezca el término Fundación junto con ciencia y ficción, pero no aparezca Asimov. Búsquedas avanzadas Si elegimos el panel Búsqueda avanzada accederemos a un formulario de búsqueda con un mayor número de opciones que nos permitirán restringir mejor los resultados obtenidos. El modo de búsqueda avanzada nos permite establecer criterios de búsqueda más complejos utilizando expresiones booleanas, restringiendo las páginas encontradas a una rango de tiempo o limitando las búsquedas a un determinado sitio (host o URL). Las expresiones booleanas reúnen uno o más términos mediante operadores booleanos. En el caso de Altavista estos operadores son AND, OR, NOT y NEAR. Las expresiones deben escribirse en la ventana Consulta: del formulario, mientras el recuadro Ordenar por: nos permite definir un criterio para ordenar las páginas resultantes. -8- Práctica 5. Motores de búsqueda (Altavista) La sintaxis a utilizar y la forma en que se presentan los resultados en la búsqueda avanzada es distinta a la utilizada en la búsqueda principal o simple. Así, el criterio principal de búsqueda a utilizar se incluye en la ventana Consulta: utilizando expresiones boolenas. Sin embargo, en esta ventana no se aplica el uso especial de los símbolos + o – que hemos comentado con la búsqueda simple. Para lograr el mismo resultado es necesario utilizar adecuadamente los operadores booleanos. Además, no es necesario utilizar las comillas dobles para indicar una combinación de palabras, sino que basta separarlas mediante espacios en blanco. Por otro lado, en la búsqueda avanzada los resultados no se ordenan de modo automático siguiendo un criterio de relevancia definido por Altavista, sino que es necesario indicar explícitamente el criterio de ordenación utilizando el recuadro Ordenar por: Por ejemplo, si utilizamos el siguiente criterio de búsqueda se encontrarán páginas que contengan las palabras isaac y asimov al mismo tiempo. Además, aparecerán en primer lugar las páginas que contengan las palabras fundación o robot. De hecho, presentará en primer lugar las páginas que contengan fundación y robot al mismo tiempo y después las que contengan alguno de ellos. El criterio de ordenación es una sucesión de palabras o frases entrecomilladas separadas por espacios en blanco. En este recuadro no tiene ningún efecto adicional el uso de los símbolos +, - o de los operadores booleanos. El operador AND El operador AND permite localizar páginas que contengan varios términos a la vez. Por ejemplo, si queremos encontrar páginas que contengan los términos Vor y Bujold, utilizaremos la expresión Vor AND Bujold. En las páginas encontradas los términos no tienen porqué aparecer consecutivos ni en el mismo orden. El operador OR El operador OR permite localizar páginas que contengan al menos una ocurrencia de los términos enlazados Por ejemplo, si queremos encontrar páginas en las que aparezcan los términos Barrayar o Cetaganda utilizaremos la expresión Barrayar OR Cetaganda. El siguiente ejemplo nos permitirá además establecer un criterio de ordenación de resultados. Si queremos encontrar las páginas en las que aparezcan los títulos de los libros Barrayar o Cetaganda y además queremos que aparezcan primero las que -9- Práctica 5. Motores de búsqueda (Altavista) contengan el nombre de su autora Lois McMaster Bujold, escribiremos Barrayar OR Cetaganda en el recuadro Consulta y "Lois McMaster Bujold" en Ordenar por. ◊ Ejercicios 20. Buscar todas las páginas en las que aparezcan las palabras cartero o postman. Utilizar tanto la búsqueda principal como la avanzada y comparar el número y orden de las páginas encontradas. 21. Buscar todas las páginas en las que aparezcan las dos palabras anteriores y además se ordenen en función del escritor David Brin. Comprobar que en las primeras dos páginas encontradas aparecen todos los términos buscados. Para ello, una vez abierta la página correspondiente, puede utilizarse la opción Edición|Buscar en la página del navegador. 22. Buscar todas las páginas en las que aparezca la palabra cartero y el nombre Pablo Neruda. Realizar la misma búsqueda haciendo que aparezcan primero las que contengan el nombre. Comprobar si cambia el orden en que aparecen los resultados al eliminar el criterio de ordenación. El operador NOT El operador NOT permite localizar páginas que no contengan un término especificado. Por ejemplo, si queremos encontrar páginas relacionadas con Arthur C. Clarke, pero en las que no aparezca el término odisea, usaremos la expresión "Arthur C. Clarke" AND NOT odisea. ◊ Ejercicios 23. Buscar todas las páginas en las que aparezca Tolkien y no aparezca Hobbit. Repetir la búsqueda forzando a que aparezcan en primer lugar las páginas conteniendo la palabra Silmarillion. Comprobar si cambia el orden y número de páginas encontradas. El operador NEAR El operador NEAR permite localizar páginas en las que aparezcan varios términos a la vez y en la que éstos se encuentren próximos entre sí (separados por menos de 10 palabras). De esta forma es probable que la página se refiera a la relación entre ambos términos y no a los mismos por separado. Por ejemplo: si queremos encontrar las páginas en las que aparezcan próximos el nombre de Connie Willis y de su libro Remake, usaremos la expresión "Connie Willis" NEAR Remake. - 10 - Práctica 5. Motores de búsqueda (Altavista) ◊ Ejercicios 24. Buscar las páginas que contengan referencias al libro Neuromante y a su autor William Gibson aunque no necesariamente estén próximas entre sí. Después buscar los mismos términos pero forzando a que estén próximos entre sí. 25. Repetir la última búsqueda anterior haciendo que aparezcan primero las páginas con el nombre del autor. 26. Entrar en la Ayuda del buscador y averiguar cómo utilizar el resto de restricciones de búsqueda avanzada del formulario. Realizar algunas búsquedas restringiendo la fecha de las páginas encontradas y el sitio en el que se encuentran. 27. Entrar en el buscador Google (www.google.com/intl/es/) y realizar algunas búsquedas. Averiguar en la ayuda proporcionada por la aplicación si el buscador distingue mayúsculas de minúsculas y si admite expresiones booleanas. Comprobar el efecto de pulsar el botón Voy a Tener Suerte. 28. Entrar en la versión en inglés de Altavista (www.altavista.com) y realizar alguna búsqueda. Comparar si se obtienen más o menos resultados que con la versión Altavista España. Búsqueda en campos o atributos Normalmente los motores de búsqueda como Altavista restringen por defecto las búsquedas mediante palabra clave al texto contenido en las páginas web. No obstante, algunos de ellos permiten definir condiciones de búsqueda que permiten encontrar palabras o frases en determinados campos de la página, tales como el título, la dirección web (URL) o los enlaces, entre otros. En el caso del buscador Altavista, podemos realizar este tipo de búsquedas mediante lo que se denominan “funciones especiales de búsqueda”. Se trata de palabras especiales en inglés que pueden añadirse a la condición de búsqueda para restringir la ubicación de las palabras o frases buscadas. Por ejemplo, la palabra domain: permite restringir las páginas encontradas a un determinado dominio (p.e. es, uk, com, edu, …). Por ejemplo, si añadimos al criterio de búsqueda domain:edu, se encontrarán tan sólo páginas en el dominio edu. ◊ Ejercicios 29. Buscar en la ayuda de Altavista España información sobre las funciones especiales de búsqueda disponibles. 30. Buscar páginas que hablen de Alfred Bester y que se encuentren en el dominio es. Repetir la búsqueda con los dominios edu y uk. 31. Buscar páginas que contengan en el título el nombre Ursula K. Leguin, que hablen de la novela the dispossessed y que se encuentren en el dominio com. 32. Buscar páginas que tengan alguna imagen en un fichero con el texto Bradbury y que hablen del libro martian chronicles. Encontrar la imagen en la página. - 11 -