Práctica Recuperación de información: búsquedas.

Anuncio
© Joan-Isidre Badell
Práctica Recuperación de información:
búsquedas.
Prof. Joan-Isidre Badell © 2008 (actualización y adaptación de Lluís Codina
(2004) Taller - Investigación en línea)
© Joan-Isidre Badell
1. Recuperación de información: Altavista
1.1. Búsquedas simples. AltaVista
Utilizaremos el buscador Altavista. Vaya a: www.altavista.com
En la caja de búsqueda entre la palabra educación (o education, si
prefiere probar con resultados en inglés), asegúrese de seleccionar la
opción En todo el mundo o worldwide y haga clic en el botón
Encontrar:
Observe el resultado. La lista de respuestas está organizada en varias
secciones. Algunas son anuncios (Resultados patrocinados)
Aparece también el número
últimamente he observado que
encontrado xxx resultados).
indicará probablemente algunas
de recursos encontrados, aunque
no siempre lo ofrecen (AltaVista ha
Si ha entrado el término education,
decenas de millones de páginas web.
© Joan-Isidre Badell
Entre en los cuatro o cinco primeros después de los patrocinados y
juzgue si la relevancia estimada por AltaVista se corresponde con la
realidad.
Entre ahora en la caja de búsqueda la expresión: violence
(asegúrese de tener activada siempre la opción Buscar: En todo el
mundo, o, worldwide) ya que a partir de ahora practicaremos con
una serie de expresiones en inglés, y observe las respuestas.
AltaVista informará haber encontrado alrededor de dos cientos
millones de respuestas. Examine los primeros recursos e intente
juzgar su relevancia.
1.2. Diversos términos
Ahora entre en la caja de búsqueda los dos términos:
violence television
y observe los resultados. Pueden ser algunos de miles de millones.
Ahora añada un tercer término y entre esta expresión de búsqueda:
violence television children
¿Aumentan o disminuyen los resultados? Probablemente, el resultado
se ha reducido bastante.
Añadamos finalmente un cuarto término:
violence television children protection
¿Sigue descendiendo el resultado? ¿Por qué? Qué pasaría si añadimos
un quinto y aún un sexto término. Probemos:
violence television children protection films europe
Sigue reduciéndose el número de resultados. ¿Por qué?
Para intentar entenderlo, pasaremos a los siguientes ejercicios.
1.3. Búsquedas booleanas
Las búsquedas booleanas permiten combinar dos o más palabras (o
conceptos) para expresar con mucha exactitud el sentido de una
necesidad de información. Las palabras o conceptos se combinan
entre ellas con tres operadores, llamados operadores de Boole, que
son los siguientes:
© Joan-Isidre Badell
AND
OR
NOT
Atención: el significado de cada uno de esos operadores no coincide
exactamente con el del lenguaje natural, ya que no corresponden a
las partículas gramaticales Y, O, NO más que de forma aproximada.
El operador OR permite unir sinónimos o lo que se denominan
también "semi sinónimos" o "casi sinónimos". De esta manera, si
unimos dos palabras con OR, el ordenador busca documentos donde
esté una cualquiera de las dos palabras o ambas. Por ejemplo, para
buscar documentos sobre cine o televisión, hacemos: <cine OR
televisión>. Obtendremos así documentos que tengan solo la palabra
cine, o solo la palabra televisión, o ambas palabras a la vez.
El operador AND sirve para cruzar o combinar conceptos. El operador
AND exige que ambas palabras estén presentes en el documento para
que sea recuperado.
Para buscar documentos que relacionen el cine y la televisión,
hacemos: <cine AND televisión>. En este caso, siempre obtendremos
como respuesta menos documentos que con la opción anterior, ya
que únicamente serán válidos los documentos donde aparezcan, a la
vez, ambas palabras.
Obsérvese que el "y" gramatical no siempre es un AND lógico.
Ejemplo: si digo que quiero saber cosas sobre el crimen y la violencia
en el cine y la televisión, ¿qué ecuación debería utilizar?:
crimen AND violencia AND cine AND televisión
o bien
crimen OR violencia AND cine OR televisión
En el lenguaje natural el "y" gramatical a veces corresponde a un
AND, pero a veces corresponde a un OR. Otro ejemplo, si hay un
autor que a veces ha publicado obras con el nombre McQ y a veces
con el nombre McQuinn y quiero encontrar todas sus publicaciones,
¿qué ecuación debo emplear?:
McQ AND McQuinn
o bien
McQ OR McQuinn
NOT permite excluir documentos del conjunto. En concreto, excluye
aquellos documentos que tengan la palabra que sigue al operador
NOT. Por ejemplo, <audiovisuales NOT cine> busca documentos
© Joan-Isidre Badell
sobre audiovisuales, pero si tienen también la palabra cine, los retira
de la lista. Con unas cuantas pruebas lo veremos más claro.
Observe bien la caja de búsqueda de AltaVista (AV) y busque un
enlace que se llama Búsqueda avanzada. Haga clic en esa opción.
Verá este formulario:
1.4. Ecuaciones
Consulte la Ayuda de Altavista e intente averiguar si las cajas Todas
estas palabras, esta secuencia exacta, cualquiera de estas
palabras,
y
ninguna
de
estas
palabras
tienen
una
correspondencia con los operadores boleanos vistos anteriormente.
Ahora entre en la caja correspondiente los términos:
films OR violence
Y haga clic en Encontrar:
© Joan-Isidre Badell
Observe los resultados: el número de recursos encontrados puede ser
de varios millones.
La ecuación anterior es un lenguaje formalizado que es equivalente a
la expresión en lenguaje natural siguiente: "busca recursos que
contengan o bien el término films o bien el término violence o bien
ambos términos".
Examine los recursos y trate de juzgar la relevancia de los 10
primeros.
Ahora entre esta
correspondiente:
nueva
fórmula
de
búsqueda
en
la
caja
television AND violence
El resultado debe conducir a una disminución radical. Puede que aún
tengamos muchos recursos pero el número total de recursos debería
haber disminuido en varios órdenes de magnitud.
¿Qué hemos hecho? Al unir los dos términos con un AND en lugar de
con un OR, hemos elevado la exigencia. Ya no nos basta con que un
recurso contenga una cualquiera de las dos palabras para que sea
recuperado, sino que hemos exigido que el recurso tenga ambas
palabras. Por eso hemos logrado reducir el número total.
Hagamos ahora esta búsqueda:
television AND violence AND children AND protection
Hemos reducido aún un poco más el resultado. Por último, vamos a
añadir una nueva variación, entrando un término con comillas, de
esta manera:
television AND minors AND "children protection"
Si ha tenido éxito, ahora la reducción aún es mayor y deberá haber
encontrado “apenas” unas centenas de recursos. Puede limitar por
idioma, por fecha de publicación, por tipo de archivo, etc. Pruebe
diversas opciones hasta conseguir algunas decenas de resultados.
Examine los primeros en la lista de resultados. Si usted tuviera que
preparar algún trabajo o algún informe sobre este tema, le
convendría saber cómo hacer para que los motores de búsqueda y las
bases de datos le entregaran pequeñas cantidades de información,
© Joan-Isidre Badell
pero muy relevante, y no millones de recursos, pero de relevancia y
fiabilidad muy variada.
¿Sabría explicar el alumno qué hemos hecho en la última ecuación? Si
no está seguro de ello, puede proponerlo como tema de debate en
clase.
Para finalizar este apartado y con el objetivo de practicar con todos
los operadores, ¿Qué cajas de búsqueda avanzada utilizaría para
realizar la siguiente ecuación?)
Television AND violence NOT children
Una vez haya terminado pruebe de realizarla en Google, consulte en
la ayuda como utilizar paréntesis en las ecuaciones.
1.5. Comparación
Vuelva ahora a la opción de búsqueda simple de AltaVista (Home) y
entre esta búsqueda:
"video games" violence children television films movies
Compare los resultados de las búsquedas simples con los resultados
de las búsquedas booleanas en cuanto a número total, precisión y
relevancia de los resultados.
¿Qué podemos concluir de esta comparación? Redacte el alumno un
pequeño informe (tres o cuatro párrafos) explicando sus conclusiones
sobre las dos formas de búsqueda que hemos practicado (booleana o
avanzada, versus simple) y sobre cuál es la más adecuada para usos
profesionales y académicos. Responda también:
¿Por qué en la búsqueda simple se producían oscilaciones entre unos
millones de recursos y unos miles por añadir un término más?
© Joan-Isidre Badell
2. Términos básicos para entender los buscadores
Término
1.
Palabra clave
(keyword)
2.
Frase
(phrase)
Definición
Palabra simple (p.e. televisión) que un usuario utiliza para
expresar una necesidad de información en un buscador (o en
una base de datos).
Palabra compuesta por dos o más términos (p.e. televisión de
calidad) que un usuario utiliza para expresar una necesidad de
información en un buscador (o una base de datos). Nota: Se
denomina frase aún cuando no sea una frase desde el punto de vista gramatical
3.
Página de
resultados
Conjunto o lista de documentos y páginas web que presenta un
buscador en respuesta a una palabra o frase clave.
Ilustración: Una página de resultados en Ask
4.
Ordenación
por
Relevancia
(ranking)
Para ganar el máximo de usuarios los buscadores no solo
intentan ofrecer los mejores sitios o los más útiles en su página
de resultados. La página de resultados no tendría ninguna
utilidad práctica si listara los sitios o documentos por orden
alfabético o por fechas. Tal vez los usuarios tendrían que
revisar decenas de páginas de resultados para encontrar el
© Joan-Isidre Badell
primer sitio útil.
En su lugar, los resultados se presentan por orden de utilidad,
denominada relevancia (o ranking); de este modo, no importa
cuántos resultados haya encontrado el buscador, será
suficiente con examinar las primeras páginas de resultados,
digamos las dos o tres primeras, para encontrar sitios útiles (y
con suerte, algunos de los más útiles).
5.
Cálculo de
relevancia
La relevancia es la capacidad teórica de cada documento para
dar respuesta a la pregunta del usuario. Dicho de otro modo, la
relevancia de un documento (o página web) es su relación y/o
su adecuación a la pregunta. La relevancia (relativa) de cada
página, a su vez, la determina el buscador en base a un
análisis automático de un conjunto de características de la
página en cuestión.
Los ordenadores, como es sabido, no piensan. En su lugar
aplican de forma mecánica una serie de procedimientos
denominados algoritmos o cálculos. Cuando se trata de
determinar la utilidad o la importancia de una página el cálculo
puede ser muy certero o muy deficiente. Habrá observado que
a veces los resultados son muy poco útiles. Si el algoritmo o el
cálculo para confeccionar el ranking de resultados que realiza el
buscador es eficiente, la página de resultados contendrá
información muy útil (muy relevante) y por tanto contendrá
mucha información y poco ruido; si es deficiente, la mayor
parte de los resultados serán poco relevantes y la página de
resultados tendrá mucho ruido y poca (o ninguna) información.
Compare en las dos capturas siguientes las páginas de
resultados de dos buscadores distintos para la misma pregunta
(navegación social).
1. Página de resultados de Live
© Joan-Isidre Badell
2. Página de resultados de Google
© Joan-Isidre Badell
6.
Índice
Los buscadores no podrían responder nuestras preguntas si
tuvieran que rastrear la web en tiempo real, es decir, de forma
simultánea a la pregunta. En lugar de esto, consultan un índice
similar a los índices temáticos que encontramos al final de un
libro. En ese índice hay una entrada por cada palabra (para una
sola lengua el índice puede estar formado por decenas de miles
de palabras distintas). Para cada una de esas palabras hay otro
índice que relaciona la palabra con las páginas web donde
aparece la palabra. Por razones prácticas, los buscadores
solamente cargan en el índice las 900 primeras páginas web
(intente pasar del resultado 900 en Google y no podrá).
Tenga en cuenta que los buscadores ofrecen los resultados
habitualmente agrupados en dos listados, uno de publicidad, los
llamados enlaces o sitios patrocinados (vea el ejemplo anterior de
Live), aquí tiene el de Google:
© Joan-Isidre Badell
Probablemente no ignora que hay otros buscadores además de
Google. En los últimos años, además de Google, se han ido
consolidando los siguientes como los más importantes, antes de
Google el buscador más utilizado era Altavista (y más o menos en el
siguiente orden):
1. Yahoo Search (es.search.yahoo.com)
2. Live (www.live.com)
3. Ask (www.ask.com)
Una característica de los competidores de Google es que parecen ser
menos eficientes en la ordenación de resultados, es decir, a la hora
de listar los sitios web que han encontrado por su orden relativo de
importancia. Sin embargo, algunos de ellos, en particular Yahoo,
resuelven mucho mejor algunas opciones concretas. Además, Google
no contiene en su índice información sobre toda la Web, ni mucho
menos, por lo cual, en alguna ocasión, comparar resultados de
Google con los de Yahoo, por ejemplo, puede resolver muchas cosas,
ya que Yahoo tiene información sobre la Web en su índice que no
tiene Google (y viceversa).
Aquí tiene algunos buscadores más clasificados según una de sus
principales características (temática o presentación o especialización)
Puede ir probándolos.
Motores generalistas
Bloque 1
Bloque 2
Bloque 3
Ask
Yahoo! Search
MSN Search
© Joan-Isidre Badell
Clustering
Mooter
iBoogie
Vivísimo
Visualización
Kartoo
WebBrain
Thumbshot Ranking
Académicos
Dmoz
Teoma
Intute (Sosig)
Especializados
Internet Invisible
Google Scholar
Google News
Especializados: Libros
Amazon Search Inside
Google Books
A9
Por último, existe la opción de utilizar sitios web, denominados
multibuscadores, que son capaces de enviar la misma pregunta a
diversos buscadores para después reunir las respuestas en una sola
lista de resultados (eliminando los duplicados). Probablemente, el
multibuscador más eficaz es Metacrawler (www.metacrawler.com).
Permite desplegar una lista unificada de todos los resultados o listas
diferenciadas con las que podemos comparar los resultados de cada
motor. Haga diversas pruebas.
Descargar