Motores de búsqueda

Anuncio
Coleccionables de Aplicaciones Informáticas
Colegio de Traductores Públicos de la Ciudad de Buenos Aires
Edición 5 -
Motores de búsqueda
Coleccionables de
Aplicaciones Informáticas
Edición 1 - MS Office
Edición 2 - Herramientas generales
Edición 3 - Herramientas de traducción
Edición 4 - Lenguaje de etiquetas (archivos *.*ml)
Edición 5 - Motores de búsqueda
Edición 6 - Archivos de diseño (DTP)
Edición 7 - Estándares
Motores de búsqueda
¿Qué son?
2. Los Directorios
Un motor de búsqueda es una pieza de software que permite encontrar y visitar los sitios relacionados con una
palabra clave -o keyword- introducida al sistema por el
mismo usuario. También se los denomina buscadores.
Son motores buscadores totalmente distintos a las
arañas. Son listas de recursos organizados por categorías temáticas que se estructuran jerárquicamente
en un árbol de materias que permite visualizar los contenidos desde los más generales, en las ramas superiores, a los más específicos, en las ramas inferiores.
Más que buscar información sobre contenidos de la
página, los resultados serán referencias a los contenidos y a la temática de la Web. Es decir, si buscamos
"traducción", aparecerán los sitios que de una forma u
otra estén relacionados con la temática de la traducción.
Básicamente, están compuestos por bases de datos
gigantescas que contienen información sobre el contenido de los sitios que integran la Web.
¿Qué tipos de motores hay?
Según como trabajen encontraremos:
1. Buscadores propiamente dichos o spiders
2. Directorios Índices, Catálogos
3. Sistemas Mixtos (directorio y motor de búsqueda)
4. Metabuscadores
5. Multibuscadores
6. Buscadores de portal
1. Buscadores propiamente
dichos o spiders
La mayoría de los grandes buscadores internacionales
que todos usamos y conocemos entran dentro de esta
denominación. Requieren muchos recursos para su
funcionamiento. Las arañas recorren páginas y recopilan información sobre su contenido, y las presentan clasificadas por orden de relevancia. Por ejemplo, si buscamos una palabra, [traducción], los resultados de la
búsqueda nos mostrarán las páginas que contengan
esta palabra en alguna parte del texto.
En algunos casos registran todas las páginas del sitio,
y en otros, sólo algunas. Además, las arañas van recopilando las actualizaciones, cuya periodicidad depende del motor en cuestión. Por este motivo, puede suceder que algunos sitios no aparezcan actualizados.
El orden de relevancia, es decir, el orden en que se
muestran los resultados de la consulta, está determinado por diversos factores que dependen de cada
buscador. Pueden existir distintos parámetros, pero
existen muchísimas estrategias, que las distintas empresas elaboran para lograr los primeros puestos.
Ejemplos de buscadores "spiders"
Google, Altavista, Lycos
2
Su tecnología es muy barata y sencilla. Pero el costo
de operación es relativamente alto, ya que dependen
de la operación manual.
La clasificación y categorización requieren una intervención humana y en muchos casos, debido a la heterogeneidad de los temas tratados, algunas páginas
presentan problemas de categorización ya que los
índices suelen mantener su base de datos de forma
manual.
Son una mezcla entre buscadores y directorio. Además
de tener características de buscadores, presentan las páginas registradas clasificadas en catálogos según su contenido: Informática, cultura, sociedad, que a su vez se dividen en subsecciones. Hoy en día los grandes buscadores, van en esa dirección.
Ejemplos: Excite, Voila, Infoseek
En la actualidad, todos los motores tienden hacia estos
sistemas mixtos
4. Metabuscadores
En realidad, los metabuscadores hacen sus búsquedas
en auténticos buscadores, analizan los resultados de la
página y presentan sus propios resultados.
Los metabuscadores permiten buscar en varios buscadores al mismo tiempo. No almacenan las descripciones de
páginas en sus bases de datos, sino que contienen los
registros de los motores de búsqueda y la información
sobre ellos, adecuando su expresión a los diferentes motores para remitir la consulta. Cuando reciben la respuesta, envían al usuario el resultado que fue previamente
sometido a un filtrado para eliminar y depurar los enlaces
repetidos y ordenados. Los más repetidos ocuparán los
primeros puestos ya que el metabuscador considerará
que son los más relevantes por estar dados de alta en
mayor número de buscadores.
Copernic (www.copernic.com), sigue siendo un metabuscador interesante con muchas categorías de búsqueda y
versiones gratuitas y aranceladas.
Ejemplo: Search.com, www.copernic
5. Multibuscadores
Permiten lanzar varias búsquedas en motores seleccionados respetando el formato original de los buscadores.
Se limitan a colocar en una página web una lista con los
buscadores más comunes y con una ventana de texto
para que el usuario envíe la cadena de búsqueda introducida a cada uno de ellos. Muestra los resultados según el
buscador.
El avance de la tecnología es demasiado veloz, y hay
muchas empresas dedicadas al desarrollo de motores de
búsqueda. Por este motivo, periódicamente nos sorprenden con nuevos programas, y nuevas categorías, cuyo
único fin es encontrar más fácilmente la información que
buscamos, o en los casos de las empresas de marketing,
mostrar mejor los productos y buscar permanentemente
potenciales clientes.
¿Cómo trabajan?
Los buscadores automáticos están compuestos por
tres partes:
DLos robots que se encargan de recorrer la Red
escrutándola
DLa base de datos que construyen estos robots
DEl motor de búsqueda que facilita la consulta a la
base
Los robots son programas que buscan o rastrean
continuamente todos los servidores de la WWW, en
Gopher (uno de los sistemas de Internet para recuperar información que precedió a la World Wide Web), y
FTP, que alimentan una base de datos. Los robots actualizan estas bases y añaden nuevas páginas o referencias cuando ha cambiado o bien, cuando ya no
existe. Google por ejemplo, guarda la página inicial y
aunque la página ya no exista en la opción "caché",
se puede ver la información original.
Cuando abrimos la página de un buscador, encontramos un formulario para definir nuestra búsqueda y
sus posibles opciones. Ingresamos la palabra o palabras clave que son las que describen los conceptos,
ideas o términos que buscamos. El motor nos devuelve los resultados en función de cómo hayamos definido nuestra búsqueda.
Los buscadores temáticos o especializados están
compuestos por:
Duna base de datos creada a partir de los URL remitidos
Duna estructura jerárquica que facilita la consulta
De todas maneras, se tiende más a utilizar un sistema mixto con buscadores automáticos
Ejemplo: Gooyaglehoo. http://www.gooyaglehoo.com/
6. Buscadores de Portal
Bajo este título, englobamos los buscadores específicos
de sitio. Aquellos que buscan información sólo en su portal o sitio web. Podríamos considerarlos como un directorio. Trabajan sobre la base de expresiones regulares y
consultas SQL. Son muy útiles para los temas de administración.
Actualización de los datos
Ingreso a la Red
La mayoría de los motores de búsqueda actualizan sus
bases de datos con la información recopilada por sus arañas, al menos una vez al mes. Esto es importante si tene-
edición 5- Motores de búsqueda
3. Los sistemas mixtos
Buscador - Directorio
3
mos un sitio web relativamente nuevo: si el sitio se sube, por
primera vez en la Red, al final de un 'rastreo', y las arañas no
lo encuentran, habrá que esperar hasta la actualización siguiente para entrar a formar parte de la base de datos. Una
vez incorporado a la base de datos, todavía llevará una o dos
actualizaciones más antes de que se estabilice en los resultados de las búsquedas.
La mayoría de los motores de búsqueda, también tienen lo que
se llama listados frescos. Éstas son actualizaciones rápidas
y cortas que generalmente no pondrán al día un sitio entero,
pero agregarán las páginas nuevas y aquellas que hayan
cambiado.
Otros programas
Ask.com
Este motor de búsqueda está obteniendo buenos resultados,
y permite hacer búsquedas no sólo de webs, sino también de
imágenes, noticias, blogs, enciclopedias, y más.
CodigoFuente.net
CodigoFuente.net es un espacio para la búsqueda y registro
de Código Fuente, software libre, clases, librerías, funciones,
Programas gratis y procedimientos de: ASP, ASP.NET, C++,
Java, Csharp, Delphi, Perl, PHP, Python, Cold fusion,
JavaScript, XML y otros lenguajes de programación, completamente en español.
Dogpile
Portal mediante el cual se pueden realizar búsquedas en múltiples buscadores a la vez.
Krugle
Directorio dedicado exclusivamente a programadores, contiene motor de búsqueda para todo lo relacionado con lenguajes
de programación, código que puede reusarse, y mucho más.
MSN
MSN, la red de Microsoft, es otro de los buscadores más
populares.
Ohloh
Una nueva clase de directorio de software, que combina contenido comunitario con un motor de búsqueda que indexa
cambios en los repositorios de proyectos de software libre,
analizando código y extrayendo reportes muy interesantes.
También permite socializar con otra gente que tenga los mismos intereses de software, y también permite buscar información de cada programador.
Desde el escritorio
del traductor
Durante muchos años, en la era pre-internet, usábamos nuestros "motores de búsqueda" mentales para buscar terminología e investigar los escasos recursos disponibles. Hoy Internet nos abre una puerta a un mundo donde sucede todo lo
contrario: estamos invadidos por una sobreabundancia de recursos y el desafío es, precisamente saber cómo encontrarlos.
En un artículo publicado en el ITI bulletin (www.iti.org.uk) de
julio de este año, Michael Benis comenta que la estrategia
esencial de toda búsqueda debería ser:
buscar Dseleccionar Dverificar
Por más compleja que sea la búsqueda o la situación, este
método es la base para asegurarnos de que la terminología y
la información que obtenemos sean correctas. En un entorno
convencional, esta estrategia implicaría la búsqueda del término en cuestión en diccionarios y enciclopedias bilingües y
monolingües, corroborar definiciones, verificar los resultados
de nuestras búsquedas en los recursos monolingües correspondientes, y verificarlo en los materiales de referencia. Claro
que en la época digital, todos estos procesos, son mucho más
rápidos y ágiles.
Una de las grandes ventajas de la Internet para los traductores, ha sido el gran número de bases de datos terminológicas
que nos ponen a nuestro alcance las unidades de traducción
de los departamentos gubernamentales. Canadá y la Unión
Europea encabezan esta lista. Son fuentes confiables y nos
ofrecen diccionarios que constituyen recursos indispensables
para el traductor. Salvo en el caso de Termium (que prevé un
arancel anual) el resto es totalmente gratis. Por supuesto,
además de estos diccionarios oficiales existe otra enorme
cantidad de diccionarios en Internet que profesionales, empresas, o simplemente individuos ponen a nuestra disposición, y que pueden ayudarnos a resolver una búsqueda siempre y cuando verifiquemos lo que estamos buscando, y fundamentalmente, con una fuente confiable.
¿Cómo busco?
Cuando se introduce una frase o palabra, el motor buscará en su base de datos y devolverá resultados en un orden
que estará determinado por su propio algoritmo.
Para las búsquedas precisas, los motores tienen su propio
lenguaje de interrogación y suelen permitir acotar las búsquedas utilizando interfaces sencillas de búsqueda que
permiten la introducción de texto en alguna de estas
variantes:
DTodas las palabras: permite recuperar los resultados
que contengan todas las palabras que se introducen en la
caja de interrogación. Por ejemplo, "colegio de traducto-
4
res" se ubicarán resultados que incluyan todos los términos,
aunque estén separados: colegio de traductores, aunque no
necesariamente en ese orden exacto.
DAlguna de las palabras: permite recuperar los resultados que contienen alguna de las palabras. Por ejemplo, la
interrogación: "colegio de traductores" los resultados se presentarán con colegio o traductores.
DLa frase exacta: es la más adecuada para búsqueda por
nombres propios y expresiones que deben ser buscadas en
el orden especificado. Para introducirla se suelen utilizar
comillas. Por ejemplo, la consulta: "colegio de traductores”,
sólo mostrará resultados donde aparezca exactamente esa
frase.
DLa búsqueda booleana: se trata de un tipo de interrogación que incluye alguno de los operadores lógicos.
Los buscadores también permiten acotar la búsqueda por una
serie de operadores lógicos, así encontramos:
DLógicos
DDe proximidad
DDe existencia
DDe exactitud
Operadores lógicos
Los operadores lógicos o booleanos facilitan este objetivo. Para
los ejemplos siguientes usaremos dos conjuntos de elementos:
los profesionales y los traductores.
1. Y lógico (AND)
En el resultado aparecerán únicamente los documentos que
contentan estas dos palabras clave. Es un operador de reducción.
Ejemplo:
profesionales AND traductores
(En algunos buscadores también se puede usar & en lugar
de AND)
2. NO lógico (NOT)
Es decir los profesionales o traductores.
Nos devolverá las páginas que contengan algún elemento
de los dos o los dos
(Algunos buscadores también permiten usar | en vez de OR).
Cuando no indicamos ningún operador entre las palabras,
los buscadores lo interpretan como si hubiéramos colocado
OR.
Es muy útil para buscar varias formas de escritura simultáneamente.
Ejemplo:
España OR Spain OR Espagne
Operadores de proximidad
Para obtener resultados precisos, el operador de proximidad,
nos permite especificar la relación entre elementos presentes
de nuestra búsqueda.
1. Cerca (NEAR)
Es similar al Y lógico, pero además exige que entre ambas
palabras no haya más de 10 palabras.
Ejemplo:
profesionales NEAR traductores
Es decir que las palabras profesionales y traductores aparezcan relativamente juntas.
DEs ideal para buscar, por ejemplo, nombres y apellidos.
2. Junto (ADJ)
Es la intersección de los dos conjuntos de búsqueda que
además están adyacentes. Se parece al Y lógico pero además exige que entre ambas palabras no haya otra .
Ejemplo:
profesionales ADJ traductores
Es decir que las palabras profesionales y traductores aparezcan juntas.
DSe puede usar comillas para obtener un resultado idéntico "profesionales traductores"
DTambién se puede usar un guión entre las palabras que
desea juntar profesionales-traductores.
Excluye los elementos de una de las dos palabras clave de
búsqueda.
Operadores de existencia
1. Presencia.
3. O lógico (OR)
Especifica palabras que deben aparecer en el resultado. Es
útil cuando necesitamos que una determinada palabra clave,
de tal forma que si no está presente en él, no se incluirá en
la lista de resultados.
Indica al buscador que en los resultados de la búsqueda
aparezca por lo menos una de las palabras clave. Es un
operador de ampliación.
Habitualmente se añade al inicio de la palabra clave el signo
más (+), sin dejar espacio.
Ejemplo:
profesionales OR traductores
Ejemplo:
+olímpico baloncesto fútbol voleibol balonmano
edición 5- Motores de búsqueda
Ejemplo:
profesionales AND NOT traductores
(En algunos buscadores también se puede utilizar ! en lugar
de NOT.)
5
2. Ausencia
Es útil cuando necesitamos que una determinada palabra clave no esté presente en el documento, de tal forma que si está, no lo incluirá en la lista de resultado.
Habitualmente se indica añadiendo el signo menos - al
inicio de la palabra clave, sin dejar espacio.
Ejemplo:
juventud –racismo
DPodemos obtenerlo también a través de estos dos
operadores lógicos: juventud AND NOT racismo
De esta manera, una búsqueda de "educa" incluirá también en la respuesta "educador" y "educativo".
Esto es ideal si no se sabe cómo se escribe exactamente la palabra que se quiere buscar. A diferencia de estos
casos mencionados, el comodín de Google (*) permite
encontrar palabras completas, no familias de palabras.
Es muy útil por ejemplo, para buscar la palabra que sigue, nombres de instituciones. etc.: colegio * traductores,
mostrará colegio para traductores, de traductores, con
traductores, etc.
2. Truncar la palabra
Operadores de exactitud
1. Familia
Se trata de una especie de comodín, que permite realizar
la búsqueda también en documentos en los cuales
las palabras clave aparecen como parte de otras palabras. Con la opción Substrings en Yahoo o el signo (*).
Para encontrar sólo aquellas referencias que tengan la
palabra exacta y no extensiones, se debe seleccionar la
opción Complete words en Yahoo, y en Lycos usar el
punto (.) al final de la palabra que se busca, para limitarla. Por ejemplo "ciudad" encontrará referencias que
contengan la palabra "ciudad" pero no así "ciudadano"
ni "ciudadanía".
Google
Encontrar todos estos recursos es un desafío. En la mayoría de los casos, se resuelve fácilmente con el uso de alguno
de los motores de búsqueda que mencionamos en la primera parte de este coleccionable. El más popular sigue siendo
Google, con el que se pueden realizar búsquedas bastante complejas, entre otras:
DPara buscar la definición de una palabra (en cualquier idioma), se puede escribir "define:" seguido de la palabra
clave de búsqueda. Por ejemplo, define:localization mostrará este resultado:
6
DEs posible buscar palabras o frases dentro de una página en especial, como la de un cliente. Por ejemplo, "trojan
horse site:www.symantec.com" mostrará este resultado
(aplicable a cualquier idioma):
DPara buscar palabras en un tipo de archivo en especial:
supongamos que se quiere buscar la palabra "localization" en un
archivo PDF, si escribimos "localization filetype:pdf" se obtendrá algo así:
DPara buscar palabras en un sitio y en la dirección del sitio,
se puede utilizar "inurl:". Por ejemplo, si queremos buscar
la palabra "enfiteusis" y, que además aparezca en un glosario, escribimos "enfiteusis inurl:glosario", y se obtendrá
este resultado:
Además de buscar en glosarios, también pueden buscar en
páginas de clientes, empresas, etc.
DPara la conversión de unidades (millas a kilómetros, por
ejemplo), basta con escribir "x miles", "x yards", etc... El resultado va a ser algo así:
edición 5- Motores de búsqueda
Listados: http://labs.google.com/sets.
Nos permite encontrar o completar listas de un conjunto de elementos (por ejemplo: si necesitamos una lista de marcas de automóviles, con incluir dos, Google completa el resto).
7
Si utilizamos motores de búsqueda con mucha frecuencia,
una herramienta útil, es Practisearch, que permite consultar
el motor de búsqueda favorito con sólo seleccionar la frase
en cuestión [desde cualquier programa, por ejemplo, Word,
presionando una tecla de acceso rápido y luego enter].
La Web invisible.
Ideal para investigadores
La "Web visible" es lo que podemos "ver" con los motores de
búsqueda, que presentan el contenido del sitio como resultado de una búsqueda. Lo que no se incluye en la mayoría
de los casos, es el contenido de las bases de datos, por
ejemplo. Si incluimos en los términos de búsqueda database
(o base de datos) o directory podremos ver recursos de investigación útiles que los motores no pueden encontrar de
otra forma, ya que las arañas de los motores de búsqueda
no pueden catalogar el contenido que, por ende, queda relegado a lo que denominamos "Web invisible". Al final de este
coleccionable, se detalla una lista de sitios Web, que incluyen sitios y programas utiles para buscar en la "Web invisible", como Direct Search, u OAIster, y permite buscar en
las bases de datos de universidades o viejos artículos que
no han sido generados en formato electrónico, y fueron
escaneados.
Las búsquedas avanzadas
Este tipo de búsquedas no sólo permiten encontrar terminología sino textos especializados que nos pueden confirmar el
estilo, las elecciones tanto técnicas como estratégicas que
deberemos hacer y, al mismo tiempo, podemos investigar
sobre el tema que estamos traduciendo. Por ejemplo tomemos la biblioteca EUR-Lex en línea de la legislación de la
Unión Europea. En este sitio se pueden buscar archivos html
de la legislación de la Unión Europea en todos los idiomas
oficiales. Y cada uno de estos archivos incluye los enlaces a
las traducciones correspondientes en todos estos idiomas.
DTermium - Base de datos trilingüe
www.termium.gc.ca
DIATE - Base de datos terminológica multilingüe
http://iate.europa.eu
DITU - Diccionario multilingüe Termite de telecomunicaciones
www.itu.int/terminology/index.html
DUNITERM
Base de datos de las Naciones Unidas
http://www.un.org/spanish/unterm/
Recursos de investigación en línea
DServidor Web del Parlamento Europeo
www.europarl.europa.eu
DBiblioteca en línea de legislación de la Unión
Europea
http://eur-lex.europa.eu/en/index.htm
Sitios y programas de búsquedas útiles
DBabilón
www.babylon.com
DDirect Search (Web invisible)
www.freepint.com/gary/direct.htm
DGoogle
www.google.com
DMedline Medscape search
http://search.medscape.com
DMetacrawler
www.metracrawler.com
DOmega First
www.omega-first.co.uk
Web Invisible
DInternetinvisible.com (en español)
http://www.internetinvisible.com/
DInvisibleWeb.com (en inglés)
http://www.invisibleweb.com
DInvisible Web Directory (por temas)
http://www.invisibleweb.net/
DComplete Planet: The Deep Web Directory (contiene unas 70.000 bases de datos de la Red profunda y
otros recursos especializados)
http://aip.completeplanet.com
DDirect Search (es una compilación de enlaces e interfaces de búsqueda de recursos que contienen datos
que no son fácilmente accesibles o "buscables" por los
buscadores generalistas)
http://www.freepint.com/gary/direct.htm
DOAISTER
http://www.oaister.org
Otras Fuentes
Ricardo Baeza Yates. (www.dcc.uchile.cl/~rbaeza/inf/webfaces.gif)
(www.hipertexto.info/documentos/tipos_buscador.htm#indices)
ITI bulletin (www.iti.org.uk)
CTPCBA - Colegio de Traductores Públicos de la Ciudad de Buenos Aires
Pero además, los motores de búsqueda son muy útiles no
sólo para buscar términos, sino para verificar el uso, el estilo, las palabras que se utilizan con un determinado verbo, o
el adjetivo más común para un sustantivo, y el análisis de los
resultados, podría permitirnos esbozar hasta un registro de
uso, y obtener información que no podemos conseguir en
los diccionarios.
Diccionarios en línea
www.traductores.org.ar
Otros usos de los motores
de búsqueda
Algunos otros recursos
[email protected]
Answers.com: www.answers.com
Es otra herramienta útil y a través de la cooperación con
Google permite utilizar el buscador de Google y, al mismo
tiempo, poder buscar palabras y hacer preguntas desde los
sitios que estamos consultando.
De esta manera, una vez que encontramos el término, también encontraremos la traducción oficial del mismo término
en la lengua meta.
Comisión de Aplicaciones Informáticas
Google Desktop: http://desktop.google.com/
Desde este sitio, se baja el programa. Está diseñado con la
misma tecnología de Google, es una herramienta de búsqueda instantánea pero... en los archivos de nuestra propia
computadora. Permite buscar en correos electrónicos de
Outlook, Outlook Express y en archivos de Word, Excel,
PowerPoint y texto; también realiza búsquedas paralelas en
el disco duro de nuestra computadora y en Internet. Yahoo,
también tiene una herramienta similar.
Descargar