Se han convertido en unas herramientas tan habituales como

Anuncio
Motores de búsqueda: Presente y retos
Paulo Villegas Núñez et al
Tecnologías
Se han convertido en unas herramientas tan habituales como esenciales en la navegación por la Red
pero, ¿cuál es la situación actual de los motores de búsqueda?, ¿qué desafíos tienen ante sí?. Obtenga la
respuesta en este interesante artículo.
Descargar archivo de audio (18:44 min / 4,29 Mb) 1.- Introducción
El concepto de búsqueda ha estado presente desde los primeros pasos de la informática y ha ido
madurando y evolucionando hasta nuestros días. Los primeros algoritmos de búsqueda trataban de
localizar de la forma más rápida posible datos almacenados dentro de una base de datos local. Pronto se
descubrió que mediante la indexación de estos datos el proceso de búsqueda podía ser acelerado
considerablemente. Así surgieron los primeros motores de búsqueda, cuya misión consistía en facilitar la
localización de contenidos dentro de bases de datos. Estos buscadores trabajaban exclusivamente con
datos textuales y no eran capaces de realizar una adquisición activa de contenidos. El operario del sistema
era el encargado de introducirlos en la base de datos.
Las bases de datos distribuidas, y sobre todo la aparición de Internet fueron la clave para la creación de un
nuevo tipo de concepto de buscador: aquel que de forma activa es capaz de explorar e indexar los
contenidos con independencia de que se haya solicitado su búsqueda o no. Así llegamos al concepto de
buscador existente en la actualidad: un sistema informático que indexa archivos almacenados en
servidores, como, por ejemplo, los buscadores de Internet. Las búsquedas se hacen con palabras clave o
con árboles jerárquicos por temas, y el resultado de la búsqueda es un listado de direcciones en las que se
mencionan temas relacionados con las palabras clave buscadas.
Los motores de búsqueda de hoy en día se basan en tecnologías muy maduras y establecidas que ya han
generado negocios de gran éxito comercial. Sin embargo, el contexto actual parece estar alcanzando un
punto crítico en el que tendrá lugar una nueva batalla por los contenidos audiovisuales. Una gran cantidad
de contenidos de vídeo y audio están apareciendo en Internet, y éstos no pueden ser tratados del mismo
modo que la información textual. Por tanto, será necesario desarrollar nuevas tecnologías que permitan
enfrentarse a los retos y problemas que suponen.
Esas tecnologías pueden dividirse en tres fases, dentro del proceso de búsqueda, como son:
1. La adquisición de contenidos.
En la adquisición de contenidos el buscador se vale de navegadores automáticos (también conocidos
como 'bots' o 'spiders') encargados de descubrir nuevos contenidos y enviarlos al sistema para su
indexación.
2. La indexación de contenidos.
La diferencia más significativa entre un buscador tradicional y la nueva generación de buscadores
multimedia radica en la etapa de indexación de contenidos. Los nuevos buscadores añadirán aquí un
análisis de los contenidos, haciendo posible la extracción de información adicional, que será elaborada
hasta llegar a conceptos de alto nivel semántico.
3. La búsqueda de la petición del usuario.
Este último aspecto consiste en la búsqueda propiamente dicha. La interacción con el usuario será el
punto que más cambiará en los próximos años. Actualmente la interfaz de búsqueda es muy primitiva y
no se ha adaptado aún al mundo multimedia. La mezcla de los nuevos requisitos multimedia y el aumento
de la dependencia de la tecnología móvil demanda que se desarrolle de nuevo una interfaz, y quizás
también el display correspondiente.
Los motores de búsqueda implementarán progresivamente sistemas para recuperar y generar la
información de las anotaciones de los contenidos multimedia, implementándose primero los sistemas
manuales, luego los sistemas semiautomáticos (incluyendo subsistemas que implementen soporte a la
anotación), y finalmente los sistemas completamente automatizados. 2. Contexto de los motores de
búsqueda audiovisuales
Los contenidos audiovisuales han estado ligados al mundo de la informática de consumo desde la década
de los años 90. Este vínculo, lejos de debilitarse, se ha ido haciendo progresivamente más estrecho con el
paso de los años. El aumento del ancho de banda de los accesos residenciales a Internet, junto a la
aparición de nuevos codecs de vídeo y audio de una gran eficiencia, han sido los responsables de
fortalecer aún más esta estrecha unión, hasta el punto de hacerla inseparable.
En la actualidad, la red se encuentra repleta de contenidos audiovisuales, y éstos suponen un desafío
radicalmente distinto para los motores de búsqueda. Las tecnologías maduras que se utilizan para
localizar, indexar y buscar contenidos textuales no son válidas para estos nuevos contenidos
audiovisuales, que suponen un problema de otra naturaleza. En este sentido, los contenidos audiovisuales
son difíciles de analizar y de 'comprender' por un programa informático, mucho más que el texto.
Pero esta aparición de contenidos audiovisuales no es en absoluto un fenómeno aislado, sino que es parte
de una transformación tecnológica que abarca multitud de campos y que afectará a nuestro modo de
entender, producir y consumir la tecnología. Esta transformación de las tecnologías de búsqueda y de los
servicios es una transformación de escala y de tipo, abriendo nuevas posibilidades comerciales para las
organizaciones, que pueden tratar con un nuevo nivel de complejidad no solamente en almacenamiento y
recuperación, sino también en dinámica de la información.
Este nuevo entorno que se está perfilando impondrá nuevos requisitos en los motores de búsqueda, los
cuales deberán se capaces de:
Tratar con un conjunto completo de diferentes tipos de información (texto, e-mail, sonido,
anotaciones, imágenes) y fundir estos diversos tipos de fuentes en las nuevas interfaces
audiovisuales en tiempo real. Será necesario manejar de la misma forma contenidos de distinta
naturaleza.
Proporcionar soporte a la toma de decisiones sobre la resolución de consultas, bien sea mediante
análisis o mediante recomendaciones validadas.
Responder a los cambios rápidos en la estructura de los mercados y en las necesidades de los
usuarios (cambios que han ayudado a crear gigantes globales como Google en un tiempo récord de
siete años). Son de esperar cambios significativos en el mercado de los buscadores, ya que la nueva
generación de motores de búsqueda audiovisuales supondrá una nueva batalla en el sector.
Explotar el contexto geográfico, social, político, lingüístico y cultural en el cual será usada la
información. Uno de los mayores esfuerzos deberá centrarse en la adaptación lingüística del
buscador a los contenidos. Es importante que el motor de búsqueda sea capaz de extraer
información semántica, y para ello debe ser capaz de 'entender' el idioma que utilicen los
contenidos; incluso será posible encontrar contenidos que mezclen más de un idioma.
Crear tecnologías subyacentes que distribuyan los nuevos servicios de búsqueda y recuperación.
Tras todos estos cambios, el concepto que actualmente tenemos de buscador cambiará radicalmente,
dejando obsoleto al actual. Estos nuevos navegadores serán mucho más fáciles de usar, más inteligentes, y
sus resultados se acercarán mucho más a lo que el usuario demande, ajustándose incluso a sus
preferencias personales. Estos nuevos buscadores deberán tener en cuenta muchos nuevos conceptos,
como son:
La gestión de la movilidad.
La explotación de la realidad.
Las nuevas arquitecturas de servicios, como la computación peer-to-peer.
El nuevo papel de las redes sociales en el ranking de relevancia.
La clasificación e indexado de las características de los nuevos tipos de contenidos.
La integración de datos en el terminal móvil.
La búsqueda sensible al contexto.
La interpretación de emociones.
La trascendencia de la relevancia.
Los expertos creen que necesitamos crear 'campos de conocimiento' específicos del usuario para mantener
el contexto en sus múltiples búsquedas. Esto puede cubrir los diferentes elementos del contexto, como son
el lugar, la hora y el papel del usuario, aunque también los contextos creados por los documentos
multimedia, como podrían ser la similitud en la satisfacción o la emoción.
Con todo ello, se abre la puerta a la entrada de los nuevos contenidos multimedia en el mundo de los
buscadores. 3.- descripción de un sistema de búsqueda
En la Figura 1 se presenta un diagrama de bloques tipo de un sistema de búsqueda. El diagrama incluye
diferentes componentes y funcionalidades adicionales respecto a los sistemas de búsqueda tradicionales.
Algunos de estos componentes todavía están en desarrollo, pero su integración en la arquitectura permite
aumentar las prestaciones de estos sistemas y mejorar los servicios ofertados por ellos.
Figura 1. Diagrama de bloques de un sistema de búsqueda actual
En la arquitectura presentada, el desarrollo de un sistema de búsqueda comienza por medio del procesado
de los contenidos a indexar. Para ello, la primera etapa de la arquitectura consiste, por un lado, en un
análisis y extracción de características y, por otro, en una etapa de anotación semiautomática, siendo el
objetivo de ambos bloques la realización de un análisis profundo, también a nivel semántico, de los
contenidos. Posteriormente, la etapa de gestión del conocimiento genera las descripciones de los
contenidos a partir de los resultados previos, y las agrupa por medio de ontologías [1] y otras estructuras
semánticas. A continuación, una vez que se cuenta con los contenidos y con sus descripciones, el sistema
puede realizar su procesado para ofrecer nuevas funcionalidades y servicios de búsqueda. Para ello se
hace uso de un motor de búsqueda, de medidas de relevancia, que determinan en qué medida un
documento satisface una consulta, y de un módulo de consulta, responsable de la importante tarea de
interactuar con el usuario para que éste defina la búsqueda a realizar. Por último, la distribución y
presentación de los resultados de la búsqueda resulta crucial para que la interacción usuario-buscador, que
comenzó en el módulo de consulta, sea lo más satisfactoria posible.
La anotación de los contenidos multimedia es un proceso que puede resultar complicado y tedioso para un
anotador humano. Para simplificar este proceso existen diversas aplicaciones que facilitan en gran medida
esta labor. La Figura 2 muestra una de ellas.
Figura 2. Captura de una aplicación de ayuda a la anotación
En cuanto a la presentación de los resultados, el procedimiento más habitual en la actualidad consiste en
presentar los resultados de modo secuencial, en una lista en la que los resultados que más se aproximan al
objetivo de la búsqueda ocuparán los primeros puestos. Este sistema de presentación, aunque sencillo, no
aprovecha las posibilidades que ofrecen la clasificación y agrupación jerárquica de contenidos. 4.Desafíos futuros El problema de escala
Actualmente existe el consenso generalizado de que los requisitos de velocidad y volumen de las tareas de
recuperación de información a las que se enfrentan los proveedores de servicios, tanto en el sector privado
como en el público, están aumentando a gran velocidad, con clientes que demandan servicios de
almacenamiento del orden de terabytes, y clientes profesionales que comienzan a plantear el
almacenamiento de petabytes (aproximadamente el tamaño requerido para almacenar el histórico actual
de todos los contenidos web), usando arquitecturas capaces de distribuir miles de consultas por segundo y
con mejoras en la precisión de los resultados. Las búsquedas rápidas demandan soluciones para resolver
estos nuevos retos de escala y del tipo de contenidos, creando la necesidad de investigar técnicas
audiovisuales que estén construidas sobre las nuevas formas de comportamiento de los usuarios.
La aparición de multitud de nuevos contenidos audiovisuales en la red no hará más que agravar esta
situación. El ancho de banda necesario para transmitir una misma información en forma audiovisual es
varios órdenes de magnitud mayor que si, por ejemplo, se envía una trascripción textual. El volumen de
información que necesita ser coherentemente categorizada, etiquetada, anotada y almacenada está
incrementándose desde los actuales pocos gigabytes a los petabytes del mañana. Este crecimiento es en
parte el resultado del uso de objetos multimedia, aunque también se debe a recambios en la forma en que
la industria, los organismos de investigación y los usuarios en general perciben el propósito de la
búsqueda, ya que ésta es hoy en día el método elegido para interactuar con la información. La
familiaridad de los clientes con estos motores de búsqueda está demandando más volumen de uso y una
mayor precisión.
Las nuevas generaciones de buscadores deberán utilizar tecnologías escalables, que sean sencillas de
ampliar a medida que el número de contenidos y de usuarios vaya en aumento. La extracción de
significado de los contenidos: la brecha semántica
La estructura del material multimedia es radicalmente diferente a los documentos de texto. Es necesario
obtener información semántica de los datos multimedia para poder indexarlos y clasificarlos
adecuadamente.
Al realizar un análisis automático sobre un contenido audiovisual es posible extraer mucha información
sobre él, sin embargo, esta información será, en su mayor parte, de muy bajo nivel. En este sentido, en un
vídeo, por ejemplo, es posible distinguir colores, secciones, detectar cambios de plano, velocidad de las
formas, etc., pero es difícil lograr que el sistema 'entienda' el vídeo. Por tanto, es muy complicado extraer
una información semántica partiendo de estos datos de bajo nivel.
Por otro lado, una vez que se dispone de la información semántica de alto nivel, es posible indexar el
contenido y realizar búsquedas eficientes sobre él. El eslabón existente entre estos dos puntos es un
problema mayor de lo que se podría pensar en una primera aproximación, puesto que requiere que un
sistema informático realice tareas que, a pesar de que a nosotros nos resultan triviales, requieren un
elevado nivel de inteligencia. No pueden ser resueltas apoyándose únicamente en una enorme capacidad
de cálculo.
Este tipo de efecto se está produciendo actualmente en los buscadores multimedia, y es lo que se
denomina 'brecha semántica'. La interacción con el usuario
La interacción con el usuario es un factor crítico en el éxito o fracaso de un buscador. Este es un campo
complicado, puesto que conjuga factores tecnológicos con psicológicos y del conocimiento. Sin embargo,
existen muchos pequeños problemas abiertos en el campo de las interfaces de los buscadores multimedia,
entre estos problemas se puede destacar lo siguiente:
Las interfaces de usuario necesarias para interactuar con los motores multimedia necesitan enfoques
nuevos, tanto para lanzar búsquedas (las palabras clave no son suficientes), como para presentarlas
y para establecer y guardar sesiones de búsqueda.
Es importante avanzar en la personalización de los buscadores, de forma que los resultados estén
adaptados a cada usuario, tanto en lo que respecta a la presentación como a la relevancia.
Los terminales móviles plantean desafíos especiales, algo que suele ser pasado por alto.
En el mejor de los casos existen interfaces llamativas y originales, pero sin suficiente énfasis en su
usabilidad.
Hay que investigar en lo relativo a la presentación de la información, no dejando, por ejemplo, que
al usuario se le presente una lista plana de 1.000 resultados. Esto incluye la implementación de
listas de ordenación y de clasificación con significado, así como la organización de los resultados
con técnicas de agrupación o clustering.
Hay que mejorar la visualización final de los resultados de búsqueda. Los contenidos multimedia
son difíciles de presentar de forma eficiente, especialmente cuando su volumen o duración es alto, o
en presencia de grandes colecciones de material.
Hay que generar eficientemente resúmenes con criterios semánticos, algo especialmente difícil para
el material multimedia.
La distorsión en los buscadores
Un buscador detecta la relevancia de un resultado y ordena el conjunto de estos resultados según dicha
relevancia. Esta relevancia puede depender de lo 'interconectada' que esté cada página con el resto de la
red. Por desgracia, este sistema es manipulable, ya que es posible optimizar una página web de modo que
alcance una posición superior a la que realmente le correspondería.
La optimización de los motores de búsqueda, denominada SEO (Search Engine Optimization), es un
conjunto de métodos dirigidos a mejorar el ranking de un sitio web en los listados de los buscadores.
Existe una importante industria alrededor de esta optimización a la que también se refiere el término SEO
que lleva a cabo proyectos de optimización de sitios web.
La distorsión en los buscadores multimedia plantea nuevos retos que esconden un alto grado de interés
comercial tanto para los proveedores de tecnologías SEO como para los anunciantes. En este conflicto de
intereses lo habitual es que el buscador intente permanecer lo más neutral posible, puesto que los usuarios
no 'simpatizarían' con un buscador que fuese fácilmente manipulable. La estrategia más habitual es
combatir estas prácticas y, además, permitir la inserción de anuncios inteligentes (en función de la
búsqueda realizada) manteniendo clara la división entre los resultados de la búsqueda y los anuncios. 5.Conclusiones
La tecnología de los buscadores de contenidos audiovisuales se encuentra actualmente en pleno
desarrollo. La nueva generación de motores de búsqueda va a suponer un cambio radical en la forma de
acceso a los contenidos audiovisuales.
Los motores de búsqueda facilitan la localización de este tipo de contenidos, permitiendo su exploración e
indexación de forma activa dentro del sistema de almacenamiento del buscador del que forman parte. Los
contenidos almacenados en los nuevos buscadores audiovisuales pueden, a su vez, ser introducidos,
indexados y catalogados dentro del sistema de almacenamiento de manera automática, y de manera más
eficiente. En este artículo se han repasado los aspectos más relevantes para proporcionar una visión
general de los nuevos buscadores audiovisuales.
Hay que indicar, por último, que se presentan una serie de desafíos a superar en el futuro cercano para
solventar los diversos problemas que se plantean actualmente en el entorno de los buscadores multimedia.
Estos desafíos consisten básicamente en superar el problema de escala, para permitir que la creciente
cantidad de información actual sea almacenada e indexada de manera eficiente para su posterior
búsqueda, y en cerrar la brecha semántica, es decir, el espacio que existe entre la información semántica
de alto nivel (como es, por ejemplo, la descripción de los objetos que aparecen en una escena de una
secuencia de vídeo) y la de bajo nivel (como es, por ejemplo, la información a nivel de píxel del color de
una región en una imagen, o un cambio de plano en una secuencia de vídeo). Otros retos a superar en el
futuro son la mejora de la interacción con el usuario, que permita un acceso amigable y natural al
buscador por parte de éste, y la eliminación de la distorsión en los buscadores, que permita una mayor
rentabilidad en su explotación.
Este artículo es sólo una introducción a un tema de gran trascendencia para la Internet actual y sus
servicios que se tratará con más extensión en próximos artículos.
Paulo Villegas Núñez (Telefónica I+D) et al.
Este artículo es un extracto del artículo 'Motores de búsqueda para contenidos audiovisuales' publicado en
el
número
39
de
la
revista
Comunicaciones
I+D
(
http://www.tid.es/documentos/revista_comunicaciones_i+d/numero39.pdf). Si se desea profundizar más
en los temas descritos en este extracto, se recomienda la lectura de dicho artículo. Descargar archivo de
audio (18:44 min / 4,29 Mb)
Descargar