Recuperación en Internet

Anuncio
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Recuperación y Acceso a la
Información
Tema 2. Recuperación en Internet
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Contenidos
Qué son los buscadores Web
Tipología: motores, directorios y metabuscadores
Problemas de los buscadores: Internet invisible
Otros tipos de buscadores
Tendencias en Internet: hacia la Web Semántica?
Recuperación y Acceso a la Información
2
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
¿Qué es un Buscador?
Un buscador es un software que busca en una base de datos o repositorio
documental, conforme a algunos criterios específicos.
Objetivos
—
—
Indizar la red constantemente para permitir la consulta de sus índices
Encontrar los documentos que contengan las palabras clave introducidas por el
usuario
Problemas técnicos de los buscadores sobre Internet
—
—
—
—
Cantidad contenidos y necesidad actualización constante
Diferentes formatos documentales (web, pdf, doc, jpg…)
Diferentes tipos de información (noticias, blogs, …)
Cantidad consultas por segundo
• Pueden generar una sobrecarga y saturación en los servidores Web
• Sobrecarga en la infraestructura de la red de comunicaciones.
Tipos
—
—
—
Motores de búsqueda
Directorios o índices
Meta-buscadores
Recuperación y Acceso a la Información
3
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Motores de búsqueda
¿Qué son?
—
Software con un sistema de recolección de URLs e indización automatizadas
Características
—
—
—
—
Muy exhaustivos
Muy actualizados
Problemas con la calidad de los resultados
• ¿De qué depende que una página esté indizada?
• ¿Y de que aparezca en 1ª posición?
Dificultad para realizar ciertas consultas
• Con palabras ambiguas-> necesidad de aportar contexto
• Con flexibilidad en los términos o frases de búsqueda
• Con frases negativas-> necesidad de reformular Ej. +no*suspenso -> aprobado
• Dependientes del momento. Ej. ¿va a llover mañana?
Ejemplos
—
—
—
—
Google
Teoma (Ask.com)
Bing
Yahoo Search (ahora sustituido por Bing)
Recuperación y Acceso a la Información
4
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Directorios o índices
¿Qué son?
—
—
—
Sitio Web que gestiona una BD de recursos (propios o ajenos)
Las URL están clasificadas en categorías, generalmente temáticas.
Permiten búsqueda por navegación, aunque puedan disponer también de motor de
búsqueda
Características
—
—
—
Clasificación de recursos en base a meta-información, no directamente contenido
• A veces seleccionados y clasificados manualmente
• Otras veces en base a etiquetas asignadas manualmente
Suelen ser temáticos
Si clasificados a mano:
• Datos poco actualizados y poco exhaustivos
• Resultados relevantes y páginas de calidad
Ejemplos de directorios elaborados manualmente
—
—
—
DMOZ
ipl2 (fusión de Internet Public Library (IPL) y the Librarians' Internet Index (LII))
Directorio Yahoo!
Recuperación y Acceso a la Información
5
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Metabuscadores
¿Qué son?
—
Software que agrega los resultados de
varios buscadores
Características
—
—
Sin base de datos propia
Algoritmo para combinación de resultados
Diferenciar de:
—
Multibuscadores: lanzan la misma consulta
en varios motores, pero no agregan los
resultados.
Ej. Mibusqueda
—
Agentes de búsqueda: software con cierta
autonomía y capacidad para adaptación al
usuario. Algunos son para la búsqueda y
recuperación de información.
Ej. Copernic (metabuscador)
Recuperación y Acceso a la Información
6
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Ejemplos de metabuscadores
MetaCrawler
www.metacrawler.com Elimina los duplicados
Dogpile
www.dogpile.com motores distintos según categoría
Vivisimo
www.vivisimo.com/ con clusters y posición en cada buscador
SurfWax
http://www.surfwax.com/ en la opción focus con expansión
de consultas en inglés mediante tesauro
Ixquick
http://www.ixquick.com/ con refinamiento de búsqueda
Beaucoup
un directorio
http://www.beaucoup.com/ combina un metabuscador con
Recuperación y Acceso a la Información
7
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Ventajas de los metabuscadores
Según un informe titulado ―Diferent Engines, Diferent Results‖ llevado a cabo
por Dogpile.com en 2007
[http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf]
Porcentaje de resultados exclusivos de un motor
88.3%
Porcentaje de resultados compartidos entre motores
Dos motores
Tres motores
Cuatro motores
8.9%
2.2%
0.6%
Número de páginas no compartidas en primera posición
Google
Yahoo!
MSN Live
Ask Jeeves
72.7%
69.2%
69.9%
73%
Recuperación y Acceso a la Información
8
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Los 10 buscadores más utilizados
Top 10 Search Providers for August 2009, Ranked by Searches (U.S.)
Search Provider
Searches (000)
Month-on-Month Growth
(%)
Share of Searches (%)
Total
10,812,734
2.9
100
Google
6,986,580
2.6
64.6
Yahoo
1,726,060
-4.2
16
MSN/WindowsLive/Bing
1,156,415
22.1
10.7
AOL
333,231
1.8
3.1
Ask.com
186,270
2.9
1.7
My Web
128,432
0.5
1.2
Comcast
50,328
-21.6
0.5
Yellow Pages
37,923
2.7
0.4
NexTag
31,830
0.4
0.3
Local.com
16,314
2.9
0.2
Source: Nielsen MegaView Search
Recuperación y Acceso a la Información
9
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Bases de datos de los buscadores
¿Influye en la elección del buscador el tamaño de su base de datos?
Tamaño de la base de datos en billones de páginas (2005)
Google
Yahoo!
Ask Jeeves
MSN Live
8.1
4.2 (estimado)
2.5
5
Fuente: Gulli and A. Signorini. Building an open source metasearch engine. In 14th WWW, 2005.
Curiosidad: no todos los buscadores tienen su propia base de datos;
algunos la comparten. Las principales bases de datos de buscadores:
— Google
— Yahoo/MSN
— Teoma
— Gigablast
— Exalead /Quaero
Recuperación y Acceso a la Información
10
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Problemas de los buscadores:
Internet Invisible
Sector de sitios y de páginas Web que no pueden indizar los motores de
búsqueda de uso público
Motivos:
—
—
—
—
—
Acceso mediante clave
Sitos excluídos expresamente
Información contenida en bases de datos, consultable dinámicamente (ej. catálogos
de las bibliotecas)
Formatos no soportados
Tipos de documentos no textuales: imágenes, vídeos, música, etc.
Aproximadamente tiene un 50% más de tráfico que el visible
Hay buscadores específicos para este tipo de información:
-
Turbo10
http://turbo10.com
Internet Invisible http://www.internetinvisible.com
Invisible Web http://www.invisible-web.net/
Complete Planet http://www.completeplanet.com
Librarian's Index to the Internet http://www.lii.org
Infomine http://infomine.ucr.edu/
Look Smart http://search.looksmart.com/
Easy searcher http://www.easysearcher.com sin buscador, sólo con directorio
Research Index http://citeseer.ist.psu.edu/ los primeros en crear un directorio de pdfs
Recuperación y Acceso a la Información
11
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Recuperación de imágenes
Tradicionalmente con metadatos, texto asociado a la imagen por nombre del fichero,
texto de la página, descripción, metadatos asociados
— Google Images
— Flickr http://www.flickr.com/
Para asociar descriptores a las imágenes y mejorar la calidad de su buscador de imágenes,
Google utiliza el Google Image Labeler, donde a modo de concurso los usuarios van
etiquetando las imágenes: http://images.google.com/imagelabeler/
Actualmente ya es posible buscar directamente imágenes similares a una dada:
— Retriev (http://labs.systemone.at/retrievr/) permite realizar búsquedas
directamente por imágenes, ya sea creando una muy simple o introduciendo una
imagen. Buscan en las imágenes de Flickr y lo hace mediante transformada wavelet
—
Similar Images de Google Labs http://similar-images.googlelabs.com/
Otros buscadores de este tipo:
— Riya: ya desaparecido, proporcionaba reconocimiento de caras, tal y como hoy lo
hace Google Picasa
— Tiltomo: utiliza la base de datos de flickr y permite dos tipos de búsqueda, por
materia, color y textura, o sólo por color y textura http://www.tiltomo.com/
Recuperación y Acceso a la Información
12
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Recuperación de música
Área muy nueva en Recuperación de Información (10+ años)
—
—
—
Empezó usando técnicas de recuperación de texto
Audio (wav, mp3…) o Simbólica (midi, musicXML…)
Tiene varios problemas particulares de la música
• Especificar las consultas
• Mostrar los resultados
Tradicionalmente con metadatos (autor, título, álbum…)
Tiene muchas aplicaciones:
—
—
—
—
Identificación
Detección de plagio, de versiones, de influencia entre autores…
Recomendación por gusto musical o similitud
Generación de pentagramas a partir de audio
Hay sistemas a escala industrial, pero la mayoría sigue siendo
experimental sobre colecciones pequeñas
—
—
—
—
Shazam
C-Brahms
Musipedia
Liveplasma
http://www.shazam.com
http://www.cs.helsinki.fi/group/cbrahms/demoengine
http://www.musipedia.org
http://www.liveplasma.com
R.Typke et.al., "A Survey of Music Information Retrieval Systems", ISMIR, 2005
Recuperación y Acceso a la Información
13
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Otros tipos de buscadores: Sistemas
pregunta respuesta
Buscadores Pregunta-Respuesta:
—
—
—
—
Powerset: http://www.powerset.com/
Answers.com http://www.answers.com/
Start http://start.csail.mit.edu/
Natural Finder http://demos.bitext.com/LIVE
Asistentes virtuales
—
—
—
—
—
A.L.I.C.E
Jabberwacky
Ella
Chomsky
IKEA
Recuperación y Acceso a la Información
15
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Web Semántica
Tecnologías: RDF, XML, OWL, SPARQL, …
Principal organismo regulador: W3C
Herramientas:
—
—
—
—
—
Buscador de esquemas semánticos (ej. Swoogle, Watson, Sindice, Falcons)
Editores de esquemas (ej. Protegé)
Api’s para gestión de estándares (más en unos lenguajes que en otros)
Razonadores (ej. Pellet)
Etiquetadores semánticos (ej. Open Calais)
Grandes beneficios para los buscadores: aporta semántica
consensuada, permite inferencia, consultas más complejas
Recuperación y Acceso a la Información
16
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Buscadores de la Web semántica
–
http://dbpedia.org/page/George_Washington
http://iws.seu.edu.cn/services/falcons/
Recuperación y Acceso a la Información
17
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Web 2.0
Entornos cooperativos: wiki, bittorrent, youtube, tagging (flickr, del.icio.us),
bifri.net
—
Notar que se prefiere lenguaje libre, por lo que la recuperación es más a manera de
cluster que de taxonomía (no se confia en un organismo regulador como W3C o
Ontologías y metadatos centralizados de forma poco usable y accesible)
Las aplicaciones y estándares tienen o código abierto o son libres: XML, Dublin
Core, entornos linux, JAVA, javascript, php, apache, mysql....
Se tiene más en cuenta la opinión del usuario: tagging, pagerank, reseñas
amazon, wikipedia.
El web pasa a tener medios estandarizados para publicar en la web: blogs,
myspace, wikipedia (además se pueden personalizar los contenidos y no se
necesita mucho conocimiento por parte del usuario).
Se mejora la accesibilidad: SEO, Adsense, sindicación (sobre todo ATOM)
Los servicios Web tienden a preferirse a bajarse una aplicación:servicios seo,
analytics, apis de google...
Fuentes:
http://en.wikipedia.org/wiki/Web_2
http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html
Recuperación y Acceso a la Información
18
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Web 2.0 vs. Web Semántica
Web 2.0
Web Semántica
Origen
Constatación de la evolución natural de la
Web
Propuesta de Tim Berners para evolucionar la Web
Implantación
Muy alta
Escasa
Coordinación
No existe
Centralizada, sobre todo por el W3C
Foco
Personas
Aplicaciones informáticas
Creación
2003, 1ª conferencia 2004
1999 (Berners-Lee, 1999)
Expresión
Lenguaje libre, expresado mediante
folksonomías, palabras clave denominadas
etiquetas (tags), con problemas de
sinonimia y polisemia
Lenguaje controlado, mediante lenguajes para
expresión de ontologías, KOS y vocabularios de
metadatos
Algunas
características
Descripción de los recursos para mejorar
su distribución gratuita, se comparte
conocimiento y desarrollos
Arquitectura de colaboración
Usabilidad alta
Recurso más útil cuanto más uso tenga
Utilización de un lenguaje estandarizado con sintaxis
uniforme y semántica no ambigua
Interoperabilidad: Intercambio de información entre
cualquier repositorio
Usabilidad escasa
Recuperación y Acceso a la Información
19
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Web 2.0 vs. Web Semántica (II)
Tratan diferentes dimensiones del Web
— La Web Semántica, crea ontologías con semántica muy formalizada y
consensuada dirigida a aplicaciones software.
— La Web Social crea mecanismos locales de colaboración con gran usabilidad y
dirigidos al usuario.
Entran en confrontación por:
—
Las ontologías son poco legibles (cuello de botella por RDF y OWL) por personas y
costosas de crear. Las folksonomías son difíciles de interpretar por aplicaciones
(polisemia y ambigüedad) pero su creación tiene bajo coste y esfuerzo
—
No hay herramientas de la Web Semántica amigables para los usuarios. Los
recursos de la Web Social no son amigables para las aplicaciones
—
Técnicas automáticas de creación de ontologías inmaduras
—
Duplicidades de vocabularios de metadatos (p.e. SKOS-Core, los PSI, Zthes y
MADS)
Recuperación y Acceso a la Información
20
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Web 2.0 vs. Web Semántica (III)
Fuente: Flink: Semantic Web technology for the extraction and analysis
of social networks. Peter Mika, 2005
Recuperación y Acceso a la Información
21
Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado
Posibilidades evolución Web
Evolución?
Web 2.0
Web 2.0
Convergencia?
Web Semántica
Convivencia?
Web Semántica
Web 3.0
Web 2.0
Web Semántica
La evolución no se hará de forma natural pues parten de diferentes
dimensiones
La convivencia tiene sentido como mecanismos de bajo coste para
representar recursos de la Web Invisible con escaso valor
La convergencia implica tomar medidas para que la evolución sea
posible
Recuperación y Acceso a la Información
22
Descargar