Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Recuperación y Acceso a la Información Tema 2. Recuperación en Internet Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Contenidos Qué son los buscadores Web Tipología: motores, directorios y metabuscadores Problemas de los buscadores: Internet invisible Otros tipos de buscadores Tendencias en Internet: hacia la Web Semántica? Recuperación y Acceso a la Información 2 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado ¿Qué es un Buscador? Un buscador es un software que busca en una base de datos o repositorio documental, conforme a algunos criterios específicos. Objetivos — — Indizar la red constantemente para permitir la consulta de sus índices Encontrar los documentos que contengan las palabras clave introducidas por el usuario Problemas técnicos de los buscadores sobre Internet — — — — Cantidad contenidos y necesidad actualización constante Diferentes formatos documentales (web, pdf, doc, jpg…) Diferentes tipos de información (noticias, blogs, …) Cantidad consultas por segundo • Pueden generar una sobrecarga y saturación en los servidores Web • Sobrecarga en la infraestructura de la red de comunicaciones. Tipos — — — Motores de búsqueda Directorios o índices Meta-buscadores Recuperación y Acceso a la Información 3 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Motores de búsqueda ¿Qué son? — Software con un sistema de recolección de URLs e indización automatizadas Características — — — — Muy exhaustivos Muy actualizados Problemas con la calidad de los resultados • ¿De qué depende que una página esté indizada? • ¿Y de que aparezca en 1ª posición? Dificultad para realizar ciertas consultas • Con palabras ambiguas-> necesidad de aportar contexto • Con flexibilidad en los términos o frases de búsqueda • Con frases negativas-> necesidad de reformular Ej. +no*suspenso -> aprobado • Dependientes del momento. Ej. ¿va a llover mañana? Ejemplos — — — — Google Teoma (Ask.com) Bing Yahoo Search (ahora sustituido por Bing) Recuperación y Acceso a la Información 4 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Directorios o índices ¿Qué son? — — — Sitio Web que gestiona una BD de recursos (propios o ajenos) Las URL están clasificadas en categorías, generalmente temáticas. Permiten búsqueda por navegación, aunque puedan disponer también de motor de búsqueda Características — — — Clasificación de recursos en base a meta-información, no directamente contenido • A veces seleccionados y clasificados manualmente • Otras veces en base a etiquetas asignadas manualmente Suelen ser temáticos Si clasificados a mano: • Datos poco actualizados y poco exhaustivos • Resultados relevantes y páginas de calidad Ejemplos de directorios elaborados manualmente — — — DMOZ ipl2 (fusión de Internet Public Library (IPL) y the Librarians' Internet Index (LII)) Directorio Yahoo! Recuperación y Acceso a la Información 5 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Metabuscadores ¿Qué son? — Software que agrega los resultados de varios buscadores Características — — Sin base de datos propia Algoritmo para combinación de resultados Diferenciar de: — Multibuscadores: lanzan la misma consulta en varios motores, pero no agregan los resultados. Ej. Mibusqueda — Agentes de búsqueda: software con cierta autonomía y capacidad para adaptación al usuario. Algunos son para la búsqueda y recuperación de información. Ej. Copernic (metabuscador) Recuperación y Acceso a la Información 6 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Ejemplos de metabuscadores MetaCrawler www.metacrawler.com Elimina los duplicados Dogpile www.dogpile.com motores distintos según categoría Vivisimo www.vivisimo.com/ con clusters y posición en cada buscador SurfWax http://www.surfwax.com/ en la opción focus con expansión de consultas en inglés mediante tesauro Ixquick http://www.ixquick.com/ con refinamiento de búsqueda Beaucoup un directorio http://www.beaucoup.com/ combina un metabuscador con Recuperación y Acceso a la Información 7 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Ventajas de los metabuscadores Según un informe titulado ―Diferent Engines, Diferent Results‖ llevado a cabo por Dogpile.com en 2007 [http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf] Porcentaje de resultados exclusivos de un motor 88.3% Porcentaje de resultados compartidos entre motores Dos motores Tres motores Cuatro motores 8.9% 2.2% 0.6% Número de páginas no compartidas en primera posición Google Yahoo! MSN Live Ask Jeeves 72.7% 69.2% 69.9% 73% Recuperación y Acceso a la Información 8 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Los 10 buscadores más utilizados Top 10 Search Providers for August 2009, Ranked by Searches (U.S.) Search Provider Searches (000) Month-on-Month Growth (%) Share of Searches (%) Total 10,812,734 2.9 100 Google 6,986,580 2.6 64.6 Yahoo 1,726,060 -4.2 16 MSN/WindowsLive/Bing 1,156,415 22.1 10.7 AOL 333,231 1.8 3.1 Ask.com 186,270 2.9 1.7 My Web 128,432 0.5 1.2 Comcast 50,328 -21.6 0.5 Yellow Pages 37,923 2.7 0.4 NexTag 31,830 0.4 0.3 Local.com 16,314 2.9 0.2 Source: Nielsen MegaView Search Recuperación y Acceso a la Información 9 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Bases de datos de los buscadores ¿Influye en la elección del buscador el tamaño de su base de datos? Tamaño de la base de datos en billones de páginas (2005) Google Yahoo! Ask Jeeves MSN Live 8.1 4.2 (estimado) 2.5 5 Fuente: Gulli and A. Signorini. Building an open source metasearch engine. In 14th WWW, 2005. Curiosidad: no todos los buscadores tienen su propia base de datos; algunos la comparten. Las principales bases de datos de buscadores: — Google — Yahoo/MSN — Teoma — Gigablast — Exalead /Quaero Recuperación y Acceso a la Información 10 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Problemas de los buscadores: Internet Invisible Sector de sitios y de páginas Web que no pueden indizar los motores de búsqueda de uso público Motivos: — — — — — Acceso mediante clave Sitos excluídos expresamente Información contenida en bases de datos, consultable dinámicamente (ej. catálogos de las bibliotecas) Formatos no soportados Tipos de documentos no textuales: imágenes, vídeos, música, etc. Aproximadamente tiene un 50% más de tráfico que el visible Hay buscadores específicos para este tipo de información: - Turbo10 http://turbo10.com Internet Invisible http://www.internetinvisible.com Invisible Web http://www.invisible-web.net/ Complete Planet http://www.completeplanet.com Librarian's Index to the Internet http://www.lii.org Infomine http://infomine.ucr.edu/ Look Smart http://search.looksmart.com/ Easy searcher http://www.easysearcher.com sin buscador, sólo con directorio Research Index http://citeseer.ist.psu.edu/ los primeros en crear un directorio de pdfs Recuperación y Acceso a la Información 11 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Recuperación de imágenes Tradicionalmente con metadatos, texto asociado a la imagen por nombre del fichero, texto de la página, descripción, metadatos asociados — Google Images — Flickr http://www.flickr.com/ Para asociar descriptores a las imágenes y mejorar la calidad de su buscador de imágenes, Google utiliza el Google Image Labeler, donde a modo de concurso los usuarios van etiquetando las imágenes: http://images.google.com/imagelabeler/ Actualmente ya es posible buscar directamente imágenes similares a una dada: — Retriev (http://labs.systemone.at/retrievr/) permite realizar búsquedas directamente por imágenes, ya sea creando una muy simple o introduciendo una imagen. Buscan en las imágenes de Flickr y lo hace mediante transformada wavelet — Similar Images de Google Labs http://similar-images.googlelabs.com/ Otros buscadores de este tipo: — Riya: ya desaparecido, proporcionaba reconocimiento de caras, tal y como hoy lo hace Google Picasa — Tiltomo: utiliza la base de datos de flickr y permite dos tipos de búsqueda, por materia, color y textura, o sólo por color y textura http://www.tiltomo.com/ Recuperación y Acceso a la Información 12 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Recuperación de música Área muy nueva en Recuperación de Información (10+ años) — — — Empezó usando técnicas de recuperación de texto Audio (wav, mp3…) o Simbólica (midi, musicXML…) Tiene varios problemas particulares de la música • Especificar las consultas • Mostrar los resultados Tradicionalmente con metadatos (autor, título, álbum…) Tiene muchas aplicaciones: — — — — Identificación Detección de plagio, de versiones, de influencia entre autores… Recomendación por gusto musical o similitud Generación de pentagramas a partir de audio Hay sistemas a escala industrial, pero la mayoría sigue siendo experimental sobre colecciones pequeñas — — — — Shazam C-Brahms Musipedia Liveplasma http://www.shazam.com http://www.cs.helsinki.fi/group/cbrahms/demoengine http://www.musipedia.org http://www.liveplasma.com R.Typke et.al., "A Survey of Music Information Retrieval Systems", ISMIR, 2005 Recuperación y Acceso a la Información 13 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Otros tipos de buscadores: Sistemas pregunta respuesta Buscadores Pregunta-Respuesta: — — — — Powerset: http://www.powerset.com/ Answers.com http://www.answers.com/ Start http://start.csail.mit.edu/ Natural Finder http://demos.bitext.com/LIVE Asistentes virtuales — — — — — A.L.I.C.E Jabberwacky Ella Chomsky IKEA Recuperación y Acceso a la Información 15 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Web Semántica Tecnologías: RDF, XML, OWL, SPARQL, … Principal organismo regulador: W3C Herramientas: — — — — — Buscador de esquemas semánticos (ej. Swoogle, Watson, Sindice, Falcons) Editores de esquemas (ej. Protegé) Api’s para gestión de estándares (más en unos lenguajes que en otros) Razonadores (ej. Pellet) Etiquetadores semánticos (ej. Open Calais) Grandes beneficios para los buscadores: aporta semántica consensuada, permite inferencia, consultas más complejas Recuperación y Acceso a la Información 16 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Buscadores de la Web semántica – http://dbpedia.org/page/George_Washington http://iws.seu.edu.cn/services/falcons/ Recuperación y Acceso a la Información 17 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Web 2.0 Entornos cooperativos: wiki, bittorrent, youtube, tagging (flickr, del.icio.us), bifri.net — Notar que se prefiere lenguaje libre, por lo que la recuperación es más a manera de cluster que de taxonomía (no se confia en un organismo regulador como W3C o Ontologías y metadatos centralizados de forma poco usable y accesible) Las aplicaciones y estándares tienen o código abierto o son libres: XML, Dublin Core, entornos linux, JAVA, javascript, php, apache, mysql.... Se tiene más en cuenta la opinión del usuario: tagging, pagerank, reseñas amazon, wikipedia. El web pasa a tener medios estandarizados para publicar en la web: blogs, myspace, wikipedia (además se pueden personalizar los contenidos y no se necesita mucho conocimiento por parte del usuario). Se mejora la accesibilidad: SEO, Adsense, sindicación (sobre todo ATOM) Los servicios Web tienden a preferirse a bajarse una aplicación:servicios seo, analytics, apis de google... Fuentes: http://en.wikipedia.org/wiki/Web_2 http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html Recuperación y Acceso a la Información 18 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Web 2.0 vs. Web Semántica Web 2.0 Web Semántica Origen Constatación de la evolución natural de la Web Propuesta de Tim Berners para evolucionar la Web Implantación Muy alta Escasa Coordinación No existe Centralizada, sobre todo por el W3C Foco Personas Aplicaciones informáticas Creación 2003, 1ª conferencia 2004 1999 (Berners-Lee, 1999) Expresión Lenguaje libre, expresado mediante folksonomías, palabras clave denominadas etiquetas (tags), con problemas de sinonimia y polisemia Lenguaje controlado, mediante lenguajes para expresión de ontologías, KOS y vocabularios de metadatos Algunas características Descripción de los recursos para mejorar su distribución gratuita, se comparte conocimiento y desarrollos Arquitectura de colaboración Usabilidad alta Recurso más útil cuanto más uso tenga Utilización de un lenguaje estandarizado con sintaxis uniforme y semántica no ambigua Interoperabilidad: Intercambio de información entre cualquier repositorio Usabilidad escasa Recuperación y Acceso a la Información 19 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Web 2.0 vs. Web Semántica (II) Tratan diferentes dimensiones del Web — La Web Semántica, crea ontologías con semántica muy formalizada y consensuada dirigida a aplicaciones software. — La Web Social crea mecanismos locales de colaboración con gran usabilidad y dirigidos al usuario. Entran en confrontación por: — Las ontologías son poco legibles (cuello de botella por RDF y OWL) por personas y costosas de crear. Las folksonomías son difíciles de interpretar por aplicaciones (polisemia y ambigüedad) pero su creación tiene bajo coste y esfuerzo — No hay herramientas de la Web Semántica amigables para los usuarios. Los recursos de la Web Social no son amigables para las aplicaciones — Técnicas automáticas de creación de ontologías inmaduras — Duplicidades de vocabularios de metadatos (p.e. SKOS-Core, los PSI, Zthes y MADS) Recuperación y Acceso a la Información 20 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Web 2.0 vs. Web Semántica (III) Fuente: Flink: Semantic Web technology for the extraction and analysis of social networks. Peter Mika, 2005 Recuperación y Acceso a la Información 21 Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Posibilidades evolución Web Evolución? Web 2.0 Web 2.0 Convergencia? Web Semántica Convivencia? Web Semántica Web 3.0 Web 2.0 Web Semántica La evolución no se hará de forma natural pues parten de diferentes dimensiones La convivencia tiene sentido como mecanismos de bajo coste para representar recursos de la Web Invisible con escaso valor La convergencia implica tomar medidas para que la evolución sea posible Recuperación y Acceso a la Información 22