Instituto Nacional de Propiedad Industrial (INAPI) Herramientas Modernas Ivette Ortiz M. [email protected] IALE TECNOLOGIA CHILE-2009 TEMARIO Panorama General Herramientas de soporte para las distintas fases del proceso de explotación del conocimiento Búsqueda y recuperación de la Información Análisis de la Información Minería de datos y minería de textos. Difusión y valorización de la Información Las Intranets, la Sindicación de Contenidos (RSS), Sistemas de alerta por e-mail, los boletines Ejemplos de plataformas integradoras VIGIALE Un caso de éxito. Plataforma VIGIA de SalmonChile. Panorama General PLATAFORMAS INTEGRADORAS Búsqueda y recuperación de la Información Internet: Problemática Veracidad de la información Cobertura “percibida” y real de internet Web invisible o profunda Ruido informativo y saturación Adquisición, tratamiento y explotación Es más importante disponer de información de calidad que de gran cantidad de información Búsqueda y recuperación de la Información Podría compararse la Web a un gigantesco iceberg, en continuo crecimiento. Su parte sumergida depende de la evolución de las tecnologías de los motores. Búsquedas con Google Web Invisible 80% Web Invisible, Web profunda... Algunos autores prefieren hablar de Web superficial (Surface Web) y Web profunda (Deep Web). Los motores indexan la Web superficial pero la Web profunda puede ser visible mediante otras tecnologías perfeccionadas. A finales del 2005 se estimaba que la Web Visible contenía 64 millardos* de páginas. Google accedía a 8,1 millardos y Yahoo! Search a 19,2 millardos. *: millardos = mil millones Web invisible Razones por las que un motor no accede a una parte de la Web: 1. Cuando los documentos o las bases de datos son demasiado voluminosos para que puedan indexarse completamente. 2. Cuando las páginas están protegidas por su autor. 3. Cuando las páginas se generan dinámicamente, por ejemplo, a consecuencia de una solicitud. 4. Cuando las páginas están protegidas por un identificador login y una contraseña. 5. Cuando los motores de búsqueda no reconocen el formato de los documentos. 6. Cuando las páginas no tienen enlaces con otras. Ruido documental Elevado numero de respuestas que no responden a la estrategia de búsqueda debido a: Tamaño de las bases de datos La indización a texto completo La recuperación por sistemas estadísticos Lógica difusa... Soluciones: Focalizar la búsqueda con más términos y más precisos. Búsqueda en el texto libre usando booleanos, delimitadores (título y dirección), adyacencia estricta (uso de comillas). Uso de lenguaje natural siempre que sea posible. Uso de operadores de expansión, relación o similitud (like, related). Fuente: I.F. Aguillo, CINDOC-CSIC (2003) Búsqueda y recuperación de la Información Algunos buscadores: Scirus www.scirus.com Clusty http://clusty.com/ Kartoo http://www.kartoo.com/ Automatización de la recuperación de Información. Recuperación mediante aplicaciones asociadas a Bases de datos específicas. Ejemplos: GoPubMed, buscador basado en conocimientos (knowledgebased) para textos biomédicos. http://www.gopubmed.com/ Biomedexpert www.biomedexperts.com Desarrollo de Crawlers específicos Análisis de la Información Datos Datos Extracción Extracción Información Información Interpretaci Interpretaci ón ón Conocimiento Conocimiento MINERIA DE DATOS Data Mining es el proceso de extracción de una base de datos estructurada de la información relevante, su análisis e interpretación, tomando como base los propósitos de la organización. Acción Acción Análisis de la Información Planteamiento Altos volúmenes de información estructurada sobre actividades de todo tipo desarrolladas durante años En esta información pueden encontrarse asociaciones y patrones no visibles directamente Necesario aplicar técnicas matemáticas y estadísticas y herramientas informáticas para identificar relaciones Estas relaciones pueden mostrar el conocimiento derivado del dominio estudiado Bases de Datos - Información estructurada Ejemplo de artículo Registro de la base de datos Compendex Plus, del distribuidor DIALOG DIALOG NO: 03917915 El Mothly No: EIP94081363930 Title: Correlation of structure and electric properties of high temperature superconducting wire with its fabrication conditions Corporate source: Inst Metallurgii im. A.A. Bajkova RAN, Moscow, Russia Publication year: 1994 Source: Fizika i Khimiya Obrabothi Materialov N 2 Mar-Apr 1994. p 138-142 CODEN: FKOMAT ISSN: 0015-3214 Language: Russian Document Type: JA; (Journal Article) Treatment code: X; (Experimental); A; (Applications) Abstract: Dependence of high temperature superconducting wire structure and properties on the conditions of thermal and pressure treatment has been studied. The influence of temperature and time of annealing and of cooling rate on critical temperature and current density of superconductor has been found. Descriptors: *Superconductivity; Superconducting materials; Wire; Structure (composition); Heat treatment; Annealing; Cooling; Superconducting transition temperature; Deformation. Identifiers: High temperature superconducting wire; Pressure treatment; Time of annealing; Cooling rate; Current density; Superconducting wire microstructure. Classification Codes: 712.1 (Semiconducting Materials) 712 (Electronic & Thermionic Materials) Bases de Datos - Información estructurada Ejemplo de una patente Respuestas con Herramientas de Datamining ¿Cuáles son las principales líneas de investigación? ¿Cuáles son las principales tecnologías? ¿Qué tecnologías emergentes están apareciendo? ¿Qué hacen los competidores? ¿Quienes son los líderes? (Centros de investigación, equipos, personas…) Algunos ejemplos con Herramientas de Datamining MATHEO TETRALOGIE VantagePoint (http://www.thevantagepoint.com). Goldfire (http://inventionmachine.com/GoldfireInnovator.htm) MATHÈO ANALYZER www.matheo-software.com/ Proceso de análisis Importación de datos desde un fichero .txt Pretratamiento: Creación de la Règle d’Importation (descripción de la forma de la información) Tratamiento: Dos herramientas básicas: -Formes: Definición de formas sinónimas y creación de filtros - Paires: Análisis de coocurrencias Visualización: Tres posibilidades: -Histogramas: Representación de recuentos simples -Grafos: Representación de coocurrencias -Matrices: Tabla de coocurrencias. Co-ocurrencia: áreas tecnológicas y años Año de la solicitud Áreas tecnológicas (sub-clases) Dinámicas Tecnológicas Según patentes concedidas 2000-2004 (USA, EPO) Detección deutilizadas Líderes en lalos generación de tecnológicas Tecnologías por competidores TÉTRALOGIE www.atlas.irit.fr Tétralogie parte de la extracción de información de bases de datos. A partir de esta información y mediante el uso de recuentos, coocurrencias y representaciones gráficas, se extraen conclusiones acerca de un sector, empresa, país, evolución tecnológica. Aplicaciones: Detección de tecnologías emergentes, países y empresas líderes, redes de colaboración, competencia, etc. Características Funcionamiento en estaciones de trabajo (entorno Unix). Extracción de información de cualquier base de datos estructurada, tanto de artículos científicos como patentes. Amplias posibilidades y opciones de análisis. Visualizaciones de elevado detalle. Elevado potencial de cálculo. Proceso de análisis Extracción de la información o Corpus Pretratamiento: Basededonnees, diccionarios de sinónimos Recuentos simples: primeras conclusiones generales Gráficos y datos de tendencias generales Coocurrencias: estudio de detalle y precisión Obtención de mapas tecnológicos y árboles de jerarquías Jerarquización Mapas tecnológicos MAPAS TECNOLÓGICOS • Competidores lideres y nuevos • Evolución de la cartera de patentes de las empresas líderes • Especialización de las nuevas empresas • Redes de colaboración en I+D GRAFOS MAPA MUNDI Resumen Los documentos de patentes son efectivamente una gran fuente de conocimiento. La detección a tiempo de señales tecnológicas emergentes favorece una actitud más pro-activa hacia la innovación. La valoración de los intangibles (patentes, marcas, etc. ) es un desafío en ésta: La Era Del Conocimiento. Resumen de resultados Países lideres Instituciones lideres Redes de colaboración entre instituciones Evolución de las instituciones con el paso de los años Perfiles tecnológicos de las empresas • Áreas de patentabilidad • Comparación entre 2 perfiles Dinámicas tecnológicas • Áreas relacionadas • Evolución de las tecnologías por años Identificación de Clusters temáticos Origen del conocimiento: Relación entre tecnología y ciencia. Difusión y valorización de la Información Las Intranets La Sindicación de Contenidos (RSS). RSS es un formato de publicación de noticias, al cual se puede acceder a través de programas lectores de noticias sin necesidad de abrir su navegador de Internet. Está basado en XML (Extensible Markup Language), lenguaje que se utiliza para la distribución de contenido en la red. Sistemas de alerta por e-mail Ejemplos de plataformas integradoras 1) Vicubo Ejemplos de plataformas integradoras 2) Interligare VIGIALE VIGIALE VIGIALE Control de cambios e identificación de diferencias VIGIALE VIGIALE Textminig VIGIALE