Herramientas Modernas

Anuncio
Instituto Nacional de Propiedad Industrial
(INAPI)
Herramientas Modernas
Ivette Ortiz M.
[email protected]
IALE TECNOLOGIA CHILE-2009
TEMARIO
Panorama General
Herramientas de soporte para las distintas fases del proceso de
explotación del conocimiento
Búsqueda y recuperación de la Información
Análisis de la Información
Minería de datos y minería de textos.
Difusión y valorización de la Información
Las Intranets, la Sindicación de Contenidos (RSS), Sistemas de
alerta por e-mail, los boletines
Ejemplos de plataformas integradoras
VIGIALE
Un caso de éxito. Plataforma VIGIA de SalmonChile.
Panorama General
PLATAFORMAS
INTEGRADORAS
Búsqueda y recuperación de la Información
Internet: Problemática
Veracidad de la información
Cobertura “percibida” y real de internet
Web invisible o profunda
Ruido informativo y saturación
Adquisición, tratamiento y explotación
Es más importante disponer de información de
calidad que de gran cantidad de información
Búsqueda y recuperación de la Información
Podría compararse la Web a un gigantesco iceberg, en continuo
crecimiento. Su parte sumergida depende de la evolución de las
tecnologías de los motores.
Búsquedas con Google
Web Invisible
80%
Web Invisible, Web profunda...
Algunos autores prefieren hablar de Web superficial
(Surface Web) y Web profunda (Deep Web). Los
motores indexan la Web superficial pero la Web
profunda puede ser visible mediante otras
tecnologías perfeccionadas.
A finales del 2005 se estimaba que la Web Visible
contenía 64 millardos* de páginas. Google accedía a
8,1 millardos y Yahoo! Search a 19,2 millardos.
*: millardos = mil millones
Web invisible
Razones por las que un motor no accede a una parte de la Web:
1. Cuando los documentos o las bases de datos son demasiado
voluminosos para que puedan indexarse completamente.
2. Cuando las páginas están protegidas por su autor.
3. Cuando las páginas se generan dinámicamente, por ejemplo,
a consecuencia de una solicitud.
4. Cuando las páginas están protegidas por un identificador
login y una contraseña.
5. Cuando los motores de búsqueda no reconocen el formato de
los documentos.
6. Cuando las páginas no tienen enlaces con otras.
Ruido documental
Elevado numero de respuestas que no responden a la estrategia de búsqueda
debido a:
Tamaño de las bases de datos
La indización a texto completo
La recuperación por sistemas estadísticos
Lógica difusa...
Soluciones:
Focalizar la búsqueda con más términos y más precisos.
Búsqueda en el texto libre usando booleanos, delimitadores (título y dirección),
adyacencia estricta (uso de comillas).
Uso de lenguaje natural siempre que sea posible.
Uso de operadores de expansión, relación o similitud (like, related).
Fuente: I.F. Aguillo, CINDOC-CSIC (2003)
Búsqueda y recuperación de la Información
Algunos buscadores:
Scirus www.scirus.com
Clusty http://clusty.com/
Kartoo http://www.kartoo.com/
Automatización de la recuperación de Información.
Recuperación mediante aplicaciones asociadas a
Bases de datos específicas. Ejemplos:
GoPubMed, buscador basado en conocimientos (knowledgebased) para textos biomédicos. http://www.gopubmed.com/
Biomedexpert www.biomedexperts.com
Desarrollo de Crawlers específicos
Análisis de la Información
Datos
Datos
Extracción
Extracción
Información
Información
Interpretaci
Interpretaci
ón
ón
Conocimiento
Conocimiento
MINERIA DE DATOS
Data Mining es el proceso de extracción de una base
de datos estructurada de la información relevante, su
análisis e interpretación, tomando como base los
propósitos de la organización.
Acción
Acción
Análisis de la Información
Planteamiento
Altos volúmenes de información estructurada sobre
actividades de todo tipo desarrolladas durante años
En esta información pueden encontrarse asociaciones y
patrones no visibles directamente
Necesario aplicar técnicas matemáticas y estadísticas y
herramientas informáticas para identificar relaciones
Estas relaciones pueden mostrar el conocimiento derivado
del dominio estudiado
Bases de Datos - Información estructurada
Ejemplo de artículo
Registro de la base de datos Compendex Plus, del distribuidor DIALOG
DIALOG NO: 03917915 El Mothly No: EIP94081363930
Title: Correlation of structure and electric properties of high temperature superconducting wire with
its fabrication conditions
Corporate source: Inst Metallurgii im. A.A. Bajkova RAN, Moscow, Russia
Publication year: 1994
Source: Fizika i Khimiya Obrabothi Materialov N 2 Mar-Apr 1994. p 138-142
CODEN: FKOMAT ISSN: 0015-3214
Language: Russian
Document Type: JA; (Journal Article) Treatment code: X; (Experimental); A; (Applications)
Abstract: Dependence of high temperature superconducting wire structure and properties on the
conditions of thermal and pressure treatment has been studied. The influence of temperature and
time of annealing and of cooling rate on critical temperature and current density of superconductor
has been found.
Descriptors: *Superconductivity; Superconducting materials; Wire; Structure (composition); Heat
treatment; Annealing; Cooling; Superconducting transition temperature; Deformation.
Identifiers: High temperature superconducting wire; Pressure treatment; Time of annealing;
Cooling rate; Current density; Superconducting wire microstructure.
Classification Codes:
712.1 (Semiconducting Materials)
712 (Electronic & Thermionic Materials)
Bases de Datos - Información estructurada
Ejemplo de una patente
Respuestas con Herramientas de Datamining
¿Cuáles son las principales líneas de investigación?
¿Cuáles son las principales tecnologías?
¿Qué tecnologías emergentes están apareciendo?
¿Qué hacen los competidores?
¿Quienes son los líderes? (Centros de investigación,
equipos, personas…)
Algunos ejemplos con Herramientas de
Datamining
MATHEO
TETRALOGIE
VantagePoint
(http://www.thevantagepoint.com).
Goldfire (http://inventionmachine.com/GoldfireInnovator.htm)
MATHÈO ANALYZER
www.matheo-software.com/
Proceso de análisis
Importación de datos desde un fichero .txt
Pretratamiento: Creación de la Règle d’Importation
(descripción de la forma de la información)
Tratamiento: Dos herramientas básicas:
-Formes: Definición de formas sinónimas y
creación de filtros
- Paires: Análisis de coocurrencias
Visualización: Tres posibilidades:
-Histogramas: Representación de recuentos simples
-Grafos: Representación de coocurrencias
-Matrices: Tabla de coocurrencias.
Co-ocurrencia: áreas tecnológicas y años
Año de la
solicitud
Áreas
tecnológicas
(sub-clases)
Dinámicas Tecnológicas
Según patentes concedidas 2000-2004 (USA, EPO)
Detección
deutilizadas
Líderes en
lalos
generación
de tecnológicas
Tecnologías
por
competidores
TÉTRALOGIE
www.atlas.irit.fr
Tétralogie parte de la extracción de información de
bases de datos. A partir de esta información y
mediante el uso de recuentos, coocurrencias y
representaciones gráficas, se extraen conclusiones
acerca de un sector, empresa, país, evolución
tecnológica.
Aplicaciones: Detección de tecnologías emergentes,
países y empresas líderes, redes de colaboración,
competencia, etc.
Características
Funcionamiento en estaciones de trabajo
(entorno Unix).
Extracción de información de cualquier base de
datos estructurada, tanto de artículos
científicos como patentes.
Amplias posibilidades y opciones de análisis.
Visualizaciones de elevado detalle.
Elevado potencial de cálculo.
Proceso de análisis
Extracción de la información o Corpus
Pretratamiento: Basededonnees, diccionarios de sinónimos
Recuentos simples: primeras conclusiones generales
Gráficos y datos de tendencias generales
Coocurrencias: estudio de detalle y precisión
Obtención de mapas tecnológicos y árboles de jerarquías
Jerarquización
Mapas tecnológicos
MAPAS TECNOLÓGICOS
• Competidores lideres y nuevos
• Evolución de la cartera de
patentes de las empresas
líderes
• Especialización de las nuevas
empresas
• Redes de colaboración en I+D
GRAFOS
MAPA MUNDI
Resumen
Los documentos de patentes son efectivamente una
gran fuente de conocimiento.
La detección a tiempo de señales tecnológicas
emergentes favorece una actitud más pro-activa
hacia la innovación.
La valoración de los intangibles (patentes, marcas,
etc. ) es un desafío en ésta:
La Era Del Conocimiento.
Resumen de resultados
Países lideres
Instituciones lideres
Redes de colaboración entre instituciones
Evolución de las instituciones con el paso de los años
Perfiles tecnológicos de las empresas
• Áreas de patentabilidad
• Comparación entre 2 perfiles
Dinámicas tecnológicas
• Áreas relacionadas
• Evolución de las tecnologías por años
Identificación de Clusters temáticos
Origen del conocimiento: Relación entre tecnología y
ciencia.
Difusión y valorización de la Información
Las Intranets
La Sindicación de Contenidos (RSS).
RSS es un formato de publicación de noticias, al cual se puede
acceder a través de programas lectores de noticias sin necesidad de
abrir su navegador de Internet. Está basado en XML (Extensible
Markup Language), lenguaje que se utiliza para la distribución de
contenido en la red.
Sistemas de alerta por e-mail
Ejemplos de plataformas integradoras
1) Vicubo
Ejemplos de plataformas integradoras
2) Interligare
VIGIALE
VIGIALE
VIGIALE
Control de cambios e identificación de diferencias
VIGIALE
VIGIALE
Textminig
VIGIALE
Descargar