Conceptos básicos útiles - Braulio J. Solano Rojas

Anuncio
Conceptos básicos útiles
CI-2352 Intr. a la minería de datos
Prof. Braulio José Solano Rojas
ECCI, UCR
Elementos básicos de análisis de
datos exploratorio
Promedio y varianza
●
Para resumir una variable cuantitativa X son
índices comunes:
●
El promedio:
n
1
̄ = ∑ xi
X
n i=1
●
La varianza:
n
1
2
̄
var ( X )= ∑ ( x i − X )
n i=1
5 de 30
Desviación estándar
●
La desviación estándar del vector X es:
σ=√ var ( X )
6 de 30
Variable centrada y reducida
Variable centrada y reducida
Covarianza
Álgebra lineal
Auto-valores y auto-vectores
●
Sea V cualquier espacio vectorial, sea x un
vector no cero en ese espacio vectorial y sea T
una transformación linea que empareja V en V.
Entonces x es un auto-vector de T con autovalor λ si se cumple la siguiente ecuación:
Tx=λ x
Auto-valores y auto-vectores
Teoría de la información
19 de 30
Generación de datos artificiales
Generación de datos artificiales
●
●
De manera general, se dificulta conseguir
conjuntos de datos para hacer pruebas de
minería de datos.
El tópico de la generación de datos
secuenciales es un tema de investigación en sí
mismo.
Generación de datos artificiales
●
Producir datos aleatorios no es tarea fácil pues
aún en datos creados a partir de funciones
generadoras de números pseudo-aleatorios
pueden haber patrones. Inclusive la media y la
varianza designada pueden no coincidir con los
resultados dependiendo de la cantidad de
datos que se produzcan. Las funciones
generadoras de números realmente aleatorios
tienen un alto costo computacional. Para la
producción de datos masivos esto no es
práctico.
Generación de datos artificiales
●
●
Cuando se generan datos totalmente
aleatorios, normalmente se desean insertar
patrones para ver si la herramienta que hemos
creado es capaz de encontrarlos.
Crear patrones a insertar no es difícil, lo difícil
es mezclarlos con datos aleatorios por diversas
razones, algunas de las cuales pueden ser
específicas al tipo de minería a efectuar.
Repositorios de datos
●
KDD Cup es usualmente uno de los
repositorios más utilizados. En diferentes años
se han atacado diferentes problemas así que
existen datos para diferentes tareas de minería
de datos.
●
●
http://www.sigkdd.org/kddcup/
Frequent Itemset Mining Implementations
Repository
●
http://fimi.ua.ac.be/
Repositorios de datos
●
UCR Time Series Classification/Clustering
Page
●
●
http://www.cs.ucr.edu/~eamonn/time_series_data/
Existen otros repositorios de datos serios que
pueden ser encontrados en Internet gracias a
las herramientas de búsqueda.
Herramientas
●
ARtool: herramienta para reglas de asociación
con generación de datos artificiales.
●
●
●
http://www.cs.umb.edu/~laur/ARtool/
TARtool: similar a la herramienta anterior pero
con un parámetro temporal.
KNIME: herramienta de minería de datos de
propósito general. Pueden crearse flujos de
trabajo de generación de datos.
●
http://www.knime.org/downloads/overview
Generación de datos artificiales
con KNIME
●
●
http://tech.knime.org/datageneration
Adä, I. y Berthold, M. R. (2010). The new iris
data: modular data generators. En Proceedings
of the 16th acm sigkdd international conference
on knowledge discovery and data mining (pp.
413-422). KDD ’10. Washington, DC, USA:
ACM.
●
The new iris data: modular data generators.
Generación de datos artificiales
con KNIME
●
Existen dos opciones para generar datos
artificiales para una tarea de minería de datos
específica.
1.Se puede crear un nuevo flujo de trabajo para
generar datos para nuestro proyecto. Es necesario
instalar la extensión KNIME para generación.
2.Se pueden reutilizar flujos de trabajo ya realizados
por la comunidad de usuarios de KNIME.
Instrucciones sobre como descargarlos se
encuentran en: http://knime.org/example-workflows
Generación de datos artificiales
con KNIME
●
Inclusive se pueden encontrar flujos de trabajo
fuera de los servidores públicos de KNIME.
Basta hacer una búsqueda en algún buscador
para encontrar nuevo material.
¡Gracias por su atención!
¿Preguntas?
Descargar