Conceptos básicos útiles CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Elementos básicos de análisis de datos exploratorio Promedio y varianza ● Para resumir una variable cuantitativa X son índices comunes: ● El promedio: n 1 ̄ = ∑ xi X n i=1 ● La varianza: n 1 2 ̄ var ( X )= ∑ ( x i − X ) n i=1 5 de 30 Desviación estándar ● La desviación estándar del vector X es: σ=√ var ( X ) 6 de 30 Variable centrada y reducida Variable centrada y reducida Covarianza Álgebra lineal Auto-valores y auto-vectores ● Sea V cualquier espacio vectorial, sea x un vector no cero en ese espacio vectorial y sea T una transformación linea que empareja V en V. Entonces x es un auto-vector de T con autovalor λ si se cumple la siguiente ecuación: Tx=λ x Auto-valores y auto-vectores Teoría de la información 19 de 30 Generación de datos artificiales Generación de datos artificiales ● ● De manera general, se dificulta conseguir conjuntos de datos para hacer pruebas de minería de datos. El tópico de la generación de datos secuenciales es un tema de investigación en sí mismo. Generación de datos artificiales ● Producir datos aleatorios no es tarea fácil pues aún en datos creados a partir de funciones generadoras de números pseudo-aleatorios pueden haber patrones. Inclusive la media y la varianza designada pueden no coincidir con los resultados dependiendo de la cantidad de datos que se produzcan. Las funciones generadoras de números realmente aleatorios tienen un alto costo computacional. Para la producción de datos masivos esto no es práctico. Generación de datos artificiales ● ● Cuando se generan datos totalmente aleatorios, normalmente se desean insertar patrones para ver si la herramienta que hemos creado es capaz de encontrarlos. Crear patrones a insertar no es difícil, lo difícil es mezclarlos con datos aleatorios por diversas razones, algunas de las cuales pueden ser específicas al tipo de minería a efectuar. Repositorios de datos ● KDD Cup es usualmente uno de los repositorios más utilizados. En diferentes años se han atacado diferentes problemas así que existen datos para diferentes tareas de minería de datos. ● ● http://www.sigkdd.org/kddcup/ Frequent Itemset Mining Implementations Repository ● http://fimi.ua.ac.be/ Repositorios de datos ● UCR Time Series Classification/Clustering Page ● ● http://www.cs.ucr.edu/~eamonn/time_series_data/ Existen otros repositorios de datos serios que pueden ser encontrados en Internet gracias a las herramientas de búsqueda. Herramientas ● ARtool: herramienta para reglas de asociación con generación de datos artificiales. ● ● ● http://www.cs.umb.edu/~laur/ARtool/ TARtool: similar a la herramienta anterior pero con un parámetro temporal. KNIME: herramienta de minería de datos de propósito general. Pueden crearse flujos de trabajo de generación de datos. ● http://www.knime.org/downloads/overview Generación de datos artificiales con KNIME ● ● http://tech.knime.org/datageneration Adä, I. y Berthold, M. R. (2010). The new iris data: modular data generators. En Proceedings of the 16th acm sigkdd international conference on knowledge discovery and data mining (pp. 413-422). KDD ’10. Washington, DC, USA: ACM. ● The new iris data: modular data generators. Generación de datos artificiales con KNIME ● Existen dos opciones para generar datos artificiales para una tarea de minería de datos específica. 1.Se puede crear un nuevo flujo de trabajo para generar datos para nuestro proyecto. Es necesario instalar la extensión KNIME para generación. 2.Se pueden reutilizar flujos de trabajo ya realizados por la comunidad de usuarios de KNIME. Instrucciones sobre como descargarlos se encuentran en: http://knime.org/example-workflows Generación de datos artificiales con KNIME ● Inclusive se pueden encontrar flujos de trabajo fuera de los servidores públicos de KNIME. Basta hacer una búsqueda en algún buscador para encontrar nuevo material. ¡Gracias por su atención! ¿Preguntas?