Título de la ponencia: DATA MINING. Análisis e inteligencia de datos Información del autor Nombres y apellidos:Mónica Alvarado Forero Grado académico: Especialista Cargo:Docente Perfil profesional: Especialista en Pedagogía Grupal. Ingeniera de Sistemas Universidad Nacional de Colombia. Con énfasis en procesos de inclusión digital. Asesoría en Gestión de Calidad y manejo de información. Perteneciente el Grupo de investigación en Telecomunicaciones de la Universidad Nacional (GITUN) y EIDOS Grupo en el trabajo con Software Libre. Actualmente Docente de la Secretaría de Educación Distrital en el área de Tecnología e Informática. Institución:Universidad Nacional de Colombia Correo electrónico:[email protected], [email protected] Dirección:Cl. 64A #57-23 Int. 1-502 Teléfono celular:301 2963191 Tema desarrollado Data Mining. Análisis e inteligencia de datos Resumen Data mining, la extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus bases de información (Data Warehouse). Las herramientas de data mining predicen futura tendencias y comportamientos permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de información (khowledgedriven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de decisión. Las herramientas de data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta información casi no están dispuestos a aceptar. CBA es una herramienta de Data Mining, desarrollada en la Escuela Nacional de Computación de Singapur. Texto extenso Introducción (a la minería de datos) En el mundo actual, el conocimiento es poder. Una importante fuente del conocimiento es la información almacenada en bases de datos. Los datos nos permite aprender del pasado y predecir el futuro. Con la rápida informatización de las empresas y organizaciones, una enorme cantidad de datos han sido recogidos y almacenados en bases de datos, y la velocidad a la que se almacenan los datos está creciendo a un ritmo fenomenal. Como resultado, las mezclas tradicionales ad hoc de técnicas estadísticas y herramientas de gestión de datos ya no son adecuados para el análisis de esta amplia colección de datos. La minería de datos (o descubrimiento de conocimiento en bases de datos KDD en breve) ha emergido como un campo cada vez mayor de la investigación multidisciplinaria para descubrir interesantes / conocimiento útil a partir de grandes bases de datos. KDD se define como la extracción de patrones implícita, previamente desconocida y potencialmente útil de los datos. Por ello, la investigación y desarrollo en minería de datos es muy relevante y por ello ha generado Un proyecto de www.bibliotic.info | contá [email protected] 1/3 grandes aportes. Un gran número de trabajos de investigación y aplicación han aparecido en la literatura. Muchas aplicaciones de éxito han sido reportados en diversos sectores, tales como marketing, finanzas, banca, manufactura y telecomunicaciones. Algunos ejemplos de aplicaciones de negocios incluyen: El uso de técnicas de minería de datos para analizar las bases de datos de clientes para que los clientes potenciales se pueden seleccionar con mayor precisión, utilizando técnicas de minería de datos para detectar el fraude - a partir de la detección de fraude en la clonación de celulares a la identificación de las transacciones financieras que podrían indicar las actividades de blanqueo de dinero. Sistemas de minería de datos suele ayudar a las empresas para exponer previamente desconocida en los patrones de sus bases de datos, las prospectivas realizadas con este tipo de herramientas determinan un mejor desempeño en las áreas gerenciales como apoyo en procesos críticos de toma de decisiones. De acuerdo con los EE.UU. mercado de la firma de investigación Gartner Group Inc., la minería de datos es una de las 10 tecnologías que se observaba en 1998. “Proceso de minería de datos: Una aplicación práctica de minería de datos es a menudo complejo. Es interactivo e iterativo, con un número de pasos clave: 1. Entender el dominio de aplicación y los objetivos de la aplicación. 2. La extracción de uno o más conjuntos de datos del blanco, bases de datos. 3. Limpieza de los datos, por ejemplo, eliminando el ruido y la manipulación de los datos que faltan. 4. Extracción de los atributos irrelevantes y las tuplas de los datos. 5. La elección de la tarea de minería de datos, es decir, decidir si el objetivo del proceso de minería de datos es la clasificación, asociación, agrupación, etc, o una combinación de ellos. 6. Selección de los algoritmos de minería de datos. 7. La minería de datos utilizando los algoritmos seleccionados para descubrir patrones ocultos en los datos. 8. Post-procesamiento de los patrones detectados, es decir, analizando los patrones de forma automática o semiautomática para identificar a los verdaderamente interesantes patrones de utilidad para el usuario.” Método utilizado Al utilizar CBA, me enfocaré en las tres aplicaciones en forma detallada y a partir de un ejemplo zoo.data Clasificación y Predicción CBA automatiza el proceso de encontrar información predecible. CBA construye clasificadores precisos de los datos teniendo en cuenta sus atributos. Con la discretización de los mismos, podemos utilizar las dos estrategias utilizadas por CBA, que son: por Clasificación y por asociación en las que se utilizan tablas de datos relacionales y transaccionales. Para la clasificación tenemos varias opciones, tales como la elección del mínimo soporte, el grado mínimo de confidencia, el máximo número de reglas a obtener, número de condiciones y generación aleatoria. Al aplicar la clasificación mediante Mine: Multi sup.,, se obtiene una seri de reglas que podemos ordenar por mímo soporte, máximo soporte y seleccionar el peso de alguno de sus atributos. Para el caso analizado se obtuviero 94 reglas con un solerte de 5% y un grado de confianza del 100%. Se muestran los datos en las diferentes posiblidades se analiza el arbol de clasificación para tener una visualización clara de la clasificación de los datos. Un proyecto de www.bibliotic.info | contá [email protected] 2/3 Obtención de reglas asociativas a partir de una muestra de datos transaccionales y a partir de una muestra de datos realcionales. CBA se basa en el algoritmo Apriori (Agrawal and Srikant 1994), que es una lagoritmo eficiente de descubrimiento de patrones de asociación en conjunto de datos transaccionales. Este tipo de datos no tiene un número de datos sino cada fila es una transacción, y el número de items puede variar según sea el caso. Con estas reglas podemos determinar grados de frecuencia de cada uno de los items sets, y no solo eso nos permite realizar una predicción aproximada en este caso de tendencias de compra. La exactitud de las predicciones dependerá de cuan adecuadas sean nuestras elecciones de soporte y los conjuntos de reglas con los que queramos evaluar dichas predicciones. Discusión crítica de resultados En este caso es un ejemplo práctico en una empresa colombiana, se compara con datos obtenidos por otros investigadores en Singapur, y en los diferentes países donde lo han utilizado como herramienta de prospección en sus compañías. Conclusiones El campo de Data mining, sea ha constituido en una de las herramientas fundamentales en la inteligencia y análisis de datos en todo tipo de compañías para obtener la eficiencia que en su cadena de valor esta tan necesaria en el día de hoy para llegar a ser verdaderamente competitivas. A nuestro alcance encontramos alternativas de Software Libre, que esta siendo desarrollado de manera eficiente cuidadosa y sistemática para dar soluciones problemas de inteligencia de negocios que se presentan las compañías de nuestro país. El avance en la inteligencia de negocios y particularmente en Data Mining, seguirá proponiendo nuevas alternativas en el desarrollo de herramientas altamente parametrizables para obtener las mejores opciones y disminuir el riesgo que conlleva el determinar cualquier tipo de decisión gerencial. Referencias Bing Liu, Wynne Hsu, Yiming Ma, Shu Chen, "Discovering Interesting Knowledge using DM-II" to appear in Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-99), Industrial Track, August 15-18, 1999, San Diego, CA, USA. Memorias del Curso inteligencia Artificial. Prof. Raul Ojeda.Universidad Nacional de Colombia. Un proyecto de www.bibliotic.info | contá [email protected] 3/3