DATA MINING. Análisis e inteligencia de datos

Anuncio
Título de la ponencia:
DATA MINING. Análisis e inteligencia de datos
Información del autor
Nombres y apellidos:Mónica Alvarado Forero
Grado académico: Especialista
Cargo:Docente
Perfil profesional: Especialista en Pedagogía Grupal. Ingeniera de Sistemas Universidad Nacional
de Colombia. Con énfasis en procesos de inclusión digital. Asesoría en Gestión de Calidad y
manejo de información. Perteneciente el Grupo de investigación en Telecomunicaciones de la
Universidad Nacional (GITUN) y EIDOS Grupo en el trabajo con Software Libre. Actualmente
Docente de la Secretaría de Educación Distrital en el área de Tecnología e Informática.
Institución:Universidad Nacional de Colombia
Correo electrónico:[email protected], [email protected]
Dirección:Cl. 64A #57-23 Int. 1-502
Teléfono celular:301 2963191
Tema desarrollado
Data Mining. Análisis e inteligencia de datos
Resumen
Data mining, la extracción de información oculta y predecible de grandes bases de datos, es una
poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la
información más importante de sus bases de información (Data Warehouse). Las herramientas de
data mining predicen futura tendencias y comportamientos permitiendo en los negocios tomar
decisiones proactivas y conducidas por un conocimiento acabado de información (khowledgedriven). Los análisis prospectivos automatizados ofrecidos por un producto así van más allá de los
eventos pasados provistos por herramientas retrospectivas típicas de sistemas de soporte de
decisión. Las herramientas de data Mining pueden responder a preguntas de negocios que
tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios
de esta información casi no están dispuestos a aceptar. CBA es una herramienta de Data Mining,
desarrollada en la Escuela Nacional de Computación de Singapur.
Texto extenso
Introducción (a la minería de datos) En el mundo actual, el conocimiento es poder. Una importante
fuente del conocimiento es la información almacenada en bases de datos. Los datos nos permite
aprender del pasado y predecir el futuro. Con la rápida informatización de las empresas y
organizaciones, una enorme cantidad de datos han sido recogidos y almacenados en bases de
datos, y la velocidad a la que se almacenan los datos está creciendo a un ritmo fenomenal. Como
resultado, las mezclas tradicionales ad hoc de técnicas estadísticas y herramientas de gestión de
datos ya no son adecuados para el análisis de esta amplia colección de datos. La minería de datos
(o descubrimiento de conocimiento en bases de datos KDD en breve) ha emergido como un campo
cada vez mayor de la investigación multidisciplinaria para descubrir interesantes / conocimiento útil
a partir de grandes bases de datos. KDD se define como la extracción de patrones implícita,
previamente desconocida y potencialmente útil de los datos.
Por ello, la investigación y desarrollo en minería de datos es muy relevante y por ello ha generado
Un proyecto de
www.bibliotic.info | contá [email protected]
1/3
grandes aportes. Un gran número de trabajos de investigación y aplicación han aparecido en la
literatura. Muchas aplicaciones de éxito han sido reportados en diversos sectores, tales como
marketing, finanzas, banca, manufactura y telecomunicaciones.
Algunos ejemplos de aplicaciones de negocios incluyen: El uso de técnicas de minería de datos
para analizar las bases de datos de clientes para que los clientes potenciales se pueden
seleccionar con mayor precisión, utilizando técnicas de minería de datos para detectar el fraude - a
partir de la detección de fraude en la clonación de celulares a la identificación de las transacciones
financieras que podrían indicar las actividades de blanqueo de dinero.
Sistemas de minería de datos suele ayudar a las empresas para exponer previamente desconocida
en los patrones de sus bases de datos, las prospectivas realizadas con este tipo de herramientas
determinan un mejor desempeño en las áreas gerenciales como apoyo en procesos críticos de
toma de decisiones.
De acuerdo con los EE.UU. mercado de la firma de investigación Gartner Group Inc., la minería de
datos es una de las 10 tecnologías que se observaba en 1998.
“Proceso de minería de datos: Una aplicación práctica de minería de datos es a menudo complejo.
Es interactivo e iterativo, con un número de pasos clave:
1. Entender el dominio de aplicación y los objetivos de la aplicación.
2. La extracción de uno o más conjuntos de datos del blanco, bases de datos.
3. Limpieza de los datos, por ejemplo, eliminando el ruido y la manipulación de los datos que faltan.
4. Extracción de los atributos irrelevantes y las tuplas de los datos.
5. La elección de la tarea de minería de datos, es decir, decidir si el objetivo del proceso de minería
de datos es la clasificación, asociación, agrupación, etc, o una combinación de ellos.
6. Selección de los algoritmos de minería de datos.
7. La minería de datos utilizando los algoritmos seleccionados para descubrir patrones ocultos en
los datos.
8. Post-procesamiento de los patrones detectados, es decir, analizando los patrones de forma
automática o semiautomática para identificar a los verdaderamente interesantes patrones de
utilidad para el usuario.”
Método utilizado
Al utilizar CBA, me enfocaré en las tres aplicaciones en forma detallada y a partir de un ejemplo
zoo.data
Clasificación y Predicción
CBA automatiza el proceso de encontrar información predecible. CBA construye clasificadores
precisos de los datos teniendo en cuenta sus atributos. Con la discretización de los mismos,
podemos utilizar las dos estrategias utilizadas por CBA, que son: por Clasificación y por asociación
en las que se utilizan tablas de datos relacionales y transaccionales. Para la clasificación tenemos
varias opciones, tales como la elección del mínimo soporte, el grado mínimo de confidencia, el
máximo número de reglas a obtener, número de condiciones y generación aleatoria.
Al aplicar la clasificación mediante Mine: Multi sup.,, se obtiene una seri de reglas que podemos
ordenar por mímo soporte, máximo soporte y seleccionar el peso de alguno de sus atributos.
Para el caso analizado se obtuviero 94 reglas con un solerte de 5% y un grado de confianza del
100%.
Se muestran los datos en las diferentes posiblidades se analiza el arbol de clasificación para tener
una visualización clara de la clasificación de los datos.
Un proyecto de
www.bibliotic.info | contá [email protected]
2/3
Obtención de reglas asociativas a partir de una muestra de datos transaccionales y a partir de una
muestra de datos realcionales.
CBA se basa en el algoritmo Apriori (Agrawal and Srikant 1994), que es una lagoritmo eficiente de
descubrimiento de patrones de asociación en conjunto de datos transaccionales. Este tipo de datos
no tiene un número de datos sino cada fila es una transacción, y el número de items puede variar
según sea el caso.
Con estas reglas podemos determinar grados de frecuencia de cada uno de los items sets, y no
solo eso nos permite realizar una predicción aproximada en este caso de tendencias de compra.
La exactitud de las predicciones dependerá de cuan adecuadas sean nuestras elecciones de
soporte y los conjuntos de reglas con los que queramos evaluar dichas predicciones.
Discusión crítica de resultados
En este caso es un ejemplo práctico en una empresa colombiana, se compara con datos obtenidos
por otros investigadores en Singapur, y en los diferentes países donde lo han utilizado como
herramienta de prospección en sus compañías.
Conclusiones
El campo de Data mining, sea ha constituido en una de las herramientas fundamentales en la
inteligencia y análisis de datos en todo tipo de compañías para obtener la eficiencia que en su
cadena de valor esta tan necesaria en el día de hoy para llegar a ser verdaderamente competitivas.
A nuestro alcance encontramos alternativas de Software Libre, que esta siendo desarrollado de
manera eficiente cuidadosa y sistemática para dar soluciones problemas de inteligencia de
negocios que se presentan las compañías de nuestro país.
El avance en la inteligencia de negocios y particularmente en Data Mining, seguirá proponiendo
nuevas alternativas en el desarrollo de herramientas altamente parametrizables para obtener las
mejores opciones y disminuir el riesgo que conlleva el determinar cualquier tipo de decisión
gerencial.
Referencias
Bing Liu, Wynne Hsu, Yiming Ma, Shu Chen, "Discovering Interesting Knowledge using DM-II" to
appear in Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery &
Data Mining (KDD-99), Industrial Track, August 15-18, 1999, San Diego, CA, USA.
Memorias del Curso inteligencia Artificial. Prof. Raul Ojeda.Universidad Nacional de Colombia.
Un proyecto de
www.bibliotic.info | contá [email protected]
3/3
Descargar