minería de datos o data mining

Anuncio
MINERÍA DE DATOS O DATA MINING
La revolución digital que se ha ido dando durante los últimos años, ha posibilitado que la
captura y el almacenamiento de datos tenga un coste casi nulo. En la actualidad, las organizaciones
pueden disponer de una cantidad enorme de datos almacenados y de los cuales sería de gran ayuda
poder sacar información útil.
Para poder tratar con estas cantidades de datos, las técnicas tradicionales de estadística y las
herramientas de gestión clásicas no sirven debido a que no están preparadas para trabajar con tanta
información, así que se necesitan nuevas herramientas.
De la necesidad de descubrir conocimiento a partir de los datos, sale el proceso de
Descubrimiento de Conocimiento en Bases de Datos o KDD (Knowledge Discovery in Databases).
Ese proceso puede ser definido como el proceso no trivial de identificar patrones en los datos que
sean válidos, que aporten información desconocida hasta el momento, útiles y comprensibles. El
KDD consta de tres partes bien diferenciadas:
1. Preprocesamiento de los datos.
2. Minería de Datos.
3. Postprocesamiento de los resultados.
En el preprocesamiento de los datos se corrigen datos erróneos o incompletos, se elimina el
posible ruido que contengan los datos, etc...
En el postprocesamiento, a partir de los resultados de la minería de datos, se pueden preparar
patrones y sacar conclusiones de los que se pueda extraer conocimiento, que es el objetivo final del
proceso de KDD.
El proceso más importante es el de Minería de Datos o DM (Data Mining) . Una
definición formal de la DM sería: La minería de datos es el proceso automático para el
descubrimiento de información útil en grandes cantidades de datos. Este proceso es un campo
multidisciplinario, en el que se pretende predecir resultados y/o descubrir relaciones entre los
diferentes datos. Las diferentes tareas que puede realizar la DM son:
• Clasificación: Mediante la clasificación se busca encontrar un modelo que pueda
predecir el comportamiento de una variable a partir de sus características.
• Análisis de Asociaciones: Estas técnicas pretenden sacar patrones de las relaciones que
hay entre diferentes rasgos de los datos.
• Detección de Anomalías: El objetivo de la detección de anomalías es encontrar aquellos
elementos o características que son significativamente diferentes del resto de los datos.
Dentro de la clasificación, quizá la tarea más extendida, tenemos varios algoritmos que se
pueden utilizar:
•
Árboles de decisión
•
Basados en reglas
• Redes neuronales
• Basados en Clusters
• Redes Bayesianas
Algunas de las áreas que mas se pueden beneficiar de la minería de datos son los siguientes:
• Ámbitos financieros y de negocios: índices de producción y coste, marketing,
detección de fraudes, descubrir perfiles de clientes.
• Salud: modelos de diagnóstico a partir de información almacenada en hospitales,
gestión de tratamientos, comprobación de la adecuación de tratamientos.
• Sistemas informáticos: control del sistema y detección de ataques.
• Ciencia: observaciones astronómicas, genómica, análisis de datos biológicos.
Descargar