MINERÍA DE DATOS O DATA MINING La revolución digital que se ha ido dando durante los últimos años, ha posibilitado que la captura y el almacenamiento de datos tenga un coste casi nulo. En la actualidad, las organizaciones pueden disponer de una cantidad enorme de datos almacenados y de los cuales sería de gran ayuda poder sacar información útil. Para poder tratar con estas cantidades de datos, las técnicas tradicionales de estadística y las herramientas de gestión clásicas no sirven debido a que no están preparadas para trabajar con tanta información, así que se necesitan nuevas herramientas. De la necesidad de descubrir conocimiento a partir de los datos, sale el proceso de Descubrimiento de Conocimiento en Bases de Datos o KDD (Knowledge Discovery in Databases). Ese proceso puede ser definido como el proceso no trivial de identificar patrones en los datos que sean válidos, que aporten información desconocida hasta el momento, útiles y comprensibles. El KDD consta de tres partes bien diferenciadas: 1. Preprocesamiento de los datos. 2. Minería de Datos. 3. Postprocesamiento de los resultados. En el preprocesamiento de los datos se corrigen datos erróneos o incompletos, se elimina el posible ruido que contengan los datos, etc... En el postprocesamiento, a partir de los resultados de la minería de datos, se pueden preparar patrones y sacar conclusiones de los que se pueda extraer conocimiento, que es el objetivo final del proceso de KDD. El proceso más importante es el de Minería de Datos o DM (Data Mining) . Una definición formal de la DM sería: La minería de datos es el proceso automático para el descubrimiento de información útil en grandes cantidades de datos. Este proceso es un campo multidisciplinario, en el que se pretende predecir resultados y/o descubrir relaciones entre los diferentes datos. Las diferentes tareas que puede realizar la DM son: • Clasificación: Mediante la clasificación se busca encontrar un modelo que pueda predecir el comportamiento de una variable a partir de sus características. • Análisis de Asociaciones: Estas técnicas pretenden sacar patrones de las relaciones que hay entre diferentes rasgos de los datos. • Detección de Anomalías: El objetivo de la detección de anomalías es encontrar aquellos elementos o características que son significativamente diferentes del resto de los datos. Dentro de la clasificación, quizá la tarea más extendida, tenemos varios algoritmos que se pueden utilizar: • Árboles de decisión • Basados en reglas • Redes neuronales • Basados en Clusters • Redes Bayesianas Algunas de las áreas que mas se pueden beneficiar de la minería de datos son los siguientes: • Ámbitos financieros y de negocios: índices de producción y coste, marketing, detección de fraudes, descubrir perfiles de clientes. • Salud: modelos de diagnóstico a partir de información almacenada en hospitales, gestión de tratamientos, comprobación de la adecuación de tratamientos. • Sistemas informáticos: control del sistema y detección de ataques. • Ciencia: observaciones astronómicas, genómica, análisis de datos biológicos.