Minería de Datos Vallejos, Sofia Contenido ¾ Introducción: I t d ió • Inteligencia de negocios (Business Intelligence). • Componentes • Descubrimiento de conocimiento en bases de datos (KDD). (KDD) ¾ Minería de Datos: • • • • • Perspectiva histórica. Fases de un Proyecto. Proyecto Fuentes de datos. Funciones de minería. Modelos típicos de minería. ¾ Ejemplos: • Clustering. • Asociación. • Red neuronal como modelo predictivo. ¾ Web Mining. ¾ Conclusiones. Vallejos, Sofia Inteligencia g de Negocios g Hace referencia a un conjunto de productos y servicios para acceder a los datos, analizarlos y convertirlos en información. “ Es un paraguas bajo el que se incluye un conjunto de p y metodologías g cuya y misión consiste en conceptos mejorar el proceso de toma de decisiones en los negocios basándose en hechos y sistemas que trabajan con hechos.” Howard Dresner Gartner Group, 1989. 989. Vallejos, Sofia Inteligencia de Negocios Componentes ¾ Multidimensionalidad. ¾ Agentes. ¾ Data Warehouse. ¾ Data Mining. Vallejos, Sofia Descubrimiento de C Conocimiento i i t en Bases B de d Datos D t Es un proceso de extracción no trivial para identificar patrones que p q sean válidos,, novedosos,, potencialmente p útiles y entendibles, a partir de los datos. Su objetivo principal: l procesar automáticamente á grandes cantidades de datos para encontrar conocimiento n m n ú útil p para r un u usuario u r y satisfacer f r sus u metas. Vallejos, Sofia Descubrimiento de Conocimiento en Bases de d Datos Jerarquía Vallejos, Sofia Descubrimiento de C Conocimiento i i t en Bases B de d Datos D t Et Etapas d de KDD Vallejos, Sofia Qué es Minería de Datos ¾E Es ell proceso de d exploración l ió y análisis áli i – de d manera automática o semiautomática – de los datos para obtener p patrones significativos g y reglas g de negocio. g ¾ Consideraciones: • Los patrones deben ser significativos. • Sin automatización es imposible mirar grandes cantidades de datos, p pero se debe dar más énfasis a las etapas p de exploración y análisis, que al modo de exploración. • Data Mining es un proceso. Vallejos, Sofia Qué es Minería de Datos ¾ La L MD puede d ser dividida di idid en: • Minería de datos predictiva (mdp): usa primordialmente técnicas estadísticas. • Minería de datos para el descubrimiento de conocimiento (mddc): usa principalmente técnicas de inteligencia artificial. artificial Vallejos, Sofia Qué no es Minería de Datos ¾ No es un producto que se compra enlatado sino una disciplina p que debe ser dominada. q ¾ No es una solución instantánea a los problemas de negocio. ¾ No es un fin en sí mismo, mismo sino un proceso que ayuda a encontrar soluciones a problemas de negocio. Vallejos, Sofia Minería de Datos: Perspectiva histórica Vallejos, Sofia Fases de un Proyecto de Minería de Datos ¾ El proceso de minería de datos pasa por las si uientes fases: siguientes f ses: • Filtrado de datos. • Selección de Variables. Variables • Extracción de Conocimiento. • Interpretación p y Evaluación. Vallejos, Sofia Fases de un Proyecto de DM: Filtrado de datos ¾ Mediante el preprocesado, se filtran los datos • Se eliminan valores incorrectos incorrectos, no válidos válidos, desconocidos desconocidos... según las necesidades y el algoritmo a usar). • Se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso). proceso) • Se reducen el número de valores posibles (mediante redondeo, clustering,...). Vallejos, Sofia Fases de un Proyecto de DM: Selección de Variables ¾ Los métodos para la selección de características son básicamente dos: • Aquellos basados en la elección de los mejores atributos del problema. • Y aquellos que buscan variables independientes mediante tests de sensibilidad sensibilidad, algoritmos de distancia o heurísticos. heurísticos Vallejos, Sofia Fases de un Proyecto de DM: Extracción de Conocimiento ¾ Mediante una técnica de minería de datos: • Se obtiene un modelo de conocimiento,, que q representa p patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. Vallejos, Sofia Fases de un Proyecto de DM: Interpretación y Evaluación ¾ Se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente suf c entemente sat satisfactorias. sfactor as. ¾ Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. modelos Vallejos, Sofia Integrantes g del proyecto p y Vallejos, Sofia El analista de datos ¾ Es el vínculo entre las áreas de tecnología informática y las áreas de negocio. ¾ Habilidades requeridas: • Manipulación de datos (SQL). • Conocimiento de técnicas de minería y análisis exploratorio. p • Habilidad de comunicación (interpretación) de los problemas de negocio. Vallejos, Sofia El analista de datos ¾ Traduce los requerimientos de información en preguntas apropiadas para su análisis á con las herramientas de minería. í Vallejos, Sofia Fuentes de Datos ¾ Tipos p de fuentes: • Transaccionales: Ej. operaciones realizadas con una tarjeta de crédito. • Relaciónales: Ej. j estructura de p productos que q ofrece un banco. • Demográficos: Ej. características del grupo familiar. ¾ Origen de datos: • • • • Bases de datos relacionales. DataWarehouses DataWarehouses. Data Marts. Otros formatos: Excel, Access, encuestas, archivos planos. Vallejos, Sofia Calidad de los Datos ¾ El éxito de las actividades de Data Mining se relaciona directamente con la CALIDAD de los datos. datos ¾ Muchas veces resulta necesario pre-procesar los d datos, antes d de d derivarlos l all modelo d l d de análisis. ál ¾ El preproceso puede incluir transformaciones, transformaciones reducciones o combinaciones de los datos. ¾L La semántica á i de d llos d datos debe d b ayudar d para seleccionar una conveniente representación, dado que influye directamente sobre la calidad del modelo. Vallejos, Sofia Funciones de minería ¾ Utilizan técnicas matemáticas elaboradas para d descubrir b patrones ocultos l en los l datos. d Ellas Ell son: • • • • • • • • • Asociación. Clasificación neuronal. Clasificación en árbol. Clustering g demográfico. g Clustering neuronal. Patrones secuenciales. Secuencias semejantes. semejantes Predicción neuronal. Predicción - función base radial. Vallejos, Sofia Modelos típicos de minería 9 Clustering. 9 Clasificación. 9 Estimación. 9 Predicción. 9 Agrupamiento a partir de reglas de asociación. Vallejos, Sofia Modelos típicos de minería: Clustering ¾ Agrupar a los clientes según indicadores F (frecuencia), M (monto), etc en segmentos de comportamientos homogéneos. ¾ Resultado: Clientes Buenos, Medios, Malos. ¾ El 78% de la facturación se concentra en el cluster Buenos. ¾L Los clientes li t Buenos B son casados, d con hij hijos, trabajadores autónomos con ingreso superior a $3000 p pesos. Vallejos, Sofia Modelos típicos de minería: Clasificación y Estimación ¾ Clasificar un nuevo cliente – de acuerdo a su perfil sociodemográfico g – como un cliente: • Bueno. • Medio. • Malo. ¾E Estimar i ell consumo de d un determinado d i d rubro b d de artículos de un grupo de clientes en el próximo trimestre. Vallejos, Sofia Modelos típicos de minería: Predicción ¾ Predecir el abandono de un cliente: • Para una compañía de telefonía celular. • Para una AFJP. • Para una tarjeta de crédito. Vallejos, Sofia Modelos típicos de minería: Asociación ¾ Encontrar las reglas que determinan la interrelación entre p productos para p clientes de un banco. Por ejemplo: “ Cuando un cliente l se activa en Caja de Ahorros, h ell siguiente producto donde se activa es Préstamos Personales. r n .E Este p patrón r n ocurre urr el 6 65 % de los casos. ” Vallejos, Sofia Elección del modelo ¾ Principales objetivos del proceso de Data Mining: • Predicción. • Descripción. ¾ El método é a utilizar l depende de los l objetivos perseguidos por el análisis pero también de la calidad y cantidad n de los datos disponibles. p n . Vallejos, Sofia DB2-Intelligent g Miner for Data 9 Comprende un conjunto de funciones estadísticas, de proceso y de minería de datos. 9Ofrece herramientas de visualización. Vallejos, Sofia Ejemplos con DB2 Intelligent Miner for Data 9 Clustering. 9 Asociación. Asociación 9 Red neuronal como modelo predictivo. Vallejos, Sofia Clustering g ¾ Es la partición del conjunto de individuos en subconjuntos j lo más homogéneos g p posibles. ¾ El objetivo es maximizar la similitud de individuos del cluster l y maximizar las l diferencias f entre clusters. l ¾ Se aplica para segmentación de bases de datos, datos identificación de tipos de clientes, etc. Vallejos, Sofia Aportes del software de minería ¾ Determinar el número óptimo de clusters. ¾ Asignar a cada individuo a un único cluster. ¾ Evaluar el impacto de las variables en la formación del cluster. ¾ Comprender el “perfil” de cada cluster. Vallejos, Sofia Ejemplo j p de Clustering g La gerencia comercial de un banco necesita identificar all segmento t más á valioso li d clientes de li t d de una ttarjeta j t d de crédito para organizar sus gastos de promociones y campañas de marketing directo. ¾ Datos disponibles: • • • • • • Frecuencia de uso de la tarjeta. S ld promedio Saldo di mensuall en $ $. Posesión de tarjeta Gold. Monto promedio por cada transacción. C tid d d Cantidad de servicios i i por débit débito automático. t áti Datos sociodemográficos: sexo, edad, estado civil, ocupación, hijos. • Fuente F t d de d datos: t s: ttransacciones s i sd dell último últi año, ñ ttabla bl d de clientes. Vallejos, Sofia Ejemplo j p de Clustering g ¾ Preparación de los datos: • Definir la unidad de análisis: ¿cuenta o tarjeta?. • Definir qué es una transacción: ¿cómo se consideran los ajustes?. j t ? • Describir las variables a incluir en el modelo. ¾ Tabla de datos: Vallejos, Sofia Ejemplo j p de Clustering g ¾ Medida de calidad del modelo: • Criterio de Condorcet: asume m un valor entre 0 y 1. ¾ Criterios de segmentación: • Se toman como variables activas las que corresponden al comportamiento de consumo. • Se toman como variables suplementarias los atributos sociodemográficos. Vallejos, Sofia Solución de 4 clusters Vallejos, Sofia Buenos clientes con tarjeta Gold Vallejos, Sofia Buenos clientes sin tarjeta Gold Vallejos, Sofia Asociación ¾ Análisis A álisis de d la l canasta st de d mercado: d • Objetivo: generar reglas del tipo: SI condición ENTONCES resultado • Ejemplo: SI producto A y producto C ENTONCES producto B ¾ ¿Cuán buena es una regla?. Medidas que la califican: • Soporte. S • Confianza. • Mejora. M j Vallejos, Sofia Ejemplo j p de Asociación ¾ El dueño de una pizzería vende 3 gustos de pizzas: pepperoni, queso y hongos, y quiere armar “combos” con las combinaciones más convenientes. ¾ Parte de un conjunto de 2000 tickets con los correspondientes items (gusto de pizza) incluido en cada d uno. Vallejos, Sofia Ejemplo j p de Asociación ¾ Cálculo de las medidas de Asociación: Vallejos, Sofia Red neuronal ¾ La Inteligencia g Artificial trabaja j con modelos conexionistas. ¾ El modelo conexionista imita el ssistema stema más complejo conoc conocido do hasta el momento: el cerebro. ¾ El cerebro está formado por millones de células llamadas neuronas. ¾ Estas neuronas son unos procesadores de información muy sencillos con un canal de entrada de información (dendrita), un órgano de cómputo (soma) y un canal de salida de información (axón). Vallejos, Sofia La neurona artificial ¾ Elementos: • • • • Entradas. Entradas Pesos sinápticos. Reglas de propagación. Función ó de activación. ó Vallejos, Sofia Ejemplo j p de red neuronal Valuación de propiedades Vallejos, Sofia Ejemplo j p de red neuronal Datos Vallejos, Sofia Vallejos, Sofia Extensiones de la DM ¾ Web mining • Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. descripciones • Web structure mining (minería de estructura web). Es el proceso d de iinferir f i conocimiento i i t d de lla organización i ió d dell WWW y la estructura de sus ligas. • Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web. Vallejos, Sofia Vallejos, Sofia Conclusiones Ventajas ¾ La Minería de Datos es una herramienta eficaz para dar respuestas a preguntas complejas de Inteligencia de Negocios. ¾ Las herramientas disponibles permiten automatizar gran parte g p de la tarea de encontrar los patrones p de comportamiento ocultos en los datos. ¾ Es una buena manera de convertir datos en información, y esta a su vez en conocimiento, para la correcta toma de decisiones. Vallejos, Sofia Conclusiones Ventajas ¾ Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. ¾ proporciona poder de decisión a los usuarios del negocio, y es capaz de medir las acciones y resultados de la mejor forma. Vallejos, Sofia Conclusiones Desventajas ¾Q Que llos productos d t a comercializar i li son significativamente costosos. ¾ Que se requiera de experiencia para utilizar herramientas de tecnología. ¾ Que sea fácil de hallar patrones equívocos triviales o no interesantes. ¾ La Privacidad. Vallejos, Sofia Referencias ¾ Building Data Mining Applications for CRM. A. Berson, S. Shmit, K. Thearling. Mc Graw Hill, 2000. ¾ Data Mining with Neuronal Networks. Joseph Bigus. Mc Graw Hill, 1996. ¾ Principles of Data Mining. D. Hand, H. Manilla, P. Smyth. The MIT Press. USA, 2000. ¾ U. Fayyad, G. Grinstein, A. Wierse. Data Mining and Knowledge Discovery. M. Kaufmann, Harcourt Intl., USA, 2001. Vallejos, Sofia Fin d de lla P Presentación nt ión M h Gracias Muchas G i !! Vallejos, Sofia