Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes Paola Britos Centro de Ingeniería del Software e Ingeniería del Conocimiento. Escuela de Postgrado. Instituto Tecnológico de Buenos Aires. Argentina Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería. Universidad de Buenos Aires. Argentina. [email protected] Resumen CRISP-DM es una metodología estándar que ha sido desarrollada para la construcción de proyectos de minería de datos que propone un ciclo de vida cuya primer fase es comprensión del negocio. Esta fase comprende las siguientes subfases: determinar los objetivos del negocio, evaluación de la situación, determinar objetivos del proceso de explotación de datos y realizar el plan del proyecto. En este trabajo se correlacionan algunos objetivos del negocio detectables en la subfase de determinación los objetivos del negocio con algunas técnicas identificables en la subfase de realización del plan del proyecto. En orden a esto, se se enumeran los procesos de minería de datos: predicción, construcción de modelos, descubrimiento de grupos, identificación de factores y detección de perfiles; se identifican técnicas de sistemas inteligentes de utilidad para ejecutar dichos procesos, se asocia dichos procesos con objetivos de negocio y se propone una abstracción del proceso involucrado. 1. Introducción CRISP-DM es una metodología estándar que ha sido desarrollada para la construcción de proyectos de minería de datos [2]. La metodología propone para un proyecto de minería de datos un ciclo de vida que consiste en las siguientes seis fases: comprensión del negocio, comprensión de los datos, preparación de los datos, modelización, evaluación e implementación.La comprensión del negocio abarca: [a] determinar los objetivos del negocio, [b] evaluación de la situación, [c] determinar objetivos del proceso de minería de datos y [d] realizar el plan del proyecto. La comprensión de los datos abarca: [a] recolectar los datos iniciales, [b] descubrir datos, [c] exploración de los datos y [d] verificación de calidad de datos. La preparación de los datos abarca [a] seleccionar los datos, [b] limpiar los datos, [c] estructurar los datos, [d] integrar los datos y [e] formato de los datos. La modelización abarca: [a] seleccionar una técnica de modelado, [b] generar el plan de pruebas, [c] construir el modelo y [d] evaluar el modelo. La evaluación abarca: [a] evaluar resultado, [b] revisión de lo hecho y [c] determinar próximos pasos. La implementación abarca: [a] formulación del plan de implantación, [b] formulación del plan de monitoreo y mantenimiento, [c] formulación del informe final y [d] revisión del proyecto.La fase comprensión del negocio pretende comprender los objetivos y los requerimientos desde la perspectiva del negocio, para convertir este conocimiento en una descripción de problema para la minería de datos. Esta fase se estructura en las siguientes subfases: determinar los objetivos del negocio, evaluación de la situación, determinar objetivos del proceso de explotación de datos y realizar el plan del proyectoDeterminar los objetivos del negocio abarca [a] Entendimiento del negocio, [b] Objetivos del negocio y [c] Criterios de éxito del negocio. La Evaluación de la situación abarca [a] Inventarios de recursos, [b] Requisitos, supuestos y restricciones, [c] Riesgos y contingencias, [d] Terminología y [e] Costos y beneficios. Determinar objetivos del proceso de Explotación de Datos abarca [a] Metas del Proceso de Explotación de Datos y [b] Criterios de éxito del Proceso de Explotación de Datos. Realizar el plan del proyecto abarca [a] Plan de proyecto y [b] Evaluación de herramientas y técnicas.En este trabajo se correlacionan algunos objetivos del negocio detectables en la subfase de determinación los objetivos del negocio con algunas técnicas identificables en la subfase de realización del plan del proyecto. En la sección 2 se reseñan algunas técnicas de sistemas inteligentes aplicables a minería de datos. En la sección 3 se enumeran los procesos de minería de datos: predicción, construcción de modelos, descubrimiento de grupos, identificación de factores y detección de perfiles; se identifican técnicas de sistemas inteligentes de utilidad para ejecutar dichos procesos, se asocia dichos procesos con objetivos de negocio y se propone una abstracción del proceso involucrado. En la sección 4 se esbozan algunas conclusiones parciales y en la sección 5 se dan las referencias que apoyan el trabajo. Reportes Técnicos en Ingeniería del Software. 7(1): 26-29 ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 26 Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes 2. Técnicas de Sistemas Inteligentes aplicables a Minería de Datos Rumelhart y McClelland [1986] modificaron la red Perceptron de Rosenblatt [1958] para que aprendiera la asociación que existe entre los patrones de entrada y las clases correspondientes de salidas. Para lograrlo, agregó capas ocultas, con conexión hacia atrás y sin conexiones recurrentes. Esto requirió modificaciones en el algoritmo de aprendizaje para que se ejecutase en forma no supervisada basado en la regla Delta Generalizada [22] conociéndose en la actualidad como algoritmo de retopropagación (backpropagation). El algoritmo de aprendizaje por retropropagación puede aplicarse en redes neuronales artificiales con más de dos capas de neuronas y es capaz de representar el conocimiento en las capas ocultas, logrando así la correspondencia entre las entradas y las salidas. El funcionamiento general de una red neuronal artificial de este tipo puede dividirse en dos partes: la etapa de entrenamiento y la etapa de producción. La primera consiste en aprender la correspondencia entre entrada y salida dados por conjunto predefinido de observaciones empleando un ciclo propagación-adaptación de dos fases [5]. La segunda en predecir la salida a partir de una entrada no contenida en el conjunto predefinido de observaciones [18]. Las redes bayesianas [19] son utilizadas en diversas áreas de aplicación como por ejemplo el diagnóstico médico [1]. Las mismas proveen una forma compacta de representar el conocimiento y métodos flexibles de razonamiento - basados en las teorías probabilísticas capaces de predecir el valor de variables no observadas y explicar las observadas. Entre las características que poseen las redes bayesianas, se puede destacar que permiten aprender sobre relaciones de dependencia y causalidad, permiten combinar conocimiento con datos [7], [3], evitan el sobre-ajuste de los datos y pueden manejar bases de datos incompletas [8], [9], [20]. Kohonen y Ruohonen [1973] desarrollaron un modelo de red neuronal con capacidad para formar mapas de características a partir de un estímulo externo que por sí solo es suficiente para forzar la formación de los mapas y establecer características comunes entre la distintas entradas a la red. Los mapas autoorganizados [10] o redes SOM (Self Organizing Maps) se basan en el principio de formación de mapas topológicos para establecer características comunes entre la información de entrada y las características de salida [11]. Son modelos de redes con conexiones hacia delante (feedforward), y conexiones laterales de inhibición implícitas, para que cada una de las neuronas de salida tenga influencia sobre sus vecinas. Esto permite el entrenamiento de este tipo de redes, en donde solo una de las neuronas de salida se activará dado un vector p de atributos en la capa de entrada. El entrenamiento es del tipo no supervisado y competitivo, utilizando la técnica “Winner Takes All”. 3. Procesos de Minería de Datos, Técnicas y Abstracción de Objetivos de Negocio 3.1. Proceso de Predicción Objetivos • del Negocio: Detección de las mejores perspectivas de ventas para nuestros servicios. • Detección de fraude para bancos y financieras • Detección de fraude para centros de stock o corretaje • Detección de fraude para Gobierno • Detección de elementos de defectuosos en una línea de producción • Detección de cambios en el funcionamiento de una línea de producción • ¿Qué comprarán los clientes? • ¿Cuánto gastaran los clientes? • ¿Cuáles son los visitantes del próximo mes? • ¿Qué clientes están en situación de abandonar el negocio? Abstracción: Cuando se quiere saber el valor que tomarán algunas variables del negocio variables dependientes en función del valor que tomarán otras variables independientes. Técnica a Redes Neuronales «Back -Propagation» Utilizar: 3.2. Proceso de Construcción de Modelos Objetivos • del Negocio: Identificación de modelos financieros para bancos y financieras • Identificación de modelos financieros para centros de stock o corretaje • Identificación del modelo correspondiente a una cadena de abastecimientos Abstracción: Cuando se quiere saber como la variación de una o mas variables del negocio incidirá sobre la variación de las otras variables. Técnica a Redes Bayesianas Utilizar: 3.3. Proceso de Descubrimiento de Grupos Objetivos • del Negocio: • Reportes Técnicos en Ingeniería del Software. 7(1): 26-29 ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) Segmentación de clientes para bancos y financieras Caracterización de tipos de llamadas para empresas de 27 Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes telecomunicación. ¿Cuál es el grupo oculto en los datos? Abstracción: Cuando se requiere identificar clases en el conjunto de registros de información que se tienen del negocio. Técnica a Mapas Auto Organizados (Kohonen) Utilizar: • 3.4. Proceso de Identificación de Factores Objetivos • del Negocio: • ¿Cuáles son los factores de impactos de las ventas? ¿Cuáles son las características o rasgos de mis clientes con alto grado de fidelidad a la marca? • ¿Cuáles son los atributos mas importantes que llevan a la contracción de segmentos de mercado? • ¿Cuáles son los atributos claves que convierten en vendible a un determinado producto? • ¿Qué características tienen los visitantes de un website que seleccionan determinados productos? • ¿Qué características tienen los clientes que están mas identificados con un nuevo producto? • ¿Qué características tienen los que visitan nuestro website? • ¿Qué palabras clave buscan mas desde nuestro sitio? • ¿Qué atributos demográficos y psicográficos distinguen a los visitantes de nuestro website? • ¿Que características tienen los libros que se venden? • ¿Que características tienen los clientes a quienes se les vende un determinado producto? • ¿A quien y en que local van los clientes? • ¿Quién compra que? Abstracción: Cuando se requiere identificar cuales son los factores que inciden sobre determinado resultado del negocio. Técnica a Algoritmos de Inducción (TDIDT) Utilizar: 3.5. Proceso de Detección de Perfiles Objetivos • del Negocio: • • ¿Cuáles son los perfiles de clientes más aprovechables? ¿Cuál es la distribución y estructura de los datos de mi website? ¿Cuál es el rasgo en común del • • perfil de los visitantes? ¿Cuál es el perfil de mercado de los visitantes rentables de web? • ¿Cuál es el perfil de mercados de los visitantes no rentables del website? Abstracción: Cuando se requiere identificar los factores de clases en el conjunto de registros de información que se tienen del negocio. Técnica a Mapas Auto organizados + Árboles de Utilizar: inducción 4. Conclusiones En este trabajo se ha presentado una posible relación entre objetivos del negocio, los procesos de minería de datos que los satisfacen, las técnicas de sistemas inteligentes de utilidad para ejecutar dichos procesos y se ha propuesto una abstracción de los procesos mencionados. Constituye un problema abierto identificar los pasos para la correcta aplicación de las técnicas a la satisfacción de cada objetivo de negocio. En este proceso se presume que se identificarán diferencias que permitirán platear taxonomías de subobjetivos de negocios. 5. Referencias [1] Beinlich, I., Suermondt, H., Chavez, R., Cooper, G. 1989. The ALARM monitoring system: A case study with two probabilistic inference techniques for belief networks. In proceedings of the 2nd European Conference on Artificial Intelligence in Medicine. [2] Chapman P ; Clinton, J ; Keber, R ; Khabaza, T ; Reinartz, T ; Shearer, C; Wirth, R. 2000. CRISPDM 1.0 Step by step data mining guide. SPSS. [3] Diaz, F., Corchado, J. 1999. Rough sets bases learning for bayesian networks. International workshop on objetive bayesian methodology, Valencia, Spain. [4] García Martínez, R., Fritz, W., y Blanqué, J. 1987. Un algoritmo de aprendizaje de conceptos para sistemas inteligentes. Anales del V Congreso Nacional de Informática y Teleinformática. Páginas 91-96. Buenos Aires. Junio. Argentina. [5] García-Martínez, R.; Servente; M. y Pasquín, D. 2003. Sistemas Inteligentes. Nueva Librería. ISBN 987-1104-05-7. [6] Grossman, R., Kasif, S., Moore, R., Rocke, D. and Ullman, J. 1999. Data Mining Research: Opportunities and Challenges, A Report of three Reportes Técnicos en Ingeniería del Software. 7(1): 26-29 ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 28 Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes NSF Workshops on Mining Large, Massive, and Distributed Data, January 1999, Chicago [7] Heckerman, D. 1995. A tutorial on learning bayesian networks. Technical report MSR-TR-9506, Microsoft research, Redmond, WA. [8] Heckerman, D., Chickering, M., Geiger, D. 1995. Learning bayesian networks, the combination of knowledge and statistical data. Machine learning 20: 197-243 [9] Heckerman, D., Chickering, M. 1996. Efficient approximation for the marginal likelihood of incomplete data given a bayesian network. Technical report MSR-TR-96-08, Microsoft Research, Microsoft Corporation. [10] Kohonen, T. (1997). Self-Organizing Maps, second edition. Berlin: Springer-Verlag. [11] Kohonen, T. (1998). An introduction to neural computing. Neural networks. Vol 1. p. 3-16. [12] Kohonen, T.; Ruohonen, K. (1973) Representation of associated data by matrix operations. IEEE Trans. on Computers 22 (1973), p. 701-702. [13] Michalski, R. Bratko, I. Kubat, M eds.1998. Machine Learning and Data Mining, Methods and Applications, John Wiley & Sons Ltd, West Sussex, England Reportes Técnicos en Ingeniería del Software. 7(1): 26-29 ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis) 29