Objetivos de Negocio y Procesos de Minería de Datos Basados en

Anuncio
Objetivos de Negocio y Procesos de Minería de Datos Basados en
Sistemas Inteligentes
Paola Britos
Centro de Ingeniería del Software e Ingeniería del Conocimiento. Escuela de Postgrado. Instituto Tecnológico de
Buenos Aires. Argentina
Laboratorio de Sistemas Inteligentes. Facultad de Ingeniería. Universidad de Buenos Aires. Argentina.
[email protected]
Resumen
CRISP-DM es una metodología estándar que ha sido desarrollada para la construcción de
proyectos de minería de datos que propone un ciclo de vida cuya primer fase es comprensión
del negocio. Esta fase comprende las siguientes subfases: determinar los objetivos del
negocio, evaluación de la situación, determinar objetivos del proceso de explotación de datos
y realizar el plan del proyecto. En este trabajo se correlacionan algunos objetivos del negocio
detectables en la subfase de determinación los objetivos del negocio con algunas técnicas
identificables en la subfase de realización del plan del proyecto. En orden a esto, se se
enumeran los procesos de minería de datos: predicción, construcción de modelos,
descubrimiento de grupos, identificación de factores y detección de perfiles; se identifican
técnicas de sistemas inteligentes de utilidad para ejecutar dichos procesos, se asocia dichos
procesos con objetivos de negocio y se propone una abstracción del proceso involucrado.
1.
Introducción
CRISP-DM es una metodología estándar que ha sido
desarrollada para la construcción de proyectos de minería
de datos [2]. La metodología propone para un proyecto
de minería de datos un ciclo de vida que consiste en las
siguientes seis fases: comprensión del negocio,
comprensión de los datos, preparación de los datos,
modelización,
evaluación
e
implementación.La
comprensión del negocio abarca: [a] determinar los
objetivos del negocio, [b] evaluación de la situación, [c]
determinar objetivos del proceso de minería de datos y
[d] realizar el plan del proyecto. La comprensión de los
datos abarca: [a] recolectar los datos iniciales, [b]
descubrir datos, [c] exploración de los datos y [d]
verificación de calidad de datos. La preparación de los
datos abarca [a] seleccionar los datos, [b] limpiar los
datos, [c] estructurar los datos, [d] integrar los datos y [e]
formato de los datos. La modelización abarca: [a]
seleccionar una técnica de modelado, [b] generar el plan
de pruebas, [c] construir el modelo y [d] evaluar el
modelo. La evaluación abarca: [a] evaluar resultado, [b]
revisión de lo hecho y [c] determinar próximos pasos. La
implementación abarca: [a] formulación del plan de
implantación, [b] formulación del plan de monitoreo y
mantenimiento, [c] formulación del informe final y [d]
revisión del proyecto.La fase comprensión del negocio
pretende comprender los objetivos y los requerimientos
desde la perspectiva del negocio, para convertir este
conocimiento en una descripción de problema para la
minería de datos. Esta fase se estructura en las siguientes
subfases: determinar los objetivos del negocio,
evaluación de la situación, determinar objetivos del
proceso de explotación de datos y realizar el plan del
proyectoDeterminar los objetivos del negocio abarca [a]
Entendimiento del negocio, [b] Objetivos del negocio y
[c] Criterios de éxito del negocio. La Evaluación de la
situación abarca [a] Inventarios de recursos, [b]
Requisitos, supuestos y restricciones, [c] Riesgos y
contingencias, [d] Terminología y [e] Costos y
beneficios. Determinar objetivos del proceso de
Explotación de Datos abarca [a] Metas del Proceso de
Explotación de Datos y [b] Criterios de éxito del Proceso
de Explotación de Datos. Realizar el plan del proyecto
abarca [a] Plan de proyecto y [b] Evaluación de
herramientas y técnicas.En este trabajo se correlacionan
algunos objetivos del negocio detectables en la subfase de
determinación los objetivos del negocio con algunas
técnicas identificables en la subfase de realización del
plan del proyecto. En la sección 2 se reseñan algunas
técnicas de sistemas inteligentes aplicables a minería de
datos. En la sección 3 se enumeran los procesos de
minería de datos: predicción, construcción de modelos,
descubrimiento de grupos, identificación de factores y
detección de perfiles; se identifican técnicas de sistemas
inteligentes de utilidad para ejecutar dichos procesos, se
asocia dichos procesos con objetivos de negocio y se
propone una abstracción del proceso involucrado. En la
sección 4 se esbozan algunas conclusiones parciales y en
la sección 5 se dan las referencias que apoyan el trabajo.
Reportes Técnicos en Ingeniería del Software. 7(1): 26-29
ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis)
26
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes
2.
Técnicas de Sistemas Inteligentes aplicables a
Minería de Datos
Rumelhart y McClelland [1986] modificaron la red
Perceptron de Rosenblatt [1958] para que aprendiera la
asociación que existe entre los patrones de entrada y las
clases correspondientes de salidas. Para lograrlo, agregó
capas ocultas, con conexión hacia atrás y sin conexiones
recurrentes. Esto requirió modificaciones en el algoritmo
de aprendizaje para que se ejecutase en forma no
supervisada basado en la regla Delta Generalizada [22]
conociéndose en la actualidad como algoritmo de
retopropagación (backpropagation). El algoritmo de
aprendizaje por retropropagación puede aplicarse en
redes neuronales artificiales con más de dos capas de
neuronas y es capaz de representar el conocimiento en las
capas ocultas, logrando así la correspondencia entre las
entradas y las salidas. El funcionamiento general de una
red neuronal artificial de este tipo puede dividirse en dos
partes: la etapa de entrenamiento y la etapa de
producción. La primera consiste en aprender la
correspondencia entre entrada y salida dados por
conjunto predefinido de observaciones empleando un
ciclo propagación-adaptación de dos fases [5]. La
segunda en predecir la salida a partir de una entrada no
contenida en el conjunto predefinido de observaciones
[18].
Las redes bayesianas [19] son utilizadas en diversas áreas
de aplicación como por ejemplo el diagnóstico médico
[1]. Las mismas proveen una forma compacta de
representar el conocimiento y métodos flexibles de
razonamiento - basados en las teorías probabilísticas capaces de predecir el valor de variables no observadas y
explicar las observadas. Entre las características que
poseen las redes bayesianas, se puede destacar que
permiten aprender sobre relaciones de dependencia y
causalidad, permiten combinar conocimiento con datos
[7], [3], evitan el sobre-ajuste de los datos y pueden
manejar bases de datos incompletas [8], [9], [20].
Kohonen y Ruohonen [1973] desarrollaron un modelo de
red neuronal con capacidad para formar mapas de
características a partir de un estímulo externo que por sí
solo es suficiente para forzar la formación de los mapas y
establecer características comunes entre la distintas
entradas a la red. Los mapas autoorganizados [10] o
redes SOM (Self Organizing Maps) se basan en el
principio de formación de mapas topológicos para
establecer características comunes entre la información
de entrada y las características de salida [11]. Son
modelos de redes con conexiones hacia delante
(feedforward), y conexiones laterales de inhibición
implícitas, para que cada una de las neuronas de salida
tenga influencia sobre sus vecinas. Esto permite el
entrenamiento de este tipo de redes, en donde solo una de
las neuronas de salida se activará dado un vector p de
atributos en la capa de entrada. El entrenamiento es del
tipo no supervisado y competitivo, utilizando la técnica
“Winner Takes All”.
3. Procesos de Minería de Datos, Técnicas y
Abstracción de Objetivos de Negocio
3.1. Proceso de Predicción
Objetivos
•
del Negocio:
Detección de las mejores
perspectivas de ventas para
nuestros servicios.
• Detección de fraude para bancos y
financieras
• Detección de fraude para centros de
stock o corretaje
• Detección de fraude para Gobierno
• Detección de elementos de
defectuosos en una línea de
producción
• Detección de cambios en el
funcionamiento de una línea de
producción
• ¿Qué comprarán los clientes?
• ¿Cuánto gastaran los clientes?
• ¿Cuáles son los visitantes del
próximo mes?
• ¿Qué clientes están en situación de
abandonar el negocio?
Abstracción: Cuando se quiere saber el valor que
tomarán algunas variables del negocio
variables dependientes en función del
valor que tomarán otras variables
independientes.
Técnica a
Redes Neuronales «Back -Propagation»
Utilizar:
3.2. Proceso de Construcción de Modelos
Objetivos
•
del Negocio:
Identificación de modelos
financieros para bancos y
financieras
• Identificación de modelos
financieros para centros de stock o
corretaje
• Identificación del modelo
correspondiente a una cadena de
abastecimientos
Abstracción: Cuando se quiere saber como la
variación de una o mas variables del
negocio incidirá sobre la variación de
las otras variables.
Técnica a
Redes Bayesianas
Utilizar:
3.3. Proceso de Descubrimiento de Grupos
Objetivos
•
del Negocio:
•
Reportes Técnicos en Ingeniería del Software. 7(1): 26-29
ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis)
Segmentación de clientes para
bancos y financieras
Caracterización de tipos de
llamadas para empresas de
27
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes
telecomunicación.
¿Cuál es el grupo oculto en los
datos?
Abstracción: Cuando se requiere identificar clases en
el conjunto de registros de información
que se tienen del negocio.
Técnica a
Mapas Auto Organizados (Kohonen)
Utilizar:
•
3.4. Proceso de Identificación de Factores
Objetivos
•
del Negocio:
•
¿Cuáles son los factores de
impactos de las ventas?
¿Cuáles son las características o
rasgos de mis clientes con alto
grado de fidelidad a la marca?
• ¿Cuáles son los atributos mas
importantes que llevan a la
contracción de segmentos de
mercado?
• ¿Cuáles son los atributos claves que
convierten en vendible a un
determinado producto?
• ¿Qué características tienen los
visitantes de un website que
seleccionan determinados
productos?
• ¿Qué características tienen los
clientes que están mas identificados
con un nuevo producto?
• ¿Qué características tienen los que
visitan nuestro website?
• ¿Qué palabras clave buscan mas
desde nuestro sitio?
• ¿Qué atributos demográficos y
psicográficos distinguen a los
visitantes de nuestro website?
• ¿Que características tienen los
libros que se venden?
• ¿Que características tienen los
clientes a quienes se les vende un
determinado producto?
• ¿A quien y en que local van los
clientes?
• ¿Quién compra que?
Abstracción: Cuando se requiere identificar cuales
son los factores que inciden sobre
determinado resultado del negocio.
Técnica a
Algoritmos de Inducción (TDIDT)
Utilizar:
3.5. Proceso de Detección de Perfiles
Objetivos
•
del Negocio:
•
•
¿Cuáles son los perfiles de clientes
más aprovechables?
¿Cuál es la distribución y estructura
de los datos de mi website?
¿Cuál es el rasgo en común del
•
•
perfil de los visitantes?
¿Cuál es el perfil de mercado de los
visitantes rentables de web?
• ¿Cuál es el perfil de mercados de
los visitantes no rentables del
website?
Abstracción: Cuando se requiere identificar los
factores de clases en el conjunto de
registros de información que se tienen
del negocio.
Técnica a
Mapas Auto organizados + Árboles de
Utilizar:
inducción
4. Conclusiones
En este trabajo se ha presentado una posible relación
entre objetivos del negocio, los procesos de minería de
datos que los satisfacen, las técnicas de sistemas
inteligentes de utilidad para ejecutar dichos procesos y se
ha propuesto una abstracción de los procesos
mencionados.
Constituye un problema abierto identificar los pasos para
la correcta aplicación de las técnicas a la satisfacción de
cada objetivo de negocio. En este proceso se presume que
se identificarán diferencias que permitirán platear
taxonomías de subobjetivos de negocios.
5. Referencias
[1]
Beinlich, I., Suermondt, H., Chavez, R., Cooper,
G. 1989. The ALARM monitoring system: A case
study with two probabilistic inference techniques
for belief networks. In proceedings of the 2nd
European Conference on Artificial Intelligence in
Medicine.
[2]
Chapman P ; Clinton, J ; Keber, R ; Khabaza, T ;
Reinartz, T ; Shearer, C; Wirth, R. 2000. CRISPDM 1.0 Step by step data mining guide. SPSS.
[3]
Diaz, F., Corchado, J. 1999. Rough sets bases
learning for bayesian networks. International
workshop on objetive bayesian methodology,
Valencia, Spain.
[4]
García Martínez, R., Fritz, W., y Blanqué, J. 1987.
Un algoritmo de aprendizaje de conceptos para
sistemas inteligentes. Anales del V Congreso
Nacional de Informática y Teleinformática.
Páginas 91-96. Buenos Aires. Junio. Argentina.
[5]
García-Martínez, R.; Servente; M. y Pasquín, D.
2003. Sistemas Inteligentes. Nueva Librería. ISBN
987-1104-05-7.
[6]
Grossman, R., Kasif, S., Moore, R., Rocke, D. and
Ullman, J. 1999. Data Mining Research:
Opportunities and Challenges, A Report of three
Reportes Técnicos en Ingeniería del Software. 7(1): 26-29
ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis)
28
Objetivos de Negocio y Procesos de Minería de Datos Basados en Sistemas Inteligentes
NSF Workshops on Mining Large, Massive, and
Distributed Data, January 1999, Chicago
[7]
Heckerman, D. 1995. A tutorial on learning
bayesian networks. Technical report MSR-TR-9506, Microsoft research, Redmond, WA.
[8]
Heckerman, D., Chickering, M., Geiger, D. 1995.
Learning bayesian networks, the combination of
knowledge and statistical data. Machine learning
20: 197-243
[9]
Heckerman, D., Chickering, M. 1996. Efficient
approximation for the marginal likelihood of
incomplete data given a bayesian network.
Technical report MSR-TR-96-08, Microsoft
Research, Microsoft Corporation.
[10]
Kohonen, T. (1997). Self-Organizing Maps,
second edition. Berlin: Springer-Verlag.
[11]
Kohonen, T. (1998). An introduction to neural
computing. Neural networks. Vol 1. p. 3-16.
[12]
Kohonen, T.; Ruohonen, K. (1973) Representation
of associated data by matrix operations. IEEE
Trans. on Computers 22 (1973), p. 701-702.
[13]
Michalski, R. Bratko, I. Kubat, M eds.1998.
Machine Learning and Data Mining, Methods and
Applications, John Wiley & Sons Ltd, West
Sussex, England
Reportes Técnicos en Ingeniería del Software. 7(1): 26-29
ISSN 1667-5002. © CAPIS-EPG-ITBA (http://www.itba.edu.ar/capis/rtis)
29
Descargar