Dos caminos en la búsqueda de patrones por medio de la minería

Anuncio
Rev. Tecnol. – Journal of Technology • Volumen 9 No. 1
Dos caminos en la búsqueda de patrones
por medio de Minería de Datos: SEMMA y
CRISP
Two paths in search of patterns through Data
Mining: SEMMA and CRISP
Hernando Camargo1, Mario Silva2.
RESUMEN
ABSTRACT
Este documento discute los resultados de la investigación
analítica sobre los dos caminos comúnmente usados en la
búsqueda de la mejor guía disponible para lograr llevar a
cabo un proyecto de minería de datos. Estas dos
propuestas son SEMMA (Sample, Explore, Modify, Model,
Asses) y CRISP (Cross Industry Standard Process for Data
Mining). Son las más aceptadas en la comunidad de
desarrolladores de proyectos de Minería de Datos.
This paper discusses results of the analytical research on
two ways commonly used in the search for the best guide
available to carry out a data mining project. The two
proposals are SEMMA (Sample, Explore, Modify, Model,
Asses) and CRISP (Cross Industry Standard Process for
Data Mining). They are the most widely accepted in the
community of developers of data mining projects.
Índice de Términos: CRISP, KDD, Inteligencia de
Negocios, Minería de datos, SEMMA.
1
2
Index T
erms: CRISP, KDD, Business Intelligence, Data
Terms:
Mining, SEMMA
Universidad El Bosque
Vehículos del camino – Concesionario Mazda
11
Ingeniería de Sistemas
Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP
Two paths in search of patterns through Data Mining: SEMMA and CRISP
I. INTRODUCCIÓN
Un proyecto, sea el que sea, para que pueda lograr el
éxito en los resultados, debe plantear su camino en un
concepto llamado metodología. Esta no es la excepción
en el caso de los proyectos de minería de datos.
Cuando se tiene una gran cantidad de datos estos deben
ser contenidos en grandes almacenes informáticos
(bodegas de datos) que están diseñados para contener
enormes cantidades de información. Su diseño está, entre
muchas otras variables, enfocado a satisfacer una inversión
a corto plazo pero de larga duración [1]. En esta gran
cantidad de información la apreciación visual deja de ser
suficiente para analizar todos los datos. Para lograr un
resultado que sea interesante para la organización
propietaria de la información, se deben aplicar técnicas y
métodos estadísticos, de modo que sea más fácil apreciar
patrones ocultos en estos datos.
Debido a que este tipo de análisis apenas empieza a ser
interesante en las organizaciones, la alternativa comúnmente
usada para hacer estos estudios es ingresar los datos en las
herramientas disponibles como WEKA (Universidad de
Waikato) [2] o Business Intelligence Development Studio
(Microsoft) [3], entre otros. Sin embargo, si no se cuenta
con una guía que le indique al analista cuáles pasos debe
seguir para obtener un resultado que genere conocimiento,
la tarea de ingresar datos en una herramienta informática
no tendría mucho sentido. Se debe usar una metodología
que muestre ese camino (no necesariamente la meta).
Al buscar el mejor camino para resolver este problema,
salen a la luz dos metodologías, CRISP y SEMMA. Las dos
permiten tomar la información, aplicar métodos
estadísticos y lograr un resultado. Pero cuál de estas dos
es mejor, o por lo menos cual es más conveniente para
aplicar en un proyecto de minería de datos?
Para visualizar una respuesta a esta inquietud se empieza
por iniciar el entendimiento sobre lo que se busca en un
proyecto de minería de datos.
II. MINERÍA DE DATOS
La minería de datos se define como el proceso de
exploración y análisis, por medios automáticos o
semiautomáticos, de grandes volúmenes de información
con el objetivo de descubrir e identificar patrones y reglas
significativas [4].
12
La minería de datos, en un primer acercamiento, aparenta
ser un tema ya conocido y nada novedoso por
implementar tecnologías ya conocidas en las áreas de la
Probabilidad y la Estadística, sin embargo se le reconoce
un nuevo potencial: el valor que le asigna a la cantidad de
datos almacenados en los garajes informáticos de las
empresas en general. Mediante este esquema los datos
pasan de ser un producto para convertirse en materia
prima por explotar. Las nuevas necesidades y características
de los datos en volumen y tipología hacen que las disciplinas
que integran y aprovechan la minería de datos sean
numerosas y heterogéneas.
El objetivo principal de la minería de datos es el de analizar
los datos para extraer conocimiento, este puede
encontrarse en forma de relaciones, patrones o reglas,
que precisamente serán inferidas de los datos, o bien en
forma de una descripción mas concisa.
Los modelos pueden ser de dos tipos: Predictivos y
Descriptivos [5].
Los modelos predictivos pretenden estimar valores futuros
o desconocidos de variables de interés, que se denominan
variables objetivo o dependientes, usando otras variables
o campos de las bases de datos que se denominan variables
independientes o predictivas. Como ejemplo, un modelo
predictivo sería aquel que permite estimar la demanda de
un nuevo producto en función del gasto en publicidad.
Los modelos descriptivos identifican patrones que explican
o resumen los datos, sirven para explorar las propiedades
de los datos examinados, no para predecir nuevos datos.
Como ejemplo, una agencia de viajes puede estar
interesada en identificar grupos de personas con unos
mismos gustos, con el objeto de organizar diferentes
ofertas para cada grupo y poder remitirles información
relacionada; para ello analiza los viajes que han realizado
sus clientes e infiere un modelo descriptivo que caracteriza
estos grupos.
La minería de datos tiene una serie de tareas que pueden
interpretarse como un tipo de problema a ser resuelto
por un algoritmo de minería de datos. Esto significa que
cada tarea tiene sus propios requisitos, y que el tipo de
información obtenida con una tarea puede diferir mucho
de la obtenida con otra.
La clasificación es la tarea más utilizada. En esta tarea cada
instancia o registro de la base de datos pertenece a una
clase, la cual se indica mediante el valor de un atributo
Rev. Tecnol. – Journal of Technology • Volumen 9 No. 1
que se llama clase de la instancia. Este atributo puede tomar
diferentes valores discretos, cada uno de los cuales
corresponde a una clase. El resto de los atributos de la
instancia (los relevantes a la clase) se utilizan para predecir
la clase. El objetivo es predecir la clase de nuevas instancias
de las que se desconoce la clase. En otras palabras, el
objetivo del algoritmo es maximizar la razón de precisión
de la clasificación de las nuevas instancias la cual se calcula
como el cociente entre las predicciones correctas y el
número total de las predicciones.
Como ejemplo se puede considerar un oftalmólogo que
desea disponer de un sistema que le sirva para determinar
la conveniencia o no de recomendar la cirugía ocular para
sus pacientes. Para ello dispone de una base de datos de
sus antiguos pacientes clasificados en “operados
satisfactoriamente” y “operados no satisfactoriamente” en
función del tipo de problema que padecían y de su edad. El
modelo encontrado se utiliza para clasificar nuevos pacientes,
es decir, para decidir si es conveniente operarlos o no.
La regresión es otra tarea, del orden predictivo, que
consiste en aprender una función real que asigna a cada
instancia un valor real. Esta es la principal diferencia
respecto a la clasificación, el valor a predecir es numérico.
El objetivo en este caso es minimizar el error
(generalmente el error cuadrático medio) entre el valor
predicho y el valor real.
A manera de ejemplo, un empresario quiere conocer cuál
es el costo de un nuevo contrato basándose en los datos
correspondientes a contratos anteriores. Para ello usa una
fórmula de regresión lineal, ajustando con los datos pasados
la función lineal y usándola para predecir el costo en el
futuro.
El agrupamiento es la tarea descriptiva por excelencia y
consiste en obtener grupos “naturales” a partir de los datos.
En este caso se habla de grupos y no de clases, porque a
diferencia de la clasificación, en lugar de analizar datos
etiquetados con una clase, los analiza para generar esta
etiqueta.
Por ejemplo, una librería que ofrece sus servicios a través
de la red usa el agrupamiento para identificar grupos de
clientes con base en sus preferencias de compras que le
permita dar un servicio más personalizado. Así, cada vez
que un cliente se interesa por un libro, el sistema identifica
a qué grupo pertenece y le recomienda otros libros
comprados por clientes de su mismo grupo.
Las correlaciones son una tarea descriptiva, que se usa
para examinar el grado de similitud de los valores de dos
variables numéricas. Una formula estándar para medir la
correlación lineal es el coeficiente de correlación r, el cual
es un valor comprendido entre -1 y 1. Si r es 1
(respectivamente, -1) las variables están perfectamente
correlacionadas (perfectamente correlacionadas
negativamente), mientras que si su valor es 0 no hay
correlación. Esto quiere decir que cuando r es positivo,
las variables tienen un comportamiento similar, mientras
que cuando r es negativo, si una variable crece, la otra
decrece.
Como ejemplo de las correlaciones, un inspector de
incendios que desea obtener información útil para la
prevención de ellos, probablemente esté interesado en
conocer correlaciones negativas entre el empleo de
distintos grosores de protección de material eléctrico y la
frecuencia de ocurrencia de incendios.
Las reglas de asociación son también tareas descriptivas
similares a las correlaciones, que tienen como objeto
identificar relaciones no explícitas entre atributos
categóricos. Pueden ser de muchas formas aunque la
formulación más común es del estilo “si el atributo X toma
el valor d entonces el atribuyo Y toma el valor b“. Las
reglas de asociación no implican una relación causa-efecto,
es decir, puede no existir una causa para que los datos
estén asociados.
Como ilustración, una compañía de asistencia sanitaria
desea analizar las peticiones de servicios médicos solicitados
por sus asegurados. Cada petición contiene información
sobre las pruebas médicas que fueron realizadas al paciente
durante una visita. Toda esta información se almacena en
una base de datos en la que cada petición es un registro
cuyos atributos expresan si se realiza o no cada una de las
posibles pruebas médicas que pueden ser realizadas a un
paciente. Mediante reglas de asociación, un sistema
encontraría aquellas pruebas médicas que frecuentemente
se realizan juntas, por ejemplo que un 70 por ciento de
las veces que se pide un análisis de orina también se solicita
uno de sangre, y esto ocurre en dos de cada diez pacientes.
La precisión de esta regla es del 70 por ciento y el soporte
del 20 por ciento.
Como caso especial de estas reglas de asociación se
encuentran las reglas de asociación secuencial, las cuales
se usan para determinar patrones secuenciales en los datos.
Estos patrones se basan en secuencias temporales de
13
Ingeniería de Sistemas
Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP
Two paths in search of patterns through Data Mining: SEMMA and CRISP
acciones y difieren de las reglas de asociación en que las
relaciones entre los datos se basan en el tiempo.
Para mostrar esta tarea, asumamos que una tienda de venta
de electrodomésticos y equipos de audio analiza las ventas
que ha efectuado usando análisis secuencial y descubre
que el 30 por ciento de los clientes que compraron un
televisor hace seis meses compraron un DVD en los
siguientes dos meses.
Sin embargo, la minería de datos es solamente una etapa
de lo que se ha venido llamando el proceso de extracción
de conocimiento a partir de datos. Este proceso se conoce
como “KDD“.
III. KDD
Se define la KDD o Knowledge Discovery in Databases
como “el proceso no trivial de identificar patrones válidos,
novedosos potencialmente útiles y, en última instancia,
comprensibles a partir de los datos” [6].
La KDD es un término que se confunde muy comúnmente
con la minería de datos. Como se puede apreciar en la
Fig. 1, de manera correcta la KDD es un proceso que
consta de una serie de fases [5], mientras que la minera
de datos es solo una de esas fases.
Fig 1. Proceso de KDDFigura 5. Proceso de KDD
Del conocimiento extraído se desean las siguientes
propiedades [5]:
• Válido: Hace referencia a que los patrones deben
seguir siendo precisos para los datos nuevos (con
un cierto grado de incertidumbre), y no sólo para
aquellos que han sido usados en su obtención.
de decisiones. De hecho, una información
incomprensible no proporciona conocimiento (al
menos desde el punto de vista de su utilidad).
El KDD involucra un proceso iterativo e interactivo [7] de
búsqueda de modelos, patrones o parámetros. Sus metas
son procesar grandes cantidades de datos, identificar los
patrones más significativos y relevantes, y presentarlos
como conocimiento para satisfacer los objetivos del
usuario.
El proceso ya empieza a definir, para alguien que no se
encuentra completamente familiarizado con el tema, cómo
debería ser el camino para realizar un análisis por medio
de la aplicación de técnicas de minería de datos.
Para resolver la pregunta inicial sobre que metodología
debiera seguirse, se debería mostrar ahora cuales fueron
las metodologías en evaluación.
IV. CRISP - DM
Esta metodología inicialmente fue desarrollada por tres
empresas que iniciaron sus investigaciones en el tema de
la Minería de Datos: DaimlerChrysler (luego conocido
como DaimlerBenz) quien siempre implementó principios
y técnicas de minería de datos en sus negocios, SPSS quien
provee servicios basados en Minería de Datos desde 1990,
y NCR.
La metodología CRISP – DM, como lo muestra la Fig. 2
[8], está descrita en términos de un modelo de proceso
jerárquico, que consiste en una serie de tareas descritas
en cuatro niveles de abstracción (de lo general a lo
específico): Fases, tareas genéricas, tareas especializadas
e instancias de proceso.
• Novedoso: Que aporte algo desconocido tanto
para el sistema y preferiblemente para el usuario.
• Potencialmente útil: la información debe conducir
a acciones que reporten algún tipo de beneficio para
el usuario.
• Comprensible: La extracción de patrones no
comprensibles dificulta o imposibilita su
interpretación, revisión, validación y uso en la toma
14
Fig 2. Modelo Jerárquico de la metodología CRISP.Figura 1. Modelo
Jerárquico de la metodología CRISP
Las fases que trata la metodología CRISP – DM se resumen
en la Tabla1.
Rev. Tecnol. – Journal of Technology • Volumen 9 No. 1
Tabla 1. Fases de la metodología CRISP
Fase
Descripción
Entendimiento del negocio
Esta fase inicial se centra en el entendimiento de los objetivos del proyecto y los requerimientos desde
una perspectiva del negocio, para convertir este conocimiento en un problema de definición de minería de
datos y un plan preliminar diseñado para alcanzar los objetivos.
Entendimiento de los datos
Esta fase inicia con una colección inicial de datos y procede con actividades para familiarizarse con ellos,
identificar problemas de calidad en los mismos, descubrir una primera idea de estos o detectar conjuntos
interesantes que permitan formar hipótesis en la búsqueda de información escondida.
Preparación de los datos
Cubre todas las actividades para construir la base final de datos (datos que serán el alimento de las herramientas
de modelado) desde una base en bruto. Es preferible que las tareas de preparación de datos se realicen
varias veces y no en un orden preestablecido. Estas tareas incluyen tabulación, documentación y selección
de atributos, también como transformación y limpieza de datos para las herramientas de modelado.
Modelado
Se seleccionan y aplican varias técnicas, y sus parámetros son calibrados a los valores óptimos. Por lo
general hay varias técnicas para el mismo tipo de problema. Algunas técnicas tienen requerimientos
específicos en la forma de los datos, por lo tanto será a menudo necesario devolverse a la fase de
preparación de datos
Evaluación
Al llegar a esta fase se ha construido un modelo (o modelos) que aparentan tener una alta calidad desde
la perspectiva del análisis de datos. Antes de proceder a la entrega final del modelo es importante evaluarlo
más a fondo y revisar los pasos ejecutados para construirlo, de tal forma que este lo más cercano posible
de alcanzar los objetivos del negocio. Un objetivo clave es determinar si hay algún evento importante del
negocio que no haya sido considerado lo suficiente. Al final de esta fase, se debe tener una decisión sobre
el uso de los resultados de minería de datos.
Despliegue
La creación del modelo por lo general no es el final del proyecto. Incluso si el propósito del modelo es
incrementar conocimiento sobre los datos, el conocimiento ganado necesitará ser organizado y presentado
de una manera que el cliente lo pueda usar. A menudo implica aplicar modelos en vivo dentro del proceso
de toma de decisiones de una organización, por ejemplo, en la personalización en tiempo real de las
páginas web o la puntuación repetida en bases de datos de mercadeo. Sin embargo, dependiendo de los
requerimientos, la fase de despliegue puede ser tan simple como generar un reporte o tan compleja como
implementar un proceso repetible de minería de datos a través de la empresa. En muchos casos es el
cliente, no el analista de datos, quien realiza los pasos de despliegue. Sin embargo, incluso si el analista
no carga con el esfuerzo de despliegue, es importante que el cliente entienda que acciones deben ser
llevadas a cabo para hacer uso de los modelos creados.
La figura 3 ilustra el comportamiento [8] y la relación de
las fases descritas en la Tabla 1.
Fig. 3. Fases y ciclo de la Metodología CRISP
V. SEMMA
El acrónimo SEMMA surge de las iniciales de las palabras
Sample (muestra), Explore (explorar), Modify (modificar),
Model (modelar) y Assess (evaluar). Es un proceso que se
sigue para realizar minería de datos [9].
Principalmente SEMMA es una organización lógica para el
manejo de una herramienta funcional de SAS llamada
Enterprise Manager para el manejo de tareas de minería de
datos. SEMMA intenta hacer fácil de aplicar la exploración
estadística y la visualización de técnicas, seleccionando y
transformando las variables predictivas más relevantes,
modelándolas para obtener resultados, y finalmente
confirmar la precisión del modelo [1].
SEMMA se enfoca en los aspectos de desarrollo del
modelo de minería de datos: muestreo, explorar, modificar,
modelar y evaluar, detallados en la Tabla 2.
15
Ingeniería de Sistemas
Dos caminos en la búsqueda de patrones por medio de Minería de Datos: SEMMA y CRISP
Two paths in search of patterns through Data Mining: SEMMA and CRISP
Tabla 2. Aspectos de desarrollo de SEMMATabla 1. Fases de la metodología
Muestreo
Se busca extraer una porción de datos lo suficientemente grande para contener información significativa,
pero reducida para manipularla rápidamente. Si los patrones generales aparecen en los datos en su
conjunto, estos se pueden distinguir en una muestra representativa. Si un nicho es tan pequeño que no
es representable con una muestra y aun así es tan importante que influencia la imagen completa, puede
ser descubierto por medio de métodos de síntesis. También se pueden crear conjuntos de datos así:
• Entrenamiento – Usado para modelos adecuados
• Validación – Usado para comprobar
• Prueba – Usado para obtener comprobaciones honestas y para mostrar que tan bien puede
generalizar un modelo.
Explorar
Se desea explorar los datos buscando tendencias y anomalías imprevistas para obtener una comprensión
total de los mismos. Esta fase ayuda a refinar el proceso de descubrimiento. Si visualmente no hay un
resultado claro se pueden tratar los datos por medio de técnicas estadísticas como el análisis factorial,
de correspondencias y agrupaciones. A manera de ejemplo, en la minería de datos de campañas de
correo directo, el agrupamiento podría revelar grupos de compradores con distintos patrones de
ordenamiento, y sabiendo esto, se crea la oportunidad de generar correos personalizados o promociones.
Modificar
Se modifican los datos por medio de la creación, selección y transformación de variables, para centrar el
proceso de selección del modelo. Basado en los descubrimientos en la fase de exploración, puede
haber la necesidad de manipular los datos para incluir información como la de agrupamiento de
compradores y subgrupos significativos, o introducir nuevas variables. También puede ser necesario
buscar valores extremos (bordes) y reducir el número de variables, para reducir a los más significativos.
También puede ser necesario modificar datos cuando la información “minada” cambie. Debido a que la
minería de datos es un proceso dinámico e iterativo, puede actualizar los métodos o los modelos cuando
esté disponible nueva información.
Modelar
Se modelan los datos permitiendo que el software busque automáticamente una combinación de datos
que prediga con cierta certeza un resultado deseado. Las técnicas de modelado en minería de datos
incluyen las redes neuronales, modelos de arboles de decisión, modelos lógicos y otros modelos
estadísticos (como los análisis de serie de tiempo, razonamiento basado en memoria y componentes
principales). Cada uno tiene sus fortalezas, y dependiendo de la información se debe aplicar el más
adecuado según las situaciones concretas para el análisis con la minería de datos. Por ejemplo, las
redes neuronales son muy buenas en la conexión de relaciones no lineales de gran complejidad.
Evaluar
Se califican los datos mediante la evaluación de la utilidad y fiabilidad de los resultados del proceso de
minería de datos. Una forma común de evaluación de un modelo es la de aplicar el modelo a una
porción aparte de resultados obtenidos durante el muestreo. Si el modelo es válido, debería funcionar
para esta muestra, así como para la muestra utilizada en la construcción del modelo. De manera similar,
se puede probar el modelo nuevamente con los datos conocidos. Por ejemplo, si se sabe cuales clientes
tienen altas tasas de retención y su modelo predice la retención, puede probar si el modelo selecciona
estos clientes acertadamente.
Cuando se haya desarrollado el modelo usando
SEMMA basado en la aproximación de minería, se
necesita desplegar la solución para calificar los nuevos
casos. El despliegue del modelo es el resultado final
de la minería de datos. La Fig. 4 muestra el flujo del
proceso de Minería de Datos mediante la metodología
SEMMA [9].
Fig 4. Fases de SEMMA
16
Rev. Tecnol. – Journal of Technology • Volumen 9 No. 1
VI. RESULTADOS
Las metodologías CRISP-DM y SEMMA fueron
comparadas y se obtuvieron los resultados sintetizados
en la Tabla 3 que contrasta los aspectos principales de
ambos esquemas.
Se puede ver que ambas metodologías mantienen la misma
esencia al mantener los lineamientos de KDD: son fases
relacionadas en un orden similar y funcionan de manera
iterativa (por la retroalimentación).
Tabla 3. Comparación CRISP – DM y SEMMA
CRISP - DM
SEMMA
Abierta
Cerrada (Abierta en los aspectos
generales únicamente)
Funciona en cualquier esquema
que aplique minería de datos.
Permite que cualquier sistema
informático pueda seguir estos
pasos
Funciona específicamente en
SAS
Implica retroalimentación, es
cíclica
Implica retroalimentación, es
cíclica
Fases: Entendimiento del
negocio, Entendimiento de los
datos, Preparación de los
datos, Modelado, Evaluado,
Despliegue
Fases: Muestreo, Explorar,
Modificar, Modelar, Evaluar
Metodología
Secuencia Lógica
Permite aplicar cualquier modelo
estadístico
Está obligado a los modelos
estadísticos que tenga
incorporados la herramienta
Enterprise Miner
Enfocada a resultados
empresariales
Enfocada a resultados
del proceso
Sigue el esquema propuesto
en KDD
Sigue el esquema propuesto en
KDD
Libre distribución
Distribución en clientes SAS
Se aprecia una diferencia marcada en CRISP, que tiene en
cuenta aspectos del negocio (en la fase inicial
principalmente – Entendimiento del negocio). De este
modo, CRISP puede percibir para el proyecto de minería
de datos los datos que debe buscar, cuáles son los objetivos
que debe alcanzar y cuáles podrían ser los resultados
esperados.
Otra diferencia muy importante es que para acceder a la
metodología CRISP se puede hacer directamente desde la
página web. Para acceder a la metodología SEMMA solo es
posible cuando se tiene una solución SAS con la cual se
puede trabajar. Solo se permite el acceso a las generalidades
del proceso como muestra de cuál es el camino a seguir.
VII. CONCLUSIÓN
De los dos caminos, no resulta justo definir cuál es el mejor
en términos absolutos. Ambos son bastante sólidos, sin
embargo en la práctica es la metodología SEMMA un poco
más reducida en el alcance de resultados que la
metodología CRISP. SEMMA funciona perfectamente
cuando se tiene un sistema SAS, el cual es muy popular
en empresas grandes. Sin embargo es posible que este
sea el Talón de Aquiles de este estándar, ya que los demás
esquemas quedan por fuera de la solución.
CRISP – DM no sólo se ajusta un poco más a los
parámetros de la KDD, sino también a los procesos que
una empresa realiza en su trabajo con los datos. También
se puede percibir cierta similitud en el proceso de CRISP
con otros de desarrollo de proyectos de software como
RUP (Proceso Unificado Racional) en donde las fases de
CRISP aparentan ser similares al ciclo de vida de RUP.
SAS es una empresa que tiene mucha trayectoria en el
mercado para el manejo de información. Particularmente
tienen experiencia en temas de negocios complejos. Inician
actividades en 1976 y hasta hoy en día siempre han sido
conocedores de soluciones de sistemas. El conocimiento de
cómo abarcar un proyecto de análisis con minería de datos
lo han dejado por escrito en el estándar SEMMA, de modo
que no se puede descartar fácilmente esta metodología.
La minería de datos es una herramienta desarrollada en
principio para el análisis de datos aplicando métodos
estadísticos. La naturaleza de estos métodos hacía que
para que una empresa solicitara este tipo de análisis a una
entidad experta en la materia, se vería forzosamente
obligada a pagar altos costos por los resultados. Sin
embargo la automatización de los procesos generó grandes
cantidades de información que incluso estos analizadores
no tenían la capacidad de procesar. Los grandes fabricantes
de motores de bases de datos como Microsoft (con SQL
Server), Oracle, y demás se han visto obligados a incluir
en sus soluciones paquetes que permiten aplicar las técnicas
de minería de datos dentro de sus tareas comunes.
La minería de datos hace parte de la tendencia Business
Intelligence (Inteligencia de Negocio) y particularmente
resuelve el área de predicción [10], sobre la que las
empresas tienen interés en el desarrollo de soluciones.
17
Ingeniería de Sistemas
Transferencia de tecnología informática: Entorno colombiano
Information Technology Transfer: Colombian environment
La minería de datos no se debe percibir como una solución
a todos los problemas ya que en la práctica puede tener
varios inconvenientes, por ejemplo, si la información
ingresada no es correcta, o no es verídica, los resultados
pueden conducir a caminos falsos. Además, los patrones
muestran tendencias, que pueden cambiar por múltiples
motivos, por ejemplo en el mercado automotriz
colombiano no se esperaba en su momento que se
pudiera presentar problemas en temas de negociación con
los países vecinos. Esto no encaja en modelos que se
vinieran trabajando y cambia radicalmente los resultados.
Sin embargo, si una empresa registra datos y sus
operaciones diarias, podrán relacionarse en tiempo real,
y así encontrar información de las tendencias para identificar
posibles clientes nuevos, nuevos mercados, fraudes,
nuevas oportunidades, por ejemplo.
REFERENCIAS
[1] D. Olson, D.Delen, “Advanced Data Mining Techniques“.
Berlin: Springer - Verlag, 2008, pp 19.
[2] The University of Waikato. (25/05/2010). WEKA [Online]
Disponible: http://www.cs.waikato.ac.nz/ml/weka/
[3] Microsoft Corporation. (25/05/2010). Introducing Business
Intelligence Development Studio [Online] Disponible: http://
technet.microsoft.com/es-es/library/ms173767.aspx
[4] M. Berry, G. Linoff, “Mastering data mining: the art and
science of customer relationship management“. West Susex:
John Wiley & Sons, 1999.
[5] J. Hernández, M. Ramirez, C. Ferri, “Introducción a la Minería
de Datos“. Madrid: Pearson Prentice Hall, 2007, pp 13-14, 25-27.
[6] U. Fayad, G. Piateski-Shapiro, P. Smyth, “From Data Mining
to Knowledge Discovery: An Overview“. Menlo Park: American
Association for Artificial Intelligence Press, 1996.
[7] C. Perez, D. Santin, “Data Mining Soluciones con Enterprise
Miner“. Madrid: Alfaomega Grupo Editor S.A., 2006, pp 13 - 20.
[8] P. Chapman, J. Clinton, R. Kerber, T. Khabaza, T. Reinartz,
C. Shearer, R. Wirth, “CRISP-DM 1.0 Step by step data mining
guide“. SPSS Inc, 2000, pp 9, 13.
[9] SAS Institute Inc. (27/04/2010). SAS SEMMA [Online]
Disponible: http://www.sas.com/offices/europe/uk/technologies
/analytics/datamining/miner/semma.html
[10] L. Vieira, L. Ortiz, S. Ramirez, “Introducción a la Minería
de Datos“. Rio de Janeiro: E-Papers Servicios Editoriales, 2009,
pp 20.
Tipo de Artículo: Tipo I: Artículo de Investigación científica y tecnológica.
Los autores declaran que no tienen conflicto de interés.
Los Autores
Hernando Camargo Mila
Docente del programa Ingeniería de Sistemas de la Universidad El Bosque desde 2002 a la fecha, Distinción de la Universidad El Bosque a la “Excelencia
en la Docencia” en el año 2004. Especialista en Informática y Ciencias de la Computación, Fundación Universitaria Konrad Lorenz, Bogotá 2006. Ingeniero
de Sistemas, Universidad Nacional de Colombia, Bogotá 1988, Docente del Programa en Ingeniería de Sistemas de la Fundación Universitaria Konrad
Lorenz desde 2001 a la fecha y desde el 2003 Coordinador Académico de las Facultades de Ingeniería y Matemáticas.
Jefe del Departamento de Sistemas de Petróleos Colombianos Limited, Bogotá, desde 1990 a 1998. Gerencia de proyectos informáticos en Comcel
durante 1998. Gerencia de proyectos de Outsourcing informático en Gestiontek S. A., desde 1999 a 2001.
Carrera 7 B Bis 132-11, Edificio El Campito, Bogotá D.C., Colombia. [email protected]
Mario Andrés Silva Montoya
Asesor de sistemas de “Vehículos del Camino“, concesionario Mazda. Ingeniero de Sistemas, Universidad El Bosque, 2.010. Experiencia en implementación
de redes de computadores, con conocimientos en Dirección de Proyectos según el estándar del Project Management Institute (PMBOK, 3ª edición), con
amplio conocimiento de desarrollo de software y manejo de plataformas y programas de desarrollo Visual Studio. NET 2008 (C++, C#), JCreator (Java),
SQL Server 2005 (SQL), Oracle 10g, especial interés en el trabajo con Bases de datos.
[email protected]
18
Descargar