DATAMINING_TI

Anuncio
¿Quién quiere oro,
cuando se tienen datos?
La evolución informativa parece no tener fin.
INTEGRANTES:
Rodolfo González
Ítalo
Jara
Tamara Navarrete
Ariel
Mella
¿Quién quiere oro, cuando se tienen datos?
2
¿Quién quiere oro, cuando se tienen datos?
Data Mining, la búsqueda de formas de cómo interpretar datos de manera
inteligente, es una poderosa alternativa para poder extraer información y a esta
darle un uso a un nivel más alto. Preparando, escaneando y seleccionando, el
Data Mining nos ofrece opciones muy útiles a la hora de hacer análisis de nuestros
datos, siendo capaz de “ver lo que no se ve” debido a que esta técnica rescata de
las bases de datos lo que está implícito en ellas, así se aprovecha mejor lo que
estas contienen.
El proceso se desarrolla de manera detallada sin embargo rápidamente, comienza
con una selección de datos, seguido del análisis de estos, y aquí entra de lleno el
Data Mining, es en este paso donde se debe elegir una técnica de uso
(especificadas en el interior de este informe) con la cual extraeremos conocimiento
y tendremos evaluaciones de los datos
3
¿Quién quiere oro, cuando se tienen datos?
INDICE
Introducción……………………………………………………………………………4
Historia………………………………………………………………………………….5
¿Qué es el Data Mining?......................................................................................6
Descubrimiento del conocimiento (KDD)…………………………………………...8
Data Warehousing…………………………………………………………………….9
Herramientas del Data Mining……………………………………………………….10
Proceso de Extracción del Conocimiento…………………………………………..11
Sobre los Datos………………………………………………………………………...13
Tipos de Modelos de Minería………………………………………………………....14
Técnicas de Minería de Datos………………………………………………………..16
Extensiones del Data Mining…………………………………………………………19
Aplicaciones de la Minería de Datos…………………………………………………21
Proyecciones a futuro del Data Mining………………………………………………36
Conclusión……………………………………………………………………………...37
Bibliografía……………………………………………………………………………...38
4
¿Quién quiere oro, cuando se tienen datos?
INTRODUCCION
A medida que pasa el tiempo, las necesidades del ser humano van aumentando
de una manera bastante alarmante. Solo basta con realizar un corto flash back
hasta alguno de los periodos más trascendentales vividos por la humanidad como
por ejemplo, la revolución industrial donde se estableció una gran cantidad de
trasformaciones socioeconómicas y tecnológicas para aumentar los niveles en
términos de producción y beneficios, además de poder sustentar las necesidades
de las personas, que crecían conforme al aumento de la población. Así como en
este periodo de la historia al igual que muchos otros, existe un factor común
dentro de la industrialización, del cual no nos podemos exentar y siempre estamos
expuestos, nos referimos a la infinidad de necesidades existentes sobre todo en el
ámbito empresarial. En donde se requiere un uso adecuado de la información e
inmensidad de datos presentes para que de esta manera se pueda optimizar los
procesos y mejorar de esta manera el rendimiento a nivel industrial.
A continuación en el informe presentaremos una de las más sofisticadas
herramientas de las cuales disponemos para generar y recolectar datos, la cual
posee una gran importancia en materias de información, nos referimos al Data
Mining.
5
¿Quién quiere oro, cuando se tienen datos?
UN POCO DE HISTORIA
Al hablar del Data Mining, no nos referimos a un concepto explícitamente
contemporáneo, realmente las primeras ideas que se tienen acerca de este
proceso se revocan ya hasta mediados los años setenta donde se buscaba
encontrar correlaciones en bases de datos, pero no fue hasta finales de los
ochenta cuando se comenzó a consolidad la idea de Data Mining y KDD
(Knowledge Discovery and Data Mining).
Ya a mediados de la década de 1990 se hizo notar el impacto de grandes
cantidades de datos acumulados y las dificultades de interpretarlos de un modo
productivo, lo que llevó al desarrollo de novedosas técnicas de Data Mining y
análisis inteligente de datos.
Ahora bien, actualmente es prioritario el uso de este tipo de herramientas en las
empresas que necesitan identificar oportunidades y retener a sus clientes a partir
del buen uso de la información, es más, hoy en día no sería exagerar el hecho de
afirmar que más de la mitad de las empresas alrededor de todo el mundo utilizan
este tipo de herramientas de análisis.
En fin, podemos observar que estamos frente a un proceso de gran importancia a
nivel informático y que sin duda alguna será aun más relevante a medida que
trascurre el tiempo.
6
¿Quién quiere oro, cuando se tienen datos?
¿QUE ES EL DATA MINING?
En la más pura base de la definición como concepto, podemos referirnos al
termino Data Mining como un proceso de identificación de patrones que se
encuentran ocultos en los datos, es decir, es una herramienta que recopila las
ventajas de diversas áreas como lo son la estadística, la inteligencia artificial, la
computación grafica y el procesamiento masivo, la cual usa como materia prima
las bases de datos para encontrar patrones y relaciones dentro de los datos,
permitiendo de esta manera la creación de modelos, representaciones abstractas
de la realidad y la representación de los datos obtenidos.
¿Qué sucedería si adoptamos herramientas de bases de datos que nos digan que
hacer, según las informaciones que ellas presentan?
Esta simple pregunta nos lleva a insertarnos en el concepto de Data Mining o
minería de datos y a investigar las técnicas que este conlleva.
Para poder generar una idea general del significado y aplicación de esta
herramienta, consideremos un problema el cual puede solucionarse a través de la
información generada:
-Supongamos que usted es el gerente de mercadeo de una compañía de telefonía
celular. El problema considera los siguientes aspectos claves:
•
La deserción de clientes es muy alta.
•
La producción (después de que el contrato expira) es del 40%.
•
Los clientes reciben un teléfono de regalo con el contrato.
•
Se le da un teléfono nuevo a cada persona cuyo contrato ha expirado, lo
cual es muy caro y por ende poco rentable para la empresa.
•
Traer de regreso a un cliente después que se va, es difícil y caro.
Existen diversas soluciones que podemos aplicar a esta clase de problemáticas,
las cuales no necesariamente pueden requerir el uso de él Data Mining para su
resolución, pero ya que nuestro principal objetivo dentro de este trabajo es dar una
orientación de la aplicación de esta herramienta en diversos procesos, nos
referiremos solamente a la solución que es posible obtener a partir de su uso:
7
¿Quién quiere oro, cuando se tienen datos?
Posibles soluciones:
•
Se debe predecir que clientes abandonarán la compañía tres meses antes
que el contrato expire.
•
Si queremos conservar a un cliente que creamos abandonara la empresa,
se le debería ofrecer un nuevo teléfono.
•
Interactuar dinámicamente con el cliente.
Estas son algunas de las muchas resoluciones que pueden existir, ahora bien para
todos los casos hábiles uno se pregunta, pero ¿De qué manera puedo llegar a
tales conclusiones con el uso de esta herramienta? Dentro del desarrollo de este
informe se irá explicando cada uno de los pasos a seguir para poder comprender
el uso del Data Mining. A demás incluiremos una corta reseña sobre algunas
técnicas en el proceso para optimizar los resultados.
Otro ejemplo del uso del Data Mining es:
Supongamos el siguiente contexto:
Un supermercado “Líder” en donde se requiere aumentar el nivel de consumo en
los usuarios. Para este caso utilizaremos la minería de datos para obtener valiosa
información que aplicaremos de la mejor manera posible para aumentar las
ganancias de la empresa. Dado el caso logramos descubrir que un gran
porcentaje de los usuarios al comprar artículos como lo son los confites, y
acompañamientos de tipo coctel, llevan consigo a demás bebidas alcohólicas
como lo son las cervezas.
Debido a esta valiosa información, a un ingeniero se le ocurre la idea de colocar
un stand de cervezas junto al pasillo de artículos de coctel y confitería. A su vez el
resultado no se hace esperar y al cabo de poco tiempo las ventas de bebidas
alcohólicas aumentan en gran medida.
Cabe destacar que esta es una mirada bastante simple del Data Mining, no
obstante nos detendremos para explicar cada una de las etapas que este conlleva,
ya que como hemos mencionado e incluso podemos observar en los ejemplos, es
una herramienta de gran utilidad si la aplicamos correctamente.
8
¿Quién quiere oro, cuando se tienen datos?
DESCUBRIMIENTO DEL CONOCIMIENTO (KDD)
Este se define como “La extracción no trivial de información potencialmente útil a
partir de un gran volumen de datos, en el cual la información está implícita, en
donde se trata de interpretar grandes cantidades de datos y encontrar relaciones o
patrones, para conseguirlo harán falta técnicas de aprendizaje, estadística y bases
de datos”. (Molina, 2001)
Las tareas comunes en KDD son la inducción de reglas, los problemas de
clasificación y clustering, el reconocimiento de patrones, el modelado predictivo, la
detección de dependencias, etc.
Este involucra un proceso iterativo e interactivo, de búsqueda de modelos,
patrones o parámetros, los cuales descubiertos deben ser validos, novedosos para
el sistema y potencialmente útiles. Todo esto a través de algoritmos.
Regularmente los algoritmos de Data Mining deben tener 3 componentes
principales:
•
El modelo, que contiene parámetros que han de fijarse a partir de los datos
de entrada.
•
El criterio de preferencia, que sirve para comparar modelos alternativos.
•
El algoritmo de búsqueda, que viene a ser como cualquier otro programa de
inteligencia artificial.
El criterio de preferencia suele ser algún tipo de heurística y los algoritmos de
búsqueda empleados suelen ser los mismos que en otros programas de
inteligencia artificial. Las principales diferencias entre algoritmos de Data Mining se
hallan en el modelo de representación escogido y la función del mismo, es decir,
según el objetivo perseguido.
9
¿Quién quiere oro, cuando se tienen datos?
DATA WAREHOUSING
Antes de comenzar a indagar de lleno en el proceso del Data Mining, debemos
hacer un pequeño repaso de este concepto, el cual nos ayudará a comprender de
mejor manera el proceso que se lleva a cabo en la minería d datos.
El Data Warehouse es en si la base del Data Mining (aunque no siempre es así),
el cual consiste en un almacén de datos categorizados, que concentra una gran
cantidad de información de interés para toda una organización, la cual se
distribuye por medio de diversas herramientas de consulta orientadas a la toma de
decisiones.
Su principal propósito es el de agrupar los datos, de tal manera que luego al ser
utilizados con un fin analítico, sean fáciles de manejar y acceder.
A este tipo de datos se les menciona normalmente como “Informativos” y son
manejados por un sistema llamado OLAP (Online Analytical Processing).
En resumen podemos decir que un Data Warehouse “es una colección de datos
orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados
para soportar necesidades empresariales.” (Bill Inmon, 1992.)
Las ventajas de un Data Warehouse son:
•
Gran poder de procesamiento de la información.
•
Facilita la toma de decisiones en los negocios.
•
Proporciona una mejor comunicación entre todos los departamentos de la
empresa.
•
Proporciona información de gestión accesible, correcta, uniforme y
actualizada.
•
Mejora el servicio hacia los clientes.
•
Permite el rediseño de los procesos.
10
¿Quién quiere oro, cuando se tienen datos?
HERRAMIENTAS DE DATA MINING
Las herramientas de Data Mining empleadas en el proceso de KDD se pueden
clasificar en dos grandes grupos:
•
Técnicas de verificación, en las que el sistema se limita a comprobar una
hipótesis suministrada por el usuario.
•
Métodos de descubrimiento, en los que se han de encontrar patrones
potencialmente interesantes de forma automática, incluyendo en este grupo
todas las técnicas de predicción.
El resultado obtenido con la aplicación de algoritmos de Data Mining
pertenecientes al segundo grupo, el de técnicas de descubrimiento, puede ser de
carácter descriptivo o predictivo. Las predicciones sirven para prever el
comportamiento futuro de algún tipo de entidad mientras que una descripción
puede ayudar a su comprensión
Regularmente las técnicas de Data Mining e grandes bases de datos persiguen los
siguientes resultados:
•
Clasificación: Se trata de obtener un modelo que permita asignar un caso
de clase desconocida a una clase concreta (como lo son los arboles de
clasificación “CART”) cuyos resultados pueden expresarse mediante reglas
ejecutables directamente por el método bayesiano.
•
Regresión: Se persigue la obtención de un modelo que permita predecir el
valor numérico de alguna variable.
•
Agrupamiento: Hace corresponder cada caso a una clase, con la
peculiaridad de que las clases se obtienen a partir de los datos de entrada
utilizando medidas de similaridad.
•
Resumen: Se obtienen representaciones compactas para sub conjuntos de
los datos de entrada.
•
Modelo de dependencias: Se obtienen descripciones de dependencia
existente entre variables.
•
Análisis de secuencias: Se intenta modelar la evolución temporal de alguna
variable, con fines descriptivos o predictivos.
11
¿Quién quiere oro, cuando se tienen datos?
PROCESOS DE EXTRACCION DE EL CONOCIMIENTO
1.- Integración y recopilación:
•
Primero se determinan las fuentes de información útiles.
•
Se unifican todas las fuentes de datos (Diseñar el Data Warehouse)
•
Los datos deben presentarse en una tabla plana llamada “vista minable”.
2.- Selección, Limpieza y Trasformación:
•
Selección de la vista minable.
•
Se eliminan todos los datos que quedan aislados.
•
Se realiza una nueva búsqueda para recopilar los datos faltantes.
•
Elección de las variables.
•
Discretización y Numeración. (La discretización es la conversión de un valor
numérico en un valor nominal ordenado, en cambio la numeración es el
proceso inverso a la discretización).
3.- Minería de Datos:
Esta fase del proceso se subdivide a su vez en 2 fases de gran importancia. Las
cuales nombraremos sin entrar en más detalles en esta sección:
*Tareas:
•
Predictivas: clasificación y regresión.
•
Descriptivas: agrupamiento, reglas de asociación y correlaciones.
12
¿Quién quiere oro, cuando se tienen datos?
*Técnicas:
•
Inferencia Estadística.
•
Arboles de Decisión.
•
Redes Neuronales.
•
Introducción de reglas.
•
Aprendizaje Bayesiano.
•
Entre otras.
4.- Evaluación e Interpretación:
•
Técnicas de evaluación.
•
Combinación de modelos.
•
Interpretación, Difusión y uso de modelos.
5.- Obtención del conocimiento
•
Correcta aplicación de la información obtenida (Esta fase queda en manos
de analistas de negocios bien entrenados)
Fin Proceso.
13
¿Quién quiere oro, cuando se tienen datos?
SOBRE LOS DATOS
Generalmente los datos que se requieren investigar se encuentran en:
•
Archivos planos.
•
Hojas de Cálculo.
•
Backups.
•
Documentos.
•
Datos Externos.
•
Contenidos de Internet.
•
DW.
El análisis posterior será mucho más sencillo si la fuente es unificada, accesible
(interna) y desconectada del trabajo transaccional.
Las ventajas de organizar un almacén de datos para realizar la minería de datos
se amortizan sobradamente a medio y largo plazo cuando:
•
Tenemos grandes volúmenes de datos.
•
Los datos van aumentando con el tiempo.
•
Provienen de fuentes heterogéneas.
•
Si se combinan de forma arbitraria y no predefinida.
Los almacenes de datos no son imprescindibles para hacer la extracción de
conocimiento a través de datos, ya que se puede aplicar la minería de datos sobre
un archivo de datos.
14
¿Quién quiere oro, cuando se tienen datos?
TIPOS DE MODELOS DE MINERIA
¿Cuán exactamente es capaz Data Mining de decirle cosas que usted desconoce
o que van a pasar?
La técnica utilizada para realizar estas hazañas en Data Mining se llama
modelado. Modelado es simplemente el acto de construir un modelo en una
situación donde usted conoce la respuesta y luego la aplica en otra situación de la
cual usted desconoce la respuesta.
Este acto de construcción de un modelo es algo que la gente ha estado haciendo
desde hace ya mucho tiempo, seguramente desde antes del auge de las
computadoras y de la tecnología de Data Mining. Lo que ocurre en las
computadoras, no es muy diferente de la manera en que la gente construye
modelos. Las computadoras son cargadas con mucha información acerca de una
variedad de situaciones donde la respuesta es conocida y luego el software de
Data Mining en las computadoras debe correr a través de los datos y distinguir las
características de los datos que llevaran al modelo.
Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes,
¿Cómo saber si realmente es un buen modelo? La primera cosa que puede probar
es pedirle que aplique el modelo a su base de clientes, donde usted ya conoce la
respuesta. Con Data Mining, la mejor manera de realizar esto es dejando de lado
ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso
está completo, los resultados pueden ser testeados contra los datos excluidos
para confirmar la validez del modelo. Si el modelo funciona, las observaciones
deben mantenerse para los datos excluidos.
Anteriormente se menciono durante la tercera fase del proceso de Data Mining,
una sub fase denominada “Tareas”; la cual a su vez se sub dividía en dos formas
o modelos de trabajo, las predictivas y las descriptivas.
Cabe mencionar que cada una de estas tareas corresponde a modelos de minería
de dato, las cuales son creadas a partir de algunas técnicas de minería.
Un modelo predictivo es el que se encarga principalmente de responder preguntas
sobre datos futuros, como bien dice la palabra, predice y anticipa los datos
venideros.
15
¿Quién quiere oro, cuando se tienen datos?
Por ejemplo:
•
¿Cuáles serán las ventas el año próximo?
•
¿Es esta transacción fraudulenta?
•
¿Qué tipo de seguro es más probable que contrate el cliente X?
En cambio un modelo descriptivo se preocupa de proporcionar información sobre
las relaciones entre los datos.
Por Ejemplo:
•
Los clientes que suelen comprar pañales, compran cerveza.
•
El tabaco el alcohol son los factores más importantes en la enfermedad “X”.
•
Los clientes sin televisión y con bicicleta tienen características muy distintas
del resto.
Es de gran importancia mencionar que estos modelos no trabajan de manera
aislada el uno del otro, es decir, cada uno de estos se puede encontrar por
separado o se pueden encontrar ambos juntos a la vez.
Estos modelos como bien se menciono son generados por técnicas como el
clustering, clasificación, estimación, predicción y reglas de asociación, entre otras.
16
¿Quién quiere oro, cuando se tienen datos?
TECNICAS DE MINERIA DE DATOS
Las técnicas de minería de datos se obtienen mediante la inteligencia artificial,
subentiéndase esta como un agente racional no vivo, y la estadística. Estas
técnicas, son simples algoritmos, que se aplican sobre una fuente de datos
predeterminados para obtener resultados.
Algunas de las técnicas de minería de datos más utilizadas son:
La Regresión Lineal: Es un método matemático, que crea un modelo entre la
relación de las variables dependientes, las variables independiente y un término
aleatorio. Esta es una de las técnicas más utilizadas para formar relaciones entre
datos, de una manera rápida y eficaz, aunque insuficiente en relaciones con más
de 2 variables.
Redes Neuronales: Estas son un prototipo de aprendizaje y procesamiento
automático, infundido netamente en la forma de trabajar del sistema nervioso
animal. De manera más práctica es un procedimiento de interconexión de
“neuronas” en una red, que de manera conjunta ayudan a producir un estímulo de
salida (Respuesta).
Algunos ejemplos de Redes Neuronales son:
•
El perceptrón: Usa una matriz para representar las redes neuronales y es
un discriminador terciario que traza su entrada x (un vector binario) a un
único valor de salida f(x) (un solo valor binario) a través de dicha matriz.
•
El Perceptrón multicapa: Esta formada por múltiples capas, esto le permite
solucionar problemas que no son linealmente segregables, siendo esta la
principal restricción del perceptrón.
•
Los Mapas Autoorganizados o Redes de Kohonen: Estos son un modelo de
red neuronal no controlada, competitiva, distribuida de forma regular en una
rejilla de, usualmente, dos dimensiones, cuyo fin es revelar la estructura
subyacente de los datos introducidos en ella. A lo largo del entrenamiento
de la red, los vectores de datos son introducidos en cada neurona y se
comparan con el vector de peso característico de cada neurona. La
neurona que presenta menor diferencia entre su vector de peso y el vector
de datos es la neurona ganadora (o BMU) y ella y sus vecinas verán
modificados sus vectores de pesos.
17
¿Quién quiere oro, cuando se tienen datos?
•
Modelos estadísticos: Es un enunciado simbólico en representación de una
igualdad o ecuación que se utiliza en todos los diseños experimentales y en
la regresión para señalar los diferentes agentes que modifican la variable
de respuesta.
Árbol de decisión: Es un modelo de predicción, el cual construye diagramas de
construcciones lógicas para representar y categorizar una serie de condiciones
que ocurren de manera sucesiva, para la resolución de un problema.
Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una
situación descrita por medio de un conjunto de atributos y a partir de esto devuelve
una respuesta, esta herramienta utiliza valores para tomar las entradas y salidas
correspondientes, los cuales pueden ser valores discretos o continuos. Con
regularidad se utilizan los valores discretos debido principalmente a su simplicidad,
además cabe destacar que en una función al utilizar un valor discreto, la aplicación
se denomina “clasificación”. En cambio al utilizar los valores continuos, nos
encontramos hablando de una “regresión”.
Durante el proceso se lleva a cabo un test a medida que este árbol de decisión se
recorre hasta las hojas para alcanzar una determinación. El árbol además contiene
nodos internos, nodos de probabilidad, nodos hojas y arcos, los cuales se
encargan de diversas propiedades. Un nodo interno contiene un test sobre algún
valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir
un evento aleatorio de acuerdo a la naturaleza del problema. Un nodo hoja
representa el valor que devolverá el árbol de decisión y finalmente las ramas
brindan los posibles caminos que se tienen de acuerdo a la decisión tomada.
En resumidas cuentas podemos decir que los árboles de decisión son diagramas
de decisiones secuenciales que nos muestran sus posibles resultados. Las
empresas son una de las entidades que mas utiliza este tipo de técnica, ya que les
ayuda a determinar cuáles son sus opciones al mostrarles las distintas decisiones
y sus resultados.
Algoritmo de agrupamiento (clustering): Consiste en la agrupación de una serie
de vectores de acuerdo a un criterio de cercanía, la cual se determina en términos
de funciones de distancia o variables discretas.
A los vectores de un mismo grupo se les denomina “clusters”, de aquí el nombre
del proceso, los cuales comparten propiedades comunes. El conocimiento de los
grupos te permite hacer una descripción sintética de un conjunto de datos
multidimensional complejo. Esta se consigue sustituyendo la descripción de todos
18
¿Quién quiere oro, cuando se tienen datos?
los elementos del cluster, por una descripción característica de un representante
del grupo.
En algunos contextos, se le considera una técnica de aprendizaje no supervisada
puesto que busca encontrar relaciones entre variables descriptivas, pero no las
que guardan con respecto a una variable objetivo.
También podemos nombrar algunos ejemplos donde se aplica este tipo de técnica,
pero no profundizaremos en ellas, principalmente para no desviarnos del tema en
cuestión:
•
Algoritmo K-means.
•
Algoritmo de K-medoids
“Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados” (Weiss y Indurkhya1 1998)
•
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de
ellos) desconocido a priori, a partir de otros conocidos.
•
Algoritmos no supervisados (o del descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.
19
¿Quién quiere oro, cuando se tienen datos?
EXTENSIONES DEL DATA MINING
“Una de las extensiones del Data Mining consiste en aplicar sus técnicas a
documentos y servicios de la web, lo que se denomina como Web Mining (minería
de web)” (Kosala y Otros, 2000). Todos los que visitan un sitio web en internet
dejan huellas digitales (direcciones de IP, navegador, cookies, etc.) que los
servidores automáticamente almacenan en una bitácora de accesos (log). Las
herramientas de esos Web Mining analizan y procesan estos logs para producir
información significativa, por ejemplo como es la navegación de un usuario antes
de hacer una compra en línea. Debido a que los contenidos en internet consisten
en varios tipos de datos, como texto, imagen, video, metadatos o hiperligas,
investigaciones recientes utilizan el termino Data Mining como una instancia del
Web Mining para tratar este tipo de datos. Los accesos totales por dominio,
horarios de acceso más frecuentes y visitas por día entre otros datos, son
registrados por herramientas estadísticas que complementan todo el proceso de
análisis del Web Mining.
Normalmente, el Web Mining puede clasificarse en tres dominios de extracción de
conocimiento de acuerdo con la naturaleza de los datos:
•
Minería de contenido de web: Es el proceso que consiste en la extracción
de conocimiento del contenido de documentos o sus descripciones. La
localización de patrones en el texto de documentos, el descubrimiento del
recurso basado en conceptos de indexación o la tecnología basada en
agentes también puede formar parte de esta categoría.
•
Minería de estructura web: Es el proceso de inferir conocimiento de la
organización del WWW (World Wide Web) y la estructura de sus ligas.
•
Minería de uso web: Es el proceso de extracción de modelos interesantes
usando logs de los accesos a la web.
Un ejemplo de esta herramienta en acción:
El setenta por ciento de los clientes que hicieron una compra en línea en
/compra/producto1.html también compraron en /compra/producto4.html después
de un mes. Esto indica que se podría recomendar en la pagina del producto 1
comprar el producto 4 y ahorrarse el costo de envió de este producto.
Sin embargo este es uno de los múltiples ejemplos de la aplicación de esta
herramienta, en la realidad existen herramientas de mercado muy poderosas con
métodos muy variados y visualizaciones graficas excelentes.
20
¿Quién quiere oro, cuando se tienen datos?
Estudios recientes indican que el ochenta por ciento de la información de una
compañía esta almacenada en forma de documentos. Sin duda este campo de
estudio es muy vasto, por lo que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la información
o el aprendizaje automático, entre otras cosas apoyan el Text Mining.
Generalmente se utilizan palabras claves para encontrar una página relevante. En
cambio, el Text Mining se refiere a examinar una colección de documentos y
descubrir información no contenida en ningún documento individual de la
colección; en otras palabras, trata de obtener información sin haber partido de algo
especifico.
Una aplicación muy popular del Text Mining es relatada en Hearst (1999). Don
Swanson intenta extraer información derivada de colecciones de texto. Teniendo
en cuenta que los expertos solo pueden leer una pequeña parte de lo que se
publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos
que se suceden en otros campos. Así, Swanson ha demostrado como cadenas de
implicaciones causales dentro de la literatura médica pueden conducir a hipótesis
para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas
de soporte experimental. Investigando las causas de la migraña, dicho
investigador extrajo varias piezas de evidencia a partir de títulos de artículos
presentes en la literatura biomédica, algunas de las claves fueron:
•
El estrés está asociado con la migraña.
•
El estrés puede conducir a la perdida de magnesio.
•
Los bloqueadores de canales de calcio previenen algunas migrañas.
•
El magnesio es un bloqueador natural del canal de calcio.
•
La depresión cortical diseminada (DCD) está implicada en algunas
migrañas.
•
Los niveles altos de magnesio inhiben la DCD.
•
Los pacientes con migraña tienen una alta agregación planquetaría.
•
El magnesio puede suprimir la agregación planquetaria.
Estas claves sugirieron que la deficiencia de magnesio podía representar un papel
importante en algunos tipos de migraña, una hipótesis que no existía en la
literatura y que Swanson encontró mediante esas ligas.
21
¿Quién quiere oro, cuando se tienen datos?
APLICACIONES DE LA MINERIA DE DATOS
En los Estados Unidos se utiliza la Minería de Datos para la exploración de datos
en sistemas federales de investigación. Un ejemplo concreto de esto es la famosa
FBI (Federal Bureau of Investigation). En el año 2002 John Aschcroft, Director del
FBI anunció que el Departamento de Justicia comenzaría a introducirse en la
vasta cantidad de datos comerciales relacionados a los hábitos y preferencias de
compra de los consumidores en distintas entidades comerciales, esto con el fin de
detectar terroristas antes de que ejecuten alguna de sus extremas acciones. Con
esta medida el FBI unirá todas las bases de datos posibles, que probablemente
sean obtenidos mediante el número de la Seguridad Social y luego de la obtención
y procesamiento de la información, podrán saber si una persona fuma, consume
alcohol, que talla y marca de ropa comúnmente usa, un registro de arrestos, las
revistas o periódicos a los que esté suscrito, su salario, su altura y su peso, sus
contribuciones a la Iglesia, si perteneces a algún partido político u organizaciones
no gubernamentales, si padece de alguna enfermedad crónica (como diabetes,
cáncer o asma), los libros que lee, los productos de supermercado que compra, si
tiene cuentas de bancos abiertas, si tiene licencia para conducir, entre otros. La
investigación inicial rondó los sesenta millones de dólares estadounidenses para
consolidar los almacenes de datos, el desarrollo de las redes de seguridad
respectivas para compartir información e implementar nuevo software analítico y
de visualización.
Otra entidad que mencionaremos es la unidad Able Danger del Ejército de los
Estados Unidos, ya que con el uso de la Minería de Datos habrían identificado al
líder de los atentados del 11 de septiembre del 2001, Mohammed Atta, y a otros
tres secuestradores del 11 de septiembre como posibles miembros de Al Qaedan
que operan en los Estados Unidos más de un año antes del ya conocido ataque.
El Servicio de Inteligencia y Seguridad Canadiense, también ha empleado este
método.
En la Empresa:
Detección de fraudes en las tarjetas de crédito. En el año 2001, las instituciones
financieras a escala mundial perdieron más de 2.000 millones de dólares
estadounidenses provocados por fraudes con tarjetas de crédito. El Falcón Fraud
Manager es un sistema que examina transacciones, propietarios de tarjetas de
crédito y datos financieros para detectar y prevenir fraudes. Esta medida al
principio estaba contemplada solo para los Estados Unidos, pero actualmente
muchos países del mundo cuentan con este sistema.
22
¿Quién quiere oro, cuando se tienen datos?
Las mejorías que ha traído este sistema son más de seiscientos millones de
dólares en ahorro cada año y una protección de cuatrocientos cincuenta millones
aproximadamente de pagos con tarjetas en todo el mundo. En palabras simples,
estaríamos hablando de aproximadamente el 65% de las transacciones con
tarjetas de crédito.
Un caso análogo es el lavado de dinero e incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones suelen seguir
patrones característicos que permiten, con cierto grado de exactitud, distinguirlas
de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a
ellas.
En los Negocios:
La Minería de Datos contribuye significativamente en las aplicaciones
administración empresarial basada en la relación con el cliente. En lugar de
contactar a un cierto cliente desde una llamada telefónica o simplemente
enviándole cartas a su domicilio, sólo se contactará con aquellos que se logre
percibir que tienen una mayor probabilidad de responder positivamente a una
oferta o nueva promoción. En el caso de las cartas, la medida a tomar sería
exactamente la misma.
Generalmente, las empresas que utilizan la Minería de Datos ven rápidamente el
retorno de la inversión, pero como no es obligación que todos los clientes sean
iguales y piensen igual, las empresas están obligadas a reconocer que el número
de modelos predictivos desarrollados por la Minería de Datos crece rápidamente.
De acuerdo con lo mencionado anteriormente, la empresa no buscaría crear
modelos predictivos para cada uno de los clientes, sino, crear modelos predictivos
para regiones o simplemente basados en modelos de clientes ideales. También
puede querer determinar que clientes van a ser rentables durante un determinado
tiempo (una semana, un mes, etc.) y sólo enviar dichas ofertas a las personas que
es probable que sean rentables.
Hábitos de compra en los supermercados. (El famoso ejemplo de los pañales y
cerveza). Este es uno de los ejemplos más conocidos en la aplicación de la
Minería de Datos en la empresa. Resulta que un estudio hecho detectó que los
días viernes había incrementos en las ventas de pañales y cerveza. Se logró
detectar que se debía a que dicho día solían ir a hacer las compras al
supermercado, padres jóvenes cuyo panorama de fin de semana era cuidar a sus
hijos en la casa y viendo la televisión disfrutando de una cerveza. Luego el
supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a
los pañales para fomentar ese tipo de ventas, un poco más compulsivas.
23
¿Quién quiere oro, cuando se tienen datos?
Impedir que un cliente opte por la competencia. En muchas industrias tales como
el banco, telefonía, etc. Existe un interés en detectar cuanto antes a aquellos
clientes que tienen la posibilidad en la mente de cambiarse a la competencia.
Obviamente cada uno de estos clientes que quisieran pasarse a la competencia,
tienen un valor único como cliente, y la Minería de Datos juega un papel
fundamental, para encontrar un modelo ideal de promoción u oferta especial para
dicho cliente, esto con el fin de retenerlo. La Minería de Datos también aportaría
datos de quienes son los clientes que más fácilmente se seducen por ofertas de
las competencias y a aquellos clientes que comparan día a día el servicio en el
que están con otros de otras compañías.
Un estudio hecho en España que básicamente situó sus objetivos en dos puntos
claves: el análisis del perfil de los clientes que deciden dejar el servicio y optar por
el de la competencia y la predicción del comportamiento de sus nuevos clientes.
Se analizaron los diferentes históricos de clientes que habían abandonado dicha
compañía (12,6%) y de clientes que continuaban con el servicio (87,4%). También
se analizaron las variables personales de cada cliente (estado civil, sexo, edad,
nacionalidad). De igual forma se estudiaron, para cada cliente, la morosidad, la
frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de
llamadas locales, internacionales, interprovinciales, gratuitas. Al contrario de lo
que se podría pensar, los clientes que abandonaban la operadora generaban
ganancias para la empresa indudablemente, sin embargo, una de las conclusiones
más importantes fue que la gran mayoría de los clientes que dejaban el servicio,
era ocasionado por que dichos clientes recibían pocas ofertas y promociones.
Para evitar estas perdidas la empresa de telefonía tuvo que diseñar un sistema de
trato más personalizado para ese tipo de clientes.
En los Recursos Humanos:
La Minería de Datos también se aplica a los departamentos de recursos humanos
en la identificación de las características de sus empleados de mayor éxito. La
información obtenida puede ayudar a la contratación de personal, centrándose en
los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la
ayuda ofrecida por las aplicaciones para Dirección Estratégica en una empresa se
traduce en la obtención de ventajas a nivel corporativo, tales como mejorar el
margen de beneficios o compartir objetivos, y en la mejora de las decisiones
operativas, tales como desarrollo de planes de producción o gestión de mano de
obra.
Prediciendo las audiencias televisivas. La muy conocida BBC (British Broadcasting
Corporation) De Inglaterra emplea un novedoso sistema para predecir el tamaño
de las audiencias televisivas para un programa propuesto, así como el tiempo
24
¿Quién quiere oro, cuando se tienen datos?
óptimo de exhibición. El sistema utiliza redes neuronales y árboles de decisión
aplicados a datos históricos de la cadena para determinar los criterios que
participan según el programa que hay que presentar. La versión final se
desempeña tan bien como un experto humano con la ventaja de que se adapta
más fácilmente a los cambios porque es constantemente modificada con datos
más actualizados.
Otras aplicaciones de la Minería de Datos en el ámbito empresarial e industrial las
mencionaremos continuación:
Segmentación de Mercado
Target marketing / Nuevos productos – servicios
Reducir costos de adquisición de clientes
Retención de consumidores
Determinar perfiles y entender su comportamiento
Identificación de riesgo de quiebras
Administración de reclamos
Fraudes de Caja
Determinar perfiles y entender su comportamiento
Mejorar márgenes de ganancias por cliente
Determinar la oferta correcta para cada tipo de consumidor
Fraude del consumidor
Análisis de performance de sucursal / marca / vendedor
Planificación de canales de distribución y venta
Administración de campañas de publicidad y análisis de resultados
Consolidación de servicios
Análisis de resultados de promociones
Administración de Inversiones
Análisis de patrones de consumo de productos y servicios
25
¿Quién quiere oro, cuando se tienen datos?
Proyección de ventas
Satisfacción del consumidor
Resolución de reclamos
Modelado de tarifas y precios
Rentabilidad de líneas de productos
Administración de recursos
Administración Operativa
Administración de Capacidad
En las Ciencias e Ingeniería:
Análisis de gases. Se han aplicado técnicas de Minería de Datos para el análisis
de gases disueltos en transformadores eléctricos. El análisis de gases disueltos se
conoce desde hace mucho tiempo como una herramienta necesaria para
diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan
para analizar datos y determinar tendencias que podrían pasarse por alto
utilizando las técnicas clásicas de análisis de gases disueltos.
También podemos mencionar una serie de preguntas frecuentes que son
utilizadas al trabajar en base a esta herramienta:
¿Cuál es el perfil de nuestros clientes?
¿Cuáles son los perfiles de los usuarios más rentables y de los menos rentables?
¿Cuáles son los perfiles de cliente de alto y bajo riesgo?
¿Cuál es su valor anual y a largo plazo?
¿Quién está próximo a dejar de ser cliente?
¿Cuáles son las mejores políticas para retenerlo?
¿Qué productos adicionales se pueden vender a cada cliente actual, en función de
su perfil? ¿Cuál es la probabilidad de que lo acepte?
¿Cómo responderá cada cliente a las propuestas de nuevos productos?
¿Qué combinación de productos tiene mayor aceptación potencial?
¿Quiénes tienen la mayor probabilidad de no pagar un préstamo?
26
¿Quién quiere oro, cuando se tienen datos?
¿Cuál es el patrón de deuda que indica una quiebra inevitable?
¿Qué patrones de uso de servicios indican fraude?
¿Qué consumidores son más prometedores para la actual campaña de marketing?
¿Qué nuevos clientes tienen la mayor probabilidad de responder a nuestra actual
oferta?
¿Cuál es el probable porcentaje de respuesta afirmativa?
¿Cómo debe segmentarse el mercado para una mayor rentabilidad?
En Investigaciones Espaciales:
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)
coleccionó aproximadamente tres terabytes de imágenes que contenían alrededor
de dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a
una resolución de 16 bit por píxel con 23.040 x 23.040 píxeles por imagen. El
objetivo era formar un catálogo de todos estos objetos. El sistema Sky Image
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación
(clustering) y árboles de decisión para poder clasificar los objetos en estrellas,
planetas, sistemas, galaxias, agujeros negros, etc. con una alta confiabilidad. Los
resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars
con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del
universo y, por consiguiente, más antiguos. Estos quásars son difíciles de
encontrar y permiten saber más acerca de los orígenes del universo.
En Genética:
En el estudio de la genética humana, el objetivo principal es entender la relación
cartografía entre las partes y la variación individual en las secuencias del ADN
humano y la variabilidad en la modificación a las enfermedades. En términos más
llanos, se trata de saber cómo los cambios en la secuencia de ADN de un
individuo afectan al riego de desarrollar enfermedades comunes como el cáncer o
diabetes. Esto es muy importante para ayudar a mejorar el diagnóstico, prevención
y tratamiento de las enfermedades. La técnica de Minería de Datos que se utiliza
para realizar esta tarea se conoce como “reducción de dimensionalidad
multifactorial”.
En Ingeniería Eléctrica:
En el ámbito de la ingeniería eléctrica, las técnicas de Minería de Datos han sido
ampliamente utilizadas para monitorizar las condiciones de las instalaciones de
alta tensión. La finalidad de esta monitorización es obtener información valiosa
27
¿Quién quiere oro, cuando se tienen datos?
sobre el estado de aislamiento de los equipos. Para la vigilancia de las vibraciones
o el análisis de los cambios de carga en transformadores se utilizan ciertas
técnicas para agrupación de datos (clustering) tales como los Mapas AutoOrganizativos ya mencionados con anterioridad. Estos se utilizan para detectar
condiciones anormales y para estimar la naturaleza de dichas anomalías.
En la Universidad:
Conociendo si los recién titulados de una universidad llevan a cabo actividades
profesionales relacionada con sus estudios. Se hizo un estudio sobre los recién
títulos de la carrera de Ingeniería
En Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en
México. Se quería observar si sus recién titulados se insertaban en actividades
profesionales relacionadas con sus estudios y, en caso negativo, se buscaba
saber el perfil que caracterizó a los ex-alumnos durante su estancia en la
Universidad. El objetivo era saber si con los planes de estudio de la Universidad y
el aprovechamiento del alumno se hacía una buena inserción laboral o si existían
otras variables que participaban en el proceso. Mediante la aplicación de
conjuntos aproximados se descubrió que existían cuatro variables que
determinaban la adecuada inserción laboral, que son citadas de acuerdo con su
importancia: zona económica donde habitaba el estudiante, colegio de donde
provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos
resultados, La Universidad tendrá que hacer un estudio socioeconómico sobre
grupos de alumnos que pertenecían a las clases económicas bajas para dar
posibles soluciones, debido a que tres de las cuatro variables no dependían de la
Universidad.
En la Red:
Comportamiento en Internet. También es un área en boga el del análisis del
comportamiento de los visitantes. Sobre todo, cuando son clientes potenciales en
una página de Internet. O la utilización de la información obtenida por medios más
o menos legítimos sobre ellos para ofrecerles propaganda adaptada
específicamente a su perfil. O para, una vez que adquieren un determinado
producto, saber inmediatamente que otro ofrecerle teniendo en cuenta la
información histórica disponible acerca de los clientes que han comprado el
primero.
En los Clubes Deportivos:
Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo
de entrenadores. El Advanced Scout es un software que emplea técnicas de
28
¿Quién quiere oro, cuando se tienen datos?
Minería de Datos y que han desarrollado investigadores de IBM para detectar
patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable
orientada a un objetivo muy específico: analizar el juego de los equipos de la
Asociación Nacional de Básquetbol (NBA).
El software utiliza todos los registros guardados de cada evento en cada juego:
pases, rebotes, canastas encestadas y doble marcaje a un jugador por el equipo
contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos
que no detectan cuando observan el juego en vivo o en película.
Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los “Knicks” de Nueva York. El doble marcaje a un jugador puede
generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Sin
embargo, cuando los “Bulls” de Chicago jugaban contra los “Knicks”, se encontró
que el porcentaje de canastas encestadas después de que al centro de los
“Knicks”, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo,
indicando que los “Knicks” no reaccionaban correctamente a los dobles marcajes.
Para saber el porqué, el cuerpo de entrenadores estudió cuidadosamente todas
las películas de juegos contra Chicago. Observaron que los jugadores de Chicago
rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador
libre de los “Knicks” antes de prepararse para efectuar su tiro. Con este
conocimiento, los entrenadores crearon estrategias alternativas para tratar con el
doble marcaje.
En los Juegos:
La Minería de Datos en los juegos de tableros como ajedrez, puede crear
extrategias basadas en patrones de finales de otras partidas del mismo juego a la
cual también se le incluye un estudio detallado por expertos en dichos juegos. Es
decir; las estrategias se diseñan conforme a distintos patrones de finales ya
jugadas, pero con la diferencia que se le aplican ciertas modificaciones para hacer
un juego perfecto. Estas modificaciones ya mencionadas son proporcionadas por
los técnicos.
Ejemplos notables de investigadores que trabajan en este campo son Berlekamp
en el juego “punto-y-cajas” (o timbiriche) y John Nunn en finales de Ajedrez.
En Sudamérica:
La famosa Crisis económica de Argentina del año 2001. Otro gran ejemplo de la
aplicación de la Minería de Datos en los negocios fue en Argentina y su crisis
financiera del año 2001, dentro de todos los procesos que se utilizaron, los más
relevantes eran un enfoque claro en los negocios, la evolución tecnológica y todos
29
¿Quién quiere oro, cuando se tienen datos?
los desafíos que vendrían después (post-crisis). La industria financiera de
Argentina enfocó su negocio a la antigüedad de sus clientes, las edades y las
industrias financieras privadas. Las fuentes de datos para la Minería de Datos
fueron aportadas de diferentes formas, con la utilización de Data Warehouse y
CMR. Ya que así manejaron y consolidaron distintos formatos de datos.
Pero luego de llegar una rápida solución de la crisis económica, viene la tarea más
difícil; poder superar los desafíos post-crisis tales como la indiferenciación de
marcas, el aumento de las competencias ya que estas empezarán a utilizar
Minería de Datos, por lo tanto se lograba ver de mucho antes de superada la crisis
que la Minería de Datos es una Ventaja Competitiva.
En gran medida el éxito de aplicar Minería de Datos está en función de la cantidad
y calidad de datos disponibles.
Importaciones de Aduanas del Perú. Un gran fraude que logró ser detectado por la
Minería de Datos, fue el de las importaciones de aduanas del Perú.
Su rápida actuar se logró gracias al Credicard Brasil, el cual es un sistema para
detección de fraude usando redes neuronales. Este sistema reduce el número de
fraudes aproximadamente en un 40% en un año.
Ahora bien, estas son aplicaciones a niveles internacionales, pero obviamente nos
interesa saber qué es lo que pasa a nivel nacional con respecto al uso de este tipo
de tecnología:
Dentro de los Ámbitos Gubernamentales:
Proyectos de Reforma:
En la administración pública chilena, existe el Proyecto de Reforma y
Modernización del Estado. Orientado a la modernización y la incorporación de
tecnologías de información para el mejoramiento de la gestión pública.
Este proyecto contempla varias áreas:
•
Gobierno Electrónico: Agenda Gobierno Electrónico, Comunidad
Informática Gubernamental, Gobierno Electrónico local y regional y
Interoperabilidad.
•
Modernización: Buenas Prácticas en Gestión Pública, Seguimiento Agenda
modernización 30 de enero 2003, Sistema de Formación de Directivos
Públicos.
30
¿Quién quiere oro, cuando se tienen datos?
•
Participación: Defensor del Ciudadano, Ley de Bases sobre Participación
Ciudadana.
•
Procedimiento administrativo: Apoyo a la Ley de Bases de Procedimiento
Administrativo, Portal
•
Trámite Fácil, Ventanillas Únicas Electrónicas, Sistema de Actualización de
Información de Trámites.
Regionalización; Descentralización
Hasta el momento el PRYME, ha logrado escaso avance. Debido a la conocida
realidad del sector público en Chile, La inercia existente por parte de los
funcionarios públicos ha retardado el avance de la modernización en las
Instituciones Públicas. Sin embargo, ha habido algunos servicios que son modelos
para la implementación de procesos que permitan agilizar, transparentar y hacer
más eficiente la gestión pública, tales como el Portal Trámite Fácil o el apoyo a
proyectos de ventanillas únicas electrónicas y la implementación de la Ley de
Procedimiento Administrativo, dependen en gran medida de la calidad, completitud
y vigencia de la información sobre los trámites públicos.
Por ello, durante el 2004, el PRYME ha definido un Modelo de Actualización de
Información de Trámites que permitirá realizar de manera sistemática, un conjunto
de procesos y actividades conducentes a lograr una base de datos sobre trámites
públicos permanentemente actualizada.
Para facilitar esta tarea, se contará con una herramienta Web denominada SAIT
(Sistema de Actualización de Información de Trámites), actualmente en desarrollo,
la cual permitirá mediante un conjunto de funcionalidades, realizar las actividades
de actualización, almacenamiento y entrega de reportes de información, así como
también la administración de una base de datos única, consistente y bien
estructurada.
Hasta ahora el Gobierno de Chile cuenta con una gran cantidad de Datos y el
mejor ejemplo para decirlo son los SENSO, en los SENSO está una de las
mayores fuentes de datos de los ciudadanos de Chile los cuales podrían ser
usados perfectamente por la Minería de Dato.
Hasta ahora la Minería de Dato se utiliza en el Gobierno de Chile para detectar
fraudes o abusos por parte de los funcionarios públicos. Al mismo tiempo La
minería de Datos muestran variadas fortalezas para mejorar la gestión de las
instituciones públicas, También en la ayuda para la mejoría en la responsabilidad
de los funcionarios públicos. Para así, fortalecer la gestión de las entidades
públicas para salvaguardar los recursos que se le asignan. De esta manera se
31
¿Quién quiere oro, cuando se tienen datos?
debe asegurar la fiscalización en los resultados y desprenderse de funciones que
entorpecen el accionar de los funcionarios públicos.
Poder anticiparse a las demandas de la ciudadanía, de esta manera se podrá
crecer y cambiar con las perspectivas de la organización. Reaccionar rápidamente
a las necesidades del entorno es clave para los servicios públicos, esto permite
disminuir el tiempo. Y así, obtener los resultados en el corto plazo mientras se
planea y se preparan los objetivos del futuro.
Aprovechamiento de las Tecnologías de la Información y Comunicación (TIC) en
los órganos de la administración mejorando los servicios e información ofrecida a
los ciudadanos, incrementa sustantivamente la transparencia del Sector Público y
la participación de los ciudadanos. De esta manera se puede realizar una gestión
participativa, donde las personas realicen un control objetivo del accionar público.
En la Empresa:
El Banco Santander Utiliza Minería de Datos. En el mes de diciembre del año
2007 el banco Santander necesitaba con urgencia explorar su base de datos, con
el fin de obtener el mayor conocimiento posible, para replantearse y proponer
nuevas ofertas y promociones para sus antiguos y nuevos clientes, para esto el
Banco adoptó la solución de la Minería de Datos.
La institución realizó una evaluación para medir los beneficios y el desempeño de
la solución, comparándola con otras del mercado, antes de adoptarla. Después de
esta etapa, se concluyó que la solución de Minería de Datos procesó un gran
volumen de datos en un corto espacio de tiempo, lo que demostró su desempeño
superior.
Un punto que se deberá destacar es que, en la mayoría de las tareas ejecutadas a
través del recurso ofrecido por la Minería de Datos, obtuvo un desempeño del 70%
superior en comparación con la solución ofrecida por los competidores,
considerando también el tiempo de procesamiento de las actividades. Además de
ello, según Daniel Arraes, gerente general de Modelos y Políticas de Riesgo del
Banco Santander, otro ítem que ha tenido influencia en la adopción de la solución
de la Minería de Datos fue la calidad de los servicios ofrecidos por el soporte
técnico de SAS.
La solución está siendo usada por el Banco Santander para procesar datos de
más de 1 millón de clientes. De acuerdo con Daniel Arraes, además de trabajar
con un gran volumen de informaciones, la solución SAS consigue actuar con
diversas variables. “Para que tengamos una idea de su capacidad de análisis y
proceso, en un trabajo con 15 mil a 20 mil registros, llegamos a operar con 300
32
¿Quién quiere oro, cuando se tienen datos?
variables. Otro ejemplo fue un proceso en el que evaluamos 2 mil variables de
cada cliente para medir el comportamiento en nuestra cartera de cheque especial,
lo que nos ha permitido comprobar la capacidad de proceso y análisis del
producto”, enfatizó el gerente.
Tres meses después del uso de la solución, el Banco Santander ha desarrollado
cuatro nuevos modelos de evaluación de riesgo y una serie de otros estudios
menores. De acuerdo con Arraes, se espera ya en el primer año de utilización de
los modelos desarrollados con los recursos de la Minería de Datos, SAS, una
disminución significativa en la pérdida de créditos en todas las carteras minorista
del banco.
“Cabe mencionar que está en constante crecimiento un volumen muy grande de
operaciones y millones de clientes con necesidades diferentes, sin hablar de los
diversos factores internos y externos de la economía que contribuyen para el
aumento de la falta de cumplimiento de las obligaciones. Si adoptamos la solución
de Data Mining de SAS, podremos optar por una solución con los más variados
niveles de análisis de informaciones”, finaliza Daniel Arraes.
En SONDA:
En el departamento de Business Intelligence de SONDA, se está trabajando con el
uso de la Minería de Datos y CMR. Al mismo tiempo los clientes de SONDA se
empezaron a mostrar muy satisfechos de la medida tomada por SONDA sin antes
ver los resultados, aunque si, los clientes estaban muy ansioso por saber cuánto
es posible ahorrar mensualmente con el uso de aplicaciones de Minería de Datos.
SONDA técnicamente está utilizando la metodología CRISP-DM para diseñar y
construir cualquier aplicación que se base en el proceso de Minería de Datos que
sigan los siguientes seis pasos:
•
Entendimiento del Problema
•
Entendimiento de los Datos
•
Preparación de los Datos
•
Modelado
•
Evaluación
•
Implementación
33
¿Quién quiere oro, cuando se tienen datos?
La experiencia con la que cuenta SONDA para el diseño y construcción de las
aplicaciones basadas en el proceso de Minería de Datos, siguiendo estos seis
pasos ya mencionados, han sido de nivel mundial. Un ejemplo claro de esto es el
sistema “FraudScanning” que es utilizado para la detección temprana de licencias
médicas fraudulentas y abusivas en el sector salud aplicado en la Isapre
Banmedica. El sistema “FraudScanning” utiliza un conjunto de Redes Neuronales
Supervisadas para cada una de las entidades envueltas en el problema: licencias
médicas, afiliadas, profesionales, médicas y empleadoras.
En el Periodismo:
En Chile actualmente se está estudiando la posibilidad de implementar la Minería
de Datos en el periodismo chileno. Como es de saber, la Minería de Datos se
emplea principalmente a datos cuyos contenidos son esencialmente numéricos,
pero también se sabe que hay técnicas de Minería de Datos la cual se usan para
explorar bases de texto. La pregunta del millón es si ¿puede el periodismo
beneficiarse de la Minería de Datos?
Considerando que el periodismo es un gran consumidor de datos que recopila
información, la procesa de distintas formas tales como el Periodismo Informativo y
el Periodismo Interpretativo y además el periodismo conserva la información en
“sistemas documentales” (bases de datos).
Los factores que estarían a favor del uso de la Minería de Datos en el periodismo
son que el periodismo es un gran consumidor y productor de la información,
pero nos encontramos con el primer problema; la información que más interesa y
más valor tiene, hoy, es la que permite relacionar entre sí múltiples hechos. Ésta
es información con valor agregado y con valor de uso para el destinatario. Por lo
tanto, si el Medio Periodístico utiliza mejor su sistema documental y “explota”
adecuadamente sus Bases de Datos, será capaz de entregar más y mejor
información con valor agregado y con valor de uso
No se puede ignorar las exigencias que haría la Minería de Datos para poder
adoptarlas en el periodismo como la utilización de Bases de Datos adecuadas esto
puede requerir un tratamiento previo (traspaso con o sin codificación) y el empleo
de un Software adecuado, lo cual no significa que solo se trate de una sola
aplicación, sino de un conjunto de aplicaciones (suites), unas siendo más útiles
que otras, según lo que vaya desvelando la investigación.
En conclusión Para el analista de un sector determinado, podría transformarse en
una herramienta de la mayor utilidad para comprender lo que está ocurriendo y
tratar de visualizar los posibles derroteros de una determinada secuencia de
hechos o encontrar relaciones entre hechos aparentemente inconexos.
34
¿Quién quiere oro, cuando se tienen datos?
En el Cuidado del Medio Ambiente:
La contaminación de los aires y un grave problema tanto en Chile como en
cualquier parte del mundo, y por tanto, a la hora de buscar soluciones se debe ser
lo más práctico y concreto posible puesto que la cantidad de gases y de partículas
es muy dañino para la salud, y en tiempos como los de hoy es necesario una
solución inteligente.
En Chile, existen leyes la cuales se refieren a la descontaminación en zonas
donde los niveles de contaminantes excedan sistemáticamente las normas
ambientales, y planes de prevención donde dichas normas se encuentren en
peligro de ser sobrepasadas.
La contaminación del aire en la ciudad de Santiago se origina principalmente
durante el período otoño-invierno, en estos meses la población de la Región
Metropolitana se ve afectada por un aumento repentino en los niveles de
contaminación del aire.
En la actualidad y a nivel mundial, el estudio y control de problemas de
contaminación medioambiental, se aborda con el apoyo de los llamados DSS
(Decision Support Systems, Sistemas de Soporte de Decisiones en español) que
son una clase específica de sistemas de información que apoyan los procesos de
toma de decisiones en las organizaciones. Estos DSS son sistemas interactivos
que ayudan a la toma de decisiones facilitando el manejo de los datos,
documentos, conocimiento y/o modelos que se usan para resolver problemas
dentro de las organizaciones. Una de los ámbitos en que los DSS son de gran
utilidad es en el apoyo a la toma de decisiones para análisis y control de
problemas medioambientales, en particular el apoyo que puede brindar la Minería
de Datos al permitir extraer patrones, modelos, relaciones, tendencias, etc., que
finalmente permiten encontrar “reglas” o “patrones” (“conocimiento”) a partir de los
datos y comunicarlos al usuario a través de los DSS.
Los resultados obtenidos por el tratamiento de los datos con las herramientas de
la Minería de Datos son presentados al usuario para apoyar su toma de decisiones
a través de un de un Módulo DDS.
Este módulo DSS facilita al usuario decisor aplicar medidas con respecto a los
episodios críticos de
Contaminación (alerta, preemergencia, emergencia), con interfaces usuarias que
permitan a través de consultas al almacén de datos ver qué pasa si se toman
decisiones, además de proporcionaren forma automática ayudas o sugerencias
que asistan la tomador de decisiones.
35
¿Quién quiere oro, cuando se tienen datos?
También la Minería de Dato se ha utilizado para construir árboles de decisión ya
que la predicción que se desea realizar se hará en base a categorías (bueno,
regular, malo, critico). Refiriéndonos obviamente a los índice del aire.
Dentro de la revisión realizada al uso de los DSS como herramienta de apoyo a la
gestión de problemas ambientales, se ha encontrado que existen esfuerzos en el
mundo por desarrollar herramientas que combinen técnicas de minería de datos y
sistemas de soporte de decisiones, pero para aplicaciones específicas a lugares
geográficamente definidos.
Hasta ahora Chile utiliza un modelo predictivo llamado “Cassmassi”. Que es
basado en los sistemas que mencionamos anteriormente DSS, pero
lamentablemente el año que se implementó fue en 1999 y hasta ahora no se ha
actualizado, lo que ha provocado porcentajes muy altos de incertezas a la hora de
poder predecir una alerta o preemergencia ambiental.
Chile hasta ahora está buscando métodos alternativos, métodos que utilicen la
Minería de Datos pero que trabaje con unas suites de aplicaciones para que su
porcentaje de incerteza se reduzca lo mayor posible.
En el año 2003 un grupo de investigadores del Departamento de Física de la
Universidad de Santiago de Chile (USACH) crearon un modelo basado en redes
neuronales, que fue probado en paralelo con el modelo Cassmassi, en los cuales
el modelo hecho por la USACH arrojaba resultados superiores, pero que
lamentablemente cuando este modelo fue presentado al Congreso Nacional, ellos
no lo consideraron una solución viable para implementarla en Santiago.
El trabajo futuro es promisorio, pues encontrar soluciones alternativas al problema
de la contaminación en la ciudad de Santiago de Chile se ha transformado en una
cruzada de carácter humanitario, ya que los problemas a la salud de la población y
a la economía del país están alcanzando niveles que sobrepasan lo aceptable por
la comunidad.
36
¿Quién quiere oro, cuando se tienen datos?
PROYECCIONES A FUTURO DEL DATA MINING
Actualmente el mejor uso del Data Mining es aquel donde el analista formula las
consultas específicas a fin de que el sistema convalide o desmienta las hipótesis
según los datos. Sin embargo, la tecnología continuara automatizando cada vez
más el proceso de decisión en sí mismo, haciendo que las futuras herramientas de
descubrimiento detecten las relaciones y generen esencialmente las hipótesis.
Como último objetivo todavía lejano se intenta crear un sistema de descubrimiento
de conocimiento de propósito general que, a medida que se vuelva más complejo,
agregue sus propios aportes. A través del análisis cuidadoso, del examen
meticuloso y de la asociación de datos sin una conexión obvia, podría ser capaz
por ejemplo, de descubrir nuevos tratamientos para enfermedades u originales
ideas para explicar el origen del universo. Con respecto a este concepto, el
futurólogo A Toffler hace notar la que computadora puede sugerir soluciones
imaginativas para ciertos problemas al descubrir relaciones nuevas o que hasta
entonces habían pasado inadvertidas. Se podría pedir a la computadora que
piense lo impensable, que piense en lo que aun jamás ha sido pensado.
En poco tiempo más el Data Mining puede volverse tan común y fácil de usar
como un e-mail. Podremos utilizar estas herramientas de forma masiva para
analizar datos a gran escala y encontrar, por ejemplo, la mejor tarifa aérea a
Cancún, conseguir el número telefónico d un antiguo compañero de clase, o
encontrar los precios más económicos de las cortadoras de césped. El software se
dará cuenta de donde buscar, como evaluar lo que encuentra y cuando dejar de
buscar. Nuestro ayudante cognitivos puede volverse tan indispensables como lo
es ahora el teléfono.
La pregunta que ahora nos hacemos es: ¿Las computadoras ahora pensaran por
nosotros?, una posible respuesta es que, nosotros debamos hacer que ellas
piensen, o mejor dicho, descubran lo que nosotros queremos que descubran, que
sirvan para lo que nosotros queremos que sirvan, el uso de tecnologías como el
Data Mining conlleva muchas facilidades hacia la vida de los seres humanos, las
computadoras se han hecho para facilitar nuestra vida cotidiana, no para
complicarla y Data Mining representa una de estas facilidades, la cual por
supuesto seguirá evolucionando.
37
¿Quién quiere oro, cuando se tienen datos?
CONCLUSION
Un Sistema Datamining nos permite analizar factores de influencia en
determinados procesos, predecir o estimar variables o comportamientos futuros,
segmentar o agrupar ítems similares, además de obtener secuencias de eventos
que provocan comportamientos específicos.
La llegada del DataMining se considera como la última etapa de la introducción de
métodos cuantitativos, científicos en el mundo del comercio, industria y negocios.
Desde ahora, todos los no-estadísticos -es decir el 99,5% de nosotros - pueden
construir modelos exactos de algunas de sus actividades, para estudiarlas mejor,
comprenderlas y mejorarlas.
Anexos
Administrador De Base De Datos
El "Administrador de Base de Datos" será el responsable de mantener una Base
de Data confiable para permitir la cabal ejecución del Plande Mercadeo,
trabajando conjuntamente con las Unidades de R&D y Publicidad, los
Especialistas de Producto y las Gerencias de Áreas.
Funciones
Parametrizar la alimentación de la Base de Datos por parte de los Operadores y
Usuarios para garantizar su confiabilidad.
Alimentar directamente la Base de Datos con aquella data o información que
escape del dominio del Usuario u Operador para asegurar su representatividad y
utilidad para fines de análisis y Mercadeo.
Coordinar el diseño de Programas o Aplicaciones con el Area de Informática para
preservar la compatibilidad de los sistemas y facilitar el uso de la Base de Datos.
Depurar continuamente la Base de Datos para garantizar su confiabilidad.
Respaldar todo registro para asegurar la preservación de la data.
Concientizar al Usuario sobre los usos y la utilidad de la Base de Datos para
propiciar su máximo aprovechamiento, por él más amplio universo de Gerentes,
Unidades y Ejecutivos, para fines de Mercadeo.
Brindar apoyo técnico al Usuario, Operador e Informática respecto al manejo y
mantenimiento de la Base de Datos para evitar inconsistencias y contaminación de
la data.
Analizar la data e información que emana periódicamente de la Base de Datos,
"first hand", cruzándola con aquella que generen los estudios de Mercados, para
conformar alertas e informes oportunos.
38
¿Quién quiere oro, cuando se tienen datos?
Elaborar los Informes o Reportes que sean acordados por la Gerencia de
Mercadeo, o aquellos que le sean solicitados, de acuerdo al Calendario aprobado,
con el propósito de informar a las Gerencias oportunamente y documentar el Plan
Operativo anual.
Distribuir los Reportes a los Usuarios de acuerdo a las necesidades, usos y fines
de cada uno.
Informes
Matriz de Clientes y Productos por Ejecutivo de Cuentas: Mensual
Reporte Previo (Alerta de índices como PPC, GPM y variaciones): Mensual
LINKIOGRAFÍA
http://www.monografias.com
http://www.google.cl
http://www.wikipedia.com
39
Descargar