Minería de datos

Anuncio
Grupo Número 5
Tema: Minería de datos
Resumen
Muchas organizaciones han acumulado una enorme cantidad de datos en lo que denominamos Bases de datos,
cuando lo que realmente necesitan es información que les ayude a definir potenciales clientes y mercados,
maneras de entregarles un mejor servicio a los mismos, en definitiva, a agregar valor a sus procesos.
Una de las maneras de lograr estos objetivos (que desde luego no son triviales)es la minería de datos. La
minería de datos usa estadística avanzada y algoritmos de inteligencia artificial para descubrir patrones y
relaciones escondidas en las bases de datos.
Propuesta
• Introducción: explicación de los problemas actuales en bases de datos
• Qué es el data mining
• Técnicas de minería de datos
• Beneficios para el negocio de esta técnica
• Implementación en un caso práctico
• Enfoque de TI y GTI
• Conclusiones
Ventajas competitivas de la minería de datos:
Los mercados están en un constante cambio; los consumidores se tornan cada día más críticos; esperan cada
vez un mejor producto, más individualizado y que solucione sus problemas particulares.
La Competencia crece cada día más y nuevos medios de distribución se apoderan del mercado a una velocidad
que no da tiempo para la reacción.
Todos estos factores ejercen una presión sobre la organización y la empresa actual. Para poder mantener(y
más que mantener mejorar) una relación con el cliente, y en consecuencia, mantenerse un liderazgo por sobre
la competencia, se hace necesario tener mecanismos de adaptación a las necesidades del cliente (que, como ya
mencionamos no son estáticas).
Es por esta razón que la velocidad y flexibilidad de la organización son factores críticos a la hora de definir las
ventajas competitivas de la empresa de hoy.
Uno de los cambios paradigmáticos que se propone es que hoy el cliente en sí mismo forma el capital real de
la empresa. Así, el foco ya no está en el producto sino en los intereses del cliente.
¿Qué quiere decir esto?
Ofreciendo a nuestros clientes Los productos que ellos necesitan, a través de los canales de distribución
adecuados y en el tiempo requerido la organización podrá sobreponerse a los traumáticos cambios que se
viven en el mercado actual.
Para poder lograr estos objetivos (que desde luego no son nada fáciles, ni mucho menos triviales) hay que
1
conocer las preferencias de los clientes, que, por si fuera poco, no son las mismas para todos. Aquí juegan un
rol importantísimo las bases de datos que pueden albergar gran cantidad de información que identificará las
necesidades de los clientes.
Sin embargo, la acumulación de grandes cantidades de datos en las Data Warehouses no implica
necesariamente un incremento en el conocimiento.
La clave para lograr el objetivo plateado es la Minería de Datos, con esta herramienta se puede extraer
conocimiento enfocado a grupos de clientes (con objetivos comunes por ejemplo). Las bases de datos (a través
de la minería de datos) se exploran a través de miles de puntos de vista; lo que permite encontrar información
escondida acerca del comportamiento de clientes para establecer patrones. Así los departamentos de
marketing se adapta rápidamente y la flexibilidad a los requerimientos y necesidades de cada cliente se
alcanzan.
El marketing orientado al cliente.
Como ya dijimos, el marketing está cambiando de una estrategia Orientada al producto a una Orientada al
cliente.
En Lugar de enfocarse en un producto a la vez y tratar de buscar tantos clientes como sea posible que quieran
ese producto. La nueva estrategia de marketing se concentra en un cliente a la vez, y trata de maximizar el
beneficio de tantos consumidores como ese consumidor en particular existan. En otras palabras, se
diferencian clientes, no productos.
Para competir en un mercado en que la interacción es primordial de manera exitosa, la organización debe
entender como los clientes le agregan valor a la organización y ganan valor de la misma. Las Compañías
deben saber cómo focalizar el tiempo y esfuerzo en a aquellos clientes que le darán el valor agregado más alto
a la organización.
En orden a lograr lo mencionado en el párrafo anterior se tiene (desde el punto de vista de las TI, claro):
• Datos.
Las Bases de datos computacionales pueden ayudar a recordar y mantener presente el complejo número de
datos resultante de la interacción de los clientes y la organización. Los datos de los clientes son recogidos en
distintos lugares de la organización.
• Análisis
Las nuevas técnicas de análisis como la minería de datos ofrece a la organización la oportunidad de explotar la
información recogida en las bases de datos. La técnica de la minería de datos puede descubrir patrones
escondidos dentro de la enorme cantidad de datos de las bases de datos y así lograr mejorar la interacción con
el cliente y optimizar las acciones de marketing.
• Interacción
El desarrollo de la computación también ha hecho posible el incremento de herramientas interactivas en el
área de las comunicaciones. Con la tecnología de la Internet, se puede cambiar la manera de la interacción con
el cliente de una vía comunicacional de interacción (vale decir de la empresa al cliente en general) a una doble
vía de interacción que se remite a cada cliente en particular.
• Producción
2
Con las nuevas tecnologías de información la organización puede producir productos orientados a clientes y
servicios orientados a las necesidades de cada cliente en particular.
Combinando estas capacidades se crea una retroalimentación constante ente la empresa y el cliente; el cliente
entrega al sistema sus requerimientos y necesidades. Y así la organización recuerda y anticipa sus preferencias
presentes y futuras. Este Feedback tiene la ventaja adicional de lograr un cliente bastante leal a la
organización. Claro que la empresa debe ser capaz de integrar la producción y servicios actuales a la
retroalimentación con los clientes específicos (lo cual desde luego no es fácil.)
El Ciclo de Aprendizaje.
Una interacción continua entre la organización y los clientes hace que el ciclo de aprendizaje se haga cada vez
más eficiente con el paso del tiempo, definiendo cada vez a un nivel de detalle mayor las necesidades y
requerimientos del cliente. Con este sistema, el cliente siente que cada vez la organización lo entiende más;
por esta razón, prefiere serle leal a la misma ya que su propio grado de satisfacción es mayor (todo gracias al
cambio paradigmático de enfocar el marketing al cliente y no al producto).
• Interacción
El cliente expresa lo sus necesidades y requerimientos, ya sea de manera implícita o explícita.
Crear oportunidades de diálogo con los clientes es un requisito fundamental para solicitarle retroalimentación
(feedback) al cliente; pero el diálogo mismo debe ser integrado al conocimiento existente de la organización
respecto de ese cliente y su necesidad de información adicional.
• Bases de Datos
Toda la información recolectada a través de los contactos entre la organización y el cliente, tal como
transacciones, preferencias, etc; son almacenadas en bases de datos tipo Data Warehouse .
• Minería de Datos
A través de la minería de datos, la empresa puede analizar la respuesta de los clientes y así aprender más
acerca del comportamiento de los clientes. Saber sobre el tipo de cliente que prefiere un artículo sobre otro,
qué canales de distribución resulta más eficiente y en definitiva; cuales son los clientes más valiosos.
• Acciones.
Los perfiles provenientes de la minería de datos pueden ser usados en la cara de la organización, vale decir en
el departamento de ventas para mejorar e implementar nuevas maneras de marketing, por ejemplo.
La minería de datos hace que la respuesta del cliente a las acciones de marketing sea almacenada en las bases
de datos y el proceso se repita (bajo la forma de un loop).
Debido a la mayor interacción (y por ende retroalimentación), el cliente deberá gastar tiempo y energía en
hacer que la organización conozca y sepa más y más acerca de sus necesidades individuales. Esto hace que la
organización pueda dar una atención optima a un cliente que crece de manera continua; lo cual tendrá como
consecuencia una reducción de costos y un aumento en los beneficios.
Minería de Datos
La minería de datos utiliza técnicas de estadísticas y aprendizaje de las máquinas para construir modelos que
3
predigan el comportamiento de futuro de los consumidores. Hoy, la tecnología automatiza el proceso de
minería la integra a los ya difundidos data Warehouse y la presenta como una herramienta relevante y útil para
la organización actual.
La minería de datos consiste en descubrir información interesante dentro de las bases de datos existentes en la
organización pero que se encuentra escondida debido a la gran cantidad de datos almacenados.
Técnicas analíticas.
Existen distintas técnicas para el análisis de datos. Hay maneras convencionales como el OLAP, herramientas
estadísticas, y , una de las más nuevas, la minería de datos. El valor que entrega la minería de datos puede ser
mejor entendida cuando se compara con otras técnicas más convencionales.
Hipótesis utilizada por las técnicas convencionales.
Los modelos estadísticos son los más tradicionales y comunes para hacer análisis predictivos.
Asumamos que se quiere predecir el ingreso de una determinada persona en función de su edad. La figura
muestra que efectivamente existe una relación entre edad e ingreso.
La regresión lineal puede ser usada para mostrar que la función de ingreso es :
Ingreso = 235*edad +1254 es la mejor predicción para el ingreso futuro de la persona.
La desventaja de la estadística.
Los modelos estadísticos tiene el trasfondo en el que uno debe asumir la forma del modelo a priori . La
mayoría de las bases de datos contienen mucha información sobre los clientes, a veces almacenadas en varios
cientos de variables. Cuando se quiere construir un modelo, se debe seleccionar qué variables se van a utilizar
e incorporar en el modelo, y que relación entre las variables debiera existir; debido a esta condición, muchas
relaciones interesantes son pasadas por alto.
Por ejemplo, una analista podría querer determinar el factor de riesgo que se debe usar respecto de cada
cliente asegurado en una compañía que asegura autos. El analista podría suponer que los conductores hombres
son de alto riesgo y revisar las bases de datos para corroborar (o refutar por supuesto) ese supuesto.
Si el supuesto no es corroborado por la base de datos, él podría ver si existe una relación con otros factores
como sexo y edad juntos como mejores predictores de riesgo.
En otras palabras, la estadística genera series de patrones hipotéticos y relaciones que refuta o corrobora
usando herramientas también estadísticas. Pero, ¿qué pasa cuando el número de variables a ser analizada es
del orden de los cientos?., en esos casos se hace mucho más difícil (y desde luego demoroso) el encontrar
buenas hipótesis, que por lo demás pueden pasar por alto información valiosa.
La minería de datos revela información escondida.
La minería de datos es muy distinta de la estadística ya que, lejos de verificar patrones hipotéticos, usa los
mismos datos para descubrir los patrones existentes. Por ejemplo, supongamos que el analista que quería
descubrir los factores de riesgo en el caso de la aseguradora de autos utiliza herramientas de minería de datos.
El resultado sería que los hombres bajo los 24 años son de alto riesgo pero además le daría patrones que al
analista no se le había ocurrido pensar; como por ejemplo que el tipo de auto, en combinación con la edad y el
4
sexo también es un factor que debe determinar el coeficiente buscado.
Aproximadamente un 5% de las relaciones totales podrán ser conocidas mediante los métodos analíticos
tradicionales (como se ve en la figura anterior).
La minería de datos, en cambio, descubre el otro 95 % de las relaciones existentes que no habían sido
descifradas.
En otras palabras, se podría decir que los métodos tradicionales hablan a las bases de datos, mientras que la
minería de datos escucha a la base datos. En los métodos tradicionales, si no se hace la pregunta adecuada,
nunca se escucharan respuestas satisfactorias; en cambio la minería de datos, explora al interior de las bases
de datos desde cientos de puntos de vista diferente; logrando obtener las relaciones buscadas de los clientes.
Así, en el ejemplo anterior, en vez de preguntar a la base de datos ¿los hombres jóvenes que manejan autos
deportivos, constituyen un alto riesgo?; el usuario pregunta: ¿Cuáles son los clientes que presentan mayor
riesgo?.
Es la misma tecnología de minería de datos la que se preocupa de formular las hipótesis como: los
conductores jóvenes en autos deportivos han incrementado el riesgo en accidentes u otras por el estilo.
Supongamos que la organización descubre por medio de la minería de datos que los conductores hombres de
Santiago, con un ingreso mayor a los $800.000 son de bajo riesgo. Como la competencia no tiene esta
información, la empresa puede realizar campañas de marketing orientadas a atraer a este tipo de clientes con
interesantes beneficios para la organización y el cliente.
La minería de datos no reemplaza a la estadística tradicional; es más bien una extensión de la misma, que
forma parte de un resultado que ha sido formado por la comunidad estadística cambiando de manera radical
ciertos aspectos.
El incremento en el poder de las computadoras y los bajos costos, unidos a la necesidad de analizar enormes
bases de datos que contienen millones de filas, han permitido el desarrollo de nuevas técnicas basadas en la
exploración a fuerza bruta de las posibles soluciones.
El punto clave es que la minería de datos es la aplicación de éstas y otras técnicas estadísticas de inteligencia
artificial a problemas de negocios en una manera tal, que son alcanzables tanto a usuarios de negocios como
para expertos estadistas.
Fundamentos de la minería de datos.
Muchas técnicas han sido desarrolladas en el pasado buscando el objetivo de extraer información de las bases
de datos.
La minería de datos es una combinación de muchas técnicas probadas, tales como inteligencia artificial,
estadísticas y tecnologías de bases de datos.
Inteligencia artificial.
Desde la década de los 60's, la comunidad científica abocada a la inteligencia artificial ha estado estudiando e
investigando sistemas que sean capaces de aprender. Una clase de esos sistemas se ha llamado algoritmos de
inducción.
Un famoso ejemplo es el del juego de golf. Supongamos un jugador que practica el golf todos los Sábados; la
5
decisión de jugar, sin embargo, depende de las condiciones climáticas. Si el clima esta bueno, el deportista
juega; si está lloviendo, probablemente no jugará. Si almacenamos todos los posibles resultados del clima en
una base de datos, junto con la decisión a tomar en cada caso, los resultados se reflejarían en la siguiente
tabla.
Clima
Temperatura
Humedad Viento Golf
Soleado
Soleado
Nublado
Lloviendo
Lloviendo
35
28
20
15
17
Baja
Alta
Alta
Normal
Alta
No
Sí
No
Sí
Sí
Sí
No
Sí
Sí
No
De la tabla que se muestra, (que no es más que una pequeña base de datos) se pueden deducir las reglas de los
algoritmos de inducción). Por ejemplo:
Si clima = lluvioso y humedad = normal, entonces Golf = No.
Estos algoritmos de inducción permiten construir un árbol de decisión:
Humedad = Normal ...................Golf = Sí
Clima = Lluvioso
Humedad = alta...........................Golf = No
Clima = Nublada ................................................................Golf = Sí
Humedad = Baja............................Golf = Sí
Clima = Soleado
Humedad = Alta............................Golf = No.
Este simple ejemplo muestra como las reglas determinan si se juega o no golf en un determinado día. El
algoritmo modela el proceso de la toma de decisión del jugador. Asó, los algoritmos pueden generar modelos
que ayudan a predecir y entender comportamientos futuros en distintas situaciones.
Técnicas Estadísticas.
Los algoritmos de inducción usados en la inteligencia artificial son adecuados para descubrir reglas y modelos
en bases de datos relativamente pequeñas, tales como el caso del jugador de golf. El supuesto que hacen estos
modelos predictivos es que toda la información que se necesita está efectivamente almacenada en la base de
datos. Bajo estas condiciones, los algoritmos de inducción generan modelos que realizan predicciones
correctas para cada caso.
Pero, supongamos que (volviendo al caso del golfista) la decisión de ir o no a jugar también dependa del
estado del campo de golf; si esta información no está disponible en la base de datos, como de hecho ocurre, un
modelo predictivo perfecto no puede ser alcanzado.
En la realidad, las bases de datos, no contienen toda la información necesaria para tomar las decisiones
correctas. Esto no quiere decir que algunos datos tengan ruido o que algunas variables son desconocidas por
6
algunos clientes. Quiere decir que existe información relevante que simplemente no puede ser conocida por la
organización. Por ejemplo, el pronóstico de si alguien comprará o no un determinado producto depende de si
ya tiene un producto parecido, por ejemplo adquirido a la competencia. Como los competidores seguramente
no van a compartir la información de sus ventas con la organización, probablemente la última, no podrá hacer
buenos pronósticos. Aquí es donde entra la minería de datos.
La minería de datos usa Inteligencia artificial en combinación con estadísticas generar buenos modelos, aún
cuando no toda la información se encuentra disponible.
El test de Chi−cuadrado es necesario para validar la calidad del modelo.
Las Ventajas de la Minería de datos
En resumen, usar minería de datos para construir un modelo desde las bases de datos tiene las siguientes
ventajas.
• Los modelos son fáciles de entender.
Personas sin un back up importante de estadísticas (como un analista financiero o ejecutivos en general)
pueden interpretar el modelo y compararlo con sus propias ideas; recordemos que en la organización de hoy,
son los mismos ejecutivos los que deben meter las manos a las bases de datos para obtener la información que
necesitan. Así, el usuario gana más conocimientos sobre el comportamiento de los clientes y puede (y debe)
usar esta ventaja para optimizar el proceso de negocios de la organización.
• Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la tecnología de la minería de datos. Estas Bases de
datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede tener cientos
de atributos que contienen información detallada; y además tener miles de registros de clientes.
• La minería de datos descubre información que no se esperaba obtener.
Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En
muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados
que entregan valor a la compañía.
• Los Modelos Son Confiables
El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las predicciones
que se obtienen por el modelo son válidas y confiables.
• Los modelos se construyen de manera rápida.
La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El modelado se torna
mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor modelo es entregado al usuario.
Minería de datos: Un cuadro de trabajo extensivo
Para sostener las distintas aplicaciones, los sistemas de minería de datos contienen una gran variedad de
técnicas y algoritmos. Uno de los desarrollados por centros de investigación europeos de minería de datos es
el Data Surveyor. Como resultado de este proyecto, algoritmos de minería de datos existentes fueron
revisados y separados en 3 dimensiones de tareas establecidas; así, los usuarios pueden realizar fácilmente su
7
elección optima seleccionando diferentes algoritmos.
Las 3 dimensiones describen el espectro de la minería de datos.
• Lenguaje de hipótesis
El objetivo de la minería de datos es alcanzar y descubrir un modelo que sea capaz de encontrar información
útil escondida al interior de las bases de datos. El lenguaje de hipótesis describe el modelo. Como todas las
hipótesis consisten en las mismas tablas de diccionarios de datos, atributos y relaciones; los resultados de un
lenguaje pueden ser fácilmente transferidos a otro. Por ejemplo, el usuario puede construir una lista de
decisión (a ingresar) usando una regla previamente descubierta.
No existe sólo una manera o técnica de hacer aprendizaje de máquinas o reconocimiento de patrones, distintos
supuestos asumen distintas maneras de enfrentar el problema (sin que una sea necesariamente mejor que otra).
Hay ocasiones en que se necesita usar diferentes técnicas en varias etapas del análisis del procesamiento de
datos. Esto ilustra la validez de el escenario de estrategias múltiples que propone la minería de datos.
Ejemplo: Lista de decisión.
Existe una gran diferencia entre lista de decisión y las reglas de decisión explicadas en capítulos anteriores,
cuando una regla es encontrada usando una lista de decisión, el grupo al cual responde la regla en cuestión es
removida del resto de la población. En este aspecto no es posible que un individuo pertenezca a más de un
grupo.
Supongamos que un funcionario de marketing quiere promover un nuevo producto por la vía de mandar
panfletos a aquellos que él estima que serán los potenciales clientes.
El funcionario usa las siguientes reglas de decisión para obtener los grupos interesantes.
• Conductores hombres con un ingreso superior a los $500.000
• Mujeres jóvenes con hijos.
• Personas que son propietarias de una casa.
Los 2 primeros grupos contienen exactamente lo que se dice; el tercer grupo quiere decir Personas que poseen
una casa, que no necesariamente serán hombres con un ingreso superior a los $500.000 o mujeres jóvenes con
Hijos
En la figura que se muestra anteriormente, el primer grupo es encontrado usando la población completa, el
segundo restando la población del grupo, y así sucesivamente, este proceso se realiza hasta no encontrar más
grupos interesantes. El útimo grupo es llamado grupo residual.
Funciones de Calidad.
La calidad de la hipótesis define qué tan bien la hipótesis calza en el mundo real.
Búsqueda de Estrategias
La búsqueda de estrategias es usada para encontrar el modelo que mejor se ajusta a los datos. El objetivo es
encontrar la hipótesis con la mejor calidad al menor esfuerzo posible. Ejemplos de este tipo de estrategias son
los algoritmos genéticos, el modelo de escalar la montaña, o búsqueda exhaustiva.
Ejemplo: escalar la montaña
8
Probablemente el modelo de escalar la montaña es la estrategia más común, comienza por elegir un modelo y
luego investigar a todos los vecinos. El vecino con la más alta calidad es seleccionado para la investigación
futura. Todos sus vecinos son investigados y luego el mejor es elegido. Esto se efectúa hasta que no hay
nuevos vecinos con calidades superiores a las encontradas.
Una ventaja de esta aplicación es que encuentra un modelo óptimo de manera rápida y relativamente fácil .
Una desventaja es que puede tratarse de un optimo local.
Como se puede observar en la página anterior, la estrategia va a encontrar un óptimo. Este ejemplo ilustra que
existe una posibilidad de encontrar un óptimo local en lugar de obtener el absoluto.
Arquitectura
La arquitectura que se comenta a continuación es la empleada actualmente en los Institutos más importantes
de europa.
El producto está basado en una arquitectura de 3 herramientas en conjunto
• La primera es la interfaz del usuario (GUI). Las GUIs están escritos en lenguaje puramente de Java; lo que
significa cero preocupación por el mantenimiento por parte del cliente, y pode aplicarlo desde un browser
conectado en red. Además los expertos pueden analizar la construcción del modelo para orientarlo a una
problemática en particular; los administradores pueden configurarlo para hacer más accesibles a los
usuarios dándoles flexibilidad.
• La segunda es el servidor de la aplicación de la minería de datos. En servidor da la funcionalidad a la
minería de datos. Contiene un repositorio, que mantiene todos los objetos en el ambiente de la minería de
datos, por ejemplo modelos, cache de los datos, escenario de minería, etc. el servidor ofrece también acceso
simultaneo a las fuentes de datos como Oracle data bases, y otras bases de datos. Los servidores también
exportan resultados de minería de datos de otros software como podría ser el Sql o Corba.
• La última es la base de datos como las Data Warehouse que contienen los datos sobre los cuales se hará la
minería.
Análisis
Generador de Reportes
Olap
Estadísticas
Minería
De
Datos
Incremento en Datos
Respuesta
Interacción
9
Estrategia
Logistica
Marketing
Produccion
Organización
10
5 % relaciones conocidas
Técnicas tradicionales
95 % relaciones escondidas
11
Minería de datos
Toda la población Menos el primer grupo
1
1
2
Toda la población menos los grupos 1 y 2.
1
2
3
Toda la población menos los grupos 1, 2 y 3.
12
Intra WEb
Repositorio
Fuentes de Datos
13
Servidor
De la
Aplicación de minería.
Cliente
Experto
Administrador
14
Descargar