Grupo Número 5 Tema: Minería de datos Resumen Muchas organizaciones han acumulado una enorme cantidad de datos en lo que denominamos Bases de datos, cuando lo que realmente necesitan es información que les ayude a definir potenciales clientes y mercados, maneras de entregarles un mejor servicio a los mismos, en definitiva, a agregar valor a sus procesos. Una de las maneras de lograr estos objetivos (que desde luego no son triviales)es la minería de datos. La minería de datos usa estadística avanzada y algoritmos de inteligencia artificial para descubrir patrones y relaciones escondidas en las bases de datos. Propuesta • Introducción: explicación de los problemas actuales en bases de datos • Qué es el data mining • Técnicas de minería de datos • Beneficios para el negocio de esta técnica • Implementación en un caso práctico • Enfoque de TI y GTI • Conclusiones Ventajas competitivas de la minería de datos: Los mercados están en un constante cambio; los consumidores se tornan cada día más críticos; esperan cada vez un mejor producto, más individualizado y que solucione sus problemas particulares. La Competencia crece cada día más y nuevos medios de distribución se apoderan del mercado a una velocidad que no da tiempo para la reacción. Todos estos factores ejercen una presión sobre la organización y la empresa actual. Para poder mantener(y más que mantener mejorar) una relación con el cliente, y en consecuencia, mantenerse un liderazgo por sobre la competencia, se hace necesario tener mecanismos de adaptación a las necesidades del cliente (que, como ya mencionamos no son estáticas). Es por esta razón que la velocidad y flexibilidad de la organización son factores críticos a la hora de definir las ventajas competitivas de la empresa de hoy. Uno de los cambios paradigmáticos que se propone es que hoy el cliente en sí mismo forma el capital real de la empresa. Así, el foco ya no está en el producto sino en los intereses del cliente. ¿Qué quiere decir esto? Ofreciendo a nuestros clientes Los productos que ellos necesitan, a través de los canales de distribución adecuados y en el tiempo requerido la organización podrá sobreponerse a los traumáticos cambios que se viven en el mercado actual. Para poder lograr estos objetivos (que desde luego no son nada fáciles, ni mucho menos triviales) hay que 1 conocer las preferencias de los clientes, que, por si fuera poco, no son las mismas para todos. Aquí juegan un rol importantísimo las bases de datos que pueden albergar gran cantidad de información que identificará las necesidades de los clientes. Sin embargo, la acumulación de grandes cantidades de datos en las Data Warehouses no implica necesariamente un incremento en el conocimiento. La clave para lograr el objetivo plateado es la Minería de Datos, con esta herramienta se puede extraer conocimiento enfocado a grupos de clientes (con objetivos comunes por ejemplo). Las bases de datos (a través de la minería de datos) se exploran a través de miles de puntos de vista; lo que permite encontrar información escondida acerca del comportamiento de clientes para establecer patrones. Así los departamentos de marketing se adapta rápidamente y la flexibilidad a los requerimientos y necesidades de cada cliente se alcanzan. El marketing orientado al cliente. Como ya dijimos, el marketing está cambiando de una estrategia Orientada al producto a una Orientada al cliente. En Lugar de enfocarse en un producto a la vez y tratar de buscar tantos clientes como sea posible que quieran ese producto. La nueva estrategia de marketing se concentra en un cliente a la vez, y trata de maximizar el beneficio de tantos consumidores como ese consumidor en particular existan. En otras palabras, se diferencian clientes, no productos. Para competir en un mercado en que la interacción es primordial de manera exitosa, la organización debe entender como los clientes le agregan valor a la organización y ganan valor de la misma. Las Compañías deben saber cómo focalizar el tiempo y esfuerzo en a aquellos clientes que le darán el valor agregado más alto a la organización. En orden a lograr lo mencionado en el párrafo anterior se tiene (desde el punto de vista de las TI, claro): • Datos. Las Bases de datos computacionales pueden ayudar a recordar y mantener presente el complejo número de datos resultante de la interacción de los clientes y la organización. Los datos de los clientes son recogidos en distintos lugares de la organización. • Análisis Las nuevas técnicas de análisis como la minería de datos ofrece a la organización la oportunidad de explotar la información recogida en las bases de datos. La técnica de la minería de datos puede descubrir patrones escondidos dentro de la enorme cantidad de datos de las bases de datos y así lograr mejorar la interacción con el cliente y optimizar las acciones de marketing. • Interacción El desarrollo de la computación también ha hecho posible el incremento de herramientas interactivas en el área de las comunicaciones. Con la tecnología de la Internet, se puede cambiar la manera de la interacción con el cliente de una vía comunicacional de interacción (vale decir de la empresa al cliente en general) a una doble vía de interacción que se remite a cada cliente en particular. • Producción 2 Con las nuevas tecnologías de información la organización puede producir productos orientados a clientes y servicios orientados a las necesidades de cada cliente en particular. Combinando estas capacidades se crea una retroalimentación constante ente la empresa y el cliente; el cliente entrega al sistema sus requerimientos y necesidades. Y así la organización recuerda y anticipa sus preferencias presentes y futuras. Este Feedback tiene la ventaja adicional de lograr un cliente bastante leal a la organización. Claro que la empresa debe ser capaz de integrar la producción y servicios actuales a la retroalimentación con los clientes específicos (lo cual desde luego no es fácil.) El Ciclo de Aprendizaje. Una interacción continua entre la organización y los clientes hace que el ciclo de aprendizaje se haga cada vez más eficiente con el paso del tiempo, definiendo cada vez a un nivel de detalle mayor las necesidades y requerimientos del cliente. Con este sistema, el cliente siente que cada vez la organización lo entiende más; por esta razón, prefiere serle leal a la misma ya que su propio grado de satisfacción es mayor (todo gracias al cambio paradigmático de enfocar el marketing al cliente y no al producto). • Interacción El cliente expresa lo sus necesidades y requerimientos, ya sea de manera implícita o explícita. Crear oportunidades de diálogo con los clientes es un requisito fundamental para solicitarle retroalimentación (feedback) al cliente; pero el diálogo mismo debe ser integrado al conocimiento existente de la organización respecto de ese cliente y su necesidad de información adicional. • Bases de Datos Toda la información recolectada a través de los contactos entre la organización y el cliente, tal como transacciones, preferencias, etc; son almacenadas en bases de datos tipo Data Warehouse . • Minería de Datos A través de la minería de datos, la empresa puede analizar la respuesta de los clientes y así aprender más acerca del comportamiento de los clientes. Saber sobre el tipo de cliente que prefiere un artículo sobre otro, qué canales de distribución resulta más eficiente y en definitiva; cuales son los clientes más valiosos. • Acciones. Los perfiles provenientes de la minería de datos pueden ser usados en la cara de la organización, vale decir en el departamento de ventas para mejorar e implementar nuevas maneras de marketing, por ejemplo. La minería de datos hace que la respuesta del cliente a las acciones de marketing sea almacenada en las bases de datos y el proceso se repita (bajo la forma de un loop). Debido a la mayor interacción (y por ende retroalimentación), el cliente deberá gastar tiempo y energía en hacer que la organización conozca y sepa más y más acerca de sus necesidades individuales. Esto hace que la organización pueda dar una atención optima a un cliente que crece de manera continua; lo cual tendrá como consecuencia una reducción de costos y un aumento en los beneficios. Minería de Datos La minería de datos utiliza técnicas de estadísticas y aprendizaje de las máquinas para construir modelos que 3 predigan el comportamiento de futuro de los consumidores. Hoy, la tecnología automatiza el proceso de minería la integra a los ya difundidos data Warehouse y la presenta como una herramienta relevante y útil para la organización actual. La minería de datos consiste en descubrir información interesante dentro de las bases de datos existentes en la organización pero que se encuentra escondida debido a la gran cantidad de datos almacenados. Técnicas analíticas. Existen distintas técnicas para el análisis de datos. Hay maneras convencionales como el OLAP, herramientas estadísticas, y , una de las más nuevas, la minería de datos. El valor que entrega la minería de datos puede ser mejor entendida cuando se compara con otras técnicas más convencionales. Hipótesis utilizada por las técnicas convencionales. Los modelos estadísticos son los más tradicionales y comunes para hacer análisis predictivos. Asumamos que se quiere predecir el ingreso de una determinada persona en función de su edad. La figura muestra que efectivamente existe una relación entre edad e ingreso. La regresión lineal puede ser usada para mostrar que la función de ingreso es : Ingreso = 235*edad +1254 es la mejor predicción para el ingreso futuro de la persona. La desventaja de la estadística. Los modelos estadísticos tiene el trasfondo en el que uno debe asumir la forma del modelo a priori . La mayoría de las bases de datos contienen mucha información sobre los clientes, a veces almacenadas en varios cientos de variables. Cuando se quiere construir un modelo, se debe seleccionar qué variables se van a utilizar e incorporar en el modelo, y que relación entre las variables debiera existir; debido a esta condición, muchas relaciones interesantes son pasadas por alto. Por ejemplo, una analista podría querer determinar el factor de riesgo que se debe usar respecto de cada cliente asegurado en una compañía que asegura autos. El analista podría suponer que los conductores hombres son de alto riesgo y revisar las bases de datos para corroborar (o refutar por supuesto) ese supuesto. Si el supuesto no es corroborado por la base de datos, él podría ver si existe una relación con otros factores como sexo y edad juntos como mejores predictores de riesgo. En otras palabras, la estadística genera series de patrones hipotéticos y relaciones que refuta o corrobora usando herramientas también estadísticas. Pero, ¿qué pasa cuando el número de variables a ser analizada es del orden de los cientos?., en esos casos se hace mucho más difícil (y desde luego demoroso) el encontrar buenas hipótesis, que por lo demás pueden pasar por alto información valiosa. La minería de datos revela información escondida. La minería de datos es muy distinta de la estadística ya que, lejos de verificar patrones hipotéticos, usa los mismos datos para descubrir los patrones existentes. Por ejemplo, supongamos que el analista que quería descubrir los factores de riesgo en el caso de la aseguradora de autos utiliza herramientas de minería de datos. El resultado sería que los hombres bajo los 24 años son de alto riesgo pero además le daría patrones que al analista no se le había ocurrido pensar; como por ejemplo que el tipo de auto, en combinación con la edad y el 4 sexo también es un factor que debe determinar el coeficiente buscado. Aproximadamente un 5% de las relaciones totales podrán ser conocidas mediante los métodos analíticos tradicionales (como se ve en la figura anterior). La minería de datos, en cambio, descubre el otro 95 % de las relaciones existentes que no habían sido descifradas. En otras palabras, se podría decir que los métodos tradicionales hablan a las bases de datos, mientras que la minería de datos escucha a la base datos. En los métodos tradicionales, si no se hace la pregunta adecuada, nunca se escucharan respuestas satisfactorias; en cambio la minería de datos, explora al interior de las bases de datos desde cientos de puntos de vista diferente; logrando obtener las relaciones buscadas de los clientes. Así, en el ejemplo anterior, en vez de preguntar a la base de datos ¿los hombres jóvenes que manejan autos deportivos, constituyen un alto riesgo?; el usuario pregunta: ¿Cuáles son los clientes que presentan mayor riesgo?. Es la misma tecnología de minería de datos la que se preocupa de formular las hipótesis como: los conductores jóvenes en autos deportivos han incrementado el riesgo en accidentes u otras por el estilo. Supongamos que la organización descubre por medio de la minería de datos que los conductores hombres de Santiago, con un ingreso mayor a los $800.000 son de bajo riesgo. Como la competencia no tiene esta información, la empresa puede realizar campañas de marketing orientadas a atraer a este tipo de clientes con interesantes beneficios para la organización y el cliente. La minería de datos no reemplaza a la estadística tradicional; es más bien una extensión de la misma, que forma parte de un resultado que ha sido formado por la comunidad estadística cambiando de manera radical ciertos aspectos. El incremento en el poder de las computadoras y los bajos costos, unidos a la necesidad de analizar enormes bases de datos que contienen millones de filas, han permitido el desarrollo de nuevas técnicas basadas en la exploración a fuerza bruta de las posibles soluciones. El punto clave es que la minería de datos es la aplicación de éstas y otras técnicas estadísticas de inteligencia artificial a problemas de negocios en una manera tal, que son alcanzables tanto a usuarios de negocios como para expertos estadistas. Fundamentos de la minería de datos. Muchas técnicas han sido desarrolladas en el pasado buscando el objetivo de extraer información de las bases de datos. La minería de datos es una combinación de muchas técnicas probadas, tales como inteligencia artificial, estadísticas y tecnologías de bases de datos. Inteligencia artificial. Desde la década de los 60's, la comunidad científica abocada a la inteligencia artificial ha estado estudiando e investigando sistemas que sean capaces de aprender. Una clase de esos sistemas se ha llamado algoritmos de inducción. Un famoso ejemplo es el del juego de golf. Supongamos un jugador que practica el golf todos los Sábados; la 5 decisión de jugar, sin embargo, depende de las condiciones climáticas. Si el clima esta bueno, el deportista juega; si está lloviendo, probablemente no jugará. Si almacenamos todos los posibles resultados del clima en una base de datos, junto con la decisión a tomar en cada caso, los resultados se reflejarían en la siguiente tabla. Clima Temperatura Humedad Viento Golf Soleado Soleado Nublado Lloviendo Lloviendo 35 28 20 15 17 Baja Alta Alta Normal Alta No Sí No Sí Sí Sí No Sí Sí No De la tabla que se muestra, (que no es más que una pequeña base de datos) se pueden deducir las reglas de los algoritmos de inducción). Por ejemplo: Si clima = lluvioso y humedad = normal, entonces Golf = No. Estos algoritmos de inducción permiten construir un árbol de decisión: Humedad = Normal ...................Golf = Sí Clima = Lluvioso Humedad = alta...........................Golf = No Clima = Nublada ................................................................Golf = Sí Humedad = Baja............................Golf = Sí Clima = Soleado Humedad = Alta............................Golf = No. Este simple ejemplo muestra como las reglas determinan si se juega o no golf en un determinado día. El algoritmo modela el proceso de la toma de decisión del jugador. Asó, los algoritmos pueden generar modelos que ayudan a predecir y entender comportamientos futuros en distintas situaciones. Técnicas Estadísticas. Los algoritmos de inducción usados en la inteligencia artificial son adecuados para descubrir reglas y modelos en bases de datos relativamente pequeñas, tales como el caso del jugador de golf. El supuesto que hacen estos modelos predictivos es que toda la información que se necesita está efectivamente almacenada en la base de datos. Bajo estas condiciones, los algoritmos de inducción generan modelos que realizan predicciones correctas para cada caso. Pero, supongamos que (volviendo al caso del golfista) la decisión de ir o no a jugar también dependa del estado del campo de golf; si esta información no está disponible en la base de datos, como de hecho ocurre, un modelo predictivo perfecto no puede ser alcanzado. En la realidad, las bases de datos, no contienen toda la información necesaria para tomar las decisiones correctas. Esto no quiere decir que algunos datos tengan ruido o que algunas variables son desconocidas por 6 algunos clientes. Quiere decir que existe información relevante que simplemente no puede ser conocida por la organización. Por ejemplo, el pronóstico de si alguien comprará o no un determinado producto depende de si ya tiene un producto parecido, por ejemplo adquirido a la competencia. Como los competidores seguramente no van a compartir la información de sus ventas con la organización, probablemente la última, no podrá hacer buenos pronósticos. Aquí es donde entra la minería de datos. La minería de datos usa Inteligencia artificial en combinación con estadísticas generar buenos modelos, aún cuando no toda la información se encuentra disponible. El test de Chi−cuadrado es necesario para validar la calidad del modelo. Las Ventajas de la Minería de datos En resumen, usar minería de datos para construir un modelo desde las bases de datos tiene las siguientes ventajas. • Los modelos son fáciles de entender. Personas sin un back up importante de estadísticas (como un analista financiero o ejecutivos en general) pueden interpretar el modelo y compararlo con sus propias ideas; recordemos que en la organización de hoy, son los mismos ejecutivos los que deben meter las manos a las bases de datos para obtener la información que necesitan. Así, el usuario gana más conocimientos sobre el comportamiento de los clientes y puede (y debe) usar esta ventaja para optimizar el proceso de negocios de la organización. • Enormes bases de datos pueden ser analizadas. Enormes bases de datos pueden ser analizadas mediante la tecnología de la minería de datos. Estas Bases de datos pueden ser enormes tanto en largo como en ancho. Por ejemplo, para cada cliente se puede tener cientos de atributos que contienen información detallada; y además tener miles de registros de clientes. • La minería de datos descubre información que no se esperaba obtener. Como muchos modelos diferentes son validados, algunos resultados inesperados tienden a aparecer. En muchos estudios, se ha descubierto que combinaciones particulares de factores entregan efectos inesperados que entregan valor a la compañía. • Los Modelos Son Confiables El modelo es probado y comprobado usando técnicas estadísticas antes de ser usado, luego las predicciones que se obtienen por el modelo son válidas y confiables. • Los modelos se construyen de manera rápida. La minería de datos permite construir y generar modelos en sólo uno minutos u horas. El modelado se torna mucho más fácil puesto que muchos algoritmos son probados y sólo el mejor modelo es entregado al usuario. Minería de datos: Un cuadro de trabajo extensivo Para sostener las distintas aplicaciones, los sistemas de minería de datos contienen una gran variedad de técnicas y algoritmos. Uno de los desarrollados por centros de investigación europeos de minería de datos es el Data Surveyor. Como resultado de este proyecto, algoritmos de minería de datos existentes fueron revisados y separados en 3 dimensiones de tareas establecidas; así, los usuarios pueden realizar fácilmente su 7 elección optima seleccionando diferentes algoritmos. Las 3 dimensiones describen el espectro de la minería de datos. • Lenguaje de hipótesis El objetivo de la minería de datos es alcanzar y descubrir un modelo que sea capaz de encontrar información útil escondida al interior de las bases de datos. El lenguaje de hipótesis describe el modelo. Como todas las hipótesis consisten en las mismas tablas de diccionarios de datos, atributos y relaciones; los resultados de un lenguaje pueden ser fácilmente transferidos a otro. Por ejemplo, el usuario puede construir una lista de decisión (a ingresar) usando una regla previamente descubierta. No existe sólo una manera o técnica de hacer aprendizaje de máquinas o reconocimiento de patrones, distintos supuestos asumen distintas maneras de enfrentar el problema (sin que una sea necesariamente mejor que otra). Hay ocasiones en que se necesita usar diferentes técnicas en varias etapas del análisis del procesamiento de datos. Esto ilustra la validez de el escenario de estrategias múltiples que propone la minería de datos. Ejemplo: Lista de decisión. Existe una gran diferencia entre lista de decisión y las reglas de decisión explicadas en capítulos anteriores, cuando una regla es encontrada usando una lista de decisión, el grupo al cual responde la regla en cuestión es removida del resto de la población. En este aspecto no es posible que un individuo pertenezca a más de un grupo. Supongamos que un funcionario de marketing quiere promover un nuevo producto por la vía de mandar panfletos a aquellos que él estima que serán los potenciales clientes. El funcionario usa las siguientes reglas de decisión para obtener los grupos interesantes. • Conductores hombres con un ingreso superior a los $500.000 • Mujeres jóvenes con hijos. • Personas que son propietarias de una casa. Los 2 primeros grupos contienen exactamente lo que se dice; el tercer grupo quiere decir Personas que poseen una casa, que no necesariamente serán hombres con un ingreso superior a los $500.000 o mujeres jóvenes con Hijos En la figura que se muestra anteriormente, el primer grupo es encontrado usando la población completa, el segundo restando la población del grupo, y así sucesivamente, este proceso se realiza hasta no encontrar más grupos interesantes. El útimo grupo es llamado grupo residual. Funciones de Calidad. La calidad de la hipótesis define qué tan bien la hipótesis calza en el mundo real. Búsqueda de Estrategias La búsqueda de estrategias es usada para encontrar el modelo que mejor se ajusta a los datos. El objetivo es encontrar la hipótesis con la mejor calidad al menor esfuerzo posible. Ejemplos de este tipo de estrategias son los algoritmos genéticos, el modelo de escalar la montaña, o búsqueda exhaustiva. Ejemplo: escalar la montaña 8 Probablemente el modelo de escalar la montaña es la estrategia más común, comienza por elegir un modelo y luego investigar a todos los vecinos. El vecino con la más alta calidad es seleccionado para la investigación futura. Todos sus vecinos son investigados y luego el mejor es elegido. Esto se efectúa hasta que no hay nuevos vecinos con calidades superiores a las encontradas. Una ventaja de esta aplicación es que encuentra un modelo óptimo de manera rápida y relativamente fácil . Una desventaja es que puede tratarse de un optimo local. Como se puede observar en la página anterior, la estrategia va a encontrar un óptimo. Este ejemplo ilustra que existe una posibilidad de encontrar un óptimo local en lugar de obtener el absoluto. Arquitectura La arquitectura que se comenta a continuación es la empleada actualmente en los Institutos más importantes de europa. El producto está basado en una arquitectura de 3 herramientas en conjunto • La primera es la interfaz del usuario (GUI). Las GUIs están escritos en lenguaje puramente de Java; lo que significa cero preocupación por el mantenimiento por parte del cliente, y pode aplicarlo desde un browser conectado en red. Además los expertos pueden analizar la construcción del modelo para orientarlo a una problemática en particular; los administradores pueden configurarlo para hacer más accesibles a los usuarios dándoles flexibilidad. • La segunda es el servidor de la aplicación de la minería de datos. En servidor da la funcionalidad a la minería de datos. Contiene un repositorio, que mantiene todos los objetos en el ambiente de la minería de datos, por ejemplo modelos, cache de los datos, escenario de minería, etc. el servidor ofrece también acceso simultaneo a las fuentes de datos como Oracle data bases, y otras bases de datos. Los servidores también exportan resultados de minería de datos de otros software como podría ser el Sql o Corba. • La última es la base de datos como las Data Warehouse que contienen los datos sobre los cuales se hará la minería. Análisis Generador de Reportes Olap Estadísticas Minería De Datos Incremento en Datos Respuesta Interacción 9 Estrategia Logistica Marketing Produccion Organización 10 5 % relaciones conocidas Técnicas tradicionales 95 % relaciones escondidas 11 Minería de datos Toda la población Menos el primer grupo 1 1 2 Toda la población menos los grupos 1 y 2. 1 2 3 Toda la población menos los grupos 1, 2 y 3. 12 Intra WEb Repositorio Fuentes de Datos 13 Servidor De la Aplicación de minería. Cliente Experto Administrador 14