DATAMINING_TI

¿Quién quiere oro, cuando se tienen datos? La evolución informativa parece no tener fin. INTEGRANTES: Rodolfo González Ítalo Jara Tamara Navarrete Ariel Mella ¿Quién quiere oro, cuando se tienen datos? 2 ¿Quién quiere oro, cuando se tienen datos? Data Mining, la búsqueda de formas de cómo interpretar datos de manera inteligente, es una poderosa alternativa para poder extraer información y a esta darle un uso a un nivel más alto. Preparando, escaneando y seleccionando, el Data Mining nos ofrece opciones muy útiles a la hora de hacer análisis de nuestros datos, siendo capaz de “ver lo que no se ve” debido a que esta técnica rescata de las bases de datos lo que está implícito en ellas, así se aprovecha mejor lo que estas contienen. El proceso se desarrolla de manera detallada sin embargo rápidamente, comienza con una selección de datos, seguido del análisis de estos, y aquí entra de lleno el Data Mining, es en este paso donde se debe elegir una técnica de uso (especificadas en el interior de este informe) con la cual extraeremos conocimiento y tendremos evaluaciones de los datos 3 ¿Quién quiere oro, cuando se tienen datos? INDICE Introducción……………………………………………………………………………4 Historia………………………………………………………………………………….5 ¿Qué es el Data Mining?......................................................................................6 Descubrimiento del conocimiento (KDD)…………………………………………...8 Data Warehousing…………………………………………………………………….9 Herramientas del Data Mining……………………………………………………….10 Proceso de Extracción del Conocimiento…………………………………………..11 Sobre los Datos………………………………………………………………………...13 Tipos de Modelos de Minería………………………………………………………....14 Técnicas de Minería de Datos………………………………………………………..16 Extensiones del Data Mining…………………………………………………………19 Aplicaciones de la Minería de Datos…………………………………………………21 Proyecciones a futuro del Data Mining………………………………………………36 Conclusión……………………………………………………………………………...37 Bibliografía……………………………………………………………………………...38 4 ¿Quién quiere oro, cuando se tienen datos? INTRODUCCION A medida que pasa el tiempo, las necesidades del ser humano van aumentando de una manera bastante alarmante. Solo basta con realizar un corto flash back hasta alguno de los periodos más trascendentales vividos por la humanidad como por ejemplo, la revolución industrial donde se estableció una gran cantidad de trasformaciones socioeconómicas y tecnológicas para aumentar los niveles en términos de producción y beneficios, además de poder sustentar las necesidades de las personas, que crecían conforme al aumento de la población. Así como en este periodo de la historia al igual que muchos otros, existe un factor común dentro de la industrialización, del cual no nos podemos exentar y siempre estamos expuestos, nos referimos a la infinidad de necesidades existentes sobre todo en el ámbito empresarial. En donde se requiere un uso adecuado de la información e inmensidad de datos presentes para que de esta manera se pueda optimizar los procesos y mejorar de esta manera el rendimiento a nivel industrial. A continuación en el informe presentaremos una de las más sofisticadas herramientas de las cuales disponemos para generar y recolectar datos, la cual posee una gran importancia en materias de información, nos referimos al Data Mining. 5 ¿Quién quiere oro, cuando se tienen datos? UN POCO DE HISTORIA Al hablar del Data Mining, no nos referimos a un concepto explícitamente contemporáneo, realmente las primeras ideas que se tienen acerca de este proceso se revocan ya hasta mediados los años setenta donde se buscaba encontrar correlaciones en bases de datos, pero no fue hasta finales de los ochenta cuando se comenzó a consolidad la idea de Data Mining y KDD (Knowledge Discovery and Data Mining). Ya a mediados de la década de 1990 se hizo notar el impacto de grandes cantidades de datos acumulados y las dificultades de interpretarlos de un modo productivo, lo que llevó al desarrollo de novedosas técnicas de Data Mining y análisis inteligente de datos. Ahora bien, actualmente es prioritario el uso de este tipo de herramientas en las empresas que necesitan identificar oportunidades y retener a sus clientes a partir del buen uso de la información, es más, hoy en día no sería exagerar el hecho de afirmar que más de la mitad de las empresas alrededor de todo el mundo utilizan este tipo de herramientas de análisis. En fin, podemos observar que estamos frente a un proceso de gran importancia a nivel informático y que sin duda alguna será aun más relevante a medida que trascurre el tiempo. 6 ¿Quién quiere oro, cuando se tienen datos? ¿QUE ES EL DATA MINING? En la más pura base de la definición como concepto, podemos referirnos al termino Data Mining como un proceso de identificación de patrones que se encuentran ocultos en los datos, es decir, es una herramienta que recopila las ventajas de diversas áreas como lo son la estadística, la inteligencia artificial, la computación grafica y el procesamiento masivo, la cual usa como materia prima las bases de datos para encontrar patrones y relaciones dentro de los datos, permitiendo de esta manera la creación de modelos, representaciones abstractas de la realidad y la representación de los datos obtenidos. ¿Qué sucedería si adoptamos herramientas de bases de datos que nos digan que hacer, según las informaciones que ellas presentan? Esta simple pregunta nos lleva a insertarnos en el concepto de Data Mining o minería de datos y a investigar las técnicas que este conlleva. Para poder generar una idea general del significado y aplicación de esta herramienta, consideremos un problema el cual puede solucionarse a través de la información generada: -Supongamos que usted es el gerente de mercadeo de una compañía de telefonía celular. El problema considera los siguientes aspectos claves: • La deserción de clientes es muy alta. • La producción (después de que el contrato expira) es del 40%. • Los clientes reciben un teléfono de regalo con el contrato. • Se le da un teléfono nuevo a cada persona cuyo contrato ha expirado, lo cual es muy caro y por ende poco rentable para la empresa. • Traer de regreso a un cliente después que se va, es difícil y caro. Existen diversas soluciones que podemos aplicar a esta clase de problemáticas, las cuales no necesariamente pueden requerir el uso de él Data Mining para su resolución, pero ya que nuestro principal objetivo dentro de este trabajo es dar una orientación de la aplicación de esta herramienta en diversos procesos, nos referiremos solamente a la solución que es posible obtener a partir de su uso: 7 ¿Quién quiere oro, cuando se tienen datos? Posibles soluciones: • Se debe predecir que clientes abandonarán la compañía tres meses antes que el contrato expire. • Si queremos conservar a un cliente que creamos abandonara la empresa, se le debería ofrecer un nuevo teléfono. • Interactuar dinámicamente con el cliente. Estas son algunas de las muchas resoluciones que pueden existir, ahora bien para todos los casos hábiles uno se pregunta, pero ¿De qué manera puedo llegar a tales conclusiones con el uso de esta herramienta? Dentro del desarrollo de este informe se irá explicando cada uno de los pasos a seguir para poder comprender el uso del Data Mining. A demás incluiremos una corta reseña sobre algunas técnicas en el proceso para optimizar los resultados. Otro ejemplo del uso del Data Mining es: Supongamos el siguiente contexto: Un supermercado “Líder” en donde se requiere aumentar el nivel de consumo en los usuarios. Para este caso utilizaremos la minería de datos para obtener valiosa información que aplicaremos de la mejor manera posible para aumentar las ganancias de la empresa. Dado el caso logramos descubrir que un gran porcentaje de los usuarios al comprar artículos como lo son los confites, y acompañamientos de tipo coctel, llevan consigo a demás bebidas alcohólicas como lo son las cervezas. Debido a esta valiosa información, a un ingeniero se le ocurre la idea de colocar un stand de cervezas junto al pasillo de artículos de coctel y confitería. A su vez el resultado no se hace esperar y al cabo de poco tiempo las ventas de bebidas alcohólicas aumentan en gran medida. Cabe destacar que esta es una mirada bastante simple del Data Mining, no obstante nos detendremos para explicar cada una de las etapas que este conlleva, ya que como hemos mencionado e incluso podemos observar en los ejemplos, es una herramienta de gran utilidad si la aplicamos correctamente. 8 ¿Quién quiere oro, cuando se tienen datos? DESCUBRIMIENTO DEL CONOCIMIENTO (KDD) Este se define como “La extracción no trivial de información potencialmente útil a partir de un gran volumen de datos, en el cual la información está implícita, en donde se trata de interpretar grandes cantidades de datos y encontrar relaciones o patrones, para conseguirlo harán falta técnicas de aprendizaje, estadística y bases de datos”. (Molina, 2001) Las tareas comunes en KDD son la inducción de reglas, los problemas de clasificación y clustering, el reconocimiento de patrones, el modelado predictivo, la detección de dependencias, etc. Este involucra un proceso iterativo e interactivo, de búsqueda de modelos, patrones o parámetros, los cuales descubiertos deben ser validos, novedosos para el sistema y potencialmente útiles. Todo esto a través de algoritmos. Regularmente los algoritmos de Data Mining deben tener 3 componentes principales: • El modelo, que contiene parámetros que han de fijarse a partir de los datos de entrada. • El criterio de preferencia, que sirve para comparar modelos alternativos. • El algoritmo de búsqueda, que viene a ser como cualquier otro programa de inteligencia artificial. El criterio de preferencia suele ser algún tipo de heurística y los algoritmos de búsqueda empleados suelen ser los mismos que en otros programas de inteligencia artificial. Las principales diferencias entre algoritmos de Data Mining se hallan en el modelo de representación escogido y la función del mismo, es decir, según el objetivo perseguido. 9 ¿Quién quiere oro, cuando se tienen datos? DATA WAREHOUSING Antes de comenzar a indagar de lleno en el proceso del Data Mining, debemos hacer un pequeño repaso de este concepto, el cual nos ayudará a comprender de mejor manera el proceso que se lleva a cabo en la minería d datos. El Data Warehouse es en si la base del Data Mining (aunque no siempre es así), el cual consiste en un almacén de datos categorizados, que concentra una gran cantidad de información de interés para toda una organización, la cual se distribuye por medio de diversas herramientas de consulta orientadas a la toma de decisiones. Su principal propósito es el de agrupar los datos, de tal manera que luego al ser utilizados con un fin analítico, sean fáciles de manejar y acceder. A este tipo de datos se les menciona normalmente como “Informativos” y son manejados por un sistema llamado OLAP (Online Analytical Processing). En resumen podemos decir que un Data Warehouse “es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales.” (Bill Inmon, 1992.) Las ventajas de un Data Warehouse son: • Gran poder de procesamiento de la información. • Facilita la toma de decisiones en los negocios. • Proporciona una mejor comunicación entre todos los departamentos de la empresa. • Proporciona información de gestión accesible, correcta, uniforme y actualizada. • Mejora el servicio hacia los clientes. • Permite el rediseño de los procesos. 10 ¿Quién quiere oro, cuando se tienen datos? HERRAMIENTAS DE DATA MINING Las herramientas de Data Mining empleadas en el proceso de KDD se pueden clasificar en dos grandes grupos: • Técnicas de verificación, en las que el sistema se limita a comprobar una hipótesis suministrada por el usuario. • Métodos de descubrimiento, en los que se han de encontrar patrones potencialmente interesantes de forma automática, incluyendo en este grupo todas las técnicas de predicción. El resultado obtenido con la aplicación de algoritmos de Data Mining pertenecientes al segundo grupo, el de técnicas de descubrimiento, puede ser de carácter descriptivo o predictivo. Las predicciones sirven para prever el comportamiento futuro de algún tipo de entidad mientras que una descripción puede ayudar a su comprensión Regularmente las técnicas de Data Mining e grandes bases de datos persiguen los siguientes resultados: • Clasificación: Se trata de obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta (como lo son los arboles de clasificación “CART”) cuyos resultados pueden expresarse mediante reglas ejecutables directamente por el método bayesiano. • Regresión: Se persigue la obtención de un modelo que permita predecir el valor numérico de alguna variable. • Agrupamiento: Hace corresponder cada caso a una clase, con la peculiaridad de que las clases se obtienen a partir de los datos de entrada utilizando medidas de similaridad. • Resumen: Se obtienen representaciones compactas para sub conjuntos de los datos de entrada. • Modelo de dependencias: Se obtienen descripciones de dependencia existente entre variables. • Análisis de secuencias: Se intenta modelar la evolución temporal de alguna variable, con fines descriptivos o predictivos. 11 ¿Quién quiere oro, cuando se tienen datos? PROCESOS DE EXTRACCION DE EL CONOCIMIENTO 1.- Integración y recopilación: • Primero se determinan las fuentes de información útiles. • Se unifican todas las fuentes de datos (Diseñar el Data Warehouse) • Los datos deben presentarse en una tabla plana llamada “vista minable”. 2.- Selección, Limpieza y Trasformación: • Selección de la vista minable. • Se eliminan todos los datos que quedan aislados. • Se realiza una nueva búsqueda para recopilar los datos faltantes. • Elección de las variables. • Discretización y Numeración. (La discretización es la conversión de un valor numérico en un valor nominal ordenado, en cambio la numeración es el proceso inverso a la discretización). 3.- Minería de Datos: Esta fase del proceso se subdivide a su vez en 2 fases de gran importancia. Las cuales nombraremos sin entrar en más detalles en esta sección: *Tareas: • Predictivas: clasificación y regresión. • Descriptivas: agrupamiento, reglas de asociación y correlaciones. 12 ¿Quién quiere oro, cuando se tienen datos? *Técnicas: • Inferencia Estadística. • Arboles de Decisión. • Redes Neuronales. • Introducción de reglas. • Aprendizaje Bayesiano. • Entre otras. 4.- Evaluación e Interpretación: • Técnicas de evaluación. • Combinación de modelos. • Interpretación, Difusión y uso de modelos. 5.- Obtención del conocimiento • Correcta aplicación de la información obtenida (Esta fase queda en manos de analistas de negocios bien entrenados) Fin Proceso. 13 ¿Quién quiere oro, cuando se tienen datos? SOBRE LOS DATOS Generalmente los datos que se requieren investigar se encuentran en: • Archivos planos. • Hojas de Cálculo. • Backups. • Documentos. • Datos Externos. • Contenidos de Internet. • DW. El análisis posterior será mucho más sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. Las ventajas de organizar un almacén de datos para realizar la minería de datos se amortizan sobradamente a medio y largo plazo cuando: • Tenemos grandes volúmenes de datos. • Los datos van aumentando con el tiempo. • Provienen de fuentes heterogéneas. • Si se combinan de forma arbitraria y no predefinida. Los almacenes de datos no son imprescindibles para hacer la extracción de conocimiento a través de datos, ya que se puede aplicar la minería de datos sobre un archivo de datos. 14 ¿Quién quiere oro, cuando se tienen datos? TIPOS DE MODELOS DE MINERIA ¿Cuán exactamente es capaz Data Mining de decirle cosas que usted desconoce o que van a pasar? La técnica utilizada para realizar estas hazañas en Data Mining se llama modelado. Modelado es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual usted desconoce la respuesta. Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace ya mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde la respuesta es conocida y luego el software de Data Mining en las computadoras debe correr a través de los datos y distinguir las características de los datos que llevaran al modelo. Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, ¿Cómo saber si realmente es un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes, donde usted ya conoce la respuesta. Con Data Mining, la mejor manera de realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso está completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos. Anteriormente se menciono durante la tercera fase del proceso de Data Mining, una sub fase denominada “Tareas”; la cual a su vez se sub dividía en dos formas o modelos de trabajo, las predictivas y las descriptivas. Cabe mencionar que cada una de estas tareas corresponde a modelos de minería de dato, las cuales son creadas a partir de algunas técnicas de minería. Un modelo predictivo es el que se encarga principalmente de responder preguntas sobre datos futuros, como bien dice la palabra, predice y anticipa los datos venideros. 15 ¿Quién quiere oro, cuando se tienen datos? Por ejemplo: • ¿Cuáles serán las ventas el año próximo? • ¿Es esta transacción fraudulenta? • ¿Qué tipo de seguro es más probable que contrate el cliente X? En cambio un modelo descriptivo se preocupa de proporcionar información sobre las relaciones entre los datos. Por Ejemplo: • Los clientes que suelen comprar pañales, compran cerveza. • El tabaco el alcohol son los factores más importantes en la enfermedad “X”. • Los clientes sin televisión y con bicicleta tienen características muy distintas del resto. Es de gran importancia mencionar que estos modelos no trabajan de manera aislada el uno del otro, es decir, cada uno de estos se puede encontrar por separado o se pueden encontrar ambos juntos a la vez. Estos modelos como bien se menciono son generados por técnicas como el clustering, clasificación, estimación, predicción y reglas de asociación, entre otras. 16 ¿Quién quiere oro, cuando se tienen datos? TECNICAS DE MINERIA DE DATOS Las técnicas de minería de datos se obtienen mediante la inteligencia artificial, subentiéndase esta como un agente racional no vivo, y la estadística. Estas técnicas, son simples algoritmos, que se aplican sobre una fuente de datos predeterminados para obtener resultados. Algunas de las técnicas de minería de datos más utilizadas son: La Regresión Lineal: Es un método matemático, que crea un modelo entre la relación de las variables dependientes, las variables independiente y un término aleatorio. Esta es una de las técnicas más utilizadas para formar relaciones entre datos, de una manera rápida y eficaz, aunque insuficiente en relaciones con más de 2 variables. Redes Neuronales: Estas son un prototipo de aprendizaje y procesamiento automático, infundido netamente en la forma de trabajar del sistema nervioso animal. De manera más práctica es un procedimiento de interconexión de “neuronas” en una red, que de manera conjunta ayudan a producir un estímulo de salida (Respuesta). Algunos ejemplos de Redes Neuronales son: • El perceptrón: Usa una matriz para representar las redes neuronales y es un discriminador terciario que traza su entrada x (un vector binario) a un único valor de salida f(x) (un solo valor binario) a través de dicha matriz. • El Perceptrón multicapa: Esta formada por múltiples capas, esto le permite solucionar problemas que no son linealmente segregables, siendo esta la principal restricción del perceptrón. • Los Mapas Autoorganizados o Redes de Kohonen: Estos son un modelo de red neuronal no controlada, competitiva, distribuida de forma regular en una rejilla de, usualmente, dos dimensiones, cuyo fin es revelar la estructura subyacente de los datos introducidos en ella. A lo largo del entrenamiento de la red, los vectores de datos son introducidos en cada neurona y se comparan con el vector de peso característico de cada neurona. La neurona que presenta menor diferencia entre su vector de peso y el vector de datos es la neurona ganadora (o BMU) y ella y sus vecinas verán modificados sus vectores de pesos. 17 ¿Quién quiere oro, cuando se tienen datos? • Modelos estadísticos: Es un enunciado simbólico en representación de una igualdad o ecuación que se utiliza en todos los diseños experimentales y en la regresión para señalar los diferentes agentes que modifican la variable de respuesta. Árbol de decisión: Es un modelo de predicción, el cual construye diagramas de construcciones lógicas para representar y categorizar una serie de condiciones que ocurren de manera sucesiva, para la resolución de un problema. Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta, esta herramienta utiliza valores para tomar las entradas y salidas correspondientes, los cuales pueden ser valores discretos o continuos. Con regularidad se utilizan los valores discretos debido principalmente a su simplicidad, además cabe destacar que en una función al utilizar un valor discreto, la aplicación se denomina “clasificación”. En cambio al utilizar los valores continuos, nos encontramos hablando de una “regresión”. Durante el proceso se lleva a cabo un test a medida que este árbol de decisión se recorre hasta las hojas para alcanzar una determinación. El árbol además contiene nodos internos, nodos de probabilidad, nodos hojas y arcos, los cuales se encargan de diversas propiedades. Un nodo interno contiene un test sobre algún valor de una de las propiedades. Un nodo de probabilidad indica que debe ocurrir un evento aleatorio de acuerdo a la naturaleza del problema. Un nodo hoja representa el valor que devolverá el árbol de decisión y finalmente las ramas brindan los posibles caminos que se tienen de acuerdo a la decisión tomada. En resumidas cuentas podemos decir que los árboles de decisión son diagramas de decisiones secuenciales que nos muestran sus posibles resultados. Las empresas son una de las entidades que mas utiliza este tipo de técnica, ya que les ayuda a determinar cuáles son sus opciones al mostrarles las distintas decisiones y sus resultados. Algoritmo de agrupamiento (clustering): Consiste en la agrupación de una serie de vectores de acuerdo a un criterio de cercanía, la cual se determina en términos de funciones de distancia o variables discretas. A los vectores de un mismo grupo se les denomina “clusters”, de aquí el nombre del proceso, los cuales comparten propiedades comunes. El conocimiento de los grupos te permite hacer una descripción sintética de un conjunto de datos multidimensional complejo. Esta se consigue sustituyendo la descripción de todos 18 ¿Quién quiere oro, cuando se tienen datos? los elementos del cluster, por una descripción característica de un representante del grupo. En algunos contextos, se le considera una técnica de aprendizaje no supervisada puesto que busca encontrar relaciones entre variables descriptivas, pero no las que guardan con respecto a una variable objetivo. También podemos nombrar algunos ejemplos donde se aplica este tipo de técnica, pero no profundizaremos en ellas, principalmente para no desviarnos del tema en cuestión: • Algoritmo K-means. • Algoritmo de K-medoids “Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican en supervisados y no supervisados” (Weiss y Indurkhya1 1998) • Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. • Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en los datos. 19 ¿Quién quiere oro, cuando se tienen datos? EXTENSIONES DEL DATA MINING “Una de las extensiones del Data Mining consiste en aplicar sus técnicas a documentos y servicios de la web, lo que se denomina como Web Mining (minería de web)” (Kosala y Otros, 2000). Todos los que visitan un sitio web en internet dejan huellas digitales (direcciones de IP, navegador, cookies, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de esos Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo como es la navegación de un usuario antes de hacer una compra en línea. Debido a que los contenidos en internet consisten en varios tipos de datos, como texto, imagen, video, metadatos o hiperligas, investigaciones recientes utilizan el termino Data Mining como una instancia del Web Mining para tratar este tipo de datos. Los accesos totales por dominio, horarios de acceso más frecuentes y visitas por día entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del Web Mining. Normalmente, el Web Mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos: • Minería de contenido de web: Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también puede formar parte de esta categoría. • Minería de estructura web: Es el proceso de inferir conocimiento de la organización del WWW (World Wide Web) y la estructura de sus ligas. • Minería de uso web: Es el proceso de extracción de modelos interesantes usando logs de los accesos a la web. Un ejemplo de esta herramienta en acción: El setenta por ciento de los clientes que hicieron una compra en línea en /compra/producto1.html también compraron en /compra/producto4.html después de un mes. Esto indica que se podría recomendar en la pagina del producto 1 comprar el producto 4 y ahorrarse el costo de envió de este producto. Sin embargo este es uno de los múltiples ejemplos de la aplicación de esta herramienta, en la realidad existen herramientas de mercado muy poderosas con métodos muy variados y visualizaciones graficas excelentes. 20 ¿Quién quiere oro, cuando se tienen datos? Estudios recientes indican que el ochenta por ciento de la información de una compañía esta almacenada en forma de documentos. Sin duda este campo de estudio es muy vasto, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras cosas apoyan el Text Mining. Generalmente se utilizan palabras claves para encontrar una página relevante. En cambio, el Text Mining se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo especifico. Una aplicación muy popular del Text Mining es relatada en Hearst (1999). Don Swanson intenta extraer información derivada de colecciones de texto. Teniendo en cuenta que los expertos solo pueden leer una pequeña parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. Así, Swanson ha demostrado como cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraña, dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos presentes en la literatura biomédica, algunas de las claves fueron: • El estrés está asociado con la migraña. • El estrés puede conducir a la perdida de magnesio. • Los bloqueadores de canales de calcio previenen algunas migrañas. • El magnesio es un bloqueador natural del canal de calcio. • La depresión cortical diseminada (DCD) está implicada en algunas migrañas. • Los niveles altos de magnesio inhiben la DCD. • Los pacientes con migraña tienen una alta agregación planquetaría. • El magnesio puede suprimir la agregación planquetaria. Estas claves sugirieron que la deficiencia de magnesio podía representar un papel importante en algunos tipos de migraña, una hipótesis que no existía en la literatura y que Swanson encontró mediante esas ligas. 21 ¿Quién quiere oro, cuando se tienen datos? APLICACIONES DE LA MINERIA DE DATOS En los Estados Unidos se utiliza la Minería de Datos para la exploración de datos en sistemas federales de investigación. Un ejemplo concreto de esto es la famosa FBI (Federal Bureau of Investigation). En el año 2002 John Aschcroft, Director del FBI anunció que el Departamento de Justicia comenzaría a introducirse en la vasta cantidad de datos comerciales relacionados a los hábitos y preferencias de compra de los consumidores en distintas entidades comerciales, esto con el fin de detectar terroristas antes de que ejecuten alguna de sus extremas acciones. Con esta medida el FBI unirá todas las bases de datos posibles, que probablemente sean obtenidos mediante el número de la Seguridad Social y luego de la obtención y procesamiento de la información, podrán saber si una persona fuma, consume alcohol, que talla y marca de ropa comúnmente usa, un registro de arrestos, las revistas o periódicos a los que esté suscrito, su salario, su altura y su peso, sus contribuciones a la Iglesia, si perteneces a algún partido político u organizaciones no gubernamentales, si padece de alguna enfermedad crónica (como diabetes, cáncer o asma), los libros que lee, los productos de supermercado que compra, si tiene cuentas de bancos abiertas, si tiene licencia para conducir, entre otros. La investigación inicial rondó los sesenta millones de dólares estadounidenses para consolidar los almacenes de datos, el desarrollo de las redes de seguridad respectivas para compartir información e implementar nuevo software analítico y de visualización. Otra entidad que mencionaremos es la unidad Able Danger del Ejército de los Estados Unidos, ya que con el uso de la Minería de Datos habrían identificado al líder de los atentados del 11 de septiembre del 2001, Mohammed Atta, y a otros tres secuestradores del 11 de septiembre como posibles miembros de Al Qaedan que operan en los Estados Unidos más de un año antes del ya conocido ataque. El Servicio de Inteligencia y Seguridad Canadiense, también ha empleado este método. En la Empresa: Detección de fraudes en las tarjetas de crédito. En el año 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses provocados por fraudes con tarjetas de crédito. El Falcón Fraud Manager es un sistema que examina transacciones, propietarios de tarjetas de crédito y datos financieros para detectar y prevenir fraudes. Esta medida al principio estaba contemplada solo para los Estados Unidos, pero actualmente muchos países del mundo cuentan con este sistema. 22 ¿Quién quiere oro, cuando se tienen datos? Las mejorías que ha traído este sistema son más de seiscientos millones de dólares en ahorro cada año y una protección de cuatrocientos cincuenta millones aproximadamente de pagos con tarjetas en todo el mundo. En palabras simples, estaríamos hablando de aproximadamente el 65% de las transacciones con tarjetas de crédito. Un caso análogo es el lavado de dinero e incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones suelen seguir patrones característicos que permiten, con cierto grado de exactitud, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas. En los Negocios: La Minería de Datos contribuye significativamente en las aplicaciones administración empresarial basada en la relación con el cliente. En lugar de contactar a un cierto cliente desde una llamada telefónica o simplemente enviándole cartas a su domicilio, sólo se contactará con aquellos que se logre percibir que tienen una mayor probabilidad de responder positivamente a una oferta o nueva promoción. En el caso de las cartas, la medida a tomar sería exactamente la misma. Generalmente, las empresas que utilizan la Minería de Datos ven rápidamente el retorno de la inversión, pero como no es obligación que todos los clientes sean iguales y piensen igual, las empresas están obligadas a reconocer que el número de modelos predictivos desarrollados por la Minería de Datos crece rápidamente. De acuerdo con lo mencionado anteriormente, la empresa no buscaría crear modelos predictivos para cada uno de los clientes, sino, crear modelos predictivos para regiones o simplemente basados en modelos de clientes ideales. También puede querer determinar que clientes van a ser rentables durante un determinado tiempo (una semana, un mes, etc.) y sólo enviar dichas ofertas a las personas que es probable que sean rentables. Hábitos de compra en los supermercados. (El famoso ejemplo de los pañales y cerveza). Este es uno de los ejemplos más conocidos en la aplicación de la Minería de Datos en la empresa. Resulta que un estudio hecho detectó que los días viernes había incrementos en las ventas de pañales y cerveza. Se logró detectar que se debía a que dicho día solían ir a hacer las compras al supermercado, padres jóvenes cuyo panorama de fin de semana era cuidar a sus hijos en la casa y viendo la televisión disfrutando de una cerveza. Luego el supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar ese tipo de ventas, un poco más compulsivas. 23 ¿Quién quiere oro, cuando se tienen datos? Impedir que un cliente opte por la competencia. En muchas industrias tales como el banco, telefonía, etc. Existe un interés en detectar cuanto antes a aquellos clientes que tienen la posibilidad en la mente de cambiarse a la competencia. Obviamente cada uno de estos clientes que quisieran pasarse a la competencia, tienen un valor único como cliente, y la Minería de Datos juega un papel fundamental, para encontrar un modelo ideal de promoción u oferta especial para dicho cliente, esto con el fin de retenerlo. La Minería de Datos también aportaría datos de quienes son los clientes que más fácilmente se seducen por ofertas de las competencias y a aquellos clientes que comparan día a día el servicio en el que están con otros de otras compañías. Un estudio hecho en España que básicamente situó sus objetivos en dos puntos claves: el análisis del perfil de los clientes que deciden dejar el servicio y optar por el de la competencia y la predicción del comportamiento de sus nuevos clientes. Se analizaron los diferentes históricos de clientes que habían abandonado dicha compañía (12,6%) y de clientes que continuaban con el servicio (87,4%). También se analizaron las variables personales de cada cliente (estado civil, sexo, edad, nacionalidad). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, internacionales, interprovinciales, gratuitas. Al contrario de lo que se podría pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa indudablemente, sin embargo, una de las conclusiones más importantes fue que la gran mayoría de los clientes que dejaban el servicio, era ocasionado por que dichos clientes recibían pocas ofertas y promociones. Para evitar estas perdidas la empresa de telefonía tuvo que diseñar un sistema de trato más personalizado para ese tipo de clientes. En los Recursos Humanos: La Minería de Datos también se aplica a los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección Estratégica en una empresa se traduce en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos, y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra. Prediciendo las audiencias televisivas. La muy conocida BBC (British Broadcasting Corporation) De Inglaterra emplea un novedoso sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto, así como el tiempo 24 ¿Quién quiere oro, cuando se tienen datos? óptimo de exhibición. El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente modificada con datos más actualizados. Otras aplicaciones de la Minería de Datos en el ámbito empresarial e industrial las mencionaremos continuación: Segmentación de Mercado Target marketing / Nuevos productos – servicios Reducir costos de adquisición de clientes Retención de consumidores Determinar perfiles y entender su comportamiento Identificación de riesgo de quiebras Administración de reclamos Fraudes de Caja Determinar perfiles y entender su comportamiento Mejorar márgenes de ganancias por cliente Determinar la oferta correcta para cada tipo de consumidor Fraude del consumidor Análisis de performance de sucursal / marca / vendedor Planificación de canales de distribución y venta Administración de campañas de publicidad y análisis de resultados Consolidación de servicios Análisis de resultados de promociones Administración de Inversiones Análisis de patrones de consumo de productos y servicios 25 ¿Quién quiere oro, cuando se tienen datos? Proyección de ventas Satisfacción del consumidor Resolución de reclamos Modelado de tarifas y precios Rentabilidad de líneas de productos Administración de recursos Administración Operativa Administración de Capacidad En las Ciencias e Ingeniería: Análisis de gases. Se han aplicado técnicas de Minería de Datos para el análisis de gases disueltos en transformadores eléctricos. El análisis de gases disueltos se conoce desde hace mucho tiempo como una herramienta necesaria para diagnosticar transformadores. Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que podrían pasarse por alto utilizando las técnicas clásicas de análisis de gases disueltos. También podemos mencionar una serie de preguntas frecuentes que son utilizadas al trabajar en base a esta herramienta: ¿Cuál es el perfil de nuestros clientes? ¿Cuáles son los perfiles de los usuarios más rentables y de los menos rentables? ¿Cuáles son los perfiles de cliente de alto y bajo riesgo? ¿Cuál es su valor anual y a largo plazo? ¿Quién está próximo a dejar de ser cliente? ¿Cuáles son las mejores políticas para retenerlo? ¿Qué productos adicionales se pueden vender a cada cliente actual, en función de su perfil? ¿Cuál es la probabilidad de que lo acepte? ¿Cómo responderá cada cliente a las propuestas de nuevos productos? ¿Qué combinación de productos tiene mayor aceptación potencial? ¿Quiénes tienen la mayor probabilidad de no pagar un préstamo? 26 ¿Quién quiere oro, cuando se tienen datos? ¿Cuál es el patrón de deuda que indica una quiebra inevitable? ¿Qué patrones de uso de servicios indican fraude? ¿Qué consumidores son más prometedores para la actual campaña de marketing? ¿Qué nuevos clientes tienen la mayor probabilidad de responder a nuestra actual oferta? ¿Cuál es el probable porcentaje de respuesta afirmativa? ¿Cómo debe segmentarse el mercado para una mayor rentabilidad? En Investigaciones Espaciales: Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó aproximadamente tres terabytes de imágenes que contenían alrededor de dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bit por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos estos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, agujeros negros, etc. con una alta confiabilidad. Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo. En Genética: En el estudio de la genética humana, el objetivo principal es entender la relación cartografía entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la modificación a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riego de desarrollar enfermedades comunes como el cáncer o diabetes. Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de Minería de Datos que se utiliza para realizar esta tarea se conoce como “reducción de dimensionalidad multifactorial”. En Ingeniería Eléctrica: En el ámbito de la ingeniería eléctrica, las técnicas de Minería de Datos han sido ampliamente utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta monitorización es obtener información valiosa 27 ¿Quién quiere oro, cuando se tienen datos? sobre el estado de aislamiento de los equipos. Para la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan ciertas técnicas para agrupación de datos (clustering) tales como los Mapas AutoOrganizativos ya mencionados con anterioridad. Estos se utilizan para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías. En la Universidad: Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionada con sus estudios. Se hizo un estudio sobre los recién títulos de la carrera de Ingeniería En Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en México. Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los ex-alumnos durante su estancia en la Universidad. El objetivo era saber si con los planes de estudio de la Universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Mediante la aplicación de conjuntos aproximados se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, La Universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la Universidad. En la Red: Comportamiento en Internet. También es un área en boga el del análisis del comportamiento de los visitantes. Sobre todo, cuando son clientes potenciales en una página de Internet. O la utilización de la información obtenida por medios más o menos legítimos sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente que otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero. En los Clubes Deportivos: Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de 28 ¿Quién quiere oro, cuando se tienen datos? Minería de Datos y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la Asociación Nacional de Básquetbol (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, rebotes, canastas encestadas y doble marcaje a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los “Knicks” de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Sin embargo, cuando los “Bulls” de Chicago jugaban contra los “Knicks”, se encontró que el porcentaje de canastas encestadas después de que al centro de los “Knicks”, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los “Knicks” no reaccionaban correctamente a los dobles marcajes. Para saber el porqué, el cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los “Knicks” antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. En los Juegos: La Minería de Datos en los juegos de tableros como ajedrez, puede crear extrategias basadas en patrones de finales de otras partidas del mismo juego a la cual también se le incluye un estudio detallado por expertos en dichos juegos. Es decir; las estrategias se diseñan conforme a distintos patrones de finales ya jugadas, pero con la diferencia que se le aplican ciertas modificaciones para hacer un juego perfecto. Estas modificaciones ya mencionadas son proporcionadas por los técnicos. Ejemplos notables de investigadores que trabajan en este campo son Berlekamp en el juego “punto-y-cajas” (o timbiriche) y John Nunn en finales de Ajedrez. En Sudamérica: La famosa Crisis económica de Argentina del año 2001. Otro gran ejemplo de la aplicación de la Minería de Datos en los negocios fue en Argentina y su crisis financiera del año 2001, dentro de todos los procesos que se utilizaron, los más relevantes eran un enfoque claro en los negocios, la evolución tecnológica y todos 29 ¿Quién quiere oro, cuando se tienen datos? los desafíos que vendrían después (post-crisis). La industria financiera de Argentina enfocó su negocio a la antigüedad de sus clientes, las edades y las industrias financieras privadas. Las fuentes de datos para la Minería de Datos fueron aportadas de diferentes formas, con la utilización de Data Warehouse y CMR. Ya que así manejaron y consolidaron distintos formatos de datos. Pero luego de llegar una rápida solución de la crisis económica, viene la tarea más difícil; poder superar los desafíos post-crisis tales como la indiferenciación de marcas, el aumento de las competencias ya que estas empezarán a utilizar Minería de Datos, por lo tanto se lograba ver de mucho antes de superada la crisis que la Minería de Datos es una Ventaja Competitiva. En gran medida el éxito de aplicar Minería de Datos está en función de la cantidad y calidad de datos disponibles. Importaciones de Aduanas del Perú. Un gran fraude que logró ser detectado por la Minería de Datos, fue el de las importaciones de aduanas del Perú. Su rápida actuar se logró gracias al Credicard Brasil, el cual es un sistema para detección de fraude usando redes neuronales. Este sistema reduce el número de fraudes aproximadamente en un 40% en un año. Ahora bien, estas son aplicaciones a niveles internacionales, pero obviamente nos interesa saber qué es lo que pasa a nivel nacional con respecto al uso de este tipo de tecnología: Dentro de los Ámbitos Gubernamentales: Proyectos de Reforma: En la administración pública chilena, existe el Proyecto de Reforma y Modernización del Estado. Orientado a la modernización y la incorporación de tecnologías de información para el mejoramiento de la gestión pública. Este proyecto contempla varias áreas: • Gobierno Electrónico: Agenda Gobierno Electrónico, Comunidad Informática Gubernamental, Gobierno Electrónico local y regional y Interoperabilidad. • Modernización: Buenas Prácticas en Gestión Pública, Seguimiento Agenda modernización 30 de enero 2003, Sistema de Formación de Directivos Públicos. 30 ¿Quién quiere oro, cuando se tienen datos? • Participación: Defensor del Ciudadano, Ley de Bases sobre Participación Ciudadana. • Procedimiento administrativo: Apoyo a la Ley de Bases de Procedimiento Administrativo, Portal • Trámite Fácil, Ventanillas Únicas Electrónicas, Sistema de Actualización de Información de Trámites. Regionalización; Descentralización Hasta el momento el PRYME, ha logrado escaso avance. Debido a la conocida realidad del sector público en Chile, La inercia existente por parte de los funcionarios públicos ha retardado el avance de la modernización en las Instituciones Públicas. Sin embargo, ha habido algunos servicios que son modelos para la implementación de procesos que permitan agilizar, transparentar y hacer más eficiente la gestión pública, tales como el Portal Trámite Fácil o el apoyo a proyectos de ventanillas únicas electrónicas y la implementación de la Ley de Procedimiento Administrativo, dependen en gran medida de la calidad, completitud y vigencia de la información sobre los trámites públicos. Por ello, durante el 2004, el PRYME ha definido un Modelo de Actualización de Información de Trámites que permitirá realizar de manera sistemática, un conjunto de procesos y actividades conducentes a lograr una base de datos sobre trámites públicos permanentemente actualizada. Para facilitar esta tarea, se contará con una herramienta Web denominada SAIT (Sistema de Actualización de Información de Trámites), actualmente en desarrollo, la cual permitirá mediante un conjunto de funcionalidades, realizar las actividades de actualización, almacenamiento y entrega de reportes de información, así como también la administración de una base de datos única, consistente y bien estructurada. Hasta ahora el Gobierno de Chile cuenta con una gran cantidad de Datos y el mejor ejemplo para decirlo son los SENSO, en los SENSO está una de las mayores fuentes de datos de los ciudadanos de Chile los cuales podrían ser usados perfectamente por la Minería de Dato. Hasta ahora la Minería de Dato se utiliza en el Gobierno de Chile para detectar fraudes o abusos por parte de los funcionarios públicos. Al mismo tiempo La minería de Datos muestran variadas fortalezas para mejorar la gestión de las instituciones públicas, También en la ayuda para la mejoría en la responsabilidad de los funcionarios públicos. Para así, fortalecer la gestión de las entidades públicas para salvaguardar los recursos que se le asignan. De esta manera se 31 ¿Quién quiere oro, cuando se tienen datos? debe asegurar la fiscalización en los resultados y desprenderse de funciones que entorpecen el accionar de los funcionarios públicos. Poder anticiparse a las demandas de la ciudadanía, de esta manera se podrá crecer y cambiar con las perspectivas de la organización. Reaccionar rápidamente a las necesidades del entorno es clave para los servicios públicos, esto permite disminuir el tiempo. Y así, obtener los resultados en el corto plazo mientras se planea y se preparan los objetivos del futuro. Aprovechamiento de las Tecnologías de la Información y Comunicación (TIC) en los órganos de la administración mejorando los servicios e información ofrecida a los ciudadanos, incrementa sustantivamente la transparencia del Sector Público y la participación de los ciudadanos. De esta manera se puede realizar una gestión participativa, donde las personas realicen un control objetivo del accionar público. En la Empresa: El Banco Santander Utiliza Minería de Datos. En el mes de diciembre del año 2007 el banco Santander necesitaba con urgencia explorar su base de datos, con el fin de obtener el mayor conocimiento posible, para replantearse y proponer nuevas ofertas y promociones para sus antiguos y nuevos clientes, para esto el Banco adoptó la solución de la Minería de Datos. La institución realizó una evaluación para medir los beneficios y el desempeño de la solución, comparándola con otras del mercado, antes de adoptarla. Después de esta etapa, se concluyó que la solución de Minería de Datos procesó un gran volumen de datos en un corto espacio de tiempo, lo que demostró su desempeño superior. Un punto que se deberá destacar es que, en la mayoría de las tareas ejecutadas a través del recurso ofrecido por la Minería de Datos, obtuvo un desempeño del 70% superior en comparación con la solución ofrecida por los competidores, considerando también el tiempo de procesamiento de las actividades. Además de ello, según Daniel Arraes, gerente general de Modelos y Políticas de Riesgo del Banco Santander, otro ítem que ha tenido influencia en la adopción de la solución de la Minería de Datos fue la calidad de los servicios ofrecidos por el soporte técnico de SAS. La solución está siendo usada por el Banco Santander para procesar datos de más de 1 millón de clientes. De acuerdo con Daniel Arraes, además de trabajar con un gran volumen de informaciones, la solución SAS consigue actuar con diversas variables. “Para que tengamos una idea de su capacidad de análisis y proceso, en un trabajo con 15 mil a 20 mil registros, llegamos a operar con 300 32 ¿Quién quiere oro, cuando se tienen datos? variables. Otro ejemplo fue un proceso en el que evaluamos 2 mil variables de cada cliente para medir el comportamiento en nuestra cartera de cheque especial, lo que nos ha permitido comprobar la capacidad de proceso y análisis del producto”, enfatizó el gerente. Tres meses después del uso de la solución, el Banco Santander ha desarrollado cuatro nuevos modelos de evaluación de riesgo y una serie de otros estudios menores. De acuerdo con Arraes, se espera ya en el primer año de utilización de los modelos desarrollados con los recursos de la Minería de Datos, SAS, una disminución significativa en la pérdida de créditos en todas las carteras minorista del banco. “Cabe mencionar que está en constante crecimiento un volumen muy grande de operaciones y millones de clientes con necesidades diferentes, sin hablar de los diversos factores internos y externos de la economía que contribuyen para el aumento de la falta de cumplimiento de las obligaciones. Si adoptamos la solución de Data Mining de SAS, podremos optar por una solución con los más variados niveles de análisis de informaciones”, finaliza Daniel Arraes. En SONDA: En el departamento de Business Intelligence de SONDA, se está trabajando con el uso de la Minería de Datos y CMR. Al mismo tiempo los clientes de SONDA se empezaron a mostrar muy satisfechos de la medida tomada por SONDA sin antes ver los resultados, aunque si, los clientes estaban muy ansioso por saber cuánto es posible ahorrar mensualmente con el uso de aplicaciones de Minería de Datos. SONDA técnicamente está utilizando la metodología CRISP-DM para diseñar y construir cualquier aplicación que se base en el proceso de Minería de Datos que sigan los siguientes seis pasos: • Entendimiento del Problema • Entendimiento de los Datos • Preparación de los Datos • Modelado • Evaluación • Implementación 33 ¿Quién quiere oro, cuando se tienen datos? La experiencia con la que cuenta SONDA para el diseño y construcción de las aplicaciones basadas en el proceso de Minería de Datos, siguiendo estos seis pasos ya mencionados, han sido de nivel mundial. Un ejemplo claro de esto es el sistema “FraudScanning” que es utilizado para la detección temprana de licencias médicas fraudulentas y abusivas en el sector salud aplicado en la Isapre Banmedica. El sistema “FraudScanning” utiliza un conjunto de Redes Neuronales Supervisadas para cada una de las entidades envueltas en el problema: licencias médicas, afiliadas, profesionales, médicas y empleadoras. En el Periodismo: En Chile actualmente se está estudiando la posibilidad de implementar la Minería de Datos en el periodismo chileno. Como es de saber, la Minería de Datos se emplea principalmente a datos cuyos contenidos son esencialmente numéricos, pero también se sabe que hay técnicas de Minería de Datos la cual se usan para explorar bases de texto. La pregunta del millón es si ¿puede el periodismo beneficiarse de la Minería de Datos? Considerando que el periodismo es un gran consumidor de datos que recopila información, la procesa de distintas formas tales como el Periodismo Informativo y el Periodismo Interpretativo y además el periodismo conserva la información en “sistemas documentales” (bases de datos). Los factores que estarían a favor del uso de la Minería de Datos en el periodismo son que el periodismo es un gran consumidor y productor de la información, pero nos encontramos con el primer problema; la información que más interesa y más valor tiene, hoy, es la que permite relacionar entre sí múltiples hechos. Ésta es información con valor agregado y con valor de uso para el destinatario. Por lo tanto, si el Medio Periodístico utiliza mejor su sistema documental y “explota” adecuadamente sus Bases de Datos, será capaz de entregar más y mejor información con valor agregado y con valor de uso No se puede ignorar las exigencias que haría la Minería de Datos para poder adoptarlas en el periodismo como la utilización de Bases de Datos adecuadas esto puede requerir un tratamiento previo (traspaso con o sin codificación) y el empleo de un Software adecuado, lo cual no significa que solo se trate de una sola aplicación, sino de un conjunto de aplicaciones (suites), unas siendo más útiles que otras, según lo que vaya desvelando la investigación. En conclusión Para el analista de un sector determinado, podría transformarse en una herramienta de la mayor utilidad para comprender lo que está ocurriendo y tratar de visualizar los posibles derroteros de una determinada secuencia de hechos o encontrar relaciones entre hechos aparentemente inconexos. 34 ¿Quién quiere oro, cuando se tienen datos? En el Cuidado del Medio Ambiente: La contaminación de los aires y un grave problema tanto en Chile como en cualquier parte del mundo, y por tanto, a la hora de buscar soluciones se debe ser lo más práctico y concreto posible puesto que la cantidad de gases y de partículas es muy dañino para la salud, y en tiempos como los de hoy es necesario una solución inteligente. En Chile, existen leyes la cuales se refieren a la descontaminación en zonas donde los niveles de contaminantes excedan sistemáticamente las normas ambientales, y planes de prevención donde dichas normas se encuentren en peligro de ser sobrepasadas. La contaminación del aire en la ciudad de Santiago se origina principalmente durante el período otoño-invierno, en estos meses la población de la Región Metropolitana se ve afectada por un aumento repentino en los niveles de contaminación del aire. En la actualidad y a nivel mundial, el estudio y control de problemas de contaminación medioambiental, se aborda con el apoyo de los llamados DSS (Decision Support Systems, Sistemas de Soporte de Decisiones en español) que son una clase específica de sistemas de información que apoyan los procesos de toma de decisiones en las organizaciones. Estos DSS son sistemas interactivos que ayudan a la toma de decisiones facilitando el manejo de los datos, documentos, conocimiento y/o modelos que se usan para resolver problemas dentro de las organizaciones. Una de los ámbitos en que los DSS son de gran utilidad es en el apoyo a la toma de decisiones para análisis y control de problemas medioambientales, en particular el apoyo que puede brindar la Minería de Datos al permitir extraer patrones, modelos, relaciones, tendencias, etc., que finalmente permiten encontrar “reglas” o “patrones” (“conocimiento”) a partir de los datos y comunicarlos al usuario a través de los DSS. Los resultados obtenidos por el tratamiento de los datos con las herramientas de la Minería de Datos son presentados al usuario para apoyar su toma de decisiones a través de un de un Módulo DDS. Este módulo DSS facilita al usuario decisor aplicar medidas con respecto a los episodios críticos de Contaminación (alerta, preemergencia, emergencia), con interfaces usuarias que permitan a través de consultas al almacén de datos ver qué pasa si se toman decisiones, además de proporcionaren forma automática ayudas o sugerencias que asistan la tomador de decisiones. 35 ¿Quién quiere oro, cuando se tienen datos? También la Minería de Dato se ha utilizado para construir árboles de decisión ya que la predicción que se desea realizar se hará en base a categorías (bueno, regular, malo, critico). Refiriéndonos obviamente a los índice del aire. Dentro de la revisión realizada al uso de los DSS como herramienta de apoyo a la gestión de problemas ambientales, se ha encontrado que existen esfuerzos en el mundo por desarrollar herramientas que combinen técnicas de minería de datos y sistemas de soporte de decisiones, pero para aplicaciones específicas a lugares geográficamente definidos. Hasta ahora Chile utiliza un modelo predictivo llamado “Cassmassi”. Que es basado en los sistemas que mencionamos anteriormente DSS, pero lamentablemente el año que se implementó fue en 1999 y hasta ahora no se ha actualizado, lo que ha provocado porcentajes muy altos de incertezas a la hora de poder predecir una alerta o preemergencia ambiental. Chile hasta ahora está buscando métodos alternativos, métodos que utilicen la Minería de Datos pero que trabaje con unas suites de aplicaciones para que su porcentaje de incerteza se reduzca lo mayor posible. En el año 2003 un grupo de investigadores del Departamento de Física de la Universidad de Santiago de Chile (USACH) crearon un modelo basado en redes neuronales, que fue probado en paralelo con el modelo Cassmassi, en los cuales el modelo hecho por la USACH arrojaba resultados superiores, pero que lamentablemente cuando este modelo fue presentado al Congreso Nacional, ellos no lo consideraron una solución viable para implementarla en Santiago. El trabajo futuro es promisorio, pues encontrar soluciones alternativas al problema de la contaminación en la ciudad de Santiago de Chile se ha transformado en una cruzada de carácter humanitario, ya que los problemas a la salud de la población y a la economía del país están alcanzando niveles que sobrepasan lo aceptable por la comunidad. 36 ¿Quién quiere oro, cuando se tienen datos? PROYECCIONES A FUTURO DEL DATA MINING Actualmente el mejor uso del Data Mining es aquel donde el analista formula las consultas específicas a fin de que el sistema convalide o desmienta las hipótesis según los datos. Sin embargo, la tecnología continuara automatizando cada vez más el proceso de decisión en sí mismo, haciendo que las futuras herramientas de descubrimiento detecten las relaciones y generen esencialmente las hipótesis. Como último objetivo todavía lejano se intenta crear un sistema de descubrimiento de conocimiento de propósito general que, a medida que se vuelva más complejo, agregue sus propios aportes. A través del análisis cuidadoso, del examen meticuloso y de la asociación de datos sin una conexión obvia, podría ser capaz por ejemplo, de descubrir nuevos tratamientos para enfermedades u originales ideas para explicar el origen del universo. Con respecto a este concepto, el futurólogo A Toffler hace notar la que computadora puede sugerir soluciones imaginativas para ciertos problemas al descubrir relaciones nuevas o que hasta entonces habían pasado inadvertidas. Se podría pedir a la computadora que piense lo impensable, que piense en lo que aun jamás ha sido pensado. En poco tiempo más el Data Mining puede volverse tan común y fácil de usar como un e-mail. Podremos utilizar estas herramientas de forma masiva para analizar datos a gran escala y encontrar, por ejemplo, la mejor tarifa aérea a Cancún, conseguir el número telefónico d un antiguo compañero de clase, o encontrar los precios más económicos de las cortadoras de césped. El software se dará cuenta de donde buscar, como evaluar lo que encuentra y cuando dejar de buscar. Nuestro ayudante cognitivos puede volverse tan indispensables como lo es ahora el teléfono. La pregunta que ahora nos hacemos es: ¿Las computadoras ahora pensaran por nosotros?, una posible respuesta es que, nosotros debamos hacer que ellas piensen, o mejor dicho, descubran lo que nosotros queremos que descubran, que sirvan para lo que nosotros queremos que sirvan, el uso de tecnologías como el Data Mining conlleva muchas facilidades hacia la vida de los seres humanos, las computadoras se han hecho para facilitar nuestra vida cotidiana, no para complicarla y Data Mining representa una de estas facilidades, la cual por supuesto seguirá evolucionando. 37 ¿Quién quiere oro, cuando se tienen datos? CONCLUSION Un Sistema Datamining nos permite analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, segmentar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos. La llegada del DataMining se considera como la última etapa de la introducción de métodos cuantitativos, científicos en el mundo del comercio, industria y negocios. Desde ahora, todos los no-estadísticos -es decir el 99,5% de nosotros - pueden construir modelos exactos de algunas de sus actividades, para estudiarlas mejor, comprenderlas y mejorarlas. Anexos Administrador De Base De Datos El "Administrador de Base de Datos" será el responsable de mantener una Base de Data confiable para permitir la cabal ejecución del Plande Mercadeo, trabajando conjuntamente con las Unidades de R&D y Publicidad, los Especialistas de Producto y las Gerencias de Áreas. Funciones Parametrizar la alimentación de la Base de Datos por parte de los Operadores y Usuarios para garantizar su confiabilidad. Alimentar directamente la Base de Datos con aquella data o información que escape del dominio del Usuario u Operador para asegurar su representatividad y utilidad para fines de análisis y Mercadeo. Coordinar el diseño de Programas o Aplicaciones con el Area de Informática para preservar la compatibilidad de los sistemas y facilitar el uso de la Base de Datos. Depurar continuamente la Base de Datos para garantizar su confiabilidad. Respaldar todo registro para asegurar la preservación de la data. Concientizar al Usuario sobre los usos y la utilidad de la Base de Datos para propiciar su máximo aprovechamiento, por él más amplio universo de Gerentes, Unidades y Ejecutivos, para fines de Mercadeo. Brindar apoyo técnico al Usuario, Operador e Informática respecto al manejo y mantenimiento de la Base de Datos para evitar inconsistencias y contaminación de la data. Analizar la data e información que emana periódicamente de la Base de Datos, "first hand", cruzándola con aquella que generen los estudios de Mercados, para conformar alertas e informes oportunos. 38 ¿Quién quiere oro, cuando se tienen datos? Elaborar los Informes o Reportes que sean acordados por la Gerencia de Mercadeo, o aquellos que le sean solicitados, de acuerdo al Calendario aprobado, con el propósito de informar a las Gerencias oportunamente y documentar el Plan Operativo anual. Distribuir los Reportes a los Usuarios de acuerdo a las necesidades, usos y fines de cada uno. Informes Matriz de Clientes y Productos por Ejecutivo de Cuentas: Mensual Reporte Previo (Alerta de índices como PPC, GPM y variaciones): Mensual LINKIOGRAFÍA http://www.monografias.com http://www.google.cl http://www.wikipedia.com 39

DATAMINING_TI

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib