V CONGRESO CHILENO DE INVESTIGACIÓN OPERATIVA ‘Optima 2003’– VALPARAÍSO 2003-CHILE DISEÑO DE UN DATA MART Y APLICACIÓN DE DATA MINING EN LA DETECCIÓN DE FRAUDES PARA LA COMPAÑÍA GENERAL DE ELECTRICIDAD S.A. Daniel Ortega y Richard Weber Departamento de Ingeniería Industrial Universidad de Chile Santiago, Chile. RESUMEN Este trabajo se centró en el problema de las pérdidas no técnicas, esto debido a que se generan casi exclusivamente por el llamado hurto de energía en los suministros y por errores propios de administración por parte de la empresa. En este caso, se estudiarán posibles aplicaciones de herramientas Data Mining para encontrar reglas y patrones que permitan detectar posibles fraudes y/o potenciales conductas de abuso, sin dejar de lado las otras pérdidas que son administrativas y que también podrían ser descubiertas en el mismo proceso. Asimismo se estudiarán posibles patrones de comportamiento que describan diferentes conductas de los servicios eléctricos. La información utilizada para la creación de los modelos de detección y la construcción del Data Mart, provienen de la base de datos corporativa de la empresa, la que posee información histórica desde 1994. Esto permitió desarrollar un Data Mart para gestionar datos y obtener índices de las facturaciones desde 1998 al 2001. Los modelos de detección fueron construidos gracias también a la información histórica existente acerca de suministros que habían tenido comportamiento anormal o fraudulento en el pasado. Con los resultados obtenidos por los dos modelos de predicción desarrollados, existe la posibilidad de detectar en un 80% las mermas debido a las pérdidas no técnicas. Por ello, se pretenden desarrollar informes que permitan a los establecimientos de la Compañía, tener una herramienta metodológica adecuada, que facilite las labores de control sobre los suministros anormales, y poder así, obtener parte de los US$ 3.000.000 que dejan de percibirse por este concepto al año. En el futuro, lo que se pretende, es que con los informes generados en forma bimestral a los diferentes establecimientos de la Compañía, los recursos de la revisión sean dedicados preferentemente, a los servicios que posean mayor probabilidad de estar con conducta anormal y con un importante monto en dinero asociado a dicha pérdida. Las técnicas de Data Mining, son un real aporte a la búsqueda de información, ya que representan una nueva manera de visualizar los datos, constituyendo una fuente de exploración muy amplia, dada la variedad de formas de encontrar información escondida en las bases de datos y al apoyo de distintas herramientas que están disponibles en el mercado. INTRODUCCIÓN Y OBJETIVOS En las empresas de distribución eléctrica, las principales fuentes de pérdidas se clasifican en las pérdidas técnicas y las no técnicas. Las pérdidas técnicas, son mermas propias del negocio y no serán tratadas en este trabajo, ya que están relacionadas con las tecnologías usadas en las redes de alta tensión para el transporte de la energía, desde las generadoras hasta las empresas distribuidoras. El presente trabajo tuvo como objetivo, desarrollar un Data Mart de Ventas y Facturación y modelos matemáticos que permitieran detectar pérdidas no técnicas en los suministros de distribución eléctrica. Cómo así también poder identificar atributos relevantes que permitan detectar las pérdidas no técnicas, modelar patrones que permitan detectar pérdidas cometidas en los suministros de energía eléctrica y mostrar beneficios de nuevas técnicas en la detección de pérdidas no técnicas en los suministros. RESULTADOS Debido a que lo que nos interesa, es poder detectar la mayor cantidad de servicios anormales, el Modelo Mensual desarrollado, tiene un grado de precisión de cerca de un 90%, lo que es bastante bueno si pensamos que por política de la empresa se pretende que todos los nuevos servicios que sean creados, sean facturados en forma mensual, y que en los próximos 4 años, se puedan cambiar la mayor cantidad de servicios que actualmente que son facturados en forma bimensual a facturaciones mensuales Los resultados obtenidos por los modelos, son de gran impacto para la empresa, debido a que si estimamos que en un 75 % de los casos, en promedio, se puede detectar con precisión, los ahorros potenciales por parte de la empresa ascienden a cerca de US$ 2.250.000 de los US$ 3.000.000 que no está percibiendo por este concepto. No es de esperar que se pueda alcanzar a recuperar el total de estas pérdidas por motivo de fraudes o errores administrativos, pero lo que se quiere, es poder acercarse lo más posible al total, una meta que no está tan lejos de cumplirse con estos modelos. Se puede observar que el modelo de detección de pérdidas no técnicas para servicios con períodos de facturación mensual, es bastante preciso y entrega precisión por sobre el 87% de los casos presentados. Como la idea de la empresa es, en un horizonte de mediano plazo, hacer que todos los suministros sean facturados en forma mensual, es que la impresión por parte de los ejecutivos de la empresa es de gran conformidad con los resultados obtenidos por los modelos elaborados. El modelo bimensual aunque presenta más casos para el entrenamiento y testeo, no logra la precisión del modelo mensual, pero sin embargo es considerado de gran utilidad por parte de la Compañía. Los resultados de este modelo fueron realizados con la herramienta Data Engjne 1, que permite al usuario calibrar casi todos los parámetros de la red neuronal, y seleccionar la que a juicio del usuario sea la mejor. 1 Herramienta de Data Mining de MIT: Management Intelligent Technology de Alemania. www.mitgmbh.de CONCLUSIONES Sobre la base de haber cumplido los objetivos, tanto general como específicos de este trabajo, se concluye que los resultados obtenidos, son de gran impacto y utilidad para la empresa en particular y en el negocio de la distribución eléctrica. El diseño del Data Mart para las facturaciones y ventas que la Compañía, ha optimizado en recursos de tiempo y performance, las consultas de los usuarios, ya que la gestión sobre datos, que siempre habían sido consultados a las bases de datos operacional, ahora se realizan en forma permanente al modelo multidimensional de datos desarrollado durante este trabajo. Con los resultados obtenidos en este trabajo, se puede decir que los modelos de detección de las pérdidas no técnicas, logran el objetivo de poder coordinar y sistematizar el proceso de localización de estas mermas, ya ahora se tienen nuevas herramientas que pueden ser utilizadas para lograr determinar cuáles son los suministros que tienen conductas anormales, como también poder determinar cuáles son los que tienen una mayor probabilidad de estar en esta situación y poder tomar medidas para remediarlas. La herramienta de Data Mining escogida, trae implementados los modelos estándar utilizados por las demás herramientas, en este caso la técnica empleada para el desarrollo de esta detección, fue el de redes neuronales, debido a que trabaja bien con gran cantidad de datos y entrega una clasificación con la probabilidad relacionada, de que esté ocurriendo el evento en un suministro. Además facilita al usuario para la toma de decisiones sobre las acciones que se quieren implementar, para abocarse a los suministros con más alta probabilidad de conducta anormal y con un mayor dinero asociado. Los 2 modelos obtenidos para la detección de pérdidas no técnicas, entregan resultados dispares, mientras el modelo para los servicios de facturación mensual, entregan un buen índice de error, el otro modelo, el bimensual, es aun menos preciso que el anterior, esto puede obedecer a que se debe calibrar de mejor manera la red, o que los datos entregados al modelo son insuficientes para poder predecir mejor su comportamiento. Según la opinión del autor, la segunda es la que puede explicar de mejor manera este resultado, esto debido a que al haber menos datos para el análisis, debido a que no se encuentran, faltan parámetros para poder caracterizar mejor un servicio. REFERENCIAS BIBLIOGRAFICAS. Anahory, S.; Murray, D. (1997): “Data Warehousing in the real world” AddisonWesley. Harlow. Barros, O. (1998): “Tecnologías de Información y su uso en Gestión”. McGraw Hill. Santiago. Cabena, P.; Hadjinian, P.; Stadler, R.; Verhees, J.; Zanasi, A. (1997): “Discovering Data Mining from Concept to Implementation”. Prentice-Hall, Inc. New Jersey. Compañía General de Electricidad S.A. (2000): “Memoria Anual CGE S.A.”. Santiago. Silipo, R.; Berthold, M. (1999):”Intelligent Data Analysis, an Introduction”. Ed. Springer-Verlag. Berlin. Gianotti, F.; Pedreschi, D. (2000):”Tutorial EDBT Knowledge Discovery & Data Mining: Tools, Methods and Experiences”. University of Pisa & CNUCE-CNR. http://www-kdd.cnuce.cnr.it/publications.html Han, J. ; Kamber, M. (2001): “Data Mining - Concepts and Techniques”. Morgan Kaufmann Publishers, San Francisco. Segovia Cortes, Ana (2000): “Desarrollo de un Data Mart, para la Aplicación de técnicas de Data Mining, como apoyo a la gestión de ventas de una Isapre”. Memoria de título de Ingeniero Civil en Computación, Departamento de Ciencias de la Computación. Universidad de Chile. Santiago. Two Crows Corporation (1999):”Introduction to Data Mining and Knowledge Discovery”. 3ra Edición. http://www.twocrows.com Weber, R. (2000): “Data Mining en la Empresa y en las Finanzas Utilizando Tecnologías Inteligentes”. Revista Ingeniería de Sistemas XIV, No 1, 61-78. Weber, R. (2001): Apunte del curso IN60E, “Aplicaciones de bases de datos en la empresa”. http://www.dii.uchile.cl/~in65a